




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1實用統(tǒng)計方法第五章屬性數(shù)據(jù)分析(CategoricalDataAnalysis)2第五章屬性數(shù)據(jù)分析
為了某種目的通過調(diào)查表進(jìn)行社會調(diào)查得到的數(shù)據(jù)----調(diào)查數(shù)據(jù),一般都是屬性數(shù)據(jù)。即在許多調(diào)查研究中,所得到的信息是樣本中個體的分類,而不是定量變量的值。例如,在某次調(diào)查中,根據(jù)人們的性別,對顏色的喜好等,將他們分類。在某次政府調(diào)查中,根據(jù)公司的產(chǎn)品類型,公司的所在地區(qū),及產(chǎn)品是否出口,將這些公司分為不同組。在市場研究中,為了了解一種新產(chǎn)品的吸引力,根據(jù)顧客是否已看到這種新產(chǎn)品的廣告以及是否已購買了該新產(chǎn)品,將顧客分為不同組。這種類型的數(shù)據(jù)可以方便地匯總在一張表格中,用來表示每個組中的觀測個數(shù)。3第五章屬性數(shù)據(jù)分析
例1性別與所喜愛顏色的調(diào)查表
假定隨機(jī)地抽取100個人,提問每個人下面的問題:紅、蘭、綠三色中,你最喜歡那種顏色?那么將結(jié)果整理為以下最簡單的一張調(diào)查匯總表(見表5.1或表5.2)
我們關(guān)心的問題是性別不同是否與所喜愛的顏色有關(guān)。
例2
為了比較兩種冶療方法的效果,將患者隨機(jī)地分為兩個處理組,每組50人。分別用兩種方法治療一段時間后,記錄患者的狀態(tài)(全愈,未愈)。假定得到的結(jié)果見表5.3。
我們關(guān)心的問題是兩種方案的療效是否有顯著的差別?哪種冶療方案更好些。4第五章§5.1屬性數(shù)據(jù)
變量的類型---名義變量(Nominal)變量:飲料的種類
名義變量的值之間無邏輯次序可按任何次序排序編碼例如性別,職業(yè),地區(qū),…都是名義變量.5第五章§5.1屬性數(shù)據(jù)
變量的類型---有序變量
(Ordinal)變量:飲料杯的型號小中大有序變量的值有明確的邏輯次序,但各
個值之間的距離并不清楚6第五章§5.1屬性數(shù)據(jù)
變量的類型---連續(xù)型(區(qū)間變量和比率變量)
區(qū)間變量是有大小順序的連續(xù)數(shù)值變量,且數(shù)值間的差值是有意義的。例如考慮溫度,40度比10度熱30度,而40度和10度是相對于人們?nèi)《ǖ?度而言的。這類變量對減法:兩值之差是有意義的;但對兩個數(shù)值的比率是沒有意義的。例如由40/10=4,而認(rèn)為40度比10度熱3倍的說法是不合適。
區(qū)間變量與有序變量相對比,有序變量值之差是沒有什么意義.7第五章§5.1屬性數(shù)據(jù)
變量的類型---連續(xù)型(區(qū)間變量和比率變量)
比率變量也是連續(xù)型的變量,不僅數(shù)值之差有意義,而且要求有絕對的零點,兩數(shù)值的比率也是很重要。例如變量:飲料的體積,金子的重量等.
連續(xù)型變量的值是有邏輯次序的可連續(xù)變化的數(shù)值,且它們之間的距離也是有意義的.8第五章§5.1屬性數(shù)據(jù)
變量的類型---屬性的與連續(xù)的
屬性變量是指其測量結(jié)果只能取到較少的不同的值,通常用以表示對象的分類屬性。與屬性變量對立的是連續(xù)型變量。名義的、有序的變量可作為屬性變量處理,而連續(xù)型變量當(dāng)它們可能取到的數(shù)值較少時,可作為屬性變量處理。變量的類型不是絕對不變的.9第五章§5.1屬性數(shù)據(jù)
屬性數(shù)據(jù)與連續(xù)數(shù)據(jù)分析屬性數(shù)據(jù)分析(Categoricaldataanalysis)是當(dāng)目標(biāo)變量為屬性記錄時的數(shù)據(jù)分析,
不管問題的預(yù)測變量(自變量)是否為屬性或連續(xù)的。屬性的結(jié)果通常反映屬性分類的信息。連續(xù)數(shù)據(jù)分析(Continuousdataanalysis)
是當(dāng)目標(biāo)變量為連續(xù)記錄時的數(shù)據(jù)分析,
也不論它的預(yù)測變量是屬性的或連續(xù)的。10第五章§5.1屬性數(shù)據(jù)
屬性數(shù)據(jù)與連續(xù)數(shù)據(jù)分析目標(biāo)變量(第三,四章)(第五章)11第五章§5.1屬性數(shù)據(jù)
屬性數(shù)據(jù)分析(參見習(xí)題5-5)12第五章§5.1屬性數(shù)據(jù)
屬性數(shù)據(jù)分析
對屬性數(shù)據(jù)進(jìn)行分析,將達(dá)到以下幾方面的目的:①產(chǎn)生匯總分類數(shù)據(jù)----列聯(lián)表;②檢驗屬性變量間的獨立性(無關(guān)聯(lián)性);③計算屬性變量間的關(guān)聯(lián)性統(tǒng)計量④對高維數(shù)據(jù)進(jìn)行分層分析和建模.13第五章§5.2列聯(lián)表分析
屬性變量取值的頻數(shù)表對屬性變量最基本的統(tǒng)計特征就是它可取到的不同數(shù)值及取各個不同數(shù)值的頻數(shù)和概率(頻率).(中學(xué)生數(shù)據(jù)的頻數(shù)表和條形圖.)14第五章§5.2列聯(lián)表分析
屬性變量取值的頻數(shù)表Insight:Distribution(Y)
FrequencyTableAnalyst:StatisticsDescriptive…FrequencyCount...編程:PROCFREQDATA=CLASS;tablesage;run;15第五章§5.2列聯(lián)表分析
多個屬性變量取值的交叉表
在實際問題中,如問卷調(diào)查中,經(jīng)常會迂二個或更多個屬性變量.以上給出的頻數(shù)表是一個屬性變量(年齡)的情況下取各個值的頻數(shù)和百分?jǐn)?shù)(頻率).當(dāng)涉及兩個或多個屬性變量時,僅有每個屬性變量(分類變量)的頻數(shù)和頻率是不夠的.因為它不能反映屬性變量間的聯(lián)系.為了得到變量間的關(guān)聯(lián)信息,必須考慮各個變量取值的不同組合情況下取各個值的頻數(shù)和百分?jǐn)?shù)(頻率).這樣的一張表稱為列聯(lián)表(或稱為交叉表)。具有兩個變量的列聯(lián)表通常稱為雙向表,具有三個變量的表稱為三向表,依次類推。當(dāng)雙向表中的兩個變量都僅有兩個水平時,這種特殊的表稱為2×2表。本章雖給出了怎樣生成具有多個變量的交叉表,但是所討論的分析方法僅適用于雙向表。16第五章§5.2列聯(lián)表分析
多個屬性變量取值的交叉表17第五章§5.2列聯(lián)表分析
由原始數(shù)據(jù)生成列聯(lián)表的例子
例5.2.1
對某個“統(tǒng)計入門”課題,記錄了該課程中所有學(xué)生的性別和專業(yè)(′是′為統(tǒng)計專業(yè),′非′為其他專業(yè)).數(shù)據(jù)見以下SAS程序的數(shù)據(jù)行.試用編程方法或菜單系統(tǒng)生成列聯(lián)表.
解
(1)使用FREQ過程來生成列聯(lián)表.
下面的DATA步用來生成該數(shù)據(jù)集,然后使用FREQ過程生成列聯(lián)表,其中TABLES語句要求用分類變量性別(SEX)和主修專業(yè)(MAJOR)來生成列聯(lián)表.這些語句產(chǎn)生的輸出見上頁.18datastatclas;inputstudentsex$major$@@;cards;1男是2男非3女是4男非5女是6女是7男非8男非9男是10女是11男非12女是13男是14男是15男非16女是17男是18男非19女非20男是;procfreqdata=statclas;tablessex*major;title′統(tǒng)計課程中學(xué)生的專業(yè)和性別′;run;
第五章§5.2列聯(lián)表分析
由原始數(shù)據(jù)生成列聯(lián)表的例子19
(2)使用SAS菜單系統(tǒng)“分析員應(yīng)用”生成列聯(lián)表.
首先啟動“分析員應(yīng)用”,并打開SAS數(shù)據(jù)集STATCLAS.進(jìn)行列聯(lián)表分析的步驟如下:①在“分析員應(yīng)用”菜單欄目中選
Statistics=>TableAnalysis....②在彈出的列聯(lián)表分析主窗口中選擇行變量和列變量:SEX=>Row,MAJOR=>Column.
第五章§5.2列聯(lián)表分析
由原始數(shù)據(jù)生成列聯(lián)表的例子20第五章§5.1屬性數(shù)據(jù)
由原始數(shù)據(jù)生成列聯(lián)表的例子行分類變量列分類變量單元記數(shù)變量分層變量21第五章§5.1屬性數(shù)據(jù)
由原始數(shù)據(jù)生成列聯(lián)表的例子
指定分類變量排序的原則各單元輸出的內(nèi)容關(guān)聯(lián)統(tǒng)計量設(shè)定分組變量設(shè)定要求表格22第五章§5.1屬性數(shù)據(jù)
由原始數(shù)據(jù)生成列聯(lián)表的例子
③在列聯(lián)表分析主窗口的下方有幾個鍵:Tables鍵讓用戶選擇所要求的計算結(jié)果,如觀測頻數(shù)、期望頻數(shù)及兩者的偏差,還有單元百分?jǐn)?shù)、行百分?jǐn)?shù)和列百分?jǐn)?shù);Input鍵讓用戶指定輸出的列聯(lián)表中分類變量各個水平的排列次序,是按DATA步的輸入順序還是按分類變量內(nèi)部值的次序等;Statistics鍵讓戶選擇希望計算的統(tǒng)計量.
按Tables鍵,在彈出的窗口中選擇計算觀測頻數(shù)、單元百分?jǐn)?shù)、行百分?jǐn)?shù)和列百分?jǐn)?shù)=>OK.23
④將要求分析計算的項選擇完畢后,從相應(yīng)窗口按OK鍵,返回到列聯(lián)表分析的主窗口=>OK,系統(tǒng)將按用戶的要求進(jìn)行分析計算.
看輸出結(jié)果,從“分析員應(yīng)用”的數(shù)據(jù)窗口左邊的樹狀表可以選擇你想查看的各類計算結(jié)果.輸出的列聯(lián)表分析的結(jié)果見前面(即書上輸出5.2.1).結(jié)果解釋見書上P113-114.第五章§5.2列聯(lián)表分析
由原始數(shù)據(jù)生成列聯(lián)表的例子24
第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表
有些情況下,已經(jīng)匯總并得出表格中每個單元有多少個觀測.在收集數(shù)據(jù)時,也許是先建立一張表,然后將觀測個數(shù)記到每個單元中,這樣得到的信息.或許是使用以表格形式發(fā)表的數(shù)據(jù).如:白人黑人是1917
否141149在這種情況下,沒有給出樣本中每一個個體的觀測數(shù)據(jù).為了由這種類型的數(shù)據(jù)生成一張列聯(lián)表,首先建立一個包含所有單元觀測個數(shù)的數(shù)據(jù)集,然后使用帶有WEIGHT語句的FREQ過程.25
例5.2.2
殺人犯的種族是否會影響判處死刑的問題.對1976至1977年美國佛羅里達(dá)州20個地區(qū)殺人案件中的326個被告進(jìn)行調(diào)查.考慮的種族有白人與黑人;用“是”或“否”表示是否判處死刑.調(diào)查后已把數(shù)據(jù)整理成表格形式(見下表).試用編程方法或菜單系統(tǒng)生成列聯(lián)表.
白人黑人是191736
否141149290160166326
第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表的例子26
解(1)首先用DATA步生成一個數(shù)據(jù)集.然后由帶有WEIGHT語句的FREQ過程步來生成列聯(lián)表,結(jié)果見下頁.datapenalty;inputdecision$defrace$numcell@@;cards;是白人19是黑人17否白人141否黑人149;procfreqdata=penalty;tablesdecision*defrace;weightnumcell;title′死刑數(shù)據(jù)的列聯(lián)表′;run;第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表的例子27
注意這種情況下,數(shù)據(jù)步中除輸入行變量和列變量外,還要鍵入另一變量(這里為NUMCELL)來給出各單元的觀測個數(shù).因為這個列聯(lián)表僅有四個單元,所以該數(shù)據(jù)集僅包含四個觀測.WEIGHT語句指出用來說明每個單元中有多少觀測的變量為NUMCELL.如果使用TABLES語句而不用WEIGHT語句的話,將會得到一張每個單元只有一個觀測的列聯(lián)表.第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表的例子28第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表的例子29
(2)使用SAS菜單系統(tǒng)“分析員應(yīng)用”生成列聯(lián)表的步驟與例5.2.1類似.只是在步驟②中除了指定行變量和列變量外,還要給出頻數(shù)變量:NUMCELL=>ellCountes(參見圖示5.2).輸出的列聯(lián)表分析的結(jié)果見前面(即書上輸出5.2.2).
第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表的例子30第五章§5.2列聯(lián)表分析
由現(xiàn)有的匯總表生成列聯(lián)表的例子PROCFREQDATA=數(shù)據(jù)集名order=…noprint;
TABLES分層變量*行變量*列變量.../nocolnorownocumnofreqnopercent
missinglistout=數(shù)據(jù)集;
WEIGHT變量名;BY變量名;
RUN;order=data|internal|freq|formatted31第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
(Association)兩個屬性變量,若一個變量的取值(水平)不同影響到另一個變量的分布,就稱這兩個屬性變量間存在關(guān)聯(lián)性兩個屬性變量,若一個變量的分布不隨另一個變量取值(水平)不同而改變,就稱這兩個屬性變量間不存在關(guān)聯(lián)性32第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
(Association)您上司的態(tài)度與天氣有關(guān)聯(lián)嗎?無關(guān)聯(lián)性高興不高興晴天陰天33第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
(Association)您上司的態(tài)度與天氣有關(guān)聯(lián)嗎?有關(guān)聯(lián)性高興不高興晴天陰天34第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
(Association)為了分析兩個屬性變量間的關(guān)聯(lián)性,通常從雙向列聯(lián)表中的頻數(shù)或期望頻數(shù)進(jìn)行分析35第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗Insight:用拼花圖表現(xiàn)兩個屬性變量的頻數(shù)分布與關(guān)聯(lián)性36第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
(GeneralAssociation)行百分率nij/ni+列百分率nij/n+j單元百分率pij=nij/n++,pi+=ni+/n++,p+j=n+j/n++這些公式是列聯(lián)表每個單元中所計算統(tǒng)計量37第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗(GeneralAssociation)簡單隨機(jī)抽樣(兩個變量都隨機(jī)):無關(guān)聯(lián):兩變量分布獨立pij=pi+p+j<==>(nijn=ni+n+j)38第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗(GeneralAssociation)分層簡單隨機(jī)抽樣(一個變量控制)無關(guān)聯(lián):男女作肯定回答的比例相等39第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗(GeneralAssociation)40第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗c2-檢驗法檢驗屬性變量間是否存在關(guān)聯(lián)性的常用檢
驗法是Pearson的c2檢驗法。它基于兩個變
量頻數(shù)分布的交叉表(列聯(lián)表)上進(jìn)行H0:無關(guān)聯(lián)性
觀測頻數(shù)=期望頻數(shù)H1:有關(guān)聯(lián)性
觀測頻數(shù)期望頻數(shù)41第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗c2-檢驗法
例(死刑數(shù)據(jù))
用A表示殺人犯是否判處死刑;B表示殺人犯的種族.問種族是否會影響判處死刑的問題(即A與B是否無關(guān)聯(lián)).
解:(1)檢驗的假設(shè)H0:A與B無關(guān)聯(lián)性;H1:A與B有關(guān)聯(lián)性.
(2)構(gòu)造檢驗統(tǒng)計量c2
記P11=P{A=‘否’,B=‘黑人’}=P{被告為黑人沒有判死刑}P1+=P{A=‘否’};P+1=P{B=‘黑人’}當(dāng)H0成立時,由概率論知識知道,應(yīng)有
P11=P{A=‘否’,B=‘黑人’}=P{A=‘否’}*P{B=‘黑人’}42第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗c2-檢驗法
當(dāng)H0成立時,每個單元的期望頻數(shù)(理論頻數(shù))記為m11,m12,m21,m22.顯然有
mij=Pij*n(n為觀測總個數(shù))=Pi+*P+j*n=ni+*n+j/n利用nij和mij
可以構(gòu)造檢驗統(tǒng)計量c2(Chi-square)
c2=Σ(3)給定顯著性水平0.05;(nij-mij)2
mij43第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗c2-檢驗法
(4)由樣本值(觀測數(shù)據(jù))計算c2值和p值.
由觀測到的數(shù)據(jù),可以計算期望頻數(shù)mij,如m11為
m11=P11*n=P1+*P+1*n=**326=147.67類似地有:m12=142.33,m21=18.33,m22=17.67
c2=++….=0.2213p值=P{c2>=0.2213}=0.638290326326166(149-147.67)2147.67(141-142.33)2142.3344第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗c2-檢驗法
(5)統(tǒng)計推斷
因p=0.638>0.05,所以H0
相容.即在0.05的顯著性水平下,可以認(rèn)為A與B無關(guān)聯(lián)性;也就是種族的不同不會影響是否判處死刑.45第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗c2-檢驗法Analyst:StatisticsTableAnalysisStatistics46
PROCFREQDATA=數(shù)據(jù)集;
TABLES行變量*列變量/
chisqcellchi2expected;RUN;
chisq:進(jìn)行無關(guān)聯(lián)性的c2檢驗和生成基于c2
統(tǒng)計量的關(guān)聯(lián)性度量
cellchi2:打印單元格的c2貢獻(xiàn)expected:打印無關(guān)聯(lián)時單元格的期望頻數(shù)
第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
c2-檢驗法47第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
c2-檢驗法c2檢驗法及相應(yīng)的p-值只是檢驗是否存在
關(guān)聯(lián)性c2統(tǒng)計量及相應(yīng)的p-值大小并不度量關(guān)聯(lián)
程度的強(qiáng)弱(c2統(tǒng)計量依賴樣本容量)c2檢驗法的p-值是根據(jù)其大樣本分布確定
的。當(dāng)有20%或更多的單元格期望頻數(shù)
小于5時,使用它并不一定有效,應(yīng)改用精確p-值48第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
其它檢驗統(tǒng)計量(與Pearson’sc2漸近一致)(僅對四格表)(mij為期望頻數(shù)
df=(r-1)(c-1))(df=1,r為按scores選項規(guī)定的刻度計算的Pearson相關(guān)系數(shù))(只對有序測量水平)SAS的過程Freq提供以下幾種檢驗關(guān)聯(lián)性的統(tǒng)計量:49第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
小樣本的精確p-值不宜使用基于漸近分布的c2檢驗法50第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
小樣本的精確p-值51第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
小樣本的精確p-值觀測到的匯總數(shù)據(jù):
(2x2表)p=0.286p=0.571p=0.142P(c2
2.1)
=0.286+0.142
=0.428(雙側(cè))52第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
小樣本的精確p-值Fisher精確分布基于固定邊緣頻數(shù)用超幾何分布計算各個結(jié)果的概率53第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
小樣本的精確p-值H1:p11>p1+p+1,右尾左尾H1:p11<p1+p+1,雙測H1:p11p1+p+1,54第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
小樣本的精確p-值PROCFREQDATA=數(shù)據(jù)集;
TABLES行變量*列變量/exact;
EXACTpchi;
RUN;
選項exact:要求計算精確的Fisher檢驗統(tǒng)計量.
對于2x2表系統(tǒng)自動計算.語句exactpchi;要求給出c2統(tǒng)計量的精確p-值及其它有關(guān)的關(guān)聯(lián)性55第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
進(jìn)行精確Fisher
檢驗的例子
例5.3.2
試用菜單系統(tǒng)“分析員應(yīng)用”對表5.5中的數(shù)據(jù)檢驗工藝和產(chǎn)品質(zhì)量是否有關(guān)聯(lián)性(顯著性水平α=0.1)。
解首先啟動“分析員應(yīng)用”,并對表5.5的數(shù)據(jù)生成SAS數(shù)據(jù)集(命名為D532)。檢驗工藝和產(chǎn)品質(zhì)量是否有關(guān)聯(lián)性的步驟如下:①在“分析員應(yīng)用”菜單欄目中選擇Statistics=>TableAnalysis.②在彈出的列聯(lián)表分析主窗口中選擇行變量和列變量:A(工藝A1和A2)=>Row,B(質(zhì)量合格或不合格)=>Column,C(單元觀測頻數(shù))=>CellCounts.③在列聯(lián)表分析主窗口的下方,按Tables鍵來選擇所要求的計算內(nèi)容(比如選觀測頻數(shù)、期望頻數(shù)及兩者的偏差等);按Statistics鍵,并在彈出的窗口中由Statistics(統(tǒng)計量)欄目下選擇Chi-squarestatistics(使前面方框中打勾),同時選擇不輸出列聯(lián)表而僅計算統(tǒng)計量=>OK,回到列聯(lián)表分析主窗口后按OK,系統(tǒng)將按用戶的要求進(jìn)行分析計算。56第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
進(jìn)行精確Fisher
檢驗的例子
④查看輸出結(jié)果,從“分析員應(yīng)用”的數(shù)據(jù)窗口左邊的樹狀表可以選擇你想查看的各類計算結(jié)果。輸出的檢驗工藝和產(chǎn)品質(zhì)量是否有關(guān)聯(lián)性的結(jié)果見下面(書上輸出5.3.2)。輸出5.3.2下方的WARNING(警告)信息指出有75%的單元其期望頻數(shù)<5,故χ2檢驗可能不是一個有效的檢驗。因P=0.637>0.05,Fisher精確檢驗(雙側(cè))的結(jié)果給出在0.05的水平下,無關(guān)聯(lián)性的假設(shè)是相容的.57第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
進(jìn)行精確Fisher
檢驗的例子58第五章§5.3屬性變量的無關(guān)聯(lián)性檢驗
(變量間的其它關(guān)聯(lián)性)若兩個變量測量水平都是有序的,則可考慮對多數(shù)觀測來說,一個變量水平的增加另一個變量的水平是否也隨之增加(或減少),這種關(guān)聯(lián)稱為線性關(guān)聯(lián)(或有序的關(guān)聯(lián))。例如工資水平的提高對職業(yè)的滿意程度是否也會提高,病痛的嚴(yán)重和手術(shù)的效果是否有線性關(guān)聯(lián).59第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的無有序關(guān)聯(lián)檢驗
前節(jié)介紹的兩種檢驗方法適用于一般的屬性變量.如果屬性變量是有序的,有時還關(guān)心有序變量間是否存在有序關(guān)聯(lián)性.即隨著一個變量取值的增加,另一個變量的取值是否也有變大(或變小)的趨勢.比如隨著學(xué)歷的提高,犯罪率是否減少.MentelHaenszel檢驗法就是針對以下假設(shè)的一種檢驗方法:
H0:行列變量無有序關(guān)聯(lián),
H1:行列變量存在有序關(guān)聯(lián)該檢驗方法在發(fā)現(xiàn)有序關(guān)聯(lián)方面比χ2檢驗法要敏感.60第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的關(guān)聯(lián)性度量
對兩個有序的屬性變量,(xi,yi),(xj,yj)為一對觀測(這里把有序值用數(shù)值表示):
(xi-xj)(yi-yj)>0,稱為一致對(concordant)(xi-xj)(yi-yj)<0,稱為不一致對(discordant)(xi-xj)(yi-yj)=0,稱為平分對(tied)單元A,D中配成的對為一致的單元B,C中配成的對為不一致的其它的對為平分的61第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的關(guān)聯(lián)性度量
用C表示所有觀測對中一致對的個數(shù);D表示所有觀測對中不一致對的個數(shù).則上表中一致對的總數(shù)C和不一致對的總數(shù)D為:C=9×(4+88+19+136)+5×(19+136)+18×(88+136)+4×136=7574,D=9×(18+4+11+88)+5×(18+11)+19×(11+88)+4×11=3159.奶牛疾病數(shù)據(jù)沒有(0)低(1)高(2)
小959
中18419
大118813662第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的關(guān)聯(lián)性度量63第五章§5.4有序變量的關(guān)聯(lián)性分析
與c2統(tǒng)計量聯(lián)系的關(guān)聯(lián)性度量與c2統(tǒng)計量聯(lián)系的關(guān)聯(lián)性度量64第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的關(guān)聯(lián)性度量兩個變量都是有序的測量水平不要求兩個變量都是有序的測量水平65第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的關(guān)聯(lián)性度量
對有序變量,列聯(lián)表中變量各測量水平必須按順序排列,否則有序關(guān)聯(lián)性的度量是不準(zhǔn)確的(正確的次序)(不正確的次序)66第五章§5.4有序變量的關(guān)聯(lián)性分析
有序變量的關(guān)聯(lián)性度量正確的次序不正確的次序l系數(shù)不確定性系數(shù)不要求兩個變量都是有序的兩個變量都是有序變量67第五章§5.4有序變量的關(guān)聯(lián)性分析
l系數(shù)68第五章§5.4有序變量的關(guān)聯(lián)性分析l系數(shù)69第五章§5.4有序變量的關(guān)聯(lián)性分析
不確定性系數(shù)70第五章§5.4有序變量的關(guān)聯(lián)性分析
相對風(fēng)險和優(yōu)比率對22列聯(lián)表,還有相對風(fēng)險和優(yōu)比率兩個關(guān)聯(lián)性度量前瞻性研究(prospective,cohort)不同組的選擇在獲得響應(yīng)之前A組有心血管病的百分率=35/500=7%B組有心血管病的百分率=50/500=10%RR(相對風(fēng)險)=0.07/0.10=0.7071第五章§5.4有序變量的關(guān)聯(lián)性分析
相對風(fēng)險和優(yōu)比率對一般的22列聯(lián)表:相對風(fēng)險為:0RR<RR=1
無關(guān)聯(lián)72第五章§5.4有序變量的關(guān)聯(lián)性分析
相對風(fēng)險和優(yōu)比率回顧性研究(retrospective,case-control)按結(jié)果分組再考察其預(yù)測變量患癌癥群體中常飲酒者的優(yōu)比為:
(34/60)/(26/60)=1.31不患癌癥群體中常飲酒者的優(yōu)比為:
(24/60)/(36/60)=0.67優(yōu)比率(OR)=(34/26)/(24/36)=1.9673第五章§5.4有序變量的關(guān)聯(lián)性分析
相對風(fēng)險和優(yōu)比率結(jié)果1的優(yōu)比率為:對一般的22列聯(lián)表:OR(1)=1,組別與結(jié)果發(fā)生的可能性大小無關(guān)聯(lián)OR(1)>1,A組更可能發(fā)生結(jié)果1OR(1)<1,B組更可能發(fā)生結(jié)果174第五章§5.4有序變量的關(guān)聯(lián)性分析
相對風(fēng)險和優(yōu)比率對22列聯(lián)表,使用選項measure顯示關(guān)聯(lián)性度量時,自動地提供相對風(fēng)險和優(yōu)比率的結(jié)果優(yōu)比率相對風(fēng)險75第五章§5.5屬性數(shù)據(jù)的分層分析經(jīng)常鍛煉不經(jīng)常鍛煉不分層數(shù)據(jù):76第五章§5.5屬性數(shù)據(jù)的分層分析將列聯(lián)表的數(shù)據(jù)按行列變量以外的其它變量進(jìn)行分組后分別制作列聯(lián)表進(jìn)行行列關(guān)聯(lián)性分析稱為分層分析(StratifiedAnalysis)分層分析常用的是CMH(Cochran-Mantel-Haenszel)統(tǒng)計量,它檢驗的原假設(shè)為:
H0:每層的行列變量間無關(guān)聯(lián)77第五章§5.5屬性數(shù)據(jù)的分層分析CMH統(tǒng)計量是將各層的關(guān)聯(lián)性度量匯總成一個漸近c2分布統(tǒng)計量。它并不要求每一層的樣本容量都很大,它只要求總?cè)萘枯^大。CMH統(tǒng)計量象Fisher精確檢驗一樣要求固定每層行列的總和。當(dāng)各層間的行列關(guān)聯(lián)有很大的變化時,CMH統(tǒng)計量并不合適。即它并不允許層與行列有交互。78第五章§5.5屬性數(shù)據(jù)的分層分析CMH統(tǒng)計量在考慮各層的關(guān)聯(lián)性度量時可有三種不同的選擇:當(dāng)行列變量都是有序變量是可用線性關(guān)聯(lián)作度量當(dāng)行(列)變量中為有序時可用比較各行(列)的平均得分(score)作度量當(dāng)不考慮行列的有序性時可用Pearsonc2作度量79第五章§5.5屬性數(shù)據(jù)的分層分析檢驗線性關(guān)聯(lián)比較列(行)得分檢驗一般關(guān)聯(lián)80第五章§5.5屬性數(shù)據(jù)的分層分析CMH統(tǒng)計量對有序變量計算起得分時有以下幾種選擇:Table:取行列變量的值或表中行列號作得分Rank:以行列和排定不同水平的秩次作得分Radit:將Rank規(guī)定的秩次分層歸一化Modradit:將Radit乘以nh++/(nh+++1),表示均勻分布次序統(tǒng)計量的期望值81第五章§5.5屬性數(shù)據(jù)的分層分析PROCFREQDATA=數(shù)據(jù)集名…;
TABLES分層變量*行變量*列變量.../
cmhcmh1cmh2
scores=tablerankraditmodradit;WEIGHT變量名;RUN;cmh:
所有CMH統(tǒng)計量cmh1:
檢驗線性關(guān)聯(lián)的CMH統(tǒng)計量(相關(guān))cmh2:
前兩個CMH統(tǒng)計量(相關(guān),ANOVA)82第五章§5.6成對數(shù)據(jù)無關(guān)聯(lián)性檢驗
McNemar檢驗法有時得到有關(guān)聯(lián)的對象對同一事情的反映
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 管道施工安裝合同范本
- 出國勞動合同范本
- 遼寧省鐵嶺市鐵嶺縣2025屆九年級上學(xué)期12月期末考試數(shù)學(xué)試卷
- 2025年終總結(jié)匯報模板8
- 2025景觀照明工程施工合同書
- 2025年合作經(jīng)營合同模板示例
- 2025建筑吊車租賃合同模板
- 2025成都市房屋租賃合同樣本
- 高一語文新學(xué)案:第二單元《短歌行》
- 2025房屋租賃合同范本授權(quán)標(biāo)準(zhǔn)版
- 機(jī)器設(shè)備評估常用數(shù)據(jù)及參數(shù)(最新)
- 零售藥店處方藥銷售自查整改報告word(范文)
- 叉車日常維護(hù)保養(yǎng)檢查記錄表
- 東風(fēng)汽車特約店培訓(xùn)資料-WDMS維修系統(tǒng)培訓(xùn)管理(PPT 131頁)
- Q∕GDW 12070-2020 配電網(wǎng)工程標(biāo)準(zhǔn)化設(shè)計圖元規(guī)范
- 汽車半懸掛系統(tǒng)建模與分析(現(xiàn)代控制理論大作業(yè))
- 小學(xué)語文人教課標(biāo)版(部編)三年級下冊習(xí)作:我做了一項小實驗
- 畢業(yè)設(shè)計論文土木工程專業(yè)五層單身宿舍樓框架結(jié)構(gòu)設(shè)計
- 立式水輪發(fā)電機(jī)軸線分析及處理
- 蹲踞式起跑PPT
- 1云南省初中綜合素質(zhì),完整版綜合素質(zhì)評定表
評論
0/150
提交評論