定性數(shù)據(jù)統(tǒng)計分析四格表_第1頁
定性數(shù)據(jù)統(tǒng)計分析四格表_第2頁
定性數(shù)據(jù)統(tǒng)計分析四格表_第3頁
定性數(shù)據(jù)統(tǒng)計分析四格表_第4頁
定性數(shù)據(jù)統(tǒng)計分析四格表_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章 四格表22列聯(lián)表什么是四格表【例3.1】為了解吸煙與肺癌的關(guān)系,選擇63個肺癌患者和43個與肺癌患者年齡、性別和其他屬性類似的健康人(對照組)進行研究,調(diào)查結(jié)果見表3.1。問總體中肺癌患者吸煙的比例是否比健康人吸煙的比例高?表3.1 對肺癌患者和對照組的調(diào)查結(jié)果吸煙 不吸煙吸煙比例%肺癌患者對照組 60 3 32 1195.274.4什么是四格表 上述檢驗問題可以一般化為: 其數(shù)據(jù)結(jié)構(gòu)關(guān)系包括五個等式。 從略 有B 沒有B合計有A沒有A合計11n12n21n22n1n2n1n2nn四格表的抽樣方式 根據(jù)四格表的邊緣分布是否給定,可能的抽樣方式有以下四種: 1、單側(cè)給定,如 n1+ 和n

2、2+給定,則在四格中有兩個隨機變量,服從二項分布; 如:63個肺癌患者和43個對照組,屬于行邊緣分布給定的情況 2、總樣本容量 n給定,則有三個隨機變量,n11 , n12 , n21 , n22 服從多項分布; 如: Mendel豌豆實驗,屬于n給定的情況四格表的抽樣方式 3、都不給定時, n11 , n12 , n21 , n22都是隨機變量,通常假定它們服從Poisson 分布 如:某商店在某一天可能來的顧客數(shù)未知,顧客的性別以及有沒有購買的情況,存在4個隨機變量 男 女合計購買不購買合計11n12n21n22n1n2n1n2nn四格表的抽樣方式 4、兩側(cè)都給定時,只有一個是隨機變量,它

3、服從超幾何分布。 如:假設(shè)100件產(chǎn)品中有8件次品,隨機抽5件加以檢驗,問有多少件次品? 對不同抽樣方式下得到的四格表,其數(shù)據(jù)分析方法也有可能不同。 抽取 未抽取合 計不合格合格892合 計 5 9510011n12n21n22n屬性之間獨立與不相關(guān) 兩個相互獨立的隨機變量一定不相關(guān),但不相關(guān)不一定獨立。 這里相關(guān)指線性相關(guān) 四格表中屬性A與B相互獨立等價于不相關(guān)。 根據(jù)前面的頻數(shù)分布表可以得到概率四格表:X Y 有B(b1) 沒有B(b2)合計有A(a1)沒有A(a2)合計11p12p21p22p1p2p1p2p1屬性之間獨立與不相關(guān) 若以下等式成立,則稱屬性A和B相互獨立。 該式包括: 且

4、有:,1,2ijijpp pi j,1111121221212222pp ppp ppppppp1111121221212222pp ppp ppppppp屬性之間獨立與不相關(guān) 在四格表中,獨立等價于不相關(guān)。 可以通過考察隨機變量X(屬性A)與Y (屬性B)的協(xié)方差知: 其中,a1,a2和b1,b2分別是屬性A和B的分類(取值) 當(dāng)A與B不相關(guān)時,有: 可見,四格表中屬性A與B無關(guān)也就是相互獨立。12121111ov(, )()() ( )()()()CX YE XYE X E Yaabbpp p111100ijijpp ppp p屬性之間獨立與不相關(guān) 在協(xié)方差的基礎(chǔ)上,不難計算出隨機變量X(

5、A)和Y(B)的方差,并得到它們的相關(guān)系數(shù)。 各自方差分別為: 則相關(guān)系數(shù): 可見,四格表中屬性間的關(guān)系與屬性的賦值無關(guān)。2121221212()()( )()D Xaap pD Ybbp p11111212pp prp pp p單側(cè)給定的四格表的檢驗 單側(cè)給定時四格表中僅有兩個隨機變量,且服從二項分布 如:當(dāng)n1+和n2+給定時,n11和n21分別服從: B(n1+,p1)和B(n2+,p2),其中, 上例肺癌患者吸煙比例是否比對照組高,也即要求驗證假設(shè)p1=p2還是p1p2.1121112112111111212pppppppppppppp12(|),(|)pP B ApP B A單側(cè)給定

6、的四格表的檢驗 可見,原假設(shè)成立時,實際上是檢驗屬性A與B相互獨立或不相關(guān)。因此,四格表的檢驗有以下三種情況: 單側(cè)給定的四格表檢驗,其實就是兩總體的比例差的檢驗,區(qū)別僅在于使用的值不同,一個是樣本比例,一個是觀測頻數(shù)。原假設(shè)H0備擇假設(shè)H1有方向檢驗p1=p2p1p2p1=p2p1p2時, 公式1: 當(dāng)備擇假設(shè)為p1p2,統(tǒng)計量n11的抽樣分布為超幾何分布(P56)。 n11的概率含義具有屬性B的個體中恰有n11個個體具有屬性A的概率。兩側(cè)給定時的四格表檢驗 于是有, 故可以認為n11比較大時拒絕原假設(shè),即認為p1p2。對給定的顯著性水平,臨界值c滿足: 且c應(yīng)盡可能的小。即11211211

7、1112121111122122(|)!( ,)!nnnnnnCCP XnXYnCnnnnHG n nnn nnnn11()P nc*11inf:()ccP nc兩側(cè)給定時的四格表檢驗 當(dāng)備擇假設(shè)為p1p2, 備擇假設(shè)p11時,第一行(試驗)“成功”的優(yōu)勢大于第二行(試驗),且前者是后者的倍,有12或p1p2;1122/(1)1=2/(1)oddsodds優(yōu)勢比的性質(zhì) 當(dāng)優(yōu)勢比1時,第一行比第二行更不容易“成功”,有12或p1p2; 值在給定方向離1越遠,代表兩個屬性間的關(guān)聯(lián)性越強; 如:優(yōu)勢比=4比優(yōu)勢比=2有更強的關(guān)聯(lián)性; 再如:優(yōu)勢比=0.25比優(yōu)勢比=0.5有更強的關(guān)聯(lián)性; 當(dāng)一個值是

8、另一個的倒數(shù)時,它們具有相同的關(guān)聯(lián)程度,只是方向相反。 如:當(dāng)=0.25時說明第1行成功的優(yōu)勢是第2行的1/4倍;反過來,第2行成功的優(yōu)勢是第1行成功的優(yōu)勢的4倍。故行或列的排列順序不影響關(guān)聯(lián)程度。優(yōu)勢比的性質(zhì) 當(dāng)用聯(lián)合概率表示時,稱為交叉積比例 當(dāng)兩個屬性獨立時,有=1,則: 該形式即為四格表獨立性的第三種表達形式 同理,如果用樣本優(yōu)勢比來表示時,有:1112112221221221/ 11221221 11221221p pp p優(yōu)勢比的性質(zhì) 樣本優(yōu)勢比等于各行樣本優(yōu)勢的比. 當(dāng)兩個變量相互獨立時,有 ,等價地有: 優(yōu)勢比與相對風(fēng)險的聯(lián)系: 當(dāng)p1和p2都接近于0時,優(yōu)勢比和相對風(fēng)險取值相

9、近。1122122111221221p pp pn nn n1112221/(1)1/(1)1pppoddsrelativeriskppp111112112222212212211122112212211221/(1)/(1)/ppppp pppppp pnn nnn nnn nnn n優(yōu)勢比與對數(shù)優(yōu)勢比的推斷 在樣本容量不是充分大的情況下,優(yōu)勢比的樣本分布通常有強烈的偏倚性; 為此優(yōu)勢比的統(tǒng)計推斷使用對數(shù)優(yōu)勢比; 此時,獨立性對應(yīng)于:當(dāng)=1時,ln=0;故對數(shù)優(yōu)勢比關(guān)于0對稱; 顛倒行或列的排列順序僅改變對數(shù)優(yōu)勢比的符號,兩個對數(shù)優(yōu)勢比除符號外相同時代表相同的關(guān)聯(lián)程度。 如:ln(2)=0.

10、7和ln(0.5)=-0.7,代表了相同的關(guān)聯(lián)程度。四格表的優(yōu)比檢驗法 基于優(yōu)勢比的性質(zhì),四格表的檢驗可以轉(zhuǎn)化為優(yōu)比的檢驗問題。 已知樣本優(yōu)勢比 的抽樣分布為: 在原假設(shè)=1成立時,將其標準化后有:111221221111(lnln ) (0,)nNpppp11122122ln(0,1)1111UNnnnn222211122122(ln )(1)1111Unnnn四格表的優(yōu)比檢驗法原假設(shè)備擇假設(shè)P-值111111(0,1)()P NUU (0,1)( )P NUU 22(1)P四格表的優(yōu)比檢驗法【例3.8】用優(yōu)比檢驗法檢驗例3.10111221221:1,:160 1111116.875,0.

11、47232 36032311ln2.81()0.0025HHn nan nUaU 肺癌與吸煙相互獨立,肺癌患者吸煙比例高經(jīng)查,p=,故認為肺癌患者吸煙比例高。邊緣齊性檢驗 用于當(dāng)四格表的兩種屬性相互不獨立(相關(guān))時; 邊緣齊性檢驗就是檢驗邊緣概率是否相等?!纠?.9】 此類問題的原假設(shè)應(yīng)為:H0:p1+=p+1 當(dāng)原假設(shè)成立時,可以得出: 此時,稱四格表有對稱性。故對四格表而言邊緣齊性檢驗和對稱性檢驗等價。 邊緣齊性檢驗的卡方統(tǒng)計量:111211111121pppppppp222212211221()()(1)ijijijnnpnnnpnn邊緣齊性檢驗 按照ML估計法得到pij的估計值,代入卡方統(tǒng)計量即得上式。 將這一卡方檢驗特稱為McNemar 2檢驗 似然比統(tǒng)計量:1111222212211221/ ,/()/ 2pnn pnnppnnn212211221122112212ln2ln()2lnln22ijijijnpGnnnnnnnnnn 邊緣齊性檢驗 經(jīng)計算前例的統(tǒng)計量值和P-值分別為:22222(5238)2.17785238(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論