第8章群體間的差異比較卡方檢驗(yàn)_第1頁
第8章群體間的差異比較卡方檢驗(yàn)_第2頁
第8章群體間的差異比較卡方檢驗(yàn)_第3頁
第8章群體間的差異比較卡方檢驗(yàn)_第4頁
第8章群體間的差異比較卡方檢驗(yàn)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

群體間的差異比較——卡方檢驗(yàn)第8章內(nèi)容提要8.1卡方檢驗(yàn)原理8.2擬合問題——樣本率和已知總體率的比較8.3獨(dú)立性檢驗(yàn)——兩個(gè)(多個(gè))變量的相關(guān)8.4卡方檢驗(yàn)的局限性及補(bǔ)救辦法8.1卡方檢驗(yàn)原理3卡方檢驗(yàn)變量連續(xù)變量分類變量有序分類變量無序分類變量秩和檢驗(yàn)卡方檢驗(yàn)T檢驗(yàn)、方差分析卡方檢驗(yàn)原理原假設(shè)H0:每一個(gè)卡通片被選擇為喜歡的可能性是相同的。即假定所研究的總體服從均勻分布,因此每一個(gè)卡通片被選擇的概率π都應(yīng)該是1/6。如果為真,300名兒童挑選每種卡通片的可能性應(yīng)該是相等的,則選擇每種卡通片的期望頻次應(yīng)該是:fe=nπ構(gòu)造卡方統(tǒng)計(jì)量:例:許多兒童都喜歡看卡通片,有的人認(rèn)為只要是卡通片兒童都愛看,而不管其類型;另一些人認(rèn)為兒童對不同類型的卡通片有不同的偏好。為此,他們提供了6種類型的卡通片,讓300名經(jīng)??措娨暤膬和^看,然后說出喜歡看哪一個(gè),得到如下表所示的數(shù)據(jù)??ǚ綑z驗(yàn)原理300名兒童對不同類型卡通片的偏好分布卡通片編號觀測頻次f0概率π(H0為真)期望頻次fe=nπ偏差f0-fe偏差平方(f0-fe

)2加權(quán)結(jié)果(f0-fe

)2/fe1851/65035122524.52801/65030900183551/6505250.54101/650-401600325401/650-1010026301/650-204008合計(jì)30013000χ2=85P<0.001(二)非參數(shù)檢驗(yàn)卡方檢驗(yàn)是以卡方分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,主要用于分類變量,根據(jù)樣本數(shù)據(jù)推斷總體的分布與期望分布是否有顯著差異,或推斷兩個(gè)分類變量是否相互關(guān)聯(lián)或相互獨(dú)立??ǚ綑z驗(yàn)的原假設(shè)H0是:觀測頻數(shù)與期望頻數(shù)沒有差別??ǚ綑z驗(yàn)的基本思想是:首先假設(shè)H0成立,基于此前提計(jì)算出χ2值,它表示觀測值與理論值之間的偏離程度。根據(jù)χ2分布,χ2統(tǒng)計(jì)量,以及自由度可以確定在假設(shè)H0成立的情況下獲得當(dāng)前統(tǒng)計(jì)量及更極端情況的概率P。判斷:如果P值很小,說明觀測值與理論值偏離程度太大,應(yīng)當(dāng)拒絕原假設(shè),表示比較的類別之間有顯著差異;否則就不能拒絕原假設(shè),不能認(rèn)為樣本所代表的實(shí)際情況與理論假設(shè)有差別。8.2擬合問題

——樣本率與已知總體率的比較8擬合問題————樣本率與已知總體率的比較對于連續(xù)變量,我們可以使用單樣本的t檢驗(yàn)考察樣本所在總體的均值與已知值是否存在顯著差異,即樣本均值與已知值的差異。對于分類變量,則可以使用卡方檢驗(yàn)比較樣本比率與已知值的差異。什么是擬合問題?假設(shè)一個(gè)總體中,某個(gè)變量的可能取值有n個(gè)水平;某一已知樣本中,該變量的取值也是這n個(gè)水平。現(xiàn)在需要從樣本的分類數(shù)據(jù)出發(fā),來判斷總體各取值水平出現(xiàn)的概率是否與已知概率相符,即該樣本是否的確來自已知的總體分布。即單樣本率與總體率的比較,被稱之為擬合問題。擬合問題————樣本率與已知總體率的比較原假設(shè)H0:搖獎(jiǎng)機(jī)工作正常,則每個(gè)號碼出現(xiàn)的概率為1/10。注意:原始數(shù)據(jù)在分析時(shí),首先進(jìn)行加權(quán)!!Analyze——NonparametricTests——Chi-Square例1:有獎(jiǎng)有息儲蓄搖獎(jiǎng)的辦法一般采取刻有數(shù)碼0-9的編號球投入搖獎(jiǎng)機(jī),然后按一定規(guī)則,把搖出的數(shù)碼組合成兌獎(jiǎng)號碼。南京市自開辦有獎(jiǎng)有息儲蓄以來,13期中獎(jiǎng)號碼中各數(shù)碼出現(xiàn)的頻次見“數(shù)據(jù)搖獎(jiǎng).sav”。試判斷搖獎(jiǎng)機(jī)工作是否正常?擬合問題————樣本率與已知總體率的比較所有類別比例相等自定義類別比例擬合問題————樣本率與已知總體率的比較殘差值卡方值P值小于5%,可以拒絕原假設(shè)。認(rèn)為搖獎(jiǎng)機(jī)工作不正常。擬合問題————樣本率與已知總體率的比較原假設(shè)H0:顧客今年的顏色偏好與去年無顯著差異。Analyze——NonparametricTests——Chi-Square例2:美國某小汽車經(jīng)營商根據(jù)去年銷售的小汽車顏色的百分率,認(rèn)為今年顧客選擇各種顏色的數(shù)目仍將不變,即20%的人選擇黃色,30%選擇紅色,10%選擇綠色,10%選擇藍(lán)色,30%選擇白色。他隨機(jī)抽取了150名顧客,詢問他們所喜好的顏色。結(jié)果見color.sav。問是否應(yīng)拒絕該經(jīng)營商的假設(shè)?擬合問題————樣本率與已知總體率的比較依次輸入期望的類別比例。擬合問題————樣本率與已知總體率的比較P值小于5%,可以拒絕原假設(shè)。顧客今年的顏色偏好與去年相比存在顯著差異。8.3獨(dú)立性檢驗(yàn)

——兩個(gè)(多個(gè))變量的相關(guān)問題16獨(dú)立性檢驗(yàn)——兩個(gè)(多個(gè))變量的相關(guān)問題卡方檢驗(yàn)可以非常容易地推廣到兩樣本或多樣本比較的問題,即應(yīng)用卡方檢驗(yàn)總體中兩個(gè)特性有無相關(guān)性,這種檢驗(yàn)也叫獨(dú)立性檢驗(yàn)。例:在電視收視率調(diào)查中,得到性別與收視習(xí)慣的列聯(lián)表如下。試建立數(shù)據(jù)文件并分析性別與收視習(xí)慣的相關(guān)聯(lián)系。男女幾乎天天看3824偶爾看317獨(dú)立性檢驗(yàn)——兩個(gè)(多個(gè))變量的相關(guān)問題Analyze——DescriptiveStatistics——Crosstabs進(jìn)行卡方檢驗(yàn)獨(dú)立性檢驗(yàn)——兩個(gè)(多個(gè))變量的相關(guān)問題Analyze——DescriptiveStatistics——Crosstabs觀測頻數(shù)期望頻數(shù)輸出殘差標(biāo)準(zhǔn)化殘差獨(dú)立性檢驗(yàn)——兩個(gè)(多個(gè))變量的相關(guān)問題雙側(cè)近似概率Pearson卡方統(tǒng)計(jì)量雙側(cè)精確概率對數(shù)似然比計(jì)算的卡方Fisher’s確切概率法線性相關(guān)的卡方值,檢驗(yàn)行列變量是否線性相關(guān),多用于定序變量8.4卡方檢驗(yàn)的局限性及補(bǔ)救辦法21由于卡方檢驗(yàn)簡單直觀,而且交互分析表又能提供非常豐富的信息,因此在各種調(diào)查統(tǒng)計(jì)中這種交互分析(列聯(lián)表加卡方檢驗(yàn))的應(yīng)用十分廣泛。在實(shí)際應(yīng)用中,不但定類變量采用此方法,對定序甚至定距變量也粗略地劃分成幾類后做成列聯(lián)表。這可以從某種意義上簡化數(shù)據(jù),但這種交互分析也存在其局限性??ǚ綑z驗(yàn)的局限性及補(bǔ)救辦法卡方檢驗(yàn)的局限性:卡方值隨分類的不同而改變。如對教育程度、收入水平的分類,因此分類時(shí)最好有理論或?qū)嵺`依據(jù),或者統(tǒng)計(jì)依據(jù)(中位數(shù)、四分位數(shù)等)樣本量不能太小,也不宜過大。樣本量太小,采用卡方分布為依據(jù)的檢驗(yàn)便不再成立。一般要求n>40。但樣本量過大,有時(shí)得到的結(jié)果便會失去意義??ǚ街凳軜颖玖坑绊懞艽螅簶颖玖吭酱螅饺菀椎玫骄芙^原假設(shè)H0的結(jié)果。卡方檢驗(yàn)的局限性及補(bǔ)救辦法卡方檢驗(yàn)的局限性:列聯(lián)表中期望頻數(shù)小于5的個(gè)數(shù)不能太多。通常建議所有的期望頻數(shù)都不小于5,最多也不能超過20%。如對3×5的列聯(lián)表,共15個(gè)格,則期望頻數(shù)小于5的格數(shù)不能超過3個(gè)。如果超過了20%,則需要對卡方值加以修正。對于連續(xù)型變量(定距、定比變量),卡方檢驗(yàn)無法揭露其數(shù)量性質(zhì)。卡方檢驗(yàn)的一般原則:只要有數(shù)量型的變量出現(xiàn),就應(yīng)該采用可以提示其數(shù)量性質(zhì)的統(tǒng)計(jì)工具(如t檢驗(yàn)、方差分析、秩和檢驗(yàn)等)來分析??ǚ綑z驗(yàn)更適用于定類變量??ǚ綑z驗(yàn)的局限性及補(bǔ)救辦法統(tǒng)計(jì)指標(biāo)的選擇:當(dāng)樣本量n≥40,且所有單元格的期望頻數(shù)fe≥5時(shí),用普通的Pearson卡方檢驗(yàn);當(dāng)樣本量n≥40,且只有20%以下的單元格的期望頻數(shù)1≤fe<5時(shí),用校正的卡方檢驗(yàn):如對數(shù)似然比(LikelihoodRatio)計(jì)算的卡方,或用于2×2格表的連續(xù)性校正的卡方(ContinuityCorrection);當(dāng)樣本量n<40,或有20%以上的單元格期望頻數(shù)fe<5,或有單元格期望頻數(shù)fe<1時(shí),采用確切概率法(Fisher’sExactTest).卡方檢驗(yàn)的局限性及補(bǔ)救辦法本章練習(xí)1、數(shù)據(jù)36選7.sav是體彩36選7連續(xù)45期中獎(jiǎng)號碼出現(xiàn)頻次的統(tǒng)計(jì),試分析中獎(jiǎng)號碼的出現(xiàn)概率是否隨機(jī)。2、在周六晚節(jié)目單修訂后,分別作了收視率的調(diào)查。在節(jié)目修改前,收視率記錄為ABC29%,CBS28%,NBC25%,ITV18%。節(jié)目修改后,300個(gè)家庭所組成的樣本產(chǎn)生下列電視收視數(shù)據(jù):ABC95戶,CBS70戶,NBC89戶,ITV46戶,在5%的顯著性水平下,檢驗(yàn)電視收視率是否發(fā)生了變化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論