第七章+非參數(shù)檢驗_第1頁
第七章+非參數(shù)檢驗_第2頁
第七章+非參數(shù)檢驗_第3頁
第七章+非參數(shù)檢驗_第4頁
第七章+非參數(shù)檢驗_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七章非參數(shù)檢驗

主講教師:潘玉榮系別:數(shù)學(xué)與物理系問題的提出在數(shù)據(jù)分析中,由于種種原因,人們往往無法對總體分布做簡單假定,但卻又希望能從樣本數(shù)據(jù)中獲得盡可能多的信息。非參數(shù)檢驗正是一類基于這種考慮,在總體分布未知或知道甚少的情況下,利用樣本數(shù)據(jù)對總體分布等進(jìn)行推斷的方法。

SPSS中非參數(shù)檢驗方法主要涉及以下方面:單樣本非參數(shù)檢驗兩獨立樣本非參數(shù)檢驗多獨立樣本參數(shù)檢驗兩配對樣本非參數(shù)檢驗多配對樣本非參數(shù)檢驗§7.1單樣本的非參數(shù)檢驗得到一批樣本數(shù)據(jù)以后,往往希望了解樣本來自的總體分布是否與某個已知的理論分布相吻合??梢岳L制樣本數(shù)據(jù)的直方圖、P-P圖、Q-Q圖等方法做粗略判斷,還可以利用非參數(shù)檢驗的方法來實現(xiàn)。SPSS單樣本非參數(shù)檢驗正是對單個總體的分布進(jìn)行推斷的方法,其中包括了卡方檢驗、二項分布檢驗、K-S檢驗以及變量值隨機檢驗等方法。7.1.1卡方檢驗的基本思想卡方檢驗方法可以根據(jù)樣本數(shù)據(jù),推斷總體分布與期望分布是否存在顯著差異,是一種吻合性檢驗,通常適合于對有多項分類值得總體分布的分析??ǚ綑z驗基本思想的理論依據(jù)是:如果從一個隨機變量X中隨機抽取若干個觀察樣本,這些觀察樣本落在X的k個互不相交的子集中的觀察頻數(shù)服從一個多項分布,這個多項分布當(dāng)k趨向無窮時近似服從卡方分布。卡方分布的零假設(shè):樣本來自的總體分布與期望分布或某一理論分布無顯著差異??ǚ綑z驗的應(yīng)用案例為了研究上述心臟病人猝死人數(shù)與日期的關(guān)系,收集到了168個觀察數(shù)據(jù),其中星期一至星期日的死亡人數(shù)分別一次為55、23、18、11、26、20、15,并用數(shù)字1~7表示星期?,F(xiàn)在利用這批樣本數(shù)據(jù)推斷心臟病人猝死人數(shù)與日期的關(guān)系是否為2.8:1:1:1:1:1:1卡方分布的零假設(shè):樣本來自的總體分布與期望分布或某一理論分布無顯著差異?!傮w分布卡方檢驗的基本操作操作步驟:(1)選擇菜單Analyze→NonparametricTests→Chi-Square,于是出現(xiàn)一個窗口(2)選定待檢驗的變量到TestVariableList框中。(3)在ExpectedRange框選項中確定參與分析的觀測值得范圍,其中Getfromdata表示所有觀察數(shù)據(jù)都參與分析;Usespecifiedrange只有在取值范圍內(nèi)的觀察數(shù)據(jù)才參與分析。

(4)在ExpectedValues框中給出各個pi值。其中Allcategoriesequal表示所有自己的pi都相同,即期望分布為均勻分布,Values框后可依次輸入pi值??ǚ綑z驗的應(yīng)用案例分析死亡日期

觀察數(shù) 期望數(shù) 殘差 1.00 55 53.5 1.5 2.00 23 19.1 3.9 3.00 18 19.1-1.1 4.00 11 19.1 -8.1 5.00 26 19.1 6.9 6.00 20 19.1 0.9 7.00 15 19.1 -4.1 總數(shù) 168

心臟病猝死卡方檢驗結(jié)果

死亡日期 卡方 7.757 df 6 漸近顯著性sig.0.256

從上述表中可以認(rèn)為樣本來自的分布與指定的理論分布無顯著差異,即心臟病人猝死人數(shù)與日期的關(guān)系是否為2.8:1:1:1:1:1:17.1.2二項分布檢驗的基本思想二項分布檢驗正是要通過樣本數(shù)據(jù)檢驗樣本來自的總體是否服從指定概率值p的二項分布,其零假設(shè)是樣本來自總體與指定的二項分布無顯著差異。若是小樣本中采用精確檢驗方法,計算n次試驗中成功出現(xiàn)的次數(shù)小于等于x次的概率,即:

若是大樣本下,看看采用近似檢驗,采用Z檢驗統(tǒng)計量。

當(dāng)小于時加0.5,當(dāng)大于時減0.5,

SPSS自動計算上述精確概率和近似概率值。如果概率值小于顯著水平,則拒絕零假設(shè),認(rèn)為樣本來自的總體與制定的二項分布有顯著差異;否則無差異。二項分布檢驗的基本操作(1)選擇菜單:分析→非參數(shù)檢驗→二項式(Binomial)(2)選擇待定檢驗的變量到[檢驗變量列表]框中(3)在[定義二分法]框中制定如何分類。如果檢驗變量為二值變量,則選[從數(shù)據(jù)中獲取]選項,且數(shù)據(jù)編輯窗口中的第一條數(shù)據(jù)所在類默認(rèn)為“成功”;如果檢驗變量不是二值變量,可在【割點】框后輸入具體數(shù)值,小于等于該值得觀測值為成功。(4)在【檢驗比例】框中輸入二項分布的檢驗概率值。至此,SPSS將自動檢驗成功的概率是否與輸入的檢驗概率值p存在顯著差異。二項分布檢驗的應(yīng)用案例為了驗證某批合格品率是否不低于90%,現(xiàn)從該批產(chǎn)品中隨機抽取23個樣品進(jìn)行檢測并得到檢測結(jié)果數(shù)據(jù)。7.1.3單樣本K-S檢驗的基本思想

K-S檢驗?zāi)軌蚶脴颖緮?shù)據(jù)推斷樣本來自的總體是否與某一理論分布有顯著差異,是一種擬合優(yōu)度的檢驗方法,適用于連續(xù)型隨機變量的分布。在SPSS中的理論分布主要包括正態(tài)分布、均勻分布、指數(shù)分布和泊松分布。SPSS單樣本K-S檢驗的基本思路:(1)在零假設(shè)前提下,計算各樣本觀測值在理論分布中出現(xiàn)的理論累計概率值F(x).(2)計算各樣本觀測值的實際累計概率值S(x),計算實際累計概率值與理論概率值的差D(x).(3)計算差值序列中的最大絕對值,即D=max(|S(Xi)-F(Xi)|).通常由于實際累計概率為離散值,因此D修正為D=max(max(|S(Xi)-F(Xi)|),max(|S(Xi-1)-F(Xi)|)

).D統(tǒng)計量也稱為K-S統(tǒng)計量在SPSS中,無論是大樣本還是小樣本,只給出大樣本下的和對應(yīng)的概率p值.單樣本K-S檢驗的基本操作(1)選擇菜單Analyze→NonparametricTests→1-sampleK-S(2)選定待檢驗的變量到TestVariableList框中。(3)在TestDstribution框中選擇理論分布,其中【Normal】為正態(tài)分布,【Uniform】為均勻分布,Poisson為泊松分布,Exponential為指數(shù)分布。至此,SPSS將自動計算K-S檢驗統(tǒng)計量和對應(yīng)的概率p值,并將結(jié)果輸出到輸出窗口中。單樣本K-S檢驗的應(yīng)用案例案例1:分析21名周歲兒童身高的總體與正態(tài)分布有無顯著差異。案例2:根據(jù)居民存款數(shù)據(jù),分析居民一次存款金額是否服從正態(tài)分布。§7.2兩獨立樣本的非參數(shù)檢驗含義:由樣本數(shù)據(jù)推斷兩獨立總體的分布是否存在顯著差異(或兩樣本是否來自同一總體)基本假設(shè):H0:兩總體分布無顯著差異(兩樣本來自同一總體)例如:某工廠用甲乙兩種不同的工藝生產(chǎn)同一種產(chǎn)品。如果希望檢驗兩種工藝下產(chǎn)品的使用壽命是否存在顯著差異,可從兩種工藝生產(chǎn)出的產(chǎn)品中隨機抽樣,得到各自的使用壽命數(shù)據(jù):工藝使用壽命樣本值甲工藝675,682,692,679,669,661,693乙工藝662,649,672,663,650,651,646,6527.2.1兩獨立樣本的K-S檢驗將兩樣本混合并按升序排序分別計算兩個樣本秩的累計頻數(shù)和累計頻率兩個累計頻率相減.如果差距較小,則認(rèn)為兩總體分布無顯著差異應(yīng)保證有較大的樣本數(shù)

混合排序后的樣本數(shù)據(jù)組標(biāo)記甲工藝?yán)塾嬵l數(shù)乙工藝?yán)塾嬵l數(shù)甲工藝?yán)塾嬵l率乙工藝?yán)塾嬵l率累計頻率差64620100.1250.12564920200.250.2565020300.3750.37565120400.50.565220500.6250.6256611150.1430.6250.4826622160.1430.750.6076632170.1430.8750.7326691270.2860.8750.5896722280.28610.7146751380.42910.5716791480.57110.4296821580.71410.2866921680.85710.1436931781107.2.2兩獨立樣本非參數(shù)檢驗的基本操作(1)擇菜單Analyze→NonparametricTests→2-IndependentSample(2)選定待檢驗的變量到TestVariableList框中。(3)指定存放組標(biāo)志的變量到【groupingvariable】框,并單擊【definegroups】按鈕給出兩個組標(biāo)志值。(4)在TestType框中選中哪種檢驗方法。至此,SPSS將根據(jù)用戶的選擇進(jìn)行檢驗,并將結(jié)果輸出到輸出窗口中。7.2.3兩獨立樣本非參數(shù)檢驗的應(yīng)用案例

由上表可知,甲乙兩種工藝下產(chǎn)品使用壽命的累計概率的絕對差為0.732.

的觀測值為1.415,概率p為0.037,小于顯著水平0.05,應(yīng)拒絕零假設(shè),認(rèn)為甲乙兩種工藝下產(chǎn)品壽命的分布存在顯著差異。

案例2:利用第2章居民儲蓄調(diào)查存款數(shù)據(jù),對城鎮(zhèn)和農(nóng)村儲戶存款金額的分布進(jìn)行比較分析。(學(xué)生練習(xí))§7.3多獨立樣本的非參數(shù)檢驗通過分析多組樣本數(shù)據(jù)推斷樣本來自的多個總體的位數(shù)或分布是否存在顯著差異。多組獨立樣本是指按獨立抽樣方式獲得的多組樣本?;炯僭O(shè)H0:多總體分布無顯著差異問題:希望對北京、上海、成都和廣州四個城市的周歲兒童的身高進(jìn)行比較分析。采用獨立抽樣方式獲得四組獨立樣本。城市身高樣本數(shù)據(jù)北京(1)79,75,78,76,72上海(2)72,71,74,74,73成都(3)76,78,78,77,75廣州(4)70,72,71,71,697.3.1中位數(shù)檢驗中位數(shù)檢驗通過對多組獨立樣本的分析,檢驗它們來自的總體的中位數(shù)是否存在顯著差異。零假設(shè):多個獨立樣本來自的多個總體的中位數(shù)無顯著差異?;舅枷耄喝绻鄠€的中位數(shù)無顯著差異,或者說多個總體有共同的中位數(shù),那么這個共同的中位數(shù)應(yīng)在各樣本組中均處在中間位置上。中位數(shù)檢驗基本步驟將多組樣本混合并按升序排序,并求出混合樣本的中位數(shù)。分別計算各組樣本中大于和小于上述中位數(shù)的樣本個數(shù)。利用卡方檢驗方法分析各樣本的來自總體對于上述中位數(shù)的分布是否一致。得到一個列聯(lián)表,并構(gòu)造卡方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論