![SAS系統(tǒng)和數(shù)據(jù)分析符號(hào)檢驗(yàn)和Wilcoxon符號(hào)秩檢驗(yàn)_第1頁(yè)](http://file4.renrendoc.com/view11/M01/2A/04/wKhkGWVt032AAdHcAANB1IxBxic572.jpg)
![SAS系統(tǒng)和數(shù)據(jù)分析符號(hào)檢驗(yàn)和Wilcoxon符號(hào)秩檢驗(yàn)_第2頁(yè)](http://file4.renrendoc.com/view11/M01/2A/04/wKhkGWVt032AAdHcAANB1IxBxic5722.jpg)
![SAS系統(tǒng)和數(shù)據(jù)分析符號(hào)檢驗(yàn)和Wilcoxon符號(hào)秩檢驗(yàn)_第3頁(yè)](http://file4.renrendoc.com/view11/M01/2A/04/wKhkGWVt032AAdHcAANB1IxBxic5723.jpg)
![SAS系統(tǒng)和數(shù)據(jù)分析符號(hào)檢驗(yàn)和Wilcoxon符號(hào)秩檢驗(yàn)_第4頁(yè)](http://file4.renrendoc.com/view11/M01/2A/04/wKhkGWVt032AAdHcAANB1IxBxic5724.jpg)
![SAS系統(tǒng)和數(shù)據(jù)分析符號(hào)檢驗(yàn)和Wilcoxon符號(hào)秩檢驗(yàn)_第5頁(yè)](http://file4.renrendoc.com/view11/M01/2A/04/wKhkGWVt032AAdHcAANB1IxBxic5725.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
符號(hào)檢驗(yàn)和Wilcoxon符號(hào)秩檢驗(yàn)在統(tǒng)計(jì)推斷和假設(shè)檢驗(yàn)中,傳統(tǒng)的檢驗(yàn)統(tǒng)計(jì)量都叫做參數(shù)檢驗(yàn),因?yàn)樗鼈兌家蕾囉诖_定的概率分布,這個(gè)分布帶有一組自由的參數(shù)。參數(shù)檢驗(yàn)被認(rèn)為是依賴于分布假定的。通常情況下,我們對(duì)數(shù)據(jù)進(jìn)行分析時(shí),總是假定誤差項(xiàng)服從正態(tài)分布,這是人們易于接受的事實(shí),因?yàn)檎龖B(tài)分布的原始出發(fā)點(diǎn)就是來(lái)自于誤差分布,至于當(dāng)樣本相當(dāng)大時(shí),數(shù)據(jù)的正態(tài)近似,這是由于大樣本理論所保證的。但有些資料不一定滿足上述要求,或不能測(cè)量具體數(shù)值,其觀察結(jié)果往往只有程度上的區(qū)別,如顏色的深淺、反應(yīng)的強(qiáng)弱等,此時(shí)就不適用參數(shù)檢驗(yàn)的方法,而只能用非參數(shù)統(tǒng)計(jì)方法(non-parametricstatisticalanalysis)來(lái)處理。這種方法對(duì)數(shù)據(jù)來(lái)自的總體不作任何假設(shè)或僅作極少的假設(shè),因此在實(shí)用中頗有價(jià)值,適用面很廣。單樣本的符號(hào)檢驗(yàn)符號(hào)檢驗(yàn)(signtest)是一種最簡(jiǎn)單的非參數(shù)檢驗(yàn)方法。它是根據(jù)正、負(fù)號(hào)的個(gè)數(shù)來(lái)假設(shè)檢驗(yàn)。首先需要將原始觀察值按設(shè)定的規(guī)則,轉(zhuǎn)換成正、負(fù)號(hào),然后計(jì)數(shù)正、負(fù)號(hào)的個(gè)數(shù)作出檢驗(yàn)。該檢驗(yàn)可用于樣本中位數(shù)和總體中位數(shù)的比較,數(shù)據(jù)的升降趨勢(shì)的檢驗(yàn),特別適用于總體分布不服從正態(tài)分布或分布不明的配對(duì)資料,有時(shí)當(dāng)配對(duì)比較的結(jié)果只能定性的表示,如試驗(yàn)前后比較結(jié)果為顏色從深變淺、程度從強(qiáng)變?nèi)酰煽?jī)從一般變優(yōu)秀,即不能獲得具體數(shù)字,也可用符號(hào)檢驗(yàn),例如用正號(hào)表示顏色從深變淺,用負(fù)號(hào)表示顏色從淺變深。用于配對(duì)資料時(shí),符號(hào)檢驗(yàn)的計(jì)算步驟為:首先定義成對(duì)數(shù)據(jù)指定正號(hào)或負(fù)號(hào)的規(guī)則,然后計(jì)數(shù)正號(hào)的個(gè)數(shù)及負(fù)號(hào)的個(gè)數(shù),由于在具體比較配對(duì)資料時(shí),可能存在配對(duì)資料的前后沒(méi)有變化,或等于假設(shè)中的中位數(shù),此時(shí)僅需要將這些觀察值從資料中剔除,當(dāng)然樣本大小也隨之減少,故修正樣本大小。當(dāng)樣本較小時(shí),應(yīng)使用二項(xiàng)分布確切概率計(jì)算法,當(dāng)樣本較大時(shí),常利用二項(xiàng)分布的正態(tài)近似。小樣本時(shí)的二項(xiàng)分布概率計(jì)算當(dāng)時(shí),或的檢驗(yàn)值由精確計(jì)算尺度二項(xiàng)分布的卷積獲得。在比較配對(duì)資料試驗(yàn)前后有否變化,或增加或減小的假設(shè)檢驗(yàn)時(shí),如果我們定義試驗(yàn)后比試驗(yàn)前增加為正號(hào),反之為負(fù)號(hào),那么對(duì)于原假設(shè):試驗(yàn)前后無(wú)變化來(lái)說(shuō),正號(hào)的個(gè)數(shù)和負(fù)號(hào)的個(gè)數(shù)可能性應(yīng)當(dāng)相等,即正號(hào)出現(xiàn)的概率=0.5,于是與均服從二項(xiàng)分布,對(duì)于太大的相應(yīng)太小的,或者太大的相應(yīng)太小的,都將拒絕接受原假設(shè);對(duì)于原假設(shè):試驗(yàn)后比試驗(yàn)前有增加來(lái)說(shuō),正號(hào)的個(gè)數(shù)大于負(fù)號(hào)的個(gè)數(shù)的可能性應(yīng)該大,即正號(hào)出現(xiàn)的概率,對(duì)于太小的相應(yīng)太大的,將拒絕接受原假設(shè);對(duì)于原假設(shè):試驗(yàn)后比試驗(yàn)前減小來(lái)說(shuō),正號(hào)的個(gè)數(shù)小于等于負(fù)號(hào)的個(gè)數(shù)的可能性應(yīng)該大,即正號(hào)出現(xiàn)的概率,對(duì)于太大的相應(yīng)太小的,將拒絕接受原假設(shè)。例27.1有一種提高學(xué)生某種素質(zhì)的訓(xùn)練,有人說(shuō)它是無(wú)效的,有人說(shuō)它是有效的,那么真實(shí)情況究竟應(yīng)該是怎樣的呢?隨機(jī)地選取15名學(xué)生作為試驗(yàn)樣本,在訓(xùn)練開(kāi)始前做了一次測(cè)驗(yàn),每個(gè)學(xué)生的素質(zhì)按優(yōu)、良、中、及格、差打分,經(jīng)過(guò)三個(gè)月訓(xùn)練后,再做一次測(cè)試對(duì)每個(gè)學(xué)生打分。數(shù)據(jù)如表27.1所示。我們將素質(zhì)提高用正號(hào)表示,反之用負(fù)號(hào)表示,沒(méi)有變化用0表示。顯著性水平取0.1。表27.1訓(xùn)練前后的素質(zhì)比較學(xué)生編號(hào)訓(xùn)練之前訓(xùn)練之后差異符號(hào)1中優(yōu)+2及格良+3良中-4差中+5良良06中優(yōu)+7差及格+8良優(yōu)+9中差-10差中+11中優(yōu)+12及格良+13中及格-14中優(yōu)+15差中+從表27.1中15名學(xué)生訓(xùn)練前后的差異分析可得出:有14名學(xué)生有差異,其中=11,=3。1名學(xué)生無(wú)差異(學(xué)生編號(hào)為5),應(yīng)該從分析中去掉,所以=15-1=14。假設(shè)檢驗(yàn)為:即訓(xùn)練之后學(xué)生素質(zhì)沒(méi)有提高。即訓(xùn)練之后學(xué)生素質(zhì)有提高。由于試驗(yàn)的結(jié)果只有兩種可能,正號(hào)或負(fù)號(hào),對(duì)每一個(gè)學(xué)生試驗(yàn)出現(xiàn)正號(hào)的假定概率為=0.5,負(fù)號(hào)為1-=0.5,這樣整個(gè)試驗(yàn)的概率是相同的,并且每一個(gè)試驗(yàn)是相互獨(dú)立的。因此在=14次獨(dú)立的試驗(yàn)中,正號(hào)出現(xiàn)的次數(shù)服從二項(xiàng)分布,如表27.2所示。表27.2二項(xiàng)分布的概率和累計(jì)概率n=14,p=0.5正號(hào)出現(xiàn)的次數(shù)正號(hào)出現(xiàn)的概率累計(jì)概率00.00010.000110.00090.000920.00560.006530.02220.028740.06110.089850.12220.212060.18330.395370.20950.604780.18330.788090.12220.9102100.06110.9713110.02220.9935120.00560.9991130.00090.9999140.00011.0000從表27.2的累計(jì)概率列中我們看到,正號(hào)出現(xiàn)的次數(shù)大于10的概率為1-0.9713=0.0287,或者換一種方法計(jì)算為=0.0001+0.0009+0.0056+0.0222=0.0287,二者的微小差異是因?yàn)樾?shù)點(diǎn)后舍入問(wèn)題造成的。而試驗(yàn)的結(jié)果:正號(hào)出現(xiàn)的次數(shù)為11,大于10,出現(xiàn)的概率不會(huì)超過(guò)0.0287,我們開(kāi)始設(shè)定的顯著性水平為0.1,由于0.0287<0.1,所以我們拒絕原假設(shè),接受備選假設(shè)。如果我們的原假設(shè)為=0.5,既訓(xùn)練前后學(xué)生素質(zhì)相等,那么就是雙側(cè)檢驗(yàn),應(yīng)該加上正號(hào)出現(xiàn)的次數(shù)小于4的概率0.0287,即2×0.0287=0.0574<0.1,同樣是拒絕原假設(shè),接受區(qū)間為4次到10次,而拒絕區(qū)間為小于等于3次(小于4次)或大于等于11次(大于10次)。大樣本時(shí)的正態(tài)近似概率計(jì)算當(dāng)時(shí),樣本可以認(rèn)為是大樣本。我們可以利用二項(xiàng)分布的正態(tài)近似,即對(duì)于,二項(xiàng)分布的期望均值為,方差為,當(dāng)比較大時(shí),且和大于5,可以近似地認(rèn)為:(27.1)公式中的表示正號(hào)或者負(fù)號(hào)的個(gè)數(shù),符號(hào)檢驗(yàn)時(shí),=0.5代入式(27.1)中,得到大樣本時(shí)的正態(tài)近似統(tǒng)計(jì)量:(27.2)當(dāng)>時(shí),應(yīng)該修正為-0.5;當(dāng)<時(shí),應(yīng)該修正為+0.5。值加或減的0.5是連續(xù)性修正因子,目的是為了能將連續(xù)分布應(yīng)用到近似的離散型分布。配對(duì)資料的Wilcoxon符號(hào)秩檢驗(yàn)當(dāng)兩組配對(duì)資料近似服從正態(tài)分布,它們差值的檢驗(yàn)可以使用配對(duì)t檢驗(yàn)法。如果配對(duì)資料的正態(tài)分布的假設(shè)不能成立,就可以使用FrankWilcoxon(1945)符號(hào)秩檢驗(yàn),它是一種非參數(shù)檢驗(yàn)方法,對(duì)配對(duì)資料的差值采用符號(hào)秩方法來(lái)檢驗(yàn)。它的基本要求是差值數(shù)據(jù)設(shè)置為最小的序列等級(jí)和兩組配對(duì)資料是相關(guān)的(配成對(duì))。在兩組配對(duì)資料的差異有具體數(shù)值的情況下,符號(hào)檢驗(yàn)只利用大于0和小于0的信息,即正號(hào)和負(fù)號(hào)的信息,而對(duì)差異大小所包含的信息卻未加利用,但Wilcoxon符號(hào)秩檢驗(yàn)方法既考慮了正、負(fù)號(hào),又利用了差值大小,故效率較符號(hào)檢驗(yàn)法高。例27.2某制造商想要比較兩種不同的生產(chǎn)方法所花費(fèi)的生產(chǎn)時(shí)間是否有差異。隨機(jī)地選取了11個(gè)工人,每一個(gè)工人都分別使用兩種不同的生產(chǎn)方法來(lái)完成一項(xiàng)相同的任務(wù),每一個(gè)工人開(kāi)始選用的生產(chǎn)方法是隨機(jī)的,即可以先使用生產(chǎn)方法1再使用生產(chǎn)方法2,也可以先用生產(chǎn)方法2再使用生產(chǎn)方法1。這樣,在樣本中的每一個(gè)工人都提供了一個(gè)配對(duì)觀察。數(shù)據(jù)如表27.3所示。任務(wù)完成時(shí)間的正差值表示生產(chǎn)方法1需要更多的時(shí)間,負(fù)差值表示生產(chǎn)方法2需要更多的時(shí)間。表27.3兩種不同生產(chǎn)方法完成任務(wù)的時(shí)間(分鐘)工人編號(hào)n生產(chǎn)方法M差值D絕對(duì)差值秩次R符號(hào)秩次RM1M2D=M1-M2|D|-+110.29.50.70.78829.69.8-0.20.22239.28.80.40.43.53.5410.610.10.50.55.55.559.910.3-0.40.43.53.5610.29.30.90.91010710.610.50.10.111810.010.000———911.210.60.60.6771010.710.20.50.55.55.51110.69.80.80.899符號(hào)秩次總和=5.5,=49.55.549.5為了比較兩種方法的任務(wù)完成時(shí)間是否有顯著差異,假設(shè)檢驗(yàn)為:任務(wù)完成時(shí)間的兩個(gè)總體是相同的。任務(wù)完成時(shí)間的兩個(gè)總體是不相同的。使用Wilcoxon符號(hào)秩檢驗(yàn)方法的主要步驟見(jiàn)表27.3中每列的計(jì)算方法和過(guò)程,先求出每對(duì)數(shù)據(jù)的差值D,按差值絕對(duì)值|D|由小到大排列并給秩R,從秩1開(kāi)始到秩10,注意工人編號(hào)為8的配對(duì)數(shù)據(jù),由于差值為0,在排秩中丟棄,樣本數(shù)目修正為=11-1=10。在給秩值時(shí),遇到相等|D|,也稱為結(jié)值(tied),使用平均秩,如工人編號(hào)3和5具有相同的絕對(duì)差值0.4,所以平分秩3和秩4,各為秩3.5。一旦絕對(duì)差值的秩值R給出后,然后將R分成正和負(fù)差值的兩個(gè)部分秩值和,最后求符號(hào)秩和,,如=2+3.5=5.5。對(duì)于樣本數(shù)目有個(gè),與的最小可能值為0,而最大可能值為(1+2+…+n)=n(n+1)/2。顯然,應(yīng)當(dāng)有+=n(n+1)/2,如本例5.5+49.5=55=10(10+1)/2。那么符號(hào)秩的平均值為n(n+1)/4。構(gòu)造Wilcoxon符號(hào)秩統(tǒng)計(jì)量為:(27.3)顯然如果原假設(shè)為真,與應(yīng)該有相同的值,等于n(n+1)/4,因此太大的S值或太小的S值都是我們拒絕的依據(jù)。在實(shí)際工作中便于計(jì)算常取W=min(,),W服從所謂的Wilcoxon符號(hào)秩分布,對(duì)于本例=10,49.5-10(10+1)/4=22,W=min(49.5,5.5)=5.5,查表可得在顯著水平0.05,=10的雙側(cè)檢驗(yàn)的臨界值為8,即W值的拒絕區(qū)域?yàn)?到8,接受區(qū)域?yàn)?到27.5。由于5.5<8,我們拒絕原假設(shè)。對(duì)于>20,當(dāng)原假設(shè)為真時(shí),統(tǒng)計(jì)量=-接近于0,統(tǒng)計(jì)量的方差為:(27.4)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:(27.5)近似于標(biāo)準(zhǔn)正態(tài)分布。因?yàn)?=n(n+1)/2,所以=-=2-n(n+1)/2,我們可以將(27.5)式中的改寫(xiě)為的形式:(27.5)我們以本例的數(shù)據(jù)來(lái)計(jì)算一下,=2.24,p=2×0.01246=0.249。標(biāo)準(zhǔn)正態(tài)分布使用顯著水平0.05時(shí),拒絕區(qū)域?yàn)閦<-1.96和z>1.96,因?yàn)?.24>1.96,所以拒絕原假設(shè)。實(shí)例分析例27.1的SAS程序如下:datastudy.training;inputbeforeafter;d=after-before;cards;352443134435124531133524323513;procunivariatedata=study.training;vard;run;程序說(shuō)明:建立輸入數(shù)據(jù)集training,首先要對(duì)定性資料進(jìn)行量化。本例把學(xué)生成績(jī)按5分計(jì)量,設(shè)定優(yōu)=5分,良=4分,中=3分,及格=2分,差=1分。把提高學(xué)生某種素質(zhì)的訓(xùn)練前成績(jī)和訓(xùn)練后成績(jī)分別存放在變量before和after中,變量d等于配對(duì)的訓(xùn)練后成績(jī)減去訓(xùn)練前成績(jī)。注意只能調(diào)用univariate過(guò)程,而不能調(diào)用means過(guò)程來(lái)進(jìn)行符號(hào)檢驗(yàn)。分析變量為單樣本數(shù)據(jù)集training中的d變量。輸出的主要結(jié)果如表27.4所示。表27.4用univariate過(guò)程進(jìn)行符號(hào)檢驗(yàn)的輸出結(jié)果UnivariateProcedureUnivariateProcedureVariable=DMomentsQuantiles(Def=5)N15SumWgts15100%Max299%2Mean1.066667Sum1675%Q3295%2StdDev1.387015Variance1.9238150%Med290%2Skewness-1.24756Kurtosis0.18131725%Q1010%-1USS44CSS26.933330%Min-25%-2CV130.0326StdMean0.3581261%-2T:Mean=02.978471Pr>|T|0.0100Range4Num^=014Num>011Q3-Q12M(Sign)4Pr>=|M|0.0574Mode2SgnRank38Pr>=|S|0.0154ExtremesLowestObsHighestObs-2(9)2(10)-1(13)2(11)-1(3)2(12)0(5)2(14)1(8)2(15)結(jié)果說(shuō)明:符號(hào)檢驗(yàn)統(tǒng)計(jì)量M(Sign)=4,它是取正符號(hào)和負(fù)符號(hào)兩者之間的小者作為檢驗(yàn)統(tǒng)計(jì)量,Pr>=|M|計(jì)算的概率是二項(xiàng)分布的兩尾概率之和,因此它是雙側(cè)檢驗(yàn),檢驗(yàn)正符號(hào)和負(fù)符號(hào)是否相同,結(jié)果為0.0574。在顯著水平設(shè)定為0.1時(shí),由于0.0574<0.1,拒絕原假設(shè)。符號(hào)檢驗(yàn)的缺點(diǎn)是丟失了差值d大小的信息,如果設(shè)定檢驗(yàn)的顯著水平為0.05,那么本例檢驗(yàn)結(jié)果卻由于0.0574>0.05,改變?yōu)椴荒芫芙^原假設(shè)。但是,如果我們用考慮差值d大小的信息的Wilcoxon符號(hào)秩檢驗(yàn),即SgnRank,由于0.0154<0.05,仍然得到拒絕原假設(shè)的檢驗(yàn)結(jié)果。例27.2的SAS程序如下:datastudy.time;inputm1m2;d=m1-m2;cards;10.29.59.69.89.28.810.610.19.910.310.29.310.610.510.010.011.210.610.710.210.69.8;procunivariatedata=study.timenormal;vard;run;程序說(shuō)明:建立輸入數(shù)據(jù)集time,數(shù)據(jù)的輸入和配對(duì)t檢驗(yàn)相同,即數(shù)據(jù)一對(duì)一對(duì)的輸入,然后求出差值d。過(guò)程步也和配對(duì)t檢驗(yàn)類同,但必須調(diào)用univariate過(guò)程。本例用了“normal”選項(xiàng)對(duì)差值作正態(tài)性檢驗(yàn)。輸出的主要結(jié)果如表27.5所示。表27.5用univariate過(guò)程進(jìn)行Wilcoxon符號(hào)秩檢驗(yàn)的輸出結(jié)果UnivariateProcedureUnivariateProcedureVariable=DMomentsQuantiles(Def=5)N11SumWgts11100%Max0.999%0.9Mean0.354545Sum3.975%Q30.795%0.9StdDev0.422761Variance0.17872750%Med0.590%0.8Skewness-0.56332Kurtosis-0.8069925%Q1010%-0.2USS3.17CSS1.7872730%Min-0.45%-0.4CV119.2404StdMean0.1274671%-0.4T:Mean=02.78146Pr>|T|0.0194Range1.3Num^=010Num>08Q3-Q10.7M(Sign)3Pr>=|M|0.1094Mode0.5SgnRank22Pr>=|S|0.0234W:Normal0.942951Pr<W0.5338ExtremesLowestObsHighestObs-0.4(5)0.5(10)-0.2(2)0.6(9)0(8)0.7(1)0.1(7)0.8(11)0.4(3)0.9(6)結(jié)果說(shuō)明:配對(duì)資料如果其差值不是具體數(shù)字,只能用符號(hào)檢驗(yàn)。但如果差值有具體數(shù)字,而使用符號(hào)檢驗(yàn),相當(dāng)于只利用了它的“+”、“-”,而對(duì)數(shù)字大小中所包含信息卻未加利用。此時(shí),應(yīng)該使用配對(duì)資料的t檢驗(yàn)或配對(duì)資料的Wilcoxon符號(hào)秩檢驗(yàn)。如果我們有理由相信配對(duì)資料符合正態(tài)分布且正態(tài)性檢驗(yàn)也不能拒絕差值d具有正態(tài)性,那么應(yīng)該使用t檢驗(yàn),這也是本程序需要“normal”選項(xiàng)的原因。但是,如果我們沒(méi)有任何理由相信配對(duì)資料符合正態(tài)分布,即使在正態(tài)性檢驗(yàn)也不能拒絕差值d具有正態(tài)性的情況下,建議還是使用Wilcoxon符號(hào)秩檢驗(yàn)。差值d的正態(tài)性檢驗(yàn)的結(jié)果為0.5338>0.05,因此不能拒絕差值d具有正態(tài)性。因?yàn)橹圃焐叹芙^相信差值d具有正態(tài)性,所以我們采用Wilcoxon符號(hào)秩檢驗(yàn)。Wilcoxon符號(hào)秩統(tǒng)計(jì)量S(SgnRank)=22。SAS系統(tǒng)在20時(shí),Pr>=|S|的概率由S的精確分布計(jì)算,而S的分布是尺度二項(xiàng)分布的卷積,所以精確結(jié)果為p=0.0234<0.05,拒絕原假設(shè),即兩種不同的生產(chǎn)方法所花費(fèi)的生產(chǎn)時(shí)間是有差異的。當(dāng)>20時(shí),將符號(hào)秩統(tǒng)計(jì)量S標(biāo)準(zhǔn)化成自由度為-1的t統(tǒng)計(jì)量來(lái)計(jì)算顯著水平。注意,跟我們上面所介紹的轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布略有不同,原因是當(dāng)較大時(shí),t分布漸近標(biāo)準(zhǔn)正態(tài)分布。另外,SAS系統(tǒng)在計(jì)算秩統(tǒng)計(jì)量S的方差時(shí),用結(jié)值來(lái)修正方差。拒絕原假設(shè),即兩種不同的生產(chǎn)方法所花費(fèi)的生產(chǎn)時(shí)間是有差異的。Wilcoxon秩和檢驗(yàn)兩樣本的Wilcoxon秩和檢驗(yàn)兩樣本的Wilcoxon秩和檢驗(yàn)是由Mann,Whitney和Wilcoxon三人共同設(shè)計(jì)的一種檢驗(yàn),有時(shí)也稱為Wilcoxon秩和檢驗(yàn),用來(lái)決定兩個(gè)獨(dú)立樣本是否來(lái)自相同的或相等的總體。如果這兩個(gè)獨(dú)立樣本來(lái)自正態(tài)分布和具有相同方差時(shí),我們可以采用t檢驗(yàn)比較均值。但當(dāng)這兩個(gè)條件都不能確定時(shí),我們常替換t檢驗(yàn)法為Wilcoxon秩和檢驗(yàn)。Wilcoxon秩和檢驗(yàn)是基于樣本數(shù)據(jù)秩和。先將兩樣本看成是單一樣本(混合樣本)然后由小到大排列觀察值統(tǒng)一編秩。如果原假設(shè)兩個(gè)獨(dú)立樣本來(lái)自相同的總體為真,那么秩將大約均勻分布在兩個(gè)樣本中,即小的、中等的、大的秩值應(yīng)該大約被均勻分在兩個(gè)樣本中。如果備選假設(shè)兩個(gè)獨(dú)立樣本來(lái)自不相同的總體為真,那么其中一個(gè)樣本將會(huì)有更多的小秩值,這樣就會(huì)得到一個(gè)較小的秩和;另一個(gè)樣本將會(huì)有更多的大秩值,因此就會(huì)得到一個(gè)較大的秩和。設(shè)兩個(gè)獨(dú)立樣本為:第一個(gè)的樣本容量為,第二個(gè)樣本容量為,在容量為的混合樣本(第一個(gè)和第二個(gè))中,樣本的秩和為,樣本的秩和為,且有:(28.1)我們定義:(28.2)(28.3)以樣本為例,若它們?cè)诨旌蠘颖局邢碛凶钚〉膫€(gè)秩,于是,也是可能取的最小值;同樣可能取的最小值為。那么,的最大取值等于混合樣本的總秩和減去的最小值,即;同樣,的最大取值等于。所以,式(28.2)和式(28.3)中的和均為取值在0與的變量。當(dāng)原假設(shè)為真時(shí),所有的和相當(dāng)于從同一總體中抽得的獨(dú)立隨機(jī)樣本,和構(gòu)成可分辨的排列情況,可看成一排個(gè)球隨機(jī)地指定個(gè)為球,另個(gè)為球,共有種可能,而且它們是等可能的?;谶@樣的分析,在原假設(shè)為真的條件下不難求出和的概率分布,顯然它們的分布還是相同的,這個(gè)分布稱為樣本大小為和的Mann-Whitney-Wilcoxon分布。一個(gè)具有實(shí)際價(jià)值的方法是,對(duì)于每個(gè)樣本中的觀察數(shù)大于等于8的大樣本來(lái)說(shuō),我們可以采用標(biāo)準(zhǔn)正態(tài)分布來(lái)近似檢驗(yàn)。由于的中心點(diǎn)為,根據(jù)式(28.2),中心點(diǎn)為:(28.4)的方差從數(shù)學(xué)上可推導(dǎo)出:(28.5)如果樣本中存在結(jié)值,將影響到公式(28.5)中的方差,按結(jié)值調(diào)整方差的公式為:(28.6)其中,為第j個(gè)結(jié)值的個(gè)數(shù)。結(jié)值的存在將使原方差變小,這是一個(gè)顯然正確的事實(shí)。標(biāo)準(zhǔn)化后為:(28.7)其中,分子加0.5或減0.5是為了對(duì)離散變量進(jìn)行連續(xù)性修正,對(duì)于大于0減0.5修正,對(duì)于小于0加0.5修正。例28.1某航空公司的CEO注意到飛離亞特蘭大的飛機(jī)放棄預(yù)訂座位的旅客人數(shù)在增加,他特別有興趣想知道,是否從亞特蘭大起飛的飛機(jī)比從芝加哥起飛的飛機(jī)有更多的放棄預(yù)訂座位的旅客。獲得一個(gè)從亞特蘭大起飛的9次航班和從芝加哥起飛的8次航班上放棄預(yù)訂座位的旅客人數(shù)樣本,見(jiàn)表28.1中的第2列和第4列。表28.1放棄預(yù)訂座位的旅客人數(shù)及統(tǒng)一秩值航班次數(shù)亞特蘭大(組)芝加哥(組)放棄人數(shù)統(tǒng)一編秩放棄人數(shù)統(tǒng)一編秩1115.513721591483103.5103.541812815115.51610620139272416171182215211492517秩和96.556.5如果假定放棄預(yù)訂座位旅客人數(shù)的總體是正態(tài)分布且有相等的方差,我們可以采用兩樣本比較的t檢驗(yàn)。但航空公司的CEO認(rèn)為這兩個(gè)假設(shè)條件不能滿足,因此采用非參數(shù)的Wilcoxon秩和檢驗(yàn)。將組與組看成是單一樣本進(jìn)行編秩,見(jiàn)表28.1中的第3列和第5列。最小值是8,秩值為1,最大值是25,秩值為17,有兩個(gè)結(jié)值10和11,兩個(gè)10平均分享秩值3和4為3.5,兩個(gè)11平均分享秩值5和6為5.5。如果兩組放棄預(yù)訂座位的旅客人數(shù)是相同的,那么我們期望的兩組秩和和大約是相同的;如果兩組放棄預(yù)訂座位的旅客人數(shù)是不相同的,那么我們期望的兩組秩和和也是非常不相同的。注意到9,8,=96.5,=56.5,兩組放棄預(yù)訂座位旅客人數(shù)的分布是相同的。標(biāo)準(zhǔn)正態(tài)分布值的計(jì)算結(jié)果為如果設(shè)定顯著水平0.05,我們知道標(biāo)準(zhǔn)正態(tài)分布在0.05顯著水平時(shí),上臨界值為1.645,下臨界值為-1.645,由于1.445<1.645,所以不能拒絕原假設(shè)。在使用Wilcoxon秩和檢驗(yàn)時(shí),也可以采用第二個(gè)樣本的秩和來(lái)計(jì)算標(biāo)準(zhǔn)正態(tài)分布值,但要注意公式中和的對(duì)換。值的計(jì)算結(jié)果為:由于-1.445>-1.645,因此得到的是相同的結(jié)果,不能拒絕原假設(shè)。另外,要特別注意的是由于在連續(xù)型分布中隨機(jī)地抽出個(gè)樣本,幾乎極少可能存在有些值相等的情況,但在社會(huì)經(jīng)濟(jì)中有很多離散變量,很可能存在數(shù)值相同的情況,即樣本中存在著“結(jié)”。我們處理“結(jié)”的方法采用分享平均秩,但當(dāng)大量“結(jié)”存在時(shí),將可能直接影響的方差,因此需要把式(28.5)中的方差修正為式(28.6)。但在手工計(jì)算和結(jié)值不多的情況下,常使用未修正方差來(lái)簡(jiǎn)化計(jì)算,因?yàn)榕c修正方差的計(jì)算結(jié)果比較只存在一些小差異,大多數(shù)情況下不影響最終的推斷結(jié)果。單因子非參數(shù)方差分析的npar1way過(guò)程單因子非參數(shù)方差分析的npar1way過(guò)程是分析變量的秩,并計(jì)算幾個(gè)基于經(jīng)驗(yàn)分布的函數(shù)(EDF)和通過(guò)一個(gè)單因子分類變量的響應(yīng)變量確定的秩得分的統(tǒng)計(jì)量。秩的得分計(jì)算分成四種:Wilcoxon得分、中位數(shù)得分、Savage得分和VanderWaerden得分。然后,再由秩得分計(jì)算簡(jiǎn)單的線性秩統(tǒng)計(jì)量,由這個(gè)秩統(tǒng)計(jì)量可以檢驗(yàn)一個(gè)變量的分布在不同組中是否具有相同的位置參數(shù),或者在EDF檢驗(yàn)下,檢驗(yàn)這個(gè)變量分布在不同組中是否分布相同。秩得分的統(tǒng)計(jì)量也可以先用procrank過(guò)程計(jì)算秩得分,然后用procanova過(guò)程分析這些秩得分而得到。四種不同的秩得分計(jì)算用以下公式定義的統(tǒng)計(jì)量:(28.8)稱為線性秩統(tǒng)計(jì)量。其中,是第個(gè)觀察的秩,是秩得分,是一個(gè)指示向量(由0和1組成),它表示了第個(gè)觀察所屬的類,是觀察的總數(shù)。npar1way過(guò)程的四種不同的秩得分計(jì)算為:Wilcoxon得分在Wilcoxon得分中:=(28.9)它對(duì)Logistic分布的位置移動(dòng)是局部最優(yōu)的。在計(jì)算兩樣本情況下的Wilcoxon秩和統(tǒng)計(jì)量時(shí),過(guò)程對(duì)零假設(shè)下的漸進(jìn)標(biāo)準(zhǔn)正態(tài)分布的z統(tǒng)計(jì)量進(jìn)行一個(gè)連續(xù)的+0.5和-0.5校正。Median得分Median得分又稱為中位數(shù)得分。當(dāng)觀察的秩大于中位點(diǎn)時(shí),中位數(shù)得分為1,否則為0,即:(28.10)對(duì)于雙指數(shù)分布,中位數(shù)得分是局部最優(yōu)。VanderWaerden得分VanderWaerden得分簡(jiǎn)稱為VW的得分。它是對(duì)正態(tài)分布的次序統(tǒng)計(jì)量的期望值的近似,即:=(28.11)其中,函數(shù)是標(biāo)準(zhǔn)正態(tài)的累積分布函數(shù)的反函數(shù),這個(gè)得分對(duì)正態(tài)分布是最優(yōu)的。Savage得分Savage得分是指數(shù)分布的次序統(tǒng)計(jì)量的期望值。減去1使得得分以0為中心,即:=(28.12)Savage得分在指數(shù)分布中比較尺度的不同性或在極值分布中的位置移動(dòng)上是最優(yōu)的。npar1way過(guò)程說(shuō)明procnpar1way過(guò)程一般由下列語(yǔ)句控制:procnpar1waydata=數(shù)據(jù)集<選項(xiàng)>;class分類變量;var變量列表;by變量列表;run;為了使用procnpar1way過(guò)程,必須調(diào)用proc和class語(yǔ)句。其余語(yǔ)句是供選擇的。procnpar1way語(yǔ)句的選項(xiàng)anova——對(duì)原始數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)方差分析。edf——計(jì)算基于經(jīng)驗(yàn)分布函數(shù)(EDF)的統(tǒng)計(jì)量,如Kolmogorov-Smirnov、Cramer-VonMeses、Kuiper統(tǒng)計(jì)量。missing——把class變量的缺失值看作一個(gè)有效的分類水平。median——執(zhí)行一個(gè)中位數(shù)得分分析。對(duì)于兩樣本產(chǎn)生一個(gè)中位數(shù)檢驗(yàn),對(duì)于更多樣本產(chǎn)生一個(gè)Brown-Mood檢驗(yàn)。savage——執(zhí)行一個(gè)Savage得分分析。該檢驗(yàn)適用于數(shù)據(jù)服從指數(shù)分布的組間比較。vw——執(zhí)行一個(gè)VanderWaerden得分分析。這是一個(gè)通過(guò)應(yīng)用反正態(tài)分布累積函數(shù)得到近似的正態(tài)得分。對(duì)于兩個(gè)水平情況,這是一個(gè)標(biāo)準(zhǔn)VanderWaerden檢驗(yàn)。wilcoxon——對(duì)數(shù)據(jù)或Wilcoxon得分進(jìn)行秩分布。對(duì)于兩個(gè)水平,它與Wilcoxon秩和檢驗(yàn)一樣;對(duì)于任何數(shù)量的水平,這是一個(gè)Kruskal-Wallis檢驗(yàn)。對(duì)于兩樣本情況,該過(guò)程使用一個(gè)連續(xù)的校正。class語(yǔ)句class語(yǔ)句是必需的,它指定一個(gè)且只能一個(gè)分類變量。該變量用來(lái)標(biāo)識(shí)數(shù)據(jù)中的各個(gè)類。Class語(yǔ)句變量可以是字符型或數(shù)值型。var語(yǔ)句var語(yǔ)句命名要分析的響應(yīng)變量或自變量。如果省略var語(yǔ)句,過(guò)程分析數(shù)據(jù)集中除class語(yǔ)句指定的數(shù)據(jù)變量外的所有數(shù)值型變量。by語(yǔ)句一個(gè)by語(yǔ)句能夠用來(lái)得到由by變量定義的幾個(gè)觀察組,并用procnpar1way過(guò)程分別進(jìn)行分析。當(dāng)一個(gè)by語(yǔ)句出現(xiàn)時(shí),過(guò)程希望輸入的數(shù)據(jù)集已按by變量排序。實(shí)例分析例28.1的SAS程序如下:datastudy.noshows;dogroup=1to2;inputn;doi=1ton;inputx@@;output;end;end;cards;9111510181120242225813141081691721;procnpar1waydata=study.noshowswilcoxon;classgroup;varx;run;程序說(shuō)明:建立輸入數(shù)據(jù)集noshows,數(shù)據(jù)的輸入和成組t檢驗(yàn)相同,先輸入本組數(shù)據(jù)的總數(shù),然后輸入組中每個(gè)數(shù)據(jù)。分組變量為group,共有兩組取值為1和2。輸入變量為x,存放每組中的數(shù)據(jù)。過(guò)程步調(diào)用npar1way過(guò)程,后面用選擇項(xiàng)wilcoxon要求進(jìn)行wilcoxon秩和檢驗(yàn)。要注意,如果兩組樣本是配對(duì)樣本,應(yīng)該使用配對(duì)t檢驗(yàn)或wilcoxon符號(hào)檢驗(yàn),因?yàn)槭褂脀ilcoxon秩和方法,將損失配對(duì)信息。class語(yǔ)句后給出分組變量名group,var語(yǔ)句后給出要分析的變量x。主要結(jié)果如表28.2所示。表28.2用npar1way過(guò)程進(jìn)行Wilcoxon秩和檢驗(yàn)的輸出結(jié)果NPAR1WAYPRO
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年彩涂板(卷)項(xiàng)目申請(qǐng)報(bào)告模板
- 2025年促銷禮品租賃合同文本
- 2025年音頻切換臺(tái)項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 2025年汽車保養(yǎng)維修服務(wù)合同示例
- 2025年企業(yè)復(fù)蘇與和解協(xié)議大綱
- 2025年保函結(jié)算合同
- 2025年足浴店加盟經(jīng)營(yíng)合同模板
- 2025年南通勞動(dòng)合同模板
- 2025年農(nóng)產(chǎn)品肉類購(gòu)銷合同范文
- 2025年個(gè)人咨詢項(xiàng)目服務(wù)合同范本
- 初二地理會(huì)考復(fù)習(xí)教案
- 外研版七年級(jí)上冊(cè)英語(yǔ)課文翻譯
- 銀行營(yíng)銷術(shù)語(yǔ)演練
- 醫(yī)院培訓(xùn)課件:《成人住院患者靜脈血栓栓塞癥的預(yù)防護(hù)理》
- 學(xué)校食品安全教育學(xué)習(xí)活動(dòng)食品安全講座課件
- 2024年河北省公務(wù)員考試《行測(cè)》真題及答案解析
- 綠色建筑項(xiàng)目造價(jià)咨詢服務(wù)方案
- 2024-2030年中國(guó)高油酸花生油市場(chǎng)供需趨勢(shì)與營(yíng)銷推廣渠道分析研究報(bào)告
- GB/T 44717-2024民用無(wú)人機(jī)可靠性飛行試驗(yàn)要求與方法
- 五年級(jí)上冊(cè)數(shù)學(xué)小數(shù)四則混合運(yùn)算練習(xí)100道及答案
- 2024年廣東省中考地理試題(含解析)
評(píng)論
0/150
提交評(píng)論