正態(tài)性檢驗(yàn)的一般方法匯總_第1頁
正態(tài)性檢驗(yàn)的一般方法匯總_第2頁
正態(tài)性檢驗(yàn)的一般方法匯總_第3頁
正態(tài)性檢驗(yàn)的一般方法匯總_第4頁
正態(tài)性檢驗(yàn)的一般方法匯總_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、正態(tài)性檢驗(yàn)的一般方法姓名:藍(lán)何忠學(xué)號(hào):1101200203班號(hào):1012201正態(tài)性檢驗(yàn)的一般方法【摘要】:正態(tài)分布是自然界中一種最常見的也是最重要的一種分布.因此,人們在實(shí)際使用統(tǒng)計(jì)分析時(shí),總是樂于正態(tài)假定,但該假定是否成立,牽涉到正態(tài)性檢驗(yàn).在一般性的概率統(tǒng)計(jì)教科書中,只是把這個(gè)問題放在一般性的分布擬合下作簡短處理,而這種萬精油式的檢驗(yàn)方法,對正態(tài)性檢驗(yàn)不具有特效.鑒于此,該文從不同角度出發(fā)介紹正態(tài)性檢驗(yàn)的幾種常見的方法,并且就各種方法作了優(yōu)劣比較,【引言】一般實(shí)際獲得的數(shù)據(jù),其分布往往未知。在數(shù)據(jù)分析中,經(jīng)常要判斷一組數(shù)據(jù)的分布是否來自某一特定的分布,比如對于連續(xù)性分布,常判斷數(shù)據(jù)是否來

2、自正態(tài)分布,而對于離散分布來說,常判斷是否來自二項(xiàng)分布.泊松分布,或判斷實(shí)際觀測與期望數(shù)是否一致,然后才運(yùn)用相應(yīng)的統(tǒng)計(jì)方法進(jìn)行分析。幾種正態(tài)性檢驗(yàn)方法的比較。一、/擬合優(yōu)度檢驗(yàn):(1)當(dāng)總體分布未知,由樣本檢驗(yàn)總體分布是否與某一理論分布一致。H0:總體X的分布歹ij為pX二為=叱i=l,2,H1:總體X的分布不為Pi.構(gòu)造統(tǒng)計(jì)量=£半/=#上電£印仙I)芻np.其中L為樣本中/發(fā)生的實(shí)際頻數(shù),口也為H0為真時(shí)發(fā)生的理論頻數(shù)。(2)檢驗(yàn)原理若/=0,則門二口巳,意味著對于%,觀測頻數(shù)與期望頻數(shù)完全一致,即完全擬合。觀察頻數(shù)與期望頻數(shù)越接近,則產(chǎn)值越小。A當(dāng)原假設(shè)為真時(shí),有大數(shù)

3、定理,有與Pi不應(yīng)有較大差異,即/值應(yīng)較小。若/值過大,則懷疑原假設(shè)。拒絕域?yàn)镽=/之王,判斷統(tǒng)計(jì)量是否落入拒絕域,得出結(jié)論。二、Kolmogorov-Smirnov正態(tài)性檢驗(yàn):Kolmogorov-Smirnov檢驗(yàn)法是檢驗(yàn)單一樣本是否來自某一特定分布。比如檢驗(yàn)一組數(shù)據(jù)是否為正態(tài)分布。它的檢驗(yàn)方法是以樣本數(shù)據(jù)的累積頻數(shù)分布與特定理論分布比較,若兩者間的差距很小,則推論該樣本取自某特定分布族。即對于假設(shè)檢驗(yàn)問題:H0:樣本所來自的總體分布服從某特定分布H1:樣本所來自的總體分布不服從某特定分布統(tǒng)計(jì)原理:Fo(x)表示分布的分布函數(shù),F(xiàn)n(x)表示一組隨機(jī)樣本的累計(jì)概率函數(shù)。F2,n設(shè)D為Fo(

4、x)與Fn(x)差距的最大值,定義如下式:D=max|Fn(x)-Fo(x)對于給定的a,PDnd于a.例如:35位健康男性在未進(jìn)食前的血糖濃度如表所示,試測驗(yàn)這組數(shù)據(jù)是否來自均值口二80,標(biāo)準(zhǔn)差。二6的正態(tài)分布8777926880788477818080779286768081757772819084868068778776777892758078n=35檢驗(yàn)過程如下:假設(shè)H0:健康成人男性血糖濃度服從正態(tài)分布H1:健康成人男性血糖濃度不服從正態(tài)分布計(jì)算過程如表:血糖濃度(X)次數(shù)(f)累計(jì)次數(shù)(F)Fn(x>Fn標(biāo)準(zhǔn)化值Z=(x-U).C理論分布F0(x)D682X0.05*1-2.

5、000.02280.0272240.11434.330.09349175260.1714-0.830.20330.02762S0.2286-0.670.251409776140.4000-0.500.30850.03783170.4857-0.330.370719806230.657100.50000.02813260.74290.170.567528842280.80000.670.74860.09862300.85/11.000.841315872320.91431.170.87900.11923351.00002.000.9772500.15710.17540.05140.01580.0

6、3530.0228結(jié)論:上表中的理論值l'o(x)是根據(jù)標(biāo)準(zhǔn)化值Z查表得到,實(shí)際上D=max|Fn(x)-Fo(x)|=0.1754<Do.55,35=°-23查D值表,故不能拒絕HO即健康成年男人血糖濃度服從正態(tài)分布,當(dāng)樣本容量n大時(shí)可以用Da,n=1.36/求得結(jié)果,如上述DO.55,35=1.36/=0.2299=0.23結(jié)論:當(dāng)實(shí)際觀測D>Dn,則接受Hl,反之則不拒絕H0假設(shè)。/擬合優(yōu)度檢驗(yàn)與K-S正態(tài)檢驗(yàn)的比較:/擬合優(yōu)度檢驗(yàn)與K-S正態(tài)檢驗(yàn)都采用實(shí)際頻數(shù)與期望頻數(shù)進(jìn)行檢驗(yàn)。它們之間最大的不同在于前者主要用于類別數(shù)據(jù),而后者主要用于有計(jì)量單位的連續(xù)和定

7、量數(shù)據(jù),擬合優(yōu)度檢驗(yàn)雖然也可以用于定量數(shù)據(jù),但必須先將數(shù)據(jù)分組得到實(shí)際觀測頻數(shù),并要求多變量之間獨(dú)立,而K-S正態(tài)檢驗(yàn)法可以不分組直接把原始數(shù)據(jù)的n個(gè)觀測值進(jìn)行檢驗(yàn),所以它對數(shù)據(jù)的利用較完整。三、Lilliefor正態(tài)分布檢驗(yàn)該檢驗(yàn)是對Kolmogorov-Smirnov檢驗(yàn)的修正,當(dāng)總體均值和方差未知時(shí),Lilliefor提出用樣本均值和標(biāo)準(zhǔn)差代替總體的期望和標(biāo)準(zhǔn)差,然后使用Kolmogorov-Smirnov正態(tài)性檢驗(yàn)法,它定義了一個(gè)D統(tǒng)計(jì)量;a人22D=maxIFn(x)-Fo(x)|參數(shù)未知,由a=S計(jì)算得到統(tǒng)計(jì)量,查表得Lilliefor檢驗(yàn)的臨界值,確定拒絕域,得出結(jié)論。四、偏度峰

8、度檢驗(yàn)法:(一)偏度檢驗(yàn):設(shè)隨機(jī)變量X具有數(shù)學(xué)期望以6R和方差/>0,”瓦為X的偏度,所謂偏度檢驗(yàn)就是檢驗(yàn)如下假設(shè):“0:跖二0%:曬手。注意到,拒絕原假設(shè)”。,則可以認(rèn)為樣本不是來自正態(tài)總體。接受原假設(shè)”。,并不等價(jià)于接受原假設(shè)“樣本來自正態(tài)總體:這是因?yàn)槿螌ΨQ分布的偏度都為0,無法排除樣本來自非正態(tài)的對稱分布的可能。因此,偏度檢驗(yàn)只能檢驗(yàn)數(shù)據(jù)分布的對稱性。由于總體分布未知,無法直接得到總體的偏度,故可以利用樣本偏度作為檢驗(yàn)上述假設(shè)的檢驗(yàn)統(tǒng)計(jì)量,記i=1定義1設(shè)勺,“2,,/為隨機(jī)變量X的n個(gè)相互獨(dú)立的樣本,偏度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為m(%-歹g=q32hJL12“23(2)21=1(*)

9、常被用于雙尾檢驗(yàn),因?yàn)榉钦龖B(tài)分布可能出現(xiàn)左偏,也可能出現(xiàn)右偏。在原假設(shè)成立時(shí),瓦”0,在顯著性水平aE(0,1)下取定分位點(diǎn)若N旬-嚎巴則拒絕原假設(shè)。事實(shí)上,M的分布是對稱的,因此采取雙尾檢驗(yàn)的做法是合理的。定理1設(shè)也為(*)式中定義的偏度檢驗(yàn)統(tǒng)計(jì)量,貝拄伉匕漸進(jìn)服從均值為0,方差為6的正態(tài)分布,即、國.N(0,6)(Nts)樣本容量有限的情形,使用漸進(jìn)情形下的結(jié)論就會(huì)導(dǎo)致較高的出錯(cuò)率,這也是偏度檢驗(yàn)的一個(gè)缺陷。需要指出的是,只有在確定對稱性是唯一影響分布的形態(tài)時(shí),偏度檢驗(yàn)才是合適的選擇,否則應(yīng)該避免使用偏度檢驗(yàn)。(二)峰度檢驗(yàn)設(shè)隨機(jī)變量X具有數(shù)學(xué)期望NCR和方差/>0,”為X的峰度,所

10、謂峰度檢驗(yàn),實(shí)際上是將正態(tài)性檢驗(yàn)轉(zhuǎn)化為檢驗(yàn)如下假設(shè):盛能=33:/芋3如同偏度檢驗(yàn)一樣,峰度為3的非正態(tài)分布也是存在的。所以,接受原假設(shè)”。并不能表明X一定服從正態(tài)分布,這一事實(shí)也導(dǎo)致對數(shù)據(jù)的正態(tài)性檢驗(yàn)會(huì)有一定的出錯(cuò)率。定義2設(shè),4為隨機(jī)變量X的n個(gè)相互獨(dú)立的樣本,峰度檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為b2m辦歹)41 = 12 m2比(3歹)2,1 = 1(*2)定理2設(shè)為為(*2)式中定義的峰度統(tǒng)計(jì)量,則而(b-3)tN(0,24)九T8同偏度統(tǒng)計(jì)量一樣,的收斂速度也是比較慢的.五、小樣本場合(3<n<50)的W檢驗(yàn)w檢驗(yàn)是檢驗(yàn)樣本容量nW50時(shí),樣本是否符合正態(tài)分布的一種方法。其檢驗(yàn)步驟如下

11、:將數(shù)據(jù)按數(shù)值大小重新排列,使xlWx2<Wxn;計(jì)算之區(qū)-對1=1計(jì)算式中:當(dāng)n為偶數(shù)時(shí),i=n/2;n為奇數(shù)時(shí),i二(n1)/2;值可查表得出;計(jì)算檢驗(yàn)統(tǒng)計(jì)量5/2£q(X廠X)t-xy/=1若w值小于判斷界限值Wa(可通過查表求得),按表上行寫明的顯著性水平a舍棄正態(tài)性假設(shè);若W>Wa,接受正態(tài)性假設(shè)。六、大樣本場合(50<n<100)的D檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量:包-野方D=(向E(x-w再令(。-0.28209479)、歷Y=0.2998598則在顯著性水平a時(shí),拒絕域?yàn)椴饭ぱ镜?或丫之片一哂。其中y<%/2和Y"1_哂分別為Y的a/2和1-a/2分位數(shù)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論