數(shù)據(jù)的正態(tài)分布_第1頁
數(shù)據(jù)的正態(tài)分布_第2頁
數(shù)據(jù)的正態(tài)分布_第3頁
數(shù)據(jù)的正態(tài)分布_第4頁
數(shù)據(jù)的正態(tài)分布_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)的正態(tài)性檢驗匯總2012-11-21 00:01:04| 分類: 統(tǒng)計學(xué)習(xí) |字號 訂閱如何在 spss中進行正態(tài)分布檢驗一、圖示法1、p-p 圖以樣本的累計頻率作為橫坐標(biāo),以安裝正態(tài)分布計算的相應(yīng)累計概率作為縱坐標(biāo),把樣本值表現(xiàn)為直角坐標(biāo)系中的散點。如果資料服從整體分布,則樣本點應(yīng)圍繞第一象限的對角線分布。2、q-q 圖以樣本的分位數(shù)作為橫坐標(biāo),以按照正態(tài)分布計算的相應(yīng)分位點作為縱坐標(biāo),把樣本表現(xiàn)為指教坐標(biāo)系的散點。如果資料服從正態(tài)分布,則樣本點應(yīng)該呈一條圍繞第一象限對角線的直線。以上兩種方法以q-q 圖為佳,效率較高。3、直方圖判斷方法:是否以鐘形分布,同時可以選擇輸出正態(tài)性曲線。4、

2、箱式圖判斷方法:觀測離群值和中位數(shù)。5、莖葉圖類似與直方圖,但實質(zhì)不同。二、計算法1、偏度系數(shù)(skewness )和峰度系數(shù)(kurtosis )計算公式:g1表示偏度, g2表示峰度,通過計算g1 和 g2 及其標(biāo)準誤g1及 g2然后作 u 檢驗。兩種檢驗同時得出u0.05 的結(jié)論時,才可以認為該組資料服從正態(tài)分布。由公式可見,部分文獻中所說的偏度和峰度都接近0 可以認為 近似服從正態(tài)分布并不嚴謹。2、非參數(shù)檢驗方法非參數(shù)檢驗方法包括kolmogorov-smirnov檢驗(d 檢驗) 和 shapiro- wilk( w檢驗)。sas 中規(guī)定:當(dāng)樣本含量n2000時,結(jié)果以 shapir

3、o wilk(w檢驗)為準,當(dāng)樣本含量n 2000時,結(jié)果以 kolmogorov smirnov(d檢驗)為準。spss 中則這樣規(guī)定:(1)如果指定的是非整數(shù)權(quán)重,則在加權(quán)樣本大小位于3 和 50 之間時,計算shapiro-wilk統(tǒng)計量。對于無權(quán)重或整數(shù)權(quán)重,在加權(quán)樣本大小位于3 和 5000 之間時,計算該統(tǒng)計量。由此可見,部分spss 教材里面關(guān)于 shapiro wilk適用于樣本量3-50 之間的數(shù)據(jù) 的說法實在是理解片面,誤人子弟。(2)單樣本 kolmogorov-smirnov檢驗可用于檢驗變量(例如income )是否為正態(tài)分布。對于此兩種檢驗,如果p 值大于 0.05

4、,表明資料服從正態(tài)分布。三、 spss 操作示例spss 中有很多操作可以進行正態(tài)檢驗,在此只介紹最主要和最全面最方便的操作:1、工具欄 -分析 描述性統(tǒng)計 探索性2、選擇要分析的變量,選入因變量框內(nèi),然后點選圖表,設(shè)置輸出莖葉圖和直方圖,選擇輸出正態(tài)性檢驗圖表,注意顯示(display )要選擇雙項(both )。3、output 結(jié)果(1)descriptives:描述中有峰度系數(shù)和偏度系數(shù),根據(jù)上述判斷標(biāo)準,數(shù)據(jù)不符合正態(tài)分布。sk=0,ku=0 時,分布呈正態(tài),sk0 時,分布呈正偏態(tài),sk0 曲線比較陡峭, ku 0 時 , 分布呈正偏態(tài),s k 0 時, 分布呈負偏態(tài)。適用條件:樣

5、本含量應(yīng)大于2002、用夏皮羅 -威爾克 (shapiro-wilk)法檢驗數(shù)據(jù)正態(tài)性即 w 檢驗 ,1965 年提出 , 適用于樣本含量n 50時的正態(tài)性檢驗; 。3、用達戈斯提諾 (dagostino) 法檢驗數(shù)據(jù)正態(tài)性即 d 檢驗 ,1971 提出 ,正態(tài)性 d 檢驗該方法效率高,是比較精確的正態(tài)檢驗法。4、shapiro-francia 法即 w 檢驗 ,于 1972 年提出 ,適用于 50 n 5000 結(jié)果以 kolmogorov - smirnov 為準。而 sas 規(guī)定 :當(dāng)樣本含量n 2000 時 ,結(jié)果以 shapiro - wilk (w 檢驗 ) 為準 ,當(dāng)樣本含量n

6、2000 時 ,結(jié)果以 kolmogorov - smirnov (d 檢驗 ) 為準問: 對照組和病例組都是20 例,擬對某指標(biāo)進行正態(tài)性檢驗,是用kolmogorov-smirnov檢驗(簡稱 k-s 檢驗 ), 還是 shapiro-wilk 檢驗?已用k-s 檢驗不能認為該指標(biāo)不是正態(tài)分布,但是shapiro-wilk 檢驗表明其為非正態(tài)分布, 我該相信哪個檢驗結(jié)果?答:kolmogorov-smirnov檢驗:檢驗頻數(shù)分布的正態(tài)性檢驗,適合大樣本。shapiro-wilk 檢驗:小樣本數(shù)據(jù)的正態(tài)性檢驗。矩法正態(tài)性檢驗: 不限樣本。 問:用 spss中analysze/discript

7、ive statistics/explore法和用 analyze/nonparametric tests/1-sample k-s法評價正態(tài)性,結(jié)果不完全相同,為什么?答:以第二個為準,第一種方法是參數(shù)檢驗, 而第二種是非參數(shù)檢驗, 第一種是在知道總體分布的情況下做的, 第二種是在不知道總體分布的情況進行的檢驗,而且大多數(shù)的檢驗,我們都是不知道總體分布到底是什么才做的k-s 檢驗。因此在做分析的時候一般用第二種,標(biāo)準的檢驗單樣本分布的方法。不過一般推薦用上面的,并且和 sas 的結(jié)果比較吻合。同時樣本量小的時候選s-w 的結(jié)果,至于結(jié)果的不同,應(yīng)該是不同的方法算出的值不同,這很正常,因為這幾

8、個方法的數(shù)學(xué)表達式就不一樣,中間對數(shù)據(jù)的處理也不一樣,會有信息損失等原因的,在正態(tài)檢驗中,尤其是接近水準時,往往容易出現(xiàn)問題,所以要根據(jù)資料的性質(zhì)判斷用什么方法進行檢驗更合適。不是把所有的方法都做一遍。對于到底 p 取多少才有意義, 說法有好多種,常用的是 0.1 吧,spss自帶的是 0.2 的界值。其實還是得結(jié)合qq,pp圖之類的來觀察會好些。小樣本最好不要看kolmogorov-smirnov的結(jié)果,常常會有問題,shapiro-wilk 的結(jié)果會好些。 補充: 如果根據(jù)國標(biāo),其偏態(tài)和峰態(tài)算法,其值為多少時符合正態(tài)別有規(guī)定呢?k-s 檢驗記得在資料上見過8=n5000 結(jié)果以 kolmo

9、gorm smimov(d檢驗 )為準。sas 規(guī)定:當(dāng)樣本含量n2000時,結(jié)果以shapim wilk(w 檢驗 )為準,當(dāng)樣本含量n2000 時,結(jié)果以 kolmogorovsmimov(d檢驗 )為準。在 spss 和 sas 等統(tǒng)計分析軟件中,通常用統(tǒng)計描述模塊中的shapiro-wilk檢驗、經(jīng)過 lilliefors 顯著水平修正的kolmogorov smirnov 檢驗和非參數(shù)檢驗?zāi)K中的單一樣本kolmogorov smirnov 檢驗進行正態(tài)性判定。但是這幾種檢驗方法存在以下幾方面的問題。(1)在實際應(yīng)用中常出現(xiàn)檢驗結(jié)果與直方圖、正態(tài)性概率圖不一致,甚至幾種假設(shè)檢驗方法結(jié)

10、果完全不同的情況。(2)shapiro wilk 檢驗 ( 檢驗 )和經(jīng)過 lilliefors 顯著水平修正的kolmogorov smirnov 檢驗 (d 檢驗 )是用一個綜合指標(biāo) (順序統(tǒng)計量或d)來判定資料的正態(tài)性由于兩種方法都是用一個指標(biāo)反映資料的正態(tài)性,所以當(dāng)資料的正態(tài)峰和對稱性兩個特征有一個不滿足正態(tài)性要求時,兩種方法出現(xiàn)假陰性錯誤的機率均較大;而且兩種方法的檢驗統(tǒng)計量都是進行大小排序后得到,所以易受異常值的影響。(3)kolmogorov smirnov 單一樣本檢驗是根據(jù)實際的累計頻數(shù)分布和理論的累計頻數(shù)分布的最大差異來檢驗資料的正態(tài)性,可對正態(tài)分布進行擬合優(yōu)度檢驗。但它并

11、非檢驗正態(tài)性的專用方法,因此它的檢驗效率是最低的,最容易受樣本量和異常值等因素的影響。沒有修正的k-s 檢驗的原始公式里面,檢驗的既是標(biāo)化后的數(shù)據(jù)是否服從理論的分布。正態(tài)性檢驗(上)2008-04-25 10:45 1. 樣本量較大時的結(jié)果:運用的數(shù)據(jù)是 spss13.0data里面的 diameter_sub.sav ,樣本含量是 216 對數(shù)據(jù)分別支用 sas和 spss 進行正態(tài)性檢驗:1.1 sas 中用 proc univariate normal;命令結(jié)果如下:tests for normalitytest -statistic- -p value-shapiro-wilk w 0

12、.993604 pr d 0.0789其中 sas中sas 規(guī)定:當(dāng)樣本含量n 2000 時,結(jié)果以shapiro - wilk (w 檢驗) 為準,當(dāng)樣本含量n 2000 時,結(jié)果以kolmogorov - smirnov (d 檢驗) 為準。1.2 spss 里面用 explor 過程 plots 選項中 normality plots with tests 結(jié)果如下:tests of normalitykolmogorov-smirnov(a)shapiro-wilkstatisticdfsig.statisticdfsig.ap diameter(mm).058216.070.9942

13、16.476a lilliefors significance correction對于 spss 結(jié)果選用哪個方法, 我看的資料并不一致: 在 spss13.0書上以樣本量50,選 shapiro - wilk 檢驗,(而有文獻spss說樣本含量3 n 5000 時,結(jié)果以shapiro - wilk (w 檢驗)為準,有出入)1.3 在 spss13.0中單樣本的 k-s 擬合優(yōu)度檢驗講到:可以用來檢驗樣本的分布是否服從某種理論分布可以是正態(tài)、均勻等。用上述例子選normal 分布進行計算結(jié)果如下:one-sample kolmogorov-smirnov testap diameter(mm)n216normal para

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論