版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四章 SAS基本統(tǒng)計(jì)過(guò)程 各種統(tǒng)計(jì)分析方法在SAS中大都以“過(guò)程”的形式存放在SAS過(guò)程庫(kù)中,當(dāng)我們需要進(jìn)行某種統(tǒng)計(jì)分析時(shí),只需用PROC步去調(diào)用相應(yīng)的過(guò)程,即可得到所需要的分析結(jié)果。 下面分別介紹統(tǒng)計(jì)資料的描述和常用的幾種假設(shè)檢驗(yàn)方法。1 計(jì)量資料的描述 SAS中可以對(duì)計(jì)量資料進(jìn)行描述的過(guò)程有很多,我們介紹兩個(gè)常用的過(guò)程:MEANS和UNIVARIATE過(guò)程。1. MEANS過(guò)程 MEANS過(guò)程用來(lái)對(duì)數(shù)據(jù)集中的數(shù)值變量計(jì)算簡(jiǎn)單描述統(tǒng)計(jì)量。該過(guò)程由下列語(yǔ)句控制:PROC MEANS options statistics-keywords; VAR variables; CLASS varia
2、bles;該過(guò)程除PROC語(yǔ)句(下劃線(xiàn)部分)是必須的外,其它的語(yǔ)句都是可選的。 1).PROC MEANS語(yǔ)句 PROC MEANS options statistic-keywords; 這里的options可以有: DATA=SAS data set:用以說(shuō)明過(guò)程分析處理的數(shù)據(jù)集的名字,若省略,則用最近產(chǎn)生的SAS數(shù)據(jù)集; ALPHA=value:設(shè)置計(jì)算概率可信區(qū)間的置信水平,這個(gè)ALPHA在0-1之間取值,默認(rèn)為0.05。 關(guān)于statistic-keywords,在MEANS過(guò)程中可計(jì)算如下的一些統(tǒng)計(jì)量:描述統(tǒng)計(jì)量N:例數(shù), MEAN:均數(shù), STD:標(biāo)準(zhǔn)差, MIN:最小值,MAX
3、:最大值, SUM:和, CV:變異系數(shù), STDERR:標(biāo)準(zhǔn)誤, SKEW:偏度系數(shù),KURT:峰度系數(shù), CLM:可信區(qū)間,LCLM:可信區(qū)間下限,UCLM:可信區(qū)間上限分位數(shù)MEDIAN :中位數(shù)QRANGE :四分位數(shù)間距P1、P5、P10、 P25、P50、P75、P90、P95、P992).VAR語(yǔ)句 VAR variables; 規(guī)定要計(jì)算描述性統(tǒng)計(jì)量的數(shù)值變量及順序。若省略該句,則對(duì)所有數(shù)值變量計(jì)算描述性統(tǒng)計(jì)量,除BY、CLASS語(yǔ)句中列出的變量之外。3).CLASS語(yǔ)句 CLASS variables; 該語(yǔ)句用CLASS變量定義的觀測(cè)組分別計(jì)算其相應(yīng)的描述統(tǒng)計(jì)量。例4-1現(xiàn)
4、有40名學(xué)生的相關(guān)信息,包括編號(hào)、性別、體重和身高。試計(jì)算:(1) 所有40名學(xué)生體重和身高的均數(shù)和標(biāo)準(zhǔn)差;(2) 分男女生分別計(jì)算其體重和身高的均數(shù)和標(biāo)準(zhǔn)差;(3) 結(jié)果保留2位小數(shù)。data student; input id sex $ height weight;cards;1女1605921男174702女1634622女158413女1635623女170564女1535024男170575男1806425男165556女1565226女160537女1555027女158458女1494128男160559女1605829男1806510女1585430男1846711女1645
5、631男1736512女1504032女1645213女1675233男1716214女1585034女1584615女1524335男1685516女1604536男1787217女1534537女1605118女1625438女1685119女1524339男1745820女1605440男16756;Run;Proc print;Run;首先建立SAS數(shù)據(jù)集并打印出來(lái)PROC MEANS DATA= student;VAR weight height ;Run;(1) 所有40名學(xué)生體重和身高的均數(shù)和標(biāo)準(zhǔn)差;調(diào)用MEANS過(guò)程計(jì)算常規(guī)描述性統(tǒng)計(jì)量, DATA= student選項(xiàng)指明分析
6、時(shí)數(shù)據(jù)所在的SAS數(shù)據(jù);VAR語(yǔ)句指明要對(duì)哪些變量進(jìn)行統(tǒng)計(jì)分析。計(jì)算結(jié)果如下: The MEANS Procedure Variable N Mean Std Dev Minimum Maximum - height 40 163.3750000 8.6815085 149.0000000 184.0000000 weight 40 53.6000000 7.9414524 40.0000000 72.0000000 -Variable:變量名 N:例數(shù) Mean:均數(shù) Std Dev:標(biāo)準(zhǔn)差 Minimum:最小值 Maximum:最大值 PROC MEANS data= student;V
7、AR weight height ;CLASS sex; /*添加此行語(yǔ)句*/RUN;(2) 分男女生分別計(jì)算其體重和身高的均數(shù)和標(biāo)準(zhǔn)差;Class 語(yǔ)句指明按SEX變量的取值(男、女)分別計(jì)算VAR語(yǔ)句中變量的統(tǒng)計(jì)量;結(jié)果如下: The MEANS Procedure N sex Obs Variable N Mean Std Dev Minimum Maximum - 男 13 height 13 172.6153846 6.7766568 160.0000000 184.0000000 weight 13 61.6153846 6.0074740 55.0000000 72.000000
8、0 女 27 height 27 158.9259259 5.3488024 149.0000000 170.0000000 weight 27 49.7407407 5.5093808 40.0000000 59.0000000 -(3) 結(jié)果保留2位小數(shù)PROC MEANS data= student maxdec=2;VAR weight height ;CLASS sex;RUN; The MEANS Procedure N sex Obs Variable N Mean Std Dev Minimum Maximum - 男 13 height 13 172.62 6.78 160.
9、00 184.00 weight 13 61.62 6.01 55.00 72.00 女 27 height 27 158.93 5.35 149.00 170.00 weight 27 49.74 5.51 40.00 59.00 -maxdec=2選項(xiàng)指明計(jì)算結(jié)果要保留的小數(shù)位數(shù),注意該選項(xiàng)在PROC MEANS語(yǔ)句中;結(jié)果如下:添加此選項(xiàng)2. UNIVARIATE過(guò)程 該過(guò)程除可以完成類(lèi)似MEANS過(guò)程的基本統(tǒng)計(jì)量的計(jì)算外,它還可以計(jì)算以下統(tǒng)計(jì)量: 描述變量極端值的情況; 計(jì)算分位數(shù),如中位數(shù); 生成若干個(gè)描述變量的分布圖;對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn);對(duì)數(shù)據(jù)進(jìn)行配對(duì)t檢驗(yàn)和配對(duì)秩和檢驗(yàn)。 該過(guò)
10、程由下列語(yǔ)句控制:PROC UNIVARIATE options; VAR variables; CLASS variables; 其中,下劃線(xiàn)的部分是必須的,其余語(yǔ)句都是可選的。下面介紹該過(guò)程使用的語(yǔ)句: CLASS語(yǔ)句和BY語(yǔ)句用法與MEANS過(guò)程相同,這里就省略了。1). PROC UNIVARIATE語(yǔ)句 PROC UNIVARIATE options; 用于UNIVARIATE過(guò)程語(yǔ)句的選項(xiàng)有(與MEANS過(guò)程相同用法的選項(xiàng)略去說(shuō)明): DATA=SAS-data-set:指定分析的數(shù)據(jù)集。 NORMAL:要求計(jì)算關(guān)于變量服從正態(tài)分布的假設(shè)檢驗(yàn)統(tǒng)計(jì)量,這個(gè)檢驗(yàn)統(tǒng)計(jì)量相應(yīng)的概率也被輸出
11、(即進(jìn)行正態(tài)性檢驗(yàn))。 PLOT:要求生成一個(gè)莖葉圖(或水平直方圖),一個(gè)盒形圖和一個(gè)正態(tài)概率圖。PROC UNIVARIATE data= student;VAR height ;RUN;例4-2:我們利用前面例4-1建立的數(shù)據(jù)集student來(lái)看看univariate過(guò)程的輸出結(jié)果。用univariate過(guò)程對(duì)身高變量進(jìn)行分析 程序如下: Moments N 40 Sum Weights 40 Mean 163.375 Sum Observations 6535 Std Deviation 8.68150849 Variance 75.3685897 Skewness 0.54153667
12、 Kurtosis -0.263264 Uncorrected SS 1070595 Corrected SS 2939.375 Coeff Variation 5.31385371 Std Error Mean 1.37266702 Basic Statistical Measures Location Variability Mean 163.3750 Std Deviation 8.68151 Median 161.0000 Variance 75.36859 Mode 160.0000 Range 35.00000 Interquartile Range 11.00000Varianc
13、e:方差, Uncorrected SS:未校正平方和, Corrected SS:校正平方和 Sum Observations:總和,Coeff Variation:變異系數(shù), Std Error Mean:標(biāo)準(zhǔn)誤Mode:眾數(shù),Range:全距, Interquartile Range:四分位數(shù)間距 Extreme Observations -Lowest- -Highest- Value Obs Value Obs 149 15 174 38 150 23 178 32 152 37 180 9 152 29 180 18 153 33 184 20 Tests for Location
14、: Mu0=0 Test -Statistic- -p Value- Students t t 119.0201 Pr |t| = |M| = |S| .0001 Quantiles (Definition 5) Quantile Estimate 100% Max 184.0 99% 184.0 95% 180.0 90% 176.0 75% Q3 169.0 50% Median 161.0 25% Q1 158.0 10% 152.5 5% 151.0 1% 149.0 0% Min 149.0Students t:t檢驗(yàn),與總體均數(shù)0進(jìn)行比較(配對(duì)t檢驗(yàn))Sign:符號(hào)檢驗(yàn)Signed
15、 Rank:符號(hào)秩檢驗(yàn)(配對(duì)秩和檢驗(yàn))左邊表中是對(duì)應(yīng)的百分位數(shù);上面表中是極值情況,列出5個(gè)最大值和5個(gè)最小值.(2) 用univariate過(guò)程對(duì)身高變量進(jìn)行正態(tài)性檢驗(yàn) 程序如下:PROC UNIVARIATE data= student normal;VAR height ;RUN;在這PROC語(yǔ)句中添加選項(xiàng)“normal”即可。 Tests for NormalityTest -Statistic- -p Value-Shapiro-Wilk W 0.960959 Pr D 0.0211Cramer-von Mises W-Sq 0.094471 Pr W-Sq 0.1321Anders
16、on-Darling A-Sq 0.537864 Pr A-Sq 0.1635四種正態(tài)性檢驗(yàn),通常情況下只需看W統(tǒng)計(jì)量,此例W=0.960959,P=0.1806,大于0.05,因此,體重?cái)?shù)據(jù)服從正態(tài)分布。注意:一般樣本量小于2000時(shí)Shapiro-Wilk檢驗(yàn)結(jié)果比較好;樣本量大于2000時(shí),可以看Kolmogorov-Smirnov的檢驗(yàn)結(jié)果,在樣本量小時(shí)其結(jié)果不可靠。繪制直方圖程序語(yǔ)句:PROC UNIVARIATE data= student;Histogram height ;RUN;語(yǔ)句選項(xiàng):1、擬合正態(tài)曲線(xiàn)Histogram height / normal ;2、指定直方圖的組
17、中值Histogram height / midpoints=35 40 45 50 55 60 65 70;2 計(jì)量資料的統(tǒng)計(jì)推斷 SAS統(tǒng)計(jì)分析過(guò)程提供了強(qiáng)大的分析模塊。我們先介紹t檢驗(yàn)、秩和檢驗(yàn)及直線(xiàn)相關(guān)回歸分析模塊。1.兩樣本均數(shù)比較的t-檢驗(yàn) 在SAS系統(tǒng)中,兩組資料比較的t-檢驗(yàn)是用TTEST過(guò)程來(lái)實(shí)現(xiàn)的。TTEST過(guò)程計(jì)算用CLASS變量的兩個(gè)水平識(shí)別兩個(gè)觀測(cè)組中每一個(gè)的樣本均值,并檢驗(yàn)總體均值相等的假設(shè)。 .兩組觀測(cè)的方差相等; .在每個(gè)組內(nèi),各個(gè)觀測(cè)獨(dú)立且服從正態(tài)分布。 如果兩組觀測(cè)的方差不等,則計(jì)算近似的t統(tǒng)計(jì)量(t)一. t-檢驗(yàn)語(yǔ)句格式:PROC TTEST optio
18、ns; CLASS variables; VAR variables; 下劃線(xiàn)部分是必須的,其余語(yǔ)句是可選的。proc ttest options; 這里的選項(xiàng)常用的有:Data=SAS-data-set:指定TTEST過(guò)程所用的SAS數(shù)據(jù)集;如果缺省,則使用最近生成的SAS數(shù)據(jù)集。Alpha=p,p默認(rèn)為0.05,設(shè)置可信區(qū)間水平:100(1-p)%h0=數(shù)值,默認(rèn)為0,設(shè)置要檢驗(yàn)的總體參數(shù)值。2) Class variables; 給出分類(lèi)變量名(組別變量),這里的分類(lèi)變量必須且只須有兩個(gè)水平(變量只有兩個(gè)取值)。 TTEST過(guò)程對(duì)按分類(lèi)變量分成的兩個(gè)觀測(cè)組進(jìn)行t檢驗(yàn)。 Class變量可以
19、是數(shù)值型的,也可以是字符型的。3) Var variables; 指出要比較其均值的變量名。如果缺省,則對(duì)輸入數(shù)據(jù)集中的所有數(shù)值型變量進(jìn)行分析,除出現(xiàn)在Class語(yǔ)句中的數(shù)值變量以外。 下面是關(guān)于t檢驗(yàn)的一個(gè)例子:例4-3(兩樣本均數(shù)比較的t檢驗(yàn)):兩組雌性大鼠分別以含高蛋白和低蛋白飼料喂養(yǎng)后,觀察第28天到第84天之間,每只大鼠所增體重(g),結(jié)果見(jiàn)下表,試作兩樣本比較的t檢驗(yàn)。高蛋白組1341461041241611078311312997123低蛋白組701181018510713294Data ex1;Input x grp;Cards;134 1 146 1 70 2 118 2 ;
20、PROC TTEST data=ex1;CLASS grp;VAR x;RUN;The TTEST ProcedureStatisticsVariablegrpNLower CLMeanMeanUpper CLMeanLower CLStd DevStdDevUpper CLStd DevStdErrMinimumMaximumx111105.02120.09135.1615.67222.4339.3636.762883161x2781.926101120.0713.2920.62445.4157.79570132xDiff (1-2)-3.22219.09141.40416.21421.77
21、33.13210.526variable::分析的變量Mean:均數(shù),Std Dev:標(biāo)準(zhǔn)差,Ste Err:標(biāo)準(zhǔn)誤Lower CL XX:95%可信區(qū)間下限 如 Lower CL Mean: 均數(shù)的95%可信區(qū)間下限 Lower CL Std Dev: 標(biāo)準(zhǔn)差的95%可信區(qū)間下限 Upper CL XX:95%可信區(qū)間上限分組變量T-TestsVariableMethodVariancesDFtValuePr|t|xPooledEqual161.810.0885xSatterthwaiteUnequal13.81.850.0859Equality of VariancesVariableMe
22、thodNumDFDenDFF ValuePrFxFolded F1061.180.8735方差齊性檢驗(yàn)P=0.8735,兩組資料總體方差齊同看此表之前應(yīng)先看下面的方差齊性檢驗(yàn)表,由于兩組資料總體方差齊同( P=0.8735,兩組資料總體方差齊同),故看“Equal”一行的結(jié)果 :t=1.81,p=0.0885;如果方差不齊,則看“Unequal”一行的結(jié)果。2.配對(duì)資料比較的t-檢驗(yàn) 進(jìn)行配對(duì)資料比較時(shí),我們是利用各對(duì)子的差值d與零均數(shù)進(jìn)行比較來(lái)實(shí)現(xiàn)的。此時(shí),問(wèn)題的實(shí)質(zhì)已經(jīng)轉(zhuǎn)化為單變量(d)的統(tǒng)計(jì)分析問(wèn)題了。 例4-4 (配對(duì)資料的t檢驗(yàn)): 某醫(yī)師用一種中藥治療高血壓患者,觀察患者治療前后
23、舒張壓(mmHg)的變化,數(shù)據(jù)如下表,試用配對(duì)t檢驗(yàn)比較中藥是否對(duì)高血壓患者治療前后舒張壓的變化有影響。編號(hào)123456789101112治前110 115133133126108110110140104120120治后9011610113111088921041268688112注意在錄入數(shù)據(jù)時(shí)一定要一對(duì)一對(duì)數(shù)據(jù)的錄入!data ex2;input x1 x2; d=x1-x2;cards;110 90115 116133 101133 131126 110108 88110 92110 104 120 88120 112;run;proc means n mean std t prt; v
24、ar d;run; 方法1:(用MEANS或UNIVARIATE過(guò)程處理)proc univariate; var d;run; PROC TTEST data=ex2 ; PAIRED x1*x2 ;RUN;方法2: (用TTEST過(guò)程來(lái)處理)StatisticsDifferenceNLower CLMeanUpper CLLower CLStdDevUpper CLStdErrMinimumMaximumMeanMeanStd DevStd Devx1 - x2128.777915.41722.0557.401810.44917.7413.0163-132T-TestsDifferenceDFtValuePr|t|x1 - x2115.110.000
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年教育培訓(xùn)機(jī)構(gòu)合同規(guī)范化管理合同2篇
- 2025年水果出口檢驗(yàn)檢疫服務(wù)合同3篇
- 秀嶼區(qū)二零二五年度文印中心承包合同2篇
- 2025年度訴訟財(cái)產(chǎn)保全擔(dān)保合同編制技巧與范文解讀9篇
- 2025年水產(chǎn)養(yǎng)殖場(chǎng)養(yǎng)殖保險(xiǎn)與風(fēng)險(xiǎn)規(guī)避合同3篇
- 2025年熟石灰產(chǎn)品市場(chǎng)調(diào)研分析合同3篇
- 2025年培訓(xùn)師素質(zhì)考核合同
- 2025版二手車(chē)維修與買(mǎi)賣(mài)一體化合同協(xié)議4篇
- 2025年度金融科技企業(yè)錄用合同范本4篇
- 2025年蔬菜種植基地與農(nóng)產(chǎn)品電商平臺(tái)合作合同范本23篇
- 2024年紀(jì)檢監(jiān)察綜合業(yè)務(wù)知識(shí)題庫(kù)含答案(研優(yōu)卷)
- 科室醫(yī)療質(zhì)量與安全管理小組工作制度
- 中華民族共同體概論課件第五講大一統(tǒng)與中華民族共同體初步形成(秦漢時(shí)期)
- 初二生地會(huì)考試卷及答案-文檔
- 私營(yíng)企業(yè)廉潔培訓(xùn)課件
- 施工單位值班人員安全交底和要求
- 中國(guó)保險(xiǎn)用戶(hù)需求趨勢(shì)洞察報(bào)告
- 數(shù)字化轉(zhuǎn)型指南 星展銀行如何成為“全球最佳銀行”
- 中餐烹飪技法大全
- 靈芝孢子油減毒作用課件
- 現(xiàn)場(chǎng)工藝紀(jì)律檢查表
評(píng)論
0/150
提交評(píng)論