描述性統(tǒng)計分析課件_第1頁
描述性統(tǒng)計分析課件_第2頁
描述性統(tǒng)計分析課件_第3頁
描述性統(tǒng)計分析課件_第4頁
描述性統(tǒng)計分析課件_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、描述性統(tǒng)計分析統(tǒng)計分析的基本概念武漢大學(xué)計算中心LOGO進行數(shù)據(jù)分析首先應(yīng):明確分析的目的明確分析的對象確定是否需要抽樣在一些問題中,要考查整個總體往往是不可能的,因為要耗費太多的時間和資源確定需要記錄的數(shù)據(jù)項目武漢大學(xué)計算中心LOGO1. 總體和樣本總體(population)是所研究的指標(biāo)測量值的集合??傮w樣本抽樣(sampling)是指從總體中抽取部分的做法。樣本(sample)通過抽樣得到的總體的一個子集。武漢大學(xué)計算中心LOGO抽樣方法簡單隨機抽樣:在抽樣的過程中,任何一個樣本被選中的機會都相同。利用計算機產(chǎn)生的隨機數(shù)(對于有限總體),可模擬簡單隨機抽樣,如對學(xué)生的學(xué)號用隨機數(shù)進行抽

2、樣對于無限總體不能進行標(biāo)號,抽樣過程不能用隨機數(shù),難于實施分層抽樣:按數(shù)據(jù)的層次進行抽樣。如小學(xué)生的身高,按每年級分為一個層武漢大學(xué)計算中心LOGO分層抽樣的優(yōu)點抽取的樣本在總體中分布得更均勻,更合理個層內(nèi)單位之間差異程度相對減小,使在該層內(nèi)抽取的樣本對該層的代表性得到提高層內(nèi)成員差異小,而層間成員差異較大時,分層抽樣可以提高估計的精度武漢大學(xué)計算中心LOGO2. 參數(shù)和統(tǒng)計量對總體概括度量值和對樣本概括度量值所用的方法及名稱是不同的??傮w的度量值稱為參數(shù)(parameters),樣本的度量值稱為統(tǒng)計量(statistics)。通常,總體參數(shù)是未知的,SAS系統(tǒng)給出的描述統(tǒng)計量適用于樣本。 武

3、漢大學(xué)計算中心LOGO2. 參數(shù)和統(tǒng)計量參數(shù)(parameters):總體的度量值。統(tǒng)計量(statistics):樣本的度量值。一般總體參數(shù)用希臘字母表示:均值方差標(biāo)準(zhǔn)差總體2樣本Xs2s武漢大學(xué)計算中心LOGO3. 自由度自由度是某一統(tǒng)計量中,變量可以自由取值的個數(shù)用df表示自由度。例變量X有n個取值, df=n;若它們受到k(kn)個條件制約,則df=n-k武漢大學(xué)計算中心LOGO4. 表示數(shù)據(jù)位置的統(tǒng)計量均值(Mean):所有觀測值的平均值。中位數(shù)(Median或Med):用以描述數(shù)據(jù)取值的中心位置。中位數(shù)的計算方法:先將數(shù)據(jù)從小到大排序,x1,x2,xn然后計算:中位數(shù)的優(yōu)點是它不受

4、個別極端數(shù)據(jù)的影響,具有穩(wěn)健性武漢大學(xué)計算中心LOGO4. 表示數(shù)據(jù)位置的統(tǒng)計量眾數(shù)(Mode):觀測值中出現(xiàn)最多的數(shù)。百分位數(shù)(Percentile): 描述數(shù)據(jù)分布和位置的統(tǒng)計量。0.5分位數(shù)就是中位數(shù),0.75分位數(shù)和0.25分位數(shù)分別稱為上、下四分位數(shù),記為Q3和Q1。一般地,k百分位數(shù)(k-percentile),即約有k%的觀測值小于它。武漢大學(xué)計算中心LOGO5. 表示數(shù)據(jù)分散程度的統(tǒng)計量極差(Range):數(shù)據(jù)中最大值和最小值之差。方差(Variance)以變量取值相對于均值的偏差平方平均來度量(又稱均方MS)。武漢大學(xué)計算中心LOGO例SAS計算樣本方差的步驟計算樣本均值計算

5、每個觀測值同均值的差值把這些差值分別平方再求這些平方的和把平方和除以n-1,n為差值的個數(shù)(樣本容量)假設(shè)樣本值分別為10,11,12,15,均值為12,樣本容量為4,方差按下式計算:s2=(10-12)2+(12-12) 2+(11-12) 2+(15-12) 2)/(4-1)=4.67武漢大學(xué)計算中心LOGO5. 表示數(shù)據(jù)分散程度的統(tǒng)計量標(biāo)準(zhǔn)差(Standard deviation或Std Dev):方差的開平方。標(biāo)準(zhǔn)差的量綱與原變量一致。方差和標(biāo)準(zhǔn)差所反映的是數(shù)據(jù)對其均值的某種離散程度。標(biāo)準(zhǔn)差(或方差)較小的觀測數(shù)據(jù)一定是比較集中在均值附近,反之則是比較離散的。變異系數(shù)(Coeffici

6、ent of Variation或CV)變異系數(shù)是將標(biāo)準(zhǔn)差表示為均值的百分?jǐn)?shù),是觀測數(shù)據(jù)分散性的一個度量,它在比較用不同單位測量的數(shù)據(jù)的分散性時是有用的。 武漢大學(xué)計算中心LOGO5. 表示數(shù)據(jù)分布形狀的統(tǒng)計量偏度(Skewness):描述數(shù)據(jù)對稱性的指標(biāo)。在SAS中,均值對稱的數(shù)據(jù),其偏度為0;左側(cè)更為分散的數(shù)據(jù),其偏度為負(fù),稱為左偏;右側(cè)更為分散的數(shù)據(jù),其偏度為正,稱為右偏。峰度(Kurtosis):描述數(shù)據(jù)向分布尾段散布的趨勢利用峰度研究數(shù)據(jù)分布形狀是以正態(tài)分布為標(biāo)準(zhǔn),比較兩端極端數(shù)據(jù)的分布情況,若近似于標(biāo)準(zhǔn)正態(tài)分布,峰度接近于零;尾部較正態(tài)分布更分散,則峰度為正;尾部較正態(tài)分布更集中,

7、則峰度為負(fù)武漢大學(xué)計算中心LOGO正態(tài)分布如果數(shù)據(jù)來自正態(tài)分布總體,則:68%的值落在距均值1個標(biāo)準(zhǔn)差的范圍之內(nèi)95%的值落在距均值2個標(biāo)準(zhǔn)差的范圍之內(nèi)99%的值落在距均值3個標(biāo)準(zhǔn)差的范圍之內(nèi) 例如:由12歲女孩體重組成一個總體,這個總體服從均值為39公斤,標(biāo)準(zhǔn)差4.5公斤,則: 68%的值落在34.543.5公斤之間 95%的值落在3048公斤之間 99%的值落在25.552.5公斤之間武漢大學(xué)計算中心LOGO概率P(probability) 概率是度量某隨機事件發(fā)生可能性大小的一個數(shù)量。概率的取值范圍在01之間。若某一事件必然不發(fā)生,P=0;某一事件必然發(fā)生,P=1概率論是數(shù)理統(tǒng)計的基礎(chǔ),

8、統(tǒng)計分析的許多結(jié)論,都是建立在概率大小的基礎(chǔ)之上的。武漢大學(xué)計算中心LOGO統(tǒng)計的過程如下:總體樣本統(tǒng)計量抽樣 計算 統(tǒng)計量描述推斷描述:描述樣本的各主要特征推斷:擴大所收集信息的使用范圍,用樣本的特征來推斷總體的特征。武漢大學(xué)計算中心LOGO例兒童體檢數(shù)據(jù)如下劉明3男0.9413.5950.4蔡行3男0.9114.250李敏4女1.3916.1551.6李濤4男1.0215.4451.9夏天4男1.0615.351郭紅5女1.0115.0451.9胡月5女1.0215.0752.7程彬6女1.0717.0453.7楊兵6男1.1218.0954.1劉進6男1.1418.853.5王苗苗 7女

9、1.1619.9355.5張思凡 7女1.1518.251.4試用作描述性統(tǒng)計分析武漢大學(xué)計算中心LOGO二、用SAS/ASSIST進行描述統(tǒng)計選擇解決方案/ASSIST,并在歡迎窗口中點擊按鈕選擇Cascading Menu為新的ASSIST工作模式;選擇Block Menu為ASSIST 6的菜單工作模式。選擇Data Analysis/Elementary/Summary Statistics 打開數(shù)據(jù)統(tǒng)計分析的操作窗口 。 武漢大學(xué)計算中心LOGO點擊Table按鈕,確定要操作的數(shù)據(jù)集 點擊Columns按鈕,確定要分析的變量點擊Class按鈕,確定分組變量 點擊Output Tabl

10、e按鈕可將本次分析的結(jié)果數(shù)據(jù)輸出到一個數(shù)據(jù)集中作為原始數(shù)保存起來 Summary Statistic窗口的下方,確定所求的統(tǒng)計量 ,可以根據(jù)需要選擇一項或多項 武漢大學(xué)計算中心LOGO所求的統(tǒng)計量 Number of nonmissing values 包括分析變量缺項值的觀測數(shù)Number of missing values 不包括分析變量缺項值的觀測數(shù)Minimum最小值Maximum最大值Range全距,極差Sum和Mean(平)均值Variance方差Standard Deviation標(biāo)準(zhǔn)差Standard error of the mean均數(shù)的標(biāo)準(zhǔn)誤Coefficient of

11、variation變異系數(shù)Skewness偏度Kurtosis峰度武漢大學(xué)計算中心LOGO三、用SAS/INSIGHT進行數(shù)據(jù)描述 1. 用INSIGHT作直方圖選擇解決方案/分析/交互式數(shù)據(jù)分析 命令啟動SAS/INSIGHT軟件 確定數(shù)據(jù)所在的數(shù)據(jù)集(CLASS)選擇分析 /直方圖/條形圖(y)項繪制某變量的柱狀圖/直方圖 將WEIGHT選為Y 再點擊確定若單獨考察女生的年齡分布,可在既存的圖下作如下操作 編輯/窗口/動畫,在彈出的對話框中選SEX中的G即可,若再點擊”應(yīng)用”則以動態(tài)的方式交替顯示不同性別的直方圖,拖動”速度”處的游標(biāo)可以調(diào)節(jié)交替的速度 武漢大學(xué)計算中心LOGO2、用SAS

12、/INSIGHT進行分布檢驗 選擇解決方案/分析/交互式數(shù)據(jù)分析命令啟動SAS/INSIGHT軟件 確定數(shù)據(jù)所在的數(shù)據(jù)集選擇分析 /分布(Y)項繪制某連續(xù)變量的盒狀圖和分布圖 在分布(Y)對話框右側(cè)的列表框中選擇WEIGHT變量,單擊按鈕 單擊按鈕,選累積分布 在”分布檢驗”下方選擇”正態(tài)”在置信帶下選95%置信水平依次點擊 武漢大學(xué)計算中心LOGO2、用SAS/INSIGHT進行分布檢驗 在顯示的圖形中,中間是經(jīng)驗分布曲線,兩側(cè)的是置信限 。置信水平可用鼠標(biāo)拖動改變。檢驗結(jié)果匯總在下方的分布檢驗表中 并提供了統(tǒng)計量的數(shù)值及相應(yīng)的檢驗概率值:原假設(shè)為總體分布為正態(tài)的。本例相應(yīng)的p值0.150.

13、05=。所以無法拒絕原假設(shè),可以接受總體分布為正態(tài)的 武漢大學(xué)計算中心LOGO用分析家作頻數(shù)統(tǒng)計選擇”解決方案/分析/分析家”進入分析家環(huán)境點擊”文件/按SAS名稱打開”打開數(shù)據(jù)集點擊”統(tǒng)計/描述性統(tǒng)計/頻數(shù)統(tǒng)計”,在彈出的對話框中:AGE=Frequencies,Sex=Frequencies點擊OK武漢大學(xué)計算中心LOGOSAS提供有多個不同的過程來實現(xiàn)統(tǒng)計量的計算,它們在功能范圍上有許多的重復(fù),下面介紹用FREQ、MEANS和UNIVARIATE這三個過程來計算簡單的描述統(tǒng)計量。 FREQ過程常用來計算分類變量取值的頻數(shù),而MEANS和UNIVARIATE過程則對數(shù)值型變量計算均值、標(biāo)準(zhǔn)

14、差等統(tǒng)計量。用程序作基本統(tǒng)計分析武漢大學(xué)計算中心LOGO用程序作基本統(tǒng)計分析Proc freq data=數(shù)據(jù)集名 選項;tables 變量名列表/選項;Run;Tables語句中的選項:nocum不要累計的頻數(shù)和百分?jǐn)?shù) nopercent-不要百分?jǐn)?shù)和累計的百分?jǐn)?shù)Proc freq語句中的選項:order=internal-按變量值排序freq-按頻數(shù)降序排序data-按數(shù)據(jù)集中的值的次序排序formatted-按變量格式化的值排序武漢大學(xué)計算中心LOGO例Proc freq data=temp.class order=freq;tables age;Run;2Proc freq data=

15、temp.class order=freq;tables w;Run;可見,數(shù)據(jù)的統(tǒng)計意義不大.但是若將體重數(shù)據(jù)分組顯示頻數(shù),是有意義的1武漢大學(xué)計算中心LOGO2. MEANS過程(1) 語法格式 MEANS過程的一般格式:PROC MEANS DATA=; VAR ; BY ; CLASS ;RUN;武漢大學(xué)計算中心LOGO PROC MEANS語句后的選項主要用來指定所要計算的統(tǒng)計量,默認(rèn)情況下,MEANS過程會給出頻數(shù)、均數(shù)、標(biāo)準(zhǔn)差、最大值和最小值等,其余統(tǒng)計量的計算均需要在選項中指定。 VAR語句引導(dǎo)所要進行分析的所有變量的列表,SAS將對VAR語句所引導(dǎo)的所有變量分別進行描述性統(tǒng)計

16、分析。 BY語句與CLASS語句所指定的分類變量用來進行分組統(tǒng)計,但輸出格式不同。武漢大學(xué)計算中心LOGO 如對數(shù)據(jù)集class中的hight變量計算簡單統(tǒng)計量,只要用如下MEANS過程:proc means data = class; var hight;run;武漢大學(xué)計算中心LOGO(2) 使用統(tǒng)計量關(guān)鍵字列表 在PROC MEANS語句中使用統(tǒng)計量關(guān)鍵字列表:proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight;run;武漢大學(xué)計算中心LOGO可以計算的描述性統(tǒng)計量關(guān)鍵字及其含義見下表。

17、關(guān)鍵字所代表的含義關(guān)鍵字所代表的含義n有效數(shù)據(jù)記錄數(shù)range極差nmiss缺失數(shù)據(jù)記錄數(shù)skewness偏度mean均值kurtosis峰度std標(biāo)準(zhǔn)差t分布位置假設(shè)檢驗之t統(tǒng)計量stderr標(biāo)準(zhǔn)誤probt上述t統(tǒng)計量對應(yīng)的概率值var方差q1第一四分位數(shù)median中位數(shù)q3第三四分位數(shù)mode眾數(shù)qrange四分位數(shù)間距cv變異系數(shù)p1第一百分位數(shù)max最大值p5第五百分位數(shù)min最小值p10第十百分位數(shù)sum總計p90第九十百分位數(shù)sumwgt加權(quán)值總計p95第九十五百分位數(shù)css校正平方和p99第九十九百分位數(shù)uss未校正平方和武漢大學(xué)計算中心LOGO(3) 使用CLASS語句和B

18、Y語句 使用CLASS語句和BY語句可以分組計算分析變量的描述統(tǒng)計量值,由CLASS語句和BY語句指定的變量在分析中起分組(類)的作用,被稱為分類變量。兩個語句的區(qū)別是: 使用BY語句時要求數(shù)據(jù)集須按BY變量排序,使用CLASS語句無此要求。 使用BY語句時輸出按BY變量的每個值分別提供一個表,使用CLASS語句則將所有結(jié)果排列在一個表之中。武漢大學(xué)計算中心LOGO 使用BY語句之前先排序,如下代碼可以在上例中按變量sex分組統(tǒng)計:proc sort data = class; by sex;run;proc means data = class n mean median p1 p5 p95

19、 p99 q1 q3 max min; var hight; by sex;run;武漢大學(xué)計算中心LOGO 使用CLASS語句分組較為簡單,如下代碼也可以在上例中按變量sex分組統(tǒng)計:proc means data = class n mean median p1 p5 p95 p99 q1 q3 max min; var hight; class sex;RUN;武漢大學(xué)計算中心LOGO3. UNIVARIATE過程 UNIVARIATE過程的一般格式為:PROC UNIVARIATE DATA = ; VAR ; BY | CLASS ; HISTOGRAM /; OUTPUT OUT

20、= = ;RUN;武漢大學(xué)計算中心LOGO UNIVARIATE過程和MEANS過程的格式非常相似,相同的語句和選項其含義也相同,所不同的是某些統(tǒng)計量只能在UNIVARIATE過程中計算(如眾數(shù)),而且UNIVARIATE過程中具有繪圖功能。 其中,HISTOGRAM語句用來指示SAS對其后所指定的變量繪制直方圖,其后的選項用來指示SAS添加不同類型的擬合圖形(如正態(tài)分布的分布密度曲線)。武漢大學(xué)計算中心LOGO 輸出包括五個部分。 第一部分是各統(tǒng)計量。 第二部分為基本的位置和分散程度統(tǒng)計量,位置統(tǒng)計量包括均值、中位數(shù)、眾數(shù),分散程度統(tǒng)計量包括標(biāo)準(zhǔn)差、方差、極差、四分位間距 第三部分為關(guān)于均值

21、等于零的三種檢驗的結(jié)果,包括t檢驗、符號檢驗和符號秩檢驗。 第四部分為各個重要的分位數(shù)。 第五部分是觀測數(shù)據(jù)的五個最低值和五個最高值。武漢大學(xué)計算中心LOGO六、FORMAT過程FORMAT過程用于定義變量的輸出格式.定義:PROC FORMAT;VALUE 格式變量名 分組形式;RUN;其中:格式變量名由用戶命名,在其他在其他過程中可以引用該格式名.引用:PROC 過程名 DATA=數(shù)據(jù)集名;過程語句;FORMAT 數(shù)據(jù)集中的變量名 格式名.;RUN;武漢大學(xué)計算中心LOGO例Proc format;Value wfmt low-32=24-32 32-40=32-40 40-48=40-4848-56=48-56 56-64=56-64 64-72=64-72 72-high=72-;Run;Proc print data=temp.class;Format w wfmt.; 若沒有該語句,數(shù)據(jù)集中的W數(shù)據(jù)仍按原始顯示Run;4Proc freq data=temp.class

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論