




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第三講 描述性分析與畫圖,進行描述性統(tǒng)計分析的目的: 對數(shù)據(jù)進行描述性分析的目的是熟悉和了解數(shù)據(jù)的基本統(tǒng)計特征,把握數(shù)據(jù)的總體分布形態(tài),進而決定如何對數(shù)據(jù)作進一步處理,進而回答所要研究的問題。,本章主要內(nèi)容,6.1頻數(shù)分布 6.2條件頻數(shù)分布 6.3頻數(shù)分布的常見錯誤分析及解決方法 6.4變量的中央趨勢和離散趨勢 6.5描述數(shù)值型數(shù)據(jù)統(tǒng)計量的其它方法 6.6畫圖,數(shù)據(jù)描述的方法,獲得數(shù)據(jù)的目的是為了描述和分析數(shù)據(jù),回答研究問題 數(shù)據(jù)分析的第一步是描述變量的基本特征。只有在熟悉數(shù)據(jù)的基本特征和變量分布的基礎上,才能決定如何對數(shù)據(jù)作進一步處理 描述性統(tǒng)計通過一系列的程序幫助組織、歸納、總結樣本的基
2、本特征。常見的方法包括 頻數(shù)分布、百分比、分位數(shù)、均值和標準差、中數(shù)、眾數(shù)、最大值和最小值等單變量分析(univariate analysis)。考察變量的屬性分布 二元或多元交叉表、二元相關關系分析 圖形,描述性分析的菜單窗口,該內(nèi)容是statistics菜單下的首個選項: Statistics Summaries,tables ,6.3頻數(shù)分布的常見錯誤之二,too many values 導致這類錯誤的原因在于,在試圖生成兩個變量的交叉表時,每個變量都包含太多的取值。比如: . tab age weight . too many values (變量的取值太多) 這里,變量age和wei
3、ght均為連續(xù)變量,且都有很多的取值,尤其是weight 若需要生成二者之間的交叉表,可以限制其中一個或兩個變量的取值,或者將它們轉(zhuǎn)換為分類變量,6.4變量的中央趨勢和離散趨勢,集中趨勢:眾數(shù),數(shù)據(jù)分布的一種表現(xiàn)形式。頻數(shù)最多的組段代表了中心位置(平均水平),從兩側到中心,頻數(shù)分布逐漸增加 描述集中趨勢的方式包括:眾數(shù)、均值、中位數(shù) 眾數(shù)(mode):最常出現(xiàn)的觀察值或?qū)傩?如果在全班30個學生中, 20個18歲的學生、5個19歲、5個20歲,則18是眾數(shù) 眾數(shù)適用于所有類型數(shù)據(jù),但主要用于測度分類數(shù)據(jù)的集中趨勢 一個數(shù)據(jù)可以有兩個或多個眾數(shù),故眾數(shù)具有不唯一性的特點,集中趨勢:算術均值(me
4、an,average),加總多個觀察值,除以總觀察量得到的數(shù)值 適用于正態(tài)分布或者近似正態(tài)分布; 均數(shù)受特大值和特小值的影響,會偏大或偏小,故對偏態(tài)分布的資料,均數(shù)的代表性差,不適合描述偏態(tài)分布的集中趨勢; 全域(總體)均數(shù)稱為;樣本均數(shù)稱為,集中趨勢:中位數(shù)(median),將一組數(shù)值從小到大排列后,位于中間的數(shù)值; 若5個人的年齡分別為1 ,3,6,8,32,則中位數(shù)為6(均值為10); 中位數(shù)度量方式適用于偏態(tài)分布數(shù)據(jù)。中位數(shù)不受兩端特大值和特小值的影響,只和位置居中的觀察值有關; 對于正態(tài)分布,理論上中位數(shù)等于均數(shù);,離散趨勢:極差或者全距(range,R),數(shù)據(jù)分布的另一種表現(xiàn)形式。
5、從中心到兩側,頻數(shù)分布逐漸減少。反映了數(shù)據(jù)的離散程度或變異程度; 描述離散趨勢的方法包括:級差、方差、標準差; 極差或者全距(range,R):表示變量取值中的最大值和最小值之差。適合所有分布類型的數(shù)據(jù); R最大值最小值 計算簡單,但不能反映所有變量值的變異程度,易受最大值和最小值的影響,不穩(wěn)定,離散趨勢:方差(variance),方差(variance):表示一組變量取值的平均離散程度。方差越大,離散或者變異程度越大。適合描述近似正態(tài)分布資料的離散趨勢。,離散趨勢:標準差(standard deviation),方差的開方,和均數(shù)的單位一致,也是數(shù)據(jù)波動性的一種度量,即是對圍繞均值的離散趨勢
6、的測量 標準差和方差是實際中應用最廣的測量離散程度的統(tǒng)計量 如果一個變量具有正態(tài)分布,則均值 68%的數(shù)值將會位于離平均值加減一個標準差的范圍內(nèi); 95%的個案將會位于加減兩個標準差的范圍內(nèi); 99.9%的個案將會位于加減三個標準差的范圍內(nèi) 標準差越小,數(shù)據(jù)的分布就越圍繞均值聚集;標準差越大散,數(shù)據(jù)的分布就越分散。,離散趨勢:標準差(II),適合描述近似正態(tài)分布資料的離散趨勢 方差或標準差都是根據(jù)全部數(shù)據(jù)計算的,反映了每個數(shù)據(jù)與其均值相比平均相差的數(shù)值,因此能準確地反映數(shù)據(jù)的離散程度 計算公式:,離散趨勢:自由度,為什么樣本標準差的分母是n-1呢 自由度:一組數(shù)據(jù)中可以自由取值的個數(shù)。當樣本的
7、個數(shù)為n時,若樣本均值確定后,必有一個數(shù)據(jù)不能自由取值。因此,只有n-1 個數(shù)據(jù)可以自由取值; 假如樣本有3個數(shù)值,x=4,y=8,z=18,則均值=10。當均值=10確定后,x,y,z中只有兩個數(shù)可以自由取值; 在抽樣估計中,當用樣本方差去估計總體方差時,樣本方差是總體方差的無偏估計量。,正態(tài)分布與偏態(tài)分布,正態(tài)分布(normal distribution),一個變量的集中位置居中,左右兩側頻數(shù)基本對稱的分布 從形態(tài)上看,正態(tài)曲線兩頭低、中間高、左右對稱 正態(tài)分布是一條單峰、對稱呈鐘形的曲線,其對稱軸為x=,并在x=時取最大值。從x=點開始,曲線向正負兩個方向遞減延伸,不斷逼近x軸,但永不與
8、x軸相交,因此說曲線在正負兩個方向都是以x軸為漸近線的 其性質(zhì)如下:函數(shù)方程中為位置參數(shù);為形狀參數(shù) 若不變,函數(shù)曲線形狀不變。變大時,曲線位置向右移;變小時,曲線位置向左移 若不變,函數(shù)曲線位置不變。變大時,曲線形狀變得越來越胖、矮;變小時,曲線形狀變得越來越瘦、高,正態(tài)分布,.histogram yrsch if yrsch =13, percent start(0) width(1)normal,偏態(tài)分布,數(shù)據(jù)的集中位置偏向一側,頻數(shù)分布不對稱。偏態(tài)分布有兩種表現(xiàn)形式 正偏態(tài)分布:集中位置偏向數(shù)值小的一側或者左側,有較長的右尾部 負偏態(tài)分布:集中位置偏向數(shù)值大的一側或者右側,有較長的左尾
9、部,.histogram weight, percent start(0) normal ysize(4.5) xsize(2.5),.histogram height, percent start(0) normal ysize(4.5) xsize(2.5),6.5 描述性統(tǒng)計,.sum連續(xù)變量 該命令給出標準統(tǒng)計量。輸出結果包括: Obs Mean Std. Dev. Min Max (觀察量) (均值) (標準差) (最小值) (最大值) .sum連續(xù)變量,detail summ 或 summarize 得出同樣的結果,標準信息描述,. sum age yrsch weight hei
10、ght Variable | Obs Mean Std. Dev. Min Max -+- age | 2341 10.09227 5.283423 0 19 yrsch | 1830 6.031694 3.440358 0 15 weight | 2103 34.85635 18.54676 .4 151 height | 2100 132.8193 30.60277 0 185.5 由于缺失值個數(shù)的差異,幾個變量的觀察值都不一樣,詳細情況描述,.sum age, detail age in 2004 - Percentiles Smallest 1% 0 0 5% 1 0 10% 2 0
11、Obs 2321 25% 5 0 Sum of Wgt. 2321 50% 10 Mean 9.658337 Largest Std. Dev. 5.084631 75% 14 18 90% 16 18 Variance 25.85347 95% 17 19 Skewness -.316327 99% 17 19 Kurtosis 1.917769,變量age有2321個觀察值 最小值為0,最大值為19 1的樣本為0歲 5的樣本1歲或以下 10的樣本2歲或以下 25的樣本5歲或以下 99的樣本在19歲及以下 樣本的均值為9.66;標準差為5.08;Variance、 Skewness和Kurt
12、osis分別表示樣本的方差為25.85、偏移度為-0.32和年齡分布的峰度為1.92。,6.5描述數(shù)值型數(shù)據(jù)統(tǒng)計量的其它方法,均值估計(mean),.mean girl urban Mean estimation Number of obs = 5381 - | Mean Std. Err. 95% Conf. Interval -+- girl | .4781639 .0068103 .464813 .4915148 urban | .1908567 .0053577 .1803535 .2013599 -,比例估計(proportion),. proportion girl urban P
13、roportion estimation Number of obs = 5381 _prop_1: girl = 0.boy _prop_2: girl = 1.girl _prop_3: urban = 0.Rural _prop_4: urban = 1.Urban - | Binomial Wald | Proportion Std. Err. 95% Conf. Interval -+- girl | _prop_1 | .5218361 .0068103 .5084852 .535187 _prop_2 | .4781639 .0068103 .464813 .4915148 -+
14、- urban | _prop_3 | .8091433 .0053577 .7986401 .8196465 _prop_4 | .1908567 .0053577 .1803535 .2013599 -,使用table命令描述數(shù)據(jù),. table 變量a, contentsmean 變量b sd 變量b :計算和表現(xiàn)統(tǒng)計量的命令 :分組變量。按照其分類描述中央趨勢或離散趨勢的統(tǒng)計量 :需要輸出統(tǒng)計量的內(nèi)容。后面括號內(nèi)列出(1)要描述的統(tǒng)計量,(2)需要計算統(tǒng)計量的變量名稱 :分別指均值和標準差 :需要計算均值和標準差的變量 . table a b, contents(mean c sd d
15、) 按變量a和b的分類,計算變量c的均值、d的標準差,.table urban, contents(mean yrsch sd sibs) - urban | residence | mean(yrsch) sd(sibs) -+- 0,Rural | 5.622172 .6296451 1,Urban | 7.109127 .5369387 - 按urban的分類,計算變量yrsch的均值和sibs的標準差,使用tabstat命令描述數(shù)據(jù),. tabstat a b c d :展示一個或多個數(shù)值型變量的描述性統(tǒng)計 : 為變量a,b,c,d提供均值統(tǒng)計量 輸出的統(tǒng)計量是可選擇的。若不選擇,則默
16、認值為均值。其主要選項包括: . tabstat a b c d, by(e) statistics(mean sd) columns(statistics) :按照選項by后面變量的類別,分組計算統(tǒng)計量;by后面的變量多是分類變量,也可以是取值不多的連續(xù)變量 :需要得到的統(tǒng)計量,可多選,不同統(tǒng)計量之間需用空格隔開 :輸出結果的格式可以選擇 :選擇 columns(statistics),則豎列表述的是統(tǒng)計量,橫行表現(xiàn)的是變量。若選擇 columns(variables)格式,則反之,使用tabulate, sum命令描述數(shù)據(jù),. tab a b, sum(c) :接變量a、b的分類變量,計算
17、變量c的統(tǒng)計量,并輸出a、b的頻數(shù)分布 :sum后面接一個需要輸出統(tǒng)計量的數(shù)值型變量 :分類變量;:連續(xù)變量 .tab strata, sum(yrsch) | Summary of year of school strata | Mean Std. Dev. Freq. -+- 1.city | 5.4191617 3.6970418 668 2.suburb | 6.6946721 3.3878349 488 3.town | 5.7541528 3.1821415 301 4.village | 6.4852547 2.9960408 373 -+- Total | 6.031694 3
18、.4403582 1830,6.6 畫圖,數(shù)據(jù)往往使人眼花繚亂。沒有人能記住數(shù)據(jù)中的所有數(shù)值。頻數(shù)分布提供數(shù)據(jù)分布的一些基本特征和規(guī)律。若用圖形表示頻數(shù)分布,則更形象和直觀 統(tǒng)計圖形是用點的位置、線段的升降、線條的長短或面積的大小等方法來表達數(shù)據(jù)的內(nèi)容,包括統(tǒng)計資料反應的變化趨勢、數(shù)量的多少、分布狀態(tài)和相互關系等 通過圖形描述出來的數(shù)據(jù)便于閱讀、比較和分析 一張好的統(tǒng)計圖表,勝過冗長的文字表述,Stata的制圖功能,既可通過命令產(chǎn)生圖形,也可以直接使用Graphics窗口菜單中的選項來實現(xiàn) 在Easy graph的菜單下,Stata的作圖模塊主要提供十種基本圖形的制作:散點圖(twoway)、
19、線圖(line)、面積圖(area)、柱形圖(bar)、點圖(dot)、圓形圖(餅圖)(pie)、直方圖(histogram)、箱線圖/盒型圖(boxplot)、矩陣圖、回歸線圖和功能圖 對簡單圖形(Easy graph)的巧妙應用,可以滿足絕大多數(shù)用戶的統(tǒng)計作圖要求。但有時我們必須求助于復雜的制圖功能 在Graphics的主菜單下,可選擇制作更復雜的圖形,Stata制圖的窗口菜單,Stata的其它制圖功能,Stata的某些非繪圖命令也具有繪制圖形的功能。比如 在頻數(shù)分布命令中,有制作簡單莖葉圖的選項 事件史分析提供生存曲線圖 回歸分析提供回歸線或殘差圖等 Stata制圖功能比較復雜。生成圖形
20、的過程中往往會遇到錯誤。有時,命令中一個不恰當?shù)目崭瘢粋€不正確的標點符號都將使程序不能正常運行。因此,從窗口菜單入手可能更容易一些 但是,Stata的圖形種類及每種圖形的選項雖多,但許多基本命令十分類似,可舉一反三,圖形的種類及適用范圍,數(shù)據(jù)結構和變量屬性的不同要求采用不同的圖形,散點圖( Scatter Plot ),.scatter描繪散點圖;雙向關系圖型(twoway plottypes)之母 適合于y軸和x軸均為數(shù)值型的數(shù)據(jù) 用于反映兩個或多個變量之間的關系。y軸往往被假定為因變量,x軸被當作為自變量。其圖形反映y軸的數(shù)值是否隨x軸數(shù)值的變化而發(fā)生相應變化 .scatter既是命令,也是雙向關系圖型(twoway graph)中的一種,散點圖的基本命令,. graph twoway (scatter y x) (lfit y
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 海洋文化創(chuàng)意產(chǎn)品開發(fā)
- 老年護理初級課件
- 綠色環(huán)保新能源公交車駕駛員聘用合同
- 出國勞務人員意外傷害賠償擔保合同樣本
- 部分應收賬款處置及回款合同
- 老人清潔護理課件
- 美術課件介紹視頻
- 美術消防員課件圖片
- 美術教師技能大賽課件
- 美術圖案分析課件
- 弘揚錢學森精神PPT忠誠擔當踐行科學報國之志PPT課件(帶內(nèi)容)
- 汽封加熱器 說明書
- 上半年我國經(jīng)濟形勢分析與公司應對策略
- 07勞動力及資源配備計劃
- 精餾-化工分離工程課件
- 醫(yī)院健康體檢表完整
- 二年級上冊數(shù)學課件-2.1 乘法、除法一(乘法引入) ▏滬教版 (共16張PPT)
- 無人機駕駛員國家職業(yè)技能標準(2021年版)(word精排版)
- 中國教育學會會員申請表
- 黃大年式教師團隊申報
- 新冀人版小學科學三年級下冊全冊教案(2022年春修訂)
評論
0/150
提交評論