Stata操作講義資料_第1頁
Stata操作講義資料_第2頁
Stata操作講義資料_第3頁
Stata操作講義資料_第4頁
Stata操作講義資料_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Stata操作講義

第一講Stata操作入門

第一節(jié)概況

Stata最初由美國計算機資源中心(ComputerResource

Center)研制,如今為Stata公司的產(chǎn)品,其最新版本為7.0版。

它操作靈敏、簡潔、易學(xué)易用,是一個特別有特色的統(tǒng)計分析軟件,

如今已越來越受到人們的重視和歡送,并且和SAS、SPSS一起,被

稱為新的三大權(quán)威統(tǒng)計軟件。

Stata最為突出的特點是短小精悍、功能強大,其最新的7.0版

整個系統(tǒng)只有10M左右,但已經(jīng)包含了全部的統(tǒng)計分析、數(shù)據(jù)管理

和繪圖等功能,尤其是他的統(tǒng)計分析功能極為全面,比起1G以上大

小的SAS系統(tǒng)也毫不遜色。另外,由于Stata在分析時是將數(shù)據(jù)全

部讀入內(nèi)存,在計算全部完成后才和磁盤交換數(shù)據(jù),因此運算速度極

快。

由于Stata的用戶群始終定位于專業(yè)統(tǒng)計分析人員,因此他的操

作方式也獨具匠心,在Windows席卷天下的時代,他始終堅持運用

囑咐行/程序操作方式,拒不推出菜單操作系統(tǒng)。但是,Stata的囑

咐語句極為簡潔明快,而且在統(tǒng)計分析囑咐的設(shè)置上又特別有條理,

它將一樣類型的統(tǒng)計模型均歸在同一個囑咐族下,而不同囑咐族又可

以運用一樣功能的選項,這使得用戶學(xué)習時極易上手。更為令人嘆服

的是,Stata語句在簡潔的同時又擁有著極高的靈敏性,用戶可以充

分發(fā)揮自己的聰慧才智,嫻熟應(yīng)用各種技巧,真正做到為所欲為。

除了操作方式簡潔外,Stata的用戶接口在其他方面也做得特別簡

潔,數(shù)據(jù)格式簡潔,分析結(jié)果輸出簡潔明快,易于閱讀,這一切都使

得Stata成為特別相宜于進展統(tǒng)計教學(xué)的統(tǒng)計軟件。

Stata的另一個特點是他的很多高級統(tǒng)計模塊均是編程人員用其

宏語言寫成的程序文件(ADO文件),這些文件可以自行修改、添

加和下載。用戶可隨時到Stata網(wǎng)站找尋并下載最新的晉級文件。事

實上,Stata的這一特點使得他始終處于統(tǒng)計分析方法開展的最前

沿,用戶幾乎總是能很快找到最新統(tǒng)計算法的Stata程序版本,而這

也使得Stata自身成了幾大統(tǒng)計軟件中晉級最多、最常見的一個。

由于以上特點,Stata已經(jīng)在科研、教化領(lǐng)域得到了廣泛應(yīng)用,

WHO的探討人員如今也把Stata作為主要的統(tǒng)計分析工作軟件。

第二節(jié)Stata操作入門

一、Stata的界面

圖1即為Stata7.0啟動后的界面,除了Windows版本的軟件

都有的菜單欄、工具欄,狀態(tài)欄等外,Stata的界面主要是由四個窗

口構(gòu)成,分述如下:

1.結(jié)果窗口

位于界面右上部,軟件運行中的全部信息,如所執(zhí)行的囑咐、執(zhí)

行結(jié)果和出錯信息等均在這里列出。窗口中會運用不同的顏色區(qū)分不

同的文本,如白色表示囑咐,紅色表示錯誤信息。

2.囑咐窗口

位于結(jié)果窗口下方,相當于DOS軟件中的囑咐行,此處用于鍵入

須要執(zhí)行的囑咐,回車后即開場執(zhí)行,相應(yīng)的結(jié)果則會在結(jié)果窗口中

顯示出來。

3.囑咐回憶窗口

即review窗口,位于界面左上方,全部執(zhí)行過的囑咐會依次在該

窗口中列出,單擊后囑咐即被自動拷貝到囑咐窗口中;假設(shè)須要重復(fù)

執(zhí)行,用鼠標雙擊相應(yīng)的囑咐即可。

4.變量名窗口

位于界面左下方,列出當前數(shù)據(jù)與中的全部變量名稱。

除以上四個默認翻開的窗口外,在Stata中還有數(shù)據(jù)編輯窗口、

程序文件編輯窗口、扶植窗口、繪圖窗口、Log窗口等,假設(shè)須要運

用,可以用Window或Help菜單將其翻開。

二、數(shù)據(jù)的錄入與儲存

Stata為用戶供應(yīng)了簡捷,但是特別完善的數(shù)據(jù)接口,熟識它的用

法是運用Stata的第一步,在Stata中讀入數(shù)據(jù)可以有三種方式:干

脆從鍵盤輸入、翻開已有數(shù)據(jù)文件和拷貝、粘貼方式交互數(shù)據(jù)。

(1)從鍵盤輸入數(shù)據(jù)

在Stata中可以運用囑咐行方式干脆建立數(shù)據(jù)集,首先運用input

囑咐制定相應(yīng)的變量名稱,然后一次錄入數(shù)據(jù),最終運用end語句

說明數(shù)據(jù)錄入完畢。

例1在某試驗中得到如下數(shù)據(jù),請在Stata中建立數(shù)據(jù)集。

觀測數(shù)據(jù):X13579,F246810

解:此處須要建立兩個變量木匕分別錄入相應(yīng)數(shù)值,Stata中

的操作如下,其中劃線局部為操作者輸入局部。

.dropall

.inputxy

xy

1.12

2.34

3.56

4.78

5.91。

6.end

⑵用Stata的數(shù)據(jù)編輯工具

①進入數(shù)據(jù)編輯器

進入stata界面,在命令欄鍵入edit或在stata的window下拉菜單中單擊[dataeditoij

圖2

②數(shù)據(jù)編輯

Stata數(shù)據(jù)編輯器界面:此時進入了數(shù)據(jù)全屏幕編輯狀態(tài)。

RFrl

圖3

在第一列輸入數(shù)據(jù)后,Stata第一列自動命名為varl;在第二列

輸入數(shù)據(jù)后,第二列自動命名為var2……依次類推。在輸入數(shù)據(jù)后,

雙擊縱格頂端的變量名欄(如:Vari或Var2處),可以更變更量名,

并可以在label欄中注釋變量名的含義,點擊國確認(如圖4所示)。

仍沿用上例,雙擊視察值所在列頂端的變量名欄,更變更量名為x,

并在label欄中注明“7歲男童身高/cm”。

圖4

數(shù)據(jù)輸入完畢后,單擊國亟鍵確認所輸數(shù)據(jù),按關(guān)閉鍵X即可

退出編輯器。

^121211

數(shù)據(jù)輸入完畢后,單擊國亟認所輸數(shù)據(jù),按關(guān)閉鍵區(qū)即可退出

編輯器。

(3)拷貝、粘貼方式交互數(shù)據(jù)

Stata的數(shù)據(jù)編輯窗口是一個簡潔的電子表格,可以運用拷貝、粘

貼方式干脆和EXCEL等軟件交互數(shù)據(jù),在數(shù)據(jù)量不大時,這種方式

操作極為便利。

例2如今EXCEL中已錄入了三個變量,共五條記錄,格式見下

圖,請將數(shù)據(jù)讀入Stata。

解:首先將EXCEL中的A1-C6全部18個單元格選中,選擇

菜單編輯?復(fù)制,將數(shù)據(jù)拷貝到剪貼板上;然后切換到Stata,選擇

菜單Window->DataEditor,翻開數(shù)據(jù)編輯窗口;再選擇

Edit->Paste,相應(yīng)的數(shù)據(jù)就會被干脆粘貼如數(shù)據(jù)編輯窗口中,并且

變量名、記錄數(shù)、變量格式等均會被自動正確設(shè)置,見圖6和圖7。

ABc

1Xyz

212Q

334wqw

456e

578dfw

6910f

圖6在EXCEL中的數(shù)據(jù)格式圖7粘貼入Stata后的數(shù)據(jù)格式

(4)翻開已有的數(shù)據(jù)文件

Stata可以干脆翻開的數(shù)據(jù)文件只能是自身專用格式或者以符號

分隔的純文本格式,后者第一行可以是變量名,分述如下:

①點擊圖標回,然后選擇途徑和文件名,可以翻開Stata專用

格式的數(shù)據(jù)文件,并且擴展名為dta。

②翻開Dta數(shù)據(jù)文件:該格式文件是Stata的專用格式數(shù)據(jù)文件,

也運用use囑咐即可翻開,例如要翻開數(shù)據(jù)文件“C:\dataLdta”,

則囑咐為:

.usec:\datal

即擴展名可以省略,假設(shè)Stata中已經(jīng)修改或者建立了數(shù)據(jù)集,

則須要運用clear選項去除原有數(shù)據(jù),囑咐為:

.usec:\datal,clear

②讀入文本格式數(shù)據(jù):須要運用insheet囑咐實現(xiàn),例如須要讀

入已建立好的文本格式數(shù)據(jù)文件“C:\datal.txt",則囑咐為:

.insheetusingc:\datal.txt

該囑咐會自動識別第一行是否為變量名,以與變量列間的分隔符

是tab、逗號還是其他字符。假設(shè)Stata中已經(jīng)修改或者建立了數(shù)據(jù)

集,則須要運用clear選項去除原有數(shù)據(jù),囑咐為:

.insheetusingc:\datal.txt,clear

(5)數(shù)據(jù)文件的保存

為了便利以后重復(fù)運用,輸入Stata的數(shù)據(jù)應(yīng)存盤。Stata事實

上只能將數(shù)據(jù)存為自身專用的數(shù)據(jù)格式或者純文本格式,分述如下:

①點擊圖標IW,然后選擇途徑和文件名,點擊畫。

②存為dta格式:可以干脆運用文件菜單,也可以運用save囑

咐操作,如欲將上面建立的數(shù)據(jù)文件存入“C:\”中,文件名為

Data1.dta,則囑咐為:

.savec:\datal

filec:\datal.dtasaved

該指令將在C盤根書目建立一個名為“dataLdta”的Stata數(shù)

據(jù)文件,后綴dta可以在囑咐中省略,會被自動添加。該文件只能在

Stata中用use囑咐翻開。如所指定的文件已經(jīng)存在,則該囑咐將給

出如下信息:filec:\datal.dtaalreadyexists,告知用戶在該目的

盤與子書目中已有一樣的文件名存在。如欲覆蓋已有文件,則加選擇

項replace。囑咐與結(jié)果如下:

.savec:\datal.dta,replace

filec:\datal.dtasaved

3.存為文本格式:須要運用。utsheet囑咐實現(xiàn),該囑咐的根本

格式如下。

outsheet[變量名列表]using文件名[,nonamesreplace]

其中變量名列表假設(shè)省略,則將全部變量存入指定文件。如欲將

上面建立的數(shù)據(jù)文件存入文本文件“C:\datal.txt”中,則囑咐為:

.outsheetusingc:\datal.txt

此時建立的文件datal.txt第一行為變量名,第2-6行為變量值。

變量列間用Tab鍵分隔。假設(shè)不渴望在第一行存儲變量名,則可以

運用nonames選項。假設(shè)文件已經(jīng)存在,則須要運用replace選項。

第二講統(tǒng)計描繪入門

例調(diào)查某市1998年110名19歲男性青年的身高/cm資料如下,

計算均數(shù)、標準差、中位數(shù)、百分位數(shù)和頻數(shù)表。

173.1167.8173.9176.9173.8171.5175.1175.2176.7174.5

169.2174.7185.4175.8173.5175.9175.9173.2174.8177.2

171.9166.0177.3175.2179.8175.7180.8171.4178.9172.6

166.9170.8168.7175.0183.7171.6172.9173.6177.7172.4

181.2178.1173.3177.5173.0174.3174.5172.5171.3174.0

177.9170.7175.2178.5177.6183.3173.1170.9180.5176.8

179.6180.6176.6174.3168.7175.2179.5172.5173.0174.2

169.5177.0183.6170.3178.8181.1182.9177.8164.1169.1

176.3169.4171.1172.9177.0179.8178.2174.4169.2176.4

178.3165.0175.8181.0177.6177.4178.7175.1181.8171.3

174.8181.7177.3178.5179.3177.0175.8181.8177.5180.2

Stata數(shù)據(jù)構(gòu)造(讀者可以把數(shù)據(jù)干脆粘貼到Stata的Edit窗口)

在介紹統(tǒng)計分析囑咐之前,先介紹翻開一個保存統(tǒng)計分析結(jié)果的

文件操作:

點擊log圖標,然后選擇路徑和輸入保存結(jié)果的文件

名,建議選擇擴展名為log的文件,這樣以后統(tǒng)計分

析結(jié)果都將保存在這個文件中并且可以用word打開

和編輯.當分析結(jié)束時,仍點擊該圖標,關(guān)閉文件.

計算樣本的均數(shù)、標準差、最大值和最小值

囑咐l:su變量名(可以多個變量:即:SU變量名1變量名2…

變量名m)

囑咐2:su變量名,d(可以多個變量:即:su變量名1變量名

2…變量名m,d)

本例囑咐sux

PercentilesSmallest

1%165164.1

5%168.7165

10%169.45166Obs110

25%172.9166.9SumofWgt.110

50%175.2Mean175.3655

LargestStd.Dev.4.222297

75%178.1183.3

90%180.9183.6Variance17.82779

95%181.8183.7Skewness1756947

99%183.7185.4Kurtosis2.895843

本例囑咐.sux,d

結(jié)果說明

Smallest最小值Obs110樣本量

164.1第1最小值SumofWgt.110加權(quán)和(即每個

165第2最小值記錄的權(quán)是1)

166第3最小值Mean175.3655均效

166.9第4最小值Std.Dev.4.222297標準差

Largest最大值Variance17.82779方差

183.3第4最大值Skewness1756947偏度系數(shù)

183.6第3最大值Kurtosis2.895843峰度系數(shù)

183.7第2最大值

185.4第1最大值

百分位數(shù)

Percentiles

1%=E

165

5%*

168.7

10%

169.45

百分位數(shù)月表示樣本中的數(shù)據(jù)小于等2

25%=Bs

并且(loo—M%的數(shù)據(jù)大于等于月.

172.9

特別:當就是中位數(shù),表示一半的數(shù)據(jù)小于

等于它,另一半的數(shù)據(jù)大于等于它.本例:

50%=/so

4=175.2

175.2

樣本量obS=110,因此有55個數(shù)據(jù)小于等

于175.2,另有55個數(shù)據(jù)大于等于175.2

75%=&

178.1

90%;兄

180.9

95%出

181.8

99%二凡9

183.7

計算百分位數(shù)還可以用專用囑咐centileo

centile變量名(可以多個變量),centile(要計算的百分位數(shù))例如

計算巳.5,a7.5等centile變量名,centile(2.597.5)

本例計算三,5,87.5,P50'>「25,075。

本例囑咐.centilex,centile(2.525507597.5)

-Binom.Interp.一

Variable|ObsPercentileCentile[95%Conf.Interval]

x11102.5165.775164.1168.7*

125172.825171.3314173.6267

150175.2174.5176.6789

175178.125177.3179.4371

197.5183.6225181.8185.4*

*Lower(upper)confidencelimitheldatminimum(maximum)ofsample

結(jié)果說明

PercentileCentile百分位數(shù)

2.5165.775=^z.s

25172.825

50175.2=&仲位數(shù))

75178.125二Rs

97.5183.6225=&s

制作頻數(shù)表,組距為2,從164開場,

genf=int((x-164)/2)*2+164其中int()表示取整數(shù)

tabf頻數(shù)匯總和頻率計算

頻數(shù)頻率累積頻率

f1Freq.PercentCum.

164|21.821.82

166|32.734.55

168|76.3610.91

170|1110.0020.91

172|1614.5535.45

174|2320.9156.36

176|2018.1874.55

178|1311.8286.36

180|109.0995.45

182|43.6499.09

184|10.91100.00

Total|110100.00

作頻數(shù)圖

囑咐graph變量,bin(#)norm

其中#表示頻數(shù)圖的組數(shù);norm表示畫一條相應(yīng)的正態(tài)曲線(可以

不要)

本例囑咐為graphx,bin(8)norm

必4

為了使坐標更清晰地在圖上顯示,可以輸入下列囑咐

graphx,bin(8)xlabelnormylabel

圖形可以從Stata中復(fù)制到word中來,操作如下:

IntercooledStata7.0

點擊Edit

后,再點擊

CopyGre0

edit

sux

sux,d

centilex,centile(2.5

然后到Word中粘貼和編輯,便可以得到所須要的圖形。

計算幾何均數(shù)可以用means變量名(可以多個變量:即:means

變量1…變量m)

meansx

Variable|TypeObsMean[95%Conf.Interval]

x|Arithmetic110175.3655174.5676176.1634

Geometric110175.3149174.5168176.1166

Harmonic110175.2642174.4657176.07

Arithmetic(算術(shù)均數(shù))Geometric(幾何均數(shù))調(diào)和均數(shù)

(Harmonic)

作Pie圖描繪構(gòu)成比:每一類的頻數(shù)用一個變量表示,囑咐:

graph各類頻數(shù)變量名,pie

例:下列有2個地區(qū)的血型頻數(shù)分布數(shù)據(jù),請用Pie描繪:

頻數(shù)

地區(qū)AB0AB

第1地區(qū)area=l10012024075

第2地區(qū)area=2807020050

Stata數(shù)據(jù)格式

ab0abarea

1100120240751

28070200502

第1地區(qū)血型構(gòu)成比的Pie圖的囑咐和圖

graphaboabifarea==l,pie

19%A

22%B

留意邏輯表達式中ifarea==l是兩個等號。

第2地區(qū)血型構(gòu)成比的Pie圖的囑咐和圖

graphaboabifarea==2,pie

20%A

18%B

兩個地區(qū)合并后的血型構(gòu)成比的Pie圖的囑咐和圖

19%A

20%B

正態(tài)性檢驗.swilk變量名1變量名2-??變量名m

在上例中的11。名19歲男性青年的身高資料正態(tài)性檢驗如下:

.swilkx

Shapiro-WilkWtestfornormaldata

Variable|ObsWVzProb>z

XI1100.995000.447-1.7970.96381

無效假設(shè)品:資料聽從正態(tài)分布

備選假設(shè)印:資料不聽從正態(tài)分布

設(shè)a=O.O5(樣本比擬大時,a取0.05,樣本很小時,a取0.1)

Prob>z戶值

.96381=產(chǎn)值>0.05

因此可以認為資料近似聽從正態(tài)分布。

計量資料統(tǒng)計描繪的主要策略小結(jié)

若資料近似正態(tài)分布,則用均數(shù)土標準差描繪

若資料偏態(tài)分布(頻數(shù)圖明顯不對稱),則用中位數(shù)(呂5一尸75)描

P25---尸75稱為四分位數(shù)范圍(Inter-quartilerange,IQR)

但在一些臨床試驗資料統(tǒng)計分析時,往往給出樣本均數(shù)、標準差、

中位數(shù)、四分位數(shù)范圍、最小值和最大值,但對結(jié)果的主要說明依據(jù)

上述策略進展進展。

第三講概率分布和抽樣分布

概率分布累積函數(shù)

1.標準正態(tài)分布累積函數(shù)norm(A)

2.1分布右側(cè)累積函數(shù)ttail(d/,因,其中以是自由度

3."分布累積函數(shù)chi2(",因,其中也是自由度

4.4分布右側(cè)累積函數(shù)chi2tail(d7,A),其中"是自由度

5.斤分布累積函數(shù)F(d〃,df2,困,d〃為分子自由度,df2為

分母自由度

6.F分布右側(cè)累積函數(shù)網(wǎng)df2,因,d〃為分子自由度,df2

為分母自由度

累積函數(shù)的計算運用

正態(tài)分布計算

x服從可。,1),計算概率尸(X<1.9。

.displaynorm(L9。

.9750021即概率P(X<1.96)=0.9750021

display可簡寫為di,如:dinortn(1.96).同樣可以得到上述結(jié)果.

X服從兇8,?計算概率F(X>1.96),貝U

.dil-norm(1.96)

.0249979即癖P(X>1,96)=0.0249979

X服從NdQ2),則y=4二巴~笈(0,1),因此對其他正態(tài)分布只要在函數(shù)括號中插入一個

上述表達式就可以得到相應(yīng)概率.

例如:X服從陽100,62),計算概率在年111.76),則操作如下

.dinonn((lll.76-100)/6)

,9750021即:P(X<111,76)=0.9750021

又如X服從100,6)計算概率玳為90),操作如下

.dil-nomn((90-100)/6)

.95220965

爐分布累積概率計算

設(shè)X服從自由度為1的爐分布,計算概率也心3.84),則操作如下

.dil-chi2(l,3.84)

.05004353概率P(X>3.84)=0.05004353

設(shè)X服從自由度為3的寸分布,計算概率P(X5),則操作如下一

.dichi2(3,5)

.82820288概率P(X<5)=0.82820288

戶分布右側(cè)累積概率計算

設(shè)X服從自由度為1的寸分布,計售概率也G3.84),則操作如下

.dichi2tail(l,3.84)

.05004353概率P(X>3.84)=0.05004353

設(shè)萬服從自由度為3的爐分布,計算概率尸(X<5),則操作如下

.dichi2(3,5)

.82820288WP(X<5)=0.82820288

,分布右側(cè)累積概率計算

設(shè)才服從自由度為10的?分布,計算概率共>22),操作如下

.dittail(10,2.2)

,02622053概率P(t>2.2)=0.02622053(注意:這是右累積函數(shù))

設(shè)才服從自由度為10的上分布,計算概率%<一外操作如下

.dil-ttail(10,-2)

.03669402概率P(t<-2)=0.03669402

支分布累積概率計算

設(shè)尸月颯川(3,27),計算概率廣陰》操作如下:

.diF(3,27,l)注意這里的函數(shù)是大寫'F,stata軟件中是區(qū)分大小寫的

.59208514概率(F<1)=0.59208514

設(shè)9月颯產(chǎn)(4,40),計算概率尸(尸>3),操作如下:

.dil-F(4,40,3)

.02954694WP(F>3)=0.02954694

產(chǎn)分布右側(cè)累積概率計算

設(shè)歹服從歹口,27),計算概率操作如下:

.di1-Ftail(3,27,l)注意這里的函數(shù)是大寫F,stata軟件中是區(qū)分大小寫的

.59208514概率P(Fv1)=0.59208514

設(shè)尸服此”4,40),計算概率操作如下:

.diFtail(4,40,3)

.02954694WP(F>3)=0.02954694

t分布的臨界值計算函數(shù)invchi2tail(也0)

例如計算自由度為28的右側(cè)累積概率為0.025的臨界值5.a操作如下

.diinvttail(28,0.025)

2.0484071臨界值t物廣2.0484071

然分布的臨界值計算函數(shù)invchi2(以為或invchi2tail(瓶月

例如:計算自由度為1的/右側(cè)累積概率為0.05的臨界值/。步操作如下:

.diinvchi2(l,0.95)

3.8414591臨界值e)a=3.8414591

或者操作如下:一

.diinvchi2tail(l,0.05)

3.8414591臨界值%%必=3.84145gl

產(chǎn)分布的臨界值計算函數(shù)inv巴切,攔產(chǎn))或inv網(wǎng)切,羽門

例如計算分子自由度為3和分母自由度27的右側(cè)累積概率為(W5的臨界值,操作如下:

.diinvF(3,27,0.95)

2.9603513臨界值FOJ05(3,27)=2.9603513

產(chǎn)生隨機數(shù)

計算機所產(chǎn)生的隨機數(shù)是通過一串很長的序列數(shù)模擬隨機數(shù),故

稱為偽隨機數(shù),在實際應(yīng)用這些隨機數(shù)時,這些隨機數(shù)一般都能具有

真實隨機數(shù)的全部概率性質(zhì)和統(tǒng)計性質(zhì),因此可以產(chǎn)生許很多多的序

列偽隨機數(shù),一個序列的第一個隨機數(shù)對應(yīng)一個數(shù),這個數(shù)稱為種子

數(shù)(seed),因此可以利用種子數(shù),使隨機數(shù)重復(fù)實現(xiàn)。

設(shè)置種子數(shù)的囑咐為setseed數(shù)。每次設(shè)置同一種子數(shù),則產(chǎn)生

的隨機序列是一樣的。

產(chǎn)生(0,1)區(qū)間上的勻整分布的隨機數(shù)uniform()

例如產(chǎn)生種子數(shù)為100的20個在(0,1)區(qū)間上的勻整分布的隨機

數(shù),則操作如下:

clear去除內(nèi)存

setseed100設(shè)置種子數(shù)為100

setobs20設(shè)置樣本量為20

genr=uniform()產(chǎn)生20個在(0,1)區(qū)間上勻整分布的隨機數(shù)。

list顯示這些隨機數(shù)

結(jié)果如下

1..7185296

2..1646728

3.,9258041

4.,1833736

5..0067327

6..7413361

7..3599943

8..1634543

9.,445553

10..6489049

11..3799431

12..5964895

13..0251346

14..2164402

15.,6848479

16..1270018

17..6466258

18.,1869288

19..4522384

20..067132

利用勻整分布隨機數(shù)進展隨機分組:

例:某試驗要把20只大鼠隨機分為2組,每組10只,請制定隨

機分組方案和措施。

第一步、把20只大鼠編號,1,2,3,4,5,6,7,8,9,10,

11,12,13,14,15,16,17,18,19,20。并且標明。

第二步、用Stata軟件制定隨機分組方案,操作如下:

clear清除內(nèi)存

setseed200設(shè)置種子數(shù)為200

setobs20設(shè)置樣本量為20

rangeno120建立編號1至20

gent^=uniform()產(chǎn)生在(0,1)均勻分布的隨機數(shù)

gengroup=l設(shè)置分組變量group的初始值為1

sortr對隨機數(shù)從小到大排序

replacegroup=2in11/20設(shè)置最大的10個隨機數(shù)所對應(yīng)的記錄為第2組,即:

最小的10個隨機數(shù)所對應(yīng)的記錄為第1組

sortno按照編號排序

list顯示隨機分組的結(jié)果

結(jié)果如下:

norgroup

1.95120072

2,52498762

3

3.51299861

4.4,1264391

5.5,58661612

6.

6,70592092

7&.7,26332861

8,56446882

9.9.11710331

10.

11.10.9540652

1211,48228631

12.33477361

13

113.56789022

14.14.79944312

5.15.11805031

16.

178.16.98342992

1017,28078741

C

1518.0952451

219,94460512

20.34675241

隨機分組整理如下

第一蛆

編號3479111215171820

第二組

編號125681013141619

N產(chǎn)生服從正態(tài)分布(〃,GJ》的隨機數(shù)invnorm(unifonn())cr+.例如產(chǎn)生10個服從正

態(tài)分布#。00,D2)的隨機數(shù),操作如下:

clear清除內(nèi)存

setseed200設(shè)置種子數(shù)為200

setobs10設(shè)置樣本量為10

genxMnvnorm(uniform())*6+100產(chǎn)生服從曾(100,62)的隨機數(shù)

list顯示隨機數(shù)

結(jié)果如下:

1.109.9397

2.100.3761

3.100.1955

4.93.13968

5.101.3131

6.103.249

7.96.2013

8.100.9739

9.92.86244

10.110.1137

教學(xué)應(yīng)用:考察樣本均數(shù)的分布。

由于個體變異的緣由,樣本均數(shù)刀的抽樣誤差(其定義為樣本均數(shù)

與總體均數(shù)的差值)是不行避開的,并且樣本均數(shù)的抽樣誤差是呈隨

機變更的。對于一次抽樣而言,無法考察樣本均數(shù)的抽樣誤差的規(guī)律

性,但當大量地重復(fù)抽樣,計算每次抽樣的樣本均數(shù)刀,發(fā)考察樣

本均數(shù)的隨機分布規(guī)律性和統(tǒng)計特征。舉例如下:

利用計算機模擬產(chǎn)生1OOOOO個聽從正態(tài)分布川100,6。的樣本,

樣本量分別為刀=4,n=9,n=16,n=36,每個樣本計算樣本均

數(shù)。這里關(guān)鍵處是要清晰什么是樣本量(每次抽樣所視察的對象個數(shù),

也就是每個樣本的個體數(shù)n)、什么是樣本個數(shù)(指抽樣的次數(shù)),現(xiàn)以

刀=4為例,一條記錄存放一個樣本,樣本量力=4,也就是每個樣本

的第1個數(shù)據(jù)放在第1歹IJ,第2個數(shù)據(jù)放在第2列,第3個數(shù)據(jù)放

在第3列,第4個數(shù)據(jù)放在第4歹!J,因此第1行是第一個樣本,第

2行是第2個樣本,第100000行是第100000個樣本,計算樣本

均數(shù)放在第5歹因此共有100000個樣本均數(shù)。具體操作如下:

clear清除內(nèi)存

setmemory60m擴大虛擬內(nèi)存為60M

setobs100000設(shè)置記錄數(shù)為100000

setseed200設(shè)置種子數(shù)為200

genx1MnvnornXunifomi())*6+100產(chǎn)生第1個隨機數(shù)據(jù)

genx2=invnorm(uniform0)*6+100產(chǎn)生第2個隨機數(shù)據(jù)

genx3=dnvnonn(uniforrn())*6+100產(chǎn)生第3個隨機數(shù)據(jù)

genx4=invnorm(unifbnnO)*6+100產(chǎn)生第4個隨機數(shù)據(jù)

genmean=(x1+x2+x3+x4)/4計算平均數(shù),并且存放在變量名為

mean

sumean以樣本均數(shù)為數(shù)據(jù),計算其平均值和

標準差

結(jié)果

Variable|ObsMeanStd.Dev.MinMax

mean|10000099.983883.00222587.97424112.0461

現(xiàn)共有100000個樣本,每個樣本計算一個樣本均數(shù),因此有

100000個樣本均數(shù),如今把一個樣本均數(shù)發(fā)視為一個數(shù)據(jù),把

100000個樣本均數(shù)視為一個樣本量為100000的新樣本(這個樣本

里有100000個刀),計算這100000個3的平均值和標準差:得

到:

這100000個刀的平均值=99.98388特別接近總體均數(shù)口=100

這100000個了的標準差=3.002225(理論上可以證明樣本均數(shù)的

總體均數(shù)與樣本所在的總體的總體均數(shù)一樣,樣本均數(shù)的標準差

樣本所在總體的總體標準差

=赤)

再考察這100000個刀的頻數(shù)圖

graphmean,bin(50)xlabelylabelnorm

可以覺察正態(tài)分布的樣本均數(shù)仍呈正態(tài)分布,峰的位置在4=

100o再考察這100000個發(fā)的百分位數(shù)

—Binom.Interp.一

Variable|ObsPercentileCentile[95%Conf.Interval]

mean|1000002.594.1122494.0593494.15675

|595.0483195.0075895.08677

|5099.9767299.95568100.0002

|95104.9248104.8881104.9571

|97.5105.8656105.8161105.9181

比較理論上的百分位數(shù)

百分位數(shù)Stata操作理論百分位數(shù)模擬百分位數(shù)

PKSdi100+invnorm(0.025)*394.12010894.11224

Rdi100+invnorm(0.05)*395.06543995.04831

di100+invnorm(0.5)*310099.97672

Rsdi100+invnorm(0.95)*3104.93456104.9248

di100+invnorm(0.975)*3105.87989105.8656

P,T.5

可以覺察理論上的百分位數(shù)與模擬數(shù)據(jù)的百分位數(shù)特別接近???/p>

以證明:樣本量越大,這種刀的誤差小的可能性越大。

由于在實際探討中,只有一個樣本,因此只有一個樣本均數(shù),無

法如模擬數(shù)據(jù)一樣計算樣本均數(shù)的標準差,但是一個樣本的數(shù)據(jù)可以

計算樣本的標準差S近似d利用樣本均數(shù)的標準差關(guān)系,間接

估計得到樣本均數(shù)的標準差估計為,為了區(qū)分樣本的標準差和樣

本均數(shù)的標準差,故稱為標準誤。

為了扶植大家便利地進展模擬實習,特地編制的相應(yīng)的Stata模

擬程序:模擬正態(tài)分布的樣本均數(shù)分布的模擬程序simumean.ado

復(fù)制到Stata軟件安裝的書目下的子書目ado'base。例如:Stata

軟件安裝在D:\stata,則simumean.ado復(fù)制到

d:\stata\ado\base然后啟動Stata軟件后,輸入連接囑咐:netset

adod:\stata\ado\base

若Stata安裝在其他書目下,則相應(yīng)變更上述途徑便是(這是一次

性操作,以后無需再重復(fù)進展)。這是模擬抽10000個正態(tài)分布的樣

本,具體說明如下:

舉例說明

simumean樣本量均數(shù)標準差

例如模擬抽1000。個正態(tài)分布的樣本,樣本量為4、總體均數(shù)是

20、標準差為6,則操作如下:

simumean4206

得到下列結(jié)果(隨機的)

Variable|ObsMeanStd.Dev.MinMax

mean|1000019.993522.9906168.34450631.40937

ssdI100005.5114692.346368.25849615.51934

即10000個樣本均數(shù)(視為一個新的樣本數(shù)據(jù))的平均值為19.99352*總體均數(shù)20,10000

個樣本均數(shù)的標準差=2.990616級A=總體可準差=3?

變量樣本量%百分位數(shù)

-Binom.Interp.一一

VariableIObsPercentileCentile[95%Conf.Interval]

mean|100002.514.1962914.0139214.31436

1515.0889914.9628115.2017

150

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論