![《統(tǒng)計分析軟件:使用R與Python》 課件 第5章- R 語言隨機抽樣和隨機數(shù)_第1頁](http://file4.renrendoc.com/view12/M00/2D/30/wKhkGWc1qpGAFjkbAAH4ka-T7EI802.jpg)
![《統(tǒng)計分析軟件:使用R與Python》 課件 第5章- R 語言隨機抽樣和隨機數(shù)_第2頁](http://file4.renrendoc.com/view12/M00/2D/30/wKhkGWc1qpGAFjkbAAH4ka-T7EI8022.jpg)
![《統(tǒng)計分析軟件:使用R與Python》 課件 第5章- R 語言隨機抽樣和隨機數(shù)_第3頁](http://file4.renrendoc.com/view12/M00/2D/30/wKhkGWc1qpGAFjkbAAH4ka-T7EI8023.jpg)
![《統(tǒng)計分析軟件:使用R與Python》 課件 第5章- R 語言隨機抽樣和隨機數(shù)_第4頁](http://file4.renrendoc.com/view12/M00/2D/30/wKhkGWc1qpGAFjkbAAH4ka-T7EI8024.jpg)
![《統(tǒng)計分析軟件:使用R與Python》 課件 第5章- R 語言隨機抽樣和隨機數(shù)_第5頁](http://file4.renrendoc.com/view12/M00/2D/30/wKhkGWc1qpGAFjkbAAH4ka-T7EI8025.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
5.1隨機變量分布5.2隨機抽樣5.3生成已知分布的隨機數(shù)5.4隨機數(shù)的應(yīng)用第5章R語言隨機抽樣和隨機數(shù)R語言隨機抽樣和隨機數(shù)隨機變量分布
離散變量、連續(xù)變量及其分布生成已知分布的隨機數(shù)利用現(xiàn)有R函數(shù)、逆變換法、舍選法隨機數(shù)的應(yīng)用隨機抽樣簡單隨機抽樣、分層抽樣、整群抽樣5.1隨機變量分布數(shù)據(jù)的數(shù)字特征刻劃了數(shù)據(jù)的主要特征,而要對數(shù)據(jù)的總體情況作全面的描述,就要研究數(shù)據(jù)的分布.常見的離散型分布有:兩點分布、二項分布和Poisson分布等.常見的連續(xù)型分布均勻分布、正態(tài)分布、指數(shù)分布、χ2分布、t分布和F分布等.在R軟件中,提供了計算典型分布的分布函數(shù)、分布律或概率密度函數(shù),以及分布函數(shù)的反函數(shù)的函數(shù).分布R名稱自變量binomialB(n,p)binom(size,prob)Poissonπ(λ)pois(lambda)GeometricGeo(p)geom(prob)hypergeometrichyper(N,m,n)
H(N,m,n)negativebinomialnbinom(size,prob)NB(r,p)multinomialmultinom(size,prob)離散型隨機變量及其分布uniformU(a,b)unif(min,max)Gaussian(normal)N(μ,
2)norm(mean,sd)ExponentialE(λ)
exp(rate)gammaГ(λ,β)gamma(shape,scale)BetaBe((a,b)beta(shape1,shape2,ncp)‘Student’
t(n)t(df,ncp)Fisher–SnedecorF(n1,n2)f(df1,df2,ncp)Pearsonχ2(n)chisq(df,ncp)Weibullrweibull(shape,scale)Cauchycauchy(location,scale)InversegammaInvgamma(shape,scale)Logisticlogis(location,scale)Log-normallnorm(meanlog,sdlog)分布R函數(shù)附加參數(shù)連續(xù)型隨機變量及其分布上述各類表示分布的函數(shù)前分別加d——概率函數(shù)(分布列或概率密度)(distribution)p——分布函數(shù)(probability)q——分位數(shù)(quantile)r——取隨機數(shù)(random)pfunc(x,...)qfunc(p,...)
0<p<1)rfunc(n,p1,p2,...)
dfunc(x,...)R中概率分布的四種狀態(tài)#X~B(20,0.2),P(X=5)
>dbinom(5,20,0.2)[1]0.1745595#X~π(5),P(X=10)>dpois(10,5)[1]0.01813279隨機變量取某個值的概率#X~B(100,0.2),P(46≤X≤54)sum(dbinom(46:54,100,0.2)pbinom(54,100,0.2)-pbinom(45,100,0.2)#X~B(20,0.2),P(X≤5)pbinom(5,20,0.2)#X~B(20,0.2),P(X>5)
1-pbinom(5,20,0.2)#X~π(5),P(0≤X≤16)
sum(dpois(0:16,5));ppois(16,5)#X~N(0,1),P(X≤2)
pnorm(2)#X~N(170,62),P(X≤184)pnorm(184,170,6)隨機變量在某區(qū)間內(nèi)取值概率#標(biāo)準(zhǔn)正態(tài)的下0.95分位數(shù).qnorm(0.95)#標(biāo)準(zhǔn)正態(tài)的下0.025分位數(shù).qnorm(0.025)#自由度為4的卡方分布下0.05分位數(shù).qchisq(0.05,4)#自由度為5的t分布下0.975分位數(shù).
qt(0.975,5)求分位數(shù)-R中給的是下分位數(shù)求分位數(shù)在收集數(shù)據(jù)過程中,絕大多數(shù)情況下,并不采取普查的方式獲取總體中所有樣本的數(shù)據(jù)信息,而是以各類抽樣方法抽取其中若干代表性樣本來進行數(shù)據(jù)獲取和分析。在獲得待分析數(shù)據(jù)集后,需要再次通過抽樣技術(shù)選取出訓(xùn)練集和測試集,以便比較選擇出最優(yōu)的統(tǒng)計模型。這里主要介紹簡單隨機抽樣、分層抽樣、整群抽樣三種基本抽樣方法。簡單隨機抽樣,R包自帶;分層抽樣,整群抽樣,在sampling包中找到相應(yīng)方法實現(xiàn)。5.2隨機抽樣1.簡單隨機抽樣R語言簡單隨機抽樣的函數(shù)是sample,句法是:
sample(x,size,replace=FALSE,prob=NULL)
x:帶抽取對象size:想要抽取的樣本數(shù)量replace:是否為有放回,默認為FALSE無放回prob:設(shè)置個抽取樣本的抽樣概率,默認為無取值,即等概率抽樣以JS數(shù)據(jù)集為例#有放回抽取10個數(shù)據(jù)進行分析set.seed(1235)sampleindex=sample(nrow(JS),10,replace=T)sampleindex[1]2712337143628133512>JS[sampleindex,]以JS數(shù)據(jù)集為例#無放回抽取10個數(shù)據(jù)進行分析>sampleindex=sample(nrow(JS),10)>sampleindex##[1]271231428133853323>JS[sampleindex,]這里,sampleindex沒有重復(fù)值。無放回時,size必須小于樣本數(shù)sampleindex=sample(nrow(JS),50)Errorin(x,size,replace,prob):cannottakeasamplelargerthanthepopulationwhen'replace=FALSE'2.分層抽樣分層抽樣,也叫類型抽樣。就是將總體單位按其屬性特征分成若干類型或?qū)?,然后在類型或?qū)又须S機抽取樣本單位。strata(data,stratanames=NULL,size,method=c(“srswor”,“srswr”,“poisson”,“systematic”),pik,description=FALSE)data:帶抽樣數(shù)據(jù)stratanames:進行分層所依據(jù)的變量名稱size:各層中要抽出的觀測樣本數(shù)method:選擇4中抽樣方法,分別為無放回、有放回、泊松、系統(tǒng)抽樣,默認為srsworpik:設(shè)置各層中樣本的抽樣概率description:選擇是否輸出含有各層基本信息的結(jié)果以JS數(shù)據(jù)集為例#載入分層抽樣的包samplinglibrary(sampling)#按地區(qū),每個職稱抽取3人>strata(JS,stratanames=(“title"),size=c(3,3,3,3),method="srswor")
3.整群抽樣整群抽樣又稱聚類抽樣。是將總體中各單位歸并成若干個互不交叉、互不重復(fù)的集合,稱之為群;然后以群為抽樣單位抽取樣本的一種抽樣方式。cluster(data,clustername,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALSE)data:帶抽樣數(shù)據(jù)clustername:用來劃分群的變量名稱size:需要抽取的群數(shù)method:選擇4中抽樣方法,分別為無放回、有放回、泊松、系統(tǒng)抽樣,默認為srsworpik:設(shè)置各層中樣本的抽樣概率description:選擇是否輸出含有各群的基本信息的結(jié)果以JS數(shù)據(jù)集為例#載入分層抽樣的包samplinglibrary(sampling)#以title為分群變量,#不放回簡單隨機抽樣#方法抽2個群>cluster(JS,clustername=(“title"),size=2,method="srswor",description=T)
1.服從均勻分布的隨機數(shù)R語言生成均勻分布隨機數(shù)的函數(shù)是runif()句法是:runif(n,min=0,max=1)
n表示生成的隨機數(shù)數(shù)量,min表示均勻分布的下限,max表示均勻分布的上限;若省略參數(shù)min、max,則默認生成[0,1]上的均勻分布隨機數(shù)。>runif(5,0,1)
#生成5個[0,1]的均勻分布的隨機數(shù)[1]0.59930.73910.26170.50770.7199
>runif(5)
#默認生成5個[0,1]上的均勻分布隨機數(shù)[1]0.27840.77550.41070.83920.7455
5.3生成已知分布的隨機數(shù)5.3.1
R語言函數(shù)生成隨機數(shù)2.服從正態(tài)分布的隨機數(shù)正態(tài)分布隨機數(shù)的生成函數(shù)是rnorm()句法是:rnorm(n,mean=0,sd=1)
其中n表示生成的隨機數(shù)數(shù)量,mean是正態(tài)分布的均值,默認為0,sd是正態(tài)分布的標(biāo)準(zhǔn)差,默認時為1;#生成一個長度為100的向量,向量中的每個值服從標(biāo)準(zhǔn)正態(tài)分布rnorm(100)#產(chǎn)生100個N(150,62)的隨機數(shù)rnorm(100,150,6)3.服從二項分布的隨機數(shù)二項分布是指n次獨立重復(fù)貝努力試驗成功的次數(shù)的分布,每次貝努力試驗的結(jié)果只有兩個,成功和失敗,記成功的概率為p生成二項分布隨機數(shù)的函數(shù)是:rbinom()句法是:rbinom(n,size,prob)
n表示生成的隨機數(shù)數(shù)量,size表示進行貝努力試驗的次數(shù),prob表示一次貝努力試驗成功的概率#產(chǎn)生100個B(20,0.22)的隨機數(shù)rbinom(100,20,0.2)R其他分布的隨機數(shù)rexp指數(shù)分布rfF分布rgamma
Gamma分布rgeom幾何分布rhyper超幾何分布rlnorm對數(shù)正態(tài)分布rlogisLogistic分布rmultinom多項分布rnbinom負二項分布rpois泊松分布rtt分布rchisq卡方分布生成隨機變量的方法有許多種,但是幾乎所有產(chǎn)生隨機變量的技術(shù)都是從生成一個或多個[0,1]區(qū)間均勻分布的偽隨機數(shù)開始的,隨后通過應(yīng)用某種轉(zhuǎn)換方法即可從[0,1]均勻分布隨機數(shù)中生成非均勻分布的隨機數(shù)。方法:逆變換法、卷積法、函數(shù)變換法、合成法、取舍法等5.3.2
逆變換法生成隨機數(shù)逆變換法逆變換法也稱反函數(shù)法,是最常用、最簡單的一種隨機變量生成方法?;诟怕史e分變換定理
連續(xù)型隨機數(shù)逆變換法的生成步驟例如,給定某指數(shù)分布的概率密度函數(shù)為:
注意到u和1-u同為均勻分布,因此產(chǎn)生n個參數(shù)為lambda的指數(shù)分布的R命令可以寫成-log(runif(n))/lambdaset.seed(123)n=10lambda=3-log(runif(n))/lambda##[1]0.415420940.079290010.298032180.041470120.02045947
##[6]1.029600660.212819740.037939830.198410430.26130509>n<-1000>u<-runif(n)>x<-u^(1/3)>hist(x,prob=TRUE,main=expression(f(x)==3*x^2))>y<-seq(0,1,0.01)>lines(y,3*y^2)逆變換法僅適用于生成分布函數(shù)具有反函數(shù)的隨機數(shù)(如均勻分布、指數(shù)分布等),而不適用于生成類似于正態(tài)分布這種分布函數(shù)不具有反函數(shù)的隨機數(shù),同樣也不適用于生成離散分布函數(shù)的隨機數(shù)。5.3.3舍選法由于大多數(shù)分布函數(shù)無法求反函數(shù),因此逆變換方法的適用范圍有限,為此,學(xué)者們提出了舍選法(接受-拒絕抽樣,Acceptance-Rejectionsampling)。假設(shè)需要對分布π(x)進行采樣,但是卻很難直接進行,故借助另外一個容易采樣的分布g(x),用某種機制去除掉一些g(x)生成的樣本,從而使得剩下的樣本就是來自于所求分布π(x)的樣本。舍選法的基本思想所需分布π(x)易抽樣分布g(x)
舍選法的原理證明
逆變換法和舍選法小結(jié)設(shè)置隨機種子,保證實驗的可重復(fù)性
>x<-rnorm(10)#隨機生成10個隨機數(shù)>x[1]0.27387940-0.29359610-0.640519080.865472080.68148647-0.33057645[7]-1.08217114-1.658157360.78442397-0.01521926>x<-rnorm(10)#再次隨機生成10個隨機數(shù)>x[1]0.0634884060.302965807-1.851315056-0.048666815-0.261443363-1.413083258[7]-0.4164286291.0477428531.318716887-0.003966177>set.seed(10)#設(shè)定種子>x<-rnorm(10)#隨機生成10個隨機數(shù)>x[1]0.01874617-0.18425254-1.37133055-0.599167720.294545130.38979430[7]-1.20807618-0.36367602-1.62667268-0.25647839>set.seed(10)#設(shè)定種子>y<-rnorm(10)#再次隨機生成10個隨機數(shù)>y[1]0.01874617-0.18425254-1.37133055-0.599167720.294545130.38979430[7]-1.20807618-0.36367602-1.62667268-0.25647839
從上面的例子可以發(fā)現(xiàn),前兩次生成的10個隨機數(shù)都不一樣。后兩次在設(shè)定了相同的種子前提下,生成的隨機數(shù)是相同的。5.4隨機數(shù)的應(yīng)用隨機模擬的方法生成指定數(shù)據(jù),用來估計參數(shù)或驗證統(tǒng)計學(xué)中的一些基本結(jié)論。估計模型參數(shù)驗證大數(shù)定律驗證中心極限定理估計參數(shù)
我們可以利用上述結(jié)論來估計圓周率。
N=2000set.seed(1234)x<-runif(N,-1,1)y<-runif(N,-1,1)p<-mean((x^2+y^2)<=1)pi_est<-4*ppi_est##[1]3.14為了驗證大數(shù)定律,選擇t分布進行驗證#自由度為10的t分布n=20000a<-rt(n,10)llnum<-function(a){y<-rep(0,length(a))for(iin1:n){y[i]<-mean(sample(a,i,replace=TRUE))}data<-data.frame(size=1:n,value=y)data}lln_data<-llnum(a)colnames(lln_data)<-c("sample_size","sample_mean")library(ggplot2)ggplot(lln_data,aes(x=sample_size,y=sample_mean))+labs(title="樣本均值變化趨勢")+geom_line(color='darkblue')+geom_abline(intercept=5,slope=0,color='grey')
例:用R驗證中心極限定理#First,wewillgenerate1000samplesandcomputethesamplemeanofeach.set.seed(1)sample_means
=
rep(NA,1000)
for(i
in
1:1000){
sample_means[i]
=
mean(rexp(40,0.2))
}
均值:這里用R語言對指數(shù)分布的均值進行模擬仿真。并將結(jié)果和中心極限定理的結(jié)果進行對比。#comparethesamplemeanfr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- TAT-PEG-Cy3-生命科學(xué)試劑-MCE-8780
- O-Methylcassythine-生命科學(xué)試劑-MCE-5707
- 1-2-Distearoyl-3-palmitoyl-rac-glycerol-1-2-Stearin-3-palmitin-生命科學(xué)試劑-MCE-3544
- 2025年度解除競業(yè)限制協(xié)議通知范本及注意事項
- 二零二五年度版果園承包合同:果業(yè)人才培養(yǎng)與引進合作協(xié)議
- 二零二五年度2025年度自愿調(diào)解協(xié)議書-知識產(chǎn)權(quán)侵權(quán)糾紛調(diào)解協(xié)議書
- 2025年度共享汽車使用權(quán)授權(quán)管理協(xié)議
- 二零二五年度房屋租賃合同終止及換房新約
- 施工現(xiàn)場管理的方法
- 高效記憶小學(xué)英語詞匯的秘訣
- 2024化工園區(qū)危險品運輸車輛停車場建設(shè)規(guī)范
- 工地試驗室質(zhì)量手冊
- 信息資源管理(馬費成-第三版)復(fù)習(xí)重點
- 郵輪外部市場營銷類型
- GB/T 42460-2023信息安全技術(shù)個人信息去標(biāo)識化效果評估指南
- 05G359-3 懸掛運輸設(shè)備軌道(適用于一般混凝土梁)
- 工程與倫理課程
- CKDMBD慢性腎臟病礦物質(zhì)及骨代謝異常
- 潮汕英歌舞課件
- 田字格模版內(nèi)容
- 第一章 公共政策分析的基本理論與框架
評論
0/150
提交評論