等概率整群抽樣

上傳人：農(nóng)*** IP屬地：廣東上傳時(shí)間：2023-07-04 格式：PPT 頁(yè)數(shù)：74 大?。?.65MB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩69頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于等概率整群抽樣第1頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

一、概述及符號(hào)說(shuō)明二、單階段抽樣三、兩階段抽樣四、抽樣設(shè)計(jì)五、系統(tǒng)抽樣六、基于模型推理第2頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三調(diào)查目的：調(diào)查含10000家住戶的社區(qū)中住戶擁有自行車(chē)數(shù)目；策略一：樣本容量為400個(gè)住戶的簡(jiǎn)單隨機(jī)抽樣；策略二：整群抽樣。整群抽樣步驟：1、將社區(qū)分為500個(gè)組(每個(gè)組20家住戶)從500個(gè)組中隨機(jī)抽取20個(gè)組(組:初級(jí)抽樣單元PSU)2、從隨機(jī)抽取20組中普查組內(nèi)的每一家住戶(住戶:二級(jí)抽樣單元SSU)500個(gè)街區(qū)稱為初級(jí)抽樣單位（PSU），街區(qū)中的住戶稱為次級(jí)抽樣單位（SSU）第3頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三注意：1、抽樣單元(PSU)不同于觀測(cè)單元(SSU);2、同容量的整群抽樣觀測(cè)單元提供的信息少于SRS;3、花費(fèi)而言，整群抽樣更物超所值;4、分群的原則是：群內(nèi)差異盡可能大，群間差異盡可能小。p第4頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

社區(qū)里一些組的住戶主要是由家庭構(gòu)成，他們擁有更多的自行車(chē)；而社區(qū)里另外一些組的居民主要是退休人員，他們的自行車(chē)較少。同一組里的20家住戶不如隨機(jī)選擇的20戶更能反映出社區(qū)的多樣性。因此這種情況下，整群抽樣比同樣規(guī)模的簡(jiǎn)單隨機(jī)抽樣的每次觀測(cè)所獲得的信息可能更少。訪問(wèn)組中的20家住戶比隨機(jī)選擇20家住戶更節(jié)省經(jīng)費(fèi)，也更容易，所以整群抽樣的單位美元花費(fèi)可能產(chǎn)生更多的信息。第5頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

同一群中元素比整個(gè)總體中SRS選擇的元素更趨于同質(zhì)性——同一品種的魚(yú)在同一湖里更容易具有相同的汞濃度；同一療養(yǎng)院的居民容易對(duì)護(hù)理質(zhì)量具有相同意見(jiàn)。

由于同質(zhì)性存在，在一個(gè)群里調(diào)查所有成員，在一定程度上會(huì)造成信息重復(fù)，將導(dǎo)致對(duì)總體的估計(jì)不足，精度下降。為了使精度提高，分群的原則是：群內(nèi)差異盡可能大，群間差異盡可能小。第6頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（一）定義（What）將總體劃分為若干群(psus)，然后以群為抽樣單元，從總體中隨機(jī)抽取一部分群，對(duì)被選群內(nèi)的所有或部分單元(ssus)進(jìn)行調(diào)查的一種抽樣技術(shù)。

一、概述及符號(hào)說(shuō)明第7頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（二）特點(diǎn)（Why）優(yōu)點(diǎn)：1、抽樣框編制得以簡(jiǎn)化。2、實(shí)施調(diào)查便利、節(jié)省費(fèi)用。不足：

抽樣誤差較大。

第8頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（三）整群抽樣與分層抽樣第9頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三第10頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三1、根據(jù)行政或者地域；2、調(diào)查人員人為確定。1、與總體各群規(guī)模相等；2、與總體各群規(guī)模不等。（四）群的劃分（五）群的規(guī)模第11頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（六）符號(hào)說(shuō)明

psus：初級(jí)抽樣單元

ssus：次級(jí)抽樣單元：含有N個(gè)psu的總體

S：N個(gè)psu的總體中入樣的psus

：psu中代表第i個(gè)入樣的ssus

：第i個(gè)psu中的第j個(gè)元素值第12頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

總體總值psu間的方差(總值)psu-總體指標(biāo)總體中psus的個(gè)數(shù)總體中第i個(gè)psu中ssus的個(gè)數(shù)總體ssus的個(gè)數(shù)第i個(gè)psu的總值

第13頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三ssu-總體指標(biāo)

總體均值第i個(gè)psu的總體均值總體方差總體第i個(gè)psu內(nèi)ssu間方差

第14頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三樣本指標(biāo)樣本中psus的個(gè)數(shù)樣本中第i個(gè)psu中ssus的個(gè)數(shù)第i個(gè)psu中的樣本均值第i個(gè)psu總值的估計(jì)量總體總值的無(wú)偏估計(jì)量樣本psu間的方差第i個(gè)psu內(nèi)ssu間的樣本方差第i個(gè)psu中第j個(gè)ssu樣本權(quán)重第15頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

單階段整群抽樣只能選擇群中的所有元素入樣，或者群中的所有元素均不入樣。跟二階段抽樣相比，抽取SSU的成本相對(duì)于抽取PSU的成本可忽略不計(jì)，通常會(huì)將選中群的所有SSU全部調(diào)查。在N個(gè)psu的總體，第i個(gè)psu中包含個(gè)ssus。在單階段整群抽樣中，被選中的群psus中所有ssus全都入樣，即。二、單階段抽樣第16頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（一）群規(guī)模相等時(shí)的估計(jì)

總體N個(gè)群中，每個(gè)群中的元素?cái)?shù)量都相等，即有，則稱群規(guī)模相等。將群的總值看成是觀測(cè)值，可得到一個(gè)含有n個(gè)觀測(cè)值的簡(jiǎn)單隨機(jī)樣本，此時(shí)全體群群總值的均值。運(yùn)用簡(jiǎn)單隨機(jī)抽樣樣本估計(jì)總體的方法，求出總體的總值。在單階段整群抽樣中沒(méi)有引入新的內(nèi)容,我們利用了簡(jiǎn)單隨機(jī)抽樣的結(jié)果，從N個(gè)單位的總體中抽取n個(gè)單位的簡(jiǎn)單隨機(jī)樣本。這里我們把群總值看成是簡(jiǎn)單隨機(jī)抽樣中的觀測(cè)值。第17頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

在住戶調(diào)查中估計(jì)兩口之家的收入，則個(gè)體觀測(cè)值為家庭i中第j個(gè)人的收入，而代表第i個(gè)家庭的總收入(是已知的，因?yàn)槿霕蛹彝サ膬蓚€(gè)成員均已被調(diào)查)，代表總體中每個(gè)家庭的平均收入，表示總體中每個(gè)人的平均收入。求總收入。

P170第18頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

方差為：(5.2)標(biāo)準(zhǔn)誤為：(5.3)其中和分別代表總體psu間的方差和樣本psu間的方差。

1、估計(jì)總收入t(總體總值)：

(5.1)第19頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

（5.4）（5.5）（5.6）2、估計(jì)總體中每個(gè)人的平均收入第20頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三P171例5.2

一個(gè)學(xué)生想估計(jì)他所在宿舍樓里同學(xué)的績(jī)點(diǎn)(GPA)的平均值。沒(méi)有列出宿舍樓所有學(xué)生的名單再進(jìn)行隨機(jī)抽樣,他發(fā)現(xiàn)宿舍區(qū)共有100間套房,每間有4名學(xué)生；他從中隨機(jī)抽取了5間套房,詢問(wèn)了其中每個(gè)人的GPA。

PSU就是套房，N=100，n=5，M=4?？傮w總值估計(jì)就是整個(gè)宿舍樓所有學(xué)生的績(jī)點(diǎn)。第21頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三總體總值估計(jì)(估計(jì)所有學(xué)生的績(jī)點(diǎn)):

總體均值估計(jì)(估計(jì)所有學(xué)生的平均績(jī)點(diǎn)):

=1130.4/400=2.826

樣本方差:=2.256

總體均值估計(jì)的標(biāo)準(zhǔn)誤:

=0.164第22頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三在這里也可以使用權(quán)重進(jìn)行估計(jì)，其中：

=頻率的倒數(shù)=1/{P(i)*P(j|i)}

則可以的總體總值與均值的估計(jì)值分別為：

第23頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（二）群規(guī)模相等時(shí)的理論

表5.1整群抽樣的總體ANOVA(方差分析)表

由上式可以看出，整群抽樣總值的總體方差完全依賴群間均方。第24頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三將上式帶入(5.2)

可得，1階整群抽樣中，群規(guī)模相等時(shí)，總體總值t的無(wú)偏估計(jì)量的變異完全依賴于群間變異。

由于MSB度量的是群之間的變化程度，當(dāng)MSB相對(duì)較大說(shuō)明群間差異大(不同群中的元素比相同群中的元素變化程度大)。如果MSB/MSW較大，則整群抽樣就會(huì)損失精度。（5.7）第25頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

對(duì)比整群抽樣與SRS，我們發(fā)現(xiàn)：如果

，整群抽樣比簡(jiǎn)單隨機(jī)抽樣效率要低。

上式為n個(gè)群(群中含M個(gè)元素)的單階段整群抽樣的總體總值無(wú)偏估計(jì)量的方差，下式為樣本容量nM的簡(jiǎn)單隨機(jī)抽樣總體總值的估計(jì)量的方差第26頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

對(duì)同一群內(nèi)元素之間相似性的測(cè)量，它提供了一種對(duì)群內(nèi)同質(zhì)性的測(cè)度方法。ICC是皮爾遜相關(guān)系數(shù)的擴(kuò)展，利用5.1的總體方差分析表知

因?yàn)椋瑥?5.8)式得

如果群內(nèi)元素完全相同，則SSW=0，于是ICC=1。(5.8)群內(nèi)相關(guān)系數(shù)（ICC）第27頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

式子(5.8)也可寫(xiě)成

采取整群抽樣，我們將失去多少精度？

如果N足夠大，則NM-1≈M(N-1)，于是(5.10)式中方差之比近似為1+(M-1)ICC，所以，簡(jiǎn)單隨機(jī)抽樣中1個(gè)觀測(cè)單元與單階段整群抽樣1+(M-1)ICC個(gè)觀測(cè)單元具有近似相同量的信息。(5.10)(5.9)第28頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

簡(jiǎn)單隨機(jī)抽樣中1個(gè)觀測(cè)單元與單階段整群抽樣1+(M-1)ICC個(gè)觀測(cè)單元具有近似相同量的信息。當(dāng)M=5,ICC=0.5,得到1+(M-1)ICC=3,也就是我們需要利用整群樣本測(cè)量300個(gè)元素以獲得含100個(gè)元素的簡(jiǎn)單隨機(jī)樣本相同的精度。第29頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三30ICC何時(shí)取正、取負(fù)？ICC為群內(nèi)元素的相似性提供了度量。如果群內(nèi)元素相似，ICC為正，同時(shí)SSW將相對(duì)于SSTO較小且ICC相對(duì)較大。當(dāng)ICC為正時(shí)，整群抽樣與簡(jiǎn)單隨機(jī)抽樣效率低。如果總體中的群是自然產(chǎn)生的，則ICC通常為正。同一群內(nèi)的元素處于相同的環(huán)境——具有同等水平的農(nóng)藥量、同一程度的發(fā)病率、同樣的政治觀點(diǎn)。3.如果群內(nèi)的元素比簡(jiǎn)單隨機(jī)抽樣的元素更分散，則ICC是負(fù)值。這就使得群均值近似相等——因?yàn)镾STO=SSW+SSB，若SSTO一定且SSW很大，則SSB必定很小。如果ICC<0，整群抽樣比簡(jiǎn)單隨機(jī)抽樣更有效。第30頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

ICC僅僅被用于群規(guī)模相等的情形。我們可以用調(diào)整的來(lái)度量一般總體中群內(nèi)元素的相似性，定義如下：

這時(shí)有：

我們發(fā)現(xiàn)近似于ICC。是對(duì)同質(zhì)性的合理測(cè)度量，因?yàn)樗跃€性回歸的方式予以解釋：它是以群均值解釋總體中變異的相對(duì)量，并以自由度進(jìn)行調(diào)整。如果群內(nèi)元素是同質(zhì)的，則群間的均值變化大，即較大。(5.11)第31頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三P176中的例5.3

考慮兩個(gè)假設(shè)的總體，每一個(gè)總體都有三個(gè)群，每一個(gè)群都有三個(gè)元素。兩個(gè)總體中的元素都是相同的，因此具有相同的均值和方差。在總體A中大部分的變異性都發(fā)生在群內(nèi)；在總體B中，大部分的變異性都發(fā)生在群間。第32頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

通過(guò)總體A、B的方差分析表，求得各自的調(diào)整的R方和群內(nèi)相關(guān)系數(shù)(ICC)?？傮wA在ICC和調(diào)整R方表現(xiàn)為負(fù)值：同一群里的元素實(shí)際上比整個(gè)總體中隨機(jī)抽取的元素之間相似性更小。這種情況下，整群抽樣更有效?？傮wB在ICC和調(diào)整R方非常接近于1：大部分變異性發(fā)生在群間，群內(nèi)具有很強(qiáng)的同質(zhì)性。在群中多調(diào)查1個(gè)元素只能增加很少的信息。此時(shí)，整群抽樣效率很低。第33頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（三）群規(guī)模不等的單階整群抽樣

在實(shí)際的社會(huì)調(diào)查中，群規(guī)模不等的情況更為常見(jiàn)。在一個(gè)早期的概率樣本中，選擇了2%的郵路被作為樣本，問(wèn)卷被發(fā)放給每條樣本郵路上的所有家庭以用來(lái)估計(jì)失業(yè)率。因?yàn)槊織l郵路上的家庭數(shù)目不同，因此群的大小也不相等。群規(guī)模不等的單階整群抽樣，估計(jì)總體總值和總體均值的兩種方法：無(wú)偏估計(jì)和比率估計(jì)。第34頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三1、無(wú)偏估計(jì)

總體總值t的無(wú)偏估計(jì)可由（5.1）式算出：

（5.12）由式（5.3），得（5.13）

規(guī)模不等的群與規(guī)模相等的群的區(qū)別在于：當(dāng)群規(guī)模不等時(shí)，每個(gè)群的總值之間的變化程度大。第35頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

我們可以利用（5.12）和（5.13）式導(dǎo)出的無(wú)偏估計(jì)和標(biāo)準(zhǔn)誤。定義那么求均值的無(wú)偏估計(jì)量和標(biāo)準(zhǔn)誤，我們必須知道的值，但是我們通常只知道入樣的群的單元個(gè)數(shù)。第36頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

2、比率估計(jì)

我們通常預(yù)期與是相關(guān)的,以為輔助變量，總體均值的比率估計(jì)量為：式子中的估計(jì)量為第4章中的量，分母取決于被選入樣本的PSU，因此分子和分母都會(huì)因樣本而異。(5.15)第37頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

從(4.10)式可以得到：

如果總體的平均群規(guī)模未知，則可以用樣本中PSU規(guī)模的平均值來(lái)代替。(5.17)第38頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三三、兩階段整群抽樣

P183圖5.2說(shuō)明了一階和二階的區(qū)別。第二個(gè)階段的符號(hào)與估計(jì)量更加復(fù)雜化。t和的點(diǎn)估計(jì)和單階段整群抽樣一樣，但其方差公式變得復(fù)雜。抽樣步驟1、從包含N個(gè)群的總體中以簡(jiǎn)單隨機(jī)抽樣抽取n個(gè)群，構(gòu)成一個(gè)簡(jiǎn)單隨機(jī)樣本S。2、從每個(gè)入樣群中再隨機(jī)抽取樣本容量為

的樣本。第39頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

在兩階段整群抽樣中,我們并不能觀測(cè)到入樣的psu中的每個(gè)ssu,因而我們需要估計(jì)每個(gè)入樣的psu的總值：總體總值t的無(wú)偏估計(jì)為：(5.18)無(wú)偏估計(jì)第40頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

在2階段整群抽樣中,是隨機(jī)變量。因此,的方差由兩部分構(gòu)成:(1)psus之間的差異(2)psus中ssus之間的差異。在一階整群抽樣不需要考慮成份(2)。的方差等于1階整群抽樣中的方差再加上由于用估計(jì)群總值而導(dǎo)致的額外項(xiàng)。其中是總體psu間的方差，指總體第i個(gè)psu內(nèi)ssu間的方差。

(5.21)第41頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三為了估計(jì)，利用得如果我們知道了總體中元素的個(gè)數(shù)，則我們能得到總體均值的估計(jì)量：相應(yīng)的標(biāo)準(zhǔn)誤為：(5.22)(5.23)(5.24)第42頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三比率估計(jì)用比率估計(jì)量來(lái)估計(jì)總體均值。以為輔助變量，總體均值的比率估計(jì)量為：其中，在(5.23)中被定義，而(5.26)（5.29）(5.28）第43頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三見(jiàn)書(shū)P190例5.8。估計(jì)城市中小狗收容所健康小狗的平均腿數(shù)。城市中有2個(gè)小狗收容所“小狗宮殿”(30只小狗)和“狗的生活”(10只小狗)?，F(xiàn)在要選1個(gè)小狗收容所，再?gòu)闹须S機(jī)選擇2只小狗，來(lái)估計(jì)每條小狗的平均腿數(shù)。

已知N=2，n=1。假定選擇“小狗宮殿”即i=1時(shí)，=120，=240，=6。求得無(wú)偏估計(jì)的每條小狗的平均腿數(shù)為6。第44頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

假定選擇“狗的生活”即i=2時(shí)，=40，=80，=2。估計(jì)每條小狗的平均腿數(shù)為2。

=6400

當(dāng)群的規(guī)模不等時(shí)，則總體總值的無(wú)偏估計(jì)量非常低效。這一估計(jì)的非常大的方差也表明了此估計(jì)量性質(zhì)的低劣。第45頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

估計(jì)城市中小狗收容所健康小狗的平均腿數(shù)。城市中有2個(gè)小狗收容所“小狗宮殿”(30只小狗)和“狗的生活”(10只小狗)?，F(xiàn)在要選1個(gè)小狗收容所，再?gòu)闹须S機(jī)選擇2只小狗，來(lái)估計(jì)每條小狗的平均腿數(shù)。

用比率估計(jì)更符合目標(biāo)：若假定選擇“小狗宮殿”，=4。假定選擇“狗的生活”，=4。由于所有可能樣本得到的估計(jì)相同，故=0。第46頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

第3章比率估計(jì)利用了總體中響應(yīng)變量與輔助變量相關(guān)關(guān)系，當(dāng)相關(guān)程度越高，比率估計(jì)越有效。小狗收容所中總的小狗腿數(shù)()精確地等于收容所中小狗總數(shù)()的4倍。所以比率估計(jì)的方差為0。此例題中響應(yīng)變量與輔助變量成一定比例，比例估計(jì)量的表現(xiàn)優(yōu)越。當(dāng)群的規(guī)模不等時(shí)，而和成比例，總體總值的無(wú)偏估計(jì)量低效，而估計(jì)量的表現(xiàn)優(yōu)秀。

，

第47頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三1、為了估計(jì)整群樣本中所有的均值和總值，大多數(shù)調(diào)查統(tǒng)計(jì)員使用樣本權(quán)重。在整群抽樣中，

因而，權(quán)重為(5.19)

整群抽樣中權(quán)重的使用第48頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三3、樣本權(quán)重僅僅為估計(jì)量的計(jì)算提供了便利；它們并不能避免估計(jì)量本身的缺陷，如大的方差。樣本權(quán)重也不能為怎樣尋找標(biāo)準(zhǔn)誤提供任何有用的信息。2、若psus是街道，ssus是家庭，則在街道i的第j個(gè)家庭代表總體中個(gè)家庭，于是，(5.20)第49頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三50四、整群抽樣設(shè)計(jì)

在設(shè)計(jì)一個(gè)整群樣本時(shí)，需要解決四個(gè)主要問(wèn)題：大體需要多高的精度？ psus的規(guī)模應(yīng)該有多大？在每個(gè)入樣的psu中應(yīng)該抽取多少個(gè)ssus？應(yīng)該抽取多少個(gè)psu？問(wèn)題1是在任何調(diào)查設(shè)計(jì)中都要面臨的。要回答問(wèn)題2到4，則需要知道抽取一個(gè)可能規(guī)模的PSU成本、抽取一個(gè)SSU的成本以及對(duì)PSU可能規(guī)模的同質(zhì)性測(cè)度值。第50頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三（一）選擇PSU的規(guī)模Mpsu的規(guī)模通常是一個(gè)自然單元。如班級(jí)或者農(nóng)場(chǎng)。在其他的調(diào)查中，調(diào)查者對(duì)于psu規(guī)模上的確定有更多的選擇。在對(duì)某地區(qū)的長(zhǎng)耳鹿進(jìn)行調(diào)查，psu被設(shè)計(jì)為區(qū)域,ssu是那片區(qū)域中的鹿。但是psu的大小該是1平方千米，2平方千米，還是100平方米呢？區(qū)域調(diào)查一般原理是psu規(guī)模越大，群內(nèi)變異性越大。在大的psu中ICC和的值小于小的PSU中的值。但是如果psu太大，那么在整群抽樣中會(huì)花費(fèi)很多的錢(qián)。第51頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三Bellhouse對(duì)于抽樣設(shè)計(jì)提供了有效的指引。

方法一：擬定(調(diào)整的R方)與M(規(guī)模)或MSW(群內(nèi)均方)與M之間的一個(gè)關(guān)系模型，并且使用以前研究中的數(shù)據(jù)或者信息來(lái)擬合這個(gè)模型，然后用和M的不同組合來(lái)比較成本。

方法二：做一個(gè)實(shí)驗(yàn)來(lái)收集不同psu規(guī)模的相關(guān)成本和方差。第52頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三......見(jiàn)P155例5.9。啃食馬鈴薯的害蟲(chóng)叫薯蟲(chóng)。Z研究了在不同群規(guī)模條件下對(duì)薯蟲(chóng)數(shù)目的估計(jì)以及發(fā)生的時(shí)間成本。從10片農(nóng)田中的每一片都隨機(jī)抽選了10個(gè)地點(diǎn)。研究人員在每一地點(diǎn)上，都對(duì)鄰近的m株馬鈴薯莖干的所有葉子上的幼蟲(chóng)進(jìn)行目測(cè)。他們考慮了不同的PSU規(guī)模，從每個(gè)地點(diǎn)1株(M=1)到每個(gè)地點(diǎn)5株(M=5)。在某一農(nóng)田中行走時(shí)間都是30分鐘，抽取以及觀測(cè)一株的時(shí)間為10秒。1210...AJBm株植物m株植物m株植物10片農(nóng)田10個(gè)地點(diǎn)觀測(cè)株數(shù)第53頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

對(duì)10片農(nóng)田中每一片農(nóng)田隨機(jī)抽取10個(gè)地點(diǎn)，目測(cè)這些地點(diǎn)周?chē)逯犟R鈴薯植物上幼蟲(chóng)數(shù)目。第一步：計(jì)算每i片田10個(gè)地點(diǎn)的平均幼蟲(chóng)數(shù)目，i∈1,2,...,10。計(jì)算第一株馬鈴薯植物的平均幼蟲(chóng)數(shù)目yi1；計(jì)算第一株和第二株馬鈴薯植物的平均幼蟲(chóng)數(shù)目yi2；...計(jì)算全部五株馬鈴薯植物的平均幼蟲(chóng)數(shù)目yi5；第二步：再消除農(nóng)田的影響：第一株馬鈴薯植物的平均幼蟲(chóng)數(shù)目....全部五株馬鈴薯植物的平均幼蟲(chóng)數(shù)目第54頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

已知在某一農(nóng)田中行走時(shí)間都是30分鐘，抽取以及觀測(cè)一株的時(shí)間為10秒。

表格中第四行計(jì)算：每片田地的抽樣時(shí)間成本=每片農(nóng)田10個(gè)地點(diǎn)行走時(shí)間+每個(gè)地點(diǎn)抽取N株馬鈴薯植物=30+10*N*10/60這里的相對(duì)標(biāo)準(zhǔn)誤=標(biāo)準(zhǔn)誤*1000/觀測(cè)花費(fèi)時(shí)間。在一個(gè)地點(diǎn)額外再多抽取一株的時(shí)間成本相對(duì)于在田地里穿行花費(fèi)的時(shí)間成本是非常小的，并且株數(shù)越多誤差越小。所以研究方案中每個(gè)地點(diǎn)抽取5株的設(shè)計(jì)方案是最有效的。第55頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

設(shè)計(jì)樣本的目的是以最小的費(fèi)用和廣泛調(diào)查不便利情況下得到大部分信息。在這節(jié)中我們集中設(shè)計(jì)一個(gè)群規(guī)模數(shù)M相同的兩階段整群抽樣，當(dāng)費(fèi)用一定時(shí)來(lái)使(5.21)式中的方差最小。如果對(duì)于所有的psus來(lái)說(shuō)，如果和

,可以寫(xiě)為：（二）選擇子樣本的規(guī)模m(5.30)(5.21)第56頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

如果MSW=0，=1，那么在群內(nèi)的所有元素具有相同的群均值。在這種情況下，最好取m=1，每群里檢測(cè)超過(guò)一個(gè)元素，只能浪費(fèi)精力和時(shí)間沒(méi)有增加精度。對(duì)于其他的值，最優(yōu)分配取決于抽樣的psus和ssus的相關(guān)費(fèi)用?？紤]最簡(jiǎn)單的費(fèi)用函數(shù)其中表示每調(diào)查一個(gè)psu的費(fèi)用，表示每調(diào)查一個(gè)ssu的費(fèi)用。(5.31)第57頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

其中，可以從總體方差分析表中得到。但在實(shí)際計(jì)算中，我們用去估計(jì)。當(dāng)N很大時(shí)，接近于1，因此得到

(5.32)由（5.31）式可得：第58頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三59（三）選擇樣本群個(gè)數(shù)n設(shè)計(jì)一個(gè)整群抽樣是一個(gè)迭代過(guò)程：（1）確定一個(gè)需要精度e（2）選擇psu和子樣本的規(guī)模（3）推測(cè)該設(shè)計(jì)方案所獲得的方差（4）設(shè)定滿足精度的n（5）重復(fù)直到調(diào)查花費(fèi)在你的預(yù)算內(nèi)。第59頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三如果群規(guī)模相等，我們忽視psu水平的有限總體修正系數(shù)，即有：一個(gè)近似100（1-a）%的置信區(qū)間為：為了達(dá)到一個(gè)期望的置信區(qū)間的半寬度e,使第60頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三61五、系統(tǒng)抽樣

定義:將總體中的所有元素按一定順序排列，在規(guī)定范圍內(nèi)隨機(jī)抽取一個(gè)元素作為初始單元，然后按事先規(guī)定好的規(guī)則確定其他樣本單元，這種抽樣方法稱為系統(tǒng)抽樣。系統(tǒng)抽樣是一種特殊的且群規(guī)模相等的整群抽樣。第61頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

假設(shè)要抽取規(guī)模為3的樣本，總體中含12個(gè)元素：123456789101112。要抽取系統(tǒng)樣本，就可以在1到4之間隨機(jī)選擇一個(gè)數(shù)。抽取該元素，并在其之后每隔3個(gè)元素再抽取1個(gè)。因此總體包含了了4個(gè)psu(盡管各元素不連續(xù)，但可以看作是群)：{1，5，9}{2，6，10}{3，7，11}{4，8，12}現(xiàn)在從中抽取由1個(gè)psu構(gòu)成的簡(jiǎn)單隨機(jī)樣本即可。第62頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

在包含NM個(gè)元素的總體中，容量為M的系統(tǒng)樣本共有N種可能的選擇。我們僅僅觀測(cè)了包含系統(tǒng)樣本的那個(gè)群的均值：群規(guī)模相等的1階整群抽樣產(chǎn)生了無(wú)偏估計(jì)，即有：對(duì)于一個(gè)簡(jiǎn)單的系統(tǒng)樣本，在N個(gè)群中選取了n=1個(gè)群，于是得到理論方差為(5.33)第63頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

忽略有限總體校正系數(shù)，如果ICC為負(fù)，則系統(tǒng)抽樣比容量為M的SRS更有效。不過(guò)由于n=1，無(wú)法獲得的無(wú)偏估計(jì)。要估計(jì)方差需要對(duì)總體結(jié)構(gòu)有所了解。三種不同總體結(jié)構(gòu)：（1）隨機(jī)次序列表：與SRS相似（2）增序或降序樣本框：比SRS更有效

（3）周期性模式樣本框：比SRS效果差(5.33)第64頁(yè)，講稿共74頁(yè)，2023年5月2日，星期三

隨機(jī)次序列表：總體的排列次序與感興趣的特征無(wú)關(guān)，比如人口抽樣框中名單按姓氏字母排列。預(yù)計(jì)ICC近似0。此時(shí)，SRS與系統(tǒng)抽樣會(huì)產(chǎn)生相同的結(jié)果。增序或降序樣本框：比如財(cái)務(wù)記錄的排列可能是最大金額開(kāi)始、最小金額在最后。這樣的總體被稱為具有正的自相關(guān)性：鄰近的元素比間隔遠(yuǎn)的元素更為類似。有效性：分層抽樣>系統(tǒng)抽樣>SRS。第65頁(yè)，講稿共74頁(yè)，2023年5月2日

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

等概率整群抽樣

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

等概率整群抽樣

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔