第五章不等概抽樣_第1頁
第五章不等概抽樣_第2頁
第五章不等概抽樣_第3頁
第五章不等概抽樣_第4頁
第五章不等概抽樣_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、抽樣調(diào)查課抽樣調(diào)查課-不等概抽樣不等概抽樣單位: 浙江財經(jīng)學院數(shù)統(tǒng)學院課程: 抽樣調(diào)查課教師: 張銳一、不等概抽樣簡介二、放回不等概抽樣三、不放回不等概抽樣目錄目錄一、不等概抽樣簡介一、不等概抽樣簡介1、等概率抽樣回顧2、不等概率抽樣介紹3、不等概抽樣的應用4、不等概率抽樣的優(yōu)點和條件5、放回抽樣和不放回抽樣 迄今為止,我們所討論的兩種抽樣方法簡單隨機抽樣和分層抽樣具有一個共同的特點:總體或層中每個單元入樣的可能性(概率)相等等概率抽樣等概率抽樣(sampling with equal (sampling with equal probabilities)probabilities) 。等概率

2、抽樣的基本出發(fā)點是:將總體或層中每一個單元看作是平等的,不“偏向”也不“疏遠”某些特定的單元如果總體單元的差異不大,這種處理方法既公正又方便。但在許多社會經(jīng)濟活動中并非所有單元的地位都相同或相近,即總體單元相差較大,也即總體方差大,這時等概率抽樣的效果就不一定好。1、等概率抽樣回顧、等概率抽樣回顧 例如,為了估計一個城市的商業(yè)銷售總額,對各商業(yè)網(wǎng)點進行調(diào)查。由于商業(yè)網(wǎng)點的規(guī)模差異極大,個別超大型商場年銷售額可以超過億元,甚至達到十幾億,它們是否景氣對這個城市的商業(yè)銷售總額起著至關重要的作用;而為數(shù)較多的大中型商場與商店年銷售額是在幾十萬到幾千萬之間;至于數(shù)量更多的小型商店與攤位的年銷售額僅數(shù)萬

3、元甚至不到一萬元。在這種情況下,將特大型、大型商場與一般中小型市場或商店平等對待既不公允,又使抽樣推斷結果有較大可能發(fā)生大的偏倚。因此,在調(diào)查中,對大型商場應該處于更重要的位置。 這個例子啟示我們:當總體單元相差較大,用等概率抽樣的方法不合理時,可在抽樣中將總體中每個單元的入樣概率與其規(guī)模大小聯(lián)系起來:“大”單元入樣的概率大,“小”單元入樣的概率小,這就是不等概率抽樣不等概率抽樣(sampling with unequal probabilities)(sampling with unequal probabilities)。 出現(xiàn)總體單元差異特別大時,往往是犧牲“簡單”來提高抽樣效率,一種做

4、法是將總體按規(guī)模分層一種做法是將總體按規(guī)模分層,然后,對較大單元的層取的抽樣比高些,抽樣比可以是100%,而較小單元的層抽樣比定的小些。另一種就是賦予每個單元與其規(guī)模(或輔助變量)成比例的入樣概入樣概率率,這樣,大單元入樣概率大,小概率入樣概率小。2、不等概率抽樣介紹、不等概率抽樣介紹 不等概抽樣中,總體中某類單元比其他單元出現(xiàn)在樣本的機會大,這給人感覺這部分單元對推算影響大,使得推算偏向某一方。例如,大商場抽的多了,會不會造成推算的銷售額偏大呢? 實際上 ,某些單元的入樣概率大,推算時,則賦予它較小的權,反之,入樣概率小,推算時,就賦予它較大的權,這樣就可以使推算結果仍然是公平的。 3、不等

5、概抽樣的應用不等概抽樣的應用1、抽樣單元在總體中所占的地位不一致,如商場等調(diào)查等。2、調(diào)查的總體單元和抽樣總體的單元不一致,比如調(diào)查者希望等概率的調(diào)查一單位職工的家庭情況,但由于有雙職工的情況。因此,將雙職工家庭的一個成員從調(diào)查框中拿掉或按每個職工的家庭成員在該單位的工作人數(shù),然后對每名職工按與人數(shù)成反比的概率進行抽樣。3、改善估計量。4、不等概抽樣的優(yōu)點和條件、不等概抽樣的優(yōu)點和條件 優(yōu)點:主要是大大提高估計精度,減少抽樣誤差。 條件:必須要有說明每個單元的規(guī)模大小的輔助變量來確定每個單元的入樣規(guī)模。這在抽樣及推算中是必須的。有時比較容易獲得。比如,管理部門在車船登記時,車船名和載重噸位是同

6、時登記的,因此,載重噸位作為輔助變量,計算入樣概率。 不等概率抽樣分為放回與不放回兩種情況,我們最關心也是最重要的情形是抽樣容量n固定時,單元的入樣概率(不放回抽樣)或每次抽樣的概率(放回抽樣)與單元的“大小”嚴格成比例情形。這種情形下的放回抽樣稱為pps抽樣,不放回抽樣稱為 抽樣。l 放回不等概抽樣:每次抽樣過程都是從同一個總體中獨立進行的,因此實施及推算過程相對簡單一些。l 不放回不等概抽樣:在抽取時效率要高些。ps5 5、放回抽樣和不放回抽樣、放回抽樣和不放回抽樣二、二、 放回的不等概率抽樣放回的不等概率抽樣1、多項抽樣2、pps抽樣及實施方法代碼法拉希里法3、 Hansen-Hurwi

7、tz估計量及其性質 多項抽樣多項抽樣既然是不等概率抽樣,那么在抽取之前就應當給總體中每一單元賦予一定的抽取概率。設總體包含N個單元,對其進行放回抽樣,在每次抽樣中,抽到第i個單元的概率為 且 按此規(guī)定,獨立地抽取n次,共抽到n個單元(有可能重復),則稱這種不等概率抽樣為多項抽樣多項抽樣(multinomial sampling)。), 2 , 1, 10(NiZZii, 11NiiZ 若記 為總體中第i單元在n次抽樣中被抽中的次數(shù),顯然對每個i都有: 且 則 是一個隨機向量(r.v.),其聯(lián)合分布為: it,0nti.1ntNii),(21Nttt.,!1212121ntZZZtttnNiit

8、NttNN(6.1) 這正是我們熟悉的多項分布,“多項抽樣”其名正出于此。(6.3) 2 2、 ppspps抽樣及實施方法抽樣及實施方法倘若每個單元有一個數(shù)值度量其大小或規(guī)模,諸如職工人數(shù)、工廠產(chǎn)值、商店銷售額等,我們記Mi為第i個單元的“大小”,并記 是總體中所有單元的“大小”之和,則可取:NiiMM100MMZii 此時,每個單元在每次抽樣中的入樣概率與單元的大小成正比例,稱這種特殊的多項抽樣為(放回的)與大(放回的)與大小成比例的概率抽樣小成比例的概率抽樣(sampling with probability (sampling with probability proportional

9、to size)proportional to size),簡稱ppspps抽樣抽樣。 多項抽樣是最簡單的不等概率抽樣,它的實施方法通常有兩種,以pps抽樣為例。注意:注意:抽樣是放回的,因此某個單元出現(xiàn)在樣本的次數(shù)有可能多次,在調(diào)查時,只需要調(diào)查一次,這樣節(jié)省經(jīng)費。但在計算的時候,按抽中幾次計算幾次的原則。 它適合于N不太大的情形。假定所有Mi為整數(shù)(若不然也可以乘以一個倍數(shù)M0,使一切Mi= M0Zi成為整數(shù)),對于具有整數(shù)Mi的第i個單元賦予一個與Mi相等的代碼數(shù)。每次抽樣前,先在整數(shù)1,2,M0里面隨機等可能地選取一個整數(shù),設為m,若代碼m屬于第j個單元擁有的代碼數(shù),則第j個單元入樣。

10、這個過程重復n次,得到n個單元入樣(當然存在重復的可能),構成了pps樣本。表表5.1.1 pps抽樣時各單元的代碼數(shù)(設抽樣時各單元的代碼數(shù)(設Mi皆為整數(shù))皆為整數(shù)), 211NiiM011MMMNNii, 111NiiM單元單元i單元大小單元大小Mi代碼數(shù)代碼數(shù)12NM1M2MN1,2, M1M1+1, M1+2, M1+M2 , 例例1 設某個總體有N=10個單元,欲用多項抽樣從中抽取n=5個單元,給定的入樣概Zi如下表所示。iZiMi累計Mi代碼123456789100.080.100.170.060.240.090.050.070.040.108101762495741081835

11、416574798690100189181935364142656674757980868790911001.00M0=100 在1,100范圍內(nèi)產(chǎn)生5個隨機數(shù),設分別為04,73,25,49,82,則第1,第6,第3,第5及第8個單元入樣。如再增加一個樣本單元,產(chǎn)生的隨機數(shù)為58,則又對應第5個單元,這個單元即為抽中兩次。由于單元愈大,被賦予的代碼數(shù)就愈多,因此每個單元入樣的概率與其大小Mi成正比。(2)拉希里)拉希里(Lahiri)法法也稱為二次抽取法也稱為二次抽取法 當N相當大時,累計的 將很大,給代碼法的實施帶來不便。Lahiri提出下列方法:對上述的Mi,令 即所有Mi中的最大值,每

12、次抽取一個1,N范圍內(nèi)的隨機數(shù)i及1,M*范圍內(nèi)的隨機數(shù)m,若 則第i個單元入樣;否則重抽一組(i,m)。NiiMM10*1max,ii NMM ,iMmiZiMi累計Mi代碼123456789100.080.100.170.060.240.090.050.070.040.108101762495741081835416574798690100189181935364142656674757980868790911001.00M0=100 例如,在例1中,N=10,M*=24。設1,10中的一個隨機數(shù)為4,1,24 中的一個隨機數(shù)為9,由于M4=68,故第二個單元入樣。如此重復,直到抽到n個單

13、元(允許重復)為止。 拉希里法適用于N很大的情況,因為它不需要列出如上表這樣的表。 顯然,第i個單元的入樣與否受到m的影響,只有時它才入樣,因此第i個單元入樣的可能性與Mi的大小成正比.事實上:imMP(第i個單元入樣)=(,)iPiMm() (|)iPi P Mmi*1iMN M3 3、漢森、漢森赫維茨赫維茨 (Hansen-Hurwitz)(Hansen-Hurwitz)估計量估計量 若y1,y2,yn是按Zi為入樣概率的多項抽樣而得的樣本數(shù)據(jù),它們相應的Zi值自然地記為小寫的z1,z2,zn,則對總體總和,Hansen-Hurwitz給出了如下估計量:11niHHiiyYnz 以盒子模型

14、來描述,我們的盒子里有N張簽,分別標上 但如何去實施每個單元的不同概率抽取呢?我們適當?shù)貙⒑凶舆M行擴充。具體方法如下:不失一般性,設Zi=Mi / M0,i=1,2,N,其中 且各Mi均為整數(shù)。擴充了的盒子使原盒內(nèi)標有Yi / Zi的一張簽增加到Mi張簽.1212,NNYYYZZZ01,NiiMM11ZY22ZYNNZY01MM02MM0MMN11ZY01M11ZY1M01M22ZY22ZY2MNNZYNNZYNM01M01M01M01M12120121NNNYYYMMMMZZZ12NYYYYE(Y)HH因此, 恰為 的無偏估計。 HHYYHHy 這樣從新盒中隨機地抽取Yi / Zi就相當于原

15、盒中Yi / Zi以Zi=Mi / M0的概率被抽取。因此樣本均值 的期望就相當于新盒子的均值: 由于n次抽取是獨立進行的(放回抽樣的特點),根據(jù)概率論的基本知識, 的方差就等于新盒子的方差的1/n倍,即:HHY21011()NiiiiYMYn MZ211()NiiiiYZYnZVar()HHY因為 為新盒子的方差,利用數(shù)理統(tǒng)計基本知識,樣本方差 為該方差的無偏估計,于是我們得到了 的無偏估計:21()NiiiiYZYZ211()1niHHiiyYnzVar()HHY()HHv Y211()(1)niHHiiyYn nz211Var()niiiynz漢森漢森赫維茨赫維茨 (Hansen-Hur

16、witz)估計量(總量估計)估計量(總量估計)11niHHiiyYnzVar()HHY211()NiiiiYZYnZ()HHv Y211()(1)niHHiiyYn nz22010()(1)niHHiiMyYn nmM例子例子 某部門要了解所屬8500家生產(chǎn)企業(yè)當月完成的利潤,該部門手頭已有一份上年各企業(yè)完成產(chǎn)量的報告,將其匯總得到所屬企業(yè)上年完成的產(chǎn)量為3676萬噸。考慮時間緊,準備采用抽樣調(diào)查來推算當月完成的利潤。根據(jù)經(jīng)驗,企業(yè)的產(chǎn)量和利潤相關性很強,且企業(yè)的特點是規(guī)模和管理水平的差異比較大,通常大企業(yè)的管理水平較高,因此采用與上年產(chǎn)量成比例的pps抽樣,從所屬企業(yè)中抽出一個樣本量為30的

17、樣本,調(diào)查結果如下表: 請根據(jù)以上調(diào)查結果估計該部門所屬企業(yè)的當月完成利潤。并給出95%的置信度下的相對誤差。如果相同條件下相對誤差達到20%,所需的樣本容量應該是多少?1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.009

18、40269.9784298.8199218*21.00640276.20510iiMiy解:解:,所以,由上述條件知3676M300n8 . 53031700514)MYM() 1(M)Y() 1(1)Y(20HH122HH1HH0niiiniiiynnzynnv757087MM1Y101HHniiiniiiynzyn174118)Y()Y(HHHHvs補充:在實際工作中,可以依照過去對同類問題的經(jīng)驗調(diào)查來估計,比如,對同類問題已經(jīng)獲得過一個樣本量為n_o的簡單樣本,并且已知在一定置信度下,該調(diào)查對總體均值或總量的估計的相對誤差為r_o,在同樣置信度下,如果希望本次調(diào)查的相對誤差達到r,則在抽樣比可以忽略的的情況下,可以近似的計算本次調(diào)查所需的樣本量:0220nrrn %45Y)Y(96. 1HHH

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論