MRAF-C10 抽樣估計與樣本量確定

上傳人：g*** IP屬地：山西上傳時間：2022-08-01 格式：PPT 頁數(shù)：65 大?。?.28MB 積分：40 舉報 版權(quán)申訴

已閱讀5頁，還剩60頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第10章抽樣估計與樣本量確定 1七、抽樣誤差調(diào)查結(jié)果的準(zhǔn)確性無疑是調(diào)查組織者十分重視的問題。其準(zhǔn)確性通常用抽樣誤差的高低來反映，在抽樣方式和總體既定的前提下，抽樣誤差的大小主要取決于抽樣數(shù)目的多少。對抽樣誤差的控制主要是通過控制抽樣數(shù)目來實(shí)現(xiàn)的。因此，抽樣誤差與抽樣數(shù)目的確定，是隨機(jī)抽樣市場調(diào)查中兩個重要的問題。2（一）抽樣誤差的估算方法1.抽樣誤差大小的影響因素（1）總體各單位之間的差異程度?？傮w變量存在變異是客觀的，差異程度愈大，其分布就愈分散，抽樣誤差就愈大；反之，愈小。這種差異程度，在統(tǒng)計上叫做標(biāo)志變異度，通常用方差或標(biāo)準(zhǔn)差來表示。（2）樣本數(shù)目，即樣本容量有多少。當(dāng)樣本容量達(dá)到與總

2、體容量一樣時，抽樣調(diào)查就變成全面市場調(diào)查了，抽樣誤差隨即消失。（3）抽樣方式。一般地說，等距隨機(jī)抽樣和分層隨機(jī)抽樣的抽樣誤差要小于簡單隨機(jī)抽樣和分群隨機(jī)抽樣的誤差。不重復(fù)抽樣的誤差要小于重復(fù)抽樣的誤差。因此，要根據(jù)不同的抽樣方式分別估算抽樣誤差。3456樣本量的確定（二）必要抽樣數(shù)目的確定抽樣數(shù)目過多，使得抽樣調(diào)查所需成本費(fèi)用提高，從而帶來不經(jīng)濟(jì)；抽樣數(shù)目過少，又會使調(diào)查結(jié)果存在較大誤差，達(dá)不到要求的精度。所謂必要抽樣數(shù)目，就是在事先給定的抽樣誤差范圍內(nèi)所確定的、能夠達(dá)到對調(diào)查結(jié)果精確度要求的樣本單位數(shù)。7樣本量的確定1.影響合理的必要抽樣數(shù)目的因素（1）總體各單位之間的標(biāo)志差異程度?？傮w單位

3、之間的差異越小，一定數(shù)目的總體單位對總體的代表性就越高。當(dāng)總體單位的標(biāo)志值都相等時，一個總體單位的標(biāo)志值就足以代表總體的平均水平。（2）允許誤差的大小。一般來說，調(diào)查的準(zhǔn)確度要求高、調(diào)查力強(qiáng)、調(diào)查經(jīng)費(fèi)充足，允許誤差就可以定得小一些。（3）不同的抽樣方式和方法。一般情況下，簡單隨機(jī)抽樣和分群隨機(jī)抽樣比等距隨機(jī)抽樣和分層隨機(jī)抽樣所需的樣本單位數(shù)要多，重復(fù)抽樣比不重復(fù)抽樣的樣本單位數(shù)要多。89101112131415總體參數(shù)的點(diǎn)估計點(diǎn)估計就是用樣本的估計量直接作為總體參數(shù)的估計值。例如，用樣本均值直接作為總體均值的估計，或者用兩個樣本均值之差直接作為總體均值之差的估計。點(diǎn)估計是容易做到的，但是，點(diǎn)估

4、計沒有給出估計值接近總體參數(shù)程度的信息。當(dāng)樣本均值與總體均值不完全相同時，樣本均值與實(shí)際總體均值就存在著差距，形成抽樣誤差。16總體參數(shù)的區(qū)間估計區(qū)間估計：在點(diǎn)估計的基礎(chǔ)上，對總體參數(shù)的區(qū)間或范圍進(jìn)行估計。區(qū)間估計不僅要說明區(qū)間大小，還要說明點(diǎn)估計值在區(qū)間內(nèi)的概率，即置信度。置信度是一個百分比，用來說明結(jié)果正確的長期概率。被估計的區(qū)間則被稱為置信區(qū)間。根據(jù)樣本統(tǒng)計量的抽樣分布理論，總體參數(shù)的區(qū)間范圍是在一定的概率度下，由樣本統(tǒng)計量加減抽樣誤差而得到。17訓(xùn)練題（P237238）4.假設(shè)某快餐館想要為一個新的菜單項目估計平均銷售量，這個餐館觀察了一個類似地點(diǎn)的銷量，連續(xù)觀測到如下結(jié)果：樣本容量為

5、25，樣本標(biāo)準(zhǔn)差為100，每日平均銷售量為500。試估計這個餐館啟用新菜單后每天在95%的時間內(nèi)銷售量的范圍。18訓(xùn)練題5.一家電器連鎖商店正在進(jìn)行空調(diào)的季節(jié)性降價促銷。被抽取的10個樣本商店銷售出的空調(diào)數(shù)量如下（單位：臺）：82，113，2，41，71，83，99，52，84，30。那么，根據(jù)這些數(shù)據(jù)能否說明這次促銷期間每家商店平均銷售空調(diào)數(shù)量多于50臺（95%）？19訓(xùn)練題6.假設(shè)你正計劃對某市養(yǎng)狗的家庭進(jìn)行抽樣，以確定他們每月購買的狗食的平均數(shù)量。已經(jīng)制定了下面的標(biāo)準(zhǔn)：95%的置信度，小于5個單位的誤差。以前的調(diào)研說明了標(biāo)準(zhǔn)差應(yīng)該是6個單位。那么，該項調(diào)查需要多大的樣本容量？20訓(xùn)練題7

6、.在一項涉及400人的調(diào)查中，60%的人都對一個問題持積極態(tài)度。試在95%的置信度下確定比例的區(qū)間估計。8.在一個全國性的調(diào)查中，調(diào)研人員期望總體中有30%的人將會同意某個態(tài)度陳述，要求誤差小于2個百分點(diǎn)，并且具有95%的把握性，那么，需要多大的樣本容量？假設(shè)調(diào)查總體為12000人，事先預(yù)計調(diào)查的回答率約為55%，那么，樣本容量又應(yīng)該為多少？2122開篇案例“百腦匯”調(diào)研中的樣本計劃問題 “百腦匯”在中國華北幾個省市經(jīng)營連鎖電腦超市，它希望獲得更多關(guān)于其現(xiàn)有客戶特點(diǎn)方面的信息。接受調(diào)研委托的李文博士指派班上的王洪同學(xué)為樣本計劃小組的負(fù)責(zé)人。通過與“百腦匯”的市場部經(jīng)理喬蘭的初次會談，王洪了解到

7、調(diào)研的一個主要目的是分別按人口和心理因素來估計“百腦匯”的客戶構(gòu)成和比例。此外，確認(rèn)總體估計值不超過實(shí)際值的50，可靠度為95。為了達(dá)到這些要求，王洪和他的小組正努力尋找計算所需樣本容量的方法。23101 引言估計就是根據(jù)從樣本中收集的信息對總體未知量進(jìn)行推斷的過程。抽樣估計涉及的重要問題：一個樣本單元的設(shè)計權(quán)數(shù)問題。抽樣估計，包括總體總量、均值和比例以及抽樣誤差的估計。樣本量的確定構(gòu)成抽樣設(shè)計程序的重要步驟和內(nèi)容。同時，樣本量的確定與樣本估計值的精度密不可分。 24102 加權(quán)及權(quán)數(shù)調(diào)整設(shè)計權(quán)數(shù)設(shè)計權(quán)數(shù)是指每個樣本單元所代表的調(diào)查總體的單元數(shù)，它是由抽樣設(shè)計所決定的，通常以wd表示。確定設(shè)

8、計權(quán)數(shù)是估計的第一步。加權(quán)估計設(shè)計權(quán)數(shù)其實(shí)就是樣本單元的入樣概率的倒數(shù)。假如入樣概率是1/10，那么每個入選樣本代表總體中的10個單元，此時設(shè)計權(quán)數(shù)即為10。不同樣本單元的設(shè)計權(quán)數(shù)可能不同，這取決于抽樣設(shè)計。因此，加權(quán)估計應(yīng)區(qū)分等概率抽樣的加權(quán)和不等概率抽樣的加權(quán)。 25等概率抽樣的加權(quán) 當(dāng)每個單元都有相同的入樣概率時，所有樣本單元的設(shè)計權(quán)數(shù)都相同，這種抽樣就是自加權(quán)設(shè)計。SRS抽樣和SYS抽樣都屬于自加權(quán)設(shè)計，比例分層抽樣也是自加權(quán)設(shè)計。另外， PPS等也可以設(shè)計為一個自加權(quán)抽樣。對于自加權(quán)抽樣設(shè)計，如果無需對權(quán)數(shù)調(diào)整，則在計算比例、均值等估計量時可將其忽略，對總值估計也僅需將樣本總值乘上某

9、個倍數(shù)。(例P215)26不等概率抽樣的加權(quán) 自加權(quán)設(shè)計并不總是可行的。如，在使用分層抽樣進(jìn)行一個全國調(diào)查時，可能需要采用紐曼分層。當(dāng)所采用的抽樣設(shè)計不是等概率時，正確地使用設(shè)計權(quán)數(shù)就顯得尤為重要。例102 有關(guān)各層總體數(shù)和樣本數(shù)資料見表10-1。對于這項調(diào)查，被調(diào)查者的設(shè)計權(quán)數(shù)是多少呢？收入層次各層單位數(shù)樣本數(shù)量設(shè)計權(quán)數(shù)高收入層200033.3wd,1N1/n1=2000/33.3=60.1 中收入層12000133.3wd,2N2/n2=12000/133.3=90.0 低收入層600033.3wd,3N3/n3=6000/33.3=180.2 27設(shè)計權(quán)數(shù)的調(diào)整上述等概率抽樣的加權(quán)和不

10、等概率抽樣的加權(quán)都是加權(quán)的基本形式。權(quán)數(shù)估計常會遇到更真實(shí)和復(fù)雜的情況：考慮無回答的情況，然后對權(quán)數(shù)做出調(diào)整；考慮來自其他渠道的、更具權(quán)威性的某些輔助信息，將它們合并到權(quán)數(shù)中。 28對無回答的權(quán)數(shù)調(diào)整單元無回答是指一個樣本單元幾乎所有的數(shù)據(jù)都缺失。簡單的處理辦法是忽略它。然而，如果發(fā)現(xiàn)忽略單元無回答是不適當(dāng)?shù)?，則應(yīng)該對權(quán)數(shù)進(jìn)行調(diào)整。即，設(shè)計權(quán)數(shù)無回答調(diào)整因子=無回答的調(diào)整權(quán)數(shù)無回答調(diào)整因子是原樣本單元的權(quán)數(shù)和與給出回答的單元的權(quán)數(shù)和的比值。對于自加權(quán)設(shè)計，該比值可用原樣本的單元數(shù)與給出回答的單元數(shù)的比值來表示。無回答權(quán)數(shù)調(diào)整應(yīng)區(qū)分兩種不同情況：等概率抽樣不等概率抽樣29對無回答的權(quán)數(shù)調(diào)整(S

11、RS) 例103 從一個N=100人的總體中抽取一個n25人的簡單隨機(jī)樣本。記回答單元的數(shù)量為nr，結(jié)果顯示只有20個人提供了所需的信息。那么，此時無回答的調(diào)整權(quán)數(shù)是多少？步驟1：計算設(shè)計權(quán)數(shù)。入樣概率p為：P=n/N=25/100=1/4 故，每個樣本單元的設(shè)計權(quán)數(shù)為4。步驟2：計算無回答調(diào)整因子。由于在n25人中只有nr=20人提供了所需的信息，最終樣本量應(yīng)為20。假定回答單元不僅能代表回答單元且能代表無回答單元，計算無回答調(diào)整因子為： n / nr = 25/20 = 1.25步驟3：計算無回答的調(diào)整權(quán)數(shù)。無回答的調(diào)整權(quán)數(shù)wnr等于設(shè)計權(quán)數(shù)與無回答調(diào)整因子的乘積： 30對無回答的

12、權(quán)數(shù)調(diào)整(STR) 例104 對于一項公共交通系統(tǒng)調(diào)查，總體由1100人組成，并按城鄉(xiāng)分為兩個層。分層及樣本數(shù)據(jù)如表10-2所示。那么，回答者的權(quán)數(shù)是多少？表10-2 公交系統(tǒng)調(diào)查的分層數(shù)據(jù)層總體大小樣本量回答者數(shù)量城市N11000n1200nr,1150農(nóng)村N2100n250nr,240步驟1：各層的設(shè)計權(quán)數(shù)為：城市層 wd,1N1/n1=5 農(nóng)村層 wd,2N2/n2=2步驟2：調(diào)整以彌補(bǔ)無回答。各層的無回答調(diào)整因子計算如下：城市層：n1 / nr,1=200/150=1.33 農(nóng)村層：n2 / nr,2=50/40=1.25步驟3：無回答的調(diào)整權(quán)數(shù)等于設(shè)計權(quán)數(shù)與無回答調(diào)整因子的乘積：

13、城市層：農(nóng)村層： 31使用輔助信息調(diào)整權(quán)數(shù) 為什么要使用輔助信息來調(diào)整權(quán)數(shù)呢？首先，使調(diào)查的估計值與已知總體總值相匹配。例如，使用最新的人口普查數(shù)據(jù)來調(diào)整估計值，以確保這些估計值(如年齡、性別分布等)的一致性。二是為了提高估計值的精度。將輔助信息與抽樣設(shè)計相結(jié)合，將有助于提高估計的精度。要想在調(diào)查設(shè)計階段使用輔助信息，抽樣框中的所有單元都必須具備這個輔助信息。否則，就只能在數(shù)據(jù)收集上來后，在估計階段利用輔助信息提高估計值的精度。 32使用輔助信息調(diào)整權(quán)數(shù) 例105 為得到某公司職員是否有吸煙習(xí)慣的信息，進(jìn)行了一項調(diào)查。從N=780人的名錄中抽出了一個n=100人的簡單隨機(jī)樣本。在收集有關(guān)吸

14、煙習(xí)慣信息時，收集了每個回答者的年齡和性別情況，且100人都做出了回答，由此得到樣本數(shù)據(jù)的分布如表10-3所示：事后分層估計值男性女性總計吸煙人數(shù) 164 47 211 總?cè)藬?shù) 360 420 780 吸煙者比例 0.455 0.111 0.271回答者數(shù)量男性女性總計吸煙人數(shù)25530總?cè)藬?shù)5545100 (nr)調(diào)查的估計值男性女性總計吸煙人數(shù)19539234總?cè)藬?shù)429351780吸煙者的比例0.4550.1110.30表10-5 利用輔助信息對抽樣調(diào)查估計值的調(diào)整表10-3 某公司吸煙習(xí)慣抽樣調(diào)查數(shù)據(jù)表10-4 根據(jù)某公司吸煙習(xí)慣抽樣計算的估計值33103 抽樣分布與抽樣誤

15、差抽樣調(diào)查的目的是要對總體做出推斷。了解統(tǒng)計推斷的理論基礎(chǔ)，首先注意區(qū)分三種不同性質(zhì)的分布：總體分布樣本分布抽樣分布同時，特別注意總體分布與抽樣分布的關(guān)系。34三種不同性質(zhì)的分布總體分布：總體各單位的觀察值所形成的頻數(shù)分布，總體分布通常是未知的。樣本分布：一個樣本中各個觀察值所形成的頻數(shù)分布就叫做。當(dāng)樣本容量n逐漸增大時，樣本分布逐漸接近總體的分布。抽樣分布：樣本統(tǒng)計量的抽樣分布，是指在重復(fù)選取容量為n的樣本時，由該統(tǒng)計量的所有可能取值形成的相對頻數(shù)分布。抽樣分布是一種理論分布。抽樣分布提供了樣本統(tǒng)計量長遠(yuǎn)而穩(wěn)定的信息，是進(jìn)行推斷的理論基礎(chǔ)。分布類型均值比例標(biāo)準(zhǔn)差總體分布樣本分布抽樣分布

16、X P S表10-6 各種分布的均值、比例和標(biāo)準(zhǔn)差的符號表示 35樣本均值的抽樣分布樣本均值的抽樣分布，是指在重復(fù)選取容量為n的樣本時，由樣本均值的所有可能取值形成的相對頻數(shù)分布。例106設(shè)一個總體，含有4個元素，即總體單位數(shù)N =4。4個個體分別為x1=1, x2=2, x3=3, x4=4。則總體分布如圖10-1?，F(xiàn)在從總體中有放回地抽取n2的簡單隨機(jī)樣本，則樣本均值的抽樣分布如圖10-2。 36均值抽樣分布的規(guī)律比較樣本均值的分布與總體分布，得出如下結(jié)論：(1)樣本均值的數(shù)學(xué)期望等于總體均值，即E( )=。(2)在重復(fù)抽樣條件下，樣本均值的方差等于總體方差的1/n，或者說，樣本均值的標(biāo)

17、準(zhǔn)誤。(3)如果總體服從正態(tài)分布，即xN(,2)，那么樣本均值也服從正態(tài)分布，即 N(,2/n)。(4)如果總體不服從正態(tài)分布，那么當(dāng)樣本量足夠大時，樣本均值也服從正態(tài)分布。中心極限定理，概括為：設(shè)從均值為、方差為 2的一個任意總體中隨機(jī)抽取容量為n的樣本，當(dāng)n足夠大(n 30)時，樣本均值的抽樣分布近似服從均值為、方差為2/n的正態(tài)分布。 37樣本比例的抽樣分布樣本比例的抽樣分布，是在重復(fù)抽取容量為n的樣本時，由樣本比例的所有可能取值形成的相對頻數(shù)分布。比較樣本比例的分布與總體分布，得出如下結(jié)論：當(dāng)樣本容量足夠大時，樣本比例的抽樣分布近似地服從正態(tài)分布，樣本比例的數(shù)學(xué)期望等于總體比例，即

18、E(p)=；在重復(fù)抽樣條件下，樣本比例的方差為總體方差的1/n，即樣本比例的中心極限定理設(shè)從比例為、方差為 2的一個任意總體中隨機(jī)抽取容量為n的樣本，當(dāng)n足夠大(n 30)時，樣本比例的抽樣分布近似服從比例為、方差為(1-)/n的正態(tài)分布。樣本比例的方差：樣本比例的標(biāo)準(zhǔn)誤： 38正態(tài)分布及標(biāo)準(zhǔn)值Z正態(tài)分布有以下幾個重要特征：正態(tài)曲線呈鐘形，曲線下的面積等于1，表明它包括了所有的調(diào)查結(jié)果。在正態(tài)曲線下任意兩個變量值之間的面積，等于在這一范圍內(nèi)隨機(jī)抽取一個觀察對象的概率。例如，任意抽取一個樣本單元，IQ分?jǐn)?shù)落在55-145之間的概率是99.72%，即圖10-3中正態(tài)曲線下55-145之間的面積

19、。所有的正態(tài)分布在平均數(shù)1個標(biāo)準(zhǔn)差之間的面積相同，都占曲線下方面積的6826。這是正態(tài)分布的比例性，為統(tǒng)計推斷提供了基礎(chǔ)。一個正態(tài)分布的特殊性由其平均數(shù)和標(biāo)準(zhǔn)差決定。 39標(biāo)準(zhǔn)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布是一種平均值等于0、標(biāo)準(zhǔn)差等于1的正態(tài)分布(如圖10-4)。研究者可以將任何正態(tài)變量X轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)變量值(標(biāo)準(zhǔn)值)Z。計算方法就是，用將要進(jìn)行轉(zhuǎn)換的值中減去均值，然后再除以標(biāo)準(zhǔn)差。即求出標(biāo)準(zhǔn)值Z之后，就可以查閱正態(tài)分布表(附錄B-2)，得到Z值的標(biāo)準(zhǔn)正態(tài)分布曲線下的面積(概率)。式中，x 變量值；平均數(shù)的假設(shè)或預(yù)期值；變量的標(biāo)準(zhǔn)差。40104 參數(shù)估計參數(shù)估計就是根據(jù)從樣本中收集的信息對總體

20、參數(shù)進(jìn)行推斷的過程。樣本估計量 (如樣本均值、比例等)都是隨機(jī)變量，在具有特定概率(抽樣)分布的樣本之間有所變化。參數(shù)估計就是根據(jù)推斷理論所闡明的抽樣分布與總體分布之間的關(guān)系，由樣本統(tǒng)計量的具體值估計總體參數(shù)(如總體均值、比例和方差等)。參數(shù)估計有兩種估計方法：點(diǎn)估計區(qū)間估計41總體參數(shù)的點(diǎn)估計點(diǎn)估計就是用樣本的估計量直接作為總體參數(shù)的估計值。例如，用樣本均值直接作為總體均值的估計，或者用兩個樣本均值之差直接作為總體均值之差的估計。點(diǎn)估計是容易做到的，但是，點(diǎn)估計沒有給出估計值接近總體參數(shù)程度的信息。當(dāng)樣本均值與總體均值不完全相同時，樣本均值與實(shí)際總體均值就存在著差距，形成抽樣誤差。42總體參

21、數(shù)的區(qū)間估計區(qū)間估計：在點(diǎn)估計的基礎(chǔ)上，對總體參數(shù)的區(qū)間或范圍進(jìn)行估計。區(qū)間估計不僅要說明區(qū)間大小，還要說明點(diǎn)估計值在區(qū)間內(nèi)的概率，即置信度。置信度是一個百分比，用來說明結(jié)果正確的長期概率。被估計的區(qū)間則被稱為置信區(qū)間。根據(jù)樣本統(tǒng)計量的抽樣分布理論，總體參數(shù)的區(qū)間范圍是在一定的概率度下，由樣本統(tǒng)計量加減抽樣誤差而得到。43總體均值的區(qū)間估計在SRS抽樣情況下，樣本統(tǒng)計量的抽樣分布均服從正態(tài)分布?？墒褂谜龖B(tài)分布統(tǒng)計量Z來描述總體均值的區(qū)間估計，將總體均值區(qū)間估計表達(dá)為：= 在上式中，代表一定置信度下的Z值。注意，應(yīng)除以2，以便確定均值的每一邊所包含曲線下區(qū)域的百分比。代表樣本均值的標(biāo)準(zhǔn)誤，

22、當(dāng)未知，用S來估計，樣本均值的標(biāo)準(zhǔn)誤：當(dāng)已知，樣本均值的標(biāo)準(zhǔn)誤的估計公式： 44總體均值的區(qū)間估計t-分布若調(diào)查從總體中隨機(jī)抽取一個很小樣本(n 30)，則樣本均值的抽樣分布服從自由度為(n-1)的t-分布(較正態(tài)分布平坦和分散) 。隨著自由度增大，t分布也逐漸趨于正態(tài)分布。在上述假設(shè)條件下，使用 t 分布統(tǒng)計量(附錄B-3)來估計總體均值的置信區(qū)間。 t分布條件下總體均值置信區(qū)間的估計方法與正態(tài)分布條件下非常類似，只是查t分布表需要考慮自由度為(n-1)。統(tǒng)計量 t(n-1) 總體置信區(qū)間 = 45總體均值的區(qū)間估計例題例107 某銀行收集到由36信用卡用戶組成的隨機(jī)樣本，得到各用戶年齡(

23、周歲)數(shù)據(jù)如下23，35，39，27，36，44；36，42，46，43，31，33，42，53，45，54，47，24，34，28，39，36，44，40，39，49，38，34，48，50，34，39，45，48，45，32。試建立信用卡用戶年齡90%的置信區(qū)間。已知n=36，1- = 90%，Z/2=1.64。根據(jù)樣本數(shù)據(jù)計算得： =39.5，s=7.77 則，信用卡用戶總體平均年齡在90%置信水平下的置信區(qū)間為： =39.51.64 =39.52.12 =（37.38，41.62）結(jié)論是：在90%的置信度下，信用卡用戶的平均年齡為37.3841.62歲。 = 46總體比例的區(qū)間估計總

24、體比例的區(qū)間估計假定總體服從二項分布。二項分布是指重復(fù)進(jìn)行 n 次試驗，出現(xiàn)“成功”的次數(shù)的概率分布?？傮w比例的抽樣分布仍然可以由正態(tài)分布來近似，即適用中心極限定理。使用正態(tài)分布統(tǒng)計量Z來描述總體比例的區(qū)間估計，將總體比例區(qū)間估計表達(dá)如下： = p 在上式中，代表一定置信度下的Z值。注意，應(yīng)除以2，以便確定比例的每一邊所包含曲線下區(qū)域的百分比。代表樣本比例的標(biāo)準(zhǔn)誤，當(dāng)未知，樣本比例的標(biāo)準(zhǔn)誤的估計式：當(dāng)已知，樣本比例的標(biāo)準(zhǔn)誤的估計式： 47總體比例的區(qū)間估計例題例108 某商業(yè)公司想要估計經(jīng)常光顧其大型購物中心中女性所占的比例，隨機(jī)地抽取了400名經(jīng)常性顧客，發(fā)現(xiàn)其中260名為女性。試

25、以95%的置信水平估計經(jīng)常光顧該大型購物中心中女性比例的置信區(qū)間。解：已知 n=400，p65%=0.65， 1- = 95%，Z/2 =1.96 則，總體比例在95%置信水平下的置信區(qū)間為： =0.651.96 =0.650.047 =（0.603，0.697）結(jié)論：在95%的置信度下，經(jīng)常光顧該大型購物中心中女性比例的置信區(qū)間為60.3%69.7%。 = p 48總體方差的區(qū)間估計在重復(fù)選取容量為n的樣本時，由樣本方差的所有可能取值形成的相對頻數(shù)分布，構(gòu)成樣本方差的抽樣分布。對于來自正態(tài)總體的簡單隨機(jī)樣本，則(n-1)倍的樣本方差與總體方差的比值的抽樣分布服從自由度為 (n -1) 的

26、2分布，即2(n -1) 2分布的特性總體方差的區(qū)間估計提供了理論依據(jù)。當(dāng)總體服從正態(tài)分布時，總體方差 2 的點(diǎn)估計量為s2。借助2分布表(附錄B-4)可以查得21-/2和2/2分布曲線下的面積(概率)。然后，可以給出總體方差在1- 置信水平下的區(qū)間估計： 49105 樣本量的確定樣本量的確定問題，首先涉及對總體參數(shù)估計值的精度要求，同時也涉及與各種運(yùn)作限制(如可獲得的預(yù)算、資源和時間)之間的平衡問題。理論上，總體參數(shù)估計的精度取決于抽樣誤差和非抽樣誤差兩類誤差的大小。但是，確定樣本量是為控制抽樣誤差，而不是對非抽樣誤差進(jìn)行控制，進(jìn)而提高對總體估計的精度。50估計精度與樣本量的關(guān)系總體參數(shù)

27、的置信區(qū)間可以描述為：總體參數(shù)=總體參數(shù)的估計值抽樣誤差的范圍顯然，估計精度取決于抽樣誤差大小。假設(shè)用E來定義抽樣誤差范圍，則當(dāng)簡單隨機(jī)選擇一個容量足夠大(n 30)的樣本時，樣本均值的抽樣誤差范圍可以表示為：抽樣誤差的范圍是估計量標(biāo)準(zhǔn)誤的倍數(shù)，乘數(shù)因子取決于在調(diào)查估計中所希望達(dá)到的置信水平。在放回(重復(fù))的SRS抽樣條件下，假設(shè)回答率為100%，則樣本均值的標(biāo)準(zhǔn)誤公式可用來解釋估計精度與樣本量之間的基本關(guān)系：E51估計精度與樣本量無論是重復(fù)抽樣還是不重復(fù)抽樣，抽樣誤差的大小(即估計精度)與樣本量緊密相關(guān)：隨著樣本量的增加，對應(yīng)估計量的抽樣標(biāo)準(zhǔn)差就會不斷減小，調(diào)查估計的精度則會不斷提高。同理，

28、當(dāng)要求不斷提高調(diào)查估計值的精度要求時，所需樣本量也會不斷增加。樣本量要根據(jù)估計所要求的精度來計算和確定。下面的討論分為兩部分：對初始樣本量的確定及考慮復(fù)雜情況的考慮及對初始樣本量的調(diào)整52初始樣本量的確定1給定總體均值估計精度下確定初始樣本量初始樣本量基于以下假定：抽樣采用放回的SRS抽樣，并且調(diào)查回答率為100%。樣本均值的標(biāo)準(zhǔn)誤表示為：抽樣誤差范圍表示為：E 從上式中解得樣本量n：從公式看出，樣本容量n與置信系數(shù)和總體方差成正比，與邊際誤差成反比。為確定樣本量n，需要知道允許的抽樣誤差范圍E、與給定置信水平相對應(yīng)的標(biāo)準(zhǔn)值Z、總體方差估計2。53初始樣本量的確定2給定比例估計精度下確定初

29、始樣本量初始樣本量基于以下假定：抽樣采用放回的SRS抽樣，并且調(diào)查回答率為100%。樣本比例的標(biāo)準(zhǔn)誤表示為：抽樣誤差范圍表示為：E 從上式中解得樣本量n：從公式看出，樣本容量n與置信系數(shù)和總體方差成正比，與邊際誤差成反比。為確定樣本量n，需要知道允許的抽樣誤差范圍E、與給定置信水平相對應(yīng)的標(biāo)準(zhǔn)值Z、總體比例。54對樣本量基本公式的應(yīng)用考慮在確定初始樣本量的公式中，抽樣誤差范圍假定已知。但在實(shí)踐中，如何確定調(diào)查估計的精度水平(抽樣誤差范圍)，卻是一個值得思考的問題。 1多大的抽樣誤差對調(diào)研目標(biāo)而言可以接受常用95的置信度、6的抽樣誤差范圍對客戶的調(diào)查目標(biāo)是否適宜，估計值是否需要更高或者更

30、低的精度？ 2是否需要對調(diào)查總體中的子總體(域)進(jìn)行估計例如，對一項全國性抽樣調(diào)查而言，主辦者可能要求對全國估計的抽樣誤差范圍為3；但是對于省級估計值，抽樣誤差范圍可能確定為5；而對于地市的估計值，10的抽樣誤差范圍就足夠了。55對樣本量基本公式的應(yīng)用考慮3相對于調(diào)查估計值的抽樣誤差應(yīng)該多大為宜例如，政府要決定是否執(zhí)行為某種使用人數(shù)較少的語種提供服務(wù)的新政策，假定做出決定的前提，是至少有5%的人群對這一語種存在需求。在這里，p005就是要確定的最小估計值。相對于該估計值，必須規(guī)定更小的抽樣誤差范圍，如001(即，置信區(qū)間為005001)。 4精度要求的實(shí)際含義是什么隨著樣本量的增加，估計值的精

31、度也將提高。然而，精度的得益并不與樣本量的增加成正比。如表10-10中描述的例子。樣本量抽樣誤差范圍50100500100001386009800043800310表10-10 簡單隨機(jī)抽樣估計比例P的樣本量與抽樣誤差范圍(當(dāng)P=05) 56關(guān)于確定樣本量的現(xiàn)實(shí)復(fù)雜考慮在確定樣本量基本公式之外，又有一些現(xiàn)實(shí)因素影響調(diào)查估計量的精度，進(jìn)而影響樣本量。這些因素主要包括總體指標(biāo)的變異程度總體大小，樣本設(shè)計和所用的估計量以及回答率 57關(guān)于確定樣本量的現(xiàn)實(shí)復(fù)雜考慮1總體的變異程度隨著調(diào)查總體中所研究指標(biāo)的實(shí)際變異程度的增加，樣本量也必須隨之增大，以滿足估計的精度要求。為確保達(dá)到調(diào)查要求的精度，在計算

32、樣本量時，建議對某一指標(biāo)的總體變異程度采取保守估計，即假定研究指標(biāo)具有最大的變異程度。例如，對于二元變量，應(yīng)該假定總體中該變量的變異程度為50-50對半平分，即假定p=05。為確保樣本量對所有的研究指標(biāo)都足夠大，應(yīng)該根據(jù)最大變異程度或被認(rèn)為最重要的指標(biāo)來確定樣本量。58關(guān)于確定樣本量的現(xiàn)實(shí)復(fù)雜考慮2總體大小在基本公式中，樣本量的確定似乎與總體大小沒有關(guān)系。因為當(dāng)時假定在大總體中進(jìn)行有放回的重復(fù)抽樣，抽樣總體的影響被忽略掉了。然而，在調(diào)研實(shí)踐中，總體單元數(shù)量可能是有限的，而且可能采取非重復(fù)抽樣，這時總體大小對樣本容量的影響就應(yīng)該被考慮進(jìn)來了。在樣本不放回的非重復(fù)抽樣條件下樣本均值的標(biāo)準(zhǔn)誤表示為

33、：抽樣誤差范圍表示為：E 從上式中解得樣本量：在樣本不放回的非重復(fù)抽樣條件下樣本比例的標(biāo)準(zhǔn)誤：抽樣誤差范圍表示為：E 從上式中解得樣本量：59關(guān)于確定樣本量的現(xiàn)實(shí)復(fù)雜考慮3樣本設(shè)計和估計量當(dāng)使用復(fù)雜的樣本設(shè)計時，估計值可能比SRS精確。當(dāng)估計值更精確時，稱所采用的樣本設(shè)計更為有效。因此，實(shí)際抽樣時必須考慮實(shí)際所用抽樣設(shè)計的效率，并對初始樣本量做出調(diào)整。即，在SRS抽樣的樣本量計算公式基礎(chǔ)上乘以一個設(shè)計效應(yīng)因子。設(shè)計效應(yīng)(Deff)是指在給定抽樣設(shè)計下估計值的抽樣方差，與相等樣本量下的簡單隨機(jī)抽樣的估計值的抽樣方差之比。設(shè)某一抽樣設(shè)計樣本估計值的方差為，同等樣本量的SRS設(shè)計的樣本估計值的方差為，則抽樣設(shè)計效應(yīng)： Deff = 顯然，對于簡單隨機(jī)抽樣設(shè)計，Deff=1；若Deff1，表明實(shí)際使用的抽樣設(shè)計的效率高于簡單隨機(jī)抽樣；若Deff1，表明實(shí)際使用的抽樣設(shè)計的效率低于簡單隨機(jī)抽樣。特定抽樣設(shè)計所需的樣本量（n1）調(diào)整為：n1=n0Deff 60關(guān)于確定樣本量的現(xiàn)實(shí)復(fù)雜考慮4調(diào)查的回答率調(diào)查回答率是指調(diào)查回收的有效問卷數(shù)占計劃訪問的樣本數(shù)量的百分比。在執(zhí)行抽樣過程中，會出現(xiàn)無效問卷，這意味著計劃樣本量中的一部分無法產(chǎn)生有效數(shù)據(jù)，并導(dǎo)致估計精度的降低。為達(dá)到估計

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

MRAF-C10 抽樣估計與樣本量確定

文檔簡介

溫馨提示

最新文檔

評論

MRAF-C10 抽樣估計與樣本量確定

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔