統(tǒng)計學(xué) 馬敏娜 王靜敏課件第五章 抽樣與參數(shù)估計_第1頁
統(tǒng)計學(xué) 馬敏娜 王靜敏課件第五章 抽樣與參數(shù)估計_第2頁
統(tǒng)計學(xué) 馬敏娜 王靜敏課件第五章 抽樣與參數(shù)估計_第3頁
統(tǒng)計學(xué) 馬敏娜 王靜敏課件第五章 抽樣與參數(shù)估計_第4頁
統(tǒng)計學(xué) 馬敏娜 王靜敏課件第五章 抽樣與參數(shù)估計_第5頁
已閱讀5頁,還剩103頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章

抽樣與參數(shù)估計

學(xué)習(xí)目的了解抽樣分布和抽樣的其它組織方式。

掌握抽樣調(diào)查的基本問題。熟練運用參數(shù)估計方法估計總體參數(shù)。實例引用網(wǎng)絡(luò)時代的市場信息調(diào)查,中國新聞網(wǎng)5月24日有一則消息,CTR市場研究公司,是中國最大的市場資訊及研究分析服務(wù)提供商。其研究服務(wù)涵蓋

品牌營銷和媒介受眾,包括了

12個專業(yè)研究領(lǐng)域,具體包括媒體價值研究、傳播效果評估、數(shù)字化媒體傳播、目標(biāo)人群消費指數(shù)、廣告花費研究、輿情監(jiān)測與公關(guān)評估、消費者指數(shù)、平面媒體閱讀率、利益相關(guān)者滿意度、品牌研究、新產(chǎn)品研究、市場細(xì)分與定位。它對春節(jié)聯(lián)歡晚會的同步電話調(diào)查始于1996年,一直未曾間斷。但其數(shù)據(jù)近年來受到質(zhì)疑。2010年虎年春節(jié),CTR調(diào)查結(jié)果為:“有81.6%的受訪者認(rèn)為本屆春節(jié)聯(lián)歡晚會辦得好”。大年初二,多家媒體援引新浪網(wǎng)“央視春晚觀眾調(diào)查”數(shù)據(jù),直言雙方數(shù)據(jù)大相徑庭。和CTR的同步調(diào)查不同,新浪網(wǎng)的調(diào)查一直持續(xù)到3月1日,在共計115萬張投票中,有近七成認(rèn)為本屆春節(jié)聯(lián)歡晚會不好,只有14.5%的投票認(rèn)為好。與網(wǎng)絡(luò)調(diào)查相比,CTR的同步電話調(diào)查對象只有2290戶,方法是在春節(jié)聯(lián)歡晚會開始后的半小時,一直到晚上11點45分,CTR的執(zhí)行團隊成功訪問了2290個家庭。這些家庭遍布全國182個省會及地級市下轄的406個市轄區(qū)、縣和縣市。這項目調(diào)查使用的抽樣方法是,首先根據(jù)人口分布對全國2000多個縣進(jìn)行概率規(guī)模成比例抽樣,確定了抽樣點,然后把收集和購買的電話號碼匯總起來,形成一個數(shù)據(jù)庫,使電話的前四位可以代表不同的地區(qū),最后隨機生成電話號碼的后四位。到底是哪種結(jié)果更具代表性呢?值得思考。第五章抽樣與參數(shù)估計

第一節(jié)抽樣調(diào)查的基本問題第二節(jié)抽樣分布第三節(jié)參數(shù)估計第四節(jié)抽樣的其它組織方式推斷統(tǒng)計:利用樣本統(tǒng)計量對總體某些性質(zhì)或數(shù)量特征進(jìn)行推斷。隨機原則總體樣本總體參數(shù)統(tǒng)計量參數(shù)估計假設(shè)檢驗第一節(jié)抽樣調(diào)查的基本問題

一、抽樣調(diào)查及其特點(一)抽樣調(diào)查的概念它是按照隨機原則,從研究總體的所有單位中,抽取部分單位作為樣本,然后以樣本的觀測或調(diào)查結(jié)果對總體的數(shù)量特征做出具有一定可靠程度和精度的估計或推斷的一種統(tǒng)計調(diào)查方法。例如:從某地消費者中,通過隨機抽樣抽取若干消費者進(jìn)行消費水平的實測,計算平均消費水平,以此來推斷該地區(qū)的平均消費水平。

1、在調(diào)查單位的選取上遵循隨機原則隨機原則,就是在抽選樣本時排除主觀上有意識地抽選調(diào)查單位,使總體每個單位都有相同的機會被抽中。

2、它以樣本的數(shù)量特征去推斷總體的數(shù)量特征。抽樣調(diào)查不僅具有省時、省力的特性,而且還能認(rèn)識總體的數(shù)量特征。

3、推斷過程中抽樣誤差可以事先計算并加以控制。

(二)抽樣調(diào)查的基本特點1、有些現(xiàn)象無法進(jìn)行全面調(diào)查,但為了測算總體情況,必須進(jìn)行抽樣調(diào)查。2、抽樣調(diào)查的結(jié)果可以對全面調(diào)查的結(jié)果進(jìn)行檢查和修正。3、抽樣調(diào)查可用于生產(chǎn)過程的質(zhì)量控制。(三)抽樣調(diào)查的作用二、抽樣推斷中的基本概念

(一)總體

總體,又稱全及總體或母體,是指所要調(diào)查研究的對象的全體。在抽樣調(diào)查中,總體是唯一確定的。總體內(nèi)包含的單位多少稱為總體單位數(shù),一般用符號N表示。數(shù)量總體被研究的是數(shù)量變量的總體

屬性總體被研究是屬性變量的總體據(jù)被研究變量的性質(zhì)不同

反映總體數(shù)量特征的指標(biāo)為總體指標(biāo)或總體參數(shù)。從理論上說,它由被抽樣總體各單位的變量值或變量特征計算而成的。對于數(shù)量總體,設(shè)某單位的變量值為,總體指標(biāo)有:

總體均值:

總體方差:

總體標(biāo)準(zhǔn)差:

對于屬性總體,設(shè)總體中具有某種屬性特征的單位數(shù)為,其它單位數(shù)為,總體單位數(shù),總體指標(biāo)有:總體比率:總體方差:總體標(biāo)準(zhǔn)差:(二)樣本

樣本,也稱子樣,是指從被調(diào)查的總體中按照隨機原則抽取,并要對其進(jìn)行調(diào)查或觀察的部分單位所組成的集合體。

一個樣本所包含的單位數(shù)稱樣本容量,用符號n表示。從總體中可能抽取的全部樣本數(shù)目稱為可能樣本個數(shù)。對于一個總體,從中所抽取的樣本是隨機的,不是唯一的。

表示樣本數(shù)量特征的指標(biāo)稱為樣本指標(biāo)或樣本統(tǒng)計量,它由樣本各單位的標(biāo)志值或標(biāo)志特征計算而成的。設(shè)是來自總體的樣本,則樣本指標(biāo)有:樣本均值:樣本方差:

未分組分組未分組分組未分組分組樣本標(biāo)準(zhǔn)差:樣本標(biāo)準(zhǔn)差:樣本比率:

樣本方差:

在統(tǒng)計學(xué)中經(jīng)常會遇到“自由度”這個概念,所謂自由度是指不受任何約束,可以自由取值的變量的個數(shù)。例如,有4個變量,它們的和是20,即,這是一個限制條件,此時,有3個變量可以自由取值,由于只有一個限制條件,那么可以自由取值的變量的個數(shù)是4-1=3,即自由度為3。(三)自由度

三、抽樣樣本的方法

根據(jù)樣本單位是否可重復(fù)抽取,分為:(一)重復(fù)抽樣抽取樣本單位的過程:設(shè)從總體N中隨機抽取一個容量為n的樣本,每次從總體中抽取一個樣本單位,連續(xù)進(jìn)行n次抽取,構(gòu)成一個樣本。在對每次抽取的樣本單位觀測后,將該單位重新放回,這樣在下一次的抽樣中該樣本單位仍有可能再次被抽中。(二)不重復(fù)抽樣它從總體N中抽取一個容量為n的樣本,也是由連續(xù)次抽取的結(jié)果構(gòu)成的,但每次抽中的樣本單位,觀測后不再放回總體,因此在下一次抽取樣本單位時不會再抽到前面已抽中過的樣本單位。四、抽樣推斷的理論基礎(chǔ)大數(shù)定律證明:隨著樣本容量的增加,樣本均值接近于總體均值的趨勢,幾乎是具有實際必然性。中心極限定理:如果總體變量存在有限的平均數(shù)和方差,那么,不論這個總體的分布如何,隨著樣本容量的增加,樣本均值的分布便趨近正態(tài)分布。在樣本容量充分大的條件下,樣本均值也趨近于正態(tài)分布,這為抽樣誤差的概率估計提供了理論基礎(chǔ)。第二節(jié)抽樣分布

一、抽樣分布的概念

抽樣分布是指樣本統(tǒng)計量的概率分布。從同一個總體中,抽取樣本容量相同的所有可能樣本后,計算每一個樣本統(tǒng)計量的取值和相應(yīng)的概率,就組成樣本統(tǒng)計量的概率分布,簡稱抽樣分布。二﹑簡單隨機樣本

如果總體中每個個體被抽到的機會是均等的,并且在每次抽取一個個體之后總體的成分不改變,這樣抽取出的個體所構(gòu)成的樣本就能很好地反映總體的情況,基于這種想法抽取的樣本,稱為簡單隨機樣本。

當(dāng)總體為有限總體時,那么抽樣就要用重復(fù)抽樣;當(dāng)總體為無限總體時,可以用不重復(fù)抽樣。

簡單隨機抽樣也稱純隨機抽樣。它是直接從總體的個單位中完全隨機地抽取每個單位并使總體中的每一個單位都有同等被抽中的概率的抽樣組織形式。

特點:在理論上最符合隨機原則,簡單隨機抽樣保證總體中各個單位被抽中的機會是相等的,均為。是設(shè)計其他抽樣組織方式的基礎(chǔ)。是衡量其他抽樣效果的標(biāo)準(zhǔn)。三、簡單隨機抽樣的概念及特點抽樣設(shè)計效果指標(biāo)

若值大于等于1,即其他抽樣形式的抽樣方差大于等于簡單隨機抽樣的抽樣方差,則抽樣估計效果較差;四、常用統(tǒng)計量的抽樣分布

(一)樣本均值的抽樣分布

1、重復(fù)抽樣的抽樣分布例4-1某次調(diào)查中4個被調(diào)查者的月消費額分別為400元、500元、700元、800元。設(shè)4個被調(diào)查者構(gòu)成總體,則:總體均值

(元)總體方差

總體標(biāo)準(zhǔn)差

用重復(fù)抽樣的方法,從4人中隨機抽個構(gòu)成樣本,共16個有個可能的樣本。各樣本的月平均消費如表:樣本變量400500700800400500700800400450550600450500600650550600700750600650750800可以整理出樣本均值的抽樣分布樣本均值的抽樣分布2000009600116合計40000450001000050000500010000450004000040090050011002400130070015008001/162/161/162/164/162/161/162/161/16121242121400450500550600650700750800頻率f頻數(shù)樣本的月平均消費(元)樣本均值抽樣分布的均值:

樣本均值抽樣分布的方差:樣本均值抽樣分布的標(biāo)準(zhǔn)差為:

可見,樣本均值抽樣分布的均值等于總體的均值,即

雖然每個樣本均值的取值可能與總體均值不同,有一定離差,但從總體來看,所有樣本均值平均說來和總體均值是相同的,不再存在離差。抽樣分布的方差抽樣分布的標(biāo)準(zhǔn)差2、不重復(fù)抽樣的抽樣分布

仍以上例為例,某次調(diào)查中4個被調(diào)查者的月消費為400元、500元、700元、800元。設(shè)4個被調(diào)查者構(gòu)成總體,則:總體均值(元)總體方差

總體標(biāo)準(zhǔn)差

采用不重復(fù)抽樣的方法,從4人中隨機抽個構(gòu)成樣本,共有4×3=12個可能的樣本。----450550600450----600650550600----750600650750----400500700800400500700800樣本變量1000007200112合計450005000050004500090011002400130015002/122/124/122/122/1222422450550600650750頻率f頻數(shù)樣本的月平均消費樣本均值的抽樣分布樣本均值抽樣分布的均值:

樣本均值抽樣分布的方差:樣本均值抽樣分布的標(biāo)準(zhǔn)差為:

可見,樣本均值抽樣分布的均值等于總體的均值,即

不重復(fù)抽樣條件下,樣本均值的分布仍具有兩個重要性質(zhì):(1)樣本均值的抽樣分布的均值等于總體的均值(2)樣本均值的抽樣分布的方差等于重復(fù)抽樣的樣本均值抽樣分布的方差乘以修正因子抽樣分布的標(biāo)準(zhǔn)差抽樣總體樣本比率X,(N)比率P=Ni/Nx,(n)

所有可能的樣本的比率()所形成的分布,稱為樣本比率的抽樣分布。(二)樣本比率的抽樣分布抽樣方法均值 方差 標(biāo)準(zhǔn)差 重復(fù)抽樣不重復(fù)抽樣

根據(jù)中心極限定理,只要樣本足夠大,的分布就近似正態(tài)分布。(np和nq大于5時)抽樣誤差抽樣誤差樣本比率分布的均值和方差(三)兩個總體樣本均值之差的抽樣分布抽樣總體樣本X1,(N1)x1,(n1)抽樣總體樣本X2,(N2)x2,(n2)估計(1)如:(2〕如果兩個總體都是非正態(tài)總體,只要n1、n2足夠大,根據(jù)中心極限定理,可知:(四)兩個樣本比率之差的抽樣分布抽樣總體樣本X1,(N1)x1,(n1)抽樣總體樣本X2,(N2)x2,(n2)估計

當(dāng)n1、n2都足夠大時,樣本比率都近似服從正態(tài)分布,兩個樣本比率之差()也近似服從正態(tài)分布。P1-P2=?

第三節(jié)參數(shù)估計

一、參數(shù)估計的基本概念(一)估計量在實際問題中,經(jīng)常需要我們構(gòu)造適當(dāng)?shù)慕y(tǒng)計量去對總體分布中所含的未知參數(shù)(如均值﹑方差﹑比率等)的數(shù)值做出估計。這時用來估計總體參數(shù)的統(tǒng)計量稱為估計量,它也是一個隨機變量。估計量的具體數(shù)值稱為估計值。(二)抽樣誤差

抽樣誤差是由于抽樣的隨機性而造成樣本指標(biāo)和總體指標(biāo)之間的誤差,這種誤差是抽樣調(diào)查所固有的、不可避免的,也叫隨機誤差。

抽樣誤差有實際誤差和平均誤差兩種。實際誤差是指某一次抽樣結(jié)果所得到的樣本指標(biāo)和總體指標(biāo)之間的誤差。但由于總體指標(biāo)未知,因而無法計算。樣本容量抽樣方法總體標(biāo)志變動度抽樣組織形式抽樣誤差的影響因素(三)抽樣極限誤差

抽樣極限誤差又稱允許誤差,是指樣本指標(biāo)和總體指標(biāo)之間抽樣誤差的可能范圍。由于總體指標(biāo)是一個確定的數(shù),而樣本指標(biāo)則圍繞總體指標(biāo)左右變動,它與總體指標(biāo)可能產(chǎn)生正離差,也可能產(chǎn)生負(fù)離差,樣本指標(biāo)變動的上限或下限與總體指標(biāo)之差的絕對值就可以表示抽樣誤差的可能范圍,我們將這種以絕對值形式表示的抽樣誤差可能范圍稱為抽樣極限誤差。則,

二﹑估計量的優(yōu)良標(biāo)準(zhǔn)的數(shù)學(xué)期望等于總體參數(shù),即該估計量稱為無偏估計。無偏性有效性當(dāng)為的無偏估計時,方差越小,無偏估計越有效。一致性對于無限總體,如果對任意則稱的一致估計。是估計量三、參數(shù)估計方法點估計以樣本指標(biāo)直接估計總體參數(shù)。區(qū)間估計估計未知參數(shù)所在的可能的區(qū)間。

點估計的優(yōu)點在于它能夠明確地估計總體參數(shù),但一般該值不會等于總體參數(shù)的真值,它與真值的誤差﹑估計的可靠性怎樣,我們無法知道,而區(qū)間估計則可彌補這種不足之處。

區(qū)間估計評價準(zhǔn)則隨機區(qū)間置信度精確度隨機區(qū)間包含(即可靠程度)越大越好。的概率的平均長度(誤差范圍)越小越好一般形式或總體參數(shù)估計值誤差范圍△:一定倍數(shù)的抽樣誤差例如:抽樣誤差一定時,越大,概率(可靠性)大;隨之增大,精確度就差。四、區(qū)間估計的基本原理

區(qū)間估計步驟:1.選擇含有待估參數(shù)的一個適當(dāng)?shù)慕y(tǒng)計量,并指出該統(tǒng)計量所服從的分布。2.對于給定的置信水平查該統(tǒng)計量所服從的分布表確定出臨界值,使該統(tǒng)計量取以臨界值為范圍內(nèi)的值的概率為3.對第2步經(jīng)過不等式變形可得所求參數(shù)的置信區(qū)間公式。4.將有關(guān)數(shù)值代入置信區(qū)間公式,即可求出所求參數(shù)的一個置信區(qū)間。簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間正態(tài)總體,σ2已知正態(tài)總體,σ2未知非正態(tài)總體,n≥30σ未知時,用S有限總體,n≥30(不重復(fù))總體均值(μ)σ未知時,用S五、一個總體參數(shù)的區(qū)間估計(一)總體均值的區(qū)間估計1、正態(tài)總體、方差已知,或非正態(tài)總體(大樣本)

例5-2從保險公司自投保人中隨機抽取36人,計算出此36人的平均年齡為39.5歲,已知投保人年齡分布近似正態(tài)分布,標(biāo)準(zhǔn)差為7.2歲,試求所有投保人平均年齡置信水平為99%的置信區(qū)間?

于是,我們有99%的把握保證投保人平均年齡在36.41~42.59歲之間。(1)當(dāng)總體方差σ2已知,求μ的置信區(qū)間例5-3某金融機構(gòu)共有8042張應(yīng)收賬款單,根據(jù)過去記錄,所有應(yīng)收賬款的標(biāo)準(zhǔn)差為3033.4元,現(xiàn)隨機抽查了250張應(yīng)收賬單,得平均應(yīng)收金額為3319元,求全部應(yīng)收賬單的平均應(yīng)收金額的置信水平為98%的置信區(qū)間。

于是,我們有98%的把握認(rèn)為全部應(yīng)收賬單的平均應(yīng)收金額在2871.99~3766元之間。(2)當(dāng)總體方差σ2未知,求μ的置信區(qū)間例5-4某廣播電臺要估計某市65歲以上的已退休的人中一天時間里收聽廣播的時間,隨機抽取了一個容量為200的樣本,得到樣本均值為110分鐘,樣本標(biāo)準(zhǔn)差為30分鐘,假定收聽廣播的時間近似服從正態(tài)分布,試估計總體均值的置信水平為95%的置信區(qū)間。于是,我們有95%的把握認(rèn)為該市65歲以上已退休的人每天收聽廣播的時間在107.24~112.76分鐘之間。2、正態(tài)總體、方差未知、小樣本時求的置信區(qū)間例5-5為了估計一分鐘一次廣告的平均費用,抽出了15個電視臺的樣本。樣本均值為2000元,標(biāo)準(zhǔn)差為1000元。假定所有的這類電視臺的廣告費用近似服從正態(tài)分布,試求電視臺一分鐘一次廣告平均費用的置信水平為95%的置信區(qū)間。μ

于是,我們有95%的把握保證電視臺一分鐘一次廣告平均費用在1446.2~2553.8元之間。

(二)一個總體比率的區(qū)間估計簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間無限總體,np和nq都大于5總體比率(p)有限總體,np和nq都大于5例5-6某電視臺想了解每日“晚間新間”欄目的收視率,隨機抽取了400人進(jìn)行調(diào)查,結(jié)果表明有71.2%的人觀看此節(jié)目。試估計該欄目收視率具有90%的可靠性的置信區(qū)間。

于是,有90%的把握認(rèn)為該欄目收視率在67.48%~74.92%之間。六、兩個總體參數(shù)的區(qū)間估計

(一)兩個總體均值之差的區(qū)間估計待估計參數(shù)已知條件置信區(qū)間兩個正態(tài)總體已知兩個正態(tài)總體未知但相等兩個非正態(tài)總體,n1,n2≥30兩個總體均值之差μ1-μ21.當(dāng)兩個總體方差和已知時,求均值之差的置信區(qū)間。例5-7為調(diào)查兩家銀行的戶均存款數(shù),從兩家銀行各抽選一個由25個儲戶組成的隨機樣本。兩個樣本均值分別為4500元和3250元,兩個總體標(biāo)準(zhǔn)差分別為920元和960元。根據(jù)經(jīng)驗知道兩個總體均服從正態(tài)分布,試求兩家銀行的戶均存款額之差的置信水平為90%的置信區(qū)間。

于是,我們有90%的把握認(rèn)為兩家銀行戶均存款額之差在811~1689元之間。

2.當(dāng)兩個總體方差和未知時,但,求均值之差的置信區(qū)間。例5-8為比較兩城市居民的生活水平,分別調(diào)查了100戶和150戶家庭的人均月生活費支出,計算樣本均值分別為167.76元和155.91元,樣本方差分別為69.37元和64.92元。假設(shè)兩城市家庭人均月生活費支出都服從正態(tài)分布,且方差相等,試以95%的置信水平估計兩城市居民平均人均月生活費支出的差異。

于是,我們有95%的把握認(rèn)為兩城市居民人均月生活費支出的差額在3.68~20.02元之間。3﹑兩個非正態(tài)總體大樣本下均值之差的區(qū)間估計例5-9為調(diào)查兩個地區(qū)農(nóng)民年末手存現(xiàn)金之間的差異,從兩個地區(qū)分別抽取了50戶農(nóng)民家庭作為樣本,得到樣本均值分別為650元和480元,標(biāo)準(zhǔn)差分別為120元和106元。試以95%的置信水平估計兩地區(qū)農(nóng)民平均每戶手存現(xiàn)金的差異。

于是,我們有95%的把握認(rèn)為兩地區(qū)農(nóng)民的平均每戶手存現(xiàn)金之差額在125.63~214.37元之間。(二)兩個總體比率之差的區(qū)間估計簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間無限總體,N1P1>5,n1q1>5N2P2>5,n2q2>5兩個總體比率之差(P1-P2)有限總體,N1P1>5,n1q1>5N2P2>5,n2q2>5例5-10某報社想了解不同職業(yè)的人員訂閱其發(fā)行的一種報紙的情況,抽選了一個由400名工人組成的樣本,和一個由300名大學(xué)生組成的樣本,結(jié)果工人中有155人訂閱該報紙,大學(xué)生中有105人訂閱該報紙。試以90%的置信水平估計這兩個總體比率的差異程度

因為零包含在這個區(qū)間中,所以由上面的結(jié)果不能斷定與有差別。待估計參數(shù)已知條件置信區(qū)間正態(tài)總體總體方差

兩個正態(tài)總體兩個總體方差之比七、總體方差的區(qū)間估計

(一)一個正態(tài)總體方差的區(qū)間估計例5-11.某食品加工廠加工一批蘋果罐頭,想了解罐頭重量的差異程度,隨機抽出15個罐頭,稱其重量(克),得樣本方差,假設(shè)總體呈正態(tài)分布,試求罐頭重量方差的置信水平為90%的置信區(qū)間。

(二)兩個正態(tài)總體方差比的區(qū)間估計

例5-12.某車間兩條生產(chǎn)線生產(chǎn)同一種產(chǎn)品,產(chǎn)品的質(zhì)量指標(biāo)可以認(rèn)為服從正態(tài)分布。分別從兩條生產(chǎn)線的產(chǎn)品中抽取容量為25和21的樣本檢測,算得樣本方差分別是7.89和5.07。求產(chǎn)品質(zhì)量指標(biāo)方差比的置信水平為95%的置信區(qū)間。八、樣本容量的確定

(一)影響樣本容量的因素

總體各單位的差異程度。允許誤差范圍。概率保證程度。不同的抽樣方法(重復(fù)抽樣和不重復(fù)抽樣)。(二)樣本容量的計算

1、估計總體均值時的樣本容量的計算例5-13某茶葉生產(chǎn)廠對某批10000包茶葉的每包平均重量和合格率進(jìn)行檢驗,根據(jù)以往資料,每包平均重量的標(biāo)準(zhǔn)差為10克,茶葉合格率為92%。在概率保證程度為95.45%,每包茶葉平均重量的抽樣極限誤差不超過2克,合格率的抽樣極限誤差不超過5%的條件下,求應(yīng)抽取多少包茶葉進(jìn)行調(diào)查。

所以,對抽檢平均每包重量需要抽取100包茶葉,對抽檢合格率需抽檢118包。而在一次抽樣中,若要求同時抽檢平均每包重量和合格率,則就采用樣本單位較多(即n=118)的方案。

所以,在不重復(fù)抽樣條件下,對抽檢平均每包重量需要抽取99包茶葉,對抽檢合格率需抽檢117包。3、估計兩個總體均值之差時樣本容量的計算

對于給定的允許誤差和置信水平為1-的條件下,估計兩個總體均值之差時所需的樣本容量為:

其中,和

為來自兩個總體的樣本容量,

為兩個總體的方差。例5-14某校教務(wù)處想要估計普通班和實驗班考試成績平均分?jǐn)?shù)差距的置信區(qū)間,要求置信水平為95%,預(yù)先估計兩個班考試成績分?jǐn)?shù)的方差為:實驗班=85,普通班=120,如果要求估計的允許誤差不超過5分,應(yīng)在兩個班分別抽取多少名學(xué)生進(jìn)行調(diào)查?解:根據(jù)公式得

即應(yīng)在兩個班分別抽取32名學(xué)生進(jìn)行調(diào)查。4、估計兩個總體比率之差時樣本容量的計算

對于給定的允許誤差和置信水平為1-的條件下,估計兩個總體比率之差時所需的樣本容量為:例5-15某廠家要估計消費者對一種新產(chǎn)品認(rèn)知的廣告效果。該廠家在廣告前和廣告后各抽取一個消費者隨機樣本進(jìn)行調(diào)查,若以10%的允許誤差和95%的置信水平估計廣告前和廣告后知道該產(chǎn)品消費者的比率之差,應(yīng)在兩個樣本中分別抽取多少名消費者進(jìn)行調(diào)查?解:由于沒有和的信息,我們用==0.5作為和的近似值。根據(jù)公式得即應(yīng)在兩個樣本中分別抽取193名消費者進(jìn)行調(diào)查。

第四節(jié)抽樣的其它組織方式

一、分層抽樣(一)抽樣形式方法:將總體全部單位分類,形成若干個類型組,后從各類型中分別抽取樣本單位,合成樣本??傮wN樣本n等額等比例最優(yōu)······

分層抽樣的特點:由于分層抽樣是在各層中進(jìn)行的,因此各層樣本除匯總后可用于總體參數(shù)的估計外,還可用來對層的參數(shù)進(jìn)行估計。分層抽樣對層而言是全面調(diào)查,對層內(nèi)單位而言是非全面調(diào)查。分層樣本分別抽自各層,因此與簡單隨機樣本比較,分層樣本在總體中的分布更為均勻,不會出現(xiàn)偏于某一部分的不平衡情況,因此抽樣效果較好。(二)分層抽樣的簡單估計待估計參數(shù)已知條件置信區(qū)間有限總體不放回抽樣(n等比例分配于各層)各層nh≥30總體均值

(μ)有限總體不放回抽樣(n等比例分配于各層)各層nh≥30總體比率(P)均值:平均層內(nèi)方差:估計1、總體均值的簡單估計例5-16某高等學(xué)校有學(xué)生4000人,按性別分組,然后按比例抽取樣本容量200人調(diào)查學(xué)生平均每月支出情況,計算各組平均每月支出和標(biāo)準(zhǔn)差如下表。試以95.45%的概率保證對該高等學(xué)校全部學(xué)生平均每月支出額作區(qū)間估計。(采用重復(fù)抽樣)全部人數(shù)(人)抽樣人數(shù)(人)抽樣平均支出額(元)平均支出額標(biāo)準(zhǔn)差(元)—2004000合計1604601102200女510901800男按性別分組130

2、總體比率的簡單估計例如5-17為調(diào)查某個高血壓高發(fā)病區(qū)的患病率,對14歲以上的人分四個年齡組進(jìn)行分層隨機抽樣,調(diào)查結(jié)果如下表所示,以95%的可靠性對該地區(qū)14歲以上全部人口高血壓患病率進(jìn)行區(qū)間估計(按重復(fù)抽樣計算)。全部人數(shù)(萬人)抽樣人數(shù)(人)—3,85077.0合計50.23006.060以上34.797519.541—6014.51,20024.026—405.41,37527.514—25(%)年齡組(三)分層抽樣樣本容量的確定在采用分層抽樣進(jìn)行抽樣估計時,各層樣本容量的確定是決定分層抽樣效果好壞、花費費用多少的關(guān)鍵。分層抽樣確定各層樣本容量有三種方法,這三種方法都是以已知分層抽樣的層數(shù)k和樣本容量n為前提條件來確定各層樣本容量。1、比例分配法比例分配法是指樣本所有單位在各層分配時,從各層中抽取的樣本容量占所有單位數(shù)的比例是相等的,同等于樣本容量n占總體容量N的比重,即從而確定各層應(yīng)抽取的樣本容量為:比例分配法是在實際工作中最常用的方法。由于所抽取的樣本容量考慮了各層的合理權(quán)重使得綜合計算的樣本指標(biāo)能切合實際情況,增強抽樣估計的效果。2、適度法(又稱尼曼分配法)

比例分配法只考慮到各層單位多少的差別,沒有考慮各層變異程度的不同。適度法補救了這一不足,適度法考慮變異程度較大的層應(yīng)該多取樣,而變異比較均勻的層應(yīng)該少取樣,樣本容量與變異程度的大小成正比例,使抽樣誤差達(dá)到最小。設(shè)代表各層標(biāo)準(zhǔn)差,則各層樣本容量同各層總體容量和各層標(biāo)準(zhǔn)差乘積的比例相等,即所以各層的樣本容量為:

適度法在考慮各層合理權(quán)重的情況下,又使抽樣誤差減少到可能范圍,這種方法在使用時比比例分配法又前進(jìn)了一步。3、最優(yōu)分配法(亦稱經(jīng)濟分配法)各層除了單位數(shù)和變異程度不同外,調(diào)查費用還可能有差別。最優(yōu)分配法考慮這一因素,對于費用較大的層,相對來說取樣少一些,而費用較低的層則可以多取樣。設(shè)代表各層每單位的調(diào)查費用,由于樣本容量與費用的平方根成反比關(guān)系變化,應(yīng)該使下列比例保持相等,達(dá)到一定的調(diào)查費用情況下抽樣誤差最小,或在一定的抽樣誤差情況下調(diào)查費用最少。即所以各層的樣本容量為:例5-18已知某市個體商店1600個,按分層抽樣從中抽取200個商店進(jìn)行調(diào)查納稅情況,具體資料如下表按月銷售額分組(萬元)(個)(元)(元)5以下50021106253001714合計1600--根據(jù)以上資料,通過計算得出三種分配方法的結(jié)果如下表所示,按月銷售額分組(萬元)比例分配法適度法最優(yōu)分配法5以下627680625383733合計200200200二、整群抽樣

將總體全部單位分為許多個群,然后隨機抽取若干群,對被抽中的各群內(nèi)的所有單位登記調(diào)查??傮w群數(shù)R

樣本群數(shù)r估計均值:群間方差:置信區(qū)間抽樣誤差

整群抽樣的特點:1、整群抽樣的隨機性體現(xiàn)在群與群之間不重疊,總體的任何一個基本單位都必須且只能歸于某一群的抽選按概率確定,可以按等概率也可按不等概率進(jìn)行抽選。2、如果把每一群看成一個單位,那么整群抽樣就是以群為單位的簡單隨機抽樣。3、整群抽樣對于群而言是非全面調(diào)查,對于被抽中群內(nèi)基本單位而言則是全面調(diào)查,這一點與分層抽樣正好相反。4、整群抽樣便于組織實施,節(jié)省人力、財力和時間。待估計參數(shù)已知條件樣本數(shù)的確定總體均值(μ)整群抽樣有限總體不放回抽樣,服從正態(tài)分布未知用整群抽樣樣本容量的確定例5-20某林區(qū)劃分為1000群區(qū),各群區(qū)面積相同,按估計該林區(qū)木材蓄積量的群間方差為,現(xiàn)在在允許誤差為,概率保證程度為95.45%下,確定抽樣的樣本群數(shù)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論