數(shù)理統(tǒng)計(jì)第一章(2)剖析_第1頁(yè)
數(shù)理統(tǒng)計(jì)第一章(2)剖析_第2頁(yè)
數(shù)理統(tǒng)計(jì)第一章(2)剖析_第3頁(yè)
數(shù)理統(tǒng)計(jì)第一章(2)剖析_第4頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章抽樣調(diào)查§1.1引言緒論中關(guān)于數(shù)理統(tǒng)計(jì)學(xué)的概念的闡述可以看出數(shù)理統(tǒng)計(jì)面對(duì)的就是數(shù)據(jù),而數(shù)據(jù)的“質(zhì)量”對(duì)最終的得出的結(jié)論的可靠性有著重大影響 .對(duì)于普查的數(shù)據(jù),數(shù)據(jù)的有效性、準(zhǔn)確性很重要(這類數(shù)據(jù)的研究不屬于數(shù)理統(tǒng)計(jì)學(xué)的范疇) .對(duì)于抽查數(shù)據(jù),數(shù)據(jù)的概率性質(zhì)很重要.本章簡(jiǎn)要地介紹抽樣調(diào)查的一些概念和技術(shù)以及相關(guān)理論 .在數(shù)理統(tǒng)計(jì)學(xué)中還有另一種獲取數(shù)據(jù)的方法 --試驗(yàn)設(shè)計(jì)(將在后面介紹).抽樣調(diào)查是從總體中抽取一小部分個(gè)體以獲取總體的有關(guān)信息 .根據(jù)研究對(duì)象即總體的不同特點(diǎn)需要設(shè)計(jì)不同的抽樣方法以獲取高 “質(zhì)量”的數(shù)據(jù).抽樣技術(shù)在很多領(lǐng)域都有應(yīng)用 .隨機(jī)抽樣至少有以下的益處 :抽取個(gè)體的隨機(jī)性排除了調(diào)查者的偏見,即使是無意識(shí)的。與完全枚舉(即普查)相比,減少很多成本,調(diào)查更省時(shí)。隨機(jī)抽樣的結(jié)論實(shí)際上可能比完全枚舉更精確。 小樣本的數(shù)據(jù)質(zhì)量更容易監(jiān)控, 完全枚舉需要大量的調(diào)查人員去實(shí)施,由此可能帶來更多業(yè)務(wù)不精的職員。隨機(jī)抽樣技術(shù)使得抽樣誤差估計(jì)變得可能。在抽樣設(shè)計(jì)時(shí),通??梢源_定出滿足預(yù)設(shè)誤差水平的樣本容量。抽樣調(diào)查大多是指大規(guī)模抽樣調(diào)查,總體往往是具體的人或物且其中的個(gè)體數(shù)目很大,但我們總是假定個(gè)體數(shù)目是有限的、已知的,常用 N表示總體中的個(gè)體數(shù)目。在具體的抽樣調(diào)查問題中,我們總是調(diào)查個(gè)體的某項(xiàng)(或多項(xiàng))指標(biāo) .這種指標(biāo)可以是數(shù)值的,也可以是非數(shù)值的.對(duì)于非數(shù)值的指標(biāo)我們總可以用數(shù)字表示。最常見的非數(shù)值的指標(biāo)是分類數(shù)據(jù)(或?qū)傩詳?shù)據(jù)),比如將總體中的成員依據(jù)某一屬性分成 r類,我們可以用數(shù)值 1, ,r(或0,1, ,r 1)分別代表各個(gè)類別,最常見的是分為二類(比如正品與次品,男性與女性) ,我們稱之為二分變量 .總體中的N個(gè)個(gè)體的數(shù)量指標(biāo)值記為 x1,x2, ,xN.這里x1,x2, ,xN中可以有相同的。例1.1 作為本章的第一個(gè)例子, 我們利用 Herkson(1976)的研究來解釋一些思想 .總體由N 393個(gè)短期居留醫(yī)院組成 .我們關(guān)注于醫(yī)院一個(gè)月內(nèi)出院人數(shù) .令xi表示1968年1月份第i個(gè)醫(yī)院的出院人數(shù) ,那么總體為 x1,x2, ,x393.總體均值為814.6,總體標(biāo)準(zhǔn)差為 589.7.總體的數(shù)值都是知道的 ,我們可通過頻數(shù)直方圖顯示總體數(shù)值的分布 ,見P139圖7.1.-1-這里舉這個(gè)例子是為了教學(xué)目的 ,后面還會(huì)用這個(gè)例子來說明一些方法和思想 .實(shí)際中,我們往往是不知道總體中各個(gè)個(gè)體的數(shù)值 ,而是希望通過抽樣而獲得的數(shù)據(jù)去了解總體的信息,比如估計(jì)總體均值等 .在抽樣調(diào)查的統(tǒng)計(jì)問題中 ,我們關(guān)注的是總體的一些數(shù)值特征(也稱為參數(shù)) .(1)總體均值( populationmean )1N

Nxii1在分類數(shù)據(jù)中 ,各類別的比例.尤其是對(duì)于二分總體,我們用 0和1代表兩個(gè)類別,則常關(guān)注總體中取值為 1的個(gè)體所占的比例:1 Np xiNi1這里xi取0或12)總體總數(shù)(populationtotal)Nxi13)總體方差(populationvariance)21N)2,(xi-Ni1易見21Nxi22Ni1在二分總體情況下,總體方差為p(1p).總體標(biāo)準(zhǔn)差(populationstandarddeviation)2.一般地,總體中的個(gè)體的數(shù)量指標(biāo)值x1,x2,,xN是未知的,因而總體的特征數(shù)(或參數(shù))也是未知的,而我們要做的工作就是通過調(diào)查到的結(jié)果即樣本來獲取總體參數(shù)的信息.§1.2簡(jiǎn)單隨機(jī)抽樣抽樣技術(shù)本質(zhì)上具有概率性,即總體中每個(gè)個(gè)體都以特定的概率出現(xiàn)在樣本中(簡(jiǎn)稱為入樣),并且樣本的實(shí)際構(gòu)成是隨機(jī)的.不同的抽樣方法決定了樣本的不同概率性質(zhì)(也與總體的概率結(jié)構(gòu)有關(guān)),或反過來說,不同的抽樣方法就是由樣本的不同概率性質(zhì)來定義的.最初級(jí)的抽樣方法是簡(jiǎn)單隨機(jī)抽樣:每個(gè)個(gè)體都以相同的概率入樣.-2-簡(jiǎn)單隨機(jī)抽樣可分為有放回的簡(jiǎn)單隨機(jī)抽樣 (也稱為有重復(fù)的簡(jiǎn)單隨機(jī)抽樣) 和不放回的簡(jiǎn)單隨機(jī)抽樣(也稱為無重復(fù)的簡(jiǎn)單隨機(jī)抽樣)兩種方式 .有放回的簡(jiǎn)單隨機(jī)抽樣所得的樣本 (X1, ,Xn)的概率性質(zhì)有:各個(gè)Xi具有相同的分布;X1,,Xn相互獨(dú)立.不放回的簡(jiǎn)單隨機(jī)抽樣所得的樣本 (X1, ,Xn)的概率性質(zhì)有:(1)各個(gè)Xi具有相同的分布 ;(2)X1,,Xn不相互獨(dú)立.任意指定的n個(gè)個(gè)體組成樣本的概率均為1。CNn兩種方式下的樣本的第一條概率性質(zhì)相同,這是由“每個(gè)個(gè)體都以相同的概率入樣”的緣故.一般而言,簡(jiǎn)單隨機(jī)抽樣是指不放回的簡(jiǎn)單隨機(jī)抽樣.這里引入有放回的隨機(jī)抽樣是因?yàn)椋?)放回的隨機(jī)抽樣的樣本的概率性質(zhì)更為簡(jiǎn)單;(2)給不放回的隨機(jī)抽樣提供一個(gè)比較對(duì)象.例如,若總體中N個(gè)個(gè)體的數(shù)量指標(biāo)值x1,x2,,xN各不相同,那么Xi的概率質(zhì)量函數(shù)為P(Xixj1,j,,,N)12N若總體中N個(gè)個(gè)體的數(shù)量指標(biāo)值有相同的,各個(gè)體的不同取值記為1,,m,且取值j的個(gè)體數(shù)為nj(j1,2,,m),那么Xi的概率質(zhì)量函數(shù)為P(Xij)nj,j1,2,,mN若總體為二分變量,那么Xi~B(1,p),其中p為總體中取值為1的個(gè)體的比例.我們往往關(guān)注總體均值、總體總數(shù)、總體方差等總體參數(shù)的估計(jì),對(duì)于分類總體,則一般關(guān)注各類別的比例的估計(jì)。通常用樣本均值( samplemean)1nXXini1-3-作為總體均值 的估計(jì).作為總體總數(shù)的一個(gè)估計(jì),我們考慮TNX,由于樣本X1,,Xn是隨機(jī)的,所以樣本均值X也是隨機(jī)的,它的概率分布稱為抽樣分布.X的抽樣分布決定了X估計(jì)的精度,粗略地講,抽樣分布越緊密地集中在附近,估計(jì)越好.例1.2為了解釋抽樣分布的概念,我們?cè)僖淮慰紤]393個(gè)醫(yī)院的總體.當(dāng)然,在實(shí)踐中,總體是未知的.出于教學(xué)的目的,我們考慮來自這個(gè)總體的樣本均值的抽樣分布.例如,假如我們想尋找容量為16的樣本均值的抽樣分布,原則上,我們可以得到所有的C39316個(gè)樣本,并計(jì)算每個(gè)樣本的均值.但是這樣的樣本個(gè)數(shù)是1028階,這顯然是不可行的.因此我們利用稱之為模擬的技術(shù).我們抽取很多個(gè)容量同為n的樣本,計(jì)算均值,然后繪制其直方圖,用以估計(jì)抽樣分布.圖7.2(見P141)顯示了樣本容量為8,16,32和64的500次模擬結(jié)果.值得注意的是該圖的三個(gè)特征:1.所有的直方圖集中在總體均值814.6上.隨著樣本容量的增加,直方圖發(fā)散程度降低.盡管總體直方圖(圖7.1)關(guān)于均值不對(duì)稱,但圖7.2的直方圖接近于對(duì)稱.一般而言,得出X的精確抽樣分布很困難 .下面計(jì)算 X的期望、方差,以了解該估計(jì)量的統(tǒng)計(jì)性質(zhì),并由此對(duì)該估計(jì)的優(yōu)良性作評(píng)估.首先在簡(jiǎn)單隨機(jī)抽樣下,Xi的期望、方差分別為mjP(Xj1mE(Xi)j)njjj1Nj11m22Var(Xi)nj(j)Nj1以上性質(zhì)無論放回抽樣還是不放回抽樣都成立,但對(duì)于協(xié)方差Cov(Xi,Xj)(ij)會(huì)不一樣,在放回抽樣時(shí)Cov(Xi,Xj)0;而不放回抽樣時(shí),2Cov(Xi,Xj)1,N-4-我們就各個(gè)體的數(shù)值全不相等的情形證明此結(jié)論:11NN證明:E(XiXj)xixj[(xi)2xi2]N(N1)ijN(N1)i1i1N211Nxi221(1Nxi22)N1N1Ni1N1Ni122,N12所以Cov(Xi,Xj)E(XiXj)E(Xi)E(Xj)N1。由以上討論易得性質(zhì)1.2.1 簡(jiǎn)單隨機(jī)抽樣下 ,E(X)E(T)要注意的是,由于X是隨機(jī)的,結(jié)論E(X) 可以解釋“平均地” X

.一般地,利用樣本構(gòu)造的統(tǒng)計(jì)量 ?估計(jì)總體參數(shù) 時(shí),如果無論 取何值,總有E(?) ,我們稱 ?為的無偏估計(jì).因此X是 的無偏估計(jì).但這并不意味著 X會(huì)恰好等于 ,X與 總會(huì)有偏差的,為此還需考查該估計(jì)的精度 .我們可用均方誤差MSE(?, ) E(? )2’來衡量估計(jì)的精度 .稱 MSE(?, )為標(biāo)準(zhǔn)誤差.易得MSE(?, ) Var(?) (E? )2,E(?) 稱為偏差或偏倚 .若?為 的無偏估計(jì),那么MSE(?, ) Var(?).性質(zhì)1.2.2 在簡(jiǎn)單隨機(jī)抽樣下 ,若放回抽樣,則2Var(X),Xn

n-5-Var(T)N22,TNnn若不放回抽樣,則2n1)Var(X)n(1N1Var(T)N22(1n1),nN11n1n證明:Var(X)Var(Xi)[Var(Xi)2Cov(Xi,Xj)]ni1ni11ijn2n(n1)22n1)n(N)n(1n21N1在二分情形下,E(X)p,Var(X)p(1-p)放回抽樣時(shí))n,(Var(X)p(1-p)(1n1),(不放回抽樣時(shí))nN1可以看出,樣本均值的精度與n和有關(guān),兩種抽樣方式X的方差相差一個(gè)因子n1Nn11N1N稱它為有限總體校正 .比值 n稱為抽樣比例,若抽樣比例非常小時(shí)Nn111N1兩種抽樣方式下樣本均值的方差差別不大 .注:不少抽樣調(diào)查的著作中 ,把總體方差義為21N)2(xiN1i12n)這樣在不放回抽樣下,Var(X)(1N例1.3如果無重復(fù)地抽取醫(yī)院總體,樣本容量為n32,那么樣本均值的標(biāo)準(zhǔn)差為-6-XVar(X)321n1589.7131N132392104.20.96100.0為了說明X100.0是精度合理的度量,再次審視圖7.2b,觀測(cè)到大部分樣本均值在總體均值(814)的2倍標(biāo)準(zhǔn)誤差之內(nèi),也就是說大部分樣本均值在(614,1014)內(nèi).例1.4在醫(yī)院總體中,小于1000個(gè)出院人數(shù)的比例是p0.654.如果利用樣本比例p?估計(jì)這個(gè)總體比例,可得該估計(jì)的標(biāo)準(zhǔn)誤差為?p

p(1p)1n10.6540.3460.960.08nN132總體方差2也是一個(gè)重要的總體參數(shù),也需要通過樣本對(duì)其作出估計(jì),并且由上面的討論可看出樣本均值作為總體均值的估計(jì)時(shí),其精度與總體方差有關(guān),在實(shí)現(xiàn)中總體方差未知,我們可由樣本對(duì)其作出估計(jì),從而對(duì)樣本均值作為總體均值的估計(jì)時(shí)的精度作出評(píng)估.2下面是總體方差 的一個(gè)常用估計(jì)量?2 1n(Xi-X)2ni1稱之樣本方差.性質(zhì)1.2.3 在簡(jiǎn)單隨機(jī)抽樣下 ,若放回抽樣,則E(?2)(n1)2nnX)2nXi2nX2證明:(Xii1i12E(Xi2)Var(Xi)[E(Xi)]222,E(X2)Var(X)[E(X)]22,nnnE[(XiX)2]E(Xi2)nE(X2)(n1)2,i1i1故E(?2)(n1)2。n-7-若不放回抽樣,則E(?2)(n1)2(N)nN1nX)2nXi2nX2證明:(Xii1i1E(Xi2)Var(Xi)[E(Xi)]222,E(X2)[E(X)]22n1)2,Var(X)(1nN1nX)2]nE(Xi2)nE(X2)N(n1)2,E[(Xii1i1N1故E(?2)(n1)2(N)。nN1由此可見 ?2是 2的有偏估計(jì),而且總有E(?2) 2也即該估計(jì)系統(tǒng)地偏小 ,為了具有無偏性 ,我們可對(duì)以上估計(jì)作適當(dāng)修正使之具有無偏性 ,為此引入修正樣本方差 :S21nX)2(Xin-1i1在放回抽樣時(shí),修正樣本方差為總體方差的無偏估計(jì),而不放回抽樣時(shí),N1S2是總體N方差的無偏估計(jì).以后如無特別聲,樣本方差是指修正樣本方差.從無偏性角度,S2優(yōu)于?2.但從均方誤差準(zhǔn)則角度,?2往往優(yōu)于S2.在實(shí)際中人們往往不希望把總體方差估計(jì)得偏小,因此總體方差的估計(jì)常用S2.我們易得下面結(jié)論性質(zhì)1.2.4樣本均值X的方差Var(X)的無偏估計(jì)為SX2S2,(放回抽樣時(shí)),n2S2n),(不放回抽樣時(shí))SX(1Nn-8-性質(zhì)1.2.5在二分總體中,p的估計(jì)?X的方差?的無偏估計(jì)為pSp?2p?(1p?),(放回抽樣時(shí)),n1Sp2???n),(不放回抽樣時(shí))p(1p)(1n1Ns,Sp?稱為估計(jì)標(biāo)準(zhǔn)誤差,如果我們知道實(shí)際的標(biāo)準(zhǔn)誤差X,p?就可利用它們度量估X計(jì)量X,p?的精度;如果它們未知,就用估計(jì)的標(biāo)準(zhǔn)誤差替它們。實(shí)際中,通常是后一種情況。例1.5從醫(yī)院總體中抽取一個(gè)樣本容量為50的樣本,并算得樣本均值為x938.5,標(biāo)準(zhǔn)差為s614.53.那么可得樣本均值X的方差的估計(jì)為2s2n)6592?X(1Nn的估計(jì)標(biāo)準(zhǔn)誤差是?X 81.19注意,真正的標(biāo)準(zhǔn)誤差是XVar(X)589.71497850392例1.6令p為出院人數(shù)少于1000人的醫(yī)院比例,從醫(yī)院總體中抽取一個(gè)樣本容量為50的樣本,其中有26個(gè)醫(yī)院出院人數(shù)少于1000.那么p的估計(jì)值為?260.52p50p?的方差的估計(jì)為2??n)0.0045?p?p(1p)(1nNp?的估計(jì)標(biāo)準(zhǔn)誤差為??p 0.067以上例子說明通過簡(jiǎn)單隨機(jī)抽樣不僅可以得到未知的總體參數(shù)的估計(jì) ,還可以利用樣本數(shù)據(jù)的估計(jì)的標(biāo)準(zhǔn)誤差刻畫估計(jì)的誤差水平 .總結(jié)如下表:(針對(duì)不放回抽樣)-9-總體參數(shù) 估計(jì) 估計(jì)量的方差 估計(jì)量方差的估計(jì)X22Nn2s2(1nX(N)sXn)n1Np樣本比例2p(1p)Nn2??np?sp?p(1p)n()n(1)N11NTNX2N222N22TXsTsX2(112)sN前面己經(jīng)討論了樣本均值X的期望與方差,在理想情況下,我們想知道X的抽樣分布,這樣做就可以告訴我們估計(jì)精度的一切特征 .然而,在沒有總體本身的信息時(shí),我們是不能確定抽樣分布的.但由中心極限定理我們可以導(dǎo)出其近似分布----正態(tài)分布,這種近似可以用來計(jì)算估計(jì)誤差的概率限.若隨機(jī)變量序列X1,X2,,Xn,獨(dú)立同分布,且期望EXi,方差VarXi2,記1nXnXi,那么中心極限定理知ni1Xnn依分布收斂于標(biāo)準(zhǔn)正態(tài)分布N(0,1).也即當(dāng)n充分大時(shí),Xn近似服從正態(tài)分布N(,2/n).由以上結(jié)論可知,若X1,X2,,Xn是從某總體中按放回的簡(jiǎn)單隨機(jī)抽樣方法得到的樣本,總體均值和方差分別為和2n充分大時(shí),X近似服從正態(tài)分布,那么當(dāng)樣本容量N(,2/n).若X1,X2,,Xn是從某總體中按不放回的簡(jiǎn)單隨機(jī)抽樣方法得到的樣本,此時(shí)情況所有不同,諸Xi并不獨(dú)立,且讓樣本容量n趨于無窮是沒有意義的.但是當(dāng)樣本容量n很大,且相對(duì)于N仍很小時(shí),X近似服從正態(tài)分布N(,X2).由以上的近似分布,我們可以近似地計(jì)算用X估計(jì)時(shí)誤差小于某常數(shù)的概率-10-P(|X|),P(|X|)2()1,X或P(|X|)2[1()]X例1.7再次考慮醫(yī)院總體,容量為64的樣本均值的標(biāo)準(zhǔn)差為XVar(X)589.716367.564392那么樣本均值X近似服從正態(tài)分布N(,67.52),這里814為總體均值.由此可近似地計(jì)算出樣本均值與總體均值的絕對(duì)偏差在100以上的概率P(|X|100)2[1(100)]0.13867.5例1.8續(xù)例1.6p的真實(shí)值為0.654,?0.52,兩者差距為p的估計(jì)值為p|pp|0.134,下面近似計(jì)算兩者的絕對(duì)偏差超過0.134的概率.?由于p?近似服從正態(tài)分布 N(p,0.0642),因而?0.134]0.040.064標(biāo)準(zhǔn)誤差是評(píng)估估計(jì)精度的最常用的指標(biāo),另外一個(gè)常用的指標(biāo)是區(qū)間估計(jì)(區(qū)間估計(jì)的一般概念在下一章給出 ).利用中心極限定理,Xn近似服從標(biāo)準(zhǔn)正態(tài)分布,從而可得的置信水平為1的近X似置信區(qū)間為XXU.在實(shí)用中,X一般未知,就用S代替X.總體總數(shù)的置信水1X2平為1的近似置信區(qū)間為N(XXU)12例(P150)以上介紹的簡(jiǎn)單隨機(jī)抽樣對(duì)總體中的各單元是同等看待。 實(shí)踐中常有總體,其各單元處于不同地位,各單元的“規(guī)?!庇泻艽蟛町?.例如調(diào)查城鎮(zhèn)居民經(jīng)濟(jì)狀況,以居委會(huì)為抽樣單位,各個(gè)居委會(huì)的規(guī)模有大有小,有的居委會(huì)有數(shù)萬居民,有的居委會(huì)只有幾千居民。 這要求規(guī)模大的居委會(huì)有更大的概率進(jìn)入樣本 .各個(gè)單元有正比于規(guī)模測(cè)度的入樣概率的抽樣方-11-法可能是合適的。這就產(chǎn)生了不等概抽樣方法。PPS抽樣.所謂PPS抽樣就是抽取概率正比于規(guī)模測(cè)度的抽樣方法.設(shè)總體有N個(gè)單元,記為Ui(i1,2,,N),第i個(gè)單元的指標(biāo)為Yi,規(guī)模測(cè)度為Xi,在抽取樣本單元時(shí),各個(gè)單元被抽中的概率正比于規(guī)模測(cè)度Xi.有放回的PPS抽樣是常見的一種不等概抽樣方案,每次抽取,單元Ui被抽中的概率為piXi.NXii 1實(shí)現(xiàn)方法利用隨機(jī)數(shù)表或由計(jì)算機(jī)產(chǎn)生隨機(jī)數(shù)實(shí)現(xiàn)不等概抽樣 ,常用的方法有下列兩種 .累積和法.將各個(gè)單元的規(guī)模測(cè)度逐個(gè)累加,得N1NX1,X1X2,,Xi,Xii1i1N{1,2,,X}作有放回簡(jiǎn)單隨機(jī)抽樣令XXi,對(duì)自然數(shù)號(hào)碼集合,記抽得的隨機(jī)數(shù)i1為k,則當(dāng)k{1,2,,X1}時(shí),U1進(jìn)入樣本,k{X11,,X1X2}時(shí),U2進(jìn)入樣本,N1Nk{Xi1,,Xi}時(shí),UN進(jìn)入樣本.i1i1最大規(guī)模法.在全部規(guī)模測(cè)度中找出最大值M max{X1,X2, ,XN}每次從{1,2, ,N}中抽取一個(gè)隨機(jī)數(shù) k,同時(shí)再獨(dú)立地從 {1,2, ,M}中抽取一個(gè)隨機(jī)數(shù)l.若l Xk,則單元Uk入樣,否則此次抽樣無單元入樣 .如此重復(fù)直至抽滿 n個(gè)單元.估值法-12-N如果我們要估計(jì)總體指標(biāo)的總數(shù) Y Yi,那么該參數(shù)的估計(jì)為i 1? 1Yn

yi,1pi其中y1,y2, ,yn是抽中的n個(gè)單元的指標(biāo) ,pi是樣本單元 yi的抽取概率.該估計(jì)有如下性質(zhì):?是Y的無偏估計(jì);(1)YPPS(2) ? 的均方誤差即方差為YPPS?1NYi2V(YPPS)ni1pi(piY)? 的均方誤差的一個(gè)無偏估計(jì)為YPPS??1nyi?2(V(YPPS)YPPS).n(n1)i1pi在實(shí)際中,為提高PPS抽樣的估計(jì)的精度,應(yīng)選合適的規(guī)模測(cè)度,使規(guī)模測(cè)度Xi與指標(biāo)Yi近似于正比例關(guān)系.這樣可使不等概抽樣要比簡(jiǎn)單隨機(jī)抽樣有高得多的估計(jì)精度.不放回的不等概抽樣常記為PS.從理論上講PS抽樣要比PPS抽樣有更高的估計(jì)精度,但實(shí)現(xiàn)起來比較麻煩.在此不再介紹.§1.3 比例估計(jì)上一節(jié)簡(jiǎn)單隨機(jī)抽樣奠定了抽樣調(diào)查的理論基礎(chǔ) .在此基礎(chǔ)上,這一節(jié)和下一節(jié)介紹抽樣調(diào)查的一些更高深話題 .這一節(jié),我們考慮比例的估計(jì),假設(shè)觀察到總體成員的兩個(gè)數(shù)值 x和y.感興趣的是比例Nyiyri1Nxixi11N1這里yyi,xNi1N

Nxii 1-13-比例在抽樣調(diào)查中經(jīng)常出現(xiàn).例如如果y是周食品消費(fèi)支出,x是家庭成員數(shù),那么r是人均家庭周食品消費(fèi)支出.在農(nóng)業(yè)調(diào)查中,y可能是種植小麥畝數(shù),x是所有的畝數(shù).等等.下面考慮比例的估計(jì)問題,設(shè)有樣本X,Y),i,,,n,很自然地利用Y估計(jì).i12Rr(iX我們希望能推導(dǎo)出該估計(jì)量的期望E(R)和方差Var(R)的表達(dá)式.但是由于R是X和Y的非線性函數(shù),得出期望E(R)和方差Var(R)的顯式表達(dá)式行不通.但可以得到他們近似式,下面不加證明地給出結(jié)論.性質(zhì)1.3.1在簡(jiǎn)單隨機(jī)抽樣下,RY的近似方差為XVar(R)1(r2222rXY)2XYx1(1n112222rxy)nN)2(rxy1x22Var(Y),XYCov(X,Y)其中XVar(X),Y2x

1Nx)22(xi-,yNi1

1N(yi-y)2,xy1N(xi-x)(yi-y)Ni1Ni1xy稱為x和y的總體協(xié)方差.而總體相關(guān)系數(shù)定義為xyx y以上Var(R)的近似式又可表示為1n11(r222y)Var(R)(1N)2xy2rxn1x由以上近似結(jié)果可以看出,R的方差取決于多種因素,其中的因素之一是x與y的相關(guān)性,x與y具有強(qiáng)的正相關(guān)性時(shí),會(huì)減少方差.x是影響方差的另一因素,|x|越小,方差越大,這也好理解,因此|x|越小,比率RY的波動(dòng)幅度會(huì)變大.X-14-性質(zhì)1.3.2在簡(jiǎn)單隨機(jī)抽樣下,Y的近似期望為RXE(R)r1(1n1)12(r2xxy)nN1x由以上近似結(jié)果可以看出,R不是r的無偏估計(jì),其偏差的階是1/n,所以它對(duì)均方誤差的貢獻(xiàn)的階是1/n2,而方差的階是 1/n,因此對(duì)于大樣本而言,估計(jì)的標(biāo)準(zhǔn)誤差主要取決于方差,而偏差可忽略不計(jì) .在大樣本下,R近似服從正態(tài)分布 .利用近似分布,我們可以構(gòu)造 r的置信區(qū)間.也可以找出這種估計(jì)的誤差的概率限 .為了估計(jì) R的標(biāo)準(zhǔn)誤差或者說為了具體地計(jì)算出 R的標(biāo)準(zhǔn)誤差 .還必須估計(jì)出 x,x2,y2以及r, .前三者分別用 X,Sx2和Sy2估計(jì),r用R估計(jì).為估計(jì) ,我們先對(duì)總體協(xié)方差作如下估計(jì):1nSxy(XiX)(Yi-Y)n1i1那么的估計(jì)為?SxySxSy因此R的方差的估計(jì)為S2R1(1n1)12(R2Sx2Sy22R?SxSy)nN1X總體比例r的近似1-的置信區(qū)間為RU1/2SR.例1.9假設(shè)調(diào)查了100個(gè)最近購(gòu)房的居民,得到每個(gè)購(gòu)房者的每月按揭付款額和月總收入。令y(單位:美元)表示月按揭付款額,x(單位:美元)表示月總收入。假設(shè)x3100,y868sx1200,sy250?0.85則R8680.28,3100若忽略有限總體校正, R的估計(jì)標(biāo)準(zhǔn)誤差是-15-sR110.28212002250220.280.8525012000.006103100r的近似的置信區(qū)間為0.281.960.0060.280.012。95%比例可以用于估計(jì)總體均值和總體總數(shù) .由比例Nyiri1yNxi xi 1立即可得rxN Ny yi r xi rxi 1 i 1如果指標(biāo)x的總數(shù) x或均值 x是知道的(這時(shí)稱x為輔助變量),那么就可以通過比例 r的估計(jì)R得到指標(biāo) y的均值 y或總數(shù) y的估計(jì)?y YR Rx?y Ty Rx,這樣的估計(jì)分別稱為總體均值的比例估計(jì)和總體總數(shù)的比例估計(jì)。我們?cè)谇懊娼榻B過可直接利用樣本Y1,,Yn而得到估計(jì):?y1nYyini1?y T NY那么比例估計(jì)與上面的估計(jì) (稱為簡(jiǎn)單估計(jì) )相比,是否有改進(jìn)?什么情況下會(huì)有改進(jìn) ?改進(jìn)的程度如何?這是需要回答的問題 .下面先看幾個(gè)例子 .例1.10 從醫(yī)院總體中模擬容量為 64的樣本 500個(gè),結(jié)果直方圖如 7.6a(P155)圖所示.我們?cè)儆贸鲈喝藬?shù)與醫(yī)院床位數(shù)的比例來估計(jì)平均出院人數(shù) ,這500個(gè)樣本得出的平均出院人數(shù)的比例估計(jì)的直方圖如圖 7.6b(P155)所示.兩圖對(duì)比可清楚地顯示出比例估計(jì)非常有效地減少了估計(jì)的變異性 .-16-為了評(píng)估估計(jì)量 ?y YR,需要推導(dǎo)其均值和方差 ,精確推導(dǎo)難以進(jìn)行 ,下面給出近似結(jié)果:性質(zhì)1.3.3y的比例估計(jì)的方差為1n1)(r2222rxy)Var(YR)(11xynN的比例估計(jì)的期望為E(YR)y1(1n1)1(rx2xy)nN1x由此可見,YR是有偏估計(jì),但其偏差在均方誤差中的貢獻(xiàn)可以忽略不計(jì),故比較均方誤差只需比較方差.為簡(jiǎn)便起見,我們忽略有限總體校正,簡(jiǎn)單估計(jì)Y的方差為2Var(Y)yn如果r222xy0x-r那么比例估計(jì)YR有較小的方差.在r0時(shí),上式等價(jià)于2yrx即1(x)/(y)1Cx,2xy2Cy其Cxx/x,Cyy/y,Cx和Cy為變異系數(shù)(coefficientsofvariation).為了估計(jì)YR的精度,需要由樣本數(shù)據(jù)給出其方差的估計(jì)值.性質(zhì)1.3.5YR的方差的估計(jì)為S21(1n1)(R2Sx2Sy22R?SxSy)YRnN1y的近似1-的置信區(qū)間為YRU1/2SYR例1.11對(duì)于醫(yī)院總體,我們有274.8,x213.1-17-y814.6,y589.7r2.96,0.91這里x,y分別表示床位數(shù)和出院人數(shù).YR的方差近似為Var(YR)1(2.962213.22589.72-22.96213.2589.7)68697.4nn262.1YR.n包含有限總體校正,n64時(shí)YR262.116330.064392圖7.6顯示的500個(gè)樣本的比例估計(jì)值的標(biāo)準(zhǔn)差為29.9,兩者非常接近.而這500個(gè)估計(jì)值的平均值為816.2,與真實(shí)值814.6相比也非常接近.容量為n64的簡(jiǎn)單隨機(jī)樣本下,Y的標(biāo)準(zhǔn)差為Y589.716366.38392比較Y與YR,可以看出y的比例估計(jì)大大減少了變異性.對(duì)不同的估計(jì)法的比較還有另一種方式:在相同的精度下,對(duì)所需的樣本容量作對(duì)比 .顯然在達(dá)到相同的精度條件下所需的樣本容量越小越優(yōu) .例1.12繼續(xù)分析上例.如果抽取容量為 n1的簡(jiǎn)單隨機(jī)樣本 ,Y的方差為589.72Var(Y)n1如果抽取容量為 n2的簡(jiǎn)單隨機(jī)樣本 ,YR的方差為262.12Var(YR)令

n2-18-262.12 589.72n2 n1則n20.195n1也就是說,要使兩個(gè)估計(jì)具有相同的精度 ,普通方法所需的樣本量是比例估計(jì)的 5倍多.利用輔助變量 x,還可構(gòu)造指標(biāo) y的另一種估計(jì)YD Y b(X x)其中b是一個(gè)確定的常數(shù) .這種估計(jì)稱為差估計(jì) .在不放回簡(jiǎn)單隨機(jī)抽樣下 ,差估計(jì)YD具有性質(zhì):(1) E(YD) y,即YD是 y的無編估計(jì);(2)Var(YD)1(1-n-1)(nN-1

2b22yx-2bxy).當(dāng)常數(shù)b不能確定時(shí),常用樣本回歸系數(shù)n(Xi X)(Yi Y)i 1b n(Xi X)2i1這樣構(gòu)造的估計(jì)稱為回歸估計(jì) .記為YL.在不放回簡(jiǎn)單隨機(jī)抽樣下,差估計(jì)YD具有性質(zhì):(1)YL是y的近似無編估計(jì),偏差的階為1;n(2)Var(YL)1(1-n-1)2y(12).nN-1§1.4 分層抽樣在許多情況中,人們?cè)跀M訂抽樣方案前, 往往對(duì)總體有一些了解 .比如在對(duì)企業(yè)作調(diào)查時(shí),我們除了知道企業(yè)數(shù),還對(duì)企業(yè)的規(guī)模有大概的了解.哪些企業(yè)屬大型企業(yè),哪些企業(yè)屬中型企業(yè),哪些企業(yè)屬小型企業(yè)等方面的信息事先就知道.并且就調(diào)查的指標(biāo)而言,不同規(guī)模的企業(yè)可能差異很大,而同等模型的企業(yè)可能差異較小.這種情況下,如果還用簡(jiǎn)單隨機(jī)抽樣方法,就可能出現(xiàn)極端情況:抽查的企業(yè)大多是大型企業(yè),或大多是小型企業(yè).如出現(xiàn)這種情況,調(diào)查結(jié)果的代表性就會(huì)很差,由此得出的統(tǒng)計(jì)結(jié)果可能與真實(shí)情況會(huì)有較大偏差,統(tǒng)計(jì)結(jié)論的可靠性值得懷疑.用分層抽樣方法能較好地克服以上弊端.-19-分層抽樣:將總體分成若干次級(jí)總體, 即層(strata ),然后在各層中獨(dú)立取樣 (采用簡(jiǎn)單隨機(jī)抽樣或其他抽樣方法 ),最后將在各層中的抽樣結(jié)果組合在一起估計(jì)總體參數(shù) .層的劃分有時(shí)是“自然”形成,有時(shí)根據(jù)某些指標(biāo)及已有的信息劃分.下面給出幾個(gè)分層的例子.在審計(jì)金融交易時(shí) ,可根據(jù)面值將交易分層 .在人群樣本中,經(jīng)常根據(jù)地理位置劃分自然層 .在對(duì)公司經(jīng)營(yíng)狀況調(diào)查時(shí) ,可根據(jù)公司規(guī)模分層 .也可根據(jù)公司所屬行業(yè)分層 .采用分層抽樣的原因有很多,采用分層抽樣主要是為了提高樣本的代表性,提升效果 .另外,如除了對(duì)總體的整體信息感興趣外, 還希望得到自然次總體的信息, 這時(shí)采用分層抽樣是自然的選擇.本節(jié)主要討論各層均采用簡(jiǎn)單隨機(jī)抽樣時(shí),分層樣本均值的性質(zhì),以及如何在層間分配樣本容量,并比較不同的分配方案的效度.同時(shí)還與相同總?cè)萘康暮?jiǎn)單隨機(jī)抽樣比較估計(jì)的精度.分層估計(jì)的性質(zhì)設(shè)總體分為L(zhǎng)層,第l層中個(gè)體數(shù)為Nl,第l層的總體均值和方差分別為l和2,l1,2,,L.總體的個(gè)體總數(shù)為NN1N2NL.第l層的總體比例為lWlNl/N.總體均值為L(zhǎng)Wlll1設(shè)在第l層內(nèi)抽取了容量為nl的樣本X1l,X2l,,Xnl,第l層的樣本均值為l1nlXilXlnli1Xl可以是l的估計(jì),而總體均值的估計(jì)為?XsLWlXll1該估計(jì)具有下面性質(zhì).性質(zhì)1.4.1Xs是總體均值的無偏估計(jì),即-20-EXs性質(zhì)1.4.2 Xs的方差為L(zhǎng)21nl-1Var(Xs)Wl(1-)l1nlNl-1

2l如果各層中樣本比例很小時(shí) ,有LW22Var(Xs)ll.nll1例1.12我們?cè)俅慰紤]醫(yī)院總體.假設(shè)每個(gè)醫(yī)院的床位數(shù)是已知的,我們可利用這個(gè)信息,根據(jù)床位數(shù)對(duì)醫(yī)院進(jìn)行分層處理.令層A由最小的98個(gè)醫(yī)院組成,層B是98個(gè)次大的,層C是98個(gè)再大的,層D是99個(gè)最大的.下表顯示了分層的結(jié)果層NlWlllA980.249182.9103.4B980.249526.5204.8C980.249956.3243.5D990.2511591.2419.2假設(shè)總樣本容量為n,令n1n2n3n4n4忽略有限總體校正,利用上面表格中的數(shù)據(jù),我們有Var(Xs)Wl272042.6nln和268.4Xs n與比例估計(jì)的標(biāo)準(zhǔn)誤差相差無幾 .比簡(jiǎn)單隨機(jī)樣本估計(jì)的標(biāo)準(zhǔn)誤差少許多 .總體總數(shù) 的分層估計(jì)為Ts NXs.性質(zhì)1.4.3 總體總數(shù) 的分層估計(jì)Ts NXs,的期望和方差分別為-21-ETsLNl21(1-nl-1)Var(Ts)l1nlNl!-1

2.為得到估計(jì)Xs,Ts的標(biāo)準(zhǔn)誤差,我們需要先估計(jì)各層的方差,再代入以上公式中.l2的估計(jì)為Sl21nl(Xil-Xl)2nl-1i1從而Xs的方差的估計(jì)為L(zhǎng)1(1-nl-1)Sl2S2Wl2Xsl1nlNl!-1例1.13從醫(yī)院總體中抽取總?cè)萘繛?0的樣本,每層抽取容量為10的樣本.由樣本數(shù)據(jù)算得X1240.6,s126827.6X2507.4,s2223790.7X3,242573.0865.1s3X41716.5,s42152099.6從而Xs832.5.分層樣本均值的方差估計(jì)如下SX2s14Wl2(1-nl-1)Sl21282.010l1Nl!-1因此SXs35.8出院人數(shù)總體均值的近似 95%的置信區(qū)間為 Xs 1.96SXs (762.4,902.7).總出院人數(shù)的估計(jì)為Ts393832.5327172.Ts的標(biāo)準(zhǔn)差為S14096.總體總數(shù)Ts的近似95%的置信區(qū)間為Ts1.96ST(299596,354748).s分配方法分層估計(jì)的精度與在層內(nèi)分配的樣本量n1,,nL有關(guān),那么在固定總樣本容量n的條-22-件下,該如何分配 n1, ,nL,使得Xs的方差最小.為簡(jiǎn)便起見,我們忽略有限總體校正 .下面定理給出了結(jié)果 .定理(奈曼分配 ) 在n1 nL n的限制條件下 ,最小化Var(Xs)的樣本容量n1, ,nL是Wl lnl LWk kk 1

n,l 1,2, ,L.最優(yōu)分配得到的分層估計(jì)記為Xso,其方差為L(zhǎng))2(WllVar(Xso)l1n這個(gè)結(jié)論的證明并不困難,實(shí)際上就是條件極值問題.例1.14 對(duì)于醫(yī)院總體 ,利用例1.12中的數(shù)據(jù),最優(yōu)分配的權(quán)重為層 A B C D權(quán)重 0.106 0.210 0.250 0.434最優(yōu)分配依賴于分層方差 ,而這一般是不知道的 .此外,如果調(diào)查個(gè)體的多項(xiàng)指標(biāo)或多個(gè)屬性,通常不可能找到同時(shí)最優(yōu)的分配方案.一個(gè)簡(jiǎn)單易行且使用廣泛的方案是等比例的分配方案,即n1n2nLN1N2NL這種方法稱為比例分配(proportionalallocation).基于比例分配的總體均值估計(jì)為Xsp

1n

L nlXill 1i 1如果忽略有限總體校正 ,在基于比例分配的分層下 ,總體均值估計(jì)的方差為Var(Xsp)1LWll2nl1現(xiàn)在比較Var(Xso)和Var(Xsp),以找出最優(yōu)分配優(yōu)于比例分配的條件.當(dāng)然除非-23-12L,否則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論