




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、抽樣及樣本含量估計(jì)抽樣及樣本含量估計(jì)北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院流行病學(xué)系王 麗主要內(nèi)容主要內(nèi)容l概述l抽樣l樣本含量估計(jì)抽樣抽樣l抽樣是通過(guò)抽取總體中的部分單元,收集這些單元的信息,用來(lái)對(duì)總體進(jìn)行推斷的一種手段總體抽取樣本推斷總體樣本流行病學(xué)研究中涉及到的抽樣流行病學(xué)研究中涉及到的抽樣l抽樣通常會(huì)在橫斷面研究中討論.l其他研究中也會(huì)涉及抽樣的問(wèn)題. l隊(duì)列研究:研究對(duì)象的選擇l病例對(duì)照研究:病例和對(duì)照的選擇,尤其是對(duì)照l(shuí)臨床試驗(yàn):將研究對(duì)象隨機(jī)分配到不同的處理組為什么要抽樣?為什么要抽樣?l為什么不能對(duì)每個(gè)研究對(duì)象都進(jìn)行調(diào)查(抽樣的優(yōu)點(diǎn))?l節(jié)約費(fèi)用l時(shí)效性強(qiáng)l可以承擔(dān)全面調(diào)查無(wú)法勝任的工作l有助
2、于提高調(diào)查數(shù)據(jù)的質(zhì)量普查普查 vs 抽樣抽樣l抽樣調(diào)查不能代替普查l普查能提供研究對(duì)象的總體情況,還可以提供各區(qū)域、各類別的統(tǒng)計(jì)信息l普查是構(gòu)建抽樣框的基礎(chǔ)l抽樣調(diào)查作為普查的補(bǔ)充l我國(guó)每10年進(jìn)行一次全國(guó)性的人口普查,中間每年進(jìn)行一次人口變動(dòng)量的抽樣調(diào)查,對(duì)當(dāng)年的人口出生、死亡、遷移等情況進(jìn)行估計(jì)全國(guó)第六次人口普查工作全國(guó)第六次人口普查工作l普查標(biāo)準(zhǔn)時(shí)點(diǎn):普查年度(2010年的11月1日零日零時(shí)l 普查對(duì)象:“普查標(biāo)準(zhǔn)時(shí)點(diǎn)在中華人民共和國(guó)境內(nèi)的自然人,以及在中華人民共和國(guó)境外但未定居的中國(guó)公民,不包括在中華人民共和國(guó)境內(nèi)短期停留的境外人員”l調(diào)查內(nèi)容:人口和住戶的基本情況,包括姓名、性別、年
3、齡、民族、國(guó)籍、受教育程度、行業(yè)、職業(yè)、遷移流動(dòng)、社會(huì)保障、婚姻、生育、死亡、住房情況等。普查普查 VS 抽樣抽樣l用抽樣調(diào)查對(duì)全面統(tǒng)計(jì)資料進(jìn)行評(píng)估和修正l在普查結(jié)束后,采用抽查對(duì)隨機(jī)抽取的部分單位進(jìn)行自己復(fù)核,計(jì)算誤差率,對(duì)普查結(jié)果進(jìn)行質(zhì)量評(píng)估和數(shù)據(jù)修正l利用抽樣調(diào)查進(jìn)行深層次的分析l利用抽樣調(diào)查,提前獲得總體目標(biāo)量的估計(jì)抽樣抽樣 l抽樣被廣泛的應(yīng)用于各個(gè)領(lǐng)域l政治方面: 美國(guó)總統(tǒng)大選投票(蓋洛普公司)l經(jīng)濟(jì)方面: 消費(fèi)者對(duì)整個(gè)國(guó)家的經(jīng)濟(jì)形勢(shì)以及個(gè)人的消費(fèi)能力等有關(guān)消費(fèi)信心的調(diào)查 l由于不太可能對(duì)目標(biāo)人群中的所有的人進(jìn)行調(diào)查,因此在大多數(shù)調(diào)查中都可能會(huì)涉及到抽樣 抽樣在公共衛(wèi)生中的應(yīng)用抽樣在
4、公共衛(wèi)生中的應(yīng)用l衛(wèi)生機(jī)構(gòu)想評(píng)價(jià)全國(guó)的衛(wèi)生現(xiàn)狀(如:一些重要的慢性病的患病情況、保險(xiǎn)的覆蓋率、醫(yī)療保健的可獲得性等),從而指導(dǎo)衛(wèi)生資源的分配,并評(píng)價(jià)衛(wèi)生政策的效果。 l在美國(guó),National Center for Health Statistics (NCHS)是主要的衛(wèi)生統(tǒng)計(jì)機(jī)構(gòu) (/nchs/about.htm),先后主持了一系列的調(diào)查,如 l全國(guó)衛(wèi)生及營(yíng)養(yǎng)狀況調(diào)查 l全國(guó)家庭增長(zhǎng)的調(diào)查l在中國(guó),近幾年來(lái),也先后開(kāi)展了一系列的全國(guó)性健康調(diào)查,如:l全國(guó)慢性乙型肝炎感染狀態(tài)調(diào)查l結(jié)核病患病率調(diào)查Geographic Distribution and Dem
5、ographic Characteristics of the study population from 160 DSPs in the Seroepidemiological Survey in 2006 aged 1-4 years ( n = 16376 ) aged 5-14 years ( n = 23753 ) aged 15-59 years ( n =41646 )Male:38895Female:42880Sample Size: 81775Sampling Design: Multistage SamplingLab Test: ELISAData source:from
6、 Xiaofeng Liang and Fuqiang Cui of China CDCGlobal Distribution of HBV Infection by HBsAg endemicity HBsAg endemicity 8% - High endemic areas (45%)27% - moderate endemic areas(43%) 2% - Low endemic areas (12%)Data Source: (1) Dai ZC, Qi GM. Seroepidemiological Survey in Chinese population (part one)
7、, 1992-1995. Beijing. Sci Tech Exp 1996:3959. (2) Liang XF et al. Vaccine 2009 27:6550-6557HBV Carriage: 9.75% in 1992HBV Carriage: 7.18% in 2006你所知道的抽樣中可能你所知道的抽樣中可能存在什么問(wèn)題?存在什么問(wèn)題?有關(guān)抽樣的基本概念有關(guān)抽樣的基本概念總體總體l目標(biāo)總體:所要研究對(duì)象的理想的總體,即研究對(duì)象的全體。 l抽樣總體:目標(biāo)總體中選擇的有代表性的、限定具體時(shí)間和地域范圍的可以獲得的群體。 目標(biāo)總體和抽樣總體的差別抽樣框抽樣框l抽樣總體的具體表現(xiàn)是
8、抽樣框,抽樣框應(yīng)包含所有抽樣單元的名單.l抽樣框中應(yīng)該有抽樣單元名稱和地理位置的信息,以便研究人員能找到被選中的單元.l好的抽樣框不僅與目標(biāo)總體保持一致,而且還盡可能的提供與研究的目標(biāo)量有關(guān)的輔助信息。l年齡、性別等l舉例:l居委會(huì)住戶名單抽樣的類型抽樣的類型 l概率抽樣l按一定的概率以隨機(jī)原則抽取樣本l概率抽樣中抽樣框是關(guān)鍵l抽中的概率已知l當(dāng)用樣本對(duì)總體目標(biāo)進(jìn)行估計(jì)時(shí),要考慮到該樣本被抽中的概率l“概率抽樣”不等于“等概率抽樣”l非概率抽樣(如:方便方便, 判斷樣本,目的抽樣等):不是按照隨機(jī)原則,而是根據(jù)主觀判斷有目的,有意識(shí)的進(jìn)行。但則不可能從樣本外推到總體或進(jìn)行統(tǒng)計(jì)推斷l(xiāng)首選概率抽樣
9、概率抽樣的類型概率抽樣的類型l單純隨機(jī)抽樣(Simple random sampling)l分層抽樣(Sampling with stratification)l整群抽樣(Cluster sampling)l系統(tǒng)抽樣(Systematic sampling)l多階段抽樣(Multistage sampling )單純隨機(jī)抽樣單純隨機(jī)抽樣單純隨機(jī)抽樣單純隨機(jī)抽樣l從含有N個(gè)單元的總體中抽取n個(gè)單元組成樣本,l總體中的每個(gè)觀察單位都有同等機(jī)會(huì)被抽取進(jìn)入樣本(1/CNn )l最簡(jiǎn)單的抽樣方法,是其他抽樣方法的基礎(chǔ)抽樣方法抽樣方法l先將調(diào)查總體的全部觀察單位統(tǒng)一編號(hào),再用隨機(jī)數(shù)字表或抽簽等方法隨機(jī)抽取
10、部分觀察單位組成樣本 l舉例:假如你想從ID號(hào)為1 2 3 6 7 8 9 10 11 17的10人中隨機(jī)抽取三人l抽簽l隨機(jī)數(shù)字隨機(jī)數(shù)字法隨機(jī)數(shù)字法l使用EXCEL中的RAND()10.70444620.56682930.00925360.25185470.29714580.70899690.818349100.792495110.358031170.944461170.94446190.818349100.79249580.70899610.70444620.566829110.35803170.29714560.25185430.009253樣本估計(jì)和總體參數(shù)樣本估計(jì)和總體參數(shù)l對(duì)于簡(jiǎn)單
11、隨機(jī)抽樣,可以用樣本均數(shù)來(lái)估計(jì)總體均數(shù)24簡(jiǎn)單隨機(jī)抽樣的特點(diǎn)簡(jiǎn)單隨機(jī)抽樣的特點(diǎn)l優(yōu)點(diǎn): (1)比較容易理解和掌握;(2)抽樣框不需要其他輔助信息;l缺點(diǎn): (1)沒(méi)有利用輔助信息;(2)樣本分散,面訪費(fèi)用較高;(3)有可能抽到較差的樣本;(4)抽選大樣本比較費(fèi)時(shí)簡(jiǎn)單隨機(jī)抽樣樣本量估計(jì)(總體參數(shù)簡(jiǎn)單隨機(jī)抽樣樣本量估計(jì)(總體參數(shù)為為p )2/ 222(1)n:0 . 7/ 2n15 7 . 3s i n(1)uu文獻(xiàn)估計(jì)人群患病率:容許控制誤差但當(dāng) 0 . 3 或時(shí)例:估計(jì)的老年癡呆患病率為例:估計(jì)的老年癡呆患病率為 P = 2; 定定 0.05 0.05,則,則 = 1.96;定;定 = 0.1
12、P時(shí):時(shí): n= 1.96 X (0.02 X 0.98)1/2 / (0.1 X 0.02)2 = 18824 或采用下述簡(jiǎn)化的公式估計(jì):或采用下述簡(jiǎn)化的公式估計(jì): n = 400 x (1- p)/p = 400 X (1-0.02)/0.02 = 19600簡(jiǎn)單隨機(jī)抽樣樣本量估計(jì)(總體參數(shù)簡(jiǎn)單隨機(jī)抽樣樣本量估計(jì)(總體參數(shù)為均數(shù)為均數(shù))22/222=%=nxu :總體的方差,根據(jù)預(yù)試驗(yàn)估計(jì)當(dāng)用相對(duì)容許誤差(與總體均數(shù)相差不超過(guò)真值的( )表示時(shí),則舉例:抽樣調(diào)查時(shí)估計(jì)總體均數(shù)時(shí)舉例:抽樣調(diào)查時(shí)估計(jì)總體均數(shù)時(shí)l為調(diào)查某一鎮(zhèn)靜藥的某有效成分的含量,采用單純隨機(jī)抽樣的方法。據(jù)報(bào)道,一個(gè)鎮(zhèn)靜藥中某
13、有效成分含量為2.25,標(biāo)準(zhǔn)差為0.85l以=0.05,估計(jì)有效成分含量的均值在真值的 0.10范圍內(nèi),需要調(diào)查多少樣本?l以95%的可信度,估計(jì)有效成分含量的均值在真值的10%范圍內(nèi),需要多大的樣本?ln1=1.962*0.852/0.102=277.56278lN2=1.962*0.852/(2.25*10%)2=54.3855l簡(jiǎn)單隨機(jī)抽樣樣本量估計(jì)是其他概率抽樣方法樣本量估計(jì)的基礎(chǔ)l其他概率抽樣樣本量估計(jì)可以用簡(jiǎn)單隨機(jī)抽樣樣本量乘以設(shè)計(jì)效應(yīng)deffl如多階段抽樣deff范圍約在1.33之間分層隨機(jī)抽樣分層隨機(jī)抽樣分層抽樣的必要性分層抽樣的必要性l簡(jiǎn)單隨機(jī)抽樣適用條件:調(diào)查的總體的N較小
14、l倘若N較大,如總體是全國(guó)13億人口,要從中抽取10萬(wàn)人的樣本,則變得很困難。表現(xiàn)在:l實(shí)施的困難l樣本的代表性定義定義l在抽樣前,先將總體N個(gè)單元?jiǎng)澐殖蒐個(gè)互不重復(fù)的子總體,每個(gè)子總體稱為層,其大小分別為N1,N2,NL,這L個(gè)層合起來(lái)就是整個(gè)總體。然后,在每個(gè)層中分別獨(dú)立地進(jìn)行抽樣。 分層分層 的原則的原則l調(diào)查目的:l如某指標(biāo)在不同地區(qū)、不同民族的分布特征。l層內(nèi)單元具有相同性質(zhì) l層間單元的差異盡可能大 l抽樣組織實(shí)施的方便 分層抽樣的抽樣過(guò)程分層抽樣的抽樣過(guò)程l按總體某一特征按總體某一特征(如年齡、性別或職業(yè)暴露等如年齡、性別或職業(yè)暴露等)將總體將總體N分為若干類分為若干類(組組),
15、即分層。該分類,即分層。該分類(組組)數(shù)即層數(shù)數(shù)即層數(shù)l確定每層抽樣比例。確定每層抽樣比例。l若在各層采用相同的抽樣比例若在各層采用相同的抽樣比例(Pi=總樣本人數(shù)總樣本人數(shù) / 總體人數(shù)總體人數(shù)= n / N),即樣本中各層抽取人數(shù)占總體中各層人數(shù)的比例相同時(shí),即樣本中各層抽取人數(shù)占總體中各層人數(shù)的比例相同時(shí),稱比例抽樣,適用于各層的率在,稱比例抽樣,適用于各層的率在0.10.9 之間總體人群的抽之間總體人群的抽樣。樣。l相反,各層抽樣比例不同時(shí)稱非比例抽樣,適用于各層的率相反,各層抽樣比例不同時(shí)稱非比例抽樣,適用于各層的率相差較大時(shí),如在相差較大時(shí),如在0.0010.500或或0.9500
16、.999之間之間分層抽樣的過(guò)程(續(xù))分層抽樣的過(guò)程(續(xù))l確定每層抽樣人數(shù)確定每層抽樣人數(shù) nil比例抽樣:比例抽樣: ni =總體第總體第i層人數(shù)層人數(shù)X (總樣本數(shù)總樣本數(shù) / 總體人數(shù)總體人數(shù)) = Ni (n / N)l非比例抽樣:非比例抽樣:l在每一層對(duì)抽樣單位進(jìn)行編號(hào),制作每層的抽樣框在每一層對(duì)抽樣單位進(jìn)行編號(hào),制作每層的抽樣框l按單純隨機(jī)抽樣方法,根據(jù)每層的抽樣人數(shù)抽取研究按單純隨機(jī)抽樣方法,根據(jù)每層的抽樣人數(shù)抽取研究對(duì)象對(duì)象 某研究者計(jì)劃在某工廠某研究者計(jì)劃在某工廠5000050000名中調(diào)查高血壓患名中調(diào)查高血壓患病率。該廠不同工種的工人分布于病率。該廠不同工種的工人分布于1
17、111個(gè)車間。個(gè)車間。比例抽樣實(shí)例比例抽樣實(shí)例 (1) 總樣本數(shù):總樣本數(shù):n = 1000人;人; (2) 分層:按工種即車間將總體人數(shù)分層:按工種即車間將總體人數(shù)50000人分人分為為11層;層; (3) 確定每層抽樣比例和抽樣人數(shù):確定每層抽樣比例和抽樣人數(shù): 第一車間抽樣比例:第一車間抽樣比例: P1 = 總樣本人數(shù)總樣本人數(shù)1000/全廠總?cè)藬?shù)全廠總?cè)藬?shù)50000 = 0.02 第一車間抽樣人數(shù):第一車間抽樣人數(shù):n1= 1400 X 0.02 =28 第二車間抽樣比例:第二車間抽樣比例: P2 = 總樣本人數(shù)總樣本人數(shù)1000/全廠總?cè)藬?shù)全廠總?cè)藬?shù)50000 = 0.02 第二車間
18、抽樣人數(shù):第二車間抽樣人數(shù):n2= 7000 X 0.02 =140; 依次確定每車間的抽樣人數(shù)。依次確定每車間的抽樣人數(shù)。 (4) 按簡(jiǎn)單隨機(jī)抽樣方法按簡(jiǎn)單隨機(jī)抽樣方法, 從每一層從每一層(車間車間)內(nèi)抽內(nèi)抽出相應(yīng)樣本數(shù)量的樣本,各層樣本數(shù)量之和即等出相應(yīng)樣本數(shù)量的樣本,各層樣本數(shù)量之和即等于樣本數(shù)于樣本數(shù)n,共,共1000人。人。 分層抽樣的作用分層抽樣的作用 l抽樣效率高,估計(jì)精度高l能同時(shí)對(duì)總體指標(biāo)和各層指標(biāo)進(jìn)行估計(jì)l各層內(nèi)抽樣方法可不同整群抽樣整群抽樣(Cluster Sampling)定義定義l先將總體分成若干群體,形成一個(gè)抽樣框;l從中隨機(jī)抽取幾個(gè)群體組成樣本;l對(duì)抽樣群體中的全
19、部個(gè)體進(jìn)行調(diào)查整群抽樣過(guò)程整群抽樣過(guò)程l將總體中的個(gè)體按其某一屬性將總體中的個(gè)體按其某一屬性(如行政區(qū)或機(jī)構(gòu)等如行政區(qū)或機(jī)構(gòu)等)分為分為若干個(gè)群,若干個(gè)群, 按群作為抽樣單位編號(hào)制作抽樣框按群作為抽樣單位編號(hào)制作抽樣框l用簡(jiǎn)單隨機(jī)抽樣方法抽出調(diào)查樣本用簡(jiǎn)單隨機(jī)抽樣方法抽出調(diào)查樣本l再對(duì)每一群內(nèi)所有個(gè)體均進(jìn)行調(diào)查再對(duì)每一群內(nèi)所有個(gè)體均進(jìn)行調(diào)查整群抽樣的優(yōu)點(diǎn)整群抽樣的優(yōu)點(diǎn) 整群抽樣的缺點(diǎn)整群抽樣的缺點(diǎn)(1)能大大減低收集數(shù)據(jù)的費(fèi)用;(2)當(dāng)總體單元自然形成群時(shí),容易取得抽樣框,抽樣也更容易;(3)當(dāng)群內(nèi)單元差異大,而不同群之間的差異小時(shí),可以提高效率。 (1)若群內(nèi)個(gè)單元有趨同性,效率將會(huì)降低;
20、(2)通常無(wú)法預(yù)先知道總樣本量,因?yàn)椴恢廊簝?nèi)有多少單元; (3)方差估計(jì)比簡(jiǎn)單隨機(jī)抽樣更為復(fù)雜 “分層分層”和和“整群整群”之間的區(qū)別之間的區(qū)別l均為分組的因素l在分層抽樣中,所有層都將包含在最終的樣本中。 同時(shí)在分層時(shí),我們期望層間差異盡可能的大,層內(nèi)的差異盡可能的小。l而在整群抽樣中,只有“群”中的一個(gè)樣本被包含在最終的樣本中,我們期望不同群之間 差異盡可能的小,而群內(nèi)單元之間的差異盡可能的大。 在群間差異較小且群內(nèi)個(gè)體變異與總體變異在群間差異較小且群內(nèi)個(gè)體變異與總體變異相近時(shí),整群抽樣的調(diào)查結(jié)果對(duì)總體有很好的代相近時(shí),整群抽樣的調(diào)查結(jié)果對(duì)總體有很好的代表性。表性。 整群抽樣常和分層抽樣
21、結(jié)合,稱分層整群抽整群抽樣常和分層抽樣結(jié)合,稱分層整群抽樣。樣。整群抽樣的精確性整群抽樣的精確性l相同樣本下,整群抽樣通常精確性要低于簡(jiǎn)單隨機(jī)抽樣l若想達(dá)到相同的精確性,整群抽樣與簡(jiǎn)單隨機(jī)抽樣的樣本量之比應(yīng)近似為: 1 + (群內(nèi)相關(guān)系數(shù))*(群的大小 -1) l當(dāng)群內(nèi)同質(zhì)(即群內(nèi)相關(guān)系數(shù)大時(shí))或者各個(gè)群的樣本量太大時(shí),精確性會(huì)更差。因此,“群”的大小對(duì)精確度會(huì)有很大的影響。 系統(tǒng)抽樣系統(tǒng)抽樣定義定義l是按照某種順序給總體中的每個(gè)個(gè)體編號(hào),然后隨機(jī)抽取一個(gè)編號(hào)作為第一個(gè)調(diào)查個(gè)體,其他的調(diào)查個(gè)體按照某種確定的規(guī)則抽取l最簡(jiǎn)單同時(shí)也最常用的是等間隔抽取,又稱“等距抽樣”l又稱“機(jī)械抽樣”系統(tǒng)抽樣系
22、統(tǒng)抽樣l總體的編號(hào)l隨機(jī),系統(tǒng)抽樣等同于簡(jiǎn)單隨機(jī)抽樣l非完全隨機(jī),而是帶有一定的規(guī)律性,則系統(tǒng)抽樣后的樣本代表性差系統(tǒng)抽樣時(shí)總體單元的排序系統(tǒng)抽樣時(shí)總體單元的排序l按無(wú)關(guān)標(biāo)志排列:各單元的排列順序與所研究的內(nèi)容無(wú)關(guān)。此種排隊(duì)抽樣類似簡(jiǎn)單隨機(jī)抽樣l如:調(diào)查學(xué)生的視力,將學(xué)生按學(xué)號(hào)排序l按有關(guān)標(biāo)志排序:各單元的排列順序與所研究的內(nèi)容有關(guān)。此種排隊(duì)抽樣為有序系統(tǒng)抽樣,代表性更好,減少抽樣誤差,提高估計(jì)的效率l如:調(diào)查學(xué)生的身高,將全部學(xué)生按入校體檢時(shí)的身高由高到低排序l處于兩者之間,根據(jù)各單元原有的自然位置進(jìn)行排序。l如:入戶調(diào)查根據(jù)街道門牌號(hào)碼按一定間隔抽樣系統(tǒng)抽樣的優(yōu)點(diǎn)系統(tǒng)抽樣的優(yōu)點(diǎn)l實(shí)施方便l
23、能保證樣本有一定程度的代表性l有時(shí)系統(tǒng)抽樣不必重新編制抽樣框,尤其是在被調(diào)查單元具有自然順序排列時(shí)。如:流水線上生產(chǎn)的產(chǎn)品每隔k各抽查一次系統(tǒng)抽樣的缺點(diǎn)系統(tǒng)抽樣的缺點(diǎn)l樣本代表性不好:總體中單元的排列呈現(xiàn)一定的規(guī)律性甚至周期性時(shí)l在實(shí)際中被認(rèn)為行之有效的系統(tǒng)抽樣一般不是嚴(yán)格的概率抽樣,此時(shí)要估算估計(jì)量的方差會(huì)遇到很大的問(wèn)題系統(tǒng)抽樣、系統(tǒng)抽樣、整群抽樣和分層抽樣的關(guān)系整群抽樣和分層抽樣的關(guān)系l系統(tǒng)抽樣的特點(diǎn):l一旦起始單元確定,整個(gè)樣本就確定了l系統(tǒng)抽樣可以看成是一種特殊的整群抽樣,也可以看成是一種特殊的分層抽樣(但不是分層隨機(jī)抽樣)四種抽樣方法的比較四種抽樣方法的比較簡(jiǎn)單隨機(jī)抽樣系統(tǒng)抽樣整群抽
24、樣分層抽樣優(yōu)點(diǎn)簡(jiǎn)單直觀,是其他抽樣的基礎(chǔ);均數(shù)(或比率)及標(biāo)準(zhǔn)誤計(jì)算簡(jiǎn)便簡(jiǎn)便易行;易得到按比例分配的樣本便于組織;節(jié)省經(jīng)費(fèi);容易控制調(diào)查質(zhì)量抽樣誤差小;對(duì)不同層可采用不同抽樣方法;可對(duì)不同層獨(dú)立進(jìn)行分析缺點(diǎn)不適合從例數(shù)較多的總體抽樣;樣本分散,難以組織調(diào)查如果抽樣間隔與抽樣對(duì)象的某些特征分布吻合,容易產(chǎn)生偏差抽樣誤差較大;群間變異越大,抽樣誤差越大需要掌握對(duì)抽樣對(duì)象的分層特征。抽樣工作量大適用范圍主要用于小樣本的情形適合抽樣對(duì)象有某種順序的情形適合抽樣總體很大的情況主要用于控制重要混雜因素的影響多階段抽樣多階段抽樣(multi-stage sampling)問(wèn)題的提出問(wèn)題的提出l整群抽樣具有樣
25、本比較集中的特點(diǎn),因此便于組織實(shí)施,回答率也很高。l但由于群內(nèi)通常具有相似性,尤其是當(dāng)群比較大時(shí),此時(shí)沒(méi)有必要對(duì)群內(nèi)所有單元都進(jìn)行調(diào)查,而是對(duì)群內(nèi)進(jìn)行再抽樣,對(duì)部分被抽中的單元進(jìn)行調(diào)查,即實(shí)際工作中的多階段抽樣??傮w多階段抽樣的定義多階段抽樣的定義 由兩個(gè)或更多個(gè)連續(xù)的階段抽取樣本的方法。由兩個(gè)或更多個(gè)連續(xù)的階段抽取樣本的方法。 多階抽樣示意圖:多階抽樣示意圖:第一階樣本最終樣本多階段抽樣多階段抽樣 常用于大規(guī)模的抽樣調(diào)查。基本原理是將總常用于大規(guī)模的抽樣調(diào)查?;驹硎菍⒖傮w按行政區(qū)體按行政區(qū)(如省、縣、鄉(xiāng)、村等如省、縣、鄉(xiāng)、村等)或機(jī)構(gòu)或機(jī)構(gòu)(如中央如中央、地方機(jī)構(gòu)等、地方機(jī)構(gòu)等)分級(jí),每
26、級(jí)均制作各自的抽樣框,分級(jí),每級(jí)均制作各自的抽樣框,然后逐級(jí)隨機(jī)抽取一定的抽樣單位組成樣本。然后逐級(jí)隨機(jī)抽取一定的抽樣單位組成樣本。 實(shí)例:實(shí)例:全國(guó)農(nóng)村腦卒中患病率調(diào)查全國(guó)農(nóng)村腦卒中患病率調(diào)查抽樣設(shè)計(jì)抽樣設(shè)計(jì)l將省作為第一級(jí)抽樣單位,假定全部的省均進(jìn)行調(diào)查,因而全部抽出l將每一省的縣作為第二級(jí)抽樣單位,從每省隨機(jī)抽取一定的縣l依次將鄉(xiāng)、村和村民定為第三、四、五級(jí)抽樣單位,逐一抽取相應(yīng)的樣本l全國(guó)調(diào)查的樣本為各省抽中的縣、鄉(xiāng)、村中的全部村民l在實(shí)際使用多階段抽樣時(shí),各階段的定義可以根據(jù)行政管理級(jí)別確定,如:街道、居委會(huì)、居民戶。l但也可根據(jù)組織的管理的方便和實(shí)際的可能跳過(guò)某些行政機(jī)構(gòu)多階段抽樣
27、抽樣方法與推斷原理多階段抽樣抽樣方法與推斷原理l多階段抽樣每一個(gè)階段的抽樣方法可以相同,也可多階段抽樣每一個(gè)階段的抽樣方法可以相同,也可以不同以不同l通常與分層抽樣、整群抽樣、系統(tǒng)抽樣結(jié)合使用通常與分層抽樣、整群抽樣、系統(tǒng)抽樣結(jié)合使用多階段抽樣舉例多階段抽樣舉例l某調(diào)查公司接受了一項(xiàng)關(guān)于全國(guó)城市居民人均奶制某調(diào)查公司接受了一項(xiàng)關(guān)于全國(guó)城市居民人均奶制品消費(fèi)支出及每天至少喝一杯鮮奶的人數(shù)的比例情品消費(fèi)支出及每天至少喝一杯鮮奶的人數(shù)的比例情況的調(diào)查。確定抽樣范圍為全國(guó)地級(jí)以上城市中的況的調(diào)查。確定抽樣范圍為全國(guó)地級(jí)以上城市中的成年居民。成年居民指年滿成年居民。成年居民指年滿18周歲以上的居民。周歲
28、以上的居民。l第一步:確定抽樣方法第一步:確定抽樣方法l多階段抽樣方法進(jìn)行方案設(shè)計(jì)。多階段抽樣方法進(jìn)行方案設(shè)計(jì)。l調(diào)查的最小單元:成年居民調(diào)查的最小單元:成年居民l第二步:樣本量的確定第二步:樣本量的確定l按簡(jiǎn)單隨機(jī)抽樣,在按簡(jiǎn)單隨機(jī)抽樣,在95%置信度下,絕對(duì)誤差為置信度下,絕對(duì)誤差為5%,取使方差達(dá),取使方差達(dá)到最大的(消費(fèi)奶制品的居民)比例到最大的(消費(fèi)奶制品的居民)比例50%,樣本量為:,樣本量為:n0=t2*P*Q/d2= 22*0.5*0.5/0.052=400(人)人)l根據(jù)以往的調(diào)查經(jīng)驗(yàn),估計(jì)應(yīng)答率根據(jù)以往的調(diào)查經(jīng)驗(yàn),估計(jì)應(yīng)答率=80%,則調(diào)整樣本量為,則調(diào)整樣本量為“400/
29、0.8=500(人)(人)l多階段抽樣的效率比簡(jiǎn)單隨機(jī)抽樣的效率低,設(shè)設(shè)計(jì)效應(yīng)多階段抽樣的效率比簡(jiǎn)單隨機(jī)抽樣的效率低,設(shè)設(shè)計(jì)效應(yīng)deff=3.2,則在全國(guó)調(diào)查的樣本量為:則在全國(guó)調(diào)查的樣本量為:5003.2=1600(人)(人)l各階段的樣本量配置為:各階段的樣本量配置為:l初級(jí)單元:初級(jí)單元:20個(gè)城市個(gè)城市l(wèi)二級(jí)單元:二級(jí)單元:80個(gè)街道,每個(gè)樣本市內(nèi)抽個(gè)街道,每個(gè)樣本市內(nèi)抽4個(gè)街道個(gè)街道l三級(jí)單元:三級(jí)單元:160個(gè)居委會(huì),每個(gè)樣本街道內(nèi)抽個(gè)居委會(huì),每個(gè)樣本街道內(nèi)抽2個(gè)居委會(huì)個(gè)居委會(huì)l四級(jí)單元:四級(jí)單元:1600個(gè)居民戶,每個(gè)樣本居委會(huì)內(nèi)抽個(gè)居民戶,每個(gè)樣本居委會(huì)內(nèi)抽10個(gè)居個(gè)居民戶民戶
30、l在樣本居民戶內(nèi),利用隨機(jī)表抽在樣本居民戶內(nèi),利用隨機(jī)表抽1名成年居民名成年居民l第三步:確定抽樣方法第三步:確定抽樣方法l第一階段:在全國(guó)城市中按與人口數(shù)成比例的放回的不第一階段:在全國(guó)城市中按與人口數(shù)成比例的放回的不等概率抽樣,即等概率抽樣,即PPS抽樣抽樣l第二階段和第三階段分別按與人口數(shù)成比例的第二階段和第三階段分別按與人口數(shù)成比例的不等概率不等概率等距抽樣等距抽樣l以第二階段為例:在某個(gè)被抽中的樣本城市中,將其所屬的以第二階段為例:在某個(gè)被抽中的樣本城市中,將其所屬的街道編號(hào),搜集各街道的人口數(shù),賦予每個(gè)街道與其人口相街道編號(hào),搜集各街道的人口數(shù),賦予每個(gè)街道與其人口相同的代碼數(shù);根
31、據(jù)該市總?cè)丝跀?shù)除以樣本量同的代碼數(shù);根據(jù)該市總?cè)丝跀?shù)除以樣本量4,確定抽樣間距;,確定抽樣間距;然后對(duì)代碼進(jìn)行隨機(jī)起點(diǎn)的等距抽樣,則被抽中代碼所在的然后對(duì)代碼進(jìn)行隨機(jī)起點(diǎn)的等距抽樣,則被抽中代碼所在的街道為樣本街道。街道為樣本街道。不等概率抽樣的提出:不等概率抽樣的提出:PPS抽樣抽樣(sampling with probability proportional to size)l出現(xiàn)總體單元差異大時(shí),將總體單元按規(guī)模(大?。┏霈F(xiàn)總體單元差異大時(shí),將總體單元按規(guī)模(大?。┓謱?,較大單元的層抽樣比高(甚至為分層,較大單元的層抽樣比高(甚至為100%),),而小單元的抽樣比低;而小單元的抽樣比低;
32、l賦予每個(gè)單元與其規(guī)模(或輔助變量)成比例的入賦予每個(gè)單元與其規(guī)模(或輔助變量)成比例的入樣概率樣概率l推算時(shí)對(duì)入樣概率較大的單元?jiǎng)t賦予其一個(gè)較小的推算時(shí)對(duì)入樣概率較大的單元?jiǎng)t賦予其一個(gè)較小的權(quán)重;反之,入樣概率較小,推算時(shí),賦予其一個(gè)權(quán)重;反之,入樣概率較小,推算時(shí),賦予其一個(gè)較大的權(quán)重。較大的權(quán)重。PPS抽樣舉例抽樣舉例l不放回按抽樣單位規(guī)模大小成比例的概率抽樣不放回按抽樣單位規(guī)模大小成比例的概率抽樣(PPS)方法簡(jiǎn)介)方法簡(jiǎn)介(鏈接)(鏈接)l第三步:確定抽樣方法(續(xù))第三步:確定抽樣方法(續(xù))l第四階段:分別在每個(gè)樣本居委會(huì)中,按等距抽樣抽出第四階段:分別在每個(gè)樣本居委會(huì)中,按等距抽樣
33、抽出10個(gè)居民戶。即根據(jù)居委會(huì)擁有的居民戶數(shù)除以樣本量個(gè)居民戶。即根據(jù)居委會(huì)擁有的居民戶數(shù)除以樣本量10得到抽樣間距,然后隨機(jī)起點(diǎn)等距抽樣。得到抽樣間距,然后隨機(jī)起點(diǎn)等距抽樣。l在每個(gè)居民戶中:按二維隨機(jī)表抽取在每個(gè)居民戶中:按二維隨機(jī)表抽取1名成年居民。名成年居民。l第四步:推算牛奶消費(fèi)量第四步:推算牛奶消費(fèi)量多階段抽樣小結(jié)多階段抽樣小結(jié)l對(duì)于大規(guī)模的抽樣調(diào)查項(xiàng)目,通常采用多階段抽樣。對(duì)于大規(guī)模的抽樣調(diào)查項(xiàng)目,通常采用多階段抽樣。此方法可以看作是對(duì)樣本群內(nèi)的單元進(jìn)行再抽樣的此方法可以看作是對(duì)樣本群內(nèi)的單元進(jìn)行再抽樣的一種方法。一種方法。l和整群抽樣一樣,當(dāng)各級(jí)單元大小相同時(shí),各階的和整群抽樣
34、一樣,當(dāng)各級(jí)單元大小相同時(shí),各階的抽樣采用等概率抽樣的方法。抽樣采用等概率抽樣的方法。l但是實(shí)際中,大多數(shù)是各級(jí)單元大小不同的情形,但是實(shí)際中,大多數(shù)是各級(jí)單元大小不同的情形,此時(shí)最簡(jiǎn)單的就是構(gòu)造自加權(quán)的樣本。即前幾階采此時(shí)最簡(jiǎn)單的就是構(gòu)造自加權(quán)的樣本。即前幾階采用用PPS抽樣,最后一階采用等概率抽樣,并且從第抽樣,最后一階采用等概率抽樣,并且從第二階開(kāi)始,每一階的樣本量都相同。二階開(kāi)始,每一階的樣本量都相同。多階段抽樣的優(yōu)點(diǎn)多階段抽樣的優(yōu)點(diǎn)l當(dāng)群具有同質(zhì)性時(shí),多階抽樣的效率高于整群抽樣l樣本的分布比簡(jiǎn)單隨機(jī)抽樣集中,調(diào)查可以節(jié)約時(shí)間和費(fèi)用l不需要整個(gè)總體單元的名錄框,只要群的名錄框和抽中群的
35、單元名單多階段抽樣的缺點(diǎn)多階段抽樣的缺點(diǎn)l效率不如簡(jiǎn)單隨機(jī)抽樣l調(diào)查的組織較整群抽樣復(fù)雜l估計(jì)值與抽樣方差的計(jì)算較為復(fù)雜抽樣調(diào)查的基本步驟和準(zhǔn)備抽樣調(diào)查的基本步驟和準(zhǔn)備l首先要確定調(diào)查的目的和要求首先要確定調(diào)查的目的和要求l了解哪些指標(biāo)了解哪些指標(biāo)l準(zhǔn)備估計(jì)哪些參數(shù)準(zhǔn)備估計(jì)哪些參數(shù)l參數(shù)估計(jì)的精度參數(shù)估計(jì)的精度l目的確定了,被抽樣的總體也就完全確定目的確定了,被抽樣的總體也就完全確定非概率抽樣非概率抽樣l方便抽樣l目的抽樣l滾雪球抽樣l志愿者抽樣方便抽樣方便抽樣l研究者根據(jù)現(xiàn)實(shí)情況,以自己方便的形式抽取偶然遇到的人作為調(diào)查對(duì)象,或者僅僅選擇那些離得最近的、最容易找到的人作為調(diào)查對(duì)象目的抽樣目的
36、抽樣l調(diào)查者根據(jù)研究的目標(biāo)和自己主觀的分析,來(lái)選擇和確定調(diào)查對(duì)象的方法。l研究者依據(jù)主觀判斷選取可以代表總體的個(gè)體作為樣本。樣本的代表性取決于研究者對(duì)總體的了解程度和判斷能力。滾雪球抽樣滾雪球抽樣l當(dāng)我們無(wú)法了解總體情況時(shí),可以從總體中的少數(shù)成員入手,對(duì)他們進(jìn)行調(diào)查,向他們?cè)儐?wèn)還知道哪些符合條件的人;再去找那些人并詢問(wèn)他們知道的人。如同滾雪球一樣,我們可以找到越來(lái)越多具有相同性質(zhì)的群體成員。非概率抽樣的優(yōu)缺點(diǎn)非概率抽樣的優(yōu)缺點(diǎn)l缺點(diǎn):l不能推論總體l優(yōu)點(diǎn):l有時(shí)嚴(yán)格的概率抽樣無(wú)法實(shí)現(xiàn)l可用于只是為了進(jìn)行探索性研究而不是推論總體l操作方便,省錢省力l注意:非概率抽樣也必須評(píng)價(jià)代表性試驗(yàn)設(shè)計(jì)中樣本
37、含量估計(jì)試驗(yàn)設(shè)計(jì)中樣本含量估計(jì)(一)率的估計(jì)與(一)率的估計(jì)與假設(shè)檢驗(yàn)的樣本量假設(shè)檢驗(yàn)的樣本量1.估計(jì)總體率估計(jì)總體率l為調(diào)查北京地區(qū)腸易激綜合癥的患病率,某衛(wèi)生部門在北京市居民中按簡(jiǎn)單隨機(jī)抽樣的方法進(jìn)行抽樣調(diào)查。根據(jù)文獻(xiàn)資料,人群患病率為15%。若要求在可信度為95%下,將容許誤差控制在3%,則應(yīng)抽出多少居民進(jìn)行調(diào)查? l如果人群患病率為45%,則樣本量為多少?1.估計(jì)總體率(續(xù))估計(jì)總體率(續(xù))2/ 222(1)n:0 .7/ 2n15 7 .3s in(1)uu文 獻(xiàn) 估 計(jì) 人 群 患 病 率: 容 許 控 制 誤 差但 當(dāng)0或(0)則單個(gè)總體率假設(shè)檢驗(yàn)時(shí)樣本量的估計(jì)公式為:l如果為雙
38、側(cè)檢驗(yàn),即H1:0則將公式中的u改為u/2即可 2200n11uu 1.645*(0.15*(1-0.15)1/2+1.282*(0.1*(1-0.1)1/22 N= - 0.052 = 377.9 378 2.單個(gè)總體率的假設(shè)檢驗(yàn)單個(gè)總體率的假設(shè)檢驗(yàn)(續(xù))續(xù))l當(dāng)P0.7時(shí),正態(tài)性較差,此時(shí)樣本量計(jì)算公式為: 110n2usinsinu3.完全隨機(jī)設(shè)計(jì)的兩個(gè)總體率的假設(shè)完全隨機(jī)設(shè)計(jì)的兩個(gè)總體率的假設(shè)檢驗(yàn)檢驗(yàn)l例:某單位研究甲、乙兩藥對(duì)某病的療效,預(yù)試驗(yàn)得甲藥有效率為60%,乙藥為85%?,F(xiàn)擬進(jìn)一步作治療試驗(yàn),設(shè)=0.05, =0.10,問(wèn)每組最少需要觀察多少病例?l設(shè)兩總體率為1、2,兩樣本
39、率為p1,p2。當(dāng)假設(shè)檢驗(yàn)為單側(cè)時(shí),用pearson 卡方檢驗(yàn)進(jìn)行檢驗(yàn)的樣本量為l 221211221212:/22111nnwherepppppppuuppppuu和分別為單側(cè)標(biāo)準(zhǔn)正態(tài)離差當(dāng)假設(shè)檢驗(yàn)為雙側(cè)時(shí),用當(dāng)假設(shè)檢驗(yàn)為雙側(cè)時(shí),用pearson pearson 卡卡方檢驗(yàn)進(jìn)行檢驗(yàn)的樣本量為方檢驗(yàn)進(jìn)行檢驗(yàn)的樣本量為2212/211221212:/22 111nnwherepppppppuup pp pP1=.60, p2=0.85, U0.05/2=1.96, U0.10=1.282 1.96*(2*0.725*0.275)0.5+1.282*(0.60*0.40+0.85*0.15)0.5
40、2N1=n2=- (0.60-0.85)2 =64.96 65l而當(dāng)兩個(gè)率都很小的時(shí)候,則樣本量為:21121n2+upsinsinup()4.完全隨機(jī)設(shè)計(jì)的多個(gè)總體率的假設(shè)完全隨機(jī)設(shè)計(jì)的多個(gè)總體率的假設(shè)檢驗(yàn)檢驗(yàn) l某單位擬觀察3種療法治療消化性潰瘍的效果,預(yù)試驗(yàn)結(jié)果為:甲法有效率為40%,乙法為50%,丙法為65%,設(shè)=0.05, =0.10,試估計(jì)所需樣本量。 2minmaxminmaxminmax2n11maxmin:=k1=0.5-/ 2=0.5+/ 222sinsinwhereppppppppddd為自由度時(shí)的界值(查表:值:多個(gè)樣本率比較時(shí)樣本量的計(jì)算)k:組數(shù)和為所有總體率估計(jì)值(樣本率)中的最大率和最效率,通過(guò)預(yù)試驗(yàn)獲得也可以估計(jì)最大率和最小率之差,然后計(jì)算和pppPmax=0.65, pmin=0.40, df=3-1=2, =0.05, =0.10查附表值(多個(gè)樣本率比較時(shí)樣本量估計(jì)用)0.05,0.10(2)=12.65N=2*12.65/(2sin-1(0.65)0.5 2sin-1(0.40)0.5)2 =98.8每組需要99例,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)銅版紙行業(yè)十三五規(guī)劃及發(fā)展?jié)摿Ψ治鰣?bào)告
- 2025-2030年中國(guó)路由器市場(chǎng)十三五規(guī)劃及發(fā)展策略分析報(bào)告
- 2025-2030年中國(guó)藥用碘行業(yè)十三五規(guī)劃與發(fā)展前景分析報(bào)告
- 2025-2030年中國(guó)背投式投影電視機(jī)項(xiàng)目投資風(fēng)險(xiǎn)分析報(bào)告
- 2025-2030年中國(guó)翻譯行業(yè)運(yùn)行動(dòng)態(tài)及投資發(fā)展前景預(yù)測(cè)報(bào)告
- 2025-2030年中國(guó)纜索起重機(jī)市場(chǎng)運(yùn)行態(tài)勢(shì)及發(fā)展趨勢(shì)分析報(bào)告
- 2025-2030年中國(guó)硫鐵礦燒渣行業(yè)運(yùn)行動(dòng)態(tài)規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)鹽酸美金剛行業(yè)競(jìng)爭(zhēng)格局及發(fā)展規(guī)劃分析報(bào)告
- 2025-2030年中國(guó)白紙板市場(chǎng)發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025安徽省建筑安全員A證考試題庫(kù)附答案
- (小學(xué)組)全國(guó)版圖知識(shí)競(jìng)賽考試題含答案
- 人教版一年級(jí)道德與法治下冊(cè)全冊(cè)教案
- 類風(fēng)濕關(guān)節(jié)炎前狀態(tài)診療專家共識(shí)(2024)解讀
- 2024-2030年中國(guó)化妝鏡行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- Project項(xiàng)目管理(從菜鳥(niǎo)到實(shí)戰(zhàn)高手)
- 食品加工機(jī)械與設(shè)備操作技能測(cè)試考核試卷
- SNT 1961.11-2013 出口食品過(guò)敏原成分檢測(cè) 第11部分:實(shí)時(shí)熒光PCR方法檢測(cè)麩質(zhì)成分
- 排洪渠施工施工方法
- 冀教版數(shù)學(xué)七年級(jí)上下冊(cè)知識(shí)點(diǎn)總結(jié)
- 第六章 圍手術(shù)期護(hù)理課件
- 2024廣東省深圳市寶安區(qū)中考初三二模英語(yǔ)試題及答案
評(píng)論
0/150
提交評(píng)論