人口普查的凈誤差

上傳人：1*** IP屬地：廣東上傳時間：2023-11-04 格式：DOCX 頁數(shù)：12 大?。?7.01KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

人口普查的凈誤差

一、估計普查凈誤差與前一次（2000年人口普查的后質(zhì)量檢查）相比，美國2010年的人口普查產(chǎn)生了一些改進，包括以下三個主要因素。主要的改進之一:美國2000年人口普查的事后質(zhì)量檢查只提供普查凈誤差,而2010年除了提供普查凈誤差之外,還提供凈誤差的兩個組成部分:遺漏誤差和錯誤計數(shù)誤差。所謂遺漏誤差是指,普查中沒有將應該包括的人包括進來;所謂錯誤計數(shù)誤差是指,普查中包括了不應該包括的人,例如,普查日后出生的嬰兒、普查日前死亡的人、臨時性訪問者、虛構的人和非居住單位的人、同一人在多個地點被重復計數(shù)、在錯誤的地址登記,等等。凈誤差是二者相抵的結果。分別估計遺漏誤差和錯誤計數(shù)誤差的必要性有三:一是遺漏有可能被錯誤計數(shù)抵消,從而掩蓋其實際存在的事實,而且這種抵消在各地區(qū)之間呈現(xiàn)不同特征,往往在較大范圍地區(qū)能夠抵消,但在較小范圍地區(qū)不能相互抵消;二是從凈誤差本身并不能看出遺漏誤差和錯誤計數(shù)誤差分別是多少,所以凈誤差的估計不能代替遺漏和錯誤計數(shù)誤差的估計,例如,凈誤差1%可能是遺漏4%和錯誤計數(shù)3%,也可能是遺漏6%和錯誤計數(shù)5%,還可能是其他相抵后的結果,到底是哪一種無法判斷;三是遺漏和錯誤計數(shù)有它們自身產(chǎn)生的原因,為了找出這些原因,對它們進行單獨研究和估計是非常必要的。主要的改進之二:修改普查正確計數(shù)定義。在人口普查中規(guī)定,所謂正確計數(shù),是要求對人口的一個計數(shù)應滿足完整性(記錄的內(nèi)容足以確認一個人的身份,例如,名字、地址、性別、出生年月、婚姻狀況、種族、民族、國籍);適當性(某人應該包括在普查中);唯一性(每個人在人口普查中僅僅被記錄一次);總體性(某人屬于目標總體的成員,即居住單位中的個人);位置正確性(某人記錄在他或她應該記錄的地方)五項標準。這里對正確計數(shù)定義的修改主要是針對上述第五項標準,即位置正確性標準來說的。在美國2000年人口普查的事后質(zhì)量檢查中,所謂位置正確,是要求在普查中計數(shù)的一個人必須計數(shù)在他(她)的常住地或是搜索區(qū)域的居住單位中。這里的搜索區(qū)域指的是常住地所在的調(diào)查小區(qū)群鄰近的一個環(huán)形區(qū)域。美國2010年事后質(zhì)量檢查方案則改為,一個應該被普查計數(shù)的美國人口,只要在普查視野范圍內(nèi)被計數(shù),不論這項計數(shù)的地點是否為本人的常住地都認為該計數(shù)是位置正確的計數(shù)。這就是說,當在某一個縣的范圍內(nèi)考慮人口普查時,該縣的一個應該被普查計數(shù)的人,只要在本縣的范圍內(nèi)被計數(shù),即為位置正確的計數(shù);當在某一個州的范圍內(nèi)考慮人口普查時,該州的一個應該被普查計數(shù)的人,只要在本州的范圍內(nèi)被計數(shù),即為位置正確的計數(shù);當在全國范圍內(nèi)考慮人口普查時,一個應該被普查計數(shù)的美國人口,只要在全國范圍內(nèi)被計數(shù),即為位置正確的計數(shù)。為了依照新的位置正確性標準來檢查普查質(zhì)量、估計普查凈誤差的構成部分,美國2010年人口普查表中需要增加兩個記錄項目:“在普查中某個人實際登記的位置”以及“在普查中應該登記的位置(應該登記的位置指常住地,即普查標準日左右大部分時間居住和睡覺的地方)”。主要的改進之三:應用羅吉斯蒂回歸模型。為了估計普查凈誤差,需要先將事后質(zhì)量檢查中收集的人口數(shù)與普查時登記的人口數(shù)結合起來構造“真實人口數(shù)”的估計量。這個“真實人口數(shù)”的估計量要依據(jù)“捕獲-再捕獲”模型來構造。為了滿足模型的理論背景,要求總體中的每一人口在普查中有相同的被登記概率,在事后質(zhì)量檢查中也有相同的被登記概率。為此,就需要將人口按其被登記的概率分層(分組),分別在各個層中來構造“真實人口數(shù)”的估計量。美國2000年人口普查的事后質(zhì)量檢查是對抽取的樣本進行事后分層來實現(xiàn)這一要求的;而其2010年方案則改為用羅吉斯蒂回歸模型來實現(xiàn)這一要求。關于上面第三項的改進,筆者(2010)已經(jīng)另外著文闡述。本文只對第一項和第二項改進的有關內(nèi)容進行解讀,其主要依據(jù)是米里和科斯坦尼奇(2006)的有關論證。二、檢查方案中“真實計數(shù)”的估計人口普查凈誤差是普查登記的人數(shù)與“真實人口數(shù)”估計值之差。這里主要回顧美國2000年人口普查的事后質(zhì)量檢查方案中估計“真實人口數(shù)”的幾個要點。前面說過,“真實人口數(shù)”的估計量是將事后質(zhì)量檢查中收集的人口數(shù)據(jù)與普查時登記的人口數(shù)據(jù)結合起來,依據(jù)“捕獲-再捕獲”模型來構造的。由于這個估計量同時應用了事后質(zhì)量檢查和人口普查兩套獨立的調(diào)查資料,所以稱之為“雙系統(tǒng)估計量”。關于這兩套調(diào)查資料及其合成的有關問題如下。(一)人口統(tǒng)計特征人口調(diào)查表(普查用的或是事后質(zhì)量檢查用的)中需要填寫的人口統(tǒng)計特征項目有:姓名、年齡、性別、種族和拉美血統(tǒng)、與戶主的關系。美國2000年方案中針對這些項目的情況確定了如下概念。1.滿足并不符合剖面數(shù)據(jù)定義的人如果一個人填寫了姓名以及姓名之外的至少一個特征項目,稱其為符合普查數(shù)據(jù)定義要求者;否則為不符合普查數(shù)據(jù)定義要求者。2.后續(xù)調(diào)查之后的處理辦法如果一個人填寫的人口統(tǒng)計特征項目完整無缺,稱其為具有足夠比較信息者;如果一個人是符合普查數(shù)據(jù)定義要求的人,但所填寫的個人特征尚不完整,稱其為比較信息不足者。對于不論是在普查登記中發(fā)生的還是在事后質(zhì)量檢查的登記中發(fā)生的不足比較信息者,美國2000年方案中規(guī)定,須將他們轉入后續(xù)調(diào)查以收集其額外信息。經(jīng)過后續(xù)調(diào)查之后的處理辦法為:其一,對于在事后質(zhì)量檢查的登記中發(fā)生的不足比較信息者,如果通過后續(xù)調(diào)查能夠收集到足夠用于比較的信息,便可以進一步將它們區(qū)分為匹配者還是未匹配者(匹配的概念見下文);如果無法收集到額外信息,就將他們作為懸而未決者處理,然后用已經(jīng)確定的匹配者和未匹配者數(shù)目計算加權平均匹配概率,并用這個概率將懸而未決者人數(shù)分割成匹配和未匹配人數(shù)兩部分。其二,對于在普查登記中發(fā)生的不足比較信息者,如果通過后續(xù)調(diào)查能夠收集到足夠用于比較的信息,便進一步將它們區(qū)分為是正確計數(shù)者還是錯誤計數(shù)者;如果無法收集到額外信息,就將他們作為懸而未決者處理,然后用已經(jīng)確定的正確計數(shù)者和錯誤計數(shù)者數(shù)目計算加權平均正確計數(shù)概率,并用這個概率將懸而未決者人數(shù)分割成正確計數(shù)和錯誤計數(shù)人數(shù)兩部分。注意,凡屬于由普查登記中的不足比較信息者轉變成的錯誤計數(shù)者(不論是通過收集額外信息確認的還是由懸而未決者分割得到的),一律視作不具備比較資格而將其排除在E樣本之外(E樣本見下文)。(二)p樣本的定義事后質(zhì)量檢查是從全國抽取概率樣本來進行的。不過,為了便于說明問題,暫時假定所做的是100%抽樣。這就是說,假定事后質(zhì)量檢查是重新做了一次與當初的人口普查相互獨立的另外一次普查,即事后普查(仍然登記當初的普查時點的狀態(tài)),通常把事后普查的調(diào)查結果叫做P樣本,P樣本中的人口數(shù)記做Np或簡單地記作P。這里,對“P樣本”這一術語中有關“樣本”的概念作一點說明:首先,“捕獲-再捕獲”模型中的統(tǒng)計總體是無限超總體,人口有限總體是無限超總體的隨機樣本,這里所謂的“樣本”,指的是無限超總體的隨機樣本。其次,事后質(zhì)量檢查的實際操作要從全國抽取概率樣本來進行,在所抽取的概率樣本中也會有所謂“P樣本”,但它實際上是這里的“P樣本”的子樣本。(三)登記的人數(shù)和dd人口普查登記的人數(shù)記作C。它包括4個組成部分:后期加入到普查中的人數(shù)LA;比較信息不足者的人數(shù)II;錯誤登記的人數(shù)ME;正確登記的人數(shù)CE。其中,ME和CE合在一起是人口普查中符合數(shù)據(jù)定義的、合格有效的、可以用來與事后質(zhì)量檢查資料(P樣本)進行比較的人數(shù)DD,通常將其叫做E樣本(關于“樣本”的概念,參見對“P樣本”的說明),E樣本的人數(shù)記作Ne(顯然,DD=Ne)。上述組成部分之間的關系見圖1。對上述構成項目說明如下:1.普查登記工作未完后期加入到普查中的人是指:在確認E樣本的時候他們的普查登記工作尚未做完,或者雖然登記工作做完但是登記資料尚未送達事后質(zhì)量檢查工作中心。這些人沒有參加兩個樣本之間比較的資格,不參加雙系統(tǒng)估計量的計算。2.未來數(shù)據(jù)是錯誤登記的人,其符合普查數(shù)據(jù)規(guī)定的數(shù)據(jù)或者這里的比較信息不足者指兩種人:一是普查登記中的不符合普查數(shù)據(jù)定義的人;二是雖然符合普查數(shù)據(jù)定義,但是比較信息不足,并且通過在后續(xù)調(diào)查中收集額外信息,被確認或劃分歸為錯誤登記的人。所有這些人沒有參加兩個樣本之間比較的資格,不參加雙系統(tǒng)估計量的計算。3.設置合適的登記對象,包括是否使用人錯誤登記是指:該登記的地點錯誤:一個人進行登記的地點不是他的常住地(或一個適當?shù)闹車謪^(qū));該登記并不對應一個實際上存在的人,例如,寵物被當作人登記;該登記為重復登記,例如,某人在三個地點進行了登記,其中便有兩個為重復登記;該登記是一個在普查日后出生或遷入的人;該登記是一個在普查日前死亡或遷出的人。4.正確記錄的數(shù)量為ce正確登記指的是一個屬于被調(diào)查人口總體的人在他的常住地(或一個適當?shù)闹車謪^(qū))進行了普查登記。(四)挑戰(zhàn)錯誤登記的涵義人口普查資料系統(tǒng)中,有比較資格的人口記錄是E樣本(見圖1);通過事后普查得到P樣本,在將其與E樣本比對過程中可能會發(fā)現(xiàn)事后普查中有若干錯誤登記(錯誤登記的涵義同ME的解釋),先將它們從P樣本中剔除。這就意味著,今后的P樣本中不再含有錯誤登記的情況。將P樣本中的個人與E樣本中的個人進行對比之后可能會出現(xiàn)的結果如下:在E樣本中會劃分出錯誤登記和正確登記,在正確登記的個人中,有些人也出現(xiàn)在P樣本中,有些人未出現(xiàn)在P樣本中;在P樣本中全都是正確登記,其中有些人可以在E樣本中找到,有些人不能在E樣本中找到。同時出現(xiàn)在E樣本和P樣本中的人叫做匹配者。對比的結果見圖2。(五)實際人口的雙系統(tǒng)估價假定全國每一人口被登記的概率相同,假定沒有兩樣本比對中的誤差,此時,全國真實人口數(shù)的估計量為式(1)中,DSE表示“雙系統(tǒng)估計量”。三、普查登記的錯誤計數(shù)雙系統(tǒng)估計量來源于“捕獲-再捕獲”模型:從一個封閉的養(yǎng)魚池中先做一次捕撈,記下捕得魚的數(shù)目,并且在這次所捕的魚的身上全做上記號,然后將它們放回池中,待池中的魚混勻后,進行第二次捕撈,記下第二次捕得魚的數(shù)目以及其中身上有記號的魚的數(shù)目。如果用式(1)中的CE表示第一次捕得魚的數(shù)目,P表示第二次捕得魚的數(shù)目,M表示第二次捕得的魚中身上有記號的魚的數(shù)目,那么用式(1)可得到池塘中魚的數(shù)目的無偏估計量。在人口調(diào)查中構造雙系統(tǒng)估計量,是把全國真實人口數(shù)看作池塘中魚的數(shù)目。然而,人口畢竟和魚不相同,比如,人口是不能像魚那樣充分混勻的?？紤]到人口同魚之間的差別,那么用式(1)去估計全國真實人口數(shù)時是否無偏呢?美國2000年人口普查的事后質(zhì)量檢查方案中沒有討論這個問題。在2006年,由米里和科斯坦尼奇對此問題進行了論證。為了便于論述,米里和科斯坦尼奇也像前面那樣,設定事后質(zhì)量檢查中的調(diào)查為事后普查;設定在人口普查及事后普查中全國每一人口被登記的概率相同。另外,和前面一樣,假定在事后普查中發(fā)生的錯誤登記全部被發(fā)現(xiàn)并且已經(jīng)將其從P樣本中剔除,因而,P樣本中不含有錯誤登記;假定沒有兩樣本比對中的誤差。在米里和科斯坦尼奇的論證中,仍然使用2000年方案中關于正確計數(shù)的定義,即一個人在普查中進行登記的地點的確是他的常住地(或一個適當?shù)闹車謪^(qū))。關于錯誤計數(shù),前面說過,在美國2000年方案的規(guī)定中包括了地點錯誤、不對應一個實際上存在的人、重復登記、在普查日后出生或遷入的人被登記、在普查日前死亡或遷出的人被登記五種情況。顯然,在這五種情況中,后面四種都是屬于虛構的登記,就是說,在人口總體中事實上并沒有這樣一個人,這種計數(shù)會使人口普查登記的人數(shù)發(fā)生虛增;第一種情況則不然,在這種情況下被登記的人,在人口總體中事實上是存在的。鑒于這種區(qū)別,在米里和科斯坦尼奇的論證中把二者區(qū)分開來,僅僅把后四種情況歸為錯誤計數(shù),而把地點錯誤的計數(shù)作為另外一個項目單獨列示出來。關于地點錯誤的計數(shù),前面說過,在2010年事后質(zhì)量檢查方案中規(guī)定,一個應該被普查計數(shù)的美國人口,只要在普查視野范圍內(nèi)被計數(shù),不論這項計數(shù)的地點是否為本人的常住地都認為是位置正確的計數(shù)。不過,在米里和科斯坦尼奇對雙系統(tǒng)估計量的無偏性的論證中,仍然使用2000年方案中關于人口登記位置正確的定義,即,要求在普查中計數(shù)的一個人必須計數(shù)在他(她)的常住地或是搜索區(qū)域(常住地所在的調(diào)查小區(qū)群鄰近的一個環(huán)形區(qū)域)的居住單位中。前面說過,對不足比較信息者,不論是在人口普查中發(fā)生的還是在事后普查中發(fā)生的,2000年方案均要求將其轉入后續(xù)調(diào)查進一步收集額外信息,然后視額外信息的情況做不同的處理。現(xiàn)在,在米里和科斯坦尼奇的論證中所說的不足比較信息者卻指的是轉入后續(xù)調(diào)查以前的狀態(tài)。關于不符合普查數(shù)據(jù)定義的人,美國2000年方案規(guī)定,這些人沒有比較資格,不參加估計真實人口數(shù)的計算。這里需指出,不參加估計真實人口數(shù)的計算,并不意味著他們不是真實人口數(shù)的組成部分。在米里和科斯坦尼奇的論證中把這一點體現(xiàn)了出來。關于P樣本與E樣本的比較,在2000年方案中,P樣本中不含有錯誤登記的情況,不含有不符合普查數(shù)據(jù)定義的人,P樣本中發(fā)生的不足比較信息者已經(jīng)通過后續(xù)調(diào)查最終被區(qū)分為(與E樣本)匹配和不匹配兩部分;E樣本中也不含有不符合普查數(shù)據(jù)定義的人,E樣本中的錯誤登記已經(jīng)區(qū)分出來,E樣本中的不足比較信息者已經(jīng)通過后續(xù)調(diào)查最終被區(qū)分為錯誤登記和正確登記。以上這些意味著,在2000年方案中,P樣本與E樣本的比較只對正確登記的人進行。在米里和科斯坦尼奇的論證中,對P樣本,同樣規(guī)定P樣本中不含有錯誤登記的情況,但是不同的是,論證中的P樣本除去正確登記以外,還包含有地點錯誤、不足比較信息以及不符合普查數(shù)據(jù)定義的人;對E樣本,除去錯誤登記以外,其他各種情況,包括正確登記、地點錯誤、不足比較信息以及不符合普查數(shù)據(jù)定義的人,都參加與P樣本的比較?？梢?米里和科斯坦尼奇的論證是在充分考慮人口總體中成員的各種計數(shù)狀態(tài)并予以承認的前提下進行的。為了便于了解米里和科斯坦尼奇的論證,我們把他們在論證中用到的關于人口普查以及P樣本與E樣本的比較中各種指標之間的關系繪制成圖3。圖中記號所使用的雙足標,第1足標=1表示有足夠比較信息的那些人,第1足標=0表示無足夠比較信息的那些人;第2足標=1表示普查計數(shù)在P樣本中的那些人,第2足標=0表示不在P樣本中的那些人。另外,要注意圖3中的II與圖1中的II含義不同:在圖3中,II表示不足比較信息的普查計數(shù)。在圖1中,II包括兩個內(nèi)容,一個內(nèi)容與圖3類似,表示雖然符合普查數(shù)據(jù)定義,但是比較信息不足,并且通過在后續(xù)調(diào)查中收集額外信息,被確認或劃分歸為錯誤登記的人;另一個內(nèi)容表示普查登記中的不符合普查數(shù)據(jù)定義的人(這個項目在圖3中單獨列了出來)。在論證雙系統(tǒng)估計量的無偏性時,米里和科斯坦尼奇提出了下面三條假設,為了方便,我們不妨稱之為米-科假設。假設1:真實總體在普查中計數(shù)的比例等于P樣本在普查中計數(shù)的比例。即假設2:有足夠比較信息的那些人中出現(xiàn)在P樣本的比例等于真實總體在普查中計數(shù)的人中出現(xiàn)在P樣本的比例。即假設3:有足夠比較信息的那些人中正確計數(shù)的比例等于出現(xiàn)在P樣本的有足夠比較信息的那些人中正確計數(shù)的人的比例。即現(xiàn)在根據(jù)圖3,寫出式(1)中三個元素的表達式:將上述三個表達式代入式(1),便得到下面的式(5):另一方面,由式(2)有再把式(3)和式(4)代入式(6),得到式(7)等號的右邊就是式(5)。這意味著,如果米-科假設絕對成立,那么通過式(1)就能夠計算出人口有限總體的真實人口數(shù)。然而,事實上,米-科假設不可能絕對成立。退一步說,假若米-科假設在平均的意義上成立,則式(7)意味著式(1)是人口有限總體真實人口數(shù)的無偏估計量。四、人口總體的計數(shù)美國在2010年事后質(zhì)量檢查中,除了估計凈誤差外,還要估計凈誤差的構成部分:錯誤計數(shù)和遺漏。錯誤計數(shù)是指:重復計數(shù)、普查日后出生被計數(shù)、普查日前死亡被計數(shù)、所做的計數(shù)并不對應一個實際上存在的人;遺漏是指:應該在普查中計數(shù)但是沒有在普查中被計數(shù)。在估計凈誤差時,有所謂“位置錯誤的計數(shù)”,與其相對的所謂位置正確的計數(shù)定義為某一樣本調(diào)查小區(qū)的常住人口在該小區(qū)或是在其周圍的一個環(huán)形區(qū)域(目標搜索區(qū)域)計數(shù),反之,如果這些人在上述規(guī)定的地點以外的其他地點計數(shù),就屬于“位置錯誤的計數(shù)”。位置錯誤的計數(shù)也屬于錯誤計數(shù)。但是,在估計凈誤差的構成部分時則規(guī)定,一個應該在普查中被計數(shù)的美國人口,如果他(她)沒有在自己的常住地小區(qū)計數(shù),也沒有在該小區(qū)周圍的目標搜索區(qū)域計數(shù),而是在上述地點以外的美國的其他地點計數(shù),在檢查美國全國的人口普查質(zhì)量時,對這個人的計數(shù)被視作正確計數(shù)而不是錯誤計數(shù)。這里就出現(xiàn)了一個問題:一些沒有在個人的常住小區(qū)或小區(qū)周圍的目標搜索區(qū)域計數(shù)但是在普查視野范圍內(nèi)計數(shù)的人,在計算凈誤差時被認為是錯誤計數(shù)而在計算凈誤差的構成部分時卻被認為是正確計數(shù),這樣一來,凈誤差的計算與凈誤差構成部分的計算二者豈不是矛盾了嗎?對這個問題,筆者的認識如下:首先,把那些沒有在個人的常住小區(qū)或常住小區(qū)周圍的目標搜索區(qū)域計數(shù)但是在普查視野范圍內(nèi)計數(shù)的人視作正確計數(shù)較之視作錯誤計數(shù)更合理。因為,這些人作為被觀察人口總體中的成員,在該人口總體的人數(shù)統(tǒng)計中被計數(shù)一次,這本來就符合人口普查的目標,在人口普查的質(zhì)量檢查中將其視作正確計數(shù)有利于盡量實事求是地評價人口普查的質(zhì)量。其次,把這些人視作錯誤計數(shù)是以往歷次人口普查的質(zhì)量檢查中計算凈誤差時的習慣做法,在2010年計算凈誤差時仍然沿用此方法,是為了和以前所計算的凈誤差具有可比性。再次,在建立2010年的凈誤差與它的兩個構成部分(錯誤計數(shù)和遺漏)之間的平衡關系時,的確存在統(tǒng)計口徑上的矛盾。這一矛盾造成的結果是:當我們根據(jù)平衡關系推算遺漏人數(shù)時,上述那些人的人數(shù)抵消了一部分遺漏,也就是說,推算出來的遺漏人數(shù)比實際的遺漏人數(shù)少了這么多人?？偲饋砜?在“凈誤差=錯誤計數(shù)人數(shù)-遺漏人數(shù)”這一關系式中,凈誤差與以往的凈誤差可比,錯誤計數(shù)人數(shù)實事求是地反映了人口普查的質(zhì)量,對遺漏問題的評價有些失真(美化了真實情況),權衡利弊,這種失真還是“劃得來”的。對于錯誤計數(shù)和遺漏,一般是先估計錯誤計數(shù)人數(shù),然后通過凈誤差估計量和錯誤計數(shù)人數(shù)估計量去推算遺漏人數(shù)估計量。為了估計錯誤計數(shù)人數(shù),需要了解錯誤計數(shù)人數(shù)與其他指標之間的關系。下面用圖3來考察這些關系。一個直觀的想法是,從普查人數(shù)中減去正確計數(shù)人數(shù)所得到的差就是錯誤計數(shù)人數(shù)。然而,這是不正確的。因為可見,所得到的差中,除去錯誤計數(shù)人數(shù)(EE)之外,還包括有地點錯誤的普查人數(shù)(WL)、不足比較信息的普查人數(shù)(II)以及無數(shù)據(jù)定義的普查人數(shù)(NDD)。這就是說,如果我們想要估計錯誤計數(shù)人數(shù)(EE),那么,只要分別得到正確計數(shù)人數(shù)(CE)、地點錯誤的普查人數(shù)(WL)、不足比較信息的普查人數(shù)(II)以及無數(shù)據(jù)定義的普查人數(shù)(NDD)這4個指標的估計量就可以了。那么,怎樣才能得到這幾個估計量呢?這4個指標的共同點是:它們所反映的都是在普查中對被調(diào)查的人口總體成員的計數(shù),相反地,如果在普查中的計數(shù)所針對的不是被調(diào)查的人口總體的成員,那么,所做的計數(shù)就不屬于這4個指標的任何一個,而是屬于錯誤計數(shù)。所以,為了計算這4個指標,應當首先對普查中所做的計數(shù),確認被計數(shù)的那個對象是否確系被調(diào)查的人口總體的成員,或者說,要確認所做的計數(shù)是否不屬于錯誤計數(shù)。具體地說,就是要審查一下:(1)被計數(shù)的對象是否為普查日后出生的人;(2)被計數(shù)的對象是否為普查日前死亡的人;(3)被計數(shù)的對象是否并不對應一個實際上存在的人;(4)如果不是上面的3種情況,那還要看一看所做的計數(shù)是唯一的一次還是有所重復。在進行人口普查質(zhì)量檢查的調(diào)查時,對于上面的前3種情況,不難通過對人口普查表中所填寫的項目進行檢查與核實加以確認;對于上面的第4種情況,文獻指出,應當對所考察的每一個被計數(shù)的人,將其與全國整個的普查計數(shù)進行比較來“查重”,如果發(fā)現(xiàn)了重復,則進一步現(xiàn)場確認重復中的哪一個計數(shù)是正確計數(shù)。CE、WL、II、NDD這4個指標把人口普查中對人口總體成員的計數(shù)狀態(tài)劃分成了個人信息填寫完全并在正確的地點計數(shù)、個人信息填寫完全但在錯誤的地點計數(shù)、個人信息填寫不完全不過尚能符合普查數(shù)據(jù)定義(稱之為比較信息不足)、個人信息填寫不完全以致無法符合普查數(shù)據(jù)定義(稱之為不符合普查數(shù)據(jù)定義)這樣4種情況。為了計算這4個指標,就需要把人口總體成員進一步按這4種計數(shù)狀態(tài)進行劃分。首先,這里所說的是否在正確的地點計數(shù)指的是被計數(shù)人的計數(shù)地點是否是本人的常住小區(qū)或該小區(qū)周圍的目標搜索區(qū)域。其次,為了在人口普查的質(zhì)量檢查調(diào)查中判定一個被計數(shù)的人是正確計數(shù)還是在錯誤的地點計數(shù),需要在人口普查表中設置“實際進行普查登記的地點”和“應當進行普查登記的地點”這樣兩個調(diào)查項目。再次,在我們所觀察的小區(qū)中所發(fā)現(xiàn)的在錯誤的地點計數(shù)的人,都是本應在其他小區(qū)計數(shù)而錯誤地在本小區(qū)進行了登記的人,對這些人,為了弄清他們是不是人口總體的成員,有時還需要到其所在的常住小區(qū)去收集信息。最后,對于個人信息填寫不完全的人(包括比較信息不足和不符合普查數(shù)據(jù)定義),顯然就連該人是否確系人口總體的成員都無法判定。對這些人,在進行人口普查質(zhì)量檢查的調(diào)查時必須要設法收集進一步的足夠的信息來確認其是否為人口總體的成員,直到所收集的信息足以判定其確系人口總體的成員時,再按其當初的狀態(tài)是比較信息不足還是不符合普查數(shù)據(jù)定義分別參加II或NDD的計算;如果通過所收集的信息判定其不是人口總體的成員或始終無法判定其是否為人口總體的成員,則這樣的人屬于錯誤計數(shù)而不參加II或NDD的計算?？赡軙氲竭@樣的問題:錯誤計數(shù)人數(shù)除了通過式(9)的關系來推算之外,也還可以根據(jù)人口普查質(zhì)量檢查的原始數(shù)據(jù)直接計算。然而,文獻中卻并沒有考慮后一個途徑,這是為什么呢?筆者以為,這至少有兩個理由。其一,錯誤計數(shù)在普查的全部計數(shù)中所占比例非常之小,這就會導致在樣本中可能只觀察到很少的甚至觀察不到錯誤計數(shù)情況,以致使通過樣本直接估計錯誤計數(shù)人數(shù)遇到困難。其二,在估計凈誤差時,必須要估計正確計數(shù)人數(shù),恰好,它也是式(9)的一個組成部分,這就使得通過式(9)來推算錯誤計數(shù)人數(shù)順理成章了。為了通過凈誤差估計量和錯誤計數(shù)人數(shù)估計量去推算遺漏人數(shù)估計量,需要了解總體中這三個指標之間的關系。我們把凈誤差定義為由圖3看出,顯然有文獻把凈誤差規(guī)定為N–C,在這樣的約定下推出,遺漏的人數(shù)=凈誤差+錯誤計數(shù)的人數(shù)。顯然,這和式(11)是一致的。五、凈誤差構成部分的估計這一部分中的主要觀點是作者對參考文獻所做的個人思考。(一)將“片”劃分為最終樣本人口普查的事后質(zhì)量檢查工作是從居住單位總體中抽取樣本來實施的。美國2010年人口普查的事后質(zhì)量檢查準備采用的抽樣設計方案的大致框架是:第一步抽樣:分別在各個州,對州內(nèi)的全體街區(qū)群按其規(guī)模分層(每個街區(qū)群中有1~10個居住單位為小型街區(qū)群、每個街區(qū)群中有11~79個居住單位為中型街區(qū)群、每個街區(qū)群中有80或更多個居住單位為大型街區(qū)群),在每一個抽樣層,分別使用等概率等距抽樣方式以街區(qū)群為單位抽取樣本。第二步抽樣:對小型街區(qū)群的層,將所抽出的第一步樣本的各個街區(qū)群,按規(guī)模大小劃分為9個層,分別在每個層進一步以街區(qū)群為單位抽取等概率等距樣本;而對大型和中型街區(qū)群的層,則是將第一步抽樣所抽出的街區(qū)群全部轉為第二步樣本,進入第三步抽樣。第三步抽樣:對于進入第三步抽樣的街區(qū)群,如果其中的P樣本居住單位名單的居住單位數(shù)目未超過80,則該街區(qū)群全體居住單位進入最終樣本;如果其中的P樣本居住單位名單的居住單位數(shù)目超過80,在每一個街區(qū)群內(nèi)劃分若干個由鄰近居住單位組成的“片”,然后,以上述劃分的整個州的所有的片為總體,以片為單位抽取等概率等距樣本。在上述至第二個抽樣階段為止所抽出的各個街區(qū)群中,一方面會觀察到一份在普查時登記的居住單位名單(這個名單中的居住單位屬于前面說過的“E樣本”),另一方面會另行做一次與普查相獨立的觀察,重新追溯登記一份普查時點上的居住單位名單,這個名單中的居住單位屬于前面說過的“P樣本”。當我們在上述第三個抽樣階段中進行“片”的劃分的時候,會設法將這兩個名單中的居住單位一一分別歸入適當?shù)钠?于是,在這個階段以片為單位所抽出的最終樣本中,便會同時存在有屬于前面說過的“E樣本”的單位和屬于前面說過的“P樣本”的單位,文獻中通常把現(xiàn)在所抽出的最終樣本中的這兩種單位分別稱做“E樣本”和“P樣本”,它們實際上分別是我們前面所說的“E樣本”和“P樣本”的樣本。為了避免混淆,在下面的敘述中,我們把前面所說的“E樣本”和“P樣本”改稱為“E總體”和“P總體”。回顧前面的式(1),它是用“E總體”和“P總體”資料依據(jù)“捕獲-再捕獲”模型所構造的人口總體真實人口數(shù)的估計量(雙系統(tǒng)估計量DSE)。其實,這個表達式中的三個成分都需要用現(xiàn)在的“E樣本”或“P樣本”來估計。這樣,就有了做為式(1)的估計式的下面的式(12)其中,是人口總體真實人口數(shù)的估計量,是依據(jù)“E樣本”估計的普查正確計數(shù)數(shù)目的估計量,是依據(jù)“P樣本”估計的事后普查人數(shù)的估計量,是依據(jù)“E樣本”和“P樣本”相交部分估計的同時出現(xiàn)在普查和事后普查中的匹配人數(shù)的估計量。人口普查人數(shù)C與相減得到由式(10)定義的人口普查凈誤差的估計量。為了計算式(12),尚需具體討論構造這三個估計量的若干細節(jié)問題。本文的主題是研究凈誤差構成部分的估計,而不是研究凈誤差的估計,所以,我們把這些問題略去不談。這方面的內(nèi)容,請參見文獻。上面曾提到,觀察我們手中的樣本,可以看到“E樣本”和“P樣本”兩套居住單位名單?，F(xiàn)在要說,為了估計錯誤計數(shù)人數(shù),我們要觀察的僅僅是E樣本而不需要觀察P樣本。因為,不論是個人信息填寫完全并在正確地點的登記,還是個人信息填寫完全但在錯誤地點的登記、比較信息不足的登記、不符合普查數(shù)據(jù)定義的登記,所說的都是普查登記的狀態(tài),并不牽涉事后質(zhì)量檢查的登記情況。(二)將khpi和i構定為登記的樣本區(qū)的劃分用足標h表示第一階段抽樣時所劃分的層,H表示層數(shù)。用足標g表示第二階段抽樣時所劃分的層,G表示層數(shù)。顯然,對于h=大型街區(qū)群層和h=中型街區(qū)群層,有G=1,對于h=小型街區(qū)群層,有G=9。用足標i表示某一街區(qū)群。記yhi=CEhi+WLhi+IIhi+NDDhi為h層中i街區(qū)群在人口普查中登記的屬于人口總體成員的人數(shù),其中,CEhi,WLhi,IIhi,NDDhi分別表示h層中i街區(qū)群的個人信息填寫完全并在正確地點計數(shù)的人數(shù)、個人信息填寫完全但在錯誤地點計數(shù)的人數(shù)、比較信息不足的登記人數(shù)、不符合普查數(shù)據(jù)定義的登記人數(shù)。記xhi=Chi–(IIhi+EEIIhi)–(NDDhi+ENDDhi)為h層中i街區(qū)群在人口普查中登記的個人信息完整的人數(shù),其中,Chi是該街區(qū)群的人口普查登記人數(shù),IIhi+EEIIhi是該街區(qū)群的屬于人口總體的以及不屬于人口總體的比較信息不足的登記人數(shù),NDDhi+ENDDhi是該街區(qū)群的屬于人口總體的以及不屬于人口總體的不符合普查數(shù)據(jù)定義的登記人數(shù)。另外,下面將用到兩個示性函數(shù)Khgi和Ihgi。Khgi定義為:如果h層中i街區(qū)群屬于g,Khgi=1;對于其他情形,Khgi=0。在小型街區(qū)群層中,g有9個不同的值,就一個特定的街區(qū)群i來說,它只能對其中的1個g值取Khgi=1,而對其他的8個g值都必須取Khgi=0。在大型和中型街區(qū)群層中,沒有做g的分層,也就是說,g只有1個值,就一個街區(qū)群i

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人口普查的凈誤差

文檔簡介

溫馨提示

最新文檔

評論

人口普查的凈誤差

文檔簡介

溫馨提示

最新文檔

評論

相關文檔