輔助信息在無回答處理中的應(yīng)用_第1頁
輔助信息在無回答處理中的應(yīng)用_第2頁
輔助信息在無回答處理中的應(yīng)用_第3頁
輔助信息在無回答處理中的應(yīng)用_第4頁
輔助信息在無回答處理中的應(yīng)用_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、輔助信息在無回答處理中的應(yīng)用碩士學(xué)位論文thesis of master degree論文題目:輔助信息在無回答處理屮的應(yīng)用(英文): the application of auxi 1 i ary informat ion to nonresponse 作者:劉薇指導(dǎo)教師:金勇進教授2005年5月18 0 1論文題目:(屮文)輔助信息在無回答處理中的應(yīng)用(外文)the application ofauxiliary information to nonresponse 所在院、系、所:統(tǒng)計學(xué)院業(yè)名稱:統(tǒng)計學(xué)名、職:金勇進教授文主題:輔助信息;加權(quán)調(diào)整;插補法:2003年9月至2005年7月論

2、文提交吋間:2003年5月2獨創(chuàng)性聲明本人鄭重聲明:所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫的研究成果,以不包含為獲得中國人民大學(xué)或其教育機構(gòu)的學(xué)位或證書所使用過的材料。與我一同工作的同志對本研究所做任何貢獻已在論文中作了明確地說明并表示了謝意。簽名:劉 薇 日期: 2005. 5. 18關(guān)于論文使用授權(quán)的說明木人完全了解中國人民大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜?部或部分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文

3、。簽名:劉薇 導(dǎo)師簽名:金勇進日期:2005. 5. 183中國人民大學(xué)碩士學(xué)位論文摘要(屮外文合訂)論 文題目:輔助信息在無回答處理屮的應(yīng)用the application of auxiliary information to nonresponse院、系、所:統(tǒng)計學(xué)院專業(yè):統(tǒng)計學(xué) 作者:劉 薇指導(dǎo)教師姓名、職稱:金勇進教授4摘要成功的無回答調(diào)整通常離不開輔助信息的使用。在無回答處理中引入正確的 輔助信息,不僅有助于評價無冋答的影響,而口能夠有效減小無冋答造成的 偏差和方差增量,提高估計質(zhì)量。目前國內(nèi)外許多無回答文獻都已對輔助信息問 題有所涉及。但其討論大多從無回答方法角度出發(fā),將輔助信息作

4、為某一方法的從屈性專題進行論述,缺乏完整性和獨立性。而且由于篇幅和主題所限,這些論述 往往缺乏深入的理論分析和實證支持。因此,論文以輔助信息為主題展開全面、 深入的討論,具有一定理論和現(xiàn)實意義,同時也完善了國內(nèi)在該領(lǐng)域上的研究。 論文在廣泛掌握國內(nèi)外相關(guān)文獻、系統(tǒng)總結(jié)無回答處理方法的基礎(chǔ)上,從輔 助信息的角度出發(fā),對輔助信息相關(guān)理論進行了細(xì)致的歸納和梳理,并圍繞 其在無回答調(diào)整中應(yīng)用的各個方面展開了一系列的理論和實證研究。其正文主要 包括以下四部分內(nèi)容:1、第一章 輔助信息相關(guān)問題研究 這一部分是全文的基礎(chǔ),主要針對后面 幾章分析中可能用到的一些相關(guān)問題進行闡述。其中(1)前兩節(jié)首先明確了輔助

5、信息的定義、分類等基木問題; (2)第三節(jié)則運用一個案例,直觀地展示出輔助信息在無回答處理中的重要作用, 并由此引出本文研究的意義和目的;(3)后兩節(jié)重點討論輔助信息在無回答機 制識別和無回答偏差估計屮的應(yīng)用。這兩個過程實際上是對無回答可能造成的影 響進行分析和評價,也是無回答調(diào)整的基礎(chǔ)。其中對輔助信息的分析,為后面二章輔助信息作用效果的評價、輔助信息的選擇等問題提供了重要思路。2、第二章輔助信息在無回答加權(quán)調(diào)整中的應(yīng)用這一章主要歸納了輔助信息在加權(quán)調(diào)整法中的兩個重要應(yīng)用:劃分加權(quán)調(diào)整層和構(gòu)造旳終權(quán)數(shù)。其屮(1)劃分調(diào)整層是加權(quán)法的基礎(chǔ),第一節(jié)以加權(quán)組 調(diào)整為例,討論了分層輔助變量的作用、選擇

6、標(biāo)準(zhǔn)及應(yīng)用特點等問題;(2)第二則分別討論了“分層變量總體頻數(shù)分布信息”、“輔助變量總量信息”、“專 門設(shè)計變量”三類輔助信息在用于構(gòu)造旳終權(quán)數(shù)時的應(yīng)用;(3)第三節(jié)在前兩節(jié)分 析基礎(chǔ)上,總結(jié)岀加權(quán)調(diào)整中選擇輔助變量的兩大準(zhǔn)則,并創(chuàng)新性地將該準(zhǔn)則與 無回答機制識別過程有機結(jié)合,提出篩選輔助變量的方法。旳后,還進一步提煉出 各種加權(quán)調(diào)整中輔助信息的本質(zhì)應(yīng)用形式。3、第三章輔助信息在無回答插補法中的應(yīng)用這一章總結(jié)了輔助信息在無回答插補法中的多種應(yīng)用,包括肓接構(gòu)造插補值、劃分插補層、定義賦值單位及擬合回歸模型等,與第二章共同構(gòu)成了論 文的5核心內(nèi)容。(1)第一節(jié)闡述了利用“與缺失變量存在邏輯關(guān)聯(lián)的輔

7、助變量” 和“受訪者在其他調(diào)查屮的真實回答值”兩類輔助信息直接構(gòu)造插補值時的有關(guān)問 題;(2)利用正確輔助變量劃分插補層是大多數(shù)傳統(tǒng)插補方法的基礎(chǔ),第二節(jié)就 以熱卡法為例,討論了分層輔助變量應(yīng)用效果、特點、選擇標(biāo)準(zhǔn)等問題;(3) 第三節(jié)在熱卡分層的基礎(chǔ)上,進一步提出了利用輔助信息來定義賦值單位時的有 關(guān)結(jié)論,其中輔助信息主要用于排序和構(gòu)造距離函數(shù);(4)第四節(jié)以回歸插補為 例,討論了輔助信息在構(gòu)造冋歸模型中的應(yīng)用;(5)在前四節(jié)結(jié)論的基礎(chǔ)上,對 輔助信息在插補法中應(yīng)用的各個方面進行了總結(jié),并提煉出各種插補方法對輔助 信息的通用形式。4、第四章輔助信息應(yīng)用實證研究這一章結(jié)合國內(nèi)外統(tǒng)計調(diào)查實踐,以

8、2003我國房地產(chǎn)業(yè)住戶滿意度調(diào)查數(shù) 據(jù)為基礎(chǔ),模擬出各種無回答機制下的樣木數(shù)據(jù)集,并分別運用不同無回答處理方法或輔助信息進行分析。這一部分得到許多關(guān)于有效利用輔助信息的結(jié)論和建議,這些結(jié)論同時也有力地卬證了第二章和第三章提出的一些觀點。在上述內(nèi)容屮,本文的研究成果主要體現(xiàn)在以下三個方面:1、論文摒棄了以無回答處理方法為主線的傳統(tǒng)分析思路,始終圍繞輔助信 息這一主題,從輔助信息在無回答處理中的作用、效果、選擇標(biāo)準(zhǔn)及應(yīng)用特點等 多個方面,展開了細(xì)致深入的理論探討和實證分析。本文不僅在分析的出發(fā)角度 上有所創(chuàng)新,而且在討論的深度和廣度上,也較以往的同類研究有較大突破。2、論文不僅分析了輔助信息在無

9、回答處理方法中的多種應(yīng)用形式,而且在 此基礎(chǔ)上,分別結(jié)合加權(quán)法和插補法的基本思想,首次提出了輔助信息在加權(quán)法 和插補法中的木質(zhì)應(yīng)用形式。3、論文通過大量的理論推導(dǎo),得出不同方法下輔助信息的選擇標(biāo)準(zhǔn)、使用建 議等結(jié)論,通過對這些結(jié)論的進一步分析,提煉了選擇輔助信息的兩大準(zhǔn)則。同 時,木文還創(chuàng)新性地將無回答機制識別方法與無回答處理中潛在輔助信息的選 擇相結(jié)合,提岀利用無回答識別結(jié)果來篩選輔助信息,并從理論和實證兩方面證明了其合理性和可行性。6abstractthe key to successful nonresponse adjustmcnt lies in the use of auxilia

10、ry informationsuch use can not only help evaluating the effects of nonresponse, but also reduce boththe nonresponse bias and the variance , and improve the quality of estimates. atpresent, a lot of literature had provided discussions about auxiliary information, mostof which were organized by differ

11、ent methods and usually very summaryaccording to this situation, my study mainly focused on the application of auxi1iaryinformation in dealing with nonresponse , and made a lot of conclusions on differentaspects of auxiliary information. all those works supply a gap to the area ofnonresponse, and ma

12、ke senses in theory and practice. the thesis was made up of fourparts:1 some problems rclating to auxiliarinfooiationthis chapter was the basis of the entire thesis, which expatiates on some problemsused in the next 3 chapters. the first 2 sections provided the concepts' interpretationand the cl

13、assifications of auxiliary information. the 3rd section used a case toillustrate the importance of auxiliary infonnation .and the last 2 sections emphasizedon the appl icati on of auxi 1 iary inf ormati on to the ide nt if ication of nonresponsemechanisms and the estimate of nonresponse bias2 the ap

14、plication of auxiliary infonnation to the weighting methods fornonresponsethis chapter concluded 2 main applications of auxiliary i n format ion in weighti ngmethods: dividing weighting-classes and forming final weights. the 1st sectiondiscussed the effeet and the sclccting of classifiedtory variabl

15、es, taking example forthe method of weighting-class adjustment. the 2nd section discussed three types ofauxiliary information used in forming final weights, including "the distribution ofpopulation frequencies” , upopulation totals" , ” special designed variables basedon the above analysis

16、, the 3rd section provided some important conclusions , such as2 principles of selecting the auxiliary variables, the essential use of auxiliaryinfonnation in weighting methods, etc 73 the application of auxilieiry information to the imputation methods fornonresponsethis chapter summarized 4 applica

17、tions of auxiliary information in imputation,including forming imputation values directly, dividing imputation classes, defining thedonors and constructing regression models. based on the above analysis, the lastsection put forward some important conclusions , and abstracted the essential use ofauxi

18、liary information in various imputation methods4 practical studies on the application of auxiliary informationbasing on the sample data of 2003 housing satisfaction survey, the study simulatedseveral data sets under different mechanisms, and analyzed them by differentmethods or auxiliary information

19、. this part had reached many conclusions andrecommendations on using auxiliary information efficiently , and also conformedthe points of view put forward in chapcr 2 and 3the values of this thesis are mainly reflected by the following 4 aspects:1 it got rid of the traditional route of investigation,

20、 and focused on applications ofauxiliaryinf orniationinnonresponse,which wasnotonly aninnovation inanalyticaldirections,butalso a break through in the dep th and theextent ofresearch ,compared wi th()ther similarstudies2 tthadnot onlyanalyzed the different forms of appling auxiliary information in n

21、onresponse methods, but also originally abstract the essential form of auxiliaryinformation used in weighting and imputation separately3 it provided conclusions on the seiecting of auxi1iary information in varioussituations, based on which it put fonvard 2 principles of auxiliaryinformation. inaddit

22、ion,it originally used thenonresponse mochanism identification methods inthe selecting of auxiliary variables in dealing with nonresponse , and had provedthe rationality and the feasibility of this method8目錄0前言論文研究背景、意義及思路461111h第一章輔助信息相關(guān)問題研究47h32h1. 1輔助信息的定義48h33h1.2輔助信息的分類49h44h1. 2. 1外部輔助信息50h451

23、11.2.2內(nèi)部輔助信息511146h1. 3輔助信息的重要性.52h57h1.4輔助信息在識別無冋答機制中的應(yīng)用53h78h1. 4. 1無回答機制概述54h79h1.4. 2利用輔助信息識別無回答機制55h810ii1.5輔助信息在無回答偏差估計屮的應(yīng)用56ii11h第二章輔助信息在無回答加權(quán)調(diào)整中的應(yīng)用h1411 5712h2. 1利用輔助信息劃分調(diào)整層58h1413h2. 1. 1分層輔助信息的作用59h1414112. 1.2分層輔助信息的選擇與使用60ii1715h2. 2利用輔助信息構(gòu)造最終權(quán)數(shù).61h1916h2. 2. 1利用分層變量的總體頻數(shù)分布信息構(gòu)造權(quán)數(shù).62h1917

24、h2.2.2利用輔助變量的總量信息構(gòu)造權(quán)數(shù).63h2318112. 2. 3利用專門設(shè)計的變量信息構(gòu)造權(quán)數(shù).64112619h2. 3總結(jié)與思考.65h27h第三章輔助信息在無回答插補法中的應(yīng)用h3120 6621h3. 1利用輔助信息直接構(gòu)造插補值67h3122h3. 1. 1利用變量間的邏輯關(guān)系構(gòu)造插補值.68h3123h3. 1. 2利用受訪者真實信息構(gòu)造插補值69h3224h3. 2利用輔助信息劃分插補層70h3325113. 3利用輔助信息定義賦值單位.71113526h3. 3. 1利用輔助變量次序定義賦值單位72h3527h3. 3. 2利用輔助變量距離定義賦值單位73h3628

25、h3. 3. 3利用輔助變量定義賦值單位的作用.74h3729h3. 4利用輔助信息構(gòu)建回歸模型.75h3830113. 5思考與總結(jié)76ii3931h第四章輔助信息應(yīng)用實證研究77h4232h4. 1數(shù)據(jù)來源說明與數(shù)據(jù)集建立.78h4233h4. 2利用輔助信息判斷無回答機制79h4534h4. 2. 1回答率比較研究80h45935h4. 2. 2回答層與無回答層對比研究.81ii4536h4. 2. 3不同機制下的估計量性質(zhì)研究82h4637h4. 3輔助信息在加權(quán)調(diào)整中的應(yīng)用研究.83h4738h4. 3. 1分層輔助變量選擇說明84h4739114. 3. 2輔助變量應(yīng)用的幾點結(jié)論8

26、5114740h4. 4輔助信息在插補法中的應(yīng)用研究86h4941h4. 4. 1分層輔助變量選擇說明87h4942114. 4. 2排序輔助變量選擇說明88115043h4. 4. 3輔助變量應(yīng)用的兒點結(jié)論89h50h小結(jié)h5344 9045h參考文獻:91h5510前言 論文研究背景、意義及思路無回答(nonresponse)是抽樣調(diào)查中非抽 樣誤差的主要來源之一,是影響統(tǒng)計數(shù)據(jù)質(zhì)量的重要方面。它不僅使實際接受調(diào)查的單位數(shù)減少,引起估計量 方差擴大,而且還可能扭曲樣木分布,引起估計量的偏誤。因此,對于調(diào)查中已經(jīng) 出現(xiàn)的無回答情況,研究人員應(yīng)考慮采用合適的無回答處理方法對其進行補救, 盡可能

27、消除其影響。傳統(tǒng)的無回答處理方法包括加權(quán)法(weighting)和插補法(imputation)兩大類。由于無回答本身己經(jīng)意味著信息的缺乏,不增加信息量很難對其進行 有效的補救,因此無論是加權(quán)還是插補,絕大多數(shù)無回答處理方法都涉及到一些 己有信息的應(yīng)用。這里“已有信息”既包括本次調(diào)查所獲得的數(shù)據(jù),也包括其他 調(diào)查獲取的數(shù)據(jù)和外部資料,二者合并起來就是統(tǒng)計調(diào)查中常見的“輔助信息” 概念。無回答處理方法所用的輔助信息類型、使用方式、利用程度不同,其對無回 答補救的效果也不同。正確使用輔助信息,不僅有助于評價無回答偏差的影響, 還能有效減小無回答偏差。1目前,輔助信息應(yīng)用問題已成為國內(nèi)外無冋答討論焦

28、點和研究前沿之一 of ,許多專家都在著作中對該領(lǐng)域有所涉及,其中比較有代表性的包括:jelke gbcthlchem (2002)歸納了基于輔助信息的無回答加權(quán)調(diào)整方法;sixtcn lundstr?m與carl-erik s?rndal (2001)討論了輔助信息的重要性以及輔助信息的選擇 標(biāo)準(zhǔn);thomsen和ann mar it kleive holmoy (1998)根據(jù)挪威統(tǒng)計局的經(jīng)驗,提出如利用管理檔案系統(tǒng)信息提高統(tǒng)計數(shù)據(jù)質(zhì)量;r. wang. j. sedransk和/. n(1992)提出存在缺失值情況下對二手?jǐn)?shù)據(jù)進行分析的方法;rubin(1991)則使用貝 葉斯logsi

29、tic回歸對普查樣本的行業(yè)代碼進行了多重插補。國內(nèi)關(guān)于輔助信 息的研究相對較少,主要有:金勇進(1998)探討了處理缺失數(shù)據(jù)屮對輔助信息的利用 問題;蔣妍(2001)曾將統(tǒng)計調(diào)查中輔助信息的有效利用作為無冋答研究的一個 專題進行討論。上述文獻關(guān)于輔助信息的研究主要分為兩個方向:一是從數(shù)據(jù)可得性角度出 發(fā),著重討論調(diào)查實踐中輔助信息的獲取;二是從無回答處理方法角度出發(fā), 討論不同方法中輔助信息的應(yīng)用特點。然而,由于篇幅或文章主題所限,這些文 獻大多只是將輔助信息作為專題進行一般性的介紹和討論,而未能對其進行全 面細(xì)1蔣妍調(diào)查中無回答理論研究的前沿面/0>. 1致的理論分析和實證研 究。針對

30、這種現(xiàn)狀,本文希望在廣泛掌握國內(nèi)外相關(guān)文獻、系統(tǒng)總結(jié)無回答處理方法的基礎(chǔ)上,以輔助信息為著眼點,對其在無回答調(diào)整中應(yīng)用的各個方面進行比較深入的討論分析,以完善我國抽樣調(diào)查界在這一領(lǐng)域的研究。論文正文共分四章,具體安排如下:第一章為輔助信息相關(guān)問題研究。其中前一部分主要介紹輔助信息的定義、 分類和重要性等概述性問題。后一部分則著重討論輔助信息在分析無回答影 響時的應(yīng)用,包括無回答機制識別和無回答偏差估計兩個層次。第二章和第三章是論文的核心,分別歸納了輔助信息在加權(quán)調(diào)整和插補法中 的多種應(yīng)用,并以具體方法為例,對其中輔助信息的作用效果、選擇標(biāo)準(zhǔn)等問 題進行了探討。第四章為實證研究,這一部分結(jié)合國內(nèi)

31、外統(tǒng)計調(diào)查實踐,以實際案例數(shù)據(jù)為基礎(chǔ)模擬無冋答數(shù)據(jù)集進行分析,提出了一些有效利用輔助信息的結(jié)論和建 議,同時也對第二章和第三章提出的觀點進行了驗證。需要指出的是,本文主要考慮輔助信息在無回答事后補救階段的應(yīng)用,而對其在無回答事前預(yù)防階段及二次抽樣中的應(yīng)用則暫不考慮。2第一章輔助 信息相關(guān)問題研究1. 1輔助信息的定義許多研究無回答的文獻都對“輔助信息”的概念有所涉及,并從不同角度給 岀了 “輔助信息”的定義。金勇進仃998)認(rèn)為,輔助信息一般是與研究變量相關(guān)的其他變量,這些變量與研究變量存在較高的相關(guān)關(guān)系。而在jclkc g. bethlehem(2002)中輔 助信息被進一步定義為這樣一組變

32、量:它們不僅是在調(diào)查中被測量的變量,而且其 樣本或總體分布信息也是已知的。蔣妍(2001)對輔助信息進行了專題論述,認(rèn)為 無回答處理中的輔助信息可以從廣義和狹義兩方面理解。從狹義上講,輔助信 息不僅與研究變量有較高的相關(guān)性,還應(yīng)該是完整回答變量,即對所有樣本單位 (無論回答者還是無回答者)都有數(shù)據(jù)。例如,研究變量是消費者收入,則可以用 宀 兀整冋答變量職業(yè)、職務(wù)、文化程度、年齡等變量充當(dāng)輔助信息。從廣義上講, 則一切可能有助于無回答調(diào)整的信息都稱為輔助信息。sixtcn lundstr?m 與 carl-erik s?rndal (2001)對輔助變量、輔助向量及 輔助信息三個概念給岀了更為詳

33、細(xì)的解釋,現(xiàn)歸納如下:所謂輔助變量(auxiliary variable)是指在估計階段能夠幫助改善簡單估量的變量,它需要滿足的旳低要求為:在每個樣本單位(包括回答單位和無回單位)上都有變量值。對大多數(shù)調(diào)查來說,旳理想的輔助變量應(yīng)該是國家統(tǒng)計構(gòu)保存的人口登記變量記錄,因為這些記錄不僅對于每個樣本單位是已知的, 而且對總體中所有單位都己知o輔助向量(aux訂iary vector)是由一個或多個 輔助變量組成的向量,其構(gòu)造通常要經(jīng)過兩個步驟:(?)建立一個包含所有潛在輔助變量的列表;(?)選擇其中旳合適的變量進入輔助向量。這里,潛在輔助變量可能會來源于多個 相關(guān)資料體系,從而使得步驟(ii)中的

34、操作變得比較困難,包括從較多的變量中 選擇合適變量、設(shè)置分組界限將數(shù)值型變量轉(zhuǎn)化為定類變量以及合并規(guī)模過小 的組等等。在某些情形下,構(gòu)造估計量不僅要求輔助向量中各變量的回答值己知,而且 還需要知道這些變量的總體總量、總體頻數(shù)等指標(biāo),這就構(gòu)成了輔助信息 (aux訂iary information)的概念。該概念涵蓋內(nèi)容十分廣泛,兒乎包含一切 可能用丁調(diào)整無回答的信息,因此輔助變量、輔助向量都可統(tǒng)稱為“輔助信息”。31.2輔助信息的分類無回答調(diào)整屮的輔助信息可分為外部輔助信息和內(nèi)部輔助信息兩大類。前者是指本次調(diào)查以外的所有資料信息,而后者是指本次調(diào)查中獲得的除缺失值外的其他信息。1.2. 1外部輔

35、助信息實踐中,隨著調(diào)查的普及和應(yīng)用范圍的推廣,齊級政府部門、學(xué)術(shù)團體和商業(yè)機構(gòu)都積累了豐富的調(diào)查資料,特別是政府部門掌握著大量的行政管理數(shù) 據(jù)和統(tǒng)計資料。如果這些資料能夠在相關(guān)調(diào)查中得以充分利用,那么將不僅有助 于無回答的預(yù)防和調(diào)整,而且能夠有效地提高調(diào)查數(shù)據(jù)的整體質(zhì)量,節(jié)省社會資 源。常見的外部輔助信息包括下面兩大類:(1) 二手?jǐn)?shù)據(jù):包括由國家各級統(tǒng)計機構(gòu)收集的普查數(shù)據(jù)、年鑒數(shù)據(jù)、人口 登記資料等等。在我國,盡管統(tǒng)計工作日趨完善,但在數(shù)據(jù)公布和處理方面 相對薄弱,因此一般調(diào)查很難通過這種渠道獲得詳細(xì)的人口信息,只能得到 一些常用人口和經(jīng)濟統(tǒng)計變量的總體數(shù)據(jù)。(2) 已有的同類調(diào)查數(shù)據(jù):有效

36、利用該類信息需要對已有調(diào)查資料或行政管 理數(shù)據(jù)進行專門的收集和整理,并建立完備的信息系統(tǒng)。目前國外在該領(lǐng)域 已有較為成熟的經(jīng)驗可以借鑒。一些人型咨詢公司已經(jīng)建立起自己的數(shù)據(jù)庫 系統(tǒng),相關(guān)政府部門也在努力從事這一類工作。例如,在1989年進行的美 國消費者資金狀況調(diào)查(scf)中,使用了 1987年國家稅收部(soi)調(diào)查 的數(shù)據(jù)檔案。該外部輔助信息不僅為抽樣設(shè)計提供依據(jù),而且還包括了一些與個人資金狀況相關(guān)的數(shù)據(jù)資料。f11.2.2內(nèi)部輔助信息無回答調(diào)整所用的內(nèi)部輔助信息通常有三種,一是除研究變量外的其他調(diào)查 變量,二是研究人員出于估計無回答的目的而專門設(shè)計的一些變量,三是一 線訪員的反饋信息。

37、(1) 其他調(diào)查變量:在現(xiàn)有調(diào)查問卷中,除主要研究變量外,調(diào)查人員往往 還會設(shè)計一些與研究主題有關(guān)的其他變量。當(dāng)這些變量與研究變量間存在高 度相關(guān)關(guān)系時,利用樣本單位在這些變量上的特征,通常可以推斷出它們在2參 見 louise woodburn1991,“ using auxliary information toinvestigate nonresponse bias” , paperpresented atthe armual meetings of the american statisticalassociation,278-283 4研究變量上的表現(xiàn)。(2) 為改進估計而專門設(shè)計的

38、變量:為了獲取更多信息,研究人員有時會針 對受訪者在所有變量上都無回答的情況(即單位無回答),設(shè)計一些專門的 變量。例如,在“拒答”情況下,訪員可以詢問拒答者一兩個額外問題(如 拒答理由、人口統(tǒng)計特征等),并據(jù)此分析拒答原因,改進設(shè)計。而對于“不 在家”的情況,則通常對回答者詢問其在家頻率的問題,據(jù)此進行加權(quán)調(diào)整。(3) 訪員反饋信息:有些調(diào)查允許訪員自行判別無回答者的人口統(tǒng)計特征, 然后再根據(jù)相似回答者的信息進行推斷。例如,要求訪員判斷受訪者的合作程度和對問題的理解程度,或根據(jù)自己的觀察判斷受訪者的生活水平、經(jīng)濟 狀態(tài)等。這類信息的獲取對訪員要求較高,且容易有較大偏差,但某些特定 情況下也有

39、一定適用性。1.3輔助信息的重要性成功的無回答調(diào)整離不開輔助信息的應(yīng)用,引入正確的輔助信息可以有效降 低無回答偏差,從而減小估計量方差。3下面以1999年瑞典統(tǒng)計局實施的收入分布調(diào)查數(shù)據(jù)f為例,說明在估計 階2段引入輔助信息對無回答偏差的作用,從而直觀地反映輔助信息的重要性。 調(diào)查的主要研究變量為受訪者的年收入,用y表示。將收集到的34478個樣本單位看作一個新的總體,則該總體規(guī)模為n二3447&其中男性17062人,女性17416人。已知男性群體和女性群體在研 究變量y上的均值分別為196592和135689,且男性回答概率為0.5,女性回 答概率為0. 9。收入總體總量值y二571

40、7412328。假定目標(biāo)估計量為總體總量yo為了估計y,采用簡單隨機抽樣從總體抽取 規(guī)模為400的樣木,其中281個單位有回答。由于不同性別人群回答概率有 差別,因此在旳終得到的281個回答單位中,女性比例可能高于其總體真實比例。也就是說,與理想的簡單隨機樣木相比,該樣木中女性比例偏高。此時如果釆用口勻 簡單的估計量ny y (其中r表示樣木的回答單位集,m表示回答單位數(shù))krm對y進行估計顯然會夸大女性群體的影響力,造成總收入的估計結(jié)果偏低。3參見 sixten lundstr?ni and carl-erik s?rndal (2001), estimation in the presen

41、ee of nonresponse and frameimperfections, p275為了更肓觀地說明這一點,我們從總體中重復(fù)抽取100個規(guī)模為400的簡 單隨機樣本(srs),每個樣本中的回答情況都符合前述機制。根據(jù)上式,分別對 這100個樣本計算總收入y的簡單估計值y,得到結(jié)果如下圖所示。exp圖1.1100個srs樣木的簡單估計值與總體真值比較上圖水平軸表示從1到100的srs樣本編號,縱軸表示總收入估計值y ,exp而水平線則表示總體收入的真實值yo從圖中可以很清楚地看到,在100個 根據(jù)回答單位計算出的估計值y中,絕大多數(shù)都落入y水平線以下的區(qū)域,顯 然exp它們的均值ey也將

42、小于真值y??梢?,在不對無回答作任何處理的情況 下,exp調(diào)查結(jié)果整體偏低,存在較大的負(fù)偏差。針對這種情形,考慮引入一定的輔助信息。由于總體中男女人數(shù)已知,回 答單位性別已知,因此可以根據(jù)性別變量進行分層,并采用事后分層估計量 hy n ypst e h rhh 1進行估計。其中r表示樣本中冋答單位集,h表示劃分的事后層數(shù),n表示 第hh層的總體單位數(shù)。此時事后層數(shù)ii二2,分別為男性和女性。對上例抽出的100個srs樣本重新計算事后分層估計量y,結(jié)果如下圖pst所示??梢钥吹?,與圖11相比,絕大部分y都隨機分布在總體真值y 上下,pst由它們計算出的均值ey也與真值十分接近,偏差幾乎為零。這

43、說明,利pst相關(guān)輔助信息進行分層,使原來有偏的估計得到了改善。6圖1.2100個srs樣木的事后分層估計值與總體真值比較上述案例表明,輔助信息的引入減小了無回答造成的偏差,提高了估計質(zhì)量,在無回答處理中起著重要的作用。因此,本文圍繞輔助信息在無回答調(diào)整中 的應(yīng)用展開討論是具有理論意義和現(xiàn)實意義的。1.4輔助信息在識別無回答機制中的應(yīng)用在對無冋答進行處理之前,應(yīng)首先對調(diào)查中無冋答的原因進行分析,判斷無 回答可能對調(diào)查結(jié)果產(chǎn)生的影響,我們稱這一過程為無回答機制的識別。一 般地,任何無回答調(diào)整方法都建立在一定的無回答假設(shè)z上。因此,有效地判別無 回答機制是實施調(diào)整的基礎(chǔ),具有重要的意義。1.4.1

44、無回答機制概述無回答機制實際上就是指調(diào)查數(shù)據(jù)缺失的模式,包括三種類型:完全隨機無 回答(missing completely at random) > 隨機無回答(missing at random) 和不可忽略無冋答(nonignorable nonresponse) o假定某數(shù)據(jù)集包括研究變量y 以及由其他變量構(gòu)成的向量x,且x是完整回答的,y存在無回答情況,則上述三種無回答機制可解釋為:完全隨機缺失(mcar)?樣本單位在y上的回答概率與x和y都無關(guān)。例如,在某項血液研究中,實驗室工作人員不慎丟失了裝有某一被調(diào)查者血樣的試管。沒有理由表明丟失試管(無回答)這一事件與被調(diào)查者的白細(xì)胞

45、數(shù)量(y) 或其他因素(x)有任何關(guān)系,也就是說無回答的發(fā)生完全隨機。此時回答單位 實際上可看作是從樣本單位中簡單隨機抽取的子樣本,仍可直接采用完整數(shù) 據(jù)的統(tǒng)計方法對其進行分析。隨機缺失(mar) ?樣本單位在y上的回答概率與x相關(guān),與y無關(guān)。例如, 在上述血液研究中,如果某血樣丟失的可能性只與其存放地點(x)有關(guān),而與 血樣研究特征(y)無關(guān),則樣本單位是隨機缺失的。此時,完整數(shù)據(jù)分析方法 不能直接應(yīng)用,只有在利用相關(guān)輔助信息模型對無回答進行完備的解釋后, 無回答才可被忽略。例如根據(jù)存放地點對血樣進行分層,則在同一層內(nèi)血樣丟失 的概率都相同,無回答為完全隨機,此時可采用完整數(shù)據(jù)分析方法進行分

46、析。不可忽略無回答??單位在y上的回答概率不僅與x相關(guān),而且與y值也相 關(guān)。仍以血液研究為例,如果實驗室工作人員對他們認(rèn)為包含hiv的血樣(y)保 存更加小心,那么這部分血樣相對于普通血樣來說丟失的概率較小。此時數(shù)據(jù) 的缺7失與我們感興趣變量有關(guān)系,無回答不可忽略。不同機制下,無回答對結(jié)果的影響程度有所不同,因此需要采取不同的方法進行處理:對于mcar來說,如果樣木量足夠,則可直接剔除無回答單位,僅用回答 單位數(shù)據(jù)進行分析,此時結(jié)果仍是無偏的。(2) 在mar機制下,情況相對復(fù)雜,首先要選擇對回答概率有影響的輔助變 量,并將其引入無回答調(diào)整模型。如果找到的輔助變量能夠完備地解釋無回答現(xiàn)象,那么

47、調(diào)整后的無回答變?yōu)閙car。此時再用標(biāo)準(zhǔn)方法進行分析就可能得到 無偏結(jié)論。(3) 對于不可忽略無回答來說,無回答不僅與輔助變量有關(guān),還與研究變量有 關(guān)。在這種情況下,調(diào)整雖然能夠起到一定作用,但始終無法完全消除無回答的影響?;谝陨戏治?,大多數(shù)無冋答處理方法都以mar或mcar為假定,因為只有在這兩種機制下才有進一步應(yīng)用各種方法進行調(diào)整的必要。由此,作為 無回答處理的第一步,我們對無回答機制的識別也主要集屮在對mar和mcar 的判別上,對不可忽略冋答暫不考慮。1.4.2利用輔助信息識別無回答機制識別無回答機制的關(guān)鍵在于能否從多個潛在輔助變量中找到影響無回答的 主要變量,如果能夠找到,則說明無

48、回答受到x的影響,可初步判定為mar,如果無法找到,則說明無回答現(xiàn)象不受任何x的影響,則可初步判定為mcaro與此同時,對潛在變量的分析篩選也為下一步無回答調(diào)整時輔助信息的選擇 提供了一定的思路。由此可見,尋找對無回答有影響的輔助變量對識別無回答機制乃至進行無回 答調(diào)整都十分重要。作為無回答分析的第一步,我們首先應(yīng)對輔助信息在無 回答機制識別中的應(yīng)用有所了解。1)輔助信息在“回答率比較研究”中的應(yīng)用回答率比較研究主要是通過分析樣木中各子群體之間在回答率上的差異程 度,來判斷無回答現(xiàn)象是否與輔助變量有關(guān)。若不同子群體z間的回答率差 異顯著,而群內(nèi)各單位的冋答概率沒有明顯差別,則表明單位冋答概率只

49、與分層 變量存在一定的相關(guān)關(guān)系,與研究變量無關(guān),屬于mar;若不同子群體間回答率沒 8有任何差異,則說明單位回答概率與分層輔助變量和研究變量都無關(guān),屬 于mcaro由上述思路可知,回答率比較研究的關(guān)鍵是找到合適的輔助變量對樣本單位 進行劃分。只有分層變量選擇正確的情況下對各子群體的回答率進行比較,才能準(zhǔn)確地判斷無回答機制。這里用于分層輔助變量至少應(yīng)滿足下面兩個條件:(1)可獲得性:由于子群體的劃分是在樣本范圍內(nèi)進行的,因此對于所有樣本 單位(包括回答單位和無回答單位)來說,用于分層的輔助變量值都應(yīng)已知。(2)相關(guān)性:由于子群體的劃分要求群體內(nèi)各樣本單位的回答概率相近,因此用于分層的輔助變量應(yīng)與

50、樣本回答概率高度相關(guān)。例如在1.3節(jié)提到的1999瑞典收入調(diào)查一例中,研究變量為收入y,輔助 變量為性別xo由于所有樣本單位的性別x均己知,且整體來說男性的收入高 于女性,y與x之間存在相關(guān)關(guān)系。因此以性別為分層變量,對數(shù)據(jù)進行回答率 比較研究:首先采用“性別”變量對樣本單位進行劃分,得到兩個子群體?男性 和女性。然后分別計算兩個子群體的回答率:(1)若男性群體中回答率為 50%,女性群體為90%,且同一群體的各單位(同性)收入水平比較接近。則可知單 位的回答概率只與性別有關(guān),而與其木身收入無關(guān),判定無回答機制為mar;(2)若男性群體和女性群體的回答率均為70%,無顯著差異,那么說明無回答

51、與性別和收入都無關(guān),無回答機制為mcar。上例中為了簡化步驟只給岀了一個輔助變量,但在實際調(diào)查中可供選擇的潛 在變量往往不只一個,需要從中篩選出合理的輔助變量(滿足前述兩個條件) 來進行回答率比較研究。該選擇過程通常用相關(guān)系數(shù)法來實現(xiàn):仃)列出所有潛在輔助變量。這些變量可以是當(dāng)前調(diào)查問卷中除缺失變量外其他變量,也可以是來源準(zhǔn)確的外部資料。且樣木單位在這些變量上都有數(shù)值。(2) 為數(shù)據(jù)集定義一個回答指示變量m(missing),令m 1表示樣本單位i1在研究變量y上有回答,m 0表示無回答。1(3) 計算指示變量m與所有潛在輔助變量之間的相關(guān)系數(shù)。如果存在相關(guān) 性顯著的變量,則說明該變量與單位回答概率相關(guān),可用于分層。此時數(shù)據(jù) 很可能是mar的。如果所有潛在變量的相關(guān)性都不顯著,無法選擇到滿 足條件的分層變量,那么數(shù)據(jù)很可能是mcar的。例如,某人壽保險公司在分析其客戶滿意度調(diào)查數(shù)據(jù)吋發(fā)現(xiàn)目標(biāo)研究變量“顧客滿意程度”存在部分缺失值。為了確定這些缺失值的影響,首先識別 無回答機制。由于公司客戶部存有每位客戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論