第十章非抽樣誤差_第1頁
第十章非抽樣誤差_第2頁
第十章非抽樣誤差_第3頁
第十章非抽樣誤差_第4頁
第十章非抽樣誤差_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十章非抽樣誤差第1頁,課件共28頁,創(chuàng)作于2023年2月美國《文學摘要》對于1936年美國總統(tǒng)選舉進行了預測,當時大多數(shù)觀察家認為羅斯福會輕易獲勝,而《文學摘要》根據(jù)自己的抽樣斷定蘭登與羅斯福的獲勝比率將是57%和43%。然而卻是羅斯福以62%比38%的絕對優(yōu)勢坐上了總統(tǒng)寶座。與事實完全相悖的預測斷送了這家原本頗有名氣的雜志的前程,不久它只得??痛恕瓣P門大吉”。美國《文學摘要》發(fā)出了1000萬張調查表,收回了200萬張,花費了那么大的精力,收集了那么多的數(shù)據(jù),怎么會出那么大的錯誤呢?主要原因就是抽樣框的選取。原來它是按照電話簿和俱樂部成員的名單發(fā)出調查表的,由此選取的樣本明顯地排斥窮人!因為當時一般窮人很少擁有私人電話或隸屬于哪個俱樂部(1936年,美國大約有1100萬部住宅電話)。眾所周知,經(jīng)濟地位在很大程度上影響著政治態(tài)度:窮人壓倒多數(shù)地傾向于羅斯福而有錢人則偏向于蘭登。《文學摘要》的樣本反映不出這個社會現(xiàn)實從而犯了致命的錯誤。第2頁,課件共28頁,創(chuàng)作于2023年2月設計帶來非抽樣誤差有很多表現(xiàn)在抽樣框出了問題,第一章中所述的《文學摘要》的抽樣框明顯地偏向于某一部分人而忽略了另一部分人,從中產(chǎn)生的非抽樣誤差使得抽樣結果不能反映總體(全體選民)的意見。這種致命的錯誤來源于抽樣框“丟失”了總體中占有一定比例的單元,如果這一部分被“丟失”的群體在調查關心的參數(shù)方面有其獨特的一面,那么這種“丟失”引起的非抽樣誤差使推斷或估計帶有明顯的偏性。

如果我們的抽樣方案是分層抽樣,分層抽樣不太可能按照關心的總體參數(shù)去實施,而常常根據(jù)若干輔助信息來進行,當然這些輔助信息與調查變量應當有較強的相關程度。倘若這些輔助變量資料不健全,不準確甚至借用這些輔助變量本身屬于判斷失誤,由此引起的非抽樣誤差可能會嚴重威脅到估計的準確性。第3頁,課件共28頁,創(chuàng)作于2023年2月有時候陳舊的抽樣框將帶來我們所不希望看到的非抽樣誤差,因為陳舊的抽樣框會造成總體單元的“丟失”現(xiàn)象,一般地它還難以反映近期有關變量的一些變化。以上所述的非抽樣誤差屬于在抽樣之前的設計方案工作及編制抽樣框中需要認真對待的。本章就抽樣過程中產(chǎn)生的非抽樣誤差進行詳盡的討論?!?無回答現(xiàn)象在設計方案相當合理,編制的抽樣框令人十分滿意的情況,無回答現(xiàn)象的發(fā)生是非抽樣誤差表現(xiàn)的主要形式之一。無回答類型通??蓺w結為:(1)遺漏。由隨機抽樣所確定的調查單位出現(xiàn)“找不到”現(xiàn)象,或者由于客觀存在的一些困難,諸如交通極端不便,氣候異常惡劣等而無法找到確定要去訪問的對象。第4頁,課件共28頁,創(chuàng)作于2023年2月(2)被調查對象不在家。有時候可以請家庭中其他人甚至就近換一家進行訪問,這樣的做法雖然方便,但是在一定程度上破壞了隨機性。有時候為了確保抽樣的隨機性,“不在家”就造成了“無回答”。(3)不能回答。某些被訪問者對于問卷中的若干問題缺乏有關資料或者出于各種各樣的原因而不愿意回答。(4)堅決拒絕調查。這是由于各種原因造成的,尤其是有些問題涉及到個人隱私等等,由此產(chǎn)生的偏差一般較難消除。造成無回答現(xiàn)象的原因有許許多多,但一般地,由政府部門出面組織的抽樣調查常常能得到被調查者的友好合作,這種情況下無回答現(xiàn)象的比例相對地較少,然而對于一般的市場信息調查等非政府組織的抽樣調查無回答現(xiàn)象比例非常的高。隨著我國社會主義市場經(jīng)濟的發(fā)展和完善,這種情況正在逐步得到改善。第5頁,課件共28頁,創(chuàng)作于2023年2月其實調查人員的素質,調查問題的擬定,被調查人員的文化素質等等都對無回答率有一定影響。每件抽樣調查,我們需要力求低比率的無回答現(xiàn)象,從目前來看,完全避免無回答現(xiàn)象是不可能的。對于無回答現(xiàn)象產(chǎn)生的非抽樣誤差我們關心的是:1、問卷的回收率調查報告一般要求列出回收率,尤其是通過郵寄方式進行的調查,更需如此。因為回收率的高低將有力地論證調查的成功與否。對回收率的分析將有助于在無回答現(xiàn)象較嚴重的情況下進行數(shù)據(jù)分析,同時也有助于分析出哪些對象是可以再訪問從而采取多次訪問的手段盡量減少無回答率。2、如何進行數(shù)據(jù)分析第6頁,課件共28頁,創(chuàng)作于2023年2月設抽樣容量為n,無回答個數(shù)為,那么我們的實際調查量為。根據(jù)個有效數(shù)據(jù)分析將比原定的計劃少了很多信息。如果這個訪問到的對象是從原定的對象中隨機無放回地抽取的,那么推斷的結果只是精度上的損失,至于估計量的一些良好性質,例如無偏性等仍然保留。然而事情并非這樣地如意,無回答者常常擁有某些特征以致對調查的問題持有特定的態(tài)度,因此依據(jù)個回答數(shù)據(jù)所作出的推斷往往帶有偏性。以總體平均數(shù)的估計為例,我們面臨的情況相當于總體中N個單元劃分為兩部分:——回答者,——無回答者。倘若抽樣方式是簡單隨機的,那么與的比例理應相當于與的比例。這兩部分的平均數(shù)分別記為和,于是總體平均數(shù)為:(10.1)第7頁,課件共28頁,創(chuàng)作于2023年2月根據(jù)“回答者”部分的平均數(shù)是的無偏估計,用估計顯然會產(chǎn)生偏倚:(10.2)這個偏倚中,與是可以利用調查得到的數(shù)據(jù)進行估計的,但是由于“無回答”,是根本無法獲知其信息的,因此要對估計量給于“糾偏”,其難度極大,尤其是在較大時也就是“無回答者”占有相當大比例時,連的置信限都難于得到。在有些實例中,人們只能對偏倚作出一些猜測,這些猜測有時候可以根據(jù)一些歷史的資料作出,有一定的參考價值;但是有時候憑主觀作出的猜測無法證實其正確性,因此利用它來“糾偏”缺乏依據(jù)也缺乏精確度,這顯然歸因于無回答現(xiàn)象帶來的惡果。第8頁,課件共28頁,創(chuàng)作于2023年2月(1)對某些問題無回答的數(shù)據(jù)以該問題回答數(shù)據(jù)的平均數(shù)來代替;(2)從對某問題回答的個數(shù)據(jù)中作次隨機有放回的抽樣,以填補個無回答者的數(shù)據(jù)。然而在用計算機處理抽樣數(shù)據(jù)時,不單單是簡單地用去代替或者最多給出一定量的糾偏。眾所周知,抽樣調查一般不止問一個問題,我們的問卷經(jīng)常圍繞調查的目的而設置一系列問題,我們遇到的無回答現(xiàn)象經(jīng)常表現(xiàn)為:全部問題無回答或部分問題無回答。在部分問題無回答者中,將會呈現(xiàn)回答問題的多少以及哪些問題無回答的復雜情況,這給計算機處理及整體推斷帶來一定的困難。有些學者提出對于這樣的“丟失”數(shù)據(jù)能否人為地補缺,如果對無回答對象一無所知的情況下,我們可以采取下述措施:第9頁,課件共28頁,創(chuàng)作于2023年2月上述做法還是相當于從個回答者的數(shù)據(jù)出發(fā)對總體作出推斷,但是在計算機上整體考慮來說是作為個樣本來處理的,給整體全面的推斷帶來某種方便,且也具有一定合理性,因為我們的抽樣調查本身是要求個均有回答的。然而這樣的處理在精度上如何計算,或者說新構成的估計量方差如何估計,國外的一些統(tǒng)計學家曾作過研究與進一步的探索。3、多次訪問為了縮小無回答所引起的偏差,減少無回答的數(shù)量,有必要采取一些措施,例如對訪問者的培訓,對敏感問題的適當處理以消除被訪問者的疑慮,調查前作好充分的準備工作等等,采用多次訪問是個有效的方法。當然,對于那些“堅決拒絕回答者”來說,多次訪問很難奏效,但是對于那些“不在家”或“不能回答”原因的無回答者應當有不小的作用。第10頁,課件共28頁,創(chuàng)作于2023年2月實際工作表明,多次訪問的確能做到減少無回答率,隨之而引出的問題是承擔的費用問題。一般地,抽樣方案設計中會留下一部分經(jīng)費用于“再訪問”以便提高回答率。所謂多次訪問不可能“許多次”,因為隨著訪問次數(shù)的增加,每次的回收率將隨之減少,因此“許多次”是不必要的。另外在再次訪問時,最好的辦法是換一個訪問員獨立地對前一次無回答者進行訪問,這樣常??梢允盏胶芎玫男Ч?。4、Polize—Simmons較正如果由于條件的限制,只能進行一次調查,如何較正由于無回答而引起的誤差呢?Polize—Simmons對總體平均數(shù)提出的建議對我們有一定的參考價值。假定所有訪問者均是在除周日以外的6個晚上進行,對于每一個實際被調查者在答完問卷以后再附帶詢問一個問題:“除周日之外,您在今晚以前的5個晚上有幾天在家?”這個問題的如實回答實際上告訴了訪問員關于他晚上在家第11頁,課件共28頁,創(chuàng)作于2023年2月的頻率的一個大致估計:(其中是被調查者回答的天數(shù))。根據(jù)調查的結果可以將被訪問人分為6部分,即。設每個部分含有個人。顯然,越大,就越大,對應此的組入樣的可能性就越大,這樣該部分的平均數(shù)在估計總體平均數(shù)的過程中應當賦予與該組在家頻率相適應的權。這種思想實質上類似于不等概率抽樣時的平均數(shù)估計。按照這種加權平均的思想,我們將原先的樣本平均數(shù)(當然是基于被調查到的樣本)調整為所謂Polize-Simmons估計量:(10.3)第12頁,課件共28頁,創(chuàng)作于2023年2月Polize-Simmons較正在直觀上有合理的解釋:某些調查指標——諸如生活費用的平均年收入或年支出——與被調查者是否容易找到是較強相關的兩個因素。如果不采用加權平均數(shù)而采用被調查者的平均數(shù),那么所得到的估計就相對地突出了那些容易被找到的人的影響,而掩蓋了另一部分不容易找到的人的影響。P-S較正采用加權平均對偏差作了一定程度上的較正。當然所利用的權本身是通過抽樣調查的數(shù)據(jù)估算出來的,它將無可質疑地影響到估計量的方差(增大),對估計的精度付出代價,但是我們畢竟不要再花費時間、精力和費用去作多次訪問并達到糾偏的作用。第13頁,課件共28頁,創(chuàng)作于2023年2月§3計量誤差計量誤差是又一種重要的非抽樣誤差。由于計量工具的不夠精確,或由于調查人員工作的粗糙失誤,或者是數(shù)據(jù)處理人員的馬馬虎虎,都有可能造成調查所得數(shù)據(jù)與真值之間的不一致。這樣的計量誤差(或稱調查誤差)將嚴重地威脅到抽樣推斷。本節(jié)還要簡略討論到另一種調查誤差,那就是人為的“虛假”數(shù)據(jù),數(shù)據(jù)的偽造與虛假干擾了我們的調查與推斷,有時候會發(fā)生不堪設想的嚴重后果。1、設計引起的誤差因為方案以及問卷的設計引起偏差的問題,我們已經(jīng)在第一章中較為詳盡地闡述過,本節(jié)稍稍談論由此引起的計量方面的誤差。在調查咨詢方面取得極大成功的蓋洛普十分強調問卷設計中的用詞,用詞欠妥有可能引起調查結果在計量方面顯著的不同,足以例證的當推Rugg試驗:第14頁,課件共28頁,創(chuàng)作于2023年2月問題甲:“您認為美國應當禁止反對民主的公開言論嗎?”其結果是54%的人贊成。問題乙:“您認為美國應該允許反對民主的公開言論嗎?”結果是75%的人不贊成。兩個問題表示美國多數(shù)以上的人不同意在美國有公開反對民主的言論,但比例為54:75,相距甚遠。既然人們傾向于不允許反對民主的公開言論,但“禁止”兩字使不少人感到這與“民主及言論自由”有相悖之處。這里面涉及到美國的國情、美國人的心理承受等各種因素。當然,要想完全避免問題設計引起的計量上的誤差很難做到,因此我們主張有時候可以做些小范圍的試調查,從而調整我們的各種用詞。第15頁,課件共28頁,創(chuàng)作于2023年2月2、調查員誤差對于一個對象的訪問,如果不存在調查員方面的問題,照理調查所取得的數(shù)據(jù)與真值之間只有隨機誤差,因此從理論上講,只要對該對象多次訪問再取平均數(shù)則可以基本上“抵消”隨機誤差的影響。然而由于調查員方面引起的誤差(通常稱為系統(tǒng)誤差)不可能通過多次訪問而抵消。調查員誤差常常歸因于:(1)調查員本身的素質,倘若一個調查員工作粗糙、登錄馬虎等,則會引起不必要的差錯。有些調查員只在調查中將對象提供的以前的或公開的資料照抄,殊不知這些以前的或公開的數(shù)據(jù)與現(xiàn)在要調查得到的數(shù)據(jù)之間有時是存在差異的,這樣的誤差當然是由調查員而引起的。(2)調查員的誘導引起的調查誤差。調查員為了將問題展開下去,常啟發(fā)被調查人員,或做一些示范暗示,做一些比喻,言語與動作之間常帶有調查員本身的一些想法第16頁,課件共28頁,創(chuàng)作于2023年2月愿望等,只要回答的結果不對被調查人員的生活及其他帶來不利影響的話,有些被調查人員就會自然地順著調查員的思路回答問卷。(3)調查員按照被調查人員給自己留下的初步印象而推測填寫問卷。不能否認,調查員本身是生活在社會中的一員,對許多事情有自己的思想,會作出自己的判斷。被調查人員的年齡、性別、社會職業(yè)、家庭收入,以及一進門就可看到的家庭擺設、衛(wèi)生狀況,甚至被調查人員的容貌等都會給調查人員一個較深刻的印象,在問卷中有些不清楚的問題,或者需要被調查人員講述一些觀點而由調查員記錄下來的內容,都有可能由于調查員認為這樣的人必定如何回答該問題的印象而引起誤差?;蛘哒{查員根據(jù)先前對其他人的訪問留下的印象,比如對某問題持贊成者多,那么這種印象也很有可能成為他采訪下一個對象時已經(jīng)形成初步結論。第17頁,課件共28頁,創(chuàng)作于2023年2月以上這些調查員誤差都是屬于系統(tǒng)誤差,稱為偏差,不可能通過大量訪問或多次訪問加以克服。要盡可能地避免或減少調查員誤差就必須挑選合格稱職的調查員,并且對調查員預先進行培訓,講清楚注意點,尤其是要向調查員反復強調職業(yè)道德。另外抽樣調查的督導十分重要,督導的作用是檢查調查質量,并從中抽取少部分進行核查訪問以評估調查的質量。核查通常采用電話方式,若上門核查則常常采用調查員之間交叉核查的辦法。3、被調查人員誤差被調查人員誤差雖然需要“防治”,但有些是可以原諒的,例如被調查者對問題的理解發(fā)生差錯就是一例,當然如果是調查員上門訪問,那么這種差錯就容易及時更正,但如果是郵寄問卷等則無法糾正了。另外,有不少事情是需要被調查人員回憶后再回答的,它不像“什么時侯出生”、“何地出生”、“家中有幾口人”等這些問題既簡單且不易發(fā)生差錯。第18頁,課件共28頁,創(chuàng)作于2023年2月有些事情,時間比較長且又比較復雜,回憶有一定的困難,差錯也是難免的。對于這種類型的差錯,一般要求調查員有耐心地等待,給予一定的回憶時間。倘若被調查人員身體不適、情緒欠佳,或者調查環(huán)境使人煩躁等都會引起回答誤差。另一類由被調查人員引起的調查誤差是不可原諒的,那就是被調查人員“謊報軍情”提供虛假數(shù)據(jù)。這里面有一部分人因為牽涉到一些敏感性問題而不愿如實回答,對于敏感性問題的巧妙處理將在下一節(jié)進行討論。但是,在我國的確存在著虛報瞞報、篡改統(tǒng)計數(shù)據(jù)等現(xiàn)象,使國家統(tǒng)計局掌握統(tǒng)計信息,反映我國國民經(jīng)濟發(fā)展及社會運行狀況工作遇到人為麻煩。因此,廣泛宣傳統(tǒng)計法,加強對統(tǒng)計法執(zhí)行的力度已經(jīng)刻不容緩。關于樣本數(shù)據(jù)是否虛假,存在一個發(fā)現(xiàn)與判斷的問題,往往只有比較樣本數(shù)據(jù)的整體變化才有可能確定,或者可以利用歷史樣本以及經(jīng)驗進行判斷。第19頁,課件共28頁,創(chuàng)作于2023年2月例如,如果我們發(fā)現(xiàn)某村申報小麥畝產(chǎn)量為500公斤,從該村歷史上的小麥畝產(chǎn)量以及周圍地區(qū)的小麥畝產(chǎn)量的抽樣數(shù)據(jù),也許我們會很果斷地判定它的虛假性。一般來說,抽樣調查總是調查一批數(shù)據(jù),是多參數(shù)的,各參數(shù)之間存在一定的相關,根據(jù)歷史資料等有時可以估算到相關程度,即使是粗略估計也能有助于我們及時發(fā)現(xiàn)虛報數(shù)據(jù).在數(shù)值上利用計算機作出判斷是人們感興趣的研究課題,它其實與對抽樣的質量評估緊密地聯(lián)系在一起。簡單地說,設為抽樣獲得的數(shù)據(jù),從這幾個對象中隨機選取一個子集進行再調查,兩次調查的數(shù)據(jù)分別記為和。(1)比較這兩組數(shù)據(jù)之間的差異,它在某種程度上可以鑒別真?zhèn)涡裕瑫r也對整個抽樣的質量進行適當評估。第20頁,課件共28頁,創(chuàng)作于2023年2月(2)利用,對總體參數(shù)的估計量為,利用對總體參數(shù)相應的估計量記為,與之間的差異可以評估抽樣推斷的質量,同時也可以檢測即使有虛假數(shù)據(jù)存在可能是否會影響到整體的估計。在處理數(shù)據(jù)過程中,一旦發(fā)現(xiàn)虛假數(shù)據(jù),通常采用的處理手段是:刪去或重新調查。刪去數(shù)據(jù)必須小心謹慎,如果確定是虛假數(shù)據(jù),那么毋庸置疑地剔除。但是在實際情況中有些數(shù)據(jù)看起來相當“異常”,而且在歷史資料中似乎也從未發(fā)生過,大有“虛假”之嫌,而它也許是真實的。例如某縣遭到史無前例的天災,那么在該年該縣的農(nóng)產(chǎn)量便會呈現(xiàn)極度異常值,像這樣的雖異常但真實的數(shù)據(jù)是不應該輕易剔除的,因為每一個數(shù)據(jù)為我們提供了一定的信息,輕易地喪失信息將嚴重地威脅到估計的精度。第21頁,課件共28頁,創(chuàng)作于2023年2月§4敏感性問題的調查在社會經(jīng)濟調查中經(jīng)常會出現(xiàn)一些敏感性的或高度私人絕密的問題。例如對于青少年吸毒問題的調查,吸毒是個敏感性問題,幾乎沒有一個吸毒的青少年會向公安部門或政府機構的調查者袒露自己的吸毒行為。又如科技人員的流向或有關流向意愿,國家人事部門為了掌握有關人才流動信息曾作過抽樣調查,但是被調查者未必愿意在正式流動之前表白自己的意向,否則也許會在原工作單位造成不必要的麻煩。調研工作者很希望設計一種辦法既使被調查者不擔心暴露隱私,又使調查者獲得正確的資料,這就是本節(jié)所要介紹的兩種處理敏感問題的方法。1、Warner裝置針對有些問題僅有“是”或“否”兩種回答而我們的目的是獲取總體中“是”的比例這樣的調查,Warner設計了一種隨機化裝置,基本想法如下:第22頁,課件共28頁,創(chuàng)作于2023年2月對于n個對象中的每一個以概率P與1-P就關心的敏感性問題提出兩個截然相反的回答,例如“我贊成某事”或“我不贊成某事”,任何一個對象面對任何一個回答只需回答“是”或“否”。Warner裝置的巧妙之處在于調查人員無法知道被調查人員回答了哪個問題,要做到這一點并不困難,只要準備幾張無差異的折疊紙條,以概率P與1-P在紙條上寫上述兩個問題。被調查者隨機地摸出一張紙條打開,但是調查員不允許查看紙條上書寫哪個問題,被調查者針對他所摸到的那個問題如實回答,若回答“是”,則以紅球投進一密閉口袋,若回答“否”,則投之于白球,整個投球過程也不讓調查員看到,調查員唯有在整個過程結束后打開口袋查點紅白球個數(shù)。這種裝置使被調查者確信不會泄漏自己的態(tài)度從而如實投球。第23頁,課件共28頁,創(chuàng)作于2023年2月現(xiàn)在假定最后打開口袋發(fā)現(xiàn)n個球中有m個紅球,可知總體對兩個截然相反問題回答“是”的比例中的一個估計量為:,由概率論知識,有其中是總體中“贊成某事”的真正比例,也就是我們所要估計的參數(shù)。由于P是調查人員預先自行確定,可以估計只要,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論