MRAF-Ver2C9 數(shù)據(jù)處理_第1頁
MRAF-Ver2C9 數(shù)據(jù)處理_第2頁
MRAF-Ver2C9 數(shù)據(jù)處理_第3頁
MRAF-Ver2C9 數(shù)據(jù)處理_第4頁
MRAF-Ver2C9 數(shù)據(jù)處理_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1第第9章章 數(shù)據(jù)處理數(shù)據(jù)處理 2開篇案例 家庭外出就餐的有關(guān)數(shù)據(jù) 類l0010030030050050010001000合計頻數(shù)41224882260768 在某城市調(diào)查居民當(dāng)月在外就餐的費用,向1000戶家庭發(fā)放了調(diào)查問卷,回收了768份問卷。統(tǒng)計結(jié)果如上表所示。 不響應(yīng)的戶有232戶。在響應(yīng)的768戶中,高檔住宅戶僅占16,而不響應(yīng)的232戶中,高檔住宅戶占到38。那么,我們應(yīng)當(dāng)如何看待這些數(shù)據(jù)?如何使用這些數(shù)據(jù)對總體進行推斷呢? 391 數(shù)據(jù)處理及其一般程序 廣義上講,數(shù)據(jù)處理是指在對數(shù)據(jù)資料進行統(tǒng)計分析之前要做的所有準(zhǔn)備工作。 在資料量化和分析計算機化的背景下,狹義的數(shù)據(jù)處理,是指把

2、調(diào)查中收集到的數(shù)據(jù)轉(zhuǎn)換為適合匯總制表和數(shù)據(jù)分析形式的過程。主要包括 檢查資料中潛存的錯誤 將數(shù)據(jù)資料轉(zhuǎn)化為數(shù)字形式 錄入數(shù)據(jù) 對不完整的數(shù)據(jù)進行插補 將數(shù)據(jù)資料變成計算機數(shù)據(jù)文件 數(shù)據(jù)處理對數(shù)據(jù)質(zhì)量和成本有很大影響。 4數(shù)據(jù)處理的一般程序 以紙制問卷為例,數(shù)據(jù)處理的過程(如圖9-1)。 初步審核及凈化數(shù)據(jù)編碼數(shù)據(jù)錄入詳細審核與插補離群值的檢測處理數(shù)據(jù)存儲圖9-1 數(shù)據(jù)處理的一般程序5數(shù)據(jù)處理的程序 審核問卷填寫的完整性和數(shù)據(jù)質(zhì)量,目的是確定哪些問卷可以接受,哪些問卷要被剔出。 問卷審核規(guī)則:下述情況的問卷一般不能接受: 所回收的問卷明顯不完整,如缺頁或多頁; 問卷從整體上是回答不完全的; 問卷

3、的幾個部分是回答不完全的; 回答表明被訪者沒弄清問題含義或沒閱讀填答說明; 被訪者的回答表現(xiàn)出某種系統(tǒng)偏差,如總選擇中性答案; 問卷是由不合要求的被訪者回答的。 將原始問卷區(qū)分為可以接受、明顯要作廢、對是否可以接受有疑問三部分,是有益的。 6數(shù)據(jù)處理的程序 數(shù)據(jù)錄入是將回答轉(zhuǎn)化成可機讀的形式。采用紙制式問卷收集數(shù)據(jù)時,數(shù)據(jù)錄入是在數(shù)據(jù)收集完畢之后由錄入員將問卷上的數(shù)據(jù)輸入計算機。 下面幾種方法可以提高數(shù)據(jù)錄入的效率: 采用計算機輔助數(shù)據(jù)收集方法; 對紙制式問卷進行光電掃描; 對紙制式問卷進行預(yù)先編碼。 7數(shù)據(jù)處理的程序 兩種數(shù)據(jù)儲存格式:數(shù)據(jù)庫和平面文件就是計算機化后的二維記錄格式和它們相應(yīng)的

4、值,它容易從一種平臺轉(zhuǎn)到另一種平臺,并能用不同的表格軟件或統(tǒng)計軟件讀取。 以存貯數(shù)據(jù),可以方便大多數(shù)統(tǒng)計和數(shù)據(jù)庫軟件直接處理,而不必重新生成文件,查詢操作也方便。但是數(shù)據(jù)庫格式可能會限制軟件的選擇。 因此,較好的選擇是對調(diào)查結(jié)果生成一個平面文件,同時生成幾種不同的數(shù)據(jù)庫文件。 892 數(shù)據(jù)編碼數(shù)據(jù)編碼 ,就是將問卷信息轉(zhuǎn)化為統(tǒng)一設(shè)計的、計算機可識別的數(shù)值代碼的過程,以便于數(shù)據(jù)錄入和作進一步處理與分析。 就是確定各問卷、問卷中的各問題以及問題的各答案對應(yīng)的代碼的名稱、形式、范圍以及與原數(shù)據(jù)的對應(yīng)關(guān)系,以便能夠?qū)⒄{(diào)查中所得到的各種回答分成若干有意義且有本質(zhì)差別的類別。 9編碼設(shè)計的內(nèi)容編碼設(shè)計的內(nèi)

5、容 編碼設(shè)計的內(nèi)容包括:問卷代碼、變量的定義(名稱、類型、位數(shù)、對應(yīng)問題等)以及取值的定義(范圍、對應(yīng)含義等)。將這些內(nèi)容列成表格,形成編碼表。 問卷代碼問卷代碼主要包括訪員代碼、問卷代碼以及與抽樣或調(diào)查對象有關(guān)的子總體的代碼等。例如: 某問卷代碼為“1031102”,從左到右的數(shù)字“1” 、“03”、 “11”和“02”,可能分別代表在上海航空的652次航班上 “11”號訪員完成的第2份問卷。 通過問卷代碼不僅可以方便查找問卷、審核訪員的工作,還有助于子總體間的對比分析。10編碼設(shè)計的分類編碼設(shè)計的分類 1)根據(jù)問卷結(jié)構(gòu)分為: 結(jié)構(gòu)式問卷編碼設(shè)計 非結(jié)構(gòu)式問卷編碼設(shè)計 2)根據(jù)問題類型分為

6、封閉題編碼設(shè)計 半封閉題編碼設(shè)計 開放題編碼設(shè)計 3)根據(jù)編碼設(shè)計的時間關(guān)系分為 前編碼設(shè)計 后編碼設(shè)計11前編碼設(shè)計前編碼設(shè)計封閉式問題的編碼 無論這種量表或核對表有幾項備選答案,被訪者只能選擇其中的一項。這時只涉及一個變量,變量值即為選項號。例如: 4請問您乘坐的艙位是: 頭等艙 口 公務(wù)艙 口 經(jīng)濟艙 口 編碼如下: 定義變量名為V2 ,數(shù)字型變量,變量占字節(jié)數(shù)為1,變量取值范圍為1,2,3或9,其中1=頭等艙,2=公務(wù)艙,3=經(jīng)濟艙,9=該題無回答。 12前編碼設(shè)計前編碼設(shè)計封閉式問題的編碼 這類多選題需要使用多個變量來表示。通常有兩種編碼方法: 方法一方法一:所設(shè)立的變量個數(shù)與問卷提

7、供的選項個數(shù)相同,即每個選項就是一個變量,每個變量取值都是0或1,如果被訪者選擇該選項,變量值取1,否則取0。如表9-1。 方法二方法二:所設(shè)立的變量個數(shù)為最多可以選擇的選項個數(shù),變量取值為所選擇答案的選項號,變量排列順序即為選擇答案的順序。仍以上題為例,假設(shè)題中規(guī)定至多選擇3項,則編碼設(shè)計如表9-2所示。13前編碼設(shè)計前編碼設(shè)計封閉式問題的編碼 對等級順序量表的編碼同樣需要設(shè)立多個變量。順序量表的編碼也有兩種方法。 方法一方法一:變量個數(shù)即選項個數(shù),按照選項的順序排列,分別定義各變量為對應(yīng)選項所排次序號,取值即為次序號。編碼設(shè)計見表9-3。 方法二方法二:所設(shè)立的變量個數(shù)為要求排序項數(shù),依照

8、次序號排列順序,分別定義各變量為各次序號對應(yīng)的選項項數(shù),取值即為選項號。仍以上題為例,但形式稍作改變,編碼設(shè)計見表9-4。14前編碼設(shè)計前編碼設(shè)計 數(shù)字型開放題編碼 對直接回答數(shù)字的問題,變量取值即為該數(shù)字。 設(shè)計編碼時變量的測量水平應(yīng)盡量高一些,這樣,后期為不同分析的需要可以再分組。 變量所占字節(jié)數(shù)可以根據(jù)事先預(yù)計的數(shù)字最大值的位數(shù)確定。 例如,直接詢問被調(diào)查者的年齡,編碼設(shè)計時取變量名為NL,所占字節(jié)為2(因為調(diào)查對象要求為20-60歲),小數(shù)點位為0,變量取值即為年齡,單位為“歲”,取值范圍為20-60或0(0表示該題缺失)。15后編碼設(shè)計后編碼設(shè)計 后編碼設(shè)計主要適用于事先無法確定答案

9、類別的問題,如結(jié)構(gòu)式問卷中的文字型開放題。 對開放題進行定量分析,必須將問題轉(zhuǎn)化為一個或幾個變量,將所有可能的答案類別賦予相應(yīng)代碼。在此過程中應(yīng)注意: 1)對照問題大致翻閱一下可能的回答,甄別出主要變量,然后定義變量名稱、類型和含義。 2)根據(jù)問題的回答確定各答案類別,注意應(yīng)盡量獲取分布廣泛的回答。 3)類似封閉式問題的編碼,給每種答案類別確定一個代碼,規(guī)定其位數(shù)。 1693 詳細審核 每份問卷都應(yīng)該完整且無錯誤。但是,問題回答不完整、不一致或有明顯錯誤的現(xiàn)象時有發(fā)生。就是應(yīng)用各種檢查規(guī)則來辨別缺失、無效或不一致的錄入,這些錄入會導(dǎo)致數(shù)據(jù)記錄的潛在錯誤。 審核工作貫穿于整個調(diào)查過程,從訪員在調(diào)

10、查現(xiàn)場的簡單初步的檢查到數(shù)據(jù)處理階段數(shù)據(jù)錄入之后由計算機程序進行的復(fù)雜校驗。17詳細審核的規(guī)則 通常,審核規(guī)則的主要基于以下方面: 關(guān)于調(diào)查主題的專業(yè)知識(涉及對回答合理性的專業(yè)判別); 問卷和問題的結(jié)構(gòu)(跳轉(zhuǎn)指令及回答的邏輯流程); 其它相關(guān)的調(diào)查或數(shù)據(jù); 統(tǒng)計理論(如離群值的檢測方法)。 18詳細審核的分類 三類審核:有效性審核、一致性審核、分布審核用于檢查被訪者回答語句的語法是否正確,包括是否在規(guī)定填數(shù)字的地方填上非數(shù)字的字符,以及問卷中的回答是否有缺失等。用于檢查不同問題之間的關(guān)系是否正確。審核可以基于問題間的結(jié)構(gòu)關(guān)系、邏輯性和合法性來進行,如出生年月和婚姻狀況。(統(tǒng)計審核或離群值檢測

11、)則是對全部問卷或部分問卷的數(shù)據(jù)一起進行審核。分布審核試圖通過數(shù)據(jù)的分布,來辨識記錄是否遠遠脫離分布的正常范圍,即是否為離群值。 19選擇性審核 為避免時間和經(jīng)費浪費在那些對估計并無太大影響的數(shù)據(jù)上,通常要求進行選擇性審核。 選擇性審核包括各種方法:對于給定的一個估計域,按(加權(quán)后)數(shù)據(jù)對估計影響的大小將數(shù)值列表,逐一檢查,當(dāng)下一個影響最大的值對域估計的影響不是很顯著時,就停止往下檢查和驗證。:確定可疑的域估計,并分別檢查該域中各個記錄的權(quán)數(shù)。如,如某村的平均家庭規(guī)模是23,則該村所有被賦予權(quán)數(shù)的個體記錄都要被檢查。:把數(shù)據(jù)畫成圖形,確定可疑值。如,畫出數(shù)據(jù)的分布圖,找出分布尾部的可疑值。 2

12、094 插補插補 插補就是解決在審核過程中辨別出來的數(shù)據(jù)缺失、無效與不一致等問題的過程。 插補要改變一些回答,并對審核過程中所發(fā)現(xiàn)的有缺失信息的記錄進行補充或替代,確保得出內(nèi)在一致的記錄。21插補方法分類插補方法分類 確定性插補意味著,對于特定被調(diào)查者的數(shù)據(jù),可能的插補值只有一個。 隨即插補是在確定性插補值的基礎(chǔ)上,加上從某個適宜的分布或模型產(chǎn)出的一個殘差,作為最后的插補值。這個插補值包含隨機因素。 隨機插補能更好地保持?jǐn)?shù)據(jù)集的頻數(shù)結(jié)構(gòu),保持比確定性插補方法更真實的變異性。22y*iieyyiyy*ier) r ( ii(r)yye) r ( iyryi(r)e*ie插補方法分類插補方法分類

13、每一種確定性插補方法都對應(yīng)一種隨機插補方法。 假定采用確定性方法得到用于插補的均值為 ,則隨機均值就可以表示為: 式中, 是變量y第i個記錄的插補值; 是插補類的均值; 是從被調(diào)查者或某分布隨機模型中抽取的殘差。 對于某一插補類中的被調(diào)查者集合,殘差公式是: 式中, 是插補類中第i個被調(diào)查者提供的y值; 是插補類y值的均值。 實際上是一個殘差集,從中隨機選取一個作為 。 23插補方法分類插補方法分類 確定性插補方法包括: 推理插補; 均值插補; 回歸插補; 序貫熱平臺插補; 序貫冷平臺插補; 最近鄰值插補。 24插補方法插補方法1 1:推理插補推理插補 在插補中,缺失或不一致的數(shù)據(jù)通過推斷確定

14、。推理通常根據(jù)問卷上其它回答項的模式來進行。 例如,已知某問題四項數(shù)值之和為100,其中兩項分別是60和40,其余兩項空著,那么可以推斷空著的兩項一定是0。 再如,一個被訪者列出三個孩子的名字,但是“孩子數(shù)”一項空著,可以推斷孩子數(shù)為3。 注意,用推理插補得到的插補值不一定是真值。 25插補方法插補方法2 2:均值插補均值插補 指缺失或不一致的值用插補類(把類似的記錄歸為一組,這個組稱為插補類)的均值來代替。 例如,在一份住房調(diào)查問卷中公寓月租金的值缺失,則利用同插補類中正確填報租金的問卷計算其平均值,然后用這個平均值來代替缺失值。 均值插補通常在沒有輔助信息可用或只有少量記錄需要作插補處理時

15、,才最后被采用。即,當(dāng)插補不會對數(shù)據(jù)分布產(chǎn)生實質(zhì)性影響時,才選擇使用均值插補。26插補方法插補方法3 3:回歸插補 回歸插補是指使用輔助信息及其它記錄中的有效回答建立一個回歸模型,該模型表明了兩個或多個變量之間的關(guān)系。式中, yi是變量y的第i個單元值; xi是與變量y相關(guān)的變量x的第i個單元值; R是xi每變動一個單位,yi平均變動的數(shù)值; i是模型的隨機誤差項,均值為0、方差為2 iiiRxy式中:y是變量y第i個記錄的插補值; x是插補類中記錄的x值的均值; y是插補類中記錄的y值的均值。 ixxyy假定xi與yi服從近似的線性關(guān)系,且觀測值yi圍繞這條直線上下波動,波動的幅度是隨機項i

16、。插補所使用的線性模型為:yi的插補值按如下公式計算:27插補方法插補方法4 4:熱平臺插補 熱平臺插補是使用同一插補類中的供者記錄的信息來代替一個相似的受者記錄中缺失/不一致數(shù)據(jù)的插補方法。插補出的數(shù)值應(yīng)該相當(dāng)準(zhǔn)確,且保持?jǐn)?shù)據(jù)的原始分布形式。但是熱平臺插補可能導(dǎo)致一個供者的多次使用。 熱平臺插補方法 為找到一個相似的供者記錄,必須先確定與需要進行插補處理的變量相關(guān)的變量,建立插補類。 然后,插補類中通過所有審核的記錄集就是供者記錄的集合,這些記錄可用來插補受者中缺失的數(shù)據(jù)。 熱平臺插補的兩種類型 序貫熱平臺插補 隨機熱平臺插補 28插補方法插補方法5 5:冷平臺插補 冷平臺插補與熱平臺插補類

17、似,不同之處在于熱平臺插補使用當(dāng)前調(diào)查的供者,而冷平臺插補則使用其它資料中的供者。冷平臺插補經(jīng)常使用前期的調(diào)查或普查中的歷史數(shù)據(jù)。 如果供者是用隨機方式選出的,那么該方法就是隨機冷平臺插補,否則就是確定性冷平臺插補。 29插補方法插補方法6 6:最鄰近插補 最近鄰插補也是基于匹配變量選擇一個供者記錄。但是,最近鄰插補要在插補類中按匹配變量找到和受者記錄最接近(而不是象熱平臺插補那樣要求完全相同)的供者記錄,或者說,找到距離最近的值?!白罱笔峭ㄟ^兩個觀測對象之間的距離來定義的,距離是由輔助數(shù)據(jù)計算給出的。 對于涉及大量定量數(shù)據(jù)的調(diào)查,通過匹配定量數(shù)據(jù)找到一個供者記錄,是一個合適的選擇。3095

18、 離群值的檢測和處理 離群值被定義為一個觀測值或一組觀測值,它們看起來與數(shù)據(jù)集中的其它觀測值不一致。離群值檢測是用來發(fā)現(xiàn)和確認(rèn)可疑的記錄。 區(qū)分極值和影響值是必要的。 若一個記錄值和抽樣權(quán)數(shù)的組合對估計有較大的影響,就稱其為影響值。極值不一定是影響值。 區(qū)別單變量離群值和多變量離群值是必要的。 例如,某人身高2米,或某人體重45公斤,這種情況并不少見,但身高2米且體重45公斤的人,可能就是一個多變量離群值的例子。31smydiiscm s,cmULLcUcLcUc離群值的檢測 傳統(tǒng)上,離群值是通過測量它們和數(shù)據(jù)中心的相對距離來辨認(rèn)的。設(shè)y1,y2,yn是觀測到的樣本數(shù)據(jù),m和s分別是數(shù)據(jù)集中趨勢和離散趨勢的度量,yi離數(shù)據(jù)中心的相對距離di定義為: 若di

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論