![數(shù)據(jù)處理與分析課件_第1頁](http://file4.renrendoc.com/view/6f6598215e5ad3400149c1c8982fed4e/6f6598215e5ad3400149c1c8982fed4e1.gif)
![數(shù)據(jù)處理與分析課件_第2頁](http://file4.renrendoc.com/view/6f6598215e5ad3400149c1c8982fed4e/6f6598215e5ad3400149c1c8982fed4e2.gif)
![數(shù)據(jù)處理與分析課件_第3頁](http://file4.renrendoc.com/view/6f6598215e5ad3400149c1c8982fed4e/6f6598215e5ad3400149c1c8982fed4e3.gif)
![數(shù)據(jù)處理與分析課件_第4頁](http://file4.renrendoc.com/view/6f6598215e5ad3400149c1c8982fed4e/6f6598215e5ad3400149c1c8982fed4e4.gif)
![數(shù)據(jù)處理與分析課件_第5頁](http://file4.renrendoc.com/view/6f6598215e5ad3400149c1c8982fed4e/6f6598215e5ad3400149c1c8982fed4e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)處理(數(shù)據(jù))處理就是把調(diào)查中收集到的數(shù)據(jù)轉(zhuǎn)換為適合匯總制表和數(shù)據(jù)分析的形式。數(shù)據(jù)收集完畢之后,估計(jì)之前對數(shù)據(jù)進(jìn)行加工處理的所有活動:主要包括數(shù)據(jù)的編碼、錄入、審核、插補(bǔ)、離群值的檢測和處理等。最后生成一個(gè)為進(jìn)一步分析用的數(shù)據(jù)庫。1PPT學(xué)習(xí)交流數(shù)據(jù)處理(數(shù)據(jù))處理就是把調(diào)查中收集到的數(shù)據(jù)轉(zhuǎn)換為適合匯總制1.編碼編碼是給問題的每項(xiàng)答案賦予一個(gè)數(shù)值代碼,以便于數(shù)據(jù)錄入和作進(jìn)一步處理的過程。編碼具體方法很多,包括:問卷中已預(yù)先編碼;在數(shù)據(jù)收集完畢之后進(jìn)行手工編碼;通過文本識別軟件進(jìn)行自動編碼(即借助軟件給一串字符賦予一個(gè)代碼)。2PPT學(xué)習(xí)交流1.編碼編碼是給問題的每項(xiàng)答案賦予一個(gè)數(shù)值代碼,以便于數(shù)據(jù)錄2)數(shù)據(jù)錄入數(shù)據(jù)錄入是將回答轉(zhuǎn)化成可機(jī)讀的形式。采用紙張式收集數(shù)據(jù)的方法時(shí),數(shù)據(jù)錄入是在數(shù)據(jù)收集完畢之后(通常是在對問卷進(jìn)行一些“梳理”和初步審核之后)進(jìn)行。采用計(jì)算機(jī)輔助數(shù)據(jù)收集方法時(shí),數(shù)據(jù)錄入是在數(shù)據(jù)收集的同時(shí)完成的。3PPT學(xué)習(xí)交流2)數(shù)據(jù)錄入數(shù)據(jù)錄入是將回答轉(zhuǎn)化成可機(jī)讀的形式。3PPT學(xué)習(xí)
下面幾種方法可以提高數(shù)據(jù)錄入的效率:采用計(jì)算機(jī)輔助數(shù)據(jù)收集方法;對紙張式問卷進(jìn)行光電掃描;對紙張式問卷進(jìn)行預(yù)先編碼。4PPT學(xué)習(xí)交流
下面幾種方法可以提高數(shù)據(jù)錄入的效率:4PPT學(xué)習(xí)交流
3.審核審核是應(yīng)用各種檢查規(guī)則來辨別缺失、無效或不一致的錄入,這些會導(dǎo)致數(shù)據(jù)記錄的潛在錯(cuò)誤。審核的目的就是要保證調(diào)查最后所得的數(shù)據(jù)的完整性、一致性和有效性(包括邏輯性)。審核主要可分為三類:即有效性審核、一致性審核與分布審核。有效性審核和一致性審核是對單張問卷進(jìn)行的審核;分布審核則是對全部問卷或部分問卷的數(shù)據(jù)一起進(jìn)行審核。5PPT學(xué)習(xí)交流3.審核審核是應(yīng)用各種檢查規(guī)則來辨別缺失、無效或不一致的錄通常,審核規(guī)則的確定基于以下幾個(gè)方面:關(guān)于調(diào)查主題的專業(yè)知識;問卷和問題的結(jié)構(gòu);其它相關(guān)的調(diào)查或數(shù)據(jù);統(tǒng)計(jì)理論(如離群值的檢測方法)。6PPT學(xué)習(xí)交流通常,審核規(guī)則的確定基于以下幾個(gè)方面:6PPT學(xué)習(xí)交流數(shù)據(jù)收集完畢后,對審核失效,通常按下列方法進(jìn)行處理:將其剔除;進(jìn)行插補(bǔ);設(shè)立特殊代碼。7PPT學(xué)習(xí)交流數(shù)據(jù)收集完畢后,對審核失效,通常按下列方法進(jìn)行處理:7PPT有些時(shí)候,一條記錄(或整份問卷)不符合多條審核規(guī)則的要求,或者不符合少數(shù)幾條關(guān)鍵審核規(guī)則的要求,從而使得后續(xù)的處理失去意義。在這種情況下,通常可以將這些記錄剔除,作為無回答處理,同時(shí)將賦予各被調(diào)查單元的權(quán)數(shù)進(jìn)行調(diào)整。8PPT學(xué)習(xí)交流有些時(shí)候,一條記錄(或整份問卷)不符合多條審核規(guī)則的要求,或?qū)Υ蠖鄶?shù)審核失效都應(yīng)該加以標(biāo)示,留待作插補(bǔ)處理。對于有些項(xiàng)目,我們可以用特殊代碼標(biāo)示的方法,對確認(rèn)為審核失效而不可接受的值或無效的空白加以保留。9PPT學(xué)習(xí)交流對大多數(shù)審核失效都應(yīng)該加以標(biāo)示,留待作插補(bǔ)處理。9PPT學(xué)習(xí)
選擇性審核選擇性審核基于這樣一種思想:即只有那些“關(guān)鍵”的審核失效,而不是所有的審核失效,才需要采取相應(yīng)的處理措施。選擇性審核一般適于定量數(shù)據(jù)。對審核失效進(jìn)行選擇性審核時(shí),可能需要對被調(diào)查者進(jìn)行再訪,但對于那些需要進(jìn)一步處理和插補(bǔ)的記錄的審核失效除外。10PPT學(xué)習(xí)交流選擇性審核選擇性審核基于這樣一種思想:即只有那些“關(guān)鍵”
審核的指導(dǎo)方針審核的目標(biāo)是:
-
更好地理解數(shù)據(jù)和數(shù)據(jù)處理過程;
-
檢查問卷;
-
回訪被調(diào)查者;
-
檢出錯(cuò)填或漏填的數(shù)據(jù);
-
刪除無效記錄;
-
分離需要插補(bǔ)的記錄。11PPT學(xué)習(xí)交流審核的指導(dǎo)方針審核的目標(biāo)是:
-
更好地理解
審核的準(zhǔn)則:審核不僅對整理數(shù)據(jù)有用,而且審核失效發(fā)生率不論是對當(dāng)前調(diào)查的質(zhì)量度量,還是對將來調(diào)查的改進(jìn)都很有用,它能提供調(diào)查中有關(guān)數(shù)據(jù)處理的信息;不論什么時(shí)候,開始一項(xiàng)調(diào)查時(shí),總是要對數(shù)據(jù)做一些假定,審核時(shí)可以檢驗(yàn)這些假定的合理性。例如,可能很明顯,有些領(lǐng)域的審核規(guī)則太嚴(yán),或者有些類型的審核失效太頻繁,這些情況表明審核規(guī)則可能不太合適(或問卷可能存在問題);12PPT學(xué)習(xí)交流
審核的準(zhǔn)則:審核不僅對整理數(shù)據(jù)有用,而且審核失效發(fā)生率審核應(yīng)該分階段進(jìn)行;審核工作應(yīng)由對本次調(diào)查的主題、問卷的設(shè)計(jì)和數(shù)據(jù)分析有專業(yè)知識、并且有類似調(diào)查經(jīng)驗(yàn)的人員來進(jìn)行;各階段所進(jìn)行的審核不應(yīng)與其它階段的審核相抵觸;應(yīng)該將審核的信息和審核工作對調(diào)查數(shù)據(jù)的影響通知數(shù)據(jù)的用戶。
13PPT學(xué)習(xí)交流審核應(yīng)該分階段進(jìn)行;13PPT學(xué)習(xí)交流
4.插補(bǔ)插補(bǔ)就是解決在審核過程中辨別出來的數(shù)據(jù)缺失、無效與不一致等問題的過程。插補(bǔ)是對審核過程中發(fā)現(xiàn)的所有缺失信息的記錄進(jìn)行補(bǔ)充或用合適的數(shù)值進(jìn)行替代,確保得出內(nèi)在一致的記錄。
14PPT學(xué)習(xí)交流
4.插補(bǔ)插補(bǔ)就是解決在審核過程中辨別出來的數(shù)據(jù)缺失、
插補(bǔ)方法可以歸為兩類—隨機(jī)插補(bǔ)和確定性插補(bǔ)。確定性插補(bǔ),對于特定的被調(diào)查的數(shù)據(jù),可能的插補(bǔ)值只有一個(gè)。隨機(jī)插補(bǔ)則含有隨機(jī)因素因此,每次得出的插補(bǔ)值可能會不一樣。
15PPT學(xué)習(xí)交流
插補(bǔ)方法可以歸為兩類—隨機(jī)插補(bǔ)和確定性插補(bǔ)。15PPT學(xué)習(xí)
幾種確定性插補(bǔ)方法如下:-
推理插補(bǔ);
-
均值插補(bǔ);
-
比(率)/回歸插補(bǔ);
-
序貫熱平臺插補(bǔ);
-
序貫冷平臺插補(bǔ);
-
最近鄰值插補(bǔ)。
每一種確定性的插補(bǔ)方法都對應(yīng)著一種隨機(jī)插補(bǔ)方法。插補(bǔ)定量數(shù)據(jù)時(shí),用確定性的方法得出一個(gè)插補(bǔ)值,加上從某個(gè)適宜的分布或模型產(chǎn)出的一個(gè)殘差作為最后的插補(bǔ)值,就成為隨機(jī)插補(bǔ)。
16PPT學(xué)習(xí)交流幾種確定性插補(bǔ)方法如下:-
推理插補(bǔ);
-
隨機(jī)插補(bǔ)能更好地保持?jǐn)?shù)據(jù)集的頻數(shù)結(jié)構(gòu),保持比確定性插補(bǔ)方法更真實(shí)的變異性。除供者插補(bǔ)方法外,下面介紹的方法可逐項(xiàng)進(jìn)行插補(bǔ)。所謂的供者插補(bǔ)方法,就是用一個(gè)供者來插補(bǔ)一個(gè)受者的所有缺失的或不一致的數(shù)據(jù)。17PPT學(xué)習(xí)交流隨機(jī)插補(bǔ)能更好地保持?jǐn)?shù)據(jù)集的頻數(shù)結(jié)構(gòu),保持比確定性插補(bǔ)方法更
4.1推理插補(bǔ)推理插補(bǔ):缺失的或不一致的數(shù)據(jù)能通過推斷確定。通常,這種推理是根據(jù)問卷上其它回答項(xiàng)的模式來進(jìn)行的。下面簡述一些常用的插補(bǔ)方法。對所有這些插補(bǔ)方法,最好是把類似的記錄歸為一組,就象進(jìn)行無回答權(quán)數(shù)調(diào)整時(shí)一樣,這些組稱為插補(bǔ)類。18PPT學(xué)習(xí)交流4.1推理插補(bǔ)推理插補(bǔ):缺失的或不一致的數(shù)據(jù)能通過推斷
4.2均值插補(bǔ)
用均值插補(bǔ),缺失或不一致的值可用插補(bǔ)類的均值來代替。對缺失數(shù)據(jù),用均值插補(bǔ)相當(dāng)于對同一插補(bǔ)類中的所有被調(diào)查者使用相同的無回答權(quán)數(shù)進(jìn)行調(diào)整。均值插補(bǔ)會得到較好的點(diǎn)估計(jì),但由于在插補(bǔ)類均值這一點(diǎn)形成一個(gè)人為的“峰值”,從而破壞了分布狀態(tài)和變量之間的關(guān)系。因此,如果用常規(guī)的抽樣方差公式進(jìn)行計(jì)算,就會低估最終的方差。均值插補(bǔ)通常在沒有輔助信息可用或只有少量記錄需要作插補(bǔ)處理時(shí),才被采用。
19PPT學(xué)習(xí)交流4.2均值插補(bǔ)
用均值插補(bǔ),缺失或不一致的值可用插補(bǔ)類4.3比(率)或回歸插補(bǔ)比率或回歸插補(bǔ)是使用輔助信息及其它記錄中的有效回答建立一個(gè)比率或回歸模型,該模型表明了兩個(gè)或多個(gè)變量之間的關(guān)系。
例如,比率插補(bǔ)所使用的模型為:其中:yi是變量y的第i個(gè)單元值;
xi是與變量y相關(guān)的變量x的第i個(gè)單元值;
R是直線的斜率(即每變動一個(gè)單位,平均變動的數(shù)值);
是模型的隨機(jī)誤差項(xiàng),均值為0、方差為。20PPT學(xué)習(xí)交流4.3比(率)或回歸插補(bǔ)比率或回歸插補(bǔ)是使用輔助信息及這時(shí),的插補(bǔ)值按如下公式計(jì)算:
式中:
是變量y第i個(gè)記錄的插補(bǔ)值;
是插補(bǔ)類中記錄的x值的均值;
是插補(bǔ)類中記錄的y值的均值。
這里我們假定,擬合一個(gè)插補(bǔ)類中有效數(shù)據(jù)(即通過了所有的審核)的比率或回歸模型,同樣適用于該插補(bǔ)類中審核失效的數(shù)據(jù)。
21PPT學(xué)習(xí)交流這時(shí),的插補(bǔ)值按如下公式計(jì)算:
21PPT學(xué)習(xí)交流
比率和回歸估計(jì)產(chǎn)生的插補(bǔ)值比簡單均值法產(chǎn)生的插補(bǔ)值更加穩(wěn)定。這種方法常用于的商業(yè)調(diào)查中的定量變量,在這種調(diào)查中常可用前期數(shù)據(jù)來預(yù)測現(xiàn)期數(shù)據(jù)。
利用前期的數(shù)據(jù)進(jìn)行插補(bǔ),也稱前向插補(bǔ),是比率或回歸插補(bǔ)的一個(gè)特例,只是直接用前期調(diào)查的數(shù)據(jù)來作為當(dāng)前調(diào)查的缺失數(shù)據(jù)的插補(bǔ)值。
22PPT學(xué)習(xí)交流比率和回歸估計(jì)產(chǎn)生的插補(bǔ)值比簡單均值法產(chǎn)生的插補(bǔ)值更加穩(wěn)定4.4熱平臺插補(bǔ)
熱平臺插補(bǔ)是使用同一插補(bǔ)類中的供者記錄的信息來代替一個(gè)相似的受者記錄中缺失的或不一致數(shù)據(jù)。為了找到一個(gè)與受者記錄相似的供者記錄,必須先確定與需要進(jìn)行插補(bǔ)處理的變量相關(guān)的變量,建立插補(bǔ)類。然后,插補(bǔ)類中通過所有審核的記錄集就是供者記錄的集合,這些記錄用來插補(bǔ)受者中缺失的數(shù)據(jù)。熱平臺插補(bǔ)可以用來插補(bǔ)定量數(shù)據(jù),也可以用來插補(bǔ)定性數(shù)據(jù),但通常只用定性變量建立插補(bǔ)類。
23PPT學(xué)習(xí)交流4.4熱平臺插補(bǔ)
熱平臺插補(bǔ)是使用同一插補(bǔ)類樣本序號性別年齡婚姻狀況收入汽車擁有
1男青年未婚70無
2男中老年已婚100有
3女青年未婚50無
4男中老年已婚70有
5男青年未婚90有
6女中老年喪偶30無
7男中老年已婚------
8女青年離異45有
9男青年未婚---無
10女中老年喪偶20---
11男青年未婚50有
12男中老年已婚------
24PPT學(xué)習(xí)交流樣本序號性別年齡婚姻狀況收入汽車擁有
1插補(bǔ)情況:
受者收入汽車擁有供者
770有
4
9905
10無
6
1270有
4
25PPT學(xué)習(xí)交流插補(bǔ)情況:
受者收入汽車擁有在序貫熱平臺插補(bǔ)方法中,數(shù)據(jù)在插補(bǔ)類中是按某種順序排列進(jìn)行處理的,插補(bǔ)就是用這個(gè)序列需要插補(bǔ)數(shù)據(jù)前面某一個(gè)有效的回答單元的數(shù)據(jù)來代替缺失的數(shù)值。如果每次都使用相同的排序及選取方法,序貫熱平臺法是一種確定性的插補(bǔ)方法。而隨機(jī)熱平臺插補(bǔ),供者是在插補(bǔ)類中隨機(jī)選出的,因此是一種隨機(jī)插補(bǔ)方法。26PPT學(xué)習(xí)交流在序貫熱平臺插補(bǔ)方法中,數(shù)據(jù)在插補(bǔ)類中是按某種順序排列進(jìn)行處供者插補(bǔ)方法(局限于熱平臺插補(bǔ)和最近鄰插補(bǔ))的優(yōu)點(diǎn)是,因?yàn)橄嗨频墓┱撸ㄈ绻竞图彝サ龋┚哂邢嗨频奶卣鳎虼瞬逖a(bǔ)出的數(shù)值應(yīng)該是相當(dāng)準(zhǔn)確的。使用供者插補(bǔ)可以保持?jǐn)?shù)據(jù)的原始分布形式。27PPT學(xué)習(xí)交流供者插補(bǔ)方法(局限于熱平臺插補(bǔ)和最近鄰插補(bǔ))的優(yōu)點(diǎn)是,因?yàn)橄?.5冷平臺插補(bǔ)
冷平臺插補(bǔ)與熱平臺插補(bǔ)類似,不同之處在于熱平臺插補(bǔ)使用當(dāng)前調(diào)查的供者,而冷平臺插補(bǔ)則使用其它資料中的供者。冷平臺插補(bǔ)經(jīng)常使用前期的調(diào)查或普查中的歷史數(shù)據(jù)。28PPT學(xué)習(xí)交流4.5冷平臺插補(bǔ)28PPT學(xué)習(xí)交流4.6最近鄰插補(bǔ)
最近鄰插補(bǔ),就像熱平臺插補(bǔ),也是基于匹配變量選擇一個(gè)供者記錄。但是,用這種方法,目的不一定是非要找出一個(gè)和受者記錄在匹配變量上完全相同的供者記錄,而是要在插補(bǔ)類中按匹配變量找到和受者記錄最接近的供者記錄——即找到距離最近的值。“最近”是通過兩個(gè)觀測對象之間的距離來定義的,兩個(gè)觀測對象之間的距離是由輔助數(shù)據(jù)計(jì)算的。
29PPT學(xué)習(xí)交流4.6最近鄰插補(bǔ)
最近鄰插補(bǔ),就像熱平臺插補(bǔ),也是4.7隨機(jī)性插補(bǔ)
任何用于定量數(shù)據(jù)的確定性插補(bǔ)都能通過加上隨機(jī)殘差變得具有非確定性。例如,我們可以用平均值加上隨機(jī)殘差來進(jìn)行插補(bǔ):其中,是y變量第i個(gè)記錄的插補(bǔ)值;是插補(bǔ)類的均值;是從被調(diào)查者或某一分布的隨機(jī)模型中抽取的殘差。
30PPT學(xué)習(xí)交流4.7隨機(jī)性插補(bǔ)
任何用于定量數(shù)據(jù)的確定性插補(bǔ)都能通過加上
哪些值需要插補(bǔ)
由于無回答或回答無效檢出的審核失效的記錄一般都需要進(jìn)行插補(bǔ)。但是并不是所有審核失效的數(shù)據(jù)都需插補(bǔ)。對一個(gè)記錄應(yīng)盡可能限制需插補(bǔ)的項(xiàng)目。確定哪些字段需要插補(bǔ)應(yīng)遵循以下三條準(zhǔn)則:
應(yīng)該通過變更盡可能少的數(shù)據(jù)項(xiàng)(字段),以使每條記錄都滿足審核規(guī)則的要求;
盡可能保持?jǐn)?shù)據(jù)文檔的原始頻數(shù)結(jié)構(gòu);
插補(bǔ)規(guī)則的確定,不是參考其它任何具體規(guī)定,而是由相應(yīng)的審核規(guī)則導(dǎo)出。
31PPT學(xué)習(xí)交流哪些值需要插補(bǔ)
由于無回答或回答無效檢出的審核失效的記
舉例說,假設(shè)某份問卷中關(guān)于一位被調(diào)查者的背景資料是:受教育程度(大學(xué)),婚姻狀況(已婚),性別(女),年齡(10歲)。顯然,這條記錄中,年齡-婚姻狀況、年齡、受教育程度是不符合審核規(guī)則的。為了糾正審核失效,可以同時(shí)調(diào)整婚姻狀況和受教育程度,也可以只對年齡作調(diào)整,一般傾向于采用后者。32PPT學(xué)習(xí)交流舉例說,假設(shè)某份問卷中關(guān)于一位被調(diào)查者的背景資料是:受插補(bǔ)后數(shù)據(jù)的方差估計(jì)前面講到的所有插補(bǔ)方法都能為每一個(gè)缺失的或不一致的值生成一個(gè)單一的插補(bǔ)值,這些方法也都會在某種程度上扭曲插補(bǔ)變量的原始分布,并導(dǎo)致使用標(biāo)準(zhǔn)方差估計(jì)公式得出的不適當(dāng)?shù)姆讲罟烙?jì)。分布扭曲的程度很大程度上取決于插補(bǔ)量的大小和所使用的插補(bǔ)方法。33PPT學(xué)習(xí)交流插補(bǔ)后數(shù)據(jù)的方差估計(jì)前面講到的所有插補(bǔ)方法都能為每一個(gè)缺失的
插補(bǔ)的準(zhǔn)則
雖然插補(bǔ)能改善最終數(shù)據(jù)的質(zhì)量,但也要小心選擇適當(dāng)?shù)牟逖a(bǔ)方法。插補(bǔ)方法是否適當(dāng)取決于調(diào)查的類型、目的、可用的輔助信息和錯(cuò)誤的性質(zhì)。審核和插補(bǔ)帶來的風(fēng)險(xiǎn)是它們會破壞報(bào)告數(shù)據(jù),產(chǎn)生符合預(yù)想模型的記錄,而這種模型后來可能表明并不正確。34PPT學(xué)習(xí)交流插補(bǔ)的準(zhǔn)則
雖然插補(bǔ)能改善最終數(shù)據(jù)的質(zhì)量,但也要小心
以下是進(jìn)行插補(bǔ)的幾條準(zhǔn)則:插補(bǔ)得到的記錄應(yīng)該和審核失效的記錄非常相似。這通??梢酝ㄟ^只對盡可能少的變量進(jìn)行插補(bǔ)而盡可能多地保留被調(diào)查者的原始回答數(shù)據(jù)來做到。基本的假定(在實(shí)際工作中并不總成立)是一個(gè)被調(diào)查者更有可能只出錯(cuò)一兩次,而出錯(cuò)多次的情況較少;好的插補(bǔ)會為評估留下審查的線索,并保證插補(bǔ)的記錄具有內(nèi)部一致性。插補(bǔ)處理過程應(yīng)該是自動的、客觀的、可再現(xiàn)的和有效的;
35PPT學(xué)習(xí)交流
以下是進(jìn)行插補(bǔ)的幾條準(zhǔn)則:35PPT學(xué)習(xí)交流
插補(bǔ)得到的記錄應(yīng)該滿足所有的審核規(guī)則;
-
插補(bǔ)值應(yīng)標(biāo)明,插補(bǔ)方法和插補(bǔ)使用的資料也應(yīng)清楚地標(biāo)明。記錄中變量的插補(bǔ)和非插補(bǔ)的值都應(yīng)該保留,以便對插補(bǔ)的程度和影響進(jìn)行評估;
-
仔細(xì)選擇插補(bǔ)的方法,考慮每一種插補(bǔ)方法的優(yōu)缺點(diǎn)以及要插補(bǔ)的數(shù)據(jù)的類型;
36PPT學(xué)習(xí)交流插補(bǔ)得到的記錄應(yīng)該滿足所有的審核規(guī)則;
-
插補(bǔ)值應(yīng)-
插補(bǔ)方法應(yīng)減少無回答偏倚,并盡可能地保持不同變量之間的關(guān)系(即不應(yīng)破壞數(shù)據(jù)的多變量結(jié)構(gòu));
-
插補(bǔ)系統(tǒng)應(yīng)事先思考、提出、編程和調(diào)試;
-
插補(bǔ)系統(tǒng)應(yīng)該能處理各種缺失或不一致的字段;37PPT學(xué)習(xí)交流-
插補(bǔ)方法應(yīng)減少無回答偏倚,并盡可能地保持不
-
對于供者插補(bǔ)方法,插補(bǔ)得到的記錄應(yīng)盡可能與選中的供者相似。這有利于保證插補(bǔ)記錄中插補(bǔ)值與非插補(bǔ)值的組合不僅滿足審核規(guī)則而且具有多樣性。38PPT學(xué)習(xí)交流
-
對于供者插補(bǔ)方法,插補(bǔ)得到的記錄應(yīng)盡可能與選中的供5)離群值的檢測和處理
離群值的檢測可以看作審核的一種類型,主要是用來發(fā)現(xiàn)和確認(rèn)可疑的記錄。應(yīng)該區(qū)分極值和影響值。如果一個(gè)記錄值和抽樣權(quán)數(shù)的組合對估計(jì)有較大的影響,我們就稱這樣的觀測值為影響值。但極值不一定是影響值。
39PPT學(xué)習(xí)交流5)離群值的檢測和處理
離群值的檢測可以看作審核
應(yīng)區(qū)別單變量離群值和多變量離群值。如果一個(gè)離群值對應(yīng)一個(gè)變量,該觀測值就是一個(gè)單變量離群值;如果一個(gè)離群值對應(yīng)兩個(gè)或多個(gè)變量,我們就說該觀測值是一個(gè)多變量離群值。例如,某人的身高是2米,或體重是45公斤,這種情況可能并不少,但身高2米且體重只有45公斤的人,即是一個(gè)多變量離群值的例子。
40PPT學(xué)習(xí)交流40PPT學(xué)習(xí)交流有許多原因會導(dǎo)致離群值的產(chǎn)生:數(shù)據(jù)中有錯(cuò)誤(如,數(shù)據(jù)錄入錯(cuò)誤);離群值可能來自另一模型或分布,如,大多數(shù)數(shù)據(jù)服從某個(gè)正態(tài)分布,但所推測的離群值很可能是來自一個(gè)指數(shù)分布;離群值的出現(xiàn),可能是由于數(shù)據(jù)固有的變異性??雌饋碇档脩岩傻臇|西,可能僅僅是由于數(shù)據(jù)集固有的變異性。
41PPT學(xué)習(xí)交流有許多原因會導(dǎo)致離群值的產(chǎn)生:41PPT學(xué)習(xí)交流
離群值的檢測傳統(tǒng)上,離群值是通過測量它們和數(shù)據(jù)中心的相對距離來辯認(rèn)的。設(shè)是觀測到的樣本數(shù)據(jù),m和s分別是數(shù)據(jù)集中趨勢和離散趨勢的度量,離數(shù)據(jù)中心的相對距離定義為:如果大于預(yù)先確定的偏離值(如d=1.96,對應(yīng)的概率為95%,d=2.58,對應(yīng)的概率為99%),那么該觀測值就被認(rèn)為是一個(gè)離群值。42PPT學(xué)習(xí)交流離群值的檢測傳統(tǒng)上,離群值是通過測量它們和數(shù)據(jù)中心的相對
離群值也可以通過下面的容許區(qū)間進(jìn)行確認(rèn):這里,和分別是預(yù)先確定的下限和上限的值。如果總體是偏態(tài)的,和就不相等。落在這個(gè)區(qū)間之外的觀測值被認(rèn)為是離群值。
43PPT學(xué)習(xí)交流離群值也可以通過下面的容許區(qū)間進(jìn)行確認(rèn):43PPT學(xué)習(xí)交流樣本均值和樣本方差是度量數(shù)據(jù)集中趨勢和離散程度最常用的統(tǒng)計(jì)量。但是,由于它們對離群值比較敏感。
因?yàn)樯鲜鲈?,檢測離群值的最常用的方法之一是四分位數(shù)法。這種方法用中位數(shù)度量數(shù)據(jù)的集中趨勢,四分位數(shù)間距度量數(shù)據(jù)的離散程度,因?yàn)檫@些統(tǒng)計(jì)量對離群值更為穩(wěn)?。床淮竺舾校?4PPT學(xué)習(xí)交流樣本均值和樣本方差是度量數(shù)據(jù)集中趨勢和離散程度最常用的統(tǒng)計(jì)量注意這里所說的中位數(shù)和四分位數(shù)都是用加權(quán)的樣本數(shù)據(jù)計(jì)算出來的。
與分別稱為下四分位數(shù)間距與上四分位數(shù)間距。由此可得容許區(qū)間為:其中,和可以通過以前的數(shù)據(jù)或基于過去的經(jīng)驗(yàn)來確定。任何落到這個(gè)區(qū)間之外的觀測值都被認(rèn)為是一個(gè)離群值。
45PPT學(xué)習(xí)交流注意這里所說的中位數(shù)和四分位數(shù)都是用加權(quán)的樣本數(shù)據(jù)計(jì)算出來的10.6.2離群值的處理
在手工審核系統(tǒng)中,對離群值進(jìn)行檢查,如果確認(rèn)是錯(cuò)誤,就要回訪并校正。在自動審核系統(tǒng)中,離群值經(jīng)常要進(jìn)行插補(bǔ)處理。有些情況下,如果認(rèn)為離群值無妨大礙,可以不對離群值做任何處理。46PPT學(xué)習(xí)交流10.6.2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉儲物流中心裝修合同-@-1
- 時(shí)尚發(fā)廊裝修合同樣本-@-1
- 液態(tài)食用油罐車運(yùn)輸協(xié)議
- 大型商場裝修協(xié)議模板
- 交通運(yùn)輸渣土運(yùn)輸協(xié)議
- 商鋪改造半包裝修合同模板
- 寵物運(yùn)輸合同模板-@-1
- 福建圍墻垂直綠化施工方案
- 主播轉(zhuǎn)讓合同范本
- 波紋管涵拆除施工方案
- 9.2溶解度(第1課時(shí)飽和溶液不飽和溶液)+教學(xué)設(shè)計(jì)-2024-2025學(xué)年九年級化學(xué)人教版(2024)下冊
- 2024年審計(jì)局公務(wù)員招錄事業(yè)單位招聘考試招錄139人完整版附答案【研優(yōu)卷】
- 濰坊市人民醫(yī)院招聘真題
- 銷售人員薪資提成及獎(jiǎng)勵(lì)制度
- 2017年江蘇南京中考滿分作文《無情歲月有味詩》5
- 2023年宏觀經(jīng)濟(jì)學(xué)考點(diǎn)難點(diǎn)
- 2024-2030年中國智慧水務(wù)行業(yè)應(yīng)用需求分析發(fā)展規(guī)劃研究報(bào)告
- 黑龍江申論真題2021年(鄉(xiāng)鎮(zhèn))
- 山體排險(xiǎn)合同模板
- 醫(yī)保專(兼)職管理人員的勞動合同(2篇)
- 特殊感染手術(shù)的配合與術(shù)后處理課件
評論
0/150
提交評論