缺失數(shù)據(jù)的插補(bǔ)調(diào)整

上傳人：簡*** IP屬地：河北上傳時間：2024-07-22 格式：PDF 頁數(shù)：13 大?。?MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

缺失數(shù)據(jù)的插補(bǔ)調(diào)整

內(nèi)容提要：插補(bǔ)是另一類對缺失數(shù)據(jù)進(jìn)行調(diào)整，以減小估計偏差的方法。本

文介紹的插補(bǔ)方法有：演繹估計，均值插補(bǔ)，隨機(jī)插補(bǔ)，回歸插補(bǔ)和多重插補(bǔ)。

關(guān)鍵詞：缺失數(shù)據(jù)插補(bǔ)調(diào)整

作者簡介：金勇進(jìn)中國人民大學(xué)統(tǒng)計學(xué)系，北京

一、無回答的類型與插補(bǔ)法的運用

調(diào)查中的無回答有兩種類型，一種被稱為“單位無回答”，它是指入選樣本

單位由于各種原因沒有接受調(diào)查，可以說這些樣本單位交的是一份白卷。另一種

被稱為“項目無回答”，它是指被調(diào)查單位雖接受調(diào)查，但在某些調(diào)查項目上沒

有提供有效回答。與單位無回答相比，項目無回答或者多或者少地提供了一些被

調(diào)查單位的信息。上一講中介紹的加權(quán)調(diào)整法雖然也可以應(yīng)用于“項目無回答”

，但主要是對“單位無回答”進(jìn)行的調(diào)整。而本文將要介紹的插補(bǔ)調(diào)整法雖然

也可以應(yīng)用于“單位無回答”，但主要是對“項目無回答”進(jìn)行調(diào)整的方法。

所謂插補(bǔ)是指，采用一定的方式，為調(diào)查中的缺失數(shù)據(jù)確定一個合理的替補(bǔ)

值，插補(bǔ)到原缺失數(shù)據(jù)的位置上。插補(bǔ)可以達(dá)到二個調(diào)整的目的：一個是減小由

于數(shù)據(jù)缺失可能造成的估計量偏差，為此，就要使確定的替補(bǔ)值盡可能地接近缺

失的原數(shù)據(jù)值。事實上缺失數(shù)據(jù)的真值我們無法得知，因此所追求的只能是確定

替補(bǔ)值方法的合理和有效。調(diào)整的第二個目的是力圖構(gòu)造一個完整的數(shù)據(jù)集。在

調(diào)整前，由于缺失值的存在，使原數(shù)據(jù)集上浮現(xiàn)許多“窟窿”，給一些統(tǒng)計分析

方法的使用帶來不便。采用插補(bǔ)的方式填補(bǔ)了缺失值的空缺，就為后面分析人員

的工作提供了方便，他們在使用標(biāo)準(zhǔn)統(tǒng)計軟件的同時，不必繁瑣地說明對缺失值

進(jìn)行處理的方法，大大節(jié)省了精力和時間。而且不同分析人員使用的是同一套經(jīng)

過插補(bǔ)調(diào)整的數(shù)據(jù)，也保證了分析結(jié)果的一致性。

插補(bǔ)的效率如何，取決于替補(bǔ)值與缺失值的近似程度。為了提高效率，對研

究總體進(jìn)行分層，使層內(nèi)各單位諸方面情況盡可能相似，利用同一層內(nèi)回答單位

的信息產(chǎn)生出缺失數(shù)據(jù)的替補(bǔ)值，是進(jìn)行插補(bǔ)的基本思路。因為可以利用不同的

信息源，采用不同的方式生成替補(bǔ)值，所以有不同的插補(bǔ)方法。本文將對幾種比

較典型的方法做以簡要介紹。

二、演繹估計法

演繹估計法合用于這樣一種情況，目標(biāo)變量的缺失值可以以很高的確定性

由其它輔助變量來決定。這意味著，目標(biāo)變量與輔助變量之間存在著已知的函數(shù)

關(guān)系，即。式中是第個單位目標(biāo)變量缺失值的估計值（替

補(bǔ)值），是第個單位已知的輔助變量值。例如美國在一項關(guān)于醫(yī)療設(shè)備

使用和費用的調(diào)查中，多處使用演繹估計法對缺失值進(jìn)行插補(bǔ)。對種族缺失值

的插補(bǔ)函數(shù)式為，即如果某人種族數(shù)據(jù)缺失，可采用其配偶的種族；

如果某家庭成員種族資料缺失，可使用戶主的種族。如果年齡項目數(shù)據(jù)缺失，

則利用出生年份資料講行估計。若調(diào)查是在年進(jìn)行，令為出生年份，

則。若就業(yè)收入的數(shù)據(jù)缺失，則利用其它個相關(guān)的輔助

變量信息推算。令、分別為該被調(diào)查者的主要職業(yè)和第二職業(yè)的

周工資率,分別為其在主要職業(yè)和第二職業(yè)上的工作周數(shù)，則勞

動收入的估計值為

由此看出，可假定為許多不同的形式。使用的條件是與之間存

在確定的函數(shù)關(guān)系，且值已知。實踐中，可以把演繹估計法視為對數(shù)據(jù)進(jìn)行邏

輯審核的一部份。

三、均值插補(bǔ)法

首先根據(jù)輔助信息將樣本分為若干組，使組內(nèi)各單位的主要特征相似。然后

分別計算各組目標(biāo)變量的均值，將各組均值作為組內(nèi)所有缺失項的替補(bǔ)值。均

值插補(bǔ)法的特點是操作簡便，并且對均值和總量這樣的單變量參數(shù)可以有效地降

低其點估計的偏差。但它的弱點也比較突出。一個是插補(bǔ)的結(jié)果歪曲了樣本單位

中變量的分布，因為同組中缺失數(shù)據(jù)的替補(bǔ)值都由該組的平均值充當(dāng)，使得其

分布狀況受到由各組回答單位數(shù)據(jù)計算出的組均值的制約，其次，插補(bǔ)結(jié)果將導(dǎo)

致在均值和總量估計中對方差的低估，因為同一組內(nèi)樣本單位的離差將由于同一

個數(shù)值的多次浮現(xiàn)而偏低，因此均值插補(bǔ)合用的場合是僅僅進(jìn)行簡單的點估計，

而不合用于需要方差估計等比較復(fù)雜的分析。

四、隨機(jī)插補(bǔ)法

為避免均值插補(bǔ)中替補(bǔ)值過于凝集的弱點，隨機(jī)插補(bǔ)應(yīng)運而生。這種方法是

指，采用某種概率抽樣的方式，從回答單位的資料中抽取缺失數(shù)據(jù)的替補(bǔ)值。為

便于說明，令某項目回答數(shù)據(jù)個數(shù)為，缺失數(shù)據(jù)個數(shù)為，即

,現(xiàn)從個數(shù)據(jù)中隨機(jī)抽取個替補(bǔ)值，則樣本構(gòu)成為：

此時.日必變■的均伍估計為:

一?一?、

JV?+??>)

式中，7"二”34?，如累栗用不重鼠抽伴.H=?；騃;如果采用市復(fù)油樣■則H

為第J寅式分RE,/燈?A,■v-孫，財

?出A-“人)】?前謁

否則上?既定義的概率為。.曲比得出

E(H.)-2—A|

Var(Ht)=(N-M|>11一人|-L

CovfH此)?-^，)

若侵世L?”獨立.由上血隊事可以號山

EG*)=y

VarG4=(1加+(1-馬(1-呼

式中，為總體方差?？梢钥闯?，隨機(jī)插補(bǔ)法估計量的方差由兩部份

組成，等式右邊第一項是僅用回答單位數(shù)據(jù)進(jìn)行估計的方差，即

VarG)=(=峨=隔一加第二項是由于增

加了一個再抽樣過程而帶來的估計量方差增加項。隨機(jī)插補(bǔ)雖然使估計量的方差

增大了，但是它避免了均值插補(bǔ)容易扭曲目標(biāo)變量分布的弱點，使替補(bǔ)位的分布

與真值分布更為接近，這就使隨機(jī)插補(bǔ)法在估計與樣本分布有關(guān)的參數(shù)時具有明

顯的優(yōu)勢。

顯然，根據(jù)調(diào)查中所得到的輔助變量信息，將樣本單位進(jìn)行事后分層，然后

在各層中使用隨機(jī)插補(bǔ)法，就會有更好的調(diào)整效果。

五、回歸插補(bǔ)法

回歸插補(bǔ)的基本思想是利用輔助變…與目標(biāo)變量的線性

關(guān)系，建立回歸模型，利用已知的輔助變量的信息，對目標(biāo)變量的缺失值進(jìn)行估

計。于是第個缺失值的估計值可以表示為：

Zf=So+2+ei

k=\

式中的B是回歸系數(shù)。若輔助變量是定性變量時，可以采用虛擬變量的處理

方法：若目標(biāo)變量是定性變量，則考慮通過變換，進(jìn)行線性

回歸。與隨機(jī)插補(bǔ)和均值插補(bǔ)的不同點在于：不是取自回答單位的實際值，

也不是由回答單位數(shù)據(jù)計算的均值，而是利用目標(biāo)變量與輔助變量的線性關(guān)系，

采用標(biāo)準(zhǔn)方法（如最小平方法）計算出的估計值。

上面的回歸模型可以有不同的演變形式。例如，對于連續(xù)性固定樣本調(diào)查中

的缺失值，今B,并指定前期調(diào)查數(shù)據(jù)為惟一的輔助變量，則上式

變成：p,這便是簡單比率插補(bǔ)，即用時間的變化，對前一期的回

答數(shù)據(jù)進(jìn)行調(diào)整，并做為本次調(diào)查缺失值的替補(bǔ)值。

應(yīng)用回歸插補(bǔ)法中一個討論的問題是的處理，因為經(jīng)過回歸后，

Z=po+

的估計為,對于相同的…，得到的

替補(bǔ)值是相同的，這就會和均值插補(bǔ)一樣，存在樣本分布扭曲的問題。為此需要

構(gòu)造隨機(jī)殘差的數(shù)據(jù)集。構(gòu)造的方法有多種，比較典型的一種方法是，根據(jù)輔

助變量將樣本單位分層，在各層中將回答單位數(shù)值與其均值的離差視為殘

差，在用回歸法得到2后，在該層的殘差集中隨機(jī)抽取2,的殘差項，并將其

和作為缺失值的替補(bǔ)，即：Z：=Z+e,o

最后，由回答數(shù)據(jù)和回歸替補(bǔ)位，得到目標(biāo)變量的估計值為

.Sly+*0z,

y=----*-1—

六、處理缺失數(shù)據(jù)的多重插補(bǔ)法

（一）什么是多重插補(bǔ)法

在上面介紹的插補(bǔ)方法均是單一差補(bǔ)法，即對每一個由于無回答造成的缺失

值只構(gòu)造一個插補(bǔ)值。單一插補(bǔ)法存在這樣或者那樣的局限，如均值插補(bǔ)容易

扭曲樣本分布，隨機(jī)插補(bǔ)的穩(wěn)定性不夠，等等。能否有一種方法綜合起單一插

補(bǔ)法的各自特長，而將其弱點降低到最小程度？多重插補(bǔ)法就是在這個背景下提

出的。美

國哈佛大學(xué)統(tǒng)計系的教授年代末首先提出多重插補(bǔ)的思想，年代中

與其他學(xué)者一起進(jìn)一步擴(kuò)展，充實了多重插補(bǔ)的理論與方法。年代許多學(xué)者

對這種方法繼續(xù)研討，該方向上的研究目前仍在繼續(xù)。

多重插補(bǔ)的主要思想是，給每一個缺失值都構(gòu)造個插補(bǔ)值>,這樣就

產(chǎn)生出個徹底數(shù)據(jù)集，對每一個徹底數(shù)據(jù)集分別使用相同的方法進(jìn)行處理，

得到

個處理結(jié)果，最后再綜合這處理結(jié)果，最終得到對目標(biāo)變量的估計。構(gòu)造

個插補(bǔ)值的目的是摹擬一定條件下的估計值分布，因此，多重插補(bǔ)法的實質(zhì)是一

種摹擬方法，研究人員可以借此估計目標(biāo)量的實際后驗分布。

（二）多重插補(bǔ)法的判斷理論

多重插補(bǔ)法的理論證明來源于貝葉斯理論，它由在年代初期以一

系列的論文提出，其基本的理論架構(gòu)被他整理在一本書中

,這里僅對其判斷理論做一簡要介

紹，假定我們的目標(biāo)是從一個有缺失的調(diào)查數(shù)據(jù)集中判斷目標(biāo)總體，并且缺失值

的后驗分布（給定回答值的條件分布）可以獲得，那末目標(biāo)總體的后驗分布由下

式給出：

k（8\丫m）=Jg（八詢\YQdYg

式中，Y』表示Pl答數(shù)據(jù)的集合，Y修表示缺失數(shù)據(jù)的集合，力（?）表

驗密度函數(shù)皿（?）為夕的完全數(shù)據(jù)后驗密度,〃?）為缺失數(shù)據(jù)的后驗密J

是k維列向量，如果調(diào)杳數(shù)據(jù)集是理想的，即不存在缺失值,對6的推斷

（8-。）~N（0,〃）

這里，。是。的一個統(tǒng)計量，〃是（8-H）的方差估計量:（通常是一個/

N（0,〃）是有著均值為0和方差為〃的上元正態(tài)分布。

假定由于出現(xiàn)缺失數(shù)據(jù)，n個樣本單位中只有七個單位提供了回爭

Y,,）被記錄下來，K&是八記錄值的向量，丫皿是〃。個缺失值的向最（，

定在一個給定的貝葉斯模型里，采用適當(dāng)?shù)姆椒?對每個缺失值構(gòu)造了〃

生了m套完全數(shù)據(jù)。于是對。和〃而言，有仇，。2…無和Ml…小。

將m套經(jīng)過插補(bǔ)的數(shù)據(jù)集合并。得到e的多重插補(bǔ)估計值為

多重插補(bǔ)的方差估計包括兩部分，插補(bǔ)應(yīng)次集內(nèi)的方差和插補(bǔ)數(shù)據(jù)

插補(bǔ)數(shù)據(jù)集內(nèi)的方差為

i=￡內(nèi)

插補(bǔ)數(shù)據(jù)集間的方差為‘

B=-^）2/（m-1）

于是多簟插補(bǔ)的方差估計Tm表示為

"=，+（1+1卜

可以把調(diào)整系數(shù)（1+帆7）看成。的模擬誤差。

當(dāng)，"足夠大時，對0的統(tǒng)計推斷為：

（夕-仁）~N（O,T.）

即8的95%的置信區(qū)間是%±1.96T1?

當(dāng)m比較小時，對0的推斷則建立在z分布基礎(chǔ)上，夕的置信區(qū)間為

k±切（a/lY

此時的自由度df為

〃=（加T）（|+

以上關(guān)于多重插補(bǔ)判斷理論的詳細(xì)證明，請參閱的書（見參考文獻(xiàn)

）。

用多重插補(bǔ)法處理缺失值的常用軟件有（注：~

）,（版本），（版本）（注：），

等。

（三）一個例子

這里用一個例子來說明多重插補(bǔ)法的使用，例子取自于的書（

頁）。此例展示了多重插補(bǔ)法的三個步驟：插補(bǔ)、分析、合并。

假定從一總體中采用簡單隨機(jī)抽樣，抽取的一個樣本，目標(biāo)變

量，輔助變量，調(diào)查中無回答率為，即缺失，具體數(shù)據(jù)如表

表1有缺失的數(shù)據(jù)集

4689111316182025

y42010-14-16151822

表2完全數(shù)據(jù)集

步驟一插補(bǔ)

由上數(shù)據(jù)知，目標(biāo)變量與輔助變量存在相關(guān)關(guān)系，假定采用簡捷的最近

距離法為每一個缺失值插補(bǔ)兩次，即。第一個缺失值的輔助變量與其最

近

距離的有和，故取與之對應(yīng)的和為第一個缺失值的插補(bǔ)值。

同樣的方法，第二個缺失值的插補(bǔ)值為和，由此形成兩個徹底數(shù)據(jù)集。

在三個步驟中，插補(bǔ)這個步驟甚為關(guān)鍵，實際處理中需要根據(jù)具體情況，選擇適

當(dāng)?shù)牟逖a(bǔ)模型。

步驟二分析

現(xiàn)在我們感興趣的是比估計量。根據(jù)比估計公式

YR=鎏又=版

將第一個數(shù)據(jù)集數(shù)據(jù)帶入，且已知X=12,故

二Z短

YKl=^^-12=13.38

將第二個數(shù)據(jù)集數(shù)據(jù)代入，可求出

Ym==13.57

乙”,

由此估計方差估計量公式

V-----^1(5：+Ns；-2長5介)

nyx”

式中，f="N,s：=-y)2/(n-l),s^=火(q-*>/(曾一1

SQ=X(/-i)(y->)/(?-1)

由表2數(shù)據(jù)可以計算出，vi=2.965,v2=3.157

步驟三合并

將步驟二的結(jié)果加以合并，也即

.-=專(13.38+13.57)=13.48

T~=1+(1+=](必+%)+(1+])2(匕-6.)3

=y(2.965+3.157)+(1+y)0.018=3.073

由此便可以對Y的置信區(qū)間進(jìn)行估計0

七、總結(jié)

插補(bǔ)調(diào)整常用于對項目缺失數(shù)據(jù)的處理。造成項目數(shù)據(jù)缺失的原因有多種，

比較常見的有項目無回答，此處缺失值還產(chǎn)生異常值的剔除。

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

缺失數(shù)據(jù)的插補(bǔ)調(diào)整

文檔簡介

溫馨提示

最新文檔

評論

缺失數(shù)據(jù)的插補(bǔ)調(diào)整

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔