缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第1頁
缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第2頁
缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第3頁
缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第4頁
缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

缺失數(shù)據(jù)的插補(bǔ)調(diào)整

內(nèi)容提要:插補(bǔ)是另一類對缺失數(shù)據(jù)進(jìn)行調(diào)整,以減小估計偏差的方法。本

文介紹的插補(bǔ)方法有:演繹估計,均值插補(bǔ),隨機(jī)插補(bǔ),回歸插補(bǔ)和多重插補(bǔ)。

關(guān)鍵詞:缺失數(shù)據(jù)插補(bǔ)調(diào)整

作者簡介:金勇進(jìn)中國人民大學(xué)統(tǒng)計學(xué)系,北京

一、無回答的類型與插補(bǔ)法的運用

調(diào)查中的無回答有兩種類型,一種被稱為“單位無回答”,它是指入選樣本

單位由于各種原因沒有接受調(diào)查,可以說這些樣本單位交的是一份白卷。另一種

被稱為“項目無回答”,它是指被調(diào)查單位雖接受調(diào)查,但在某些調(diào)查項目上沒

有提供有效回答。與單位無回答相比,項目無回答或者多或者少地提供了一些被

調(diào)查單位的信息。上一講中介紹的加權(quán)調(diào)整法雖然也可以應(yīng)用于“項目無回答”

,但主要是對“單位無回答”進(jìn)行的調(diào)整。而本文將要介紹的插補(bǔ)調(diào)整法雖然

也可以應(yīng)用于“單位無回答”,但主要是對“項目無回答”進(jìn)行調(diào)整的方法。

所謂插補(bǔ)是指,采用一定的方式,為調(diào)查中的缺失數(shù)據(jù)確定一個合理的替補(bǔ)

值,插補(bǔ)到原缺失數(shù)據(jù)的位置上。插補(bǔ)可以達(dá)到二個調(diào)整的目的:一個是減小由

于數(shù)據(jù)缺失可能造成的估計量偏差,為此,就要使確定的替補(bǔ)值盡可能地接近缺

失的原數(shù)據(jù)值。事實上缺失數(shù)據(jù)的真值我們無法得知,因此所追求的只能是確定

替補(bǔ)值方法的合理和有效。調(diào)整的第二個目的是力圖構(gòu)造一個完整的數(shù)據(jù)集。在

調(diào)整前,由于缺失值的存在,使原數(shù)據(jù)集上浮現(xiàn)許多“窟窿”,給一些統(tǒng)計分析

方法的使用帶來不便。采用插補(bǔ)的方式填補(bǔ)了缺失值的空缺,就為后面分析人員

的工作提供了方便,他們在使用標(biāo)準(zhǔn)統(tǒng)計軟件的同時,不必繁瑣地說明對缺失值

進(jìn)行處理的方法,大大節(jié)省了精力和時間。而且不同分析人員使用的是同一套經(jīng)

過插補(bǔ)調(diào)整的數(shù)據(jù),也保證了分析結(jié)果的一致性。

插補(bǔ)的效率如何,取決于替補(bǔ)值與缺失值的近似程度。為了提高效率,對研

究總體進(jìn)行分層,使層內(nèi)各單位諸方面情況盡可能相似,利用同一層內(nèi)回答單位

的信息產(chǎn)生出缺失數(shù)據(jù)的替補(bǔ)值,是進(jìn)行插補(bǔ)的基本思路。因為可以利用不同的

信息源,采用不同的方式生成替補(bǔ)值,所以有不同的插補(bǔ)方法。本文將對幾種比

較典型的方法做以簡要介紹。

二、演繹估計法

演繹估計法合用于這樣一種情況,目標(biāo)變量的缺失值可以以很高的確定性

由其它輔助變量來決定。這意味著,目標(biāo)變量與輔助變量之間存在著已知的函數(shù)

關(guān)系,即。式中是第個單位目標(biāo)變量缺失值的估計值(替

補(bǔ)值),是第個單位已知的輔助變量值。例如美國在一項關(guān)于醫(yī)療設(shè)備

使用和費用的調(diào)查中,多處使用演繹估計法對缺失值進(jìn)行插補(bǔ)。對種族缺失值

的插補(bǔ)函數(shù)式為,即如果某人種族數(shù)據(jù)缺失,可采用其配偶的種族;

如果某家庭成員種族資料缺失,可使用戶主的種族。如果年齡項目數(shù)據(jù)缺失,

則利用出生年份資料講行估計。若調(diào)查是在年進(jìn)行,令為出生年份,

則。若就業(yè)收入的數(shù)據(jù)缺失,則利用其它個相關(guān)的輔助

變量信息推算。令、分別為該被調(diào)查者的主要職業(yè)和第二職業(yè)的

周工資率,分別為其在主要職業(yè)和第二職業(yè)上的工作周數(shù),則勞

動收入的估計值為

由此看出,可假定為許多不同的形式。使用的條件是與之間存

在確定的函數(shù)關(guān)系,且值已知。實踐中,可以把演繹估計法視為對數(shù)據(jù)進(jìn)行邏

輯審核的一部份。

三、均值插補(bǔ)法

首先根據(jù)輔助信息將樣本分為若干組,使組內(nèi)各單位的主要特征相似。然后

分別計算各組目標(biāo)變量的均值,將各組均值作為組內(nèi)所有缺失項的替補(bǔ)值。均

值插補(bǔ)法的特點是操作簡便,并且對均值和總量這樣的單變量參數(shù)可以有效地降

低其點估計的偏差。但它的弱點也比較突出。一個是插補(bǔ)的結(jié)果歪曲了樣本單位

中變量的分布,因為同組中缺失數(shù)據(jù)的替補(bǔ)值都由該組的平均值充當(dāng),使得其

分布狀況受到由各組回答單位數(shù)據(jù)計算出的組均值的制約,其次,插補(bǔ)結(jié)果將導(dǎo)

致在均值和總量估計中對方差的低估,因為同一組內(nèi)樣本單位的離差將由于同一

個數(shù)值的多次浮現(xiàn)而偏低,因此均值插補(bǔ)合用的場合是僅僅進(jìn)行簡單的點估計,

而不合用于需要方差估計等比較復(fù)雜的分析。

四、隨機(jī)插補(bǔ)法

為避免均值插補(bǔ)中替補(bǔ)值過于凝集的弱點,隨機(jī)插補(bǔ)應(yīng)運而生。這種方法是

指,采用某種概率抽樣的方式,從回答單位的資料中抽取缺失數(shù)據(jù)的替補(bǔ)值。為

便于說明,令某項目回答數(shù)據(jù)個數(shù)為,缺失數(shù)據(jù)個數(shù)為,即

,現(xiàn)從個數(shù)據(jù)中隨機(jī)抽取個替補(bǔ)值,則樣本構(gòu)成為:

此時.日必變■的均伍估計為:

一?一?、

JV?+??>)

?,

式中,7"二”34?,如累栗用不重鼠抽伴.H=?;騃;如果采用市復(fù)油樣■則H

為第J寅式分RE,/燈?A,■v-孫,財

?出A-“人)】?前謁

否則上?既定義的概率為。.曲比得出

51

E(H.)-2—A|

Var(Ht)=(N-M|>11一人|-L

CovfH此)?-^,)

若侵世L?”獨立.由上血隊事可以號山

EG*)=y

VarG4=(1加+(1-馬(1-呼

式中,為總體方差??梢钥闯?,隨機(jī)插補(bǔ)法估計量的方差由兩部份

組成,等式右邊第一項是僅用回答單位數(shù)據(jù)進(jìn)行估計的方差,即

VarG)=(=峨=隔一加第二項是由于增

加了一個再抽樣過程而帶來的估計量方差增加項。隨機(jī)插補(bǔ)雖然使估計量的方差

增大了,但是它避免了均值插補(bǔ)容易扭曲目標(biāo)變量分布的弱點,使替補(bǔ)位的分布

與真值分布更為接近,這就使隨機(jī)插補(bǔ)法在估計與樣本分布有關(guān)的參數(shù)時具有明

顯的優(yōu)勢。

顯然,根據(jù)調(diào)查中所得到的輔助變量信息,將樣本單位進(jìn)行事后分層,然后

在各層中使用隨機(jī)插補(bǔ)法,就會有更好的調(diào)整效果。

五、回歸插補(bǔ)法

回歸插補(bǔ)的基本思想是利用輔助變…與目標(biāo)變量的線性

關(guān)系,建立回歸模型,利用已知的輔助變量的信息,對目標(biāo)變量的缺失值進(jìn)行估

計。于是第個缺失值的估計值可以表示為:

K

Zf=So+2+ei

k=\

式中的B是回歸系數(shù)。若輔助變量是定性變量時,可以采用虛擬變量的處理

方法:若目標(biāo)變量是定性變量,則考慮通過變換,進(jìn)行線性

回歸。與隨機(jī)插補(bǔ)和均值插補(bǔ)的不同點在于:不是取自回答單位的實際值,

也不是由回答單位數(shù)據(jù)計算的均值,而是利用目標(biāo)變量與輔助變量的線性關(guān)系,

采用標(biāo)準(zhǔn)方法(如最小平方法)計算出的估計值。

上面的回歸模型可以有不同的演變形式。例如,對于連續(xù)性固定樣本調(diào)查中

的缺失值,今B,并指定前期調(diào)查數(shù)據(jù)為惟一的輔助變量,則上式

變成:p,這便是簡單比率插補(bǔ),即用時間的變化,對前一期的回

答數(shù)據(jù)進(jìn)行調(diào)整,并做為本次調(diào)查缺失值的替補(bǔ)值。

應(yīng)用回歸插補(bǔ)法中一個討論的問題是的處理,因為經(jīng)過回歸后,

Z=po+

的估計為,對于相同的…,得到的

替補(bǔ)值是相同的,這就會和均值插補(bǔ)一樣,存在樣本分布扭曲的問題。為此需要

構(gòu)造隨機(jī)殘差的數(shù)據(jù)集。構(gòu)造的方法有多種,比較典型的一種方法是,根據(jù)輔

助變量將樣本單位分層,在各層中將回答單位數(shù)值與其均值的離差視為殘

差,在用回歸法得到2后,在該層的殘差集中隨機(jī)抽取2,的殘差項,并將其

和作為缺失值的替補(bǔ),即:Z:=Z+e,o

最后,由回答數(shù)據(jù)和回歸替補(bǔ)位,得到目標(biāo)變量的估計值為

nn

.Sly+*0z,

y=----*-1—

六、處理缺失數(shù)據(jù)的多重插補(bǔ)法

(一)什么是多重插補(bǔ)法

在上面介紹的插補(bǔ)方法均是單一差補(bǔ)法,即對每一個由于無回答造成的缺失

值只構(gòu)造一個插補(bǔ)值。單一插補(bǔ)法存在這樣或者那樣的局限,如均值插補(bǔ)容易

扭曲樣本分布,隨機(jī)插補(bǔ)的穩(wěn)定性不夠,等等。能否有一種方法綜合起單一插

補(bǔ)法的各自特長,而將其弱點降低到最小程度?多重插補(bǔ)法就是在這個背景下提

出的。美

國哈佛大學(xué)統(tǒng)計系的教授年代末首先提出多重插補(bǔ)的思想,年代中

與其他學(xué)者一起進(jìn)一步擴(kuò)展,充實了多重插補(bǔ)的理論與方法。年代許多學(xué)者

對這種方法繼續(xù)研討,該方向上的研究目前仍在繼續(xù)。

多重插補(bǔ)的主要思想是,給每一個缺失值都構(gòu)造個插補(bǔ)值>,這樣就

產(chǎn)生出個徹底數(shù)據(jù)集,對每一個徹底數(shù)據(jù)集分別使用相同的方法進(jìn)行處理,

得到

個處理結(jié)果,最后再綜合這處理結(jié)果,最終得到對目標(biāo)變量的估計。構(gòu)造

個插補(bǔ)值的目的是摹擬一定條件下的估計值分布,因此,多重插補(bǔ)法的實質(zhì)是一

種摹擬方法,研究人員可以借此估計目標(biāo)量的實際后驗分布。

(二)多重插補(bǔ)法的判斷理論

多重插補(bǔ)法的理論證明來源于貝葉斯理論,它由在年代初期以一

系列的論文提出,其基本的理論架構(gòu)被他整理在一本書中

,這里僅對其判斷理論做一簡要介

紹,假定我們的目標(biāo)是從一個有缺失的調(diào)查數(shù)據(jù)集中判斷目標(biāo)總體,并且缺失值

的后驗分布(給定回答值的條件分布)可以獲得,那末目標(biāo)總體的后驗分布由下

式給出:

k(8\丫m)=Jg(八詢\YQdYg

式中,Y』表示Pl答數(shù)據(jù)的集合,Y修表示缺失數(shù)據(jù)的集合,力(?)表

驗密度函數(shù)皿(?)為夕的完全數(shù)據(jù)后驗密度,〃?)為缺失數(shù)據(jù)的后驗密J

是k維列向量,如果調(diào)杳數(shù)據(jù)集是理想的,即不存在缺失值,對6的推斷

(8-。)~N(0,〃)

這里,。是。的一個統(tǒng)計量,〃是(8-H)的方差估計量:(通常是一個/

N(0,〃)是有著均值為0和方差為〃的上元正態(tài)分布。

假定由于出現(xiàn)缺失數(shù)據(jù),n個樣本單位中只有七個單位提供了回爭

Y,,)被記錄下來,K&是八記錄值的向量,丫皿是〃。個缺失值的向最(,

定在一個給定的貝葉斯模型里,采用適當(dāng)?shù)姆椒?對每個缺失值構(gòu)造了〃

生了m套完全數(shù)據(jù)。于是對。和〃而言,有仇,。2…無和Ml…小。

將m套經(jīng)過插補(bǔ)的數(shù)據(jù)集合并。得到e的多重插補(bǔ)估計值為

多重插補(bǔ)的方差估計包括兩部分,插補(bǔ)應(yīng)次集內(nèi)的方差和插補(bǔ)數(shù)據(jù)

插補(bǔ)數(shù)據(jù)集內(nèi)的方差為

m

i=£內(nèi)

插補(bǔ)數(shù)據(jù)集間的方差為‘

B=-^)2/(m-1)

于是多簟插補(bǔ)的方差估計Tm表示為

"=,+(1+1卜

可以把調(diào)整系數(shù)(1+帆7)看成。的模擬誤差。

當(dāng),"足夠大時,對0的統(tǒng)計推斷為:

(夕-仁)~N(O,T.)

即8的95%的置信區(qū)間是%±1.96T1?

當(dāng)m比較小時,對0的推斷則建立在z分布基礎(chǔ)上,夕的置信區(qū)間為

k±切(a/lY

此時的自由度df為

〃=(加T)(|+

以上關(guān)于多重插補(bǔ)判斷理論的詳細(xì)證明,請參閱的書(見參考文獻(xiàn)

)。

用多重插補(bǔ)法處理缺失值的常用軟件有(注:~

),(版本),(版本)(注:),

等。

(三)一個例子

這里用一個例子來說明多重插補(bǔ)法的使用,例子取自于的書(

頁)。此例展示了多重插補(bǔ)法的三個步驟:插補(bǔ)、分析、合并。

假定從一總體中采用簡單隨機(jī)抽樣,抽取的一個樣本,目標(biāo)變

量,輔助變量,調(diào)查中無回答率為,即缺失,具體數(shù)據(jù)如表

表1有缺失的數(shù)據(jù)集

4689111316182025

y42010-14-16151822

表2完全數(shù)據(jù)集

步驟一插補(bǔ)

由上數(shù)據(jù)知,目標(biāo)變量與輔助變量存在相關(guān)關(guān)系,假定采用簡捷的最近

距離法為每一個缺失值插補(bǔ)兩次,即。第一個缺失值的輔助變量與其最

距離的有和,故取與之對應(yīng)的和為第一個缺失值的插補(bǔ)值。

同樣的方法,第二個缺失值的插補(bǔ)值為和,由此形成兩個徹底數(shù)據(jù)集。

在三個步驟中,插補(bǔ)這個步驟甚為關(guān)鍵,實際處理中需要根據(jù)具體情況,選擇適

當(dāng)?shù)牟逖a(bǔ)模型。

步驟二分析

現(xiàn)在我們感興趣的是比估計量。根據(jù)比估計公式

YR=鎏又=版

將第一個數(shù)據(jù)集數(shù)據(jù)帶入,且已知X=12,故

二Z短

YKl=^^-12=13.38

2J

將第二個數(shù)據(jù)集數(shù)據(jù)代入,可求出

Ym==13.57

乙”,

由此估計方差估計量公式

V-----^1(5:+Ns;-2長5介)

nyx”

式中,f="N,s:=-y)2/(n-l),s^=火(q-*>/(曾一1

n

SQ=X(/-i)(y->)/(?-1)

由表2數(shù)據(jù)可以計算出,vi=2.965,v2=3.157

步驟三合并

將步驟二的結(jié)果加以合并,也即

*?

.-=專(13.38+13.57)=13.48

T~=1+(1+=](必+%)+(1+])2(匕-6.)3

=y(2.965+3.157)+(1+y)0.018=3.073

由此便可以對Y的置信區(qū)間進(jìn)行估計0

七、總結(jié)

插補(bǔ)調(diào)整常用于對項目缺失數(shù)據(jù)的處理。造成項目數(shù)據(jù)缺失的原因有多種,

比較常見的有項目無回答,此處缺失值還產(chǎn)生異常值的剔除。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論