![缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第1頁](http://file4.renrendoc.com/view12/M00/25/3F/wKhkGWadTWWAJANJAAINeAxU5d8360.jpg)
![缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第2頁](http://file4.renrendoc.com/view12/M00/25/3F/wKhkGWadTWWAJANJAAINeAxU5d83602.jpg)
![缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第3頁](http://file4.renrendoc.com/view12/M00/25/3F/wKhkGWadTWWAJANJAAINeAxU5d83603.jpg)
![缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第4頁](http://file4.renrendoc.com/view12/M00/25/3F/wKhkGWadTWWAJANJAAINeAxU5d83604.jpg)
![缺失數(shù)據(jù)的插補(bǔ)調(diào)整_第5頁](http://file4.renrendoc.com/view12/M00/25/3F/wKhkGWadTWWAJANJAAINeAxU5d83605.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
缺失數(shù)據(jù)的插補(bǔ)調(diào)整
內(nèi)容提要:插補(bǔ)是另一類對缺失數(shù)據(jù)進(jìn)行調(diào)整,以減小估計偏差的方法。本
文介紹的插補(bǔ)方法有:演繹估計,均值插補(bǔ),隨機(jī)插補(bǔ),回歸插補(bǔ)和多重插補(bǔ)。
關(guān)鍵詞:缺失數(shù)據(jù)插補(bǔ)調(diào)整
作者簡介:金勇進(jìn)中國人民大學(xué)統(tǒng)計學(xué)系,北京
一、無回答的類型與插補(bǔ)法的運用
調(diào)查中的無回答有兩種類型,一種被稱為“單位無回答”,它是指入選樣本
單位由于各種原因沒有接受調(diào)查,可以說這些樣本單位交的是一份白卷。另一種
被稱為“項目無回答”,它是指被調(diào)查單位雖接受調(diào)查,但在某些調(diào)查項目上沒
有提供有效回答。與單位無回答相比,項目無回答或者多或者少地提供了一些被
調(diào)查單位的信息。上一講中介紹的加權(quán)調(diào)整法雖然也可以應(yīng)用于“項目無回答”
,但主要是對“單位無回答”進(jìn)行的調(diào)整。而本文將要介紹的插補(bǔ)調(diào)整法雖然
也可以應(yīng)用于“單位無回答”,但主要是對“項目無回答”進(jìn)行調(diào)整的方法。
所謂插補(bǔ)是指,采用一定的方式,為調(diào)查中的缺失數(shù)據(jù)確定一個合理的替補(bǔ)
值,插補(bǔ)到原缺失數(shù)據(jù)的位置上。插補(bǔ)可以達(dá)到二個調(diào)整的目的:一個是減小由
于數(shù)據(jù)缺失可能造成的估計量偏差,為此,就要使確定的替補(bǔ)值盡可能地接近缺
失的原數(shù)據(jù)值。事實上缺失數(shù)據(jù)的真值我們無法得知,因此所追求的只能是確定
替補(bǔ)值方法的合理和有效。調(diào)整的第二個目的是力圖構(gòu)造一個完整的數(shù)據(jù)集。在
調(diào)整前,由于缺失值的存在,使原數(shù)據(jù)集上浮現(xiàn)許多“窟窿”,給一些統(tǒng)計分析
方法的使用帶來不便。采用插補(bǔ)的方式填補(bǔ)了缺失值的空缺,就為后面分析人員
的工作提供了方便,他們在使用標(biāo)準(zhǔn)統(tǒng)計軟件的同時,不必繁瑣地說明對缺失值
進(jìn)行處理的方法,大大節(jié)省了精力和時間。而且不同分析人員使用的是同一套經(jīng)
過插補(bǔ)調(diào)整的數(shù)據(jù),也保證了分析結(jié)果的一致性。
插補(bǔ)的效率如何,取決于替補(bǔ)值與缺失值的近似程度。為了提高效率,對研
究總體進(jìn)行分層,使層內(nèi)各單位諸方面情況盡可能相似,利用同一層內(nèi)回答單位
的信息產(chǎn)生出缺失數(shù)據(jù)的替補(bǔ)值,是進(jìn)行插補(bǔ)的基本思路。因為可以利用不同的
信息源,采用不同的方式生成替補(bǔ)值,所以有不同的插補(bǔ)方法。本文將對幾種比
較典型的方法做以簡要介紹。
二、演繹估計法
演繹估計法合用于這樣一種情況,目標(biāo)變量的缺失值可以以很高的確定性
由其它輔助變量來決定。這意味著,目標(biāo)變量與輔助變量之間存在著已知的函數(shù)
關(guān)系,即。式中是第個單位目標(biāo)變量缺失值的估計值(替
補(bǔ)值),是第個單位已知的輔助變量值。例如美國在一項關(guān)于醫(yī)療設(shè)備
使用和費用的調(diào)查中,多處使用演繹估計法對缺失值進(jìn)行插補(bǔ)。對種族缺失值
的插補(bǔ)函數(shù)式為,即如果某人種族數(shù)據(jù)缺失,可采用其配偶的種族;
如果某家庭成員種族資料缺失,可使用戶主的種族。如果年齡項目數(shù)據(jù)缺失,
則利用出生年份資料講行估計。若調(diào)查是在年進(jìn)行,令為出生年份,
則。若就業(yè)收入的數(shù)據(jù)缺失,則利用其它個相關(guān)的輔助
變量信息推算。令、分別為該被調(diào)查者的主要職業(yè)和第二職業(yè)的
周工資率,分別為其在主要職業(yè)和第二職業(yè)上的工作周數(shù),則勞
動收入的估計值為
由此看出,可假定為許多不同的形式。使用的條件是與之間存
在確定的函數(shù)關(guān)系,且值已知。實踐中,可以把演繹估計法視為對數(shù)據(jù)進(jìn)行邏
輯審核的一部份。
三、均值插補(bǔ)法
首先根據(jù)輔助信息將樣本分為若干組,使組內(nèi)各單位的主要特征相似。然后
分別計算各組目標(biāo)變量的均值,將各組均值作為組內(nèi)所有缺失項的替補(bǔ)值。均
值插補(bǔ)法的特點是操作簡便,并且對均值和總量這樣的單變量參數(shù)可以有效地降
低其點估計的偏差。但它的弱點也比較突出。一個是插補(bǔ)的結(jié)果歪曲了樣本單位
中變量的分布,因為同組中缺失數(shù)據(jù)的替補(bǔ)值都由該組的平均值充當(dāng),使得其
分布狀況受到由各組回答單位數(shù)據(jù)計算出的組均值的制約,其次,插補(bǔ)結(jié)果將導(dǎo)
致在均值和總量估計中對方差的低估,因為同一組內(nèi)樣本單位的離差將由于同一
個數(shù)值的多次浮現(xiàn)而偏低,因此均值插補(bǔ)合用的場合是僅僅進(jìn)行簡單的點估計,
而不合用于需要方差估計等比較復(fù)雜的分析。
四、隨機(jī)插補(bǔ)法
為避免均值插補(bǔ)中替補(bǔ)值過于凝集的弱點,隨機(jī)插補(bǔ)應(yīng)運而生。這種方法是
指,采用某種概率抽樣的方式,從回答單位的資料中抽取缺失數(shù)據(jù)的替補(bǔ)值。為
便于說明,令某項目回答數(shù)據(jù)個數(shù)為,缺失數(shù)據(jù)個數(shù)為,即
,現(xiàn)從個數(shù)據(jù)中隨機(jī)抽取個替補(bǔ)值,則樣本構(gòu)成為:
此時.日必變■的均伍估計為:
一?一?、
JV?+??>)
?,
式中,7"二”34?,如累栗用不重鼠抽伴.H=?;騃;如果采用市復(fù)油樣■則H
為第J寅式分RE,/燈?A,■v-孫,財
?出A-“人)】?前謁
否則上?既定義的概率為。.曲比得出
51
E(H.)-2—A|
Var(Ht)=(N-M|>11一人|-L
CovfH此)?-^,)
若侵世L?”獨立.由上血隊事可以號山
EG*)=y
VarG4=(1加+(1-馬(1-呼
式中,為總體方差??梢钥闯?,隨機(jī)插補(bǔ)法估計量的方差由兩部份
組成,等式右邊第一項是僅用回答單位數(shù)據(jù)進(jìn)行估計的方差,即
VarG)=(=峨=隔一加第二項是由于增
加了一個再抽樣過程而帶來的估計量方差增加項。隨機(jī)插補(bǔ)雖然使估計量的方差
增大了,但是它避免了均值插補(bǔ)容易扭曲目標(biāo)變量分布的弱點,使替補(bǔ)位的分布
與真值分布更為接近,這就使隨機(jī)插補(bǔ)法在估計與樣本分布有關(guān)的參數(shù)時具有明
顯的優(yōu)勢。
顯然,根據(jù)調(diào)查中所得到的輔助變量信息,將樣本單位進(jìn)行事后分層,然后
在各層中使用隨機(jī)插補(bǔ)法,就會有更好的調(diào)整效果。
五、回歸插補(bǔ)法
回歸插補(bǔ)的基本思想是利用輔助變…與目標(biāo)變量的線性
關(guān)系,建立回歸模型,利用已知的輔助變量的信息,對目標(biāo)變量的缺失值進(jìn)行估
計。于是第個缺失值的估計值可以表示為:
K
Zf=So+2+ei
k=\
式中的B是回歸系數(shù)。若輔助變量是定性變量時,可以采用虛擬變量的處理
方法:若目標(biāo)變量是定性變量,則考慮通過變換,進(jìn)行線性
回歸。與隨機(jī)插補(bǔ)和均值插補(bǔ)的不同點在于:不是取自回答單位的實際值,
也不是由回答單位數(shù)據(jù)計算的均值,而是利用目標(biāo)變量與輔助變量的線性關(guān)系,
采用標(biāo)準(zhǔn)方法(如最小平方法)計算出的估計值。
上面的回歸模型可以有不同的演變形式。例如,對于連續(xù)性固定樣本調(diào)查中
的缺失值,今B,并指定前期調(diào)查數(shù)據(jù)為惟一的輔助變量,則上式
變成:p,這便是簡單比率插補(bǔ),即用時間的變化,對前一期的回
答數(shù)據(jù)進(jìn)行調(diào)整,并做為本次調(diào)查缺失值的替補(bǔ)值。
應(yīng)用回歸插補(bǔ)法中一個討論的問題是的處理,因為經(jīng)過回歸后,
Z=po+
的估計為,對于相同的…,得到的
替補(bǔ)值是相同的,這就會和均值插補(bǔ)一樣,存在樣本分布扭曲的問題。為此需要
構(gòu)造隨機(jī)殘差的數(shù)據(jù)集。構(gòu)造的方法有多種,比較典型的一種方法是,根據(jù)輔
助變量將樣本單位分層,在各層中將回答單位數(shù)值與其均值的離差視為殘
差,在用回歸法得到2后,在該層的殘差集中隨機(jī)抽取2,的殘差項,并將其
和作為缺失值的替補(bǔ),即:Z:=Z+e,o
最后,由回答數(shù)據(jù)和回歸替補(bǔ)位,得到目標(biāo)變量的估計值為
nn
.Sly+*0z,
y=----*-1—
六、處理缺失數(shù)據(jù)的多重插補(bǔ)法
(一)什么是多重插補(bǔ)法
在上面介紹的插補(bǔ)方法均是單一差補(bǔ)法,即對每一個由于無回答造成的缺失
值只構(gòu)造一個插補(bǔ)值。單一插補(bǔ)法存在這樣或者那樣的局限,如均值插補(bǔ)容易
扭曲樣本分布,隨機(jī)插補(bǔ)的穩(wěn)定性不夠,等等。能否有一種方法綜合起單一插
補(bǔ)法的各自特長,而將其弱點降低到最小程度?多重插補(bǔ)法就是在這個背景下提
出的。美
國哈佛大學(xué)統(tǒng)計系的教授年代末首先提出多重插補(bǔ)的思想,年代中
與其他學(xué)者一起進(jìn)一步擴(kuò)展,充實了多重插補(bǔ)的理論與方法。年代許多學(xué)者
對這種方法繼續(xù)研討,該方向上的研究目前仍在繼續(xù)。
多重插補(bǔ)的主要思想是,給每一個缺失值都構(gòu)造個插補(bǔ)值>,這樣就
產(chǎn)生出個徹底數(shù)據(jù)集,對每一個徹底數(shù)據(jù)集分別使用相同的方法進(jìn)行處理,
得到
個處理結(jié)果,最后再綜合這處理結(jié)果,最終得到對目標(biāo)變量的估計。構(gòu)造
個插補(bǔ)值的目的是摹擬一定條件下的估計值分布,因此,多重插補(bǔ)法的實質(zhì)是一
種摹擬方法,研究人員可以借此估計目標(biāo)量的實際后驗分布。
(二)多重插補(bǔ)法的判斷理論
多重插補(bǔ)法的理論證明來源于貝葉斯理論,它由在年代初期以一
系列的論文提出,其基本的理論架構(gòu)被他整理在一本書中
,這里僅對其判斷理論做一簡要介
紹,假定我們的目標(biāo)是從一個有缺失的調(diào)查數(shù)據(jù)集中判斷目標(biāo)總體,并且缺失值
的后驗分布(給定回答值的條件分布)可以獲得,那末目標(biāo)總體的后驗分布由下
式給出:
k(8\丫m)=Jg(八詢\YQdYg
式中,Y』表示Pl答數(shù)據(jù)的集合,Y修表示缺失數(shù)據(jù)的集合,力(?)表
驗密度函數(shù)皿(?)為夕的完全數(shù)據(jù)后驗密度,〃?)為缺失數(shù)據(jù)的后驗密J
是k維列向量,如果調(diào)杳數(shù)據(jù)集是理想的,即不存在缺失值,對6的推斷
(8-。)~N(0,〃)
這里,。是。的一個統(tǒng)計量,〃是(8-H)的方差估計量:(通常是一個/
N(0,〃)是有著均值為0和方差為〃的上元正態(tài)分布。
假定由于出現(xiàn)缺失數(shù)據(jù),n個樣本單位中只有七個單位提供了回爭
Y,,)被記錄下來,K&是八記錄值的向量,丫皿是〃。個缺失值的向最(,
定在一個給定的貝葉斯模型里,采用適當(dāng)?shù)姆椒?對每個缺失值構(gòu)造了〃
生了m套完全數(shù)據(jù)。于是對。和〃而言,有仇,。2…無和Ml…小。
將m套經(jīng)過插補(bǔ)的數(shù)據(jù)集合并。得到e的多重插補(bǔ)估計值為
多重插補(bǔ)的方差估計包括兩部分,插補(bǔ)應(yīng)次集內(nèi)的方差和插補(bǔ)數(shù)據(jù)
插補(bǔ)數(shù)據(jù)集內(nèi)的方差為
m
i=£內(nèi)
插補(bǔ)數(shù)據(jù)集間的方差為‘
B=-^)2/(m-1)
于是多簟插補(bǔ)的方差估計Tm表示為
"=,+(1+1卜
可以把調(diào)整系數(shù)(1+帆7)看成。的模擬誤差。
當(dāng),"足夠大時,對0的統(tǒng)計推斷為:
(夕-仁)~N(O,T.)
即8的95%的置信區(qū)間是%±1.96T1?
當(dāng)m比較小時,對0的推斷則建立在z分布基礎(chǔ)上,夕的置信區(qū)間為
k±切(a/lY
此時的自由度df為
〃=(加T)(|+
以上關(guān)于多重插補(bǔ)判斷理論的詳細(xì)證明,請參閱的書(見參考文獻(xiàn)
)。
用多重插補(bǔ)法處理缺失值的常用軟件有(注:~
),(版本),(版本)(注:),
等。
(三)一個例子
這里用一個例子來說明多重插補(bǔ)法的使用,例子取自于的書(
頁)。此例展示了多重插補(bǔ)法的三個步驟:插補(bǔ)、分析、合并。
假定從一總體中采用簡單隨機(jī)抽樣,抽取的一個樣本,目標(biāo)變
量,輔助變量,調(diào)查中無回答率為,即缺失,具體數(shù)據(jù)如表
表1有缺失的數(shù)據(jù)集
4689111316182025
y42010-14-16151822
表2完全數(shù)據(jù)集
步驟一插補(bǔ)
由上數(shù)據(jù)知,目標(biāo)變量與輔助變量存在相關(guān)關(guān)系,假定采用簡捷的最近
距離法為每一個缺失值插補(bǔ)兩次,即。第一個缺失值的輔助變量與其最
近
距離的有和,故取與之對應(yīng)的和為第一個缺失值的插補(bǔ)值。
同樣的方法,第二個缺失值的插補(bǔ)值為和,由此形成兩個徹底數(shù)據(jù)集。
在三個步驟中,插補(bǔ)這個步驟甚為關(guān)鍵,實際處理中需要根據(jù)具體情況,選擇適
當(dāng)?shù)牟逖a(bǔ)模型。
步驟二分析
現(xiàn)在我們感興趣的是比估計量。根據(jù)比估計公式
YR=鎏又=版
將第一個數(shù)據(jù)集數(shù)據(jù)帶入,且已知X=12,故
二Z短
YKl=^^-12=13.38
2J
將第二個數(shù)據(jù)集數(shù)據(jù)代入,可求出
Ym==13.57
乙”,
由此估計方差估計量公式
V-----^1(5:+Ns;-2長5介)
nyx”
式中,f="N,s:=-y)2/(n-l),s^=火(q-*>/(曾一1
n
SQ=X(/-i)(y->)/(?-1)
由表2數(shù)據(jù)可以計算出,vi=2.965,v2=3.157
步驟三合并
將步驟二的結(jié)果加以合并,也即
*?
.-=專(13.38+13.57)=13.48
T~=1+(1+=](必+%)+(1+])2(匕-6.)3
=y(2.965+3.157)+(1+y)0.018=3.073
由此便可以對Y的置信區(qū)間進(jìn)行估計0
七、總結(jié)
插補(bǔ)調(diào)整常用于對項目缺失數(shù)據(jù)的處理。造成項目數(shù)據(jù)缺失的原因有多種,
比較常見的有項目無回答,此處缺失值還產(chǎn)生異常值的剔除。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國不銹鋼洗物臺數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年高級手帕紙項目投資價值分析報告
- 高溫蠕變試驗機(jī)項目績效評估報告
- 2025年三方抵押合同(4篇)
- 2025年度專用工程車輛租賃與維護(hù)合同
- 2025年國際貿(mào)易農(nóng)產(chǎn)品溯源體系建設(shè)合同
- 2025年度家具行業(yè)新材料研發(fā)與應(yīng)用合同
- 2025年柚子茶項目可行性研究報告
- 【克勞銳】品牌藍(lán)V社交運營系列研究報告-美妝篇 2025
- 房產(chǎn)買賣合同撤銷協(xié)議書
- 水利水電工程監(jiān)理平行檢測表部分
- 分部分項工程質(zhì)量檢驗計劃表
- 社區(qū)衛(wèi)生服務(wù)中心醫(yī)療服務(wù)推薦病-2023版1-4-10
- HY/T 266-2018外壓中空纖維超濾膜表面親水性的測試接觸角法
- GB/T 4857.3-2008包裝運輸包裝件基本試驗第3部分:靜載荷堆碼試驗方法
- 【英文原版小說】the things they carried《負(fù)荷》
- 領(lǐng)導(dǎo)干部如何管理壓力與情緒課件
- 2022-2023年度神農(nóng)中華農(nóng)業(yè)科技獎科研和科普類推薦書和摘要表(樣本)
- 《鄉(xiāng)土中國-差序格局》學(xué)案-統(tǒng)編版高中語文必修上冊
- 大學(xué)成績單中文(word版)
- 海南省儋州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細(xì)及行政區(qū)劃代碼居民村民委員會
評論
0/150
提交評論