




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上畢業(yè)論文題 目部分協(xié)變量缺失下的線性回歸分析及其應(yīng)用學(xué) 院基礎(chǔ)科學(xué)學(xué)院專業(yè)班級(jí)學(xué) 號(hào)姓 名吳佳桐指導(dǎo)教師袁曉惠二一五年六月四日專心-專注-專業(yè)中 文 摘 要在目前的各個(gè)領(lǐng)域的研究調(diào)查中,由于受到各種已知或者未知因素的影響,經(jīng)常會(huì)導(dǎo)致缺失數(shù)據(jù)出現(xiàn)的情況。而由于缺失數(shù)據(jù)的存在,不但會(huì)增加研究者分析數(shù)據(jù)的難度,而且會(huì)造成分析結(jié)果的偏差,從而降低研究者統(tǒng)計(jì)計(jì)算工作的效率。因此考慮如何消除或者盡可能的減少這些缺失數(shù)據(jù)的影響就變的越來越重要了。文章首先介紹了回歸模型及其基本概念并介紹了使用方法;然后介紹了國內(nèi)外對(duì)缺失數(shù)據(jù)的研究現(xiàn)狀,并簡單介紹了數(shù)據(jù)缺失機(jī)制的三種形式,指出解決數(shù)據(jù)
2、缺失的一般性方法。并在接下來的文章中介紹了在協(xié)變量缺失下的線性回歸模型,最后是利用R程序?qū)?shù)據(jù)進(jìn)行實(shí)證分析。為了有效地解決缺失數(shù)據(jù)帶來的問題,本文使用了其中三種方法對(duì)缺失數(shù)據(jù)集做了相應(yīng)的處理。首先使用的是剔除法即將含有缺失數(shù)據(jù)列直接刪除;第二種方法是對(duì)數(shù)據(jù)集做逆概率加權(quán);第三種方法是使用回歸補(bǔ)值法,對(duì)缺失數(shù)據(jù)集進(jìn)行填補(bǔ),從而形成一個(gè)完整的數(shù)據(jù)集,然后對(duì)填補(bǔ)后的數(shù)據(jù)集進(jìn)行相應(yīng)的統(tǒng)計(jì)分析。本文研究的重點(diǎn)是部分析變量缺失下的回歸分析,對(duì)不同的樣本量做數(shù)值模擬,研究在兩種缺失程度的數(shù)據(jù)(15%、30%的隨機(jī)缺失)通過對(duì)比,針對(duì)本文的數(shù)據(jù)研究發(fā)現(xiàn)逆概率加權(quán)法更好。關(guān)鍵詞 線性回歸 缺失值 缺失機(jī)制 填補(bǔ)
3、方法Title Linear regression analysis with missing covariates and its applicationAbstractIn the present investigation of various fields, because of the influence of various known or unknown factors, it often leads to the missing data. Because of the existence of missing data, it not only increases the
4、difficulty of the researchers to analyze the data, but also can lead to the deviation of the results of the analysis, which can reduce the efficiency of the study. So it becomes more and more important to consider how to eliminate or minimize the impact of these missing data. At first, the paper int
5、roduces the regression model and the basic concept and describes the methodology used; then introduces the research status at home and abroad for the missing data, and introduces three forms of the missing data mechanism, it is pointed out that to solve the general methods of missing data. In the ne
6、xt article, the linear regression model is introduced, and the data is analyzed by R program. In order to solve the problem caused by the missing data, three methods are used to deal with the missing data sets. The first use of elimination will contain missing data directly to a column removed; the
7、second method is to data sets to do the inverse probability weighted; the third method is using regression imputation method, to fill the missing data set, so as to form a complete data set, and then the corresponding statistical analysis to fill the data set.The focus of this paper is analysis of m
8、issing variables regression analysis, to the different amount of sample numerical simulation study in two levels of missing data (15%, 30% of the missing at random) by contrast, according to the data of the study found inverse probability weighting method is better.Key words Linear regression Missin
9、g value Missing mechanism Imputation method目 錄1 緒論1.1 回歸分析的發(fā)展歷程回歸分析是處理變量與之間的關(guān)系的一種統(tǒng)計(jì)方法和技術(shù)?;貧w分析的基本思想和方法以及“回歸”名稱的由來歸功于英國統(tǒng)計(jì)學(xué)家F.高爾頓。高爾頓和他的學(xué)生K.皮爾遜在研究父母身高與其子女身高的遺傳問題時(shí),觀察了1078對(duì)夫婦,以每對(duì)夫婦的平均身高作為,而取他們的一個(gè)成年兒子的身高作為,將結(jié)果在平面直角坐標(biāo)系上繪成散點(diǎn)圖,發(fā)現(xiàn)趨勢近乎一條直線。計(jì)算出的回歸直線方程為這種趨勢及回歸方程總的表明父母平均身高每增加一個(gè)單位,其兒子的成年兒子的身高也平均增加0.516個(gè)單位。這個(gè)結(jié)果表明,
10、雖然高個(gè)子父輩確有生高個(gè)子兒子的趨勢,但父輩身高增加一個(gè)單位,兒子身高僅增加半個(gè)單位左右。這個(gè)例子生動(dòng)地說明了生物學(xué)中“種”的概念的穩(wěn)定性。正是為了描述這種有趣的現(xiàn)象,高爾頓引進(jìn)了“回歸”這個(gè)名詞來描述父輩的身高與子輩身高的關(guān)系。盡管“回歸”這個(gè)名詞的由來具有其特定的含義,人們在研究大量的問題中,其變量與之間的關(guān)系并不總是具有這種“回歸”的含義,但借用這個(gè)名詞把研究變量與間統(tǒng)計(jì)關(guān)系的量化方法稱為“回歸”分析也算是對(duì)高爾頓這個(gè)偉大的統(tǒng)計(jì)學(xué)家的紀(jì)念1。1.2 多元線性回歸模型的一般形式設(shè)隨機(jī)變量與一般變量,的線性回歸模型為 (1.1)其中,,.,是個(gè)未知參數(shù),稱為回歸常數(shù),.,稱為回歸系數(shù)。稱為被
11、解釋變量(因變量),,是個(gè)可以精確測量并控制的一般變量,稱為解釋變量(自變量)。是隨機(jī)誤差,對(duì)隨機(jī)誤差項(xiàng)我們常假定 (1.2)稱 (1.3)為理論回歸方程。對(duì)一個(gè)實(shí)際問題,如果我們獲得組觀測數(shù)據(jù)(,;)(=1,2,),則線性回歸模型(1.1)式可表示為 (1.4)寫成矩陣形式為 (1.5)其中 (1.6) 是一個(gè)階矩陣,稱為回歸設(shè)計(jì)矩陣或者資料矩陣。在實(shí)驗(yàn)設(shè)計(jì)中的元素是預(yù)先設(shè)定并可以控制的,人的主觀因素可作用其中,因而稱為設(shè)計(jì)矩陣。1.3 多元線性回歸模型的基本假定為了方便地進(jìn)行模型的參數(shù)估計(jì),對(duì)回歸方程(1.4)式有如下一些基本假定:(1)解釋變量,是確定性變量,不是隨機(jī)變量,且要求。這里的
12、,表明設(shè)計(jì)矩陣中的自變量列之間不相關(guān),樣本量的個(gè)數(shù)應(yīng)大于解釋變量的個(gè)數(shù),是一滿秩矩陣。(2)隨機(jī)誤差項(xiàng)具有零均值和等方差,即 (1.7)這個(gè)假定常稱為高斯馬爾柯夫條件。,即假設(shè)觀測值沒有系統(tǒng)誤差,隨機(jī)誤差項(xiàng)的平均值為零。隨機(jī)誤差項(xiàng)的協(xié)方差為零,表明隨機(jī)誤差項(xiàng)在不同樣本之間是不相關(guān)的(在正態(tài)假定下即為獨(dú)立的),不存在序列相關(guān),并且有相同的精度。(3)正態(tài)分布的假定條件為 (1.8)對(duì)于多元線性回歸的矩陣模型(1.5)式,這個(gè)條件便可表示為 (1.9)由上述假定和多元正態(tài)分布的性質(zhì)可知,隨機(jī)向量服從維正態(tài)分布,回歸模型(1.5)式的期望向量 (1.10) (1.11)因此 (1.12)1.4 回歸
13、參數(shù)的估計(jì)的主要方法 1、回歸參數(shù)的普通最小二乘估計(jì)多元線性回歸方程未知參數(shù)的估計(jì)與一元線性回歸方程的參數(shù)估計(jì)原理一樣,仍然可以采用最小二乘估計(jì)。對(duì)于(1.5)式表示的回歸模型,所謂最小二乘法,就是尋找參數(shù)的估計(jì)值,使離差平方和達(dá)到極小,即尋找滿足 (1.13)依照(1.13)式求出就成為回歸參數(shù)的最小二乘估計(jì)。得出用矩陣形式表示的正規(guī)方程組移項(xiàng)得,當(dāng)存在時(shí),即得到回歸參數(shù)的最小二乘估計(jì)為 (1.14)稱為經(jīng)驗(yàn)回歸方程。2、回歸參數(shù)的最大似然估計(jì)極大似然估計(jì)是統(tǒng)計(jì)中最重要,應(yīng)用最廣泛的方法之一,最初被德國數(shù)學(xué)家高斯在1821年提出時(shí),并未引起重視,直到1922年費(fèi)舍爾提出了極大似然思想并得以得
14、出性質(zhì)后,才廣為研究和應(yīng)用。多元線性回歸參數(shù)的最大似然估計(jì)與一元線性回歸參數(shù)的最大似然估計(jì)的思想一致。對(duì)于(1.5)式所表示的模型,即服從多變量正態(tài)分布,那么的概率分布為 這時(shí),似然函數(shù)為 (1.16)其中的未知參數(shù)是和,最大似然估計(jì)就是選取似然函數(shù)達(dá)到最大的和。要使達(dá)到最大,對(duì)(1.16)式兩邊同時(shí)取自然對(duì)數(shù),得 (1.17)在(1.17)式中,僅在最后一項(xiàng)中含有,顯然使(1.17)式達(dá)到最大,等價(jià)于達(dá)到最小,這又完全與普通最小二乘估計(jì)相同,即誤差項(xiàng)方差的最大似然估計(jì)為 (1.18)這是的有偏估計(jì),但他滿足一致性。在大樣本的情況下,這是的漸近無偏估計(jì)。1.5 回歸分析研究的主要內(nèi)容回歸分析研
15、究的主要對(duì)象是客觀事物變量間的統(tǒng)計(jì)關(guān)系,它是建立在對(duì)客觀事物進(jìn)行大量實(shí)驗(yàn)和觀察的基礎(chǔ)上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計(jì)規(guī)律性的方法。回歸分析方法是通過建立統(tǒng)計(jì)模型研究變量間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)及進(jìn)行模型預(yù)測的一種有效的工具。回歸分析方法在生產(chǎn)實(shí)踐中的廣泛應(yīng)用是它發(fā)展和完善的根本動(dòng)力。如果從19世紀(jì)初高斯提出的最小二乘法算起,回歸分析的歷史已有200年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,他們所研究的內(nèi)容已非常豐富。2 缺失數(shù)據(jù)的介紹2.1研究缺失數(shù)據(jù)的背景和意義缺失數(shù)據(jù)是分析數(shù)據(jù)中的一個(gè)基本問題。最常見的例子是在做調(diào)查的時(shí)候沒有響應(yīng),我們要向在一項(xiàng)統(tǒng)計(jì)調(diào)查中要得到
16、百分之百的有效答卷是相當(dāng)困難的,因?yàn)橛泻芏嘁蛩禺a(chǎn)生影響,主要有:在調(diào)查初始階段,可能由于種種原因調(diào)查人員無法和被調(diào)查人員接觸;在調(diào)查進(jìn)行階段,被調(diào)查者拒絕接受調(diào)查是很常見的現(xiàn)象。拒絕的主要原因有很多種,例如被調(diào)查者沒有時(shí)間,或者對(duì)調(diào)查的問題不感興趣,或者處于被調(diào)查者的安全考慮拒絕調(diào)查人員的調(diào)查,或者被調(diào)查者拒絕回答某些重要的問題;在研究的整理階段,研究人員將不和邏輯的數(shù)據(jù)剔除出去會(huì)造成數(shù)據(jù)的缺失。如果把缺失數(shù)據(jù)用無回答表示,當(dāng)今的實(shí)踐表明,在現(xiàn)在的調(diào)查研究中的缺失數(shù)據(jù)。其實(shí),在如今這種信息爆炸的時(shí)代完整的和正確的數(shù)據(jù)是很難獲得的??紤]到調(diào)查研究中數(shù)據(jù)的重要性,我們在研究工作中需要不斷地采集數(shù)據(jù)
17、,從大量的數(shù)據(jù)中抽取出對(duì)我們有用的知識(shí)來指導(dǎo)我們的實(shí)踐,但是,收集的數(shù)據(jù)量越大,可能造成缺失數(shù)據(jù)的情況就越嚴(yán)重,這本身就是一對(duì)矛盾。對(duì)此,這不僅僅是必須針對(duì)大量的數(shù)據(jù)進(jìn)行分析處理得到正確結(jié)果的問題,同時(shí)也需要對(duì)缺失數(shù)據(jù)給出適當(dāng)?shù)奶钛a(bǔ)措施,使得數(shù)據(jù)的分析更加有意義。2.2 國內(nèi)外研究情況2.2.1 國外研究情況外國學(xué)術(shù)界對(duì)缺失數(shù)據(jù)的問題研究早就開始了,關(guān)于統(tǒng)計(jì)調(diào)查中缺失數(shù)據(jù)問題的研究大致可分為三個(gè)階段2:第一階段是啟動(dòng)期(1915年20世紀(jì)40年代)有關(guān)學(xué)者開始了對(duì)缺失數(shù)據(jù)問題的初步研究,強(qiáng)調(diào)處理無回答問題的重要性。第二階段是專題研究、方法發(fā)展期(20世紀(jì)40年代中期20世紀(jì)90年代初)這一時(shí)期
18、許多學(xué)者對(duì)缺失數(shù)據(jù)問題進(jìn)行了大量的專題研究,提出了對(duì)缺失數(shù)據(jù)進(jìn)行處理補(bǔ)救的經(jīng)典方法。要減少調(diào)查中的缺失數(shù)據(jù),主要從事前預(yù)防和事后補(bǔ)救兩方面入手。事前預(yù)防也許是處理缺失數(shù)據(jù)最簡單且有效的方法,早期學(xué)者也較多的關(guān)注減少缺失數(shù)據(jù)的事前預(yù)防方法和措施。但是人們逐步認(rèn)識(shí)到,現(xiàn)實(shí)中由于種種原因和條件的限制,這種事先預(yù)防的方法并不能使問題得到完全解決。因此,對(duì)缺失數(shù)據(jù)的補(bǔ)救越來越受到重視。第三階段是方法的完善期(20世紀(jì)90年代初至今)這一時(shí)期,較少有學(xué)者提出關(guān)于無回答處理的全新思想,但很多學(xué)者或者提出了方法的改進(jìn)和擴(kuò)展,或者研究如何使用插補(bǔ)后的數(shù)據(jù)進(jìn)行方差估計(jì)。此外,大量現(xiàn)代統(tǒng)計(jì)方法在缺失數(shù)據(jù)研究領(lǐng)域的應(yīng)
19、用,帶動(dòng)了這一領(lǐng)域的蓬勃發(fā)展。近20年來涌現(xiàn)出眾多關(guān)于處理缺失數(shù)據(jù)的研究文獻(xiàn),對(duì)缺失數(shù)據(jù)進(jìn)行調(diào)整的統(tǒng)計(jì)方法取得了很多突破,方法不斷完善。至今處理缺失數(shù)據(jù)仍為抽樣應(yīng)用和理論界的熱點(diǎn)專題之一3。2.2.2 國內(nèi)研究背景概況缺失數(shù)據(jù)是一個(gè)普遍現(xiàn)象,在我國同樣存在。解決統(tǒng)計(jì)調(diào)查中的缺失數(shù)據(jù),是提高數(shù)據(jù)質(zhì)量的一個(gè)重要方面。目前從國內(nèi)情況來看,我們對(duì)缺失數(shù)據(jù)雖有研究,但國內(nèi)尚未見對(duì)填補(bǔ)方法以及其應(yīng)用的深入研究,在對(duì)缺失值處理研究較前沿的醫(yī)學(xué)衛(wèi)生領(lǐng)域也未見對(duì)缺失值處理統(tǒng)計(jì)方法的深入研究。我國對(duì)于有關(guān)缺失數(shù)據(jù)的填補(bǔ)與調(diào)整的原創(chuàng)性學(xué)術(shù)研究還很有限,主要成果還只是對(duì)國外相關(guān)研究資料的譯介和文獻(xiàn)綜述等方面。在過去因
20、為采集數(shù)據(jù)所花費(fèi)的代價(jià)太高,所以人們經(jīng)常是基于有限的信息進(jìn)行決策。隨著信息時(shí)代的到來,人們把數(shù)據(jù)挖掘技術(shù)作為一種發(fā)現(xiàn)和尋找有用信息的技術(shù),正在迅猛發(fā)展并在商業(yè)決策支持、經(jīng)濟(jì)、管理、統(tǒng)計(jì)以及計(jì)算機(jī)科學(xué)中發(fā)揮著巨大的作用,它使用許多計(jì)算方法,如決策樹、聚類、人工神經(jīng)網(wǎng)絡(luò)和回歸算法等。處理缺失數(shù)據(jù)在統(tǒng)計(jì)領(lǐng)域中并不是一個(gè)新的課題,然而遺憾的是,傳統(tǒng)的統(tǒng)計(jì)方法不能正確的解決某些特定數(shù)據(jù)的缺失問題,例如具有很大的缺失窗口的時(shí)間序列數(shù)據(jù),這就需要我們根據(jù)實(shí)際問題的需要采用新的方法。統(tǒng)計(jì)學(xué)數(shù)據(jù)主要來自于兩個(gè)方面:調(diào)查的數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)。統(tǒng)計(jì)調(diào)查中的數(shù)據(jù)缺失是影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的一個(gè)重要方面,在概率抽樣中,缺失數(shù)據(jù)
21、將導(dǎo)致統(tǒng)計(jì)推論中出現(xiàn)估計(jì)量偏差和估計(jì)方差增大,在其他調(diào)查方式中,缺失數(shù)據(jù)也會(huì)對(duì)統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量產(chǎn)生影響,使統(tǒng)計(jì)數(shù)據(jù)的說服力降低。況且,種類調(diào)查特別是抽樣調(diào)查應(yīng)用的領(lǐng)域越來越廣闊,各種干擾項(xiàng)調(diào)查的因素也逐步凸顯,調(diào)查研究中出現(xiàn)的缺失數(shù)據(jù)也會(huì)帶來相同的后果。這種現(xiàn)象是普遍性的,正是因?yàn)槿绱?,?duì)缺失數(shù)據(jù)問題的研究,一直是國際統(tǒng)計(jì)學(xué)屆熱點(diǎn)討論的課題之一。國內(nèi)對(duì)缺失數(shù)據(jù)問題的研究雖有發(fā)展,但與國外相比,仍有很大差距。主要表現(xiàn)在理論討論方面缺乏原創(chuàng)性,基本上是介紹國外已有方法,即便如此,介紹的也不夠全面和豐富,而在應(yīng)用方面則幾乎是空白。2.3 缺失的原因在各種科學(xué)研究中,數(shù)據(jù)的缺失現(xiàn)象很普遍,不完備數(shù)據(jù)給數(shù)
22、據(jù)的使用和分析帶來了很大的困難,也是造成信息系統(tǒng)不確定的主要原因之一??偨Y(jié)了一些不完備數(shù)據(jù)的定義:數(shù)據(jù)傳輸或采集中的錯(cuò)誤、空值、超出范圍或者不符合要求的值。造成數(shù)據(jù)缺失的原因是多方面的,主要可能有以下幾種4:1、有些信息暫時(shí)無法獲取。例如在醫(yī)療數(shù)據(jù)庫中,并非所有病人的所有臨床檢驗(yàn)結(jié)果都能在給定的時(shí)間內(nèi)得到,就致使一部分屬性值空缺出來。又如在申請表數(shù)據(jù)中,對(duì)某些問題的反映依賴于對(duì)其他問題的回答。2、有些信息是被遺漏的??赡苁且?yàn)檩斎霑r(shí)認(rèn)為不重要、忘記填寫了或?qū)?shù)據(jù)理解錯(cuò)誤而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障和一些人為因素等原因而丟失了。3、有些對(duì)象的某個(gè)或某些屬
23、性是不可用的。也就是說,對(duì)于這個(gè)對(duì)象來說,該屬性值是不存在的,如一個(gè)未婚者的配偶姓名、一個(gè)兒童的固定收入狀況等。4、有些信息(被認(rèn)為)是不重要的。如一個(gè)屬性的取值與給定語境是無關(guān)的,或訓(xùn)練數(shù)據(jù)庫的設(shè)計(jì)者并不在乎某個(gè)屬性的取值。5、獲取這些信息的代價(jià)太大。6、系統(tǒng)實(shí)時(shí)性能要求較高,即要求得到這些信息前迅速做出判斷或決策。2001年荷蘭統(tǒng)計(jì)與運(yùn)籌協(xié)會(huì)下屬的統(tǒng)計(jì)軟件分會(huì)組織了一個(gè)關(guān)于缺失數(shù)據(jù)的討論會(huì),討論會(huì)提醒人們,即使表面上看缺失數(shù)據(jù)對(duì)研究結(jié)果不可能構(gòu)成威脅時(shí),也不要簡單地將其刪除,因?yàn)殡m然缺失數(shù)據(jù)可能只占到4一5的比例,但那些重要信息中往往有30-95來自這些數(shù)據(jù)。所以絕對(duì)不能存在僥幸心理,而要
24、妥善處理好不完備數(shù)據(jù)。缺失數(shù)據(jù)的產(chǎn)生的原因多種多樣,主要分為機(jī)械原因和人為原因。機(jī)械原因是由于機(jī)械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲(chǔ)的失敗,存儲(chǔ)器損壞,機(jī)械故障導(dǎo)致某段時(shí)間數(shù)據(jù)未能收集(對(duì)于定時(shí)數(shù)據(jù)采集而言)。人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,比如,在市場調(diào)查中被訪人拒絕透露相關(guān)問題的答案,或者回答的問題是無效的,數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。2.4 缺失機(jī)制2.4.1 完全隨機(jī)缺失完全隨機(jī)缺失(missing completely at random, MCAR),完全隨機(jī)缺失是缺失數(shù)據(jù)問題中最簡單的一種,指缺失數(shù)據(jù)是隨機(jī)發(fā)生的,即某一變量的
25、缺失與非缺失數(shù)據(jù)之間不存在任何系統(tǒng)差異,數(shù)據(jù)集中與其有關(guān)的其他變量,在該變量的缺失與非缺失數(shù)據(jù)之間分組也不存在任何差異。在MCAR機(jī)制下,目標(biāo)變量集,協(xié)變量集和指示變量集A相互獨(dú)立,并且有其中L是的分布函數(shù)。此式表明目標(biāo)變量的回答數(shù)據(jù)集與無回答數(shù)據(jù)集有相同分布,該分布就是目標(biāo)變量分布本身。在完全隨機(jī)缺失機(jī)制下,對(duì)含有缺失值的數(shù)據(jù)集采用通常的統(tǒng)計(jì)分析方法是可行的,估計(jì)量無偏,但方法不同的估計(jì)效率存在差別。盡管完全隨機(jī)缺失只要求數(shù)據(jù)缺失的概率與所研究的變量獨(dú)立,但是研究變量與未觀察到的因素間的間接關(guān)聯(lián)仍是可能的,而資料本身難以證實(shí)這種假設(shè)的成立,因而完全隨機(jī)缺失假設(shè)有時(shí)存在一定問題?,F(xiàn)實(shí)中完全隨機(jī)
26、缺失的情況有所存在,但并不普遍。2.4.2 隨機(jī)缺失隨機(jī)缺失(missing at random, MAR)隨機(jī)缺失相對(duì)完全隨機(jī)缺失而言,要求沒有那么嚴(yán)格此時(shí)數(shù)據(jù)并非完全的隨機(jī)缺失。假設(shè)缺失數(shù)據(jù)發(fā)生的概率與所觀察到的變量是有關(guān)的而與未觀察到的數(shù)據(jù)特征是無關(guān)的,此時(shí)可以認(rèn)為數(shù)據(jù)缺失屬于隨機(jī)缺失。MAR是指目標(biāo)變量是否缺失只是與已經(jīng)觀測到的值有關(guān),而與缺失的無關(guān)。若用表示的觀測部分,用表示的缺失部分,在MAR機(jī)制下,有式表示缺失數(shù)據(jù)(即是否回答的知識(shí)變量數(shù)據(jù)集A)只是與有關(guān),而與無關(guān)。當(dāng)缺失數(shù)據(jù)發(fā)生的概率僅與實(shí)際的缺失數(shù)據(jù)有關(guān)時(shí),隨機(jī)缺失假設(shè)也成立。完全隨機(jī)缺失與隨機(jī)缺失均被稱為是可忽略的缺失。2
27、.4.3 完全非隨機(jī)缺失完全非隨機(jī)缺失(not missing at random, NMAR)完全非隨機(jī)缺失與隨機(jī)缺失相對(duì)應(yīng),是指目標(biāo)變量是否缺失與值本身有關(guān),不管其是否被觀察到。非隨機(jī)缺失也被稱為不可忽略的缺失。在隨機(jī)缺失機(jī)制中曾提及單調(diào)缺失是MAR的一種典型形式,而非單調(diào)缺失則歸應(yīng)于NMAR。非隨機(jī)缺失是缺失數(shù)據(jù)的普遍形式,但是比較難于處理。進(jìn)行處理時(shí)需要基于目標(biāo)變量和協(xié)變量模型比較強(qiáng)的假定。解決隨機(jī)缺失的一種思路是將其有條件的轉(zhuǎn)化為隨機(jī)缺失模式。例如,將非單調(diào)缺失轉(zhuǎn)變?yōu)殚g隔性的單調(diào)缺失,或利用輔助變量將樣本單元類別細(xì)分,使得同類別中樣本單元的目標(biāo)變量值接近56。2.5 缺失數(shù)據(jù)的處理方
28、法2.5.1 剔除數(shù)據(jù)法顧名思義,剔除數(shù)據(jù)法也就是將存在遺漏信息屬性值的對(duì)象刪除,從而得到一個(gè)完備的信息數(shù)據(jù)表。并且這種方法操作簡單易行,在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常的有效的。然而這種方法也有其一定的局限性,比如說它是以減少歷史數(shù)據(jù)來換取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對(duì)象中的信息。在信息表中本來包含的對(duì)象很少的情況下,刪除少量對(duì)象就足以嚴(yán)重影響到數(shù)據(jù)信息表數(shù)據(jù)的客觀性和結(jié)果的正確性。因此,當(dāng)遺漏數(shù)據(jù)所占比例比較大,特別當(dāng)遺漏數(shù)據(jù)隨機(jī)分布時(shí),這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏理,從而引出錯(cuò)誤的結(jié)論并對(duì)分析結(jié)果產(chǎn)生誤差。2
29、.5.2 回歸填補(bǔ)法回歸填補(bǔ)法(regression imputation)是運(yùn)用回歸技術(shù)來替代缺失數(shù)據(jù)的方法,它是通過多元回歸方法建立變量關(guān)于數(shù)據(jù)集所有其它變量的回歸模型,并用非標(biāo)準(zhǔn)化的結(jié)果預(yù)測該變量的缺失數(shù)據(jù)來實(shí)現(xiàn)的?;貧w填補(bǔ)法是利用輔助變量(1,2,)與目標(biāo)變量的關(guān)系,建立回歸模型,然后利用已知的輔助變量的信息和回歸模型,對(duì)目標(biāo)變量的缺失數(shù)據(jù)進(jìn)行估計(jì)的方法。在樣本變量中,如果變量(1,2,)和變量,之間存在高度相關(guān),可利用已知數(shù)據(jù)擬合回歸預(yù)測模型,預(yù)測出未知的缺失數(shù)據(jù)。例如,缺失變量和已知變量是線性回歸關(guān)系,其預(yù)測模型為根據(jù)最小二乘法求得的線性模型。回歸替代值是一個(gè)預(yù)測值,而不是取自當(dāng)前
30、調(diào)查中得到的實(shí)際值。于是我們可以推出第個(gè)缺失數(shù)據(jù)的估計(jì)值可以表示為,式子中的是回歸系數(shù)。若輔助變量是定性變量時(shí),可以采用虛擬變量的處理方法;若目標(biāo)變量是定性變量,則考慮通過logit變換,進(jìn)行l(wèi)ogistic線性回歸。我們應(yīng)該看到,利用嚴(yán)格擬合的回歸方程來預(yù)測目標(biāo)值,容易人為地增大變量間的相關(guān)關(guān)系。因此只有當(dāng)輔助變量與目標(biāo)變量之間存在著高度的相關(guān)關(guān)系時(shí),采用回歸填補(bǔ)法才是比較有效的。2.5.3 IPW逆概率加權(quán)法逆概率加權(quán)法就是對(duì)在CC(complete case analysis)情形下對(duì)估計(jì)方程的項(xiàng)加權(quán),且權(quán)為缺失概率的逆,在通常情況下,估計(jì)是相合估計(jì),這一思想是Horvitz and T
31、hpmpson在1952年提出的,被稱為IPW逆概率加權(quán)法,在協(xié)變量缺失時(shí)被普遍采用。逆概率加權(quán)法就是對(duì)每個(gè)可觀測的的概率取倒數(shù),作為被觀測的的權(quán)重。即由于在總體中每一個(gè)樣本都有可能被隨機(jī)選擇到,被選擇到的概率是,這個(gè)樣本就可以看為是總體的個(gè)總體。如果假設(shè)是總體均值,即:,可以用來估計(jì),由弱大數(shù)定律知,取條件期望得: 在實(shí)際中,通常是未知的,如假定一個(gè)模型可以用極大似然估計(jì):,得到了IPW估計(jì)在參數(shù)估計(jì)的問題中,如果被估計(jì)的權(quán)函數(shù)適當(dāng),IPW方法估計(jì)比已知權(quán)時(shí)得估計(jì)更加有效,但是如果權(quán)函數(shù)假設(shè)不合適或者錯(cuò)誤時(shí),是得不到相合估計(jì)的,所以Rubin等還有其他學(xué)者提出了擴(kuò)張逆概率加權(quán)法,其具有“雙穩(wěn)
32、健”性,進(jìn)一步推廣了這種方法7。3 協(xié)變量缺失下的回歸分析3.1協(xié)變量缺失下的回歸分析的介紹研究協(xié)變量缺失的回歸分析方法在過去的二十年已經(jīng)是一個(gè)活躍的研究領(lǐng)域。Little8最近回顧了在這一領(lǐng)域的文獻(xiàn),并總結(jié)了六大方法包括CC分析。除了這些方法,半?yún)?shù)的方法也已開發(fā)用于缺失協(xié)變量的回歸分析,不過其中一些是在其他方面開發(fā)的。在兩階段的病例對(duì)照研究的背景下,Breslow和Cain9介紹了一個(gè)在協(xié)變量和二元結(jié)果上的邏輯回歸的偽似然條件的方法,絕對(duì)值作為在第一級(jí)所有研究對(duì)象的樣本,作為在第二級(jí)研究對(duì)象的一個(gè)子集(被認(rèn)為“丟失”的不是在第二級(jí)的研究對(duì)象)。這種方法適用于當(dāng)缺失機(jī)制是MAR時(shí)的缺失協(xié)變量
33、的回歸分析。在另一方面,Pepe和Fleming10與Carroll和Wand11考慮在協(xié)變量測量錯(cuò)誤,其中在所有研究對(duì)象和中被觀測到的背景下的半?yún)?shù)方法。協(xié)變量真正的價(jià)值,是收集只有部分研究對(duì)象,他們的方法適用于缺失協(xié)變量是MCAR的回歸分析。Reilly 和 Pepe 12擴(kuò)展了Pepe和Fleming的半?yún)?shù)法回歸分析,當(dāng)一個(gè)協(xié)變量已經(jīng)缺少觀測值和缺失數(shù)據(jù)是MAR時(shí),稱它是平均得分方法。Reilly 和 Pepe指出,平均得分方法,本質(zhì)上與加權(quán)估計(jì)方程相一致,F(xiàn)landers 和 Greenland 13,Zhao 和 Lipsitz 的文本的兩階段表明了這是獨(dú)立的兩個(gè)階段。他們提出的加
34、權(quán)估計(jì)方程的想法是對(duì)在第二級(jí)的樣本中的一個(gè)完整的觀測值加權(quán)貢獻(xiàn),通過抽樣概率使在第二級(jí)被觀測到。在當(dāng)前的背景下,本次抽樣概率對(duì)應(yīng)“被觀察到的概率”,即是被觀測到的概率。已經(jīng)表明,該加權(quán)估計(jì)方程可適用于缺少協(xié)變量是MAR或MCAR時(shí)的回歸分析。3.2 協(xié)變量缺失下的估計(jì)方程3.2.1 估計(jì)方程的介紹認(rèn)為一個(gè)回歸問題包括個(gè)獨(dú)立的研究對(duì)象,= 1, 。在第個(gè)研究對(duì)象上收集的數(shù)據(jù)是一個(gè)結(jié)果變量。P維協(xié)變量通常是可觀測的,協(xié)變量是缺失了一些研究對(duì)象。令表示為所有協(xié)變量的一個(gè)向量。同時(shí)令表示為觀測到的結(jié)果和所有觀測到的協(xié)變量的一個(gè)向量。令表示為觀測的一個(gè)指標(biāo)(若被觀測到則=1,;若沒有被觀測到則=0)。的
35、隨機(jī)過程被,觀測到的概率以及給出的結(jié)果和協(xié)變量所約束。即。不可忽略的缺失值表明了取決于。MAR表明了不取決于,即。MCAR表明了不取決于中的任意一個(gè)。令表示為結(jié)果給出的協(xié)變量的期望。在大多數(shù)的回歸問題中,從回歸模型 (3.1)估計(jì)回歸系數(shù)是很受關(guān)注的。這里是一個(gè)指定的方程,例如線性回歸的和邏輯回歸的。3.2.2 完整案例分析和相關(guān)偏差當(dāng)執(zhí)行CC分析時(shí),量化模型(3.1)中的估計(jì)偏差是很重要的。為簡化起見,讓我們考慮在估計(jì)方程的線性回歸(3.1)中的估計(jì)回歸系數(shù)()的偏差。由于CC分析排除了缺失的值的這些記錄,它有效地利用估算公式。其中,和是觀測的指標(biāo)。當(dāng)=0,相應(yīng)項(xiàng)就會(huì)從估計(jì)方程中被剔除。要解
36、決這個(gè)估算公式是明確的,由下式給出 (3.2)如果在(3.2)中,我們用替代,然后合并同類項(xiàng),我們可以得到因此的偏差由下式給出 在弱規(guī)律性的條件下,上述偏差是漸近等同于 其中,。有趣的是,當(dāng)不依賴于時(shí),則上述偏差漸近為0,在這種情況下,不管,MAR或MCAR的缺失值是不是不可忽略的。Little在他文章的討論中指出CC分析的這種無偏的特征。如果依賴于,那么偏差可能不為零。比如,認(rèn)為模型是通過來依賴于線性的(來確保積極性)。那么上述偏差是漸近等于其中,是的方差。如果,偏差進(jìn)一步簡化為顯然,一般情況下,這種偏差不等于零,除非,即缺失值是MCAR。如果所觀察到的概率是已知的,一個(gè)簡單的方法來糾正估計(jì)
37、模型(3.1)中 的CC分析的偏差在是采用一個(gè)加權(quán)的估計(jì)方程。正如zhao和Lipsitz14所描述的,加權(quán)估計(jì)方程具有和相同的形式, (3.3)其中,。因?yàn)楹撕瘮?shù)的期望是在MAR等于零的情況,的估計(jì)和從上述加權(quán)估計(jì)方程獲得的是一致的,其可以用矩量法來表示。在這個(gè)意義上說,這種加權(quán)估計(jì)方程可以被看作是一個(gè)具有所觀察到的已知概率修改后的CC分析。注意,CC分析實(shí)際上可以看作是(3.3)的特例,其中被觀察的分配概率是恒定的,即。在大多數(shù)應(yīng)用中,所觀察到的概率是未知的,需要連同一起估計(jì)。3.2.3 加權(quán)估計(jì)方程現(xiàn)在假設(shè),被觀測的概率,取決于所觀察到的結(jié)果和協(xié)變量,并且依賴性被指定到由未知參數(shù)有限個(gè)的
38、索引的已知概率函數(shù)。具體來說,我們認(rèn)為邏輯回歸的被觀察的概率,其中是一個(gè)未知參數(shù)向量,。我們可以使用加權(quán)估算方程(3.3)估計(jì),同時(shí)構(gòu)建另一基于估計(jì)方程來估計(jì)。兩個(gè)估計(jì)方程可以結(jié)合成一個(gè)類似于的單一的估計(jì)方程,具有核函數(shù) (3.4)我們將此估算公式作為有觀測到的估計(jì)概率的加權(quán)估計(jì)方程(WEE)??梢钥闯鲆蕴峁┮欢ǖ囊?guī)律性條件時(shí),的期望等于零,除了和(Zhao和Lipsitz14)分別正確的模型假設(shè)。因此和的估計(jì)是一致的。他們也有一個(gè)方差是由一致估計(jì)方程(3.4)得到的漸近正態(tài)分布,其中和其中,0是具有合適空間的0向量。應(yīng)該指出的是,的估計(jì)是一致的,就必須正確地指定的模型。這個(gè)概率函數(shù)是建立在(
39、以及可能的相互作用)上的有關(guān)的邏輯回歸。如果的模型是錯(cuò)誤指定的,那我們感興趣的是回歸系數(shù)的估計(jì)值,會(huì)有偏差。因此,回歸系數(shù)的解釋應(yīng)該有模型的明確說明假設(shè)。3.3 方法介紹3.3.1 建立模型在缺失數(shù)據(jù)的研究中,對(duì)于協(xié)變量缺失的研究不是很多,而協(xié)變量的缺失在實(shí)際生活和應(yīng)用中也是普遍存在的,本文將對(duì)協(xié)變量的隨機(jī)缺失進(jìn)行研究。假定下述線性模型: (3.5)其中是響應(yīng)變量,是協(xié)變量,是隨機(jī)誤差。且,是未知的參數(shù),假設(shè)我們得到來自模型的樣本為,=1,。其中為示性函數(shù)。我們假設(shè)在缺失機(jī)制為MAR,即。3.3.2 全數(shù)據(jù)下的參數(shù)模型多元線性回歸方程未知參數(shù)的估計(jì)可以采用最小二乘估計(jì)。對(duì)于所謂最小二乘法,就是
40、尋找參數(shù)的估計(jì)值,使離差平方和達(dá)到極小,即尋找滿足根據(jù)(3.5)式結(jié)合本文的模型可以得出。3.3.3 直接剔除法剔除數(shù)據(jù)法也就是將存在遺漏信息屬性值的對(duì)象刪除,從而得到一個(gè)完備的信息數(shù)據(jù)表。并且這種方法操作簡單易行,在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常的有效的。然而這種方法也有其一定的局限性,比如說它是以減少歷史數(shù)據(jù)來換取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對(duì)象中的信息。在信息表中本來包含的對(duì)象很少的情況下,刪除少量對(duì)象就足以嚴(yán)重影響到數(shù)據(jù)信息表數(shù)據(jù)的客觀性和結(jié)果的正確性。因此,當(dāng)遺漏數(shù)據(jù)所占比例比較大,特別當(dāng)遺漏數(shù)據(jù)隨機(jī)分
41、布時(shí),這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏理,從而引出錯(cuò)誤的結(jié)論并對(duì)分析結(jié)果產(chǎn)生誤差。我們對(duì)做出估計(jì),。3.3.4 逆概率加權(quán)法逆概率加權(quán)法就是對(duì)在CC情形下對(duì)估計(jì)方程的項(xiàng)加權(quán),且權(quán)為缺失概率的逆,在通常情況下,估計(jì)是相合估計(jì),被稱為IPW逆概率加權(quán)法,在協(xié)變量缺失時(shí)被普遍采用。逆概率加權(quán)法就是對(duì)每個(gè)可觀測的的概率取倒數(shù),作為被觀測的的權(quán)重。即由于在總體中每一個(gè)樣本都有可能被隨機(jī)選擇到,被選擇到的概率是,這個(gè)樣本就可以看為是總體的個(gè)總體。根據(jù)(3.5)可以得出的估計(jì)。3.3.5 回歸填補(bǔ)法回歸填補(bǔ)法是運(yùn)用回歸技術(shù)來替代缺失數(shù)據(jù)的方法,它是通過多元回歸方法建立變量關(guān)于數(shù)據(jù)集所有其它變量的回歸模型,并用非標(biāo)
42、準(zhǔn)化的結(jié)果預(yù)測該變量的缺失數(shù)據(jù)來實(shí)現(xiàn)的?;貧w填補(bǔ)法是利用輔助變量(1,2,)與目標(biāo)變量的關(guān)系,建立回歸模型,然后利用已知的輔助變量的信息和回歸模型,對(duì)目標(biāo)變量的缺失數(shù)據(jù)進(jìn)行估計(jì)的方法。在樣本變量中,如果變量(1,2,)和變量,之間存在高度相關(guān),可利用已知數(shù)據(jù)擬合回歸預(yù)測模型,預(yù)測出未知的缺失數(shù)據(jù)。例如,缺失變量和已知變量是線性回歸關(guān)系,其預(yù)測模型為根據(jù)最小二乘法求得的線性模型?;貧w替代值是一個(gè)預(yù)測值,而不是取自當(dāng)前調(diào)查中得到的實(shí)際值。 于是我們可以推出第個(gè)缺失數(shù)據(jù)的估計(jì)值可以表示為,式子中的是回歸系數(shù)。若輔助變量是定性變量時(shí),可以采用虛擬變量的處理方法,若目標(biāo)變量是定性變量,則考慮通過logi
43、t變換,進(jìn)行l(wèi)ogistic線性回歸。我們可以得出的估計(jì)為其中,。3.4 模擬比較我們是為了研究在有限樣本下的協(xié)變量隨機(jī)缺失,選擇缺失模型為,其中=1,。本節(jié)中我們考慮兩種缺失,和,缺失率分別為 15%和30%。在MAR缺失機(jī)制下,對(duì)100和300個(gè)樣本容量做1000次模擬。我們的結(jié)果在表3.1-3.4 中列出。表3.1 在缺失率在15%時(shí)對(duì)三種方法進(jìn)行模擬的值估計(jì)表all dataCCAIPWIMPBias-7.520990.184710.00893-0.17221Bias-0.00327-0.00442-0.00355-0.00347Bias0.-0.040120.000590.17911
44、Std0.173220.214030.224210.20734Std0.103140.117950.128870.11651Std0.098830.124030.131920.11828RMSE0.173140.282640.224280.26946RMSE0.103140.117980.128860.11650RMSE0.098920.130300.131850.21461從表中可以看出不論哪種方法填補(bǔ)都不會(huì)比原有真實(shí)數(shù)據(jù)更優(yōu)秀,這表明了數(shù)據(jù)的真實(shí)性,Bias和RMSE越接近于0,說明對(duì)本文數(shù)據(jù)缺失機(jī)制來說方法越好。在隨機(jī)缺失15%的機(jī)制下可以直觀的看出IPW逆概率加權(quán)法效果更好。但是IPW
45、的標(biāo)準(zhǔn)差略大于其他兩種方法,也可能體現(xiàn)出方法的局限性。同樣的,我們對(duì)100個(gè)樣本量做1000次模擬,改變?nèi)笔蕿?0%表3.2 在缺失率在30%時(shí)對(duì)三種方法進(jìn)行模擬的值估計(jì)表all dataCCAIPWIMPBias0.000360.183490.00637-0.17144Bias-5.613500.000660.00267-0.00053Bias0.00200-0.04159-0.001050.17772Std0.172690.217700.222570.20337Std0.100720.117220.125500.11657Std0.100780.124410.134370.12051RM
46、SE0.172600.284630.222550.26591RMSE0.100670.117160.125470.11651RMSE0.100750.131130.134310.21426從表中我們依然可以看出不論哪種方法填補(bǔ)都不會(huì)比原有真實(shí)數(shù)據(jù)更優(yōu)秀,這表明了數(shù)據(jù)的真實(shí)性,Bias和RMSE越接近于0說明填補(bǔ)方法越優(yōu)秀。在隨機(jī)缺失30%的機(jī)制下IMP回歸填補(bǔ)法效果更好,但是RMSE均方根誤差比其他兩種方法稍大一些,也體現(xiàn)出了回歸填補(bǔ)的局限性。對(duì)當(dāng)=300個(gè)樣本量執(zhí)行隨機(jī)缺失15%表3.3 在缺失率在15%時(shí)對(duì)三種方法進(jìn)行模擬的值估計(jì)表all dataCCAIPWIMPBias-0.00237
47、0.12857-0.0369-0.11819Bias0.000940.001940.001520.00195Bias-0.00047-0.033960.001410.11563Std0.102130.118750.118510.11288Std0.056930.062970.065830.06093Std0.0.068130.071320.06718RMSE0.102100.174980.118510.16340RMSE0.056910.062970.065810.06093RMSE0.061090.076090.071300.13372從表中依然可以看出不論哪種方法填補(bǔ)都不會(huì)比原有真實(shí)數(shù)據(jù)更
48、優(yōu)秀,這表明了數(shù)據(jù)的真實(shí)性,Bias和RMSE越接近于0說明方法越好。在隨機(jī)缺失15%的機(jī)制下IPW逆概率加權(quán)法效果更好。對(duì)=300的樣本量執(zhí)行隨機(jī)缺失30%表3.4 在缺失率在30%時(shí)對(duì)三種方法進(jìn)行模擬的值估計(jì)表all dataCCAIPWIMPBias-0.002070.17245-0.00463-0.17357Bias0.001440.003060.002340.00175Bias0.00075-0.040330.001950.17087Std0.099480.122540.127570.11990Std0.057720.067240.071290.06649Std0.059090.07
49、0050.075430.06620RMSE0.099450.211530.127590.21092RMSE0.057710.067280.071290.06648RMSE0.059070.080800.075420.18323從表中可以看出不論哪種方法填補(bǔ)都不會(huì)比原有真實(shí)數(shù)據(jù)更優(yōu)秀,這體現(xiàn)了數(shù)據(jù)的真實(shí)性,模擬值越接近于0說明方法越好。在隨機(jī)缺失30%的機(jī)制下IPW逆概率加權(quán)法效果更好,更接近于原始數(shù)據(jù)。4 實(shí)例分析 4.1 數(shù)據(jù)來源請鍵入文字或網(wǎng)站地址,或者。Davis, James A. and Tom W. Smith. 1997. General Social Surveys, 1972
50、-1996: Chicago, IL: National Opinion Research Center producer. Ann Arbor, MI: Inter-university Consortium for Political and Social Research distributor.4.2 數(shù)據(jù)描述該數(shù)據(jù)集包括2,879受訪者對(duì)1994年社會(huì)總調(diào)查的反饋信息。其中調(diào)查了受訪者的年齡、學(xué)歷、性別對(duì)收入的影響。為了研究收入的變化趨勢及其成因,我們以居民收入作為因變量,分別以年齡、學(xué)歷、性別為影響居民收入的主要因素。1、表示年齡(age,隨機(jī)缺失,數(shù)值型)2、表示學(xué)歷(研究生、本科、高中等)3、表示性別,為分類變量(1為男性、0為女性)4、表示居民收入我們假設(shè)為MAR隨機(jī)缺失機(jī)制,具體數(shù)據(jù)詳見附錄。這里列舉部分?jǐn)?shù)據(jù)。表4.1 部分?jǐn)?shù)據(jù)表AgeEducFemaleIncome5120067.55312032.5NA16055581215.53812167.5818111.254.3 方法應(yīng)用及分析1、直接剔除法表4.2 直接剔除法運(yùn)行結(jié)果Call:lm(formula = y + + , weights = delta)EstimateStd.Errort val
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 雨季建筑施工防火措施探討
- 仁愛版七年級(jí)英語上冊教學(xué)計(jì)劃課堂管理技巧
- 展會(huì)消防設(shè)施維護(hù)合同
- 股權(quán)轉(zhuǎn)讓合同印花稅計(jì)算方法
- 反擔(dān)保法律合同細(xì)則
- 企業(yè)內(nèi)部合作經(jīng)營合同章程范本
- 合同貨物運(yùn)單(普通)辦理流程詳解
- 車輛報(bào)廢自愿合同:版
- 兼職審計(jì)崗位合同協(xié)議
- 商業(yè)租房押金合同
- 《消費(fèi)者心理與行為分析》第五版 課件全套 肖澗松 單元1-10 消費(fèi)者心理與行為概述 - 消費(fèi)者購買決策與購后行為
- 《會(huì)展概述》課件
- 體檢報(bào)告電子版
- 2024年中考語文真題分類匯編(全國版)專題12議論文閱讀(第01期)含答案及解析
- 七年級(jí)下冊心理健康教育教學(xué)設(shè)計(jì)
- 食堂清洗及消毒制度
- 服裝質(zhì)量管理制度
- 自然辯證法概論:第四章-馬克思主義科學(xué)技術(shù)社會(huì)論
- 會(huì)議會(huì)務(wù)服務(wù)投標(biāo)方案投標(biāo)文件(技術(shù)方案)
- 建筑工程質(zhì)量管理培訓(xùn)
- 華文版六年級(jí)上冊書法教案
評(píng)論
0/150
提交評(píng)論