造成數(shù)據(jù)缺失的原因_第1頁(yè)
造成數(shù)據(jù)缺失的原因_第2頁(yè)
造成數(shù)據(jù)缺失的原因_第3頁(yè)
造成數(shù)據(jù)缺失的原因_第4頁(yè)
造成數(shù)據(jù)缺失的原因_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、造成數(shù)據(jù)缺失的原因在各種實(shí)用的數(shù)據(jù)庫(kù)中,屬性值缺失的情況經(jīng)常發(fā)全甚至是不可避免的。因此,在大多數(shù)情況下,信息系統(tǒng)是不完備的,或者說(shuō)存在某種程度的不完備。造成數(shù)據(jù)缺失的原因是多方面的,主要可能有以下幾種:1 ) 有些信息暫時(shí)無(wú)法獲取。 例如在醫(yī)療數(shù)據(jù)庫(kù)中, 并非所有病人的所有臨床檢驗(yàn)結(jié)果都能在給定的時(shí)間內(nèi)得到,就致使一部分屬性值空缺出來(lái)。又如在申請(qǐng)表數(shù)據(jù)中,對(duì)某些問(wèn)題的反映依賴于對(duì)其他問(wèn)題的回答。2 ) 有些信息是被遺漏的。 可能是因?yàn)檩斎霑r(shí)認(rèn)為不重要、 忘記填寫了或?qū)?shù)據(jù)理解錯(cuò)誤而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原因而丟失了。3 ) 有些對(duì)象

2、的某個(gè)或某些屬性是不可用的。也就是說(shuō),對(duì)于這個(gè)對(duì)象來(lái)說(shuō),該屬性值是不存在的,如一個(gè)未婚者的配偶姓名、一個(gè)兒童的固定收入狀況等。4)有些信息(被認(rèn)為)是不重要的。如一個(gè)屬性的取值與給定語(yǔ)境是無(wú)關(guān)的,或訓(xùn)練數(shù)據(jù)庫(kù)的設(shè)計(jì)者并不在乎某個(gè)屬性的取值(稱為 dont-care value )。5)獲取這些信息的代價(jià)太大。6)系統(tǒng)實(shí)時(shí)性能要求較高,即要求得到這些信息前迅速做出判斷或決策。處理數(shù)據(jù)缺失的機(jī)制在對(duì)缺失數(shù)據(jù)進(jìn)行處理前,了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量(屬性)稱為完全變量, 數(shù)據(jù)集中含有缺失值的變量稱為不完全變量,缺失機(jī)制:little 和 rubin 定義了以下三種

3、不同的數(shù)據(jù)1)完全隨機(jī)缺失( missing completely at random , mcar )。數(shù)據(jù)的缺失與不完全變量以及完全變量都是無(wú)關(guān)的。2)隨機(jī)缺失( missing at random , mar )。數(shù)據(jù)的缺失僅僅依賴于完全變量。3)非隨機(jī)、不可忽略缺失( not missing at random,nmar , or nonignorable )。不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身,這種缺失是不可忽略的??罩嫡Z(yǔ)義對(duì)于某個(gè)對(duì)象的屬性值未知的情況,我們稱它在該屬性的取值為空值(null value) 。空值的來(lái)源有許多種,因此現(xiàn)實(shí)世界中的空值語(yǔ)義也比較復(fù)雜。總的說(shuō)來(lái),

4、可以把空值分成以下三類:1) 不存在型空值。即無(wú)法填入的值,或稱對(duì)象在該屬性上無(wú)法取值,如一個(gè)未婚者的配偶姓名等。2)存在型空值。即對(duì)象在該屬性上取值是存在的,但暫時(shí)無(wú)法知道。一旦對(duì)象在該屬性上的實(shí)際值被確知以后,人們就可以用相應(yīng)的實(shí)際值來(lái)取代原來(lái)的空值, 使信息趨于完全。 存在型空值是不確定性的一種表征, 該類空值的實(shí)際值在當(dāng)前是未知的。但它有確定性的一面, 諸如它的實(shí)際值確實(shí)存在, 總是落在一個(gè)人們可以確定的區(qū)間內(nèi)。 一般情況下,空值是指存在型空值。3)占位型空值。即無(wú)法確定是不存在型空值還是存在型空值,這要隨著時(shí)間的推移才能夠清楚,是最不確定的一類。這種空值除填充空位外,并不代表任何其他

5、信息??罩堤幚淼闹匾院蛷?fù)雜性數(shù)據(jù)缺失在許多研究領(lǐng)域都是一個(gè)復(fù)雜的問(wèn)題。對(duì)數(shù)據(jù)挖掘來(lái)說(shuō),空值的存在,造成了以下影響:首先,系統(tǒng)丟失了大量的有用信息;第二,系統(tǒng)中所表現(xiàn)出的不確定性更加顯著,系統(tǒng)中蘊(yùn)涵的確定性成分更難把握;第三,包含空值的數(shù)據(jù)會(huì)使挖掘過(guò)程陷入混亂,導(dǎo)致不可靠的輸出。數(shù)據(jù)挖掘算法本身更致力于避免數(shù)據(jù)過(guò)分適合所建的模型,這一特性使得它難以通過(guò)自身的算法去很好地處理不完整數(shù)據(jù)。因此,空缺的數(shù)據(jù)需要通過(guò)專門的方法進(jìn)行推導(dǎo)、填充等,以減少數(shù)據(jù)挖掘算法與實(shí)際應(yīng)用之間的差距??罩堤幚矸椒ǖ姆治霰容^處理不完備數(shù)據(jù)集的方法主要有以下三大類:(一)刪除元組也就是將存在遺漏信息屬性值的對(duì)象(元組,記錄

6、)刪除,從而得到一個(gè)完備的信息表。這種方法簡(jiǎn)單易行,在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的,類標(biāo)號(hào)(假設(shè)是分類任務(wù))缺少時(shí)通常使用。然而,這種方法卻有很大的局限性。它是以減少歷史數(shù)據(jù)來(lái)?yè)Q取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對(duì)象中的信息。 在信息表中本來(lái)包含的對(duì)象很少的情況下,刪除少量對(duì)象就足以嚴(yán)重影響到信息表信息的客觀性和結(jié)果的正確性; 當(dāng)每個(gè)屬性空值的百分比變化很大時(shí), 它的性能非常差。因此, 當(dāng)遺漏數(shù)據(jù)所占比例較大,特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí),這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯(cuò)誤的結(jié)論。(二)數(shù)據(jù)補(bǔ)齊這類方法

7、是用一定的值去填充空值,從而使信息表完備化。通?;诮y(tǒng)計(jì)學(xué)原理,根據(jù)決策表中其余對(duì)象取值的分布情況來(lái)對(duì)一個(gè)空值進(jìn)行填充, 譬如用其余屬性的平均值來(lái)進(jìn)行補(bǔ)充等。 數(shù)據(jù)挖掘中常用的有以下幾種補(bǔ)齊方法:(1) 人工填寫( filling manually )由于最了解數(shù)據(jù)的還是用戶自己, 因此這個(gè)方法產(chǎn)生數(shù)據(jù)偏離最小, 可能是填充效果最好的一種。然而一般來(lái)說(shuō),該方法很費(fèi)時(shí),當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時(shí)候,該方法是不可行的。(2) 特殊值填充( treating missing attribute values as special values )將空值作為一種特殊的屬性值來(lái)處理,它不同于其他的任何

8、屬性值。如所有的空值都用“unknown填充。這樣將形成另一個(gè)有趣的概念,可能導(dǎo)致嚴(yán)重的數(shù)據(jù)偏離,一般不推薦使用。(3)平均值填充( mean/mode completer )將信息表中的屬性分為數(shù)值屬性和非數(shù)值屬性來(lái)分別進(jìn)行處理。如果空值是數(shù)值型的,就根據(jù)該屬性在其他所有對(duì)象的取值的平均值來(lái)填充該缺失的屬性值; 如果空值是非數(shù)值型的, 就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理, 用該屬性在其他所有對(duì)象的取值次數(shù)最多的值(即出現(xiàn)頻率最高的值)來(lái)補(bǔ)齊該缺失的屬性值。 另外有一種與其相似的方法叫條件平均值填充法( conditional meancompleter)。在該方法中,缺失屬性值的補(bǔ)齊同樣是靠該屬性在其

9、他對(duì)象中的取值求平均得到,但不同的是用于求平均的值并不是從信息表所有對(duì)象中取, 而是從與該對(duì)象具有相同決策屬性值的對(duì)象中取得。 這兩種數(shù)據(jù)的補(bǔ)齊方法,其基本的出發(fā)點(diǎn)都是一樣的, 以最大概率可能的取值來(lái)補(bǔ)充缺失的屬性值, 只是在具體方法上有一點(diǎn)不同。 與其他方法相比,它是用現(xiàn)存數(shù)據(jù)的多數(shù)信息來(lái)推測(cè)缺失值。(4)熱卡填充( hot deck imputation ,或就近補(bǔ)齊)對(duì)于一個(gè)包含空值的對(duì)象,熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象,然后用這個(gè)相似對(duì)象的值來(lái)進(jìn)行填充。不同的問(wèn)題可能會(huì)選用不同的標(biāo)準(zhǔn)來(lái)對(duì)相似進(jìn)行判定。 該方法概念上很簡(jiǎn)單, 且利用了數(shù)據(jù)間的關(guān)系來(lái)進(jìn)行空值估計(jì)。這個(gè)方法的

10、缺點(diǎn)在于難以定義相似標(biāo)準(zhǔn),主觀因素較多。(5)k 最近距離鄰法( k-means clustering )先根據(jù)歐式距離或相關(guān)分析來(lái)確定距離具有缺失數(shù)據(jù)樣本最近的 k 個(gè)樣本,將這k 個(gè)值加權(quán)平均來(lái)估計(jì)該樣本的缺失數(shù)據(jù)。(6)使用所有可能的值填充( assigning all possible values of the attribute )這種方法是用空缺屬性值的所有可能的屬性取值來(lái)填充,能夠得到較好的補(bǔ)齊效果。但 是,當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值 較多時(shí),其計(jì)算的代價(jià)很大,可能的測(cè)試方案很多。另有一種方法,填補(bǔ)遺漏屬性值的原則是一樣的,不同的只是從決策相同的對(duì)象中嘗試所有的屬性值的可能情

11、況, 而不是根據(jù)信息表中所有對(duì)象進(jìn)行嘗試, 這樣能夠在一定程度上減小原方法的代價(jià)。(7)組合完整化方法( combinatorial completer )這種方法是用空缺屬性值的所有可能的屬性取值來(lái)試, 并從最終屬性的約簡(jiǎn)結(jié)果中選擇最好的一個(gè)作為填補(bǔ)的屬性值。這是以約簡(jiǎn)為目的的數(shù)據(jù)補(bǔ)齊方法, 能夠得到好的約簡(jiǎn)結(jié)果; 但是, 當(dāng)數(shù)據(jù)量很大或者遺漏的屬性值較多時(shí),其計(jì)算的代價(jià)很大。另一種稱為條件組合完整化方法( conditional combinatorial complete ),填補(bǔ)遺漏屬性值的原則是一樣的,不同的只是從決策相同的對(duì)象中嘗試所有的屬性值的可能情況, 而不是根據(jù)信息表中所有對(duì)

12、象進(jìn)行嘗試。 條件組合完整化方法能夠在一定程度上減小組合完整化方法的代價(jià)。在信息表包含不完整數(shù)據(jù)較多的情況下,可能的測(cè)試方案將巨增。(8) 回歸( regression)基于完整的數(shù)據(jù)集,建立回歸方程(模型)。對(duì)于包含空值的對(duì)象,將已知屬性值代入方程來(lái)估計(jì)未知屬性值,以此估計(jì)值來(lái)進(jìn)行填充。當(dāng)變量不是線性相關(guān)或預(yù)測(cè)變量高度相關(guān)時(shí)會(huì)導(dǎo)致有偏差的估計(jì)。(9) 期望值最大化方法( expectation maximization , em )em 算法是一種在不完全數(shù)據(jù)情況下計(jì)算極大似然估計(jì)或者后驗(yàn)分布的迭代算法43 。在每一迭代循環(huán)過(guò)程中交替執(zhí)行兩個(gè)步驟:e步(excepctaion step,期望

13、步),在給定完全數(shù)據(jù)和前一次迭代所得到的參數(shù)估計(jì)的情況下計(jì)算完全數(shù)據(jù)對(duì)應(yīng)的對(duì)數(shù)似然函數(shù)的條件期望; m 步( maximzation step ,極大化步),用極大化對(duì)數(shù)似然函數(shù)以確定參數(shù)的值,并用于下步的迭代。算法在e 步和 m步之間不斷迭代直至收斂, 即兩次迭代之間的參數(shù)變化小于一個(gè)預(yù)先給定的閾值時(shí)結(jié)束。 該方法可能會(huì)陷入局部極值,收斂速度也不是很快,并且計(jì)算很復(fù)雜。(10)多重填補(bǔ)(multiple imputation , mi )多重填補(bǔ)方法分為三個(gè)步驟:為每個(gè)空值產(chǎn)生一套可能的填補(bǔ)值,這些值反映了無(wú)響應(yīng)模型的不確定性;每個(gè)值都被用來(lái)填補(bǔ)數(shù)據(jù)集中的缺失值, 產(chǎn)生若干個(gè)完整數(shù)據(jù)集合。

14、每個(gè)填補(bǔ)數(shù)據(jù)集合都用針對(duì)完整數(shù)據(jù)集的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì)分析。對(duì)來(lái)自各個(gè)填補(bǔ)數(shù)據(jù)集的結(jié)果進(jìn)行綜合, 產(chǎn)生最終的統(tǒng)計(jì)推斷, 這一推斷考慮到了由于數(shù)據(jù)填補(bǔ)而產(chǎn)生的不確定性。該方法將空缺值視為隨機(jī)樣本, 這樣計(jì)算出來(lái)的統(tǒng)計(jì)推斷可能受到空缺值的不確定性的影響。 該方法的計(jì)算也很復(fù)雜。(11)c4.5 方法通過(guò)尋找屬性間的關(guān)系來(lái)對(duì)遺失值填充。它尋找之間具有最大相關(guān)性的兩個(gè)屬性,其中沒有遺失值的一個(gè)稱為代理屬性,另一個(gè)稱為原始屬性, 用代理屬性決定原始屬性中的遺失值。 這種基于規(guī)則歸納的方法只能處理基數(shù)較小的名詞型屬性。就幾種基于統(tǒng)計(jì)的方法而言,刪除元組法和平均值法差于 hot deck、 em 和 mi ;

15、回歸是比較好的一種方法,但仍比不上hotdeck 和 em ; em 缺少 mi 包含的不確定成分。值得注意的是,這些方法直接處理的是模型參數(shù)的估計(jì)而不是空缺值預(yù)測(cè)本身。它們合適于處理無(wú)監(jiān)督學(xué)習(xí)的問(wèn)題,而對(duì)有監(jiān)督學(xué)習(xí)來(lái)說(shuō), 情況就不盡相同了。 譬如,你可以刪除包含空值的對(duì)象用完整的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,但預(yù)測(cè)時(shí)你卻不能忽略包含空值的對(duì)象。另外, c4.5 和使用所有可能的值填充方法也有較好的補(bǔ)齊效果,人工填寫和特殊值填充則是一般不推薦使用的。補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀估計(jì)值,不一定完全符合客觀事實(shí),在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng)。 而且, 對(duì)空值不正確

16、的填充往往將新的噪聲引入數(shù)據(jù)中, 使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果。因此,在許多情況下, 我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理。 這就是第三種方法:(三)不處理直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。這類方法包括貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。貝葉斯網(wǎng)絡(luò)是用來(lái)表示變量間連接概率的圖形模式, 它提供了一種自然的表示因果信息的方法,用來(lái)發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系。在這個(gè)網(wǎng)絡(luò)中,用節(jié)點(diǎn)表示變量, 有向邊表示變量間的依賴關(guān)系。貝葉斯網(wǎng)絡(luò)僅適合于對(duì) 領(lǐng)域知識(shí)具有一定了解的情況,至少對(duì) 變量間的依賴關(guān)系較清楚的情況。否則直接從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)不但復(fù)雜性較高 (隨著變量的增加,指數(shù)級(jí)增加),網(wǎng)絡(luò)維護(hù)代價(jià)昂貴, 而且它的估計(jì)參數(shù)較多, 為系統(tǒng)帶來(lái)了高方差,影響了它的預(yù)測(cè)精度。 當(dāng)在任何一個(gè)對(duì)象中的缺失值數(shù)量很大時(shí),存在指數(shù)爆炸的危險(xiǎn)。人工神經(jīng)網(wǎng)絡(luò)可以有效的對(duì)付空值, 但人工神經(jīng)網(wǎng)絡(luò)在這方面的研究還有待進(jìn)一步深入展開。人工神經(jīng)網(wǎng)絡(luò)方法在數(shù)據(jù)挖掘應(yīng)用中的局限性,本文在2.1.5 節(jié)中已經(jīng)進(jìn)行了闡述,這里就不再介紹了。總結(jié):大多數(shù)數(shù)據(jù)挖掘系統(tǒng)都是在數(shù)據(jù)挖掘之前的數(shù)據(jù)預(yù)處理階段采用第一、 第

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論