版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘流程大數(shù)據(jù)應(yīng)用基礎(chǔ)——第三次課魏煒weiwei@數(shù)據(jù)挖掘流程大數(shù)據(jù)應(yīng)用基礎(chǔ)——第三次課1數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評(píng)估4信息收集31數(shù)據(jù)挖掘33知識(shí)表示35數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評(píng)估4信息收集31數(shù)據(jù)挖掘332數(shù)據(jù)挖掘的基本流程數(shù)據(jù)挖掘的基本流程3高度重視以下同義詞以下術(shù)語(yǔ)大致是同一個(gè)意思:表格中的行:個(gè)案=實(shí)例=記錄=樣本點(diǎn)=數(shù)據(jù)點(diǎn)表格中的列:屬性=特征=字段=維度=預(yù)測(cè)變量=自變量高度重視以下同義詞以下術(shù)語(yǔ)大致是同一個(gè)意思:4數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理5數(shù)據(jù)預(yù)處理的步驟主要包括:數(shù)據(jù)集成數(shù)據(jù)清理數(shù)據(jù)歸約(抽樣和屬性篩選)數(shù)據(jù)變換。數(shù)據(jù)預(yù)處理的步驟主要包括:6數(shù)據(jù)質(zhì)量有很多方面問(wèn)題數(shù)據(jù)質(zhì)量有很多方面問(wèn)題7數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在一半甚至60%以上!這些工作對(duì)提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性是必不可少的。因?yàn)?,沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果。數(shù)據(jù)挖掘出現(xiàn)錯(cuò)誤結(jié)果多半是由數(shù)據(jù)源的質(zhì)量引起的。因此應(yīng)該重視原始數(shù)據(jù)的質(zhì)量,從源頭上減少錯(cuò)誤和誤差,尤其是減少人為誤差。數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在一半甚8數(shù)據(jù)準(zhǔn)備的重要性數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在60%以上!數(shù)據(jù)準(zhǔn)備的重要性數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在60%以上!9數(shù)據(jù)集成數(shù)據(jù)挖掘或統(tǒng)計(jì)分析可能用到來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),我們需要將這些數(shù)據(jù)集成在一起。如果只有一個(gè)數(shù)據(jù)源,這一步可以省略。數(shù)據(jù)集成數(shù)據(jù)挖掘或統(tǒng)計(jì)分析可能用到來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),我們10數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題一個(gè)重要問(wèn)題是實(shí)體識(shí)別問(wèn)題:在不同的數(shù)據(jù)源中,相同的字段也許有不同的名稱。我們需要識(shí)別數(shù)據(jù)中能唯一標(biāo)識(shí)實(shí)體的字段。我們?cè)趺茨艽_定一個(gè)數(shù)據(jù)源中的customer_id和另一個(gè)數(shù)據(jù)源中的customer_number指的是同一個(gè)字段呢?這里我們可以利用字段的元數(shù)據(jù)信息,例如含義、數(shù)據(jù)類型、字段允許值的范圍等,從而避免在數(shù)據(jù)集成時(shí)出錯(cuò)。如果我們確定這兩個(gè)字段是一致的,那么我們就能夠把標(biāo)識(shí)相同的客戶當(dāng)作同一個(gè)客戶。數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題一個(gè)重要問(wèn)題是實(shí)體識(shí)別問(wèn)題:在不同的11數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題對(duì)于互聯(lián)網(wǎng)企業(yè)來(lái)說(shuō),一個(gè)需要注意的重要問(wèn)題是如何能把PC端用戶、手機(jī)端用戶給對(duì)應(yīng)起來(lái)。也就是說(shuō),如何能保證,用戶在不同設(shè)備上登錄你的網(wǎng)站時(shí)的訪問(wèn)記錄都能匯總到一起,而不是把這些訪問(wèn)記錄當(dāng)做是多個(gè)不同用戶的訪問(wèn)記錄。數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題對(duì)于互聯(lián)網(wǎng)企業(yè)來(lái)說(shuō),一個(gè)需要注意的重12數(shù)據(jù)集成中屬性值不一致的問(wèn)題同一個(gè)人的名字可能在一個(gè)數(shù)據(jù)庫(kù)中登記為“王思聰”,在另一個(gè)數(shù)據(jù)庫(kù)中則登記為“SicongWang”。數(shù)據(jù)集成中屬性值不一致的問(wèn)題同一個(gè)人的名字可能在一個(gè)數(shù)據(jù)庫(kù)中13數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題對(duì)同一個(gè)實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能是不同的。原因可能是各個(gè)數(shù)據(jù)源往往以不同的方式表示相同的數(shù)據(jù),或采用不同的度量等。例如,不同數(shù)據(jù)源中日期的格式不同。日期有時(shí)是一個(gè)數(shù)值;有時(shí)是以“XXXX年X月X日”的字符串格式存儲(chǔ);有時(shí)以“YY/MM/DD”的字符串格式存儲(chǔ)。又例如,對(duì)同一個(gè)省份可能用了不同的名稱。還有,同一個(gè)名字的屬性sales,在一個(gè)數(shù)據(jù)庫(kù)中是指一個(gè)區(qū)域的銷量,在另一個(gè)數(shù)據(jù)庫(kù)中可能是指一個(gè)分店的銷量。數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題對(duì)同一個(gè)實(shí)體,來(lái)自不同數(shù)據(jù)源14數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題重量在一個(gè)數(shù)據(jù)源中的單位可能是千克;在另一處則是斤。一種度量另一種度量數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題重量在一個(gè)數(shù)據(jù)源中的單位可能15數(shù)據(jù)集成中的屬性冗余問(wèn)題一個(gè)屬性可能能由另一個(gè)或一組屬性導(dǎo)出。有些冗余可以被相關(guān)分析檢測(cè)到。我們通過(guò)相關(guān)系數(shù)或卡方檢驗(yàn)了解兩個(gè)屬性是否是統(tǒng)計(jì)相關(guān)的。數(shù)據(jù)集成中的屬性冗余問(wèn)題一個(gè)屬性可能能由另一個(gè)或一組屬性導(dǎo)出16數(shù)據(jù)探索在數(shù)據(jù)集成后,需要數(shù)據(jù)探索(dataexploring)。這個(gè)步驟不是數(shù)據(jù)預(yù)處理,但對(duì)數(shù)據(jù)預(yù)處理很重要。幾乎很少有現(xiàn)成的數(shù)據(jù)能直接使用。數(shù)據(jù)總是看上去不整潔,例如有臟數(shù)據(jù)、缺失值等。怎樣能知道數(shù)據(jù)的質(zhì)量呢?你需要把自己沉浸在數(shù)據(jù)中,進(jìn)行數(shù)據(jù)探索,從而了解數(shù)據(jù)質(zhì)量。數(shù)據(jù)探索在數(shù)據(jù)集成后,需要數(shù)據(jù)探索(dataexplori17數(shù)據(jù)探索的方法在R中的summary(變量名)這種指令(在其他軟件中有類似指令)能提供諸多基本統(tǒng)計(jì)信息。比如:每個(gè)變量的值域區(qū)間(最大值和最小值)是否合理?所有的值都落在期望的區(qū)間內(nèi)嗎?平均值與中位數(shù)是相等的還是差別很大(這有助于說(shuō)明變量是否符合正態(tài)分布)?數(shù)據(jù)是對(duì)稱的還是傾斜的。每個(gè)變量的標(biāo)準(zhǔn)差是多少?(遠(yuǎn)離屬性的均值超過(guò)兩個(gè)或三個(gè)標(biāo)準(zhǔn)差的值可能是離群點(diǎn))有多少缺失值?數(shù)據(jù)探索的方法在R中的summary(變量名)這種指令(在其18直方圖箱圖箱圖散點(diǎn)圖通過(guò)直方圖,能觀察連續(xù)型變量的分布是否接近正態(tài)分布。對(duì)于離散型變量,則可以用頻次分析。通過(guò)箱圖,能觀察到離群值,比如識(shí)別出觀測(cè)值特別高的個(gè)案。通過(guò)散點(diǎn)圖,能了解屬性之間是否有相關(guān)性。直方圖箱圖箱圖散點(diǎn)圖通過(guò)直方圖,能觀察連續(xù)型變量的分布是否接19數(shù)據(jù)清理(數(shù)據(jù)預(yù)處理)“數(shù)據(jù)的重要程度大過(guò)算法本身!”無(wú)論專家多有經(jīng)驗(yàn),無(wú)論算法再完美,也不可能從一堆垃圾中發(fā)現(xiàn)寶石。人們往往沒(méi)有那么好的運(yùn)氣,有現(xiàn)成的質(zhì)量好的數(shù)據(jù)可以直接用。現(xiàn)實(shí)世界的數(shù)據(jù)是“雜亂的”,其中總是有這樣或那樣的問(wèn)題?!敖?jīng)常保持對(duì)客戶數(shù)據(jù)的懷疑之心!”“所有的數(shù)據(jù)都是臟的”例如,有些數(shù)據(jù)是缺失的(屬性的值是空值),有些是含噪聲的(屬性的值是錯(cuò)誤的,或有孤立點(diǎn)數(shù)據(jù)),有時(shí)同樣的信息采用了多種不同的表示方式(在編碼或命名上存在不一致)。數(shù)據(jù)清理(數(shù)據(jù)預(yù)處理)“數(shù)據(jù)的重要程度大過(guò)算法本身!”20數(shù)據(jù)清理對(duì)于在商業(yè)中比較重要的字段,系統(tǒng)開(kāi)發(fā)者和系統(tǒng)使用者會(huì)盡量確保其正確性。然而,對(duì)于在商業(yè)中不太重要的字段,人們往往不太重視確保其質(zhì)量。通過(guò)數(shù)據(jù)清理,可以確保存入數(shù)據(jù)倉(cāng)庫(kù)中的信息是完整、正確和格式一致的。如果數(shù)據(jù)有誤,那么所得到的結(jié)果很可能有誤導(dǎo)性。但是,數(shù)據(jù)挖掘者不應(yīng)該太挑剔,因?yàn)槲覀兺荒艿玫劫|(zhì)量不好的數(shù)據(jù)。數(shù)據(jù)清理對(duì)于在商業(yè)中比較重要的字段,系統(tǒng)開(kāi)發(fā)者和系統(tǒng)使用者會(huì)21數(shù)據(jù)清理如果你的企業(yè)中有數(shù)據(jù)倉(cāng)庫(kù),應(yīng)弄清楚這些數(shù)據(jù)是怎樣收集的,這對(duì)理解數(shù)據(jù)質(zhì)量很重要。至少應(yīng)該知道每個(gè)字段取值來(lái)自哪里、合理的取值的范圍、為什么會(huì)有缺失值等。這對(duì)數(shù)據(jù)清理很有幫助。數(shù)據(jù)清理如果你的企業(yè)中有數(shù)據(jù)倉(cāng)庫(kù),應(yīng)弄清楚這些數(shù)據(jù)是怎樣收集22數(shù)據(jù)清理數(shù)據(jù)清理也叫數(shù)據(jù)清洗。這一步主要針對(duì)缺失值、數(shù)據(jù)噪聲、離群值。數(shù)據(jù)清理數(shù)據(jù)清理也叫數(shù)據(jù)清洗。23缺失值缺失值很常見(jiàn)。例如,在銷售表中的顧客信息當(dāng)中,也許除了名字外,其他各個(gè)屬性都有缺失值。我們尤其不希望重要屬性存在缺失值。缺失值缺失值很常見(jiàn)。例如,在銷售表中的顧客信息當(dāng)中,也許除了24缺失值的成因分析師首先應(yīng)該了解數(shù)據(jù)缺失的原因。只有知道具體缺失原因后,才能有的放矢。產(chǎn)生缺失值的原因很多,可能是:這些數(shù)據(jù)并沒(méi)被記錄下來(lái);測(cè)量設(shè)備出現(xiàn)故障;對(duì)數(shù)據(jù)錯(cuò)誤地更新導(dǎo)致某些字段信息丟失;被測(cè)量的對(duì)象(頭蓋骨或植物)損壞或死亡了。有時(shí),還沒(méi)來(lái)得及提供屬性值。缺失值的成因分析師首先應(yīng)該了解數(shù)據(jù)缺失的原因。只有知道具體缺25缺失值的成因有時(shí),當(dāng)你從外部數(shù)據(jù)源中追加人口統(tǒng)計(jì)信息到客戶信息中時(shí),你沒(méi)能找到一部分客戶的此類信息。很多時(shí)候,最初收集數(shù)據(jù)時(shí),有些變量被認(rèn)為不太重要,因此留下空白。例如,銀行并不特別需要知道客戶的年齡,所以年齡變量會(huì)存在許多缺失值。“被掩蓋的缺失值”:有時(shí),用戶不希望提交個(gè)人信息,就會(huì)故意向字段輸入不正確的值(例如把生日設(shè)置為1月1日)。一個(gè)類似的例子是,數(shù)據(jù)中很多客戶在1911年出生。為什么呢?其實(shí)因?yàn)閿?shù)據(jù)輸入界面堅(jiān)持要出生日期。因此客服人員在不知道這個(gè)日期時(shí),就會(huì)鍵入6個(gè)“1”,從而輸入1911年11月11日。缺失值的成因有時(shí),當(dāng)你從外部數(shù)據(jù)源中追加人口統(tǒng)計(jì)信息到客戶信26缺失值的處理方法處理方式有多種:有些有缺失值的變量實(shí)際上并不需要處理,因?yàn)槟闫鋵?shí)知道缺失值的實(shí)際值是什么。刪除缺失值較多(例如20%以上的屬性都存在缺失值)的個(gè)案(即記錄、行、實(shí)例、元組),尤其是關(guān)鍵的屬性值缺失的個(gè)案。剔除所有含有缺失值的個(gè)案。此法適于有缺失值的個(gè)案的數(shù)量占比很小的情況下。此法操作簡(jiǎn)單方便,而且留下來(lái)的數(shù)據(jù)全是有完整記錄的,數(shù)據(jù)很干凈。但是,丟棄所有包含缺失值的個(gè)案可能會(huì)引入偏差,因?yàn)檫@些個(gè)案不一定是隨機(jī)分布的。刪除有大量缺失值的變量。此法適于那些缺失值占比(例如超過(guò)20%)較大的變量。對(duì)于缺失值占比超過(guò)50%的變量,則一般建議刪除。缺失值的處理方法處理方式有多種:27缺失值的處理方法人工填寫缺失值。此法工作量大,對(duì)于海量數(shù)據(jù)可行性極低。使用屬性的中心度量來(lái)填充。此類指標(biāo)有平均值、中位數(shù)、眾數(shù)等。對(duì)于接近正態(tài)分布的變量來(lái)說(shuō),平均值是最佳選擇;然而,對(duì)于偏態(tài)分布的變量來(lái)說(shuō),中位數(shù)是更好的指標(biāo)。此種方法偏差大,因?yàn)檫@種替換畢竟是人為的替換,屬于“不得已而為之”的策略。但其簡(jiǎn)單、速度快,適用于大數(shù)據(jù)集。使用與給定個(gè)案同類的樣本的屬性的中心度量來(lái)填充。此法與上一種方法類似。例:把顧客按信用風(fēng)險(xiǎn)程度分類,則用具有相同信用風(fēng)險(xiǎn)的顧客的平均收入或收入中位數(shù)來(lái)替換收入中的缺失值。缺失值的處理方法人工填寫缺失值。此法工作量大,對(duì)于海量數(shù)據(jù)可28缺失值的處理方法通過(guò)兩個(gè)變量之間的相關(guān)關(guān)系來(lái)填充。如果兩個(gè)變量之間的相關(guān)系數(shù)足夠高(例如大于0.9),我們可以找到兩者之間的線性相關(guān)關(guān)系模型(一個(gè)公式)。我們可以通過(guò)這個(gè)公式來(lái)計(jì)算出一個(gè)值,用于填充缺失值。通過(guò)個(gè)案之間的相似性來(lái)填充。此法假定如果兩個(gè)個(gè)案是相似的,那么其中一個(gè)個(gè)案在某變量上的缺失值很可能與另一個(gè)個(gè)案在這個(gè)變量上的值是相似的。最常用的相似性度量指標(biāo)是歐式距離。我們可以用歐式距離來(lái)找到與含缺失值的個(gè)案最相似的10個(gè)個(gè)案,用它們的中位數(shù)或均值來(lái)填充缺失值。缺失值的處理方法通過(guò)兩個(gè)變量之間的相關(guān)關(guān)系來(lái)填充。如果兩個(gè)變29缺失值的處理方法對(duì)缺失值進(jìn)行賦值(Imputation)。此法通過(guò)回歸模型、決策樹、貝葉斯定理等去預(yù)測(cè)缺失值的最近似的替代值。也就是把缺失數(shù)據(jù)所對(duì)應(yīng)的變量當(dāng)做目標(biāo)變量,把其他的輸入變量作為自變量,為每個(gè)有缺失值的字段分別建立預(yù)測(cè)模型。這種方法最嚴(yán)謹(jǐn),但是成本較高。還有一種辦法,是在不同的數(shù)據(jù)上建立多個(gè)模型。例如,對(duì)某幾個(gè)變量沒(méi)缺失值的客戶建立一個(gè)模型,而對(duì)這幾個(gè)變量有缺失值的客戶建立另一個(gè)模型。缺失值的處理方法對(duì)缺失值進(jìn)行賦值(Imputation)。此30數(shù)據(jù)噪聲噪聲數(shù)據(jù),即數(shù)據(jù)值錯(cuò)誤,不能反映真實(shí)的值。數(shù)據(jù)噪聲太多,會(huì)導(dǎo)致數(shù)據(jù)價(jià)值大大降低。產(chǎn)生原因可能是:人們?cè)谳斎雮€(gè)人數(shù)據(jù)時(shí)常常會(huì)故意制造一些錯(cuò)誤;人們?cè)谳斎胭Y料時(shí)操作失誤;在互聯(lián)網(wǎng)營(yíng)銷中,存在大量虛假的應(yīng)用下載和使用,以及虛假的好評(píng)差評(píng);數(shù)據(jù)收集的設(shè)備不穩(wěn)定;數(shù)據(jù)轉(zhuǎn)化時(shí)存在邏輯錯(cuò)誤;有時(shí),數(shù)據(jù)過(guò)時(shí)了(例如地址過(guò)時(shí))。數(shù)據(jù)噪聲噪聲數(shù)據(jù),即數(shù)據(jù)值錯(cuò)誤,不能反映真實(shí)的值。31識(shí)別數(shù)據(jù)噪聲還好,噪聲數(shù)據(jù)都是少數(shù)!通過(guò)數(shù)據(jù)探索,能很容易發(fā)現(xiàn)噪聲數(shù)據(jù)。比如,在直方圖中,某些值出現(xiàn)的頻率非常少,我們就要懷疑這樣的數(shù)據(jù)是否合理。識(shí)別數(shù)據(jù)噪聲還好,噪聲數(shù)據(jù)都是少數(shù)!32處理數(shù)據(jù)噪聲對(duì)噪聲數(shù)據(jù),我們的處理辦法有:最廣泛應(yīng)用的處理方式是數(shù)據(jù)平滑(Smoothing)。最常用的數(shù)據(jù)平滑方法是分箱技術(shù),此法稍后在數(shù)據(jù)轉(zhuǎn)換中會(huì)介紹。其他平滑方法還有:基于時(shí)間序列分析,根據(jù)前一段歷史趨勢(shì)數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)進(jìn)行修正。刪除帶有錯(cuò)誤的個(gè)案。處理數(shù)據(jù)噪聲對(duì)噪聲數(shù)據(jù),我們的處理辦法有:33識(shí)別異常個(gè)案對(duì)于多維數(shù)據(jù),異常個(gè)案的識(shí)別可以通過(guò)聚類技術(shù)。異常個(gè)案(孤立點(diǎn)、離群點(diǎn)、outlier)跟噪聲數(shù)據(jù)不完全是一回事。離群點(diǎn)能從表象上判別出來(lái),而噪聲則是隨機(jī)的、取值是沒(méi)有規(guī)律的。噪聲的取值不一定看起來(lái)異常;而離群點(diǎn)雖然取值異常,但不一定都是噪聲。對(duì)于取值正常的噪聲點(diǎn),我們還沒(méi)辦法檢測(cè)。可以選取一些字段來(lái)對(duì)個(gè)案進(jìn)行聚類。從而識(shí)別出異常程度較高的個(gè)案,即落在簇集合之外的個(gè)案。識(shí)別異常個(gè)案對(duì)于多維數(shù)據(jù),異常個(gè)案的識(shí)別可以通過(guò)聚類技術(shù)。34處理異常個(gè)案特別要注意的是,這些數(shù)據(jù)點(diǎn)不一定是噪聲。我們要從中剔除真正不正常的數(shù)據(jù),而保留看起來(lái)不正常,但實(shí)際上真實(shí)的數(shù)據(jù)。有時(shí),這些并非噪聲的異常點(diǎn)包含著重要的信息,例如信用卡用戶惡意欺詐檢測(cè)就需要保留異常點(diǎn)。處理離群點(diǎn)的另一種辦法是對(duì)變量進(jìn)行標(biāo)準(zhǔn)化,從而縮小值域。對(duì)于時(shí)間序列數(shù)據(jù)和空間數(shù)據(jù),則采用其他方法進(jìn)行異常點(diǎn)的檢測(cè)。處理異常個(gè)案特別要注意的是,這些數(shù)據(jù)點(diǎn)不一定是噪聲。我們要從35識(shí)別異常值除了上述辦法,還可以僅憑單個(gè)變量所提供的信息來(lái)識(shí)別異常值。對(duì)于異常值,處理辦法是:一般建議剔除。此外,在聚類分析中,可以采用隨機(jī)抽樣。這樣,作為稀有事件的數(shù)據(jù)噪聲和異常值能被抽進(jìn)樣本的概率會(huì)很小,這樣樣本就比較干凈。判斷方法如下:對(duì)于類別型變量,是否某個(gè)類別出現(xiàn)的次數(shù)太少、太稀有?比如其占比不到1%。對(duì)于數(shù)值型變量,是否某些取值太大?比如,一般的客戶平均每天買2次,而某幾個(gè)客戶每天買100次。又如,年齡為140歲無(wú)疑是個(gè)異常值。識(shí)別異常值除了上述辦法,還可以僅憑單個(gè)變量所提供的信息來(lái)識(shí)別36重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)主要有兩種:個(gè)案可能會(huì)重復(fù)。比如,輸入數(shù)據(jù)時(shí),意外地多次輸入了同一個(gè)個(gè)案。屬性也可能會(huì)冗余。在集成多個(gè)數(shù)據(jù)庫(kù)時(shí),同一個(gè)屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名(例如birthday和生日),這時(shí)我們只要保留其中一個(gè)字段就可以。這種冗余通常在數(shù)據(jù)集成的步驟中就解決了。重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)主要有兩種:37數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、Datatransformation)主要是利用現(xiàn)有的字段進(jìn)行運(yùn)算來(lái)得到新的字段。通常說(shuō)到數(shù)據(jù)變換,包括四種:數(shù)據(jù)離散化(采用分箱等方式)、產(chǎn)生衍生變量、使變量分布更接近正態(tài)分布、數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、Datatransforma38數(shù)據(jù)轉(zhuǎn)換——離散化如果對(duì)連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。這樣就不需要符合正態(tài)分布了。數(shù)據(jù)轉(zhuǎn)換——離散化如果對(duì)連續(xù)變量進(jìn)行離散化,可以避免引入任何39數(shù)據(jù)轉(zhuǎn)換——離散化數(shù)據(jù)分箱(Binning)是對(duì)連續(xù)數(shù)據(jù)進(jìn)行離散化、增加粒度的主要辦法,這是一種很典型的數(shù)據(jù)變換。它把一個(gè)連續(xù)性的數(shù)值字段根據(jù)其值分組,轉(zhuǎn)換成一個(gè)擁有幾個(gè)不同類別的字段。分箱的主要目的是去除噪聲。具體取值方式有:按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。舉例:假設(shè)有8、24、15、41、7、10、18、67、25等9個(gè)數(shù),分為3箱。箱1:8、24、15箱2:41、7、10箱3:18、67、25按箱平均值求得平滑數(shù)據(jù)值:箱1:16、16、16,平均值是16,這樣該箱中的每一個(gè)值被替換為16。其他兩個(gè)箱與此類似。數(shù)據(jù)轉(zhuǎn)換——離散化數(shù)據(jù)分箱(Binning)是對(duì)連續(xù)數(shù)據(jù)進(jìn)行40數(shù)據(jù)轉(zhuǎn)換——離散化對(duì)于決策樹算法,往往需要對(duì)連續(xù)變量進(jìn)行離散化,從而使輸出的決策樹通俗易懂。具體辦法可以是:把各屬性所在區(qū)間平均分成8份,每一份對(duì)應(yīng)1個(gè)離散值。數(shù)據(jù)轉(zhuǎn)換——離散化對(duì)于決策樹算法,往往需要對(duì)連續(xù)變量進(jìn)行離散41數(shù)據(jù)轉(zhuǎn)換——產(chǎn)生衍生變量具體有兩種:把非數(shù)值型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型。例如:把“男”轉(zhuǎn)換成1,“女”轉(zhuǎn)換成0;根據(jù)用戶出生年月日得到其當(dāng)前的年齡。采用簡(jiǎn)單的數(shù)學(xué)公式,產(chǎn)生更加有商業(yè)意義的衍生變量。主要有均值、占比、比率等種類。例如家庭人均年收入、用戶年均消費(fèi)金額。分析人員常常容易從現(xiàn)有的數(shù)據(jù)庫(kù)中直接提取現(xiàn)成的字段,而經(jīng)常忘記一些衍生的新字段,這需要有業(yè)務(wù)知識(shí)來(lái)支持。數(shù)據(jù)轉(zhuǎn)換——產(chǎn)生衍生變量具體有兩種:42數(shù)據(jù)轉(zhuǎn)換——使變量分布更接近正態(tài)分布最常見(jiàn)的改善變量分布的轉(zhuǎn)換方法是對(duì)變量取對(duì)數(shù)(takelog)。在實(shí)踐中,很多數(shù)值型變量的分布都偏斜、不對(duì)稱,這會(huì)干擾模型的擬合,影響變量的預(yù)測(cè)性能。此種轉(zhuǎn)換和分箱有異曲同工之處,都具有提高變量的預(yù)測(cè)能力,強(qiáng)化自變量與因變量的關(guān)系,從而提高預(yù)測(cè)模型的擬合效果。因此,在實(shí)踐中,經(jīng)常對(duì)這兩種方式分別進(jìn)行嘗試,采用其中的一種。不過(guò),這種非線性轉(zhuǎn)換的含義缺少清晰的商業(yè)邏輯,商業(yè)應(yīng)用者可能不太能理解。數(shù)據(jù)轉(zhuǎn)換——使變量分布更接近正態(tài)分布最常見(jiàn)的改善變量分布的轉(zhuǎn)43數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(Datarescale、規(guī)范化):是把區(qū)間較大的數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的區(qū)間中,比如0~1或-1~1。標(biāo)準(zhǔn)化可以提高涉及距離度量的算法的準(zhǔn)確率和效率。比如,當(dāng)創(chuàng)建一個(gè)聚類模型時(shí),我們需要確保所有字段都有近似的標(biāo)度。標(biāo)準(zhǔn)化能夠避免出現(xiàn)聚類結(jié)果完全由某個(gè)具有很大變化范圍的屬性主導(dǎo)的情況。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(Datarescale、規(guī)范化):是44數(shù)據(jù)標(biāo)準(zhǔn)化最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種:標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(Z-score
transformation、零均值法、Zero-meannormalization)。經(jīng)過(guò)這種方法處理后的變量符合標(biāo)準(zhǔn)正態(tài)分布,均值為0,標(biāo)準(zhǔn)差為1。最小最大值法(Min/Maxtransformation、Min-Max標(biāo)準(zhǔn)化)能把各變量的值歸一化到[0,1]范圍之內(nèi)。數(shù)據(jù)標(biāo)準(zhǔn)化最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種:45數(shù)據(jù)歸約數(shù)據(jù)歸約屬于數(shù)據(jù)預(yù)處理,但不屬于數(shù)據(jù)清理。這一步也叫數(shù)據(jù)簡(jiǎn)化。數(shù)據(jù)歸約(datareduction):在保持?jǐn)?shù)據(jù)的完整性的前提下,把需要分析的數(shù)據(jù)量大幅減小,從而加快算法運(yùn)行速度,但能夠產(chǎn)生幾乎同樣質(zhì)量的分析結(jié)果。包括兩類:屬性篩選和數(shù)據(jù)歸約。數(shù)據(jù)歸約數(shù)據(jù)歸約屬于數(shù)據(jù)預(yù)處理,但不屬于數(shù)據(jù)清理。這一步也叫46數(shù)據(jù)歸約——抽樣抽樣可看作數(shù)據(jù)歸約(numerosityreduction)的一種。抽樣的主要原因是如果數(shù)據(jù)全集的規(guī)模太大,運(yùn)算資源的消耗會(huì)很大,而且運(yùn)算時(shí)間很長(zhǎng)。另一個(gè)常見(jiàn)原因是:在很多小概率、稀有事件(例如信用卡欺詐)的預(yù)測(cè)建模中,如果按原始數(shù)據(jù)來(lái)分析,是很難得到有意義的預(yù)測(cè)的。因此,需要人為增加樣本中稀有事件的濃度和在樣本中的占比。抽樣需要注意盡量保持樣本和總體的一致性。例如樣本中變量的值域和分布、缺失值的分布都應(yīng)該與總體盡量高度相似。盡量采用簡(jiǎn)單隨機(jī)抽樣或分層隨機(jī)抽樣。否則可能會(huì)有樣本偏差(samplebias)。數(shù)據(jù)歸約——抽樣抽樣可看作數(shù)據(jù)歸約(numerosityr47數(shù)據(jù)歸約——不平衡數(shù)據(jù)的抽樣在不平衡數(shù)據(jù)中,兩組群體的成員數(shù)量相差甚遠(yuǎn),例如對(duì)直郵促銷做出響應(yīng)者比無(wú)響應(yīng)者少很多、信用卡欺詐者比正常的信用卡持有者少很多、流失可衡山的數(shù)量往往只有非流失客戶數(shù)量的百分之幾甚至千分之幾。如果兩組群體的成員數(shù)量大致相當(dāng),分類算法的性能最好。對(duì)于偏斜數(shù)據(jù),在抽樣方面,通常可以采取幾種辦法使得兩組群體占比更為平衡:最常用的一種是對(duì)占比較少的實(shí)例進(jìn)行過(guò)抽樣(oversampling)。其他方法有:對(duì)占比較多的實(shí)例進(jìn)行欠抽樣,從而得到一個(gè)雖然較小、但是更平衡的樣本;添加一個(gè)加權(quán)因子,讓常見(jiàn)組的成員的權(quán)重小于罕見(jiàn)組的成員的權(quán)重。這樣抽樣之后,預(yù)測(cè)模型的效果往往更好。數(shù)據(jù)歸約——不平衡數(shù)據(jù)的抽樣在不平衡數(shù)據(jù)中,兩組群體的成員數(shù)48數(shù)據(jù)歸約——屬性篩選在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)歸約主要是維度歸約(dimensionalityreduction),即特征歸約、變量篩選。也就是把多維數(shù)據(jù)壓縮成較少維度的數(shù)據(jù)。這就需要進(jìn)行特征選擇(featureselection),即屬性篩選。按說(shuō)信息比較多應(yīng)該是好事才對(duì),所以我們盡量不使用特征歸約,因?yàn)檫@對(duì)于原始數(shù)據(jù)通常都是有損的。但是:過(guò)多的特征會(huì)使得機(jī)器學(xué)習(xí)的訓(xùn)練變慢。有些數(shù)據(jù)挖掘算法比較復(fù)雜,在高維度情況下運(yùn)行的時(shí)間是天文數(shù)字,不可能實(shí)現(xiàn);過(guò)多的輸入變量容易帶來(lái)過(guò)度擬合和共線性的風(fēng)險(xiǎn),這會(huì)降低分類模型的預(yù)測(cè)能力。數(shù)據(jù)歸約——屬性篩選在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)歸約主要是維度歸約(d49屬性篩選的方法首先,可以刪除明顯無(wú)價(jià)值的變量,例如缺失值比例很高的變量,以及常數(shù)變量,還有取值太泛的類別型變量(例如郵政編碼)。然后,可以結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行篩選。這是最關(guān)鍵、最重要的篩選自變量的方法。很多時(shí)候,業(yè)務(wù)專家一針見(jiàn)血的商業(yè)敏感性可以有效縮小自變量的考察范圍。屬性篩選的方法首先,可以刪除明顯無(wú)價(jià)值的變量,例如缺失值比例50屬性篩選的方法——線性相關(guān)性最簡(jiǎn)單、最常用的方法就是通過(guò)自變量之間的線性相關(guān)性指標(biāo)進(jìn)行初步篩選。其中,以Pearson相關(guān)系數(shù)最為常用。如果多個(gè)自變量之間線性相關(guān)性很強(qiáng),只需要保留一個(gè)就可以了。屬性篩選的方法——線性相關(guān)性最簡(jiǎn)單、最常用的方法就是通過(guò)自變51屬性篩選的方法——互信息線性相關(guān)系數(shù)可以檢測(cè)出特征之間是否有線性相關(guān)關(guān)系。但是,它不適于檢測(cè)非線性關(guān)系。互信息則適合檢測(cè)非線性關(guān)系。它基于信息熵的概念,計(jì)算出兩個(gè)特征所共有的信息量,即一個(gè)特征使另一個(gè)特征的不確定性減少的程度。屬性篩選的方法——互信息線性相關(guān)系數(shù)可以檢測(cè)出特征之間是否有52屬性篩選的方法——R平方在上述步驟結(jié)束之后,仍然可能有些特征,它們雖然彼此之間獨(dú)立,并且和目標(biāo)變量有一定的依賴關(guān)系,但是把它們放在一起來(lái)看,跟目標(biāo)變量就沒(méi)有依賴關(guān)系;而另一些特征,則雖然單獨(dú)看起來(lái)跟目標(biāo)變量沒(méi)有依賴關(guān)系,但把它們放在一起就能看出與目標(biāo)變量有依賴關(guān)系。R平方(R-Square)借鑒多元線性回歸的算法來(lái)判斷對(duì)目標(biāo)變量有重要預(yù)測(cè)意義的自變量,也就是找出哪些自變量能顯著地解釋目標(biāo)變量的變異性。屬性篩選的方法——R平方在上述步驟結(jié)束之后,53屬性篩選的方法——特征抽取法這類方法不是要?jiǎng)h減特征,而是把原有的特征組合成少量特征??梢苑譃榫€性的和非線性的。線性的:主成分分析。非線性的:多維標(biāo)度法。以上兩種方法是典型代表。但還有其他方法。屬性篩選的方法——特征抽取法這類方法不是要?jiǎng)h減特征,而是把原54屬性篩選的方法——主成分分析主成分分析是最常用的特征抽取方法。主成分分析(PCA)是用少量指標(biāo)(即主成分)來(lái)表示原先較多的指標(biāo)。這少量指標(biāo)盡可能多地反映原來(lái)較多指標(biāo)的有用信息(所保留下的方差盡量多),且相互之間又是無(wú)關(guān)的。每個(gè)主成分都是由多個(gè)原始變量線性組合而成的。這種分析在基本未損失數(shù)據(jù)集的信息的情況下降低了數(shù)據(jù)集的維數(shù)。PCA適于處理稀疏數(shù)據(jù)。PCA的不足是會(huì)造成結(jié)論的可解釋性上相對(duì)于原始變量而言更復(fù)雜。屬性篩選的方法——主成分分析主成分分析是最常用的特征抽取方法55屬性篩選的方法還有其他一些屬性篩選方法,此處不詳細(xì)講,例如:聚類線性判別式分析(LDA)多維標(biāo)度法(MDS)卡方檢驗(yàn)。小波變換。適用于多維數(shù)據(jù)。其典型應(yīng)用是圖像壓縮。屬性篩選的方法還有其他一些屬性篩選方法,此處不詳細(xì)講,例如:56后續(xù)步驟后續(xù)步驟57數(shù)據(jù)挖掘這是最核心的一步。根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),用合適的數(shù)據(jù)挖掘算法進(jìn)行分析,得出有用的信息。數(shù)據(jù)挖掘這是最核心的一步。58評(píng)估在這一步,我們驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。其中,模型算法質(zhì)量的評(píng)價(jià)是很重要的一部分。對(duì)分類模型和聚類模型的評(píng)價(jià)方法是不同的。分類模型很重視采用一些指標(biāo)來(lái)進(jìn)行模型評(píng)價(jià)和選擇。對(duì)分類模型,通常采用的指標(biāo)有:ROC曲線、Lift曲線。其本質(zhì)都是與預(yù)測(cè)的準(zhǔn)確性有關(guān)的。評(píng)估在這一步,我們驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。59分類算法評(píng)估的主要宗旨主要宗旨就是:減少誤判(假陽(yáng)性)和漏判(假陰性)。在疾病預(yù)測(cè)、欺詐識(shí)別等領(lǐng)域,漏判帶來(lái)的危害遠(yuǎn)大于誤判。當(dāng)然,誤判會(huì)帶來(lái)干預(yù)成本的提高,比如會(huì)增加就診成本。分類算法評(píng)估的主要宗旨主要宗旨就是:60分類算法評(píng)估——一個(gè)比喻懷孕檢測(cè):假陰性:懷孕了但沒(méi)檢測(cè)出來(lái)。分類算法評(píng)估——一個(gè)比喻懷孕檢測(cè):61分類算法評(píng)估——混淆矩陣混淆矩陣(Confusionmatrix)例如,TP表示實(shí)際是正例預(yù)測(cè)也為正例的實(shí)例個(gè)數(shù)。其他以此類推。分類算法評(píng)估——混淆矩陣混淆矩陣(Confusionmat62分類算法評(píng)估——混淆矩陣可見(jiàn),預(yù)測(cè)正確的實(shí)例數(shù)量遠(yuǎn)遠(yuǎn)多于預(yù)測(cè)錯(cuò)誤的實(shí)例數(shù)量。分類算法評(píng)估——混淆矩陣可見(jiàn),預(yù)測(cè)正確的實(shí)例數(shù)量遠(yuǎn)遠(yuǎn)多于預(yù)測(cè)63分類算法評(píng)估——ROC曲線FP:假陽(yáng)性,即實(shí)際是負(fù)例卻預(yù)測(cè)成正例的個(gè)數(shù)TP:真陽(yáng)性,即實(shí)際是正例且預(yù)測(cè)成正例的個(gè)數(shù)橫軸是假陽(yáng)性率(假正率),即FPR(FalsePositiveRate)或1-Specificity(即1-真負(fù)率),即實(shí)際為負(fù)例預(yù)測(cè)為正例的概率,即:FP/(FP+TN),即實(shí)際為負(fù)例預(yù)測(cè)為正例的個(gè)數(shù)除以實(shí)際為負(fù)例的個(gè)數(shù)。縱軸是真陽(yáng)性率(真正率),即TPR(TruePositiveRate)或Sensitivity,即實(shí)際為正例預(yù)測(cè)也是正例的概率,即:TP/(TP+FN),即實(shí)際為正例預(yù)測(cè)也為正例的個(gè)數(shù)除以實(shí)際為正例的個(gè)數(shù)。分類算法評(píng)估——ROC曲線FP:假陽(yáng)性,即實(shí)際是負(fù)例卻預(yù)測(cè)64分類算法評(píng)估——ROC曲線我們希望分類器的TPR盡量高,F(xiàn)PR盡量小。即,用盡量低的假陽(yáng)性率為代價(jià)來(lái)?yè)Q取盡量高的真陽(yáng)性率。所以,我們希望ROC曲線離縱軸近。分類算法評(píng)估——ROC曲線我們希望分類器的TPR盡量高,F(xiàn)65分類算法評(píng)估——ROC曲線曲線下方的面積(也叫AUC)越大越好。一般超過(guò)0.7就說(shuō)明分類器有一定效果。我們經(jīng)常用AUC來(lái)比較各種分類器的效果。優(yōu)先采用AUC面積比較大的模型。分類算法評(píng)估——ROC曲線曲線下方的面積(也叫AUC)越大66分類算法評(píng)估——Lift曲線Lift曲線顯示了采用模型后與沒(méi)采用模型相比的改進(jìn)。含義是:分類器獲得的正類數(shù)量和不使用分類器隨機(jī)獲取正類數(shù)量的比例。后者是指不使用模型時(shí),正例在樣本中的占比,也叫randomrate。換言之,lift值是指,如果使用分類器分類,會(huì)使得正類產(chǎn)生的比例增加多少。例如,與直接隨機(jī)抽取一些用戶發(fā)放促銷郵件相比,采用分類器會(huì)給公司帶來(lái)多少響應(yīng)客戶。Lift值在實(shí)踐中可能是用得最多的。它直觀易懂。它的重要的好處是直接顯示對(duì)應(yīng)于不同的促銷目標(biāo)群體規(guī)模的模型效果,便于挑選適當(dāng)?shù)哪繕?biāo)群體規(guī)模。分類算法評(píng)估——Lift曲線Lift曲線顯示了采用模型后與沒(méi)67分類算法評(píng)估——Lift曲線橫軸是樣本大小在所有潛在用戶中的占比;縱軸是所得到的回應(yīng)數(shù)量。對(duì)角線表示的是不同大小的隨機(jī)樣本的結(jié)果。我們用的不是隨機(jī)樣本,而是通過(guò)數(shù)據(jù)挖掘模型選擇出來(lái)的那些最可能做出回應(yīng)的客戶的樣本。我們希望得到的曲線在對(duì)角線上方,而且越靠近左上角越好,也就是用很少的樣本就能得到很多回應(yīng)。從圖中可見(jiàn),綠色線條代表的那個(gè)模型的表現(xiàn)比較好。分類算法評(píng)估——Lift曲線橫軸是樣本大小在所有潛在用戶中的68分類算法評(píng)估——成本收益分析我們可以假定通過(guò)郵件推薦新產(chǎn)品時(shí),發(fā)郵件的費(fèi)用是0.5元,而一旦用戶相應(yīng)則會(huì)得到10元的收益。那么,發(fā)送多少封郵件比較合適呢?如果給全部用戶都發(fā)送,會(huì)賠錢。我們可以設(shè)置費(fèi)用和收益的參數(shù)。分類算法評(píng)估——成本收益分析我們可以假定通過(guò)郵件推薦新產(chǎn)品時(shí)69分類算法評(píng)估——其他其他有代表性的模型評(píng)估的方法還有10折交叉驗(yàn)證:3折交叉驗(yàn)證(cross-validation):在交叉驗(yàn)證中,先要確定一個(gè)固定的折數(shù)(numberoffolds),比如3折。那么數(shù)據(jù)將被大致均分成3部分,每部分輪流用于測(cè)試而其余部分則用于訓(xùn)練。重復(fù)此過(guò)程3次,從而每個(gè)實(shí)例恰好有一次是用于測(cè)試的。10折交叉驗(yàn)證:它是衡量將某學(xué)習(xí)方法應(yīng)用在某數(shù)據(jù)集上的誤差率的標(biāo)準(zhǔn)方法。數(shù)據(jù)被分成10部分。每部分依次用于測(cè)試,而其余部分用于訓(xùn)練。測(cè)試集用來(lái)計(jì)算誤差率。之后,把10個(gè)誤差率估計(jì)值平均,從而得到一個(gè)最終的誤差估計(jì)值。分類算法評(píng)估——其他其他有代表性的模型評(píng)估的方法還有10折交70分類算法評(píng)估的目的我們可以對(duì)不同的分類算法,設(shè)置不同的參數(shù),進(jìn)行反復(fù)比較,根據(jù)在多個(gè)效果指標(biāo)(比如Lift)上是否有穩(wěn)定的好的表現(xiàn),選擇一個(gè)最終落地應(yīng)用的模型。注意,我們不只是關(guān)注模型的準(zhǔn)確度和效果,還要關(guān)注模型的表現(xiàn)是否穩(wěn)定,因此,我們需要抽取不同的時(shí)間段的數(shù)據(jù),進(jìn)行比較,看模型是否穩(wěn)定。分類算法評(píng)估的目的我們可以對(duì)不同的分類算法,設(shè)置不同的參數(shù),71知識(shí)表示知識(shí)表示:將數(shù)據(jù)挖掘所得到的知識(shí)信息用可視化或知識(shí)表達(dá)呈現(xiàn)給用戶。這些知識(shí)可能是:哪些客戶可能會(huì)流失、哪些客戶可能會(huì)響應(yīng)促銷短信等。也可能是哪些屬性比較重要、有哪些規(guī)則。知識(shí)表示知識(shí)表示:將數(shù)據(jù)挖掘所得到的知識(shí)信息用可視化或知識(shí)表72數(shù)據(jù)挖掘結(jié)果的應(yīng)用和效果評(píng)估比如,我們通過(guò)數(shù)據(jù)挖掘識(shí)別出一些潛在顧客,然后我們對(duì)這些顧客進(jìn)行促銷。在促銷兩周后,我們發(fā)現(xiàn)成交顧客數(shù)量顯著提升。在互聯(lián)網(wǎng)行業(yè)的運(yùn)營(yíng)效果評(píng)估中,常用的方法是ABTest,即對(duì)相似群體(可以分為運(yùn)營(yíng)組和對(duì)照組)在不同運(yùn)營(yíng)方案實(shí)施后的實(shí)際效果進(jìn)行對(duì)比。數(shù)據(jù)挖掘結(jié)果的應(yīng)用和效果評(píng)估比如,我們通過(guò)數(shù)據(jù)挖掘識(shí)別出一些73數(shù)據(jù)挖掘是一個(gè)反復(fù)循環(huán)的過(guò)程數(shù)據(jù)挖掘是一個(gè)反復(fù)循環(huán)的過(guò)程。經(jīng)常會(huì)回到前面的步驟。數(shù)據(jù)挖掘是一個(gè)反復(fù)循環(huán)的過(guò)程數(shù)據(jù)挖掘是一個(gè)反復(fù)循環(huán)的過(guò)程。經(jīng)74分類的一個(gè)常見(jiàn)問(wèn)題——過(guò)度擬合對(duì)于有監(jiān)督學(xué)習(xí)的算法,要非常重視過(guò)度擬合(overfitting、過(guò)擬合)的風(fēng)險(xiǎn)。含義是:模型對(duì)訓(xùn)練集擬合得很好,但對(duì)新的數(shù)據(jù)擬合得并不好。對(duì)訓(xùn)練集數(shù)據(jù)學(xué)習(xí)太過(guò)亦步亦趨,造成不能反映真實(shí)的輸入和輸出之間的關(guān)系,不利于預(yù)測(cè)未來(lái)數(shù)據(jù)。分類的一個(gè)常見(jiàn)問(wèn)題——過(guò)度擬合對(duì)于有監(jiān)督學(xué)習(xí)的算法,要非常重75如何避免過(guò)度擬合?交叉驗(yàn)證可能是業(yè)界防止過(guò)擬合的最常用手段。它可看作一種變通的方法,它不使用全部的歷史數(shù)據(jù),而是把過(guò)去的數(shù)據(jù)分成兩份,其中一份當(dāng)做訓(xùn)練集,另一份當(dāng)做測(cè)試集(用來(lái)模擬“未來(lái)的”數(shù)據(jù))。通常,我們會(huì)將大多數(shù)數(shù)據(jù)作為訓(xùn)練集(比如80%),而少數(shù)數(shù)據(jù)作為測(cè)試集。在交叉驗(yàn)證時(shí),我們可以準(zhǔn)備幾個(gè)不同時(shí)間窗口、不同范圍的測(cè)試集和驗(yàn)證集,在不同的數(shù)據(jù)集里面對(duì)模型進(jìn)行交叉檢驗(yàn)。要注意建模所用的歷史數(shù)據(jù)和未來(lái)數(shù)據(jù)是否存在明顯差異。例如,業(yè)務(wù)是否發(fā)生了顯著變化。如何避免過(guò)度擬合?交叉驗(yàn)證可能是業(yè)界防止過(guò)擬合的最常用手段。76如何避免過(guò)度擬合?樣本要足夠大。特別是神經(jīng)網(wǎng)絡(luò),如果數(shù)據(jù)少就不宜使用。注意選擇合適的抽樣方法。減少樣本中的噪聲數(shù)據(jù)。模型過(guò)分記住了噪聲的特征,以至于忽略了真實(shí)的輸入輸出間的關(guān)系。輸入變量不要太多。新手往往不篩選輸入變量,而是一股腦把所有變量交給軟件去撞大運(yùn)。如何避免過(guò)度擬合?樣本要足夠大。77演講完畢,謝謝觀看!演講完畢,謝謝觀看!78數(shù)據(jù)挖掘流程大數(shù)據(jù)應(yīng)用基礎(chǔ)——第三次課魏煒weiwei@數(shù)據(jù)挖掘流程大數(shù)據(jù)應(yīng)用基礎(chǔ)——第三次課79數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評(píng)估4信息收集31數(shù)據(jù)挖掘33知識(shí)表示35數(shù)據(jù)挖掘的基本流程數(shù)據(jù)預(yù)處理2評(píng)估4信息收集31數(shù)據(jù)挖掘3380數(shù)據(jù)挖掘的基本流程數(shù)據(jù)挖掘的基本流程81高度重視以下同義詞以下術(shù)語(yǔ)大致是同一個(gè)意思:表格中的行:個(gè)案=實(shí)例=記錄=樣本點(diǎn)=數(shù)據(jù)點(diǎn)表格中的列:屬性=特征=字段=維度=預(yù)測(cè)變量=自變量高度重視以下同義詞以下術(shù)語(yǔ)大致是同一個(gè)意思:82數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理83數(shù)據(jù)預(yù)處理的步驟主要包括:數(shù)據(jù)集成數(shù)據(jù)清理數(shù)據(jù)歸約(抽樣和屬性篩選)數(shù)據(jù)變換。數(shù)據(jù)預(yù)處理的步驟主要包括:84數(shù)據(jù)質(zhì)量有很多方面問(wèn)題數(shù)據(jù)質(zhì)量有很多方面問(wèn)題85數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在一半甚至60%以上!這些工作對(duì)提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性是必不可少的。因?yàn)?,沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果。數(shù)據(jù)挖掘出現(xiàn)錯(cuò)誤結(jié)果多半是由數(shù)據(jù)源的質(zhì)量引起的。因此應(yīng)該重視原始數(shù)據(jù)的質(zhì)量,從源頭上減少錯(cuò)誤和誤差,尤其是減少人為誤差。數(shù)據(jù)準(zhǔn)備在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在一半甚86數(shù)據(jù)準(zhǔn)備的重要性數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在60%以上!數(shù)據(jù)準(zhǔn)備的重要性數(shù)據(jù)準(zhǔn)備工作占用的時(shí)間往往在60%以上!87數(shù)據(jù)集成數(shù)據(jù)挖掘或統(tǒng)計(jì)分析可能用到來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),我們需要將這些數(shù)據(jù)集成在一起。如果只有一個(gè)數(shù)據(jù)源,這一步可以省略。數(shù)據(jù)集成數(shù)據(jù)挖掘或統(tǒng)計(jì)分析可能用到來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),我們88數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題一個(gè)重要問(wèn)題是實(shí)體識(shí)別問(wèn)題:在不同的數(shù)據(jù)源中,相同的字段也許有不同的名稱。我們需要識(shí)別數(shù)據(jù)中能唯一標(biāo)識(shí)實(shí)體的字段。我們?cè)趺茨艽_定一個(gè)數(shù)據(jù)源中的customer_id和另一個(gè)數(shù)據(jù)源中的customer_number指的是同一個(gè)字段呢?這里我們可以利用字段的元數(shù)據(jù)信息,例如含義、數(shù)據(jù)類型、字段允許值的范圍等,從而避免在數(shù)據(jù)集成時(shí)出錯(cuò)。如果我們確定這兩個(gè)字段是一致的,那么我們就能夠把標(biāo)識(shí)相同的客戶當(dāng)作同一個(gè)客戶。數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題一個(gè)重要問(wèn)題是實(shí)體識(shí)別問(wèn)題:在不同的89數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題對(duì)于互聯(lián)網(wǎng)企業(yè)來(lái)說(shuō),一個(gè)需要注意的重要問(wèn)題是如何能把PC端用戶、手機(jī)端用戶給對(duì)應(yīng)起來(lái)。也就是說(shuō),如何能保證,用戶在不同設(shè)備上登錄你的網(wǎng)站時(shí)的訪問(wèn)記錄都能匯總到一起,而不是把這些訪問(wèn)記錄當(dāng)做是多個(gè)不同用戶的訪問(wèn)記錄。數(shù)據(jù)集成中的實(shí)體識(shí)別問(wèn)題對(duì)于互聯(lián)網(wǎng)企業(yè)來(lái)說(shuō),一個(gè)需要注意的重90數(shù)據(jù)集成中屬性值不一致的問(wèn)題同一個(gè)人的名字可能在一個(gè)數(shù)據(jù)庫(kù)中登記為“王思聰”,在另一個(gè)數(shù)據(jù)庫(kù)中則登記為“SicongWang”。數(shù)據(jù)集成中屬性值不一致的問(wèn)題同一個(gè)人的名字可能在一個(gè)數(shù)據(jù)庫(kù)中91數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題對(duì)同一個(gè)實(shí)體,來(lái)自不同數(shù)據(jù)源的屬性值可能是不同的。原因可能是各個(gè)數(shù)據(jù)源往往以不同的方式表示相同的數(shù)據(jù),或采用不同的度量等。例如,不同數(shù)據(jù)源中日期的格式不同。日期有時(shí)是一個(gè)數(shù)值;有時(shí)是以“XXXX年X月X日”的字符串格式存儲(chǔ);有時(shí)以“YY/MM/DD”的字符串格式存儲(chǔ)。又例如,對(duì)同一個(gè)省份可能用了不同的名稱。還有,同一個(gè)名字的屬性sales,在一個(gè)數(shù)據(jù)庫(kù)中是指一個(gè)區(qū)域的銷量,在另一個(gè)數(shù)據(jù)庫(kù)中可能是指一個(gè)分店的銷量。數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題對(duì)同一個(gè)實(shí)體,來(lái)自不同數(shù)據(jù)源92數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題重量在一個(gè)數(shù)據(jù)源中的單位可能是千克;在另一處則是斤。一種度量另一種度量數(shù)據(jù)集成中的數(shù)據(jù)值格式不一致問(wèn)題重量在一個(gè)數(shù)據(jù)源中的單位可能93數(shù)據(jù)集成中的屬性冗余問(wèn)題一個(gè)屬性可能能由另一個(gè)或一組屬性導(dǎo)出。有些冗余可以被相關(guān)分析檢測(cè)到。我們通過(guò)相關(guān)系數(shù)或卡方檢驗(yàn)了解兩個(gè)屬性是否是統(tǒng)計(jì)相關(guān)的。數(shù)據(jù)集成中的屬性冗余問(wèn)題一個(gè)屬性可能能由另一個(gè)或一組屬性導(dǎo)出94數(shù)據(jù)探索在數(shù)據(jù)集成后,需要數(shù)據(jù)探索(dataexploring)。這個(gè)步驟不是數(shù)據(jù)預(yù)處理,但對(duì)數(shù)據(jù)預(yù)處理很重要。幾乎很少有現(xiàn)成的數(shù)據(jù)能直接使用。數(shù)據(jù)總是看上去不整潔,例如有臟數(shù)據(jù)、缺失值等。怎樣能知道數(shù)據(jù)的質(zhì)量呢?你需要把自己沉浸在數(shù)據(jù)中,進(jìn)行數(shù)據(jù)探索,從而了解數(shù)據(jù)質(zhì)量。數(shù)據(jù)探索在數(shù)據(jù)集成后,需要數(shù)據(jù)探索(dataexplori95數(shù)據(jù)探索的方法在R中的summary(變量名)這種指令(在其他軟件中有類似指令)能提供諸多基本統(tǒng)計(jì)信息。比如:每個(gè)變量的值域區(qū)間(最大值和最小值)是否合理?所有的值都落在期望的區(qū)間內(nèi)嗎?平均值與中位數(shù)是相等的還是差別很大(這有助于說(shuō)明變量是否符合正態(tài)分布)?數(shù)據(jù)是對(duì)稱的還是傾斜的。每個(gè)變量的標(biāo)準(zhǔn)差是多少?(遠(yuǎn)離屬性的均值超過(guò)兩個(gè)或三個(gè)標(biāo)準(zhǔn)差的值可能是離群點(diǎn))有多少缺失值?數(shù)據(jù)探索的方法在R中的summary(變量名)這種指令(在其96直方圖箱圖箱圖散點(diǎn)圖通過(guò)直方圖,能觀察連續(xù)型變量的分布是否接近正態(tài)分布。對(duì)于離散型變量,則可以用頻次分析。通過(guò)箱圖,能觀察到離群值,比如識(shí)別出觀測(cè)值特別高的個(gè)案。通過(guò)散點(diǎn)圖,能了解屬性之間是否有相關(guān)性。直方圖箱圖箱圖散點(diǎn)圖通過(guò)直方圖,能觀察連續(xù)型變量的分布是否接97數(shù)據(jù)清理(數(shù)據(jù)預(yù)處理)“數(shù)據(jù)的重要程度大過(guò)算法本身!”無(wú)論專家多有經(jīng)驗(yàn),無(wú)論算法再完美,也不可能從一堆垃圾中發(fā)現(xiàn)寶石。人們往往沒(méi)有那么好的運(yùn)氣,有現(xiàn)成的質(zhì)量好的數(shù)據(jù)可以直接用。現(xiàn)實(shí)世界的數(shù)據(jù)是“雜亂的”,其中總是有這樣或那樣的問(wèn)題。“經(jīng)常保持對(duì)客戶數(shù)據(jù)的懷疑之心!”“所有的數(shù)據(jù)都是臟的”例如,有些數(shù)據(jù)是缺失的(屬性的值是空值),有些是含噪聲的(屬性的值是錯(cuò)誤的,或有孤立點(diǎn)數(shù)據(jù)),有時(shí)同樣的信息采用了多種不同的表示方式(在編碼或命名上存在不一致)。數(shù)據(jù)清理(數(shù)據(jù)預(yù)處理)“數(shù)據(jù)的重要程度大過(guò)算法本身!”98數(shù)據(jù)清理對(duì)于在商業(yè)中比較重要的字段,系統(tǒng)開(kāi)發(fā)者和系統(tǒng)使用者會(huì)盡量確保其正確性。然而,對(duì)于在商業(yè)中不太重要的字段,人們往往不太重視確保其質(zhì)量。通過(guò)數(shù)據(jù)清理,可以確保存入數(shù)據(jù)倉(cāng)庫(kù)中的信息是完整、正確和格式一致的。如果數(shù)據(jù)有誤,那么所得到的結(jié)果很可能有誤導(dǎo)性。但是,數(shù)據(jù)挖掘者不應(yīng)該太挑剔,因?yàn)槲覀兺荒艿玫劫|(zhì)量不好的數(shù)據(jù)。數(shù)據(jù)清理對(duì)于在商業(yè)中比較重要的字段,系統(tǒng)開(kāi)發(fā)者和系統(tǒng)使用者會(huì)99數(shù)據(jù)清理如果你的企業(yè)中有數(shù)據(jù)倉(cāng)庫(kù),應(yīng)弄清楚這些數(shù)據(jù)是怎樣收集的,這對(duì)理解數(shù)據(jù)質(zhì)量很重要。至少應(yīng)該知道每個(gè)字段取值來(lái)自哪里、合理的取值的范圍、為什么會(huì)有缺失值等。這對(duì)數(shù)據(jù)清理很有幫助。數(shù)據(jù)清理如果你的企業(yè)中有數(shù)據(jù)倉(cāng)庫(kù),應(yīng)弄清楚這些數(shù)據(jù)是怎樣收集100數(shù)據(jù)清理數(shù)據(jù)清理也叫數(shù)據(jù)清洗。這一步主要針對(duì)缺失值、數(shù)據(jù)噪聲、離群值。數(shù)據(jù)清理數(shù)據(jù)清理也叫數(shù)據(jù)清洗。101缺失值缺失值很常見(jiàn)。例如,在銷售表中的顧客信息當(dāng)中,也許除了名字外,其他各個(gè)屬性都有缺失值。我們尤其不希望重要屬性存在缺失值。缺失值缺失值很常見(jiàn)。例如,在銷售表中的顧客信息當(dāng)中,也許除了102缺失值的成因分析師首先應(yīng)該了解數(shù)據(jù)缺失的原因。只有知道具體缺失原因后,才能有的放矢。產(chǎn)生缺失值的原因很多,可能是:這些數(shù)據(jù)并沒(méi)被記錄下來(lái);測(cè)量設(shè)備出現(xiàn)故障;對(duì)數(shù)據(jù)錯(cuò)誤地更新導(dǎo)致某些字段信息丟失;被測(cè)量的對(duì)象(頭蓋骨或植物)損壞或死亡了。有時(shí),還沒(méi)來(lái)得及提供屬性值。缺失值的成因分析師首先應(yīng)該了解數(shù)據(jù)缺失的原因。只有知道具體缺103缺失值的成因有時(shí),當(dāng)你從外部數(shù)據(jù)源中追加人口統(tǒng)計(jì)信息到客戶信息中時(shí),你沒(méi)能找到一部分客戶的此類信息。很多時(shí)候,最初收集數(shù)據(jù)時(shí),有些變量被認(rèn)為不太重要,因此留下空白。例如,銀行并不特別需要知道客戶的年齡,所以年齡變量會(huì)存在許多缺失值?!氨谎谏w的缺失值”:有時(shí),用戶不希望提交個(gè)人信息,就會(huì)故意向字段輸入不正確的值(例如把生日設(shè)置為1月1日)。一個(gè)類似的例子是,數(shù)據(jù)中很多客戶在1911年出生。為什么呢?其實(shí)因?yàn)閿?shù)據(jù)輸入界面堅(jiān)持要出生日期。因此客服人員在不知道這個(gè)日期時(shí),就會(huì)鍵入6個(gè)“1”,從而輸入1911年11月11日。缺失值的成因有時(shí),當(dāng)你從外部數(shù)據(jù)源中追加人口統(tǒng)計(jì)信息到客戶信104缺失值的處理方法處理方式有多種:有些有缺失值的變量實(shí)際上并不需要處理,因?yàn)槟闫鋵?shí)知道缺失值的實(shí)際值是什么。刪除缺失值較多(例如20%以上的屬性都存在缺失值)的個(gè)案(即記錄、行、實(shí)例、元組),尤其是關(guān)鍵的屬性值缺失的個(gè)案。剔除所有含有缺失值的個(gè)案。此法適于有缺失值的個(gè)案的數(shù)量占比很小的情況下。此法操作簡(jiǎn)單方便,而且留下來(lái)的數(shù)據(jù)全是有完整記錄的,數(shù)據(jù)很干凈。但是,丟棄所有包含缺失值的個(gè)案可能會(huì)引入偏差,因?yàn)檫@些個(gè)案不一定是隨機(jī)分布的。刪除有大量缺失值的變量。此法適于那些缺失值占比(例如超過(guò)20%)較大的變量。對(duì)于缺失值占比超過(guò)50%的變量,則一般建議刪除。缺失值的處理方法處理方式有多種:105缺失值的處理方法人工填寫缺失值。此法工作量大,對(duì)于海量數(shù)據(jù)可行性極低。使用屬性的中心度量來(lái)填充。此類指標(biāo)有平均值、中位數(shù)、眾數(shù)等。對(duì)于接近正態(tài)分布的變量來(lái)說(shuō),平均值是最佳選擇;然而,對(duì)于偏態(tài)分布的變量來(lái)說(shuō),中位數(shù)是更好的指標(biāo)。此種方法偏差大,因?yàn)檫@種替換畢竟是人為的替換,屬于“不得已而為之”的策略。但其簡(jiǎn)單、速度快,適用于大數(shù)據(jù)集。使用與給定個(gè)案同類的樣本的屬性的中心度量來(lái)填充。此法與上一種方法類似。例:把顧客按信用風(fēng)險(xiǎn)程度分類,則用具有相同信用風(fēng)險(xiǎn)的顧客的平均收入或收入中位數(shù)來(lái)替換收入中的缺失值。缺失值的處理方法人工填寫缺失值。此法工作量大,對(duì)于海量數(shù)據(jù)可106缺失值的處理方法通過(guò)兩個(gè)變量之間的相關(guān)關(guān)系來(lái)填充。如果兩個(gè)變量之間的相關(guān)系數(shù)足夠高(例如大于0.9),我們可以找到兩者之間的線性相關(guān)關(guān)系模型(一個(gè)公式)。我們可以通過(guò)這個(gè)公式來(lái)計(jì)算出一個(gè)值,用于填充缺失值。通過(guò)個(gè)案之間的相似性來(lái)填充。此法假定如果兩個(gè)個(gè)案是相似的,那么其中一個(gè)個(gè)案在某變量上的缺失值很可能與另一個(gè)個(gè)案在這個(gè)變量上的值是相似的。最常用的相似性度量指標(biāo)是歐式距離。我們可以用歐式距離來(lái)找到與含缺失值的個(gè)案最相似的10個(gè)個(gè)案,用它們的中位數(shù)或均值來(lái)填充缺失值。缺失值的處理方法通過(guò)兩個(gè)變量之間的相關(guān)關(guān)系來(lái)填充。如果兩個(gè)變107缺失值的處理方法對(duì)缺失值進(jìn)行賦值(Imputation)。此法通過(guò)回歸模型、決策樹、貝葉斯定理等去預(yù)測(cè)缺失值的最近似的替代值。也就是把缺失數(shù)據(jù)所對(duì)應(yīng)的變量當(dāng)做目標(biāo)變量,把其他的輸入變量作為自變量,為每個(gè)有缺失值的字段分別建立預(yù)測(cè)模型。這種方法最嚴(yán)謹(jǐn),但是成本較高。還有一種辦法,是在不同的數(shù)據(jù)上建立多個(gè)模型。例如,對(duì)某幾個(gè)變量沒(méi)缺失值的客戶建立一個(gè)模型,而對(duì)這幾個(gè)變量有缺失值的客戶建立另一個(gè)模型。缺失值的處理方法對(duì)缺失值進(jìn)行賦值(Imputation)。此108數(shù)據(jù)噪聲噪聲數(shù)據(jù),即數(shù)據(jù)值錯(cuò)誤,不能反映真實(shí)的值。數(shù)據(jù)噪聲太多,會(huì)導(dǎo)致數(shù)據(jù)價(jià)值大大降低。產(chǎn)生原因可能是:人們?cè)谳斎雮€(gè)人數(shù)據(jù)時(shí)常常會(huì)故意制造一些錯(cuò)誤;人們?cè)谳斎胭Y料時(shí)操作失誤;在互聯(lián)網(wǎng)營(yíng)銷中,存在大量虛假的應(yīng)用下載和使用,以及虛假的好評(píng)差評(píng);數(shù)據(jù)收集的設(shè)備不穩(wěn)定;數(shù)據(jù)轉(zhuǎn)化時(shí)存在邏輯錯(cuò)誤;有時(shí),數(shù)據(jù)過(guò)時(shí)了(例如地址過(guò)時(shí))。數(shù)據(jù)噪聲噪聲數(shù)據(jù),即數(shù)據(jù)值錯(cuò)誤,不能反映真實(shí)的值。109識(shí)別數(shù)據(jù)噪聲還好,噪聲數(shù)據(jù)都是少數(shù)!通過(guò)數(shù)據(jù)探索,能很容易發(fā)現(xiàn)噪聲數(shù)據(jù)。比如,在直方圖中,某些值出現(xiàn)的頻率非常少,我們就要懷疑這樣的數(shù)據(jù)是否合理。識(shí)別數(shù)據(jù)噪聲還好,噪聲數(shù)據(jù)都是少數(shù)!110處理數(shù)據(jù)噪聲對(duì)噪聲數(shù)據(jù),我們的處理辦法有:最廣泛應(yīng)用的處理方式是數(shù)據(jù)平滑(Smoothing)。最常用的數(shù)據(jù)平滑方法是分箱技術(shù),此法稍后在數(shù)據(jù)轉(zhuǎn)換中會(huì)介紹。其他平滑方法還有:基于時(shí)間序列分析,根據(jù)前一段歷史趨勢(shì)數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)進(jìn)行修正。刪除帶有錯(cuò)誤的個(gè)案。處理數(shù)據(jù)噪聲對(duì)噪聲數(shù)據(jù),我們的處理辦法有:111識(shí)別異常個(gè)案對(duì)于多維數(shù)據(jù),異常個(gè)案的識(shí)別可以通過(guò)聚類技術(shù)。異常個(gè)案(孤立點(diǎn)、離群點(diǎn)、outlier)跟噪聲數(shù)據(jù)不完全是一回事。離群點(diǎn)能從表象上判別出來(lái),而噪聲則是隨機(jī)的、取值是沒(méi)有規(guī)律的。噪聲的取值不一定看起來(lái)異常;而離群點(diǎn)雖然取值異常,但不一定都是噪聲。對(duì)于取值正常的噪聲點(diǎn),我們還沒(méi)辦法檢測(cè)??梢赃x取一些字段來(lái)對(duì)個(gè)案進(jìn)行聚類。從而識(shí)別出異常程度較高的個(gè)案,即落在簇集合之外的個(gè)案。識(shí)別異常個(gè)案對(duì)于多維數(shù)據(jù),異常個(gè)案的識(shí)別可以通過(guò)聚類技術(shù)。112處理異常個(gè)案特別要注意的是,這些數(shù)據(jù)點(diǎn)不一定是噪聲。我們要從中剔除真正不正常的數(shù)據(jù),而保留看起來(lái)不正常,但實(shí)際上真實(shí)的數(shù)據(jù)。有時(shí),這些并非噪聲的異常點(diǎn)包含著重要的信息,例如信用卡用戶惡意欺詐檢測(cè)就需要保留異常點(diǎn)。處理離群點(diǎn)的另一種辦法是對(duì)變量進(jìn)行標(biāo)準(zhǔn)化,從而縮小值域。對(duì)于時(shí)間序列數(shù)據(jù)和空間數(shù)據(jù),則采用其他方法進(jìn)行異常點(diǎn)的檢測(cè)。處理異常個(gè)案特別要注意的是,這些數(shù)據(jù)點(diǎn)不一定是噪聲。我們要從113識(shí)別異常值除了上述辦法,還可以僅憑單個(gè)變量所提供的信息來(lái)識(shí)別異常值。對(duì)于異常值,處理辦法是:一般建議剔除。此外,在聚類分析中,可以采用隨機(jī)抽樣。這樣,作為稀有事件的數(shù)據(jù)噪聲和異常值能被抽進(jìn)樣本的概率會(huì)很小,這樣樣本就比較干凈。判斷方法如下:對(duì)于類別型變量,是否某個(gè)類別出現(xiàn)的次數(shù)太少、太稀有?比如其占比不到1%。對(duì)于數(shù)值型變量,是否某些取值太大?比如,一般的客戶平均每天買2次,而某幾個(gè)客戶每天買100次。又如,年齡為140歲無(wú)疑是個(gè)異常值。識(shí)別異常值除了上述辦法,還可以僅憑單個(gè)變量所提供的信息來(lái)識(shí)別114重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)主要有兩種:個(gè)案可能會(huì)重復(fù)。比如,輸入數(shù)據(jù)時(shí),意外地多次輸入了同一個(gè)個(gè)案。屬性也可能會(huì)冗余。在集成多個(gè)數(shù)據(jù)庫(kù)時(shí),同一個(gè)屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名(例如birthday和生日),這時(shí)我們只要保留其中一個(gè)字段就可以。這種冗余通常在數(shù)據(jù)集成的步驟中就解決了。重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)主要有兩種:115數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、Datatransformation)主要是利用現(xiàn)有的字段進(jìn)行運(yùn)算來(lái)得到新的字段。通常說(shuō)到數(shù)據(jù)變換,包括四種:數(shù)據(jù)離散化(采用分箱等方式)、產(chǎn)生衍生變量、使變量分布更接近正態(tài)分布、數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)變換、Datatransforma116數(shù)據(jù)轉(zhuǎn)換——離散化如果對(duì)連續(xù)變量進(jìn)行離散化,可以避免引入任何分布假設(shè)。這樣就不需要符合正態(tài)分布了。數(shù)據(jù)轉(zhuǎn)換——離散化如果對(duì)連續(xù)變量進(jìn)行離散化,可以避免引入任何117數(shù)據(jù)轉(zhuǎn)換——離散化數(shù)據(jù)分箱(Binning)是對(duì)連續(xù)數(shù)據(jù)進(jìn)行離散化、增加粒度的主要辦法,這是一種很典型的數(shù)據(jù)變換。它把一個(gè)連續(xù)性的數(shù)值字段根據(jù)其值分組,轉(zhuǎn)換成一個(gè)擁有幾個(gè)不同類別的字段。分箱的主要目的是去除噪聲。具體取值方式有:按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。舉例:假設(shè)有8、24、15、41、7、10、18、67、25等9個(gè)數(shù),分為3箱。箱1:8、24、15箱2:41、7、10箱3:18、67、25按箱平均值求得平滑數(shù)據(jù)值:箱1:16、16、16,平均值是16,這樣該箱中的每一個(gè)值被替換為16。其他兩個(gè)箱與此類似。數(shù)據(jù)轉(zhuǎn)換——離散化數(shù)據(jù)分箱(Binning)是對(duì)連續(xù)數(shù)據(jù)進(jìn)行118數(shù)據(jù)轉(zhuǎn)換——離散化對(duì)于決策樹算法,往往需要對(duì)連續(xù)變量進(jìn)行離散化,從而使輸出的決策樹通俗易懂。具體辦法可以是:把各屬性所在區(qū)間平均分成8份,每一份對(duì)應(yīng)1個(gè)離散值。數(shù)據(jù)轉(zhuǎn)換——離散化對(duì)于決策樹算法,往往需要對(duì)連續(xù)變量進(jìn)行離散119數(shù)據(jù)轉(zhuǎn)換——產(chǎn)生衍生變量具體有兩種:把非數(shù)值型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型。例如:把“男”轉(zhuǎn)換成1,“女”轉(zhuǎn)換成0;根據(jù)用戶出生年月日得到其當(dāng)前的年齡。采用簡(jiǎn)單的數(shù)學(xué)公式,產(chǎn)生更加有商業(yè)意義的衍生變量。主要有均值、占比、比率等種類。例如家庭人均年收入、用戶年均消費(fèi)金額。分析人員常常容易從現(xiàn)有的數(shù)據(jù)庫(kù)中直接提取現(xiàn)成的字段,而經(jīng)常忘記一些衍生的新字段,這需要有業(yè)務(wù)知識(shí)來(lái)支持。數(shù)據(jù)轉(zhuǎn)換——產(chǎn)生衍生變量具體有兩種:120數(shù)據(jù)轉(zhuǎn)換——使變量分布更接近正態(tài)分布最常見(jiàn)的改善變量分布的轉(zhuǎn)換方法是對(duì)變量取對(duì)數(shù)(takelog)。在實(shí)踐中,很多數(shù)值型變量的分布都偏斜、不對(duì)稱,這會(huì)干擾模型的擬合,影響變量的預(yù)測(cè)性能。此種轉(zhuǎn)換和分箱有異曲同工之處,都具有提高變量的預(yù)測(cè)能力,強(qiáng)化自變量與因變量的關(guān)系,從而提高預(yù)測(cè)模型的擬合效果。因此,在實(shí)踐中,經(jīng)常對(duì)這兩種方式分別進(jìn)行嘗試,采用其中的一種。不過(guò),這種非線性轉(zhuǎn)換的含義缺少清晰的商業(yè)邏輯,商業(yè)應(yīng)用者可能不太能理解。數(shù)據(jù)轉(zhuǎn)換——使變量分布更接近正態(tài)分布最常見(jiàn)的改善變量分布的轉(zhuǎn)121數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(Datarescale、規(guī)范化):是把區(qū)間較大的數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的區(qū)間中,比如0~1或-1~1。標(biāo)準(zhǔn)化可以提高涉及距離度量的算法的準(zhǔn)確率和效率。比如,當(dāng)創(chuàng)建一個(gè)聚類模型時(shí),我們需要確保所有字段都有近似的標(biāo)度。標(biāo)準(zhǔn)化能夠避免出現(xiàn)聚類結(jié)果完全由某個(gè)具有很大變化范圍的屬性主導(dǎo)的情況。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)標(biāo)準(zhǔn)化(Datarescale、規(guī)范化):是122數(shù)據(jù)標(biāo)準(zhǔn)化最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種:標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(Z-score
transformation、零均值法、Zero-meannormalization)。經(jīng)過(guò)這種方法處理后的變量符合標(biāo)準(zhǔn)正態(tài)分布,均值為0,標(biāo)準(zhǔn)差為1。最小最大值法(Min/Maxtransformation、Min-Max標(biāo)準(zhǔn)化)能把各變量的值歸一化到[0,1]范圍之內(nèi)。數(shù)據(jù)標(biāo)準(zhǔn)化最常用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有兩種:123數(shù)據(jù)歸約數(shù)據(jù)歸約屬于數(shù)據(jù)預(yù)處理,但不屬于數(shù)據(jù)清理。這一步也叫數(shù)據(jù)簡(jiǎn)化。數(shù)據(jù)歸約(datareduction):在保持?jǐn)?shù)據(jù)的完整性的前提下,把需要分析的數(shù)據(jù)量大幅減小,從而加快算法運(yùn)行速度,但能夠產(chǎn)生幾乎同樣質(zhì)量的分析結(jié)果。包括兩類:屬性篩選和數(shù)據(jù)歸約。數(shù)據(jù)歸約數(shù)據(jù)歸約屬于數(shù)據(jù)預(yù)處理,但不屬于數(shù)據(jù)清理。這一步也叫124數(shù)據(jù)歸約——抽樣抽樣可看作數(shù)據(jù)歸約(numerosityreduction)的一種。抽樣的主要原因是如果數(shù)據(jù)全集的規(guī)模太大,運(yùn)算資源的消耗會(huì)很大,而且運(yùn)算時(shí)間很長(zhǎng)。另一個(gè)常見(jiàn)原因是:在很多小概率、稀有事件(例如信用卡欺詐)的預(yù)測(cè)建模中,如果按原始數(shù)據(jù)來(lái)分析,是很難得到有意義的預(yù)測(cè)的。因此,需要人為增加樣本中稀有事件的濃度和在樣本中的占比。抽樣需要注意盡量保持樣本和總體的一致性。例如樣本中變量的值域和分布、缺失值的分布都應(yīng)該與總體盡量高度相似。盡量采用簡(jiǎn)單隨機(jī)抽樣或分層隨機(jī)抽樣。否則可能會(huì)有樣本偏差(samplebias)。數(shù)據(jù)歸約——抽樣抽樣可看作數(shù)據(jù)歸約(numerosityr125數(shù)據(jù)歸約——不平衡數(shù)據(jù)的抽樣在不平衡數(shù)據(jù)中,兩組群體的成員數(shù)量相差甚遠(yuǎn),例如對(duì)直郵促銷做出響應(yīng)者比無(wú)響應(yīng)者少很多、信用卡欺詐者比正常的信用卡持有者少很多、流失可衡山的數(shù)量往往只有非流失客戶數(shù)量的百分之幾甚至千分之幾。如果兩組群體的成員數(shù)量大致相當(dāng),分類算法的性能最好。對(duì)于偏斜數(shù)據(jù),在抽樣方面,通??梢圆扇追N辦法使得兩組群體占比更為平衡:最常用的一種是對(duì)占比較少的實(shí)例進(jìn)行過(guò)抽樣(oversampling)。其他方法有:對(duì)占比較多的實(shí)例進(jìn)行欠抽樣,從而得到一個(gè)雖然較小、但是更平衡的樣本;添加一個(gè)加權(quán)因子,讓常見(jiàn)組的成員的權(quán)重小于罕見(jiàn)組的成員的權(quán)重。這樣抽樣之后,預(yù)測(cè)模型的效果往往更好。數(shù)據(jù)歸約——不平衡數(shù)據(jù)的抽樣在不平衡數(shù)據(jù)中,兩組群體的成員數(shù)126數(shù)據(jù)歸約——屬性篩選在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)歸約主要是維度歸約(dimensionalityreduction),即特征歸約、變量篩選。也就是把多維數(shù)據(jù)壓縮成較少維度的數(shù)據(jù)。這就需要進(jìn)行特征選擇(featureselection),即屬性篩選。按說(shuō)信息比較多應(yīng)該是好事才對(duì),所以我們盡量不使用特征歸約,因?yàn)檫@對(duì)于原始數(shù)據(jù)通常都是有損的。但是:過(guò)多的特征會(huì)使得機(jī)器學(xué)習(xí)的訓(xùn)練變慢。有些數(shù)據(jù)挖掘算法比較復(fù)雜,在高維度情況下運(yùn)行的時(shí)間是天文數(shù)字,不可能實(shí)現(xiàn);過(guò)多的輸入變量容易帶來(lái)過(guò)度擬合和共線性的風(fēng)險(xiǎn),這會(huì)降低分類模型的預(yù)測(cè)能力。數(shù)據(jù)歸約——屬性篩選在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)歸約主要是維度歸約(d127屬性篩選的方法首先,可以刪除明顯無(wú)價(jià)值的變量,例如缺失值比例很高的變量,以及常數(shù)變量,還有取值太泛的類別型變量(例如郵政編碼)。然后,可以結(jié)合業(yè)務(wù)經(jīng)驗(yàn)進(jìn)行篩選。這是最關(guān)鍵、最重要的篩選自變量的方法。很多時(shí)候,業(yè)務(wù)專家一針見(jiàn)血的商業(yè)敏感性可以有效縮小自變量的考察范圍。屬性篩選的方法首先,可以刪除明顯無(wú)價(jià)值的變量,例如缺失值比例128屬性篩選的方法——線性相關(guān)性最簡(jiǎn)單、最常用的方法就是通過(guò)自變量之間的線性相關(guān)性指標(biāo)進(jìn)行初步篩選。其中,以Pearson相關(guān)系數(shù)最為常用。如果多個(gè)自變量之間線性相關(guān)性很強(qiáng),只需要保留一個(gè)就可以了。屬性篩選的方法——線性相關(guān)性最簡(jiǎn)單、最常用的方法就是通過(guò)自變129屬性篩選的方法——互信息線性相關(guān)系數(shù)可以檢測(cè)出特征之間是否有線性相關(guān)關(guān)系。但是,它不適于檢測(cè)非線性關(guān)系?;バ畔t適合檢測(cè)非線性關(guān)系。它基于信息熵的概念,計(jì)算出兩個(gè)特征所共有的信息量,即一個(gè)特征使另一個(gè)特征的不確定性減少的程度。屬性篩選的方法——互信息線性相關(guān)系數(shù)可以檢測(cè)出特征之間是否有130屬性篩選的方法——R平方在上述步驟結(jié)束之后,仍然可能有些特征,它們雖然彼此之間獨(dú)立,并且和目標(biāo)變量有一定的依賴關(guān)系,但是把它們放在一起來(lái)看,跟目標(biāo)變量就沒(méi)有依賴關(guān)系;而另一些特征,則雖然單獨(dú)看起來(lái)跟目標(biāo)變量沒(méi)有依賴關(guān)系,但把它們放在一起就能看出與目標(biāo)變量有依賴關(guān)系。R平方(R-Square)借鑒多元線性回歸的算法來(lái)判斷對(duì)目標(biāo)變量有重要預(yù)測(cè)意義的自變量,也就是找出哪些自變量能顯著地解釋目標(biāo)變量的變異性。屬性篩選的方法——R平方在上述步驟結(jié)束之后,131屬性篩選的方法——特征抽取法這類方法不是要?jiǎng)h減特征,而是把原有的特征組合成少量特征??梢苑譃榫€性的和非線性的。線性的:主成分分析。非線性的:多維標(biāo)度法。以上兩種方法是典型代表。但還有其他方法。屬性篩選的方法——特征抽取法這類方法不是要?jiǎng)h減特征,而是把原132屬性篩選的方法——主成分分析主成分分析是最常用的特征抽取方法。主成分分析(PCA)是用少量指標(biāo)(即主成分)來(lái)表示原先較多的指標(biāo)。這少量指標(biāo)盡可能多地反映原來(lái)較多指標(biāo)的有用信息(所保留下的方差盡量多),且相互之間又是無(wú)關(guān)的。每個(gè)主成分都是由多個(gè)原始變量線性組合而成的。這種分析在基本未損失數(shù)據(jù)集的信息的情況下降低了數(shù)據(jù)集的維數(shù)。PCA適于處理稀疏數(shù)據(jù)。PCA的不足是會(huì)造成結(jié)論的可解釋性上相對(duì)于原始變量而言更復(fù)雜。屬性篩選的方法——主成分分析主成分分析是最常用的特征抽取方法133屬性篩選的方法還有其他一些屬性篩選方法,此處不詳細(xì)講,例如:聚類線性判別式分析(LDA)多維標(biāo)度法(MDS)卡方檢驗(yàn)。小波變換。適用于多維數(shù)據(jù)。其典型應(yīng)用是圖像壓縮。屬性篩選的方法還有其他一些屬性篩選方法,此處不詳細(xì)講,例如:134后續(xù)步驟后續(xù)步驟135數(shù)據(jù)挖掘這是最核心的一步。根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),用合適的數(shù)據(jù)挖掘算法進(jìn)行分析,得出有用的信息。數(shù)據(jù)挖掘這是最核心的一步。136評(píng)估在這一步,我們驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。其中,模型算法質(zhì)量的評(píng)價(jià)是很重要的一部分。對(duì)分類模型和聚類模型的評(píng)價(jià)方法是不同的。分類模型很重視采用一些指標(biāo)來(lái)進(jìn)行模型評(píng)價(jià)和選擇。對(duì)分類模型,通常采用的指標(biāo)有:ROC曲線、Lift曲線。其本質(zhì)都是與預(yù)測(cè)的準(zhǔn)確性有關(guān)的。評(píng)估在這一步,我們驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。137分類算法評(píng)估的主要宗旨主要宗旨就是:減少誤判(假陽(yáng)性)和漏判(假陰性)。在疾病預(yù)測(cè)、欺詐識(shí)別等領(lǐng)域,漏判帶來(lái)的危害遠(yuǎn)大于誤判。當(dāng)然,誤判會(huì)帶來(lái)干預(yù)成本的提高,比如會(huì)增加就診成本。分類算法評(píng)估的主要宗旨主要宗旨就是:138分類算法評(píng)估——一個(gè)比喻懷孕檢測(cè):假陰性:懷孕了但沒(méi)檢測(cè)出來(lái)。分類算法評(píng)估——一個(gè)比喻懷孕檢測(cè):139分類算法評(píng)估——混淆矩陣混淆矩陣(Confusionmatrix)例如,TP表示實(shí)際是正例預(yù)測(cè)也為正例的實(shí)例個(gè)數(shù)。其他以此類推。分類算法評(píng)估——混淆矩陣混淆矩陣(Confusionmat140分類算法評(píng)估——混淆矩陣可見(jiàn),預(yù)測(cè)正確的實(shí)例數(shù)量遠(yuǎn)遠(yuǎn)多于預(yù)測(cè)錯(cuò)誤的實(shí)例數(shù)量。分類算法評(píng)估——混淆矩陣可見(jiàn),預(yù)測(cè)正確的實(shí)例數(shù)量遠(yuǎn)遠(yuǎn)多于預(yù)測(cè)141分類算法評(píng)估——ROC曲線FP:假陽(yáng)性,即實(shí)際是負(fù)例卻預(yù)測(cè)成正例的個(gè)數(shù)TP:真陽(yáng)性,即實(shí)際是正例且預(yù)測(cè)成正例的個(gè)數(shù)橫軸是假陽(yáng)性率(假正率),即FPR(FalsePositiveRate
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度煤礦開(kāi)采設(shè)備租賃及維護(hù)服務(wù)合同4篇
- 2025年度綠色生態(tài)雛雞規(guī)?;B(yǎng)殖購(gòu)銷合同范本4篇
- 二零二五年度果園承包與農(nóng)業(yè)生態(tài)旅游開(kāi)發(fā)協(xié)議3篇
- 2025年度船舶租賃權(quán)轉(zhuǎn)讓合同4篇
- 二零二五版美甲店員工績(jī)效考核與激勵(lì)機(jī)制合同4篇
- 2025年度商鋪出售代理合同范本及條款4篇
- 二零二五年度養(yǎng)老產(chǎn)業(yè)投資擔(dān)保合同4篇
- 二零二五年度長(zhǎng)途客運(yùn)公司駕駛員勞動(dòng)合同及福利待遇協(xié)議4篇
- 2025年度大學(xué)高層次人才創(chuàng)新創(chuàng)業(yè)項(xiàng)目資助合同4篇
- 二零二五年度新型養(yǎng)老公寓租賃管理服務(wù)協(xié)議4篇
- 二零二五年度無(wú)人駕駛車輛測(cè)試合同免責(zé)協(xié)議書
- 北京市海淀區(qū)2024-2025學(xué)年高一上學(xué)期期末考試歷史試題(含答案)
- 常用口服藥品的正確使用方法
- 2025年湖北華中科技大學(xué)招聘實(shí)驗(yàn)技術(shù)人員52名歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年鉆探工程勞務(wù)協(xié)作協(xié)議樣式版B版
- 《心肺復(fù)蘇機(jī)救治院內(nèi)心搏驟?;颊咦o(hù)理專家共識(shí)》解讀
- 計(jì)算機(jī)二級(jí)WPS考試試題
- 智聯(lián)招聘行測(cè)題庫(kù)及答案
- 前程無(wú)憂測(cè)評(píng)題庫(kù)及答案
- 2023中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn)-注射相關(guān)感染預(yù)防與控制
- 超潔凈管道(CL-PVC)施工技術(shù)
評(píng)論
0/150
提交評(píng)論