版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)獲取與數(shù)據(jù)理解
第一節(jié)數(shù)據(jù)獲取數(shù)據(jù)獲取主要有兩個渠道一個是直接獲取數(shù)據(jù),即自己在經(jīng)營過程中累積的數(shù)據(jù),或者通過實(shí)驗(yàn)或調(diào)查直接獲得的數(shù)據(jù),這些數(shù)據(jù)被稱為一手?jǐn)?shù)據(jù).另一個是間接獲取數(shù)據(jù),指的是數(shù)據(jù)是由其他人通過各種形式搜集的,使用者僅僅是找到這些數(shù)據(jù)并加以加工和使用,間接地獲取了這些數(shù)據(jù),這些數(shù)據(jù)通常被稱為二手?jǐn)?shù)據(jù)。
1.直接獲?。ǎ保┙?jīng)營數(shù)據(jù)企業(yè)在經(jīng)營過程中積累了大量數(shù)據(jù),包括運(yùn)營、人事、財(cái)務(wù)、供應(yīng)鏈、客戶管理等。這些數(shù)據(jù)通常存儲在企業(yè)信息系統(tǒng)的數(shù)據(jù)庫中,是企業(yè)經(jīng)營的真實(shí)反映。獲取相對比較簡單,但由于經(jīng)營數(shù)據(jù)通常涉及企業(yè)的競爭優(yōu)勢,所以企業(yè)外部人員甚至不同部門的人員很難得到。(2)市場調(diào)查市場調(diào)查是指用科學(xué)的方法(引用正規(guī)),有目的、系統(tǒng)地搜集、記錄、整理和分析市場現(xiàn)狀的數(shù)據(jù)獲取和分析方法。市場調(diào)查通常比較適用于社會問題和企業(yè)經(jīng)濟(jì)問題。
1.直接獲取(3)試驗(yàn)在試驗(yàn)中,研究者圍繞想要解決的問題,設(shè)定相應(yīng)情景,記錄不同條件下相應(yīng)的試驗(yàn)觀測結(jié)果,并對試驗(yàn)結(jié)果展開分析。
(4)爬蟲更多數(shù)據(jù)被保留在了各個網(wǎng)頁上,使用者可以針對自己的需要,利用爬
蟲技術(shù)自行對網(wǎng)頁上的數(shù)據(jù)進(jìn)行爬取。
2.間接獲取從相關(guān)渠道獲取與研究內(nèi)容有關(guān)的而且已經(jīng)存在的二手?jǐn)?shù)據(jù)。二手?jǐn)?shù)據(jù)的優(yōu)勢:二手?jǐn)?shù)據(jù)獲取過程通常時間短、成本低二手?jǐn)?shù)據(jù)除了可以用來分析研究問題,還可以從中剖析研究問題的背景。二手?jǐn)?shù)據(jù)的局限性二手?jǐn)?shù)據(jù)通常不是為使用者想要進(jìn)行研究的問題而收集的,所以與直接收集數(shù)據(jù)相比,在和研究問題的契合度上必定有所欠缺。在使用二手?jǐn)?shù)據(jù)時,提前對數(shù)據(jù)進(jìn)行評估是非常必要的。在使用二手?jǐn)?shù)據(jù)時,避免錯用、誤用、濫用。在引用二手?jǐn)?shù)據(jù)時,應(yīng)注明數(shù)據(jù)的來源,以尊重他人的勞動成果。
2.間接獲取(1)文獻(xiàn)相關(guān)專業(yè)期刊、學(xué)術(shù)會議、專業(yè)圖書的文獻(xiàn)資料中提供了一些可供使用或參考的數(shù)據(jù)資料。文獻(xiàn)中的數(shù)據(jù)往往經(jīng)過了原作者的處理,對使用者來說省去了數(shù)據(jù)處理的過程,但是文獻(xiàn)數(shù)據(jù)的計(jì)算口徑有時難以獲知,適用性相對較弱。(2)學(xué)術(shù)單位的數(shù)據(jù)庫為了研究需要,大學(xué)等學(xué)術(shù)單位提供了一些以數(shù)據(jù)庫為存儲形式的數(shù)據(jù)集,供公眾訪問獲取。這些數(shù)據(jù)集來自實(shí)踐,體量通常比較大,涵蓋的范圍也比較廣?;谶@些共同的數(shù)據(jù)集,研究者們可以更方便公正地比較各自所提出的數(shù)據(jù)分析策略、方法的優(yōu)劣,因此學(xué)術(shù)數(shù)據(jù)庫集被眾多研究者青睞。
2.間接獲取(3)統(tǒng)計(jì)部門機(jī)構(gòu)統(tǒng)計(jì)部門和各級政府部門定期公布的有關(guān)資料中提供了宏觀統(tǒng)計(jì)數(shù)據(jù)。對于使用者了解所感興趣的領(lǐng)域的整體情況是有很大幫助的,但通常并不能用于解決具體的決策問題。
(4)第三方機(jī)構(gòu)具有數(shù)據(jù)資源優(yōu)勢的數(shù)據(jù)源提供商、咨詢機(jī)構(gòu)以及一些自身有數(shù)據(jù)積累的互聯(lián)網(wǎng)企業(yè)都已經(jīng)成為大數(shù)據(jù)產(chǎn)業(yè)中能夠提供海量數(shù)據(jù)的中流砥柱。在第三方機(jī)構(gòu)獲取的數(shù)據(jù)比較完整,有豐富的描述,通常需要付費(fèi)才能獲取。(5)國內(nèi)外各類數(shù)據(jù)挖掘競賽國內(nèi)外了各類數(shù)據(jù)挖掘競賽中都提供了大量真實(shí)的數(shù)據(jù)集,這些數(shù)據(jù)通常有實(shí)際的應(yīng)用背景和明確的使用目的。第二節(jié)數(shù)據(jù)描述也稱為描述性數(shù)據(jù)分析,通常指對數(shù)據(jù)的整體分布情況、數(shù)據(jù)各特征之間的關(guān)系進(jìn)行估計(jì)和描述,從而有利于了解數(shù)據(jù)的整體情況,發(fā)現(xiàn)顯著特點(diǎn),為進(jìn)一步的數(shù)據(jù)分析提供重要的思路。數(shù)據(jù)描述通常可以從三個方面進(jìn)行:集中趨勢分析、離散程度分析和分布形狀分析
1.集中趨勢分析集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度,是對數(shù)據(jù)一般水平的概括性度量,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。(1)均值是最常用的也是最有效的度量集中趨勢的指標(biāo)。將一組數(shù)據(jù)的總和除以數(shù)據(jù)數(shù)量,便能得到均值。在有些情況下,每個數(shù)據(jù)的重要程度或者意義可能不是相同的,這時候需要對不同的數(shù)據(jù)賦予不同的權(quán)重。這樣根據(jù)權(quán)重計(jì)算得到的平均數(shù)叫作加權(quán)平均數(shù)或加權(quán)算術(shù)均值。均值能夠充分利用所有數(shù)據(jù)的信息,但也正是因?yàn)檫@種特性,均值非常容易受到極端值的影響。
1.集中趨勢分析(2)中位數(shù)一組數(shù)據(jù)排序之后處于中間位置的值,它把數(shù)據(jù)較大的一半和較小的一半分開。是一個由位置決定的值,因此即便數(shù)據(jù)中存在極端值,中間位置上的數(shù)值也不會受到影響。對于存在極值或非對稱數(shù)據(jù)的情況來說,中位數(shù)是一個比均值更好的度量。(3)分位數(shù)分位數(shù)是將總體的全部數(shù)據(jù)遞增排列后,處于各等分位置的數(shù)據(jù)點(diǎn)。分位數(shù)將數(shù)據(jù)劃分為基本上規(guī)模相等的區(qū)域。如果分為四部分,則得到的數(shù)據(jù)點(diǎn)就是四分位數(shù)。在各類分位數(shù)中,常用的是四分位數(shù)。相比于中位數(shù)只有一個,四分位數(shù)有兩個,能夠更充分地反映數(shù)據(jù)的集中程度。1.集中趨勢分析(4)眾數(shù)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,不會受到數(shù)據(jù)中極端值的影響。一組數(shù)據(jù)可能各不相同,既可能不存在眾數(shù),也可能存在多個眾數(shù)。一般來說,數(shù)據(jù)量較大的時候眾數(shù)才有意義,將眾數(shù)作為數(shù)據(jù)整體特征才
有代表性。對比前面的集中指標(biāo),眾數(shù)不涉及數(shù)值計(jì)算,因此,對于類別數(shù)據(jù),眾數(shù)是常用的集中程度測度。
2.離散程度分析離散程度指的是一組數(shù)據(jù)遠(yuǎn)離其中心值的程度。數(shù)據(jù)的離散程度分析主要是用來反映一組數(shù)據(jù)的差異程度。(1)異眾比率(Variationratio)指的是非眾數(shù)數(shù)據(jù)的數(shù)量占數(shù)據(jù)總數(shù)的比例。異眾比率越小,表示眾數(shù)所占的比例越大,眾數(shù)對于數(shù)據(jù)的代表程度越好。(2)極差(Range)也稱全距,指的是數(shù)據(jù)最大值與最小值之差。因?yàn)闃O差選取最值來進(jìn)行計(jì)算,所以必然會受到極端值的影響。此外,極差的計(jì)算只考慮了最大最小值,遺漏了中間部分的更多信息,換句話說,只用兩個數(shù)據(jù)表示一組數(shù)據(jù)集合的特點(diǎn),一般情況下不能準(zhǔn)確地描述。
2.離散程度分析(3)四分位差(Quartiledeviation)指的是一組數(shù)據(jù)的上四位數(shù)和下四分位數(shù)之差,反映了數(shù)據(jù)分布的中心、散布情況的特征,它表示的是中間50%的數(shù)據(jù)的離散程度,因此也不會受到極端值的影響。四分位數(shù)越小,表示中間的一半數(shù)據(jù)越集中。
(4)平均差(Meandeviation)指的是一組數(shù)據(jù)中各個值與其平均數(shù)的差的絕對值的平均數(shù)。平均差越大,表明樣本值與均值差異越大,數(shù)據(jù)的離散程度越大。平均差充分運(yùn)用了數(shù)據(jù)中的每個樣本值,因此是一個能較全面反映數(shù)據(jù)離散程度的指標(biāo)。2.離散程度分析(5)方差或標(biāo)準(zhǔn)差(Variance)指的是數(shù)據(jù)中各個值與其平均數(shù)離差的平方的平均數(shù)。能夠反映出數(shù)據(jù)偏離均值的程度,是衡量數(shù)據(jù)離散程度最常用的指標(biāo)。方差或標(biāo)準(zhǔn)差越小,表示數(shù)據(jù)越集中,數(shù)據(jù)的離散程度越小。
(6)變異系數(shù)(Coefficientofvariation)也叫作離散系數(shù),它是標(biāo)準(zhǔn)差與均值之比。變異系數(shù)可以用來比較不同數(shù)據(jù)集之間的離散程度。變異系數(shù)越小,表明數(shù)據(jù)的離散程度越小。3.分布形狀分析離散程度和集中程度的度量方式選擇是否恰當(dāng),與數(shù)據(jù)分布關(guān)系密切。在分析之前首先觀察數(shù)據(jù)的分布形狀,對于選擇合適的指標(biāo)對數(shù)據(jù)的整體情況進(jìn)行描述,避免產(chǎn)生錯誤的分析結(jié)果很有必要。(1)偏態(tài)(Skewness)是對數(shù)據(jù)分布對稱性的一種度量,通過計(jì)算數(shù)據(jù)相對于中心點(diǎn)的傾斜方向以及程度,衡量數(shù)據(jù)分布的對稱性,如果一組數(shù)據(jù)是對稱的,則偏態(tài)系數(shù)為0。偏態(tài)系數(shù)的正負(fù)表明了數(shù)據(jù)分布是否對稱,以及傾斜的方向,而絕對值的大小表明了傾斜的程度。3.分布形狀分析離散程度和集中程度的度量方式選擇是否恰當(dāng),與數(shù)據(jù)分布關(guān)系密切。在分析之前首先觀察數(shù)據(jù)的分布形狀,對于選擇合適的指標(biāo)對數(shù)據(jù)的整體情況進(jìn)行描述,避免產(chǎn)生錯誤的分析結(jié)果很有必要。(2)峰度(Kurtosis)是對數(shù)據(jù)分布峰部尖度的一種度量,峰度是和標(biāo)準(zhǔn)正態(tài)分布相比較而言的。如果一組數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布,則峰度系數(shù)為0;當(dāng)峰度系數(shù)大于0時,表明數(shù)據(jù)的分布是尖峰分布,數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為集中;當(dāng)峰度系數(shù)小于0時,表明數(shù)據(jù)的分布是扁平分布,數(shù)據(jù)分布較標(biāo)準(zhǔn)正態(tài)分布而言更為分散。
數(shù)據(jù)預(yù)處理
第一節(jié)數(shù)據(jù)預(yù)處理各行各業(yè)每天的數(shù)據(jù)規(guī)模不斷增加,數(shù)據(jù)質(zhì)量成為重要問題。這些數(shù)據(jù)被獲取之后,往往不能直接拿來進(jìn)行分析,需要對數(shù)據(jù)的缺失、異常等情況進(jìn)行判斷處理,并結(jié)合具體分析的需要對數(shù)據(jù)進(jìn)行變換。
1.數(shù)據(jù)預(yù)處理的目的我們實(shí)際搜集到的原始數(shù)據(jù)經(jīng)常是不完全的、有異常的、冗余的、模糊的,甚至矛盾的。導(dǎo)致這種結(jié)果的原因也有很多種:收集數(shù)據(jù)的設(shè)備可能出現(xiàn)故障;當(dāng)用戶不希望提交個人信息時,可能故意輸入錯誤信息;數(shù)據(jù)輸入、傳輸時出現(xiàn)錯誤;不同數(shù)據(jù)源命名約定或者所用數(shù)據(jù)代碼不一致等等。在海量的實(shí)際數(shù)據(jù)中無意義的成分也很多,非常不利于后續(xù)的模型以及算法的訓(xùn)練。預(yù)處理的目的是為后續(xù)的模型提供滿足要求、更加具有針對性的數(shù)據(jù),從而提高數(shù)據(jù)分析效率和準(zhǔn)確率。
2.?dāng)?shù)據(jù)預(yù)處理的主要任務(wù)數(shù)據(jù)清洗對數(shù)據(jù)中的缺失值、異常值、不一致等情況進(jìn)行分析和處理數(shù)據(jù)集成為了滿足數(shù)據(jù)分析需要,合并來自多個數(shù)據(jù)源的數(shù)據(jù),并保證數(shù)據(jù)的一致性。數(shù)據(jù)變換用各種方式變換數(shù)據(jù)原本的數(shù)值,使得數(shù)據(jù)集在不失真的情況下,更能滿足下一步處理的需要,主要包括規(guī)范化、函數(shù)變化、數(shù)據(jù)類型變化等。數(shù)據(jù)規(guī)約產(chǎn)生更小但是能夠代表原有數(shù)據(jù)集合特點(diǎn)的新數(shù)據(jù)集。主要有屬性規(guī)約、數(shù)值規(guī)約等方法。3.數(shù)據(jù)清洗(1)缺失值分析缺失值是指在原始數(shù)據(jù)中由于缺少信息而造成的數(shù)據(jù)的某個或者某些屬性的值是不完全的,或者是不正確的。缺失值存在的原因常見的有:信息暫時無法獲取或信息獲取的成本較高;信息在儲存或傳輸過程中丟失;屬性值不存在等。(2)缺失值處理方法:刪除方法簡單易行、非常有效、迅速,但是它以減少數(shù)據(jù)量為代價來換取信息的完備,這樣做可能會將有用的信息一并刪除。
3.數(shù)據(jù)清洗(3)缺失值處理方法:數(shù)據(jù)填充當(dāng)我們獲取的數(shù)據(jù)集較小時,更不能直接刪除數(shù)據(jù),這時就需要對缺失值進(jìn)行插補(bǔ)。①指定值填充將空值作為一種特殊的屬性值進(jìn)行處理,有可能在后期的數(shù)據(jù)分析過程中,算法誤以為它們有實(shí)際的意義,而導(dǎo)致模型的錯誤。②使用屬性的集中度量填充根據(jù)數(shù)據(jù)的集中分布來填補(bǔ)缺失值,方法缺乏理論依據(jù)③插值法填充插值法類似于函數(shù)擬合,利用在某段區(qū)間中已知的若干點(diǎn)的函數(shù)值,擬合出適當(dāng)?shù)暮瘮?shù),那么在區(qū)間上所有點(diǎn)的值都可以用這個函數(shù)來近似,這樣對于缺失記錄,就可以用函數(shù)計(jì)算出的結(jié)果對缺失值進(jìn)行填補(bǔ)。常見的差值法有拉格朗日差值法和牛頓差值法。3.數(shù)據(jù)清洗(3)缺失值處理方法:數(shù)據(jù)填充④K最近鄰數(shù)據(jù)填充基本原理是根據(jù)與此實(shí)例相近的幾個實(shí)例的均值進(jìn)行填充。此方法用相似實(shí)例取值的均值進(jìn)行插補(bǔ),更加合理。但是該方法引入了數(shù)據(jù)間的自相關(guān),這可能會給后期的模型分析造成一定的偏差。⑤模型預(yù)測填充通過建模的方式,用已有值來建立變量間的模型關(guān)系,從而擬合出缺失值。在這個情景下,數(shù)據(jù)完整的記錄組成模型的訓(xùn)練集,而對缺失值的預(yù)測實(shí)際上是模型的應(yīng)用。缺失值處理的方法有很多,各有優(yōu)劣,無論是以哪種方式填充,都無法避免對原數(shù)據(jù)的影響,使得數(shù)據(jù)有偏。3.數(shù)據(jù)清洗(4)異常值分析異常值,也叫作離群點(diǎn)、噪聲點(diǎn),指的是在數(shù)值、結(jié)構(gòu)、特征等方面與大多數(shù)數(shù)據(jù)的表現(xiàn)顯著不同的數(shù)據(jù)樣本。產(chǎn)生異常值的常見原因:信息錄入時出現(xiàn)人為錯誤或系統(tǒng)誤差,有時候環(huán)境等因素也會帶來數(shù)據(jù)的極端變化。分析異常值的常用方法:箱線圖箱線圖也稱盒形圖,在箱線圖中標(biāo)示了代表數(shù)據(jù)分布的下四分位數(shù)、中位數(shù)和上四分位數(shù)。它相對穩(wěn)定,包含了數(shù)據(jù)集中50%的數(shù)值,不會受到異常值的影響。根據(jù)偏離程度的不同,箱線圖分析中將異常值分為兩類:偏離程度較小的定義為離群值,偏離程度較大的定義為極端值。3.數(shù)據(jù)清洗(4)異常值分析箱線圖
比上四分位數(shù)高出某范圍或比下四分位數(shù)低某范圍的值被判定為極端值。偏離上、下四分位數(shù)的程度不及極端值,但仍然有一定偏離程度的值被判定為離群值。3.數(shù)據(jù)清洗(5)異常值處理需要分析異常值是不是人為錯誤產(chǎn)生的。如果是由于環(huán)境變化產(chǎn)生的,這些異常值中通常就含有有用的信息,可以進(jìn)行單獨(dú)建模等處理。對于人為錯誤產(chǎn)生的異常值,可以采用如下方法處理:①直接刪除將含有異常值的記錄直接刪除。該方法操作簡單,同直接刪除有缺失值的記錄一樣,一般適用于數(shù)據(jù)集合較大,異常值占比較小的情形。②用其他值替代異常值可以利用填補(bǔ)的方法,將異常值利用數(shù)據(jù)的平均值、中位數(shù)等進(jìn)行替換和修正,也可以通過前面介紹的缺失值插補(bǔ)的其他方法對異常值進(jìn)行修正。
4.數(shù)據(jù)集成數(shù)據(jù)來自不同渠道并且用不同方式獲取時,有可能會導(dǎo)致對同一個對象的不同描述。數(shù)據(jù)集成不僅將數(shù)據(jù)進(jìn)行簡單合并,而且需要同時處理數(shù)據(jù)集的冗余和不一致,這對于后續(xù)的分析過程的準(zhǔn)確性和速度有很大影響。(1)實(shí)體識別每個數(shù)據(jù)來源通常有各自的數(shù)據(jù)定義和組織方法,因此,數(shù)據(jù)集成中經(jīng)常會遇到實(shí)體識別的問題,即同一個對象實(shí)體在不同的數(shù)據(jù)集中有不同的名稱(異名同義)或者同樣的名稱不對應(yīng)同一個實(shí)體(同名異義)等。在進(jìn)行數(shù)據(jù)實(shí)體識別時,不能被不規(guī)范的命名誤導(dǎo),需要進(jìn)行業(yè)務(wù)調(diào)研,準(zhǔn)確地確認(rèn)個表中每個屬性的實(shí)際含義,對數(shù)據(jù)表、屬性字段等進(jìn)行統(tǒng)一的規(guī)范命名,完成對數(shù)據(jù)的集成。4.數(shù)據(jù)集成(2)冗余和相關(guān)分析冗余如果一個特征屬性可以由其他屬性導(dǎo)出或者計(jì)算得到,則這個特征屬性可以被認(rèn)定為冗余。屬性冗余的判定依據(jù)是屬性之間是否存在較強(qiáng)的相關(guān)性。通過檢測屬性之間的相關(guān)性,即進(jìn)行相關(guān)分析就可以甄別出冗余屬性。相關(guān)分析具體方法主要分為兩種:1)對于標(biāo)稱型數(shù)據(jù),通常采用的方法為卡方檢驗(yàn);2)對于數(shù)值型數(shù)據(jù),可以通過相關(guān)系數(shù)或者協(xié)方差來衡量屬性之間的相關(guān)性。數(shù)據(jù)冗余有時會提高數(shù)據(jù)分析的效率。4.數(shù)據(jù)集成(3)實(shí)例重復(fù)實(shí)例重復(fù):給定的唯一的數(shù)據(jù)實(shí)體存在兩個或者多個相同的記錄實(shí)例。重復(fù)數(shù)據(jù)會嚴(yán)重影響后續(xù)數(shù)據(jù)分析的效果。對于數(shù)據(jù)中實(shí)例重復(fù)的問題,需要調(diào)查確定每個數(shù)據(jù)集的主鍵,對于沒有主鍵的數(shù)據(jù)表,需要確定合適的主鍵,或者對數(shù)據(jù)表進(jìn)行拆分或整合,從而有效地解決實(shí)例重復(fù)的問題。(4)數(shù)據(jù)沖突對于同一實(shí)體,來自不同數(shù)據(jù)源的相同的屬性值不同。原因:這可能是因?yàn)楂@取信息的時間點(diǎn)不同,屬性值發(fā)生了變化;可能是因?yàn)樵诓煌臄?shù)據(jù)源中其表示、單位或者編碼不同;相同的屬性可能抽象在不同的層次。解決方法:需要明確造成數(shù)據(jù)沖突的原因,如果是單位、計(jì)量方法等不同,可以通過數(shù)據(jù)變換對數(shù)據(jù)進(jìn)行變換整理;如果數(shù)據(jù)沖突實(shí)在無法避免或者變換,就需要根據(jù)實(shí)際的業(yè)務(wù)需求考慮沖突數(shù)據(jù),辨別出正確的數(shù)值。5.?dāng)?shù)據(jù)變換為了解決數(shù)據(jù)集成中的不一致問題,以及更容易被后續(xù)模型處理,提高模型的擬合度,需要將原有數(shù)據(jù)轉(zhuǎn)換成適當(dāng)?shù)男问?。(1)函?shù)變換函數(shù)變換是指對樣本中的原始數(shù)據(jù)直接使用某些數(shù)學(xué)函數(shù)進(jìn)行變換,使得處理后的數(shù)據(jù)更適合模型后續(xù)的處理。選擇數(shù)據(jù)變換函數(shù)需要考量:變換后的數(shù)據(jù)要分布在合理的區(qū)間,或者說變換后的數(shù)據(jù)符合對現(xiàn)實(shí)生活中分布的認(rèn)知。變換后的數(shù)據(jù)的分布特征、正負(fù)性和平穩(wěn)性等都可能會發(fā)生改變,所以在進(jìn)行函數(shù)變換前,應(yīng)該預(yù)判變換后是否會影響后續(xù)數(shù)據(jù)模型的建立和分析的有效性。5.?dāng)?shù)據(jù)變換(2)規(guī)范化數(shù)據(jù)規(guī)范化是指將原始數(shù)據(jù)按照一定的比例縮放,使其落入一個較小的特定區(qū)間。一般來說,通過數(shù)據(jù)的縮放能夠消除數(shù)據(jù)的量綱,消除度量單位引起的數(shù)值差異,即將屬性數(shù)據(jù)縮放到一個特定區(qū)間。①最小—最大規(guī)范化也稱為離散標(biāo)準(zhǔn)化,利用某屬性的最大值和最小值,將該屬性的取值映射到[0,1]之間。優(yōu)點(diǎn)是算法操作簡單,且保留了原始數(shù)據(jù)存在的關(guān)系缺點(diǎn)是規(guī)范值不穩(wěn)定,容易受極值的影響,方法適用于數(shù)據(jù)比較集中的情況。
5.?dāng)?shù)據(jù)變換(2)規(guī)范化③小數(shù)定標(biāo)規(guī)范化通過移動數(shù)據(jù)的小數(shù)位數(shù),即除以10的某次方,將數(shù)據(jù)映射到[-1,1]之間。移動的小數(shù)位數(shù)取決于數(shù)據(jù)中最大絕對值的位數(shù)。只是移動小數(shù)點(diǎn),不會破壞原始數(shù)據(jù)的分布結(jié)構(gòu),當(dāng)然也會受到極值的影響。
5.?dāng)?shù)據(jù)變換(3)離散化將數(shù)據(jù)從連續(xù)型數(shù)值數(shù)據(jù)轉(zhuǎn)換為離散型標(biāo)稱數(shù)據(jù)。進(jìn)行數(shù)據(jù)離散化通常是為了滿足特定模型的需要,將數(shù)據(jù)類型從連續(xù)轉(zhuǎn)換到,或者在某些情況下將已有的離散型數(shù)據(jù)進(jìn)行類別合并,減少類別數(shù)量。①等寬離散化將原始連續(xù)數(shù)據(jù)的區(qū)間劃分成具有相同寬度的子區(qū)間,比較簡單,缺點(diǎn)在于沒有考慮實(shí)際數(shù)據(jù)的分布情況,可能會導(dǎo)致離散化之后建立的數(shù)據(jù)模型樣本不均衡。②等頻離散化根據(jù)連續(xù)型數(shù)值數(shù)據(jù)的分布劃分類別,劃分后的各個區(qū)間包含的數(shù)據(jù)點(diǎn)的個數(shù)是相等的,為保證各個區(qū)間包含的實(shí)例個數(shù)相等,可能會將原本相同的兩個數(shù)值劃分到不同類別中,從而影響了后續(xù)建立模型的準(zhǔn)確性。③聚類離散化用聚類算法,根據(jù)數(shù)據(jù)的相似性將原始數(shù)據(jù)分成多個類別,實(shí)現(xiàn)離散化。效果較好的一類離散方法,缺點(diǎn):需要用戶自己規(guī)定聚類個數(shù),聚類的效果受到經(jīng)驗(yàn)的影響。5.?dāng)?shù)據(jù)變換(4)獨(dú)熱編碼(One-hotencoding)在數(shù)據(jù)集中標(biāo)稱數(shù)據(jù)有兩種常見類型:第一,分類的取值有大小之分,直接用數(shù)值表示類別,不需要進(jìn)行轉(zhuǎn)換;第二,離散特征的取值之間沒有大小之分,無法直接比較類別的差異,此時就需要對特征進(jìn)行獨(dú)熱編碼。根據(jù)類別可能的數(shù)量設(shè)定位數(shù)N,建立N位編碼,每一個類別對應(yīng)一個位置,因?yàn)闃颖局荒軐儆谝粋€類別,所以N位獨(dú)熱編碼中只有一位有效。離散特征進(jìn)行獨(dú)熱編碼之后,可以計(jì)算特征之間的距離或相似度。如果某個類別有多個可能的取值,則編碼的位數(shù)會相應(yīng)地增加,有時會影響處理效率。6.?dāng)?shù)據(jù)規(guī)約數(shù)據(jù)集可能規(guī)模較大,大幅度降低數(shù)據(jù)分析效率。數(shù)據(jù)規(guī)約就是能夠降低屬性維度、減少樣本數(shù)量的方法。核心是要產(chǎn)生規(guī)模更小但能最大可能保持原始數(shù)據(jù)特點(diǎn)和完整性的新數(shù)據(jù)集。(1)屬性規(guī)約屬性規(guī)約通過減少屬性數(shù)量,達(dá)到減少數(shù)據(jù)集的目的。主成分分析(PrincipalComponentAnalysis,PCA)是屬性規(guī)約的主要方法?;舅枷胧轻槍υ紨?shù)據(jù)集,重新構(gòu)造一組有代表性的、互不相關(guān)的新特征。不相關(guān)意味著這些新特征包含的信息彼此不重復(fù),而有代表性則說明,這些特征還能夠盡量多地涵蓋原始數(shù)據(jù)的信息。對于新特征互不相關(guān)的要求,可以利用正交基向量互不相關(guān)的性質(zhì),通過構(gòu)造多維度正交基向量來保證;而對于包含盡量多的信息的要求,則通過樣本在新特征上取值的方差來衡量,方差越大,說明數(shù)據(jù)在此新特征上越分散,包含的信息也越多。6.?dāng)?shù)據(jù)規(guī)約(2)數(shù)值規(guī)約用部分或者較小規(guī)模的數(shù)據(jù)來替換原始數(shù)據(jù)。①直方圖通過劃分子區(qū)間的方式減少原數(shù)據(jù)的屬性取值。子區(qū)間的劃分可以是等寬的,也可以是等頻的。②聚類利用聚類進(jìn)行數(shù)值規(guī)約,將數(shù)據(jù)分簇,使得同簇的對象相似,不同簇的對象相異,用每個數(shù)據(jù)簇中的代表值來替換原始數(shù)據(jù)。6.?dāng)?shù)據(jù)規(guī)約(2)數(shù)值規(guī)約③抽樣基本思想是從原始數(shù)據(jù)集合中隨機(jī)抽取小得多的子集,用其代表原始數(shù)據(jù)集。抽樣的方法主要包括簡單隨機(jī)抽樣、分層抽樣。簡單隨機(jī)抽樣每條數(shù)據(jù)記錄以相同的概率被抽中。具體分為無放回和有放回兩種。兩者的區(qū)別在于當(dāng)一個數(shù)據(jù)記錄從原始數(shù)據(jù)集中被抽取之后,無放回抽樣將在剩余數(shù)據(jù)集中繼續(xù)抽取新數(shù)據(jù);而有放回抽樣會將被抽取的數(shù)據(jù)放回原始數(shù)據(jù)集,下一次再次以同樣的概率被抽取。該方法主要適用于總體個數(shù)較小且樣本類別分布均衡的情況。分層抽樣先根據(jù)類別將原始數(shù)據(jù)集劃分為不同的層(或組),層之間是互不相交的,然后對每一層各自進(jìn)行抽樣,最后將各層抽樣的結(jié)果進(jìn)行整合,得到對于原始數(shù)據(jù)集的抽樣。第二節(jié)特征工程特征指的是對數(shù)據(jù)各方面的描述,是進(jìn)行分析和解決問題的基礎(chǔ)。好的數(shù)據(jù)和特征是所有模型和算法發(fā)揮到極致的前提。因此,需要圍繞分析的問題,在原始數(shù)據(jù)特征中找到既能盡量多地代表全部特征又能使算法模型達(dá)到最佳性能的特征子集。特征工程包括三個方面:特征構(gòu)建、特征提取和特征選擇。特征構(gòu)建是指圍繞需要解決的問題,用人工方法從原始數(shù)據(jù)中找出一些有代表性的、
能夠刻畫研究對象關(guān)鍵屬性的特征的過程。特征提取通過特征轉(zhuǎn)換,依據(jù)屬性取值之間的相關(guān)關(guān)系,去除不重要以及冗余的特征,減少特征數(shù)量的過程。第二節(jié)特征工程數(shù)據(jù)樣本的屬性特征分類可以分為三種類型:對當(dāng)前的學(xué)習(xí)任務(wù)有用的屬性稱為“相關(guān)特征”,可以提升模型的效果;對當(dāng)前的學(xué)習(xí)任務(wù)沒用的稱為“無用特征”;“冗余特征”是指其特征包含的信息能夠從其他特征中計(jì)算或者推演出來。特征選擇科學(xué)剔除不相關(guān)或者冗余特征的過程
1.特征選擇的目的“維數(shù)災(zāi)難”就是當(dāng)數(shù)據(jù)的特征維度超過某個值之后,隨著特征數(shù)量的進(jìn)一步增加,模型訓(xùn)練的效率會降低,同時訓(xùn)練出的模型準(zhǔn)確度反而會下降。為了降低模型的復(fù)雜性、降低模型訓(xùn)練的時間,同時提高模型的效果、準(zhǔn)確率,我們需要進(jìn)行特征選擇。
2.特征選擇的過程特征選擇的目標(biāo)就是從備選的特征子集中選擇出對算法模型表現(xiàn)最好的子集。特征選擇的過程一般為特征子集搜索、構(gòu)建候選子集、利用評價函數(shù)對子集進(jìn)行評價,然后利用停止規(guī)則,驗(yàn)證所得到的特征子集是否滿足要求。
3.子集搜索(1)完全搜索基本思路是遍歷原始特征所組成的所有可能的特征子集從中尋找最優(yōu)。需要對所有可能的特征子集利用評價函數(shù)進(jìn)行計(jì)算比較,評價函數(shù)表現(xiàn)最好的特征子集為最終的搜索結(jié)果。避免了局部最優(yōu)解,但是遍歷會帶來很大的計(jì)算開銷,其復(fù)雜度是指數(shù)級別的。
3.子集搜索(2)啟發(fā)式搜索從某一個候選特征子集出發(fā),向其中不斷添加或者減少特征,不斷構(gòu)建出新的特征子集,并在改變的過程中對候選子集進(jìn)行評價。序列前向選擇(SequentialForwardSelection,SFS),是不斷將新的特征添加到候選子集的方法。該方法的搜索從空集開始,每次選擇一個特征加入當(dāng)前子集,加入的判斷標(biāo)準(zhǔn)是評價函數(shù)得到了優(yōu)化,這個過程持續(xù)進(jìn)行,直到評價函數(shù)的值不能變得更優(yōu)時停止。序列后向選擇(SequentialBackwardSelection,SBS),該方法以特征全集為初始的特征子集,每次從特征子集中剔除一個特征,剔除的標(biāo)準(zhǔn)是剔除某特征后,評價函數(shù)值會變優(yōu)。雙向搜索(BiDirectionalSearch,BDS),將前面介紹的兩種方法結(jié)合起來進(jìn)行搜索,當(dāng)兩者達(dá)到相同的特征子集時停止搜索。
3.子集搜索(3)隨機(jī)搜索基本思想:在啟發(fā)式算法中進(jìn)行更改,使之能夠在一定程度上跳出局部最優(yōu)值隨機(jī)產(chǎn)生序列選擇算法隨機(jī)產(chǎn)生一個特征子集,再在該特征子集上執(zhí)行前向搜索算法和后向搜索算法。多次進(jìn)行此過程后,找到表現(xiàn)最優(yōu)的子集作為特征搜索的結(jié)果。模擬退火算法核心思想是有一定隨機(jī)概率拒絕表現(xiàn)更優(yōu)的子集,防止陷入局部最優(yōu)。4.子集評價依據(jù)評價函數(shù)對候選特征子集的優(yōu)劣進(jìn)行評價的過程。一個特征子集的優(yōu)劣往往是對于特定的評價函數(shù)來說的,對于不同問題背景下的評價函數(shù),同一特征子集的優(yōu)劣可能表現(xiàn)得不同。
5.特征選擇的方法根據(jù)評價和搜索與后續(xù)模型算法的聯(lián)系的緊密程度,特征選擇方法可以分為三類。5.特征選擇的方法(1)過濾式基本思想:首先選擇出在特征評價指標(biāo)下表現(xiàn)較好的特征子集,然后利用最終得到的最優(yōu)特征子集去訓(xùn)練模型。過濾式特征選擇的最大特點(diǎn)在于選擇特征子集的過程與模型的表現(xiàn)效果無關(guān),兩者是獨(dú)立進(jìn)行的。過濾式特征選擇對特征的評價與后續(xù)的模型算法無關(guān),是基于數(shù)據(jù)特征本身的性質(zhì)進(jìn)行評價的。優(yōu)點(diǎn):通用性較強(qiáng),選擇的特征子集可以應(yīng)用于多個問題背景;算法在特征
選擇時不需要進(jìn)行模型訓(xùn)練優(yōu)化,復(fù)雜性較低;適用于大規(guī)模且需要高效率選擇特征的數(shù)據(jù)集。缺點(diǎn):所選擇的特征子集在模型準(zhǔn)確率上通常低于其他兩種特征選擇方法。
5.特征選擇的方法
5.特征選擇的方法(1)過濾式②依賴性度量又稱為相關(guān)性度量,基于的假設(shè)為:特征子集所包含的特征應(yīng)該與目標(biāo)屬性的相關(guān)度較高,而子集中特征之間的相關(guān)度較低。皮爾遜相關(guān)系數(shù)被廣泛應(yīng)用于對兩個連續(xù)型數(shù)據(jù)屬性取值之間的相關(guān)程度的度量。用協(xié)方差除以兩個變量的標(biāo)準(zhǔn)差得到,計(jì)算結(jié)果介于-1到1之間,度量的是兩個屬性之間是否存在線性關(guān)系??ǚ綑z驗(yàn)衡量兩個離散屬性之間的相關(guān)程度。根本思想是:首先假設(shè)某特征屬性和目標(biāo)屬性是獨(dú)立的,也就是說,特征屬性與目標(biāo)結(jié)果沒有相關(guān)性,那么在此特征的取值范圍上,目標(biāo)屬性的分布理論上應(yīng)該是均勻的,通過比較理論值與實(shí)際值的吻合程度來確定原假設(shè)是否成立。5.特征選擇的方法(1)過濾式③信息增益度量信息增益的概念來自信息熵,通過衡量按照某屬性取值劃分后數(shù)據(jù)集的“純度”評價屬性的重要性。④一致性度量基于以下假設(shè):如果某特征對于研究目標(biāo)屬性是重要的,那么對于任意兩個樣本來說,當(dāng)它們在特征上的取值相同時,其在目標(biāo)屬性中的取值也應(yīng)該相同。一致性常用不一致率來衡量,不一致率越小,表示根據(jù)這一評價標(biāo)準(zhǔn),特征子集的表現(xiàn)越好。
5.特征選擇的方法(2)包裹式直接將后續(xù)要使用的模型性能的好壞作為特征選擇的評價標(biāo)準(zhǔn),選擇使得后續(xù)模型表現(xiàn)最好的特征子集作為最優(yōu)子集。包裹式特征選擇的結(jié)果不是普遍適用的,是直接針對給定的模型來進(jìn)行特征選擇的。優(yōu)點(diǎn):顯然從最終模型的性能、準(zhǔn)確率等表現(xiàn)來看,包裹式特征選擇要優(yōu)于過濾式特征選擇。缺點(diǎn):需要選擇不斷地訓(xùn)練模型,以得到表現(xiàn)最好的特征子集,所以相對于過濾式特征選擇來說,其花費(fèi)的時間和成本都較大,不適用于較大規(guī)?;蛘邿o關(guān)特征較多的數(shù)據(jù)集。典型的包裹式特征選擇方法包括LVW(LasVegasWrapper)算法和遞歸特征消除法RFE(recursivefeatureelimination)。5.特征選擇的方法(3)嵌入式?jīng)]有專門的準(zhǔn)則對特征進(jìn)行評價,而是將特征選擇的過程與模型的訓(xùn)練過程完全融合在一起,在模型構(gòu)建訓(xùn)練的過程中自動實(shí)現(xiàn)了特征選擇。常見的一種嵌入式特征選擇方式是進(jìn)行正則化,把額外的懲罰項(xiàng)加到原有模型的損失函數(shù)上,通過最小化正則項(xiàng),使那些不重要的特征所對應(yīng)的系數(shù)變成0,進(jìn)而實(shí)現(xiàn)特征選擇。有些數(shù)據(jù)挖掘的算法在完成模型訓(xùn)練的同時,自身就可以實(shí)現(xiàn)特征選擇,判斷哪些屬性對目標(biāo)屬性更重要。在自身的訓(xùn)練過程中完成了特征選擇,也是一種嵌入式特征選擇方法。計(jì)量模型
第一節(jié)時間序列分析
1.時間序列分析簡介(2)時間序列分析方法主要可以分為兩類:描述性時序分析和統(tǒng)計(jì)時序分析。描述性時序分析指的是,通過繪制時序圖等方式,比較、觀察、發(fā)現(xiàn)時間序列中顯然存在的一些變化趨勢,如數(shù)據(jù)逐漸增大或變小的趨勢性,或者數(shù)據(jù)變化呈現(xiàn)周期性等。1.時間序列分析簡介(2)時間序列分析方法統(tǒng)計(jì)時序分析目前比較流行的方法是進(jìn)行時域分析,認(rèn)為時間序列的值之間存在有一定的相關(guān)關(guān)系,而且這種相關(guān)關(guān)系通常具備某些統(tǒng)計(jì)規(guī)律。時域分析就是利用模型刻畫時間序列的值中體現(xiàn)的關(guān)系的規(guī)律。2.時間序列建模:平穩(wěn)性檢驗(yàn)時間序列根據(jù)其所具備的統(tǒng)計(jì)特征(如平均數(shù)、方差等)隨時間變化是否發(fā)生改變,可以分為平穩(wěn)時間序列和非平穩(wěn)時間序列,針對這兩種時間序列進(jìn)行時序分析,需要采用不同的處理手段和建模方法。所以在獲得到一個時間序列之后,要做的第一件事就是判斷該序列的平穩(wěn)性,即“平穩(wěn)性檢驗(yàn)”。(1)平穩(wěn)性檢驗(yàn)定義平穩(wěn)性檢驗(yàn)的重要依據(jù)是數(shù)據(jù)的特征統(tǒng)計(jì)量,包括均值,方差,自協(xié)方差和自相關(guān)系數(shù)、偏自相關(guān)系數(shù)等。從特征統(tǒng)計(jì)量的角度來判斷,平穩(wěn)時間序列具有三個主要特征:方差有限,均值為常數(shù),且自協(xié)方差及相應(yīng)自相關(guān)的大小只與時間段的相對長度而與時間發(fā)生的具體時間點(diǎn)無關(guān)的的時間序列。
2.時間序列建模:平穩(wěn)性檢驗(yàn)(1)平穩(wěn)性檢驗(yàn)方法繪制觀察自相關(guān)圖平穩(wěn)時間序列具有短期自相關(guān)性。用自相關(guān)系數(shù)來描述就是隨著延遲期數(shù)的增加,平穩(wěn)時間序列的自相關(guān)系數(shù)會很快衰減到0。在自相關(guān)系數(shù)圖上,自相關(guān)系數(shù)會隨著延遲期數(shù)的增長迅速衰減到0附近,并有所波動。單位根檢驗(yàn)方法時間序列無單位根,認(rèn)為該時間序列為平穩(wěn)時間序列。3.平穩(wěn)時間序列常用模型(1)非白噪聲序列白噪聲定義對平穩(wěn)時間序列進(jìn)行建模的一個前提是:該時間序列不是純隨機(jī)序列。純隨機(jī)序列也被稱為白噪聲序列。因?yàn)橐粋€純隨機(jī)序列,數(shù)值之間沒有關(guān)聯(lián),對這種序列進(jìn)行預(yù)測是沒有任何意義的。白噪聲檢驗(yàn)在進(jìn)行平穩(wěn)時間序列建模前,需要對序列是否是白噪聲序列進(jìn)行檢驗(yàn)。如果一個時序值為白噪聲序列,則該序列延遲非零期的樣本自相關(guān)系數(shù)將近似服從均值為0,方差為序列長度倒數(shù)的正態(tài)分布。由此建立原假設(shè)。通過計(jì)算時間序列的上述統(tǒng)計(jì)量,決定是否拒絕原假設(shè),即判斷該序列是不是白噪聲序列。3.平穩(wěn)時間序列常用模型(2)模型的定義常見的平穩(wěn)時間序列分析模型有三種:AR(AutoRegressive)MA(MovingAverage)ARMA(AutoRegressiveandMovingAverage)。從本質(zhì)上來看,這三個模型都是通過過去預(yù)測未來,即基于對系統(tǒng)進(jìn)行觀測得到的平穩(wěn)時間序列數(shù)據(jù),用曲線擬合方法對系統(tǒng)進(jìn)行客觀的描述并預(yù)測未來數(shù)值。三個模型的不同在于,它們基于平穩(wěn)時間序列的不同特性,模型中采用了不同的自變量描述前期數(shù)據(jù)與當(dāng)前數(shù)據(jù)的關(guān)系。3.平穩(wěn)時間序列常用模型(2)模型的定義AR模型聚焦于數(shù)值本身,利用前期數(shù)值與后期數(shù)值的相關(guān)關(guān)系建立模型,即把本期數(shù)值用之前的若干個時序值的線性組合表示。MA模型聚焦于時序值的白噪聲,認(rèn)為時間序列本期數(shù)值等于之前若干個時點(diǎn)白噪聲的線性組合ARMA模型綜合了AR模型和MA模型的思想,把本期數(shù)值用之前的若干個時序值及若干個時點(diǎn)的白噪聲兩種成分線性組合而成3.平穩(wěn)時間序列常用模型(3)模型識別與定階從三個模型中選擇出適合描述特定時間序列的模型繪制自相關(guān)系數(shù)圖和偏自相關(guān)系數(shù)圖進(jìn)行觀察、定階根據(jù)AR模型,MA模型和ARMA模型的性質(zhì),決定選擇哪一種模型確定模型類型后,參數(shù)估計(jì)可采用矩估計(jì),極大似然估計(jì)和最小二乘估計(jì)等方法。4.非平穩(wěn)時間序列基本思路是將非平穩(wěn)時間序列轉(zhuǎn)換成平穩(wěn)時間序列,建立平穩(wěn)時間序列模型,對轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行分析。(1)趨勢效應(yīng)與季節(jié)效應(yīng)非平穩(wěn)時間序列產(chǎn)生的原因長期趨勢,季節(jié)周期變化和隨機(jī)波動。趨勢效應(yīng)有些時間序列具有非常顯著的隨著時間增長或降低的趨勢。對于這種單調(diào)的變化趨勢,可以使用趨勢擬合法來測定。趨勢擬合法描述時序值隨時間的變化趨勢,所以模型將時間作為自變量,相應(yīng)的時序值作為因變量。進(jìn)而可以選擇線性或非線性回歸模型對自變量與因變量之間的關(guān)系進(jìn)行擬合。4.非平穩(wěn)時間序列(1)趨勢效應(yīng)與季節(jié)效應(yīng)季節(jié)效應(yīng)時間序列數(shù)據(jù)會呈現(xiàn)周期性波動變化。通常通過季節(jié)指數(shù)進(jìn)行測量。季節(jié)指數(shù)反映的是每個季度時序值的平均值與總平均值之間,是否存在比較穩(wěn)定的關(guān)系,如果關(guān)系穩(wěn)定則判定存在季節(jié)效應(yīng)。具體的計(jì)算方法為:首先計(jì)算周期內(nèi)的各期平均數(shù),再計(jì)算總平均數(shù),周期內(nèi)各期平均數(shù)與總平均數(shù)之商,則為季節(jié)系數(shù)。季節(jié)系數(shù)與1相比的大(小)關(guān)系,說明了該季度的值一般高(低)于總平均值。如果序列的季節(jié)指數(shù)都近似等于1,那就說明該序列沒有明顯的季節(jié)效應(yīng)。4.非平穩(wěn)時間序列(2)非平穩(wěn)時間序列建模ARIMA模型(AutoregressiveIntegratedMovingAverageModel)即全稱為差分自回歸移動平均模型。原理即為將非平穩(wěn)時間序列做差分轉(zhuǎn)換為平穩(wěn)時間序列,然后將因變量僅對它滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。對于趨勢性,可以使用一階差分,即使用時間序列的后一項(xiàng)減去前一項(xiàng),若一階差分后時間序列仍呈現(xiàn)有趨勢性,可再進(jìn)行一次一階差分。對于周期性,可以使用多步差分,例如如果周期約為7,則使用時間序列的第n項(xiàng)減去第n-7項(xiàng),形成新序列。可以使用移動平均法消除時間序列的季節(jié)性。移動平均法是指對原時間序列中每個周期長度內(nèi)的值取平均值,作為新的時間序列中的一項(xiàng)。如果經(jīng)過單位根檢驗(yàn)結(jié)果顯示,新的時間序列為平穩(wěn)時間序列,就可以對平穩(wěn)的時間序列進(jìn)行建模了。第二節(jié)回歸模型另一種常見的計(jì)量模型在回歸模型中,樣本數(shù)據(jù)的屬性特征被稱為自變量,而代表研究對象的目標(biāo)特征被稱為因變量。通過回歸分析研究自變量和因變量的關(guān)系,可以判斷自變量和因變量之間是否存在顯著因果關(guān)系,并且可以分析自變量對因變量的影響程度。常見的回歸有很多種分類方法1.回歸模型評價標(biāo)準(zhǔn)
1.回歸模型評價標(biāo)準(zhǔn)(1)誤差平均平方差MSE將真實(shí)值和預(yù)測值之間的差進(jìn)行平方通過平方操作也可以解決總誤差因?yàn)檎`差之間正負(fù)不同會抵消的問題,同時還方便求導(dǎo)。但是它對異常點(diǎn)比較敏感。平方根誤差RMSE將MSE值的開方,對異常點(diǎn)比較敏感。平均絕對百分誤差MAPE考慮預(yù)測值與真實(shí)值的值域。是一個相對值,可以通過比較兩個模型的MAPE來衡量它們的優(yōu)劣,但是對于單個模型的MAPE值沒有實(shí)際意義。1.回歸模型評價標(biāo)準(zhǔn)
1.回歸模型評價標(biāo)準(zhǔn)
2.線性回歸
2.線性回歸
3.非線性回歸思路一:觀察散點(diǎn)圖,選擇合適的模型非線性函數(shù)擬合建模將樣本數(shù)值以散點(diǎn)圖表示,通過觀察數(shù)據(jù)點(diǎn)的分布特點(diǎn),包括因變量隨自變量的變化規(guī)律、散點(diǎn)圖的大致形狀,直接相應(yīng)可能的非線性函數(shù)進(jìn)行擬合建模,并結(jié)合數(shù)據(jù)點(diǎn)進(jìn)行對這些函數(shù)參數(shù)的估計(jì)。常見的非線性回歸模型有多項(xiàng)式模型、指數(shù)函數(shù)模型、對數(shù)函數(shù)模型、冪函數(shù)模型等。多項(xiàng)式回歸擬合建模如果通過觀察散點(diǎn)圖,發(fā)現(xiàn)因變量與自變量的關(guān)系是非線性的,但是又找不到合適的非線性函數(shù)曲線進(jìn)行擬合,則可以采用多項(xiàng)式回歸。采用多項(xiàng)式回歸模型對樣本數(shù)據(jù)進(jìn)行建模,基本上能夠取得一個較好的效果。不過,模型在參數(shù)的估計(jì)、階數(shù)的選擇上有一定的難度,而且如果在多項(xiàng)式回歸中的指數(shù)選擇不當(dāng),容易導(dǎo)致過擬合。
3.非線性回歸思路二:轉(zhuǎn)化為線性模型常見的冪函數(shù)回歸、指數(shù)函數(shù)回歸、對數(shù)函數(shù)回歸均可以通過對原數(shù)據(jù)的轉(zhuǎn)換變?yōu)榫€性回歸。采用建立線性模型的方法建立模型、估計(jì)未知參數(shù)。在回歸中可以根據(jù)因變量類型的不同來選擇不同的回歸模型,線性和非線性回歸是當(dāng)因變量是連續(xù)值的時候能夠應(yīng)用到的回歸模型,當(dāng)因變量是離散型時,可以使用邏輯回歸模型。4.回歸模型和回歸系數(shù)的顯著性
4.回歸模型和回歸系數(shù)的顯著性
5.多重共線性的檢驗(yàn)多重共線性模型中兩個或者更多個自變量之間具有高度線性相關(guān)而導(dǎo)致。多重共線性的存在,會使得模型中一個自變量系數(shù)會依賴于在模型中的其他自變量,導(dǎo)致參數(shù)估計(jì)的不穩(wěn)定提高。多重共線性出現(xiàn)原因各變量之間本身存在相關(guān)聯(lián)系。各變量在時間上有共同變化的趨勢。在建立模型時,使用因變量的滯后值作為自變量。常見的多重共線性檢驗(yàn)相關(guān)系數(shù)檢驗(yàn)?;跇颖緮?shù)據(jù),計(jì)算兩個自變量之間的相關(guān)系數(shù)。輔助回歸模型檢驗(yàn)。擇模型中的一個自變量作為因變量構(gòu)造輔助回歸模型。計(jì)算方差擴(kuò)大因子。變量的共線程度越高,參數(shù)估計(jì)量的方差就越大。觀察判斷。觀察得到的回歸模型中各變量系數(shù)的正負(fù)和大小是否與現(xiàn)實(shí)相悖。5.多重共線性的檢驗(yàn)多重共線性處理增加樣本數(shù)量。一般而言,基于越大數(shù)據(jù)集合擬合的模型,多重共線性的可能性越小。差分模型。前面提到多重共線性可能是因?yàn)樽兞抗餐S時間變化而引起,建立差分模型,多重共線性的影響通常會減小。模型修正。多重共線性本質(zhì)上講是變量選擇和模型設(shè)定的問題,可以刪掉多重共線性比較嚴(yán)重的解釋變量。數(shù)據(jù)挖掘分類預(yù)測模型商務(wù)數(shù)據(jù)分析中除了預(yù)測問題,也存在很多分類問題。分類就是根據(jù)對象在各屬性特征上的表現(xiàn),將其映射到給定的類別。分類與預(yù)測問題有很多相似的地方,樣本數(shù)據(jù)都需要包括描述研究對象各方面表現(xiàn)的屬性特征和研究問題對應(yīng)的目標(biāo)特征,只是在分類問題中目標(biāo)特征是離散的,而預(yù)測問題中目標(biāo)特征是連續(xù)的。第一節(jié)分類模型評價標(biāo)準(zhǔn)在分類任務(wù)中,只用準(zhǔn)確率通常不能判斷算法的優(yōu)劣?;煜仃嚕–onfusionMatrix)混淆矩陣依據(jù)不同情況,對模型的分類結(jié)果進(jìn)行了整理:TP是預(yù)測值與真實(shí)值都為正的樣本數(shù)量TN是預(yù)測值和真實(shí)值都為負(fù)的樣本數(shù)量,兩種情況都表示模型分類結(jié)果正確FN表示真實(shí)值為正而預(yù)測為負(fù)的樣本數(shù)量,即實(shí)際的正樣本中有多少預(yù)測錯誤了,這是統(tǒng)計(jì)學(xué)中的第I類錯誤,F(xiàn)P表示真實(shí)值為負(fù)但是預(yù)測為正出現(xiàn)錯誤的樣本數(shù)量,是第II類錯誤。(1)準(zhǔn)確率、精確率、召回率、F1值精確率表示預(yù)測為正的樣本中有多少實(shí)際也為正的,召回率代表實(shí)際為正的樣本中有多少被識別出來了。換句話說,提高精確率是希望找到的都是正確的,而提高召回率是希望找得“全”。F1值是對精確率和召回率的一個結(jié)合評價。(2)ROC曲線和AUC
(2)ROC曲線和AUC選定閾值為某個值,所有數(shù)據(jù)樣本將會根據(jù)模型輸出值被判定相應(yīng)的類別,以此為依據(jù)計(jì)算出一組(TPR,FPR)值,即得到了繪制曲線的一個點(diǎn)。ROC曲線是由一組點(diǎn)(FPR,TPR)組成的,衡量的是TPR、FPR隨著模型判斷為正值的概率閾值的變化曲線。完美分類點(diǎn)(0,1)代表理想狀態(tài),即不管閾值如何,模型正確率為1,錯誤率為0。越接近于點(diǎn)(0,1)的ROC曲線代表的模型越好,預(yù)測越準(zhǔn)確。ROC曲線下的面積AUC(AreaUnderrocCurve)的大小可以直接用來比較模型,越大的AUC代表表現(xiàn)越好的模型。第二節(jié)邏輯回歸在商務(wù)數(shù)據(jù)分析中,經(jīng)常會遇到二分類問題,即研究對象的類別有兩個,某個樣本非此類即彼類。邏輯回歸就是解決這類問題的常見方法。邏輯回歸(Logisticsregression)是一種有監(jiān)督的學(xué)習(xí)算法。1.從線性回歸到邏輯回歸
2.邏輯回歸的參數(shù)優(yōu)化
3.邏輯回歸小結(jié)優(yōu)點(diǎn):(1)邏輯回歸模型輸出值即為概率值,描述了事件發(fā)生的概率,這使得二分類結(jié)果有更好的可分析性。(2)邏輯回歸中自變量前的系數(shù)具有很好的可解釋性。這一系數(shù)為分析自變量對于因變量的影響大小提供了依據(jù)。(3)邏輯回歸的計(jì)算代價低,容易實(shí)現(xiàn),在時間和內(nèi)存需求上相當(dāng)高效。缺點(diǎn):首先,它容易出現(xiàn)欠擬合的現(xiàn)象,分類精度不高,其次,當(dāng)數(shù)據(jù)有較多確實(shí)或者特征空間很大時,它的表現(xiàn)和效果并不是很理想。4.二分類算法應(yīng)用于多分類問題現(xiàn)實(shí)生活中,有很多問題可能有多個類別值。二分類模型應(yīng)用于多分類問題思路1:“一類對其余”假設(shè)產(chǎn)品分類中有n個類別,則構(gòu)造n個分類問題,訓(xùn)練相應(yīng)n個分類模型,第i個分類模型用于判斷解決樣本是否屬于第i類,即模型的輸出為{是,否},是一個二分類模型。原有的多類別問題被轉(zhuǎn)換為n個二分類模型。訓(xùn)練完成后,n個模型一同對新樣本進(jìn)行分類。將新樣本自變量屬性,分別輸入n個分類模型,輸出結(jié)果為“是”的分類模型對應(yīng)的類別便是新樣本所屬類別。好處:分類模型數(shù)量少缺點(diǎn):每個分類器的訓(xùn)練樣本分布都不均衡,影響了訓(xùn)練效果;而且每次有新的類別加入,需要重新訓(xùn)練所有的模型。4.二分類算法應(yīng)用于多分類問題現(xiàn)實(shí)生活中,有很多問題可能有多個類別值。二分類模型應(yīng)用于多分類問題思路1:“一類對一類”在n個類別中,每兩個類別建立一個分類模型?;谝延械臄?shù)據(jù)對這些模型進(jìn)行訓(xùn)練。訓(xùn)練完成后,模型一同對新樣本進(jìn)行分類。將新樣本自變量屬性,分別輸入所有分類模型,對模型輸出的類別結(jié)果統(tǒng)計(jì),將產(chǎn)品歸類為在分類器中輸出最多數(shù)量的類別。優(yōu)點(diǎn):每個分類器相對簡單缺點(diǎn):分類器總體數(shù)量較大,影響了算法效率。第三節(jié)決策樹決策樹組成部分一個決策樹的分支節(jié)點(diǎn)代表一個特征屬性,一個分支代表特征的某一個取值范圍,而決策樹最底端的葉節(jié)點(diǎn)代表一種類別。樣本按照如下的邏輯被劃分到某葉子節(jié)點(diǎn),即類別節(jié)點(diǎn)中。分類過程從根節(jié)點(diǎn)開始,將樣本數(shù)據(jù)在相應(yīng)特征屬性上的取值與分支節(jié)點(diǎn)的范圍進(jìn)行匹配,按結(jié)果劃分到下一個分支中,直至到樣本數(shù)據(jù)被劃分到某個葉節(jié)點(diǎn),得到最終的類別,作為模型的輸出。決策樹(DecisionTree)是通過構(gòu)造樹結(jié)構(gòu)來進(jìn)行分類的方法,它是一種有監(jiān)督的機(jī)器學(xué)習(xí)分類算法,即訓(xùn)練樣本需要含有類別信息。1.信息熵
1.信息熵
2.信息熵、不確定性與集合純度信息熵在分類問題中,是度量集合純度的常用指標(biāo),熵越小,純度越高。在分類任務(wù)中,好的分類結(jié)果是指能得到高純度的樣本集合。對應(yīng)于決策樹中,按某屬性分支進(jìn)行分類后得到的樣本純度越高,決策樹模型越好3.信息增益信息增益(InformationGain)表示的是隨機(jī)變量x的取值確定后,隨機(jī)變量y的信息熵的變化,或者說隨機(jī)變量y的不確定性減少的程度。對于分類問題而言,從信息增益角度,可以理解為按特征x的取值將樣本進(jìn)行分類后,樣本集合屬于某個類別y不確定性下降的程度,也就是樣本集合純度增加的程度。每個特征針對于類別都可以計(jì)算相應(yīng)的信息增益,不同特征對應(yīng)的信息增益大小不同。信息增益值更大,表明用這個特征分類得到的集合更純,是應(yīng)該優(yōu)先選擇的決策樹分類屬性。3.信息增益
4.常見的決策樹算法有多種方法可以完成對決策樹的構(gòu)建,實(shí)現(xiàn)分類,有些方法完全基于前面所介紹的信息增益,而有些方法則針對其不足對信息增益進(jìn)行了改進(jìn)。(1)ID3ID3是較早出現(xiàn)的決策樹算法,它以前面介紹的信息增益的值為依據(jù),每次選擇在當(dāng)前狀態(tài)下,信息增益最大的屬性為下一步的劃分屬性。對于可取值數(shù)目較多的屬性有偏好,會影響分類效果。4.常見的決策樹算法
4.常見的決策樹算法(3)CART(ClassificationAndRegressionTree,CART)分類與回歸樹,既可以應(yīng)用于目標(biāo)屬性為離散型的分類問題,也可以應(yīng)用于目標(biāo)屬性為連續(xù)型的回歸問題。假設(shè)決策樹是二叉樹,即分支節(jié)點(diǎn)只有兩個分支(“是”與“否”),決策樹作為分類樹和回歸樹時,分別有不同的生成原則依據(jù)。當(dāng)決策樹作為分類樹,即判別的結(jié)果是樣本屬于哪個類別時,依據(jù)基尼指數(shù)的大小選擇分類所依據(jù)的特征屬性。對于一個數(shù)據(jù)集D來說,其基尼指數(shù)可以理解為從數(shù)據(jù)集中隨機(jī)選取兩個樣本,兩者屬于不同類別的概率。生成決策樹的過程即為每次選擇使得Gini指數(shù)小的屬性和該屬性上的某一取值(a)進(jìn)行劃分。當(dāng)CART作為回歸樹,即判別的結(jié)果為具體的數(shù)值時,生成樹的依據(jù)是回歸樹輸出的預(yù)測值與實(shí)際值的誤差平方和最小。5.決策樹的剪枝在決策樹的生成過程中很容易造成決策樹的分支過多,導(dǎo)致過擬合,泛化能力下降?!凹糁Α笔菦Q策樹為了解決可能的過擬合問題采用的方式(1)預(yù)剪枝預(yù)剪枝的思想是從空集開始增加分類屬性節(jié)點(diǎn),每次選擇一個屬性時,需要判斷隨著該屬性被加入到?jīng)Q策樹,決策樹在測試集上的表現(xiàn)(分類準(zhǔn)確度)有沒有變優(yōu),如果變優(yōu),則將該屬性加入決策樹,直到滿足停止條件。(2)后剪枝后剪枝的思想是先基于所有屬性生成一棵完整的樹,這棵樹最終葉子節(jié)點(diǎn)中分類純度是100%。然后自底向上假定某一個分支下面的子樹若被葉節(jié)點(diǎn)替代,計(jì)算此時在測試集中,決策樹的分類準(zhǔn)確率有沒有變化。如果分類準(zhǔn)確性增加或者沒有降低,則進(jìn)行剪枝,用葉子節(jié)點(diǎn)代替子樹,葉子節(jié)點(diǎn)的類別由相應(yīng)樣本集合中占多數(shù)的類別決定。對比預(yù)剪枝思想直接,算法簡單,但容易出現(xiàn)“欠擬合”的現(xiàn)象,對特征的學(xué)習(xí)不足,得到的決策樹分類性能不高。后剪枝是生成整個決策樹后才進(jìn)行剪枝,因此其不容易出現(xiàn)該現(xiàn)象,但是所用時間要比預(yù)剪枝多,算法也更復(fù)雜。6.決策樹小結(jié)決策樹主要優(yōu)點(diǎn)包括:易于理解、并且很多情況下可以進(jìn)行可視化,比其他分類模型更為清晰的表述分類過程和結(jié)果;可以同時實(shí)現(xiàn)特征選擇,即特征工程中介紹的嵌入式方法,在構(gòu)建決策樹的過程中同時完成了分類任務(wù)和特征選擇;一般不需要對數(shù)據(jù)預(yù)處理;可以處理數(shù)值變量和分類變量(CART樹);可以處理多值分類問題;結(jié)果具有一定的可解釋性。但是決策樹也存在一些缺點(diǎn),包括:較容易過擬合;決策樹不是很穩(wěn)定,一個比較小的變異就可能產(chǎn)生一個不同的樹;需要數(shù)據(jù)的平衡;只能是依據(jù)當(dāng)前的標(biāo)準(zhǔn)選擇最好的分類屬性,但不能保證最后的整棵樹是最優(yōu)的。第四節(jié)貝葉斯算法貝葉斯算法就是基于概率進(jìn)行分類的算法。1.貝葉斯概率貝葉斯理論認(rèn)為人們基于自己已有的認(rèn)知,對事物發(fā)生的可能性有自己的判斷,這被稱為先驗(yàn)知識。不同人得到的概率判斷不同,即概率是主觀的。隨著不斷觀察或收集到更多的樣本和結(jié)果,人們不斷地修正對事物的認(rèn)識,形成后驗(yàn)分布,這稱為后驗(yàn)知識。
2.
貝葉斯公式
2.貝葉斯公式
3.樸素貝葉斯算法
4.非樸素貝葉斯算法屬性之間總有一些關(guān)聯(lián)?!胺腔虬霕闼刎惾~斯”算法基本想法是考慮一些比較強(qiáng)的屬性之間的依賴關(guān)系,并不考慮全部屬性之間的所有依賴關(guān)系。SPODE算法假設(shè)有一個特征屬性與其他所有的特征屬性有依賴關(guān)系,比較確認(rèn)父屬性之后,對后驗(yàn)概率進(jìn)行修正。TAN算法將屬性之間的依賴關(guān)系化為樹形結(jié)構(gòu),將任意兩個屬性之間的條件互信息(代表相關(guān)性大?。┳鳛閮蓚€變量之間的權(quán)重,然后利用最大帶權(quán)生成樹保留強(qiáng)相關(guān)屬性的依賴性,經(jīng)過依賴性確認(rèn)后,再利用貝葉斯公式繼續(xù)計(jì)算。貝葉斯網(wǎng)利用有向無環(huán)圖和條件概率表來計(jì)算屬性之間的聯(lián)合概率分布,貝葉斯網(wǎng)中一個屬性可以依賴不止一個屬性。5.貝葉斯算法小結(jié)優(yōu)點(diǎn)過程簡單,基于概率算法容易理解;對于多分類問題或?qū)崟r分類問題,貝葉斯算法有很好的表現(xiàn);隨著樣本可能的分類的增加,算法效率依然有保障,復(fù)雜度并沒有大幅度的上升;如果現(xiàn)實(shí)中某一分類任務(wù)能夠滿足屬性之間相互獨(dú)立的假設(shè),樸素貝葉斯算法能夠簡單又快速解決分類。缺點(diǎn)真實(shí)的值沒有太多的意義現(xiàn)實(shí)生活中能夠滿足條件獨(dú)立性假設(shè)的問題很少,屬性之間往往有共線性,如果考慮到所有屬性之間的共線性,貝葉斯算法很難求出所有變量的概率分布。第五節(jié)k最近鄰算法
2.K近鄰算法的三個基本要素
2.K近鄰算法的三個基本要素
2.K近鄰算法的三個基本要素(2)最近鄰數(shù)量K最近鄰數(shù)量k值的選擇不同,k近鄰算法分類的結(jié)果也會不同。極端情況,k=1,新樣本的種類就由與其最接近的一個樣本的類別所決定;而k最大可以等于所有樣本數(shù)量,則新樣本的種類是訓(xùn)練集中占多數(shù)的種類。為了衡量不同的k值對于模型的影響,引入“近似誤差”(approximationerror),和“估計(jì)誤差”(estimationerror)兩個指標(biāo)。近似誤差可以理解為對訓(xùn)練集的訓(xùn)練誤差,估計(jì)誤差可以理解為對測試集的測試誤差。通常k值都比較小。(3)分類決策規(guī)則一般情況下都是選擇多數(shù)表決法,即樣本的k個近鄰中,較多的樣本屬于某一類別,就判定待預(yù)測樣本也屬于這一類別。3.改進(jìn)最近鄰算法:kd樹的構(gòu)造從空間來看,kd樹在構(gòu)建過程中,根據(jù)已有的樣本點(diǎn),不斷用垂直于某一坐標(biāo)軸的超平面來對空間進(jìn)行劃分,劃分成很多個k維超矩形空間,樹的每一個節(jié)點(diǎn)都對應(yīng)著一個超矩形空間。K最近鄰算法需要遍歷一遍所有的樣本,找到最近的樣本,但是當(dāng)樣本量很大時,這一方法十分耗時。改進(jìn)方法是構(gòu)造kd樹。kd樹是一個二叉樹,即樹中每個節(jié)點(diǎn)只有兩個分支。kd樹將具有k個特征的樣本點(diǎn)進(jìn)行劃分,建立樹狀數(shù)據(jù)結(jié)構(gòu)。從而在此基礎(chǔ)上進(jìn)行最近鄰尋找時,快速遍歷符合條件的樣本,而不需要遍歷所有樣本。4.最近鄰算法小結(jié)基于kd樹進(jìn)行最近鄰的查詢,不需要每次遍歷所有樣本計(jì)算距離優(yōu)點(diǎn):算法簡單,易于理解,算法沒有參數(shù)估計(jì),不需要訓(xùn)練,所以速度快;果k值的選擇恰當(dāng),那么k近鄰算法對于異常值不太敏感;k近鄰算法可以應(yīng)用于多分類問題,也比較適合對一些稀有事件進(jìn)行分類。缺點(diǎn):它不能解釋哪個屬性對于最終的結(jié)果影響較大k值的選擇是一個難點(diǎn),很難直接找到最優(yōu)的k值,一般會通過設(shè)置多個k值,不斷比較的方式確定針對當(dāng)前樣本最優(yōu)的k值。第六節(jié)支持向量機(jī)
1.SVM基本原理
1.SVM基本原理
2.軟間隔
在很多情況下,樣本很難用一個超平面分開不出現(xiàn)錯誤,而且如果用一個超平面分開,也有可能導(dǎo)致過擬合的現(xiàn)象。因此,可以允許一些樣本分類不正確如右圖所示,落入兩條虛線的樣本代表不滿足約束的樣本。3.SVM中的核函數(shù)很多情況下,樣本是不可線性分割的,SVM用核函數(shù)來解決這一問題。核函數(shù)可以理解成一個映射函數(shù),目的是將低維空間無法線性可分的樣本,通過核函數(shù)映射到高維特征空間,最終在高維特征空間中構(gòu)造出分離的超平面。核函數(shù)簡化了映射到高維空間后的優(yōu)化求解實(shí)際上確定了樣本被映射到高維的分類效果,選擇不同的核函數(shù),意味著不同的分類效果,即直接影響著最終模型的性能。常用的核函數(shù)有線性核、多項(xiàng)式核、高斯核、Sigmoid核函數(shù)等等。在實(shí)際應(yīng)用中,一般會通過嘗試不同的核函數(shù),比較分類效果,確定合適當(dāng)前問題的核函數(shù)。4.SVM算法的特點(diǎn)優(yōu)點(diǎn):在小樣本集上面有較高的準(zhǔn)確率,而且泛化能力強(qiáng);不依賴于全部的數(shù)據(jù),對分類產(chǎn)生最終產(chǎn)生影響的只有支持向量,因此其對樣本的敏感度較低,容忍性較高。局限:如當(dāng)數(shù)據(jù)量很大時,它的計(jì)算速度慢,將樣本映射到高維度空間上,結(jié)果不具備解釋性,核函數(shù)的選擇問題是另一個難點(diǎn)。第七節(jié)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks)由若干節(jié)點(diǎn)形成交互網(wǎng)絡(luò),根據(jù)已經(jīng)收集的信息來學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò),最終能夠應(yīng)用網(wǎng)絡(luò)預(yù)測新的樣本。人工神經(jīng)網(wǎng)絡(luò)可以理解為一種黑箱模型,而且只要訓(xùn)練數(shù)據(jù)量足夠大,它可以擬合出輸入到輸出之間的任意函數(shù)關(guān)系,突破了回歸模型對函數(shù)類型的要求。神經(jīng)網(wǎng)絡(luò)比較強(qiáng)大,可以處理機(jī)器學(xué)習(xí)領(lǐng)域中的很多問題,它具有線性和非線性學(xué)習(xí)算法的能力,在最近幾年得到了迅猛發(fā)展1.神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)單層神經(jīng)網(wǎng)絡(luò)右圖所示的是一種最簡單的神經(jīng)網(wǎng)絡(luò),即單層神經(jīng)網(wǎng)絡(luò),也稱作感知器,它是人工神經(jīng)網(wǎng)絡(luò)中的一種典型的結(jié)構(gòu),它的主要特點(diǎn)是結(jié)構(gòu)簡單,它是兩層神經(jīng)元之間的連接,被稱為輸入層和輸出層。
1.神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)多層神經(jīng)網(wǎng)絡(luò)在輸入層和輸出層之間加入了隱含層。隱含層的神經(jīng)元可以對其輸出函數(shù)進(jìn)行非線性化設(shè)計(jì),因此多層感知器可以處理非線性問題。兩個隱層的神經(jīng)網(wǎng)絡(luò)就可以解決大多數(shù)復(fù)雜的分類問題。多層前饋神經(jīng)網(wǎng)絡(luò)每層神經(jīng)元與相鄰層神經(jīng)元全相連,神經(jīng)元之間不存在同層相連,也不存在跨層相連2.神經(jīng)元模型
2.神經(jīng)元模型
2.神經(jīng)元模型
3.BP神經(jīng)網(wǎng)絡(luò)一種基本的神經(jīng)網(wǎng)絡(luò)——BP(ErrorBackPropagation)誤差反向傳播神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)結(jié)構(gòu)確定后,建模本質(zhì)上就是確定網(wǎng)絡(luò)的兩類主要參數(shù):神經(jīng)元之間的連接權(quán)重和每個功能神經(jīng)元激活閾值,目的是使得網(wǎng)絡(luò)在樣本中的分類或訓(xùn)練誤差最小。BP算法是訓(xùn)練參數(shù)的一種方法。算法的學(xué)習(xí)過程由取值從輸入層到輸出層的正向傳播與誤差的反向傳播(算法名稱由來)兩個過程組成,是目前采用最多的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。3.BP神經(jīng)網(wǎng)絡(luò)BP算法屬于有監(jiān)督學(xué)習(xí),即訓(xùn)練樣本中包含目標(biāo)屬性的真實(shí)值。真實(shí)值與網(wǎng)絡(luò)模型的輸出值之間的誤差,是算法進(jìn)行參數(shù)調(diào)整的基礎(chǔ)。BP算法包括正、反兩個傳播過程右圖中實(shí)線箭頭表示的正向傳播是指將訓(xùn)練數(shù)據(jù)的特征值作為輸入層節(jié)點(diǎn)的取值,在網(wǎng)絡(luò)中根據(jù)權(quán)重和閾值,經(jīng)過各隱含層,直到計(jì)算到輸出層得到輸出結(jié)果,這是正向傳播。計(jì)算網(wǎng)絡(luò)的輸出值與訓(xùn)練數(shù)據(jù)的真實(shí)值之間的誤差,如果誤差滿足條件,則訓(xùn)練結(jié)束,當(dāng)前網(wǎng)絡(luò)為最優(yōu)網(wǎng)絡(luò);否則啟動虛線箭頭表示的反向傳播,根據(jù)誤差調(diào)整權(quán)重參數(shù)。反向傳播指的是將為了達(dá)到誤差最小,誤差通過導(dǎo)數(shù)又從輸出層反向傳播到模型隱含層,再到輸入層,從后向前一層一層地更新連接權(quán)重、閾值等參數(shù)。更新后的網(wǎng)絡(luò)利用訓(xùn)練數(shù)據(jù)再次啟動正向傳播,再次得到網(wǎng)絡(luò)輸出,計(jì)算誤差,不斷重復(fù)這個過程直到誤差不再減小或者模型效果滿意為止。4.BP神經(jīng)網(wǎng)絡(luò)特點(diǎn)優(yōu)點(diǎn)神經(jīng)網(wǎng)絡(luò)不僅僅適用于預(yù)測問題,對于分類問題同樣適用??梢詳M合目標(biāo)特征與屬性特征之間可能存在的任何關(guān)系,勝任任何預(yù)測任務(wù)。缺點(diǎn)神經(jīng)網(wǎng)絡(luò)中的輸入節(jié)點(diǎn)對輸出節(jié)點(diǎn)的影響無法用參數(shù)直接加以解釋。訓(xùn)練時權(quán)重和網(wǎng)絡(luò)結(jié)構(gòu)的初始化有可能會導(dǎo)致訓(xùn)練過程收斂到局部最小值,無法得到最優(yōu)網(wǎng)絡(luò)及參數(shù)。對于這個問題,常常采取的應(yīng)對方法有生成多個初始網(wǎng)絡(luò)、模擬退火、引入隨機(jī)因素、遺傳算法等。第八節(jié)分類和預(yù)測算法擴(kuò)展
1.?dāng)?shù)據(jù)不平衡問題(2)過采樣與欠采樣訓(xùn)練集是真實(shí)樣本的無偏取樣,這一假設(shè)很難實(shí)現(xiàn)。因此,還可以采用過采樣和欠采樣的方法來平衡數(shù)據(jù)集。欠采樣是減少較多的那一類的樣本欠采樣的時間開銷較少,但是如果隨機(jī)任意刪除樣本,有可能損失樣本中的重要信息。欠采樣的代表性算法EasyEnsemble的主要思想是將數(shù)量占多的那一類樣本隨機(jī)分為幾個子集,每一個子集和少的那一類樣本整合起來,作為訓(xùn)練數(shù)據(jù)集,分別訓(xùn)練多個分類器模型,這樣在每個子分類器中實(shí)現(xiàn)了樣本均衡,再利用集成學(xué)習(xí)算法得到最終的分類器。過采樣是增加較少的那一類的樣本,從而實(shí)現(xiàn)不同類別樣本的均衡。過采樣也不能簡單復(fù)制少數(shù)類的樣本,代表性算法SMOTE的基本思想是通過插值法產(chǎn)生新的少數(shù)類樣本。2.集成學(xué)習(xí)(EnsembleLearning)
不是一種新的分類算法,而是一種思想影響集成學(xué)習(xí)效果的關(guān)鍵因素有兩個:個體學(xué)習(xí)器的選擇以及對它們各自學(xué)習(xí)結(jié)果的整合方式?;舅枷胧峭ㄟ^構(gòu)建和結(jié)合多個個體分類(學(xué)習(xí))器來實(shí)現(xiàn)學(xué)習(xí)任務(wù)?!耙粋€好漢三個幫”,多個個體學(xué)習(xí)器首先基于各自訓(xùn)練集,完成各自模型訓(xùn)練的任務(wù)。當(dāng)需要對新樣本進(jìn)行分類時,將新樣本輸入到每個個體學(xué)習(xí)器,會各自產(chǎn)生一個分類結(jié)果,所有的分類結(jié)果通過一定的方式進(jìn)行整合,得到對樣本的最終分類結(jié)果。2.集成學(xué)習(xí)(1)個體學(xué)習(xí)器同質(zhì)的集成學(xué)習(xí)中,個體學(xué)習(xí)器的類型是相同的,比如,可以都是決策樹,此時個體學(xué)習(xí)器被稱為“基學(xué)習(xí)器”,對應(yīng)的算法稱為“基學(xué)習(xí)算法”。異質(zhì)的集成學(xué)習(xí)是由不同類型的個體學(xué)習(xí)器組成。比如,組件學(xué)習(xí)器中既有決策樹也有神經(jīng)網(wǎng)絡(luò)模型。對個體學(xué)習(xí)器的第一個要求:“好”,能夠提高分類的準(zhǔn)確度。對個體學(xué)習(xí)器的第二個要求:“不同”,能夠提高泛化程度。如何能夠讓個體分類器“好而不同”是集成學(xué)習(xí)算法的主要目標(biāo)。(2)個體學(xué)習(xí)器的結(jié)果整合連續(xù)值預(yù)測問題中,對各個體學(xué)習(xí)器的輸出,可以通過平均或者加權(quán)平均的方式整合為集成學(xué)習(xí)器的輸出。分類問題中,一般通過投票法,每個個體分類器預(yù)測某樣本類別,所輸出的類別獲得投票,在所有個體分類器中獲得投票占多數(shù)的樣本獲勝,個體分類器在投票時也可以被賦予不同的權(quán)重。集成學(xué)習(xí)的性能通常要好于單個學(xué)習(xí)器。2.集成學(xué)習(xí)(3)迭代式集成學(xué)習(xí)Boosting按順序訓(xùn)練個體分類器,根據(jù)初步訓(xùn)練分類的結(jié)果,改變訓(xùn)練集合中樣本的分布,使得后續(xù)進(jìn)行分類的分類器聚焦在那些很難分類準(zhǔn)確的樣本上,直至達(dá)到要求。在對個體學(xué)習(xí)器的結(jié)果進(jìn)行結(jié)合時,通常使用加權(quán)的投票機(jī)制代替平均投票機(jī)制,賦予分類效果好的分類器較大的權(quán)重。這類算法的學(xué)習(xí)主要關(guān)注的點(diǎn)是降低偏差,因此它能基于泛化性能相當(dāng)弱的學(xué)習(xí)器構(gòu)建出很強(qiáng)的集成效果。(4)并列式集成學(xué)習(xí)Bagging基本假設(shè)是個體學(xué)習(xí)器彼此是獨(dú)立的,對各個獨(dú)立訓(xùn)練的個體學(xué)習(xí)器的結(jié)果進(jìn)行綜合。使得它們的訓(xùn)練樣本集合盡可能的不同隨機(jī)森林是一個典型的Bagging算法一般情況下,當(dāng)個體學(xué)習(xí)器彼此之間有較強(qiáng)的依賴時,Boosting算法更好,而當(dāng)個體學(xué)習(xí)器之間不存在強(qiáng)依賴時,可以使用Bagging算法。數(shù)據(jù)挖掘聚類
與關(guān)聯(lián)規(guī)則模型第一節(jié)聚類1.聚類概念按照某個特定標(biāo)準(zhǔn)(如距離遠(yuǎn)近、相似程度)把一個數(shù)據(jù)集分割成不同的類或簇,分割原則是屬于同一個類或簇內(nèi)的數(shù)據(jù)對象盡可能相似,同時不在同一個類中的數(shù)據(jù)對象盡可能不同。聚類的結(jié)果本質(zhì)上是將已有的大量數(shù)據(jù)濃縮成若干類,并用集體特征替代類簇內(nèi)樣本特征。無監(jiān)督學(xué)習(xí)。在進(jìn)行聚類的時候,事先并不知道每個類別的特點(diǎn)、每個樣本的類別,也不需要使用訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),只需要計(jì)算出各個訓(xùn)練樣本之間的相似度或距離,然后按照相似程度或距離遠(yuǎn)近,將數(shù)據(jù)集分成若干類。同時,在聚類完成之后才能知道每個類到底具備什么樣的特征。依據(jù)相似性進(jìn)行分析,距離計(jì)算是最為常見的相似度度量方法。2.K-Means聚類方法操作簡便,聚類速度快,適合較為簡單的聚類場景,但是同樣受制于均值的局限性很容易受離群點(diǎn)的影響,而且需要提前設(shè)定K值的大小,通常在多次參數(shù)設(shè)定后,結(jié)合研究問題,確定最好的聚類結(jié)果對應(yīng)的K。首先根據(jù)聚類類別數(shù)量要求,隨機(jī)指定k個點(diǎn)作為各類別的中心點(diǎn)(稱之為質(zhì)心),初始化質(zhì)心的屬性值可以完全隨機(jī),也可以在觀察數(shù)據(jù)特征后人為規(guī)定屬性值;第二步,計(jì)算每個樣本數(shù)據(jù)點(diǎn)到質(zhì)心的距離,數(shù)據(jù)點(diǎn)距離哪個質(zhì)心點(diǎn)最近就劃分到哪一類中;第三步,計(jì)算更新后的類的質(zhì)心點(diǎn);重復(fù)第二、三步,直到每一類質(zhì)心在迭代后變化不大為止。最常見,也是最簡單的一種聚類算法,事先指定聚類數(shù)量k,按照相似程度將全部樣本聚為k類,并用每一類中所有樣本某項(xiàng)屬性的均值來代表該類的屬性值。3.基于密度的聚類方法(DBSCAN)DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)基于密度進(jìn)行聚類,并考慮噪聲。核心思想是,根據(jù)密度判定密切聯(lián)系的樣本屬于一類,不屬于任何一類的樣本稱為噪聲。密度具體衡量的是在設(shè)定的取值范圍內(nèi)樣本的數(shù)量,由此算法中有兩個重要參數(shù)衡量密度,r代表取值范圍,MinPts代表最少樣本數(shù)量。根據(jù)數(shù)據(jù)密度,將樣本點(diǎn)分為以下三類:核心點(diǎn):以此點(diǎn)為中心,在半徑r內(nèi)含有超過MinPts數(shù)目的點(diǎn);邊界點(diǎn):在半徑r內(nèi)點(diǎn)的數(shù)量小于MinPts,但是與某個核心點(diǎn)的距離小于指定半徑;噪音點(diǎn):樣本中既不是核心點(diǎn)也不是邊界點(diǎn)的點(diǎn),即與其他數(shù)據(jù)有顯著差異的樣本。3.基于密度的聚類方法(DBSCAN)
算法的步驟如下:首先,以半徑r,最少樣本數(shù)量MinPts兩個參數(shù)判斷樣本集合中的核心點(diǎn)。然后,隨機(jī)找到一個核心點(diǎn),找到所有與其密度可達(dá)的核心點(diǎn),這些點(diǎn)構(gòu)成一類。而對于每一個邊界點(diǎn),將其歸為半徑r內(nèi)最近的核心點(diǎn)所屬的類。將已有類別的點(diǎn)從集合中刪除,在集合中隨機(jī)找到下一個核心點(diǎn)繼續(xù)前面的步驟,直到給所有可能的點(diǎn)賦予了類別。最后,不屬于任何一類的點(diǎn)稱為噪聲點(diǎn)。形成的聚類形狀可以是任意形狀,并且能夠識別出噪聲點(diǎn),極大地減小了噪聲點(diǎn)(離群點(diǎn))對聚類結(jié)果的影響。不足之處,主要表現(xiàn)在:(1)對于特征數(shù)量較多的高維樣本數(shù)據(jù)不適用;(2)如果樣本集的密度不均勻、聚類間距差相差很大時,聚類質(zhì)量較差。4.層次凝聚聚類(HAC)層次聚類基于計(jì)算不同樣本點(diǎn)的相似度創(chuàng)建一棵有層次的聚類樹實(shí)現(xiàn)聚類每一個原始樣本點(diǎn)是這棵樹的最低層節(jié)點(diǎn),代表每個樣本點(diǎn)都是一類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度航空航天模具維護(hù)改造合同3篇
- 二零二五版物流倉儲場地租賃合同模板2篇
- 2025年度個人房屋租賃合同(含租賃用途限制)4篇
- 二零二五版旅游消費(fèi)短期貸款借款合同模板
- 建筑工程合同(2篇)
- 機(jī)遇與困境并存:淺談自動駕駛汽車行業(yè)的數(shù)據(jù)共享
- 二零二五年度影視劇本演員試鏡協(xié)議范本4篇
- 2024年中級經(jīng)濟(jì)師考試題庫附答案(滿分必刷)
- 青蛙的叫聲6篇
- 2024年中職畜牧獸醫(yī)試題
- 《如何存款最合算》課件
- 社區(qū)團(tuán)支部工作計(jì)劃
- 拖欠工程款上訪信范文
- 江蘇省泰州市2023-2024學(xué)年高一上學(xué)期物理期末試卷(含答案)
- 2024年內(nèi)蒙古準(zhǔn)格爾旗應(yīng)急管理局招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 對講機(jī)外殼注射模設(shè)計(jì) 模具設(shè)計(jì)及制作專業(yè)
- 中華人民共和國職業(yè)分類大典是(專業(yè)職業(yè)分類明細(xì))
- 2025年新高考語文復(fù)習(xí) 文言文速讀技巧 考情分析及備考策略
- 2024年??谑羞x調(diào)生考試(行政職業(yè)能力測驗(yàn))綜合能力測試題及答案1套
- 一年級下冊數(shù)學(xué)口算題卡打印
- 2024年中科院心理咨詢師新教材各單元考試題庫大全-下(多選題部分)
評論
0/150
提交評論