第三周決策樹和BoostingToStu_第1頁
第三周決策樹和BoostingToStu_第2頁
第三周決策樹和BoostingToStu_第3頁
第三周決策樹和BoostingToStu_第4頁
第三周決策樹和BoostingToStu_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)第一頁,共四十四頁。2什么是分類?分類,分類器銀行貸款員需要分析數(shù)據(jù),以便搞清楚哪些貸款申請者是“安全的”;醫(yī)學(xué)研究人員分析癌癥數(shù)據(jù),以便選擇治療方案數(shù)據(jù)分析任務(wù)都是分類,都需要構(gòu)造一個(gè)分類器來預(yù)測類標(biāo)號(hào)數(shù)值預(yù)測,預(yù)測器銷售經(jīng)理希望預(yù)測一位給定的顧客在雙11的一次購物期間將花多少錢數(shù)據(jù)分析任務(wù)就是數(shù)值預(yù)測,所構(gòu)造的模型(預(yù)測器)預(yù)測一個(gè)連續(xù)值函數(shù)或有序值,而不是類標(biāo)號(hào)第二頁,共四十四頁。3分類預(yù)測類標(biāo)號(hào)(離散的或標(biāo)稱的)基于訓(xùn)練集和類標(biāo)號(hào)構(gòu)建分類器,并對新的數(shù)據(jù)進(jìn)行分類數(shù)值預(yù)測所構(gòu)造的模型預(yù)測一個(gè)連續(xù)值函數(shù),而不是類標(biāo)號(hào)典型應(yīng)用信用卡/貸款批準(zhǔn):醫(yī)療診斷:腫瘤是良性的還是惡性的欺詐檢測:一次交易是否是欺詐的網(wǎng)頁分類:屬于哪一類預(yù)測問題:分類與數(shù)值預(yù)測第三頁,共四十四頁。4分類—一個(gè)兩階段過程兩階段:學(xué)習(xí)階段(構(gòu)建分類模型)和分類階段(使用模型預(yù)測給定數(shù)據(jù)的類標(biāo)號(hào))分類模型構(gòu)建(學(xué)習(xí)階段):描述預(yù)先定義的類假設(shè)每個(gè)元組都屬于一個(gè)預(yù)先定義的類,由類標(biāo)號(hào)屬性確定,類標(biāo)號(hào)屬性是離散值的和無序的用于模型構(gòu)建的元組集合稱為訓(xùn)練集模型用分類規(guī)則,決策樹,或數(shù)學(xué)公式表示模型使用(分類階段):用于分類未知對象評估模型的準(zhǔn)確性檢驗(yàn)樣本的已知標(biāo)簽與模型的分類結(jié)果比較準(zhǔn)確率是被模型正確分類的檢驗(yàn)樣本所占的百分比檢驗(yàn)集是獨(dú)立于訓(xùn)練集的(否則過分?jǐn)M合)如果準(zhǔn)確性是可接受的,則使用模型來分類新的數(shù)據(jù)第四頁,共四十四頁。5監(jiān)督和無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)(分類)監(jiān)督:提供了每個(gè)訓(xùn)練元組的類標(biāo)號(hào)即分類器的學(xué)習(xí)在被告知每個(gè)訓(xùn)練元組屬于哪個(gè)類的“監(jiān)督”下進(jìn)行的新的數(shù)據(jù)基于訓(xùn)練集被分類無監(jiān)督學(xué)習(xí)

(聚類)每個(gè)訓(xùn)練元組的類標(biāo)號(hào)是未知的要學(xué)習(xí)的類的個(gè)數(shù)或集合也可能事先不知道第五頁,共四十四頁。6階段(1):模型構(gòu)建訓(xùn)練數(shù)據(jù)分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類器(模型)學(xué)習(xí):用分類算法分析訓(xùn)練數(shù)據(jù)第六頁,共四十四頁。7階段(2):使用模型預(yù)測分類器檢驗(yàn)數(shù)據(jù)新數(shù)據(jù)(Jeff,Professor,4)Tenured?分類:檢驗(yàn)數(shù)據(jù)用于評估分類規(guī)則的準(zhǔn)確率第七頁,共四十四頁。8分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)第八頁,共四十四頁。9決策樹從有類標(biāo)號(hào)的訓(xùn)練元組中學(xué)習(xí)決策樹樹結(jié)構(gòu)每個(gè)內(nèi)部結(jié)點(diǎn)(非樹葉結(jié)點(diǎn))表示在一個(gè)屬性上的測試每個(gè)分枝代表該測試的一個(gè)輸出每個(gè)樹葉結(jié)點(diǎn)存放一個(gè)類標(biāo)號(hào)樹的最頂層結(jié)點(diǎn)是根結(jié)點(diǎn)如何使用決策樹分類?給定一個(gè)類標(biāo)號(hào)未知的元組X,在決策樹上測試該元組的屬性值。跟蹤一條由根到葉結(jié)點(diǎn)的路徑,該葉結(jié)點(diǎn)就存放著該元組的類預(yù)測。第九頁,共四十四頁。10決策樹歸納:一個(gè)例子age?overcaststudent?creditrating?<=30>40noyesyesyes31..40nofairexcellentyesno訓(xùn)練數(shù)據(jù)集:Buys_computer決策樹:第十頁,共四十四頁。11決策樹歸納算法基礎(chǔ)算法(貪心算法)決策樹以自頂向下遞歸的分治方式構(gòu)造從訓(xùn)練元組集和它們相關(guān)聯(lián)的類標(biāo)號(hào)開始構(gòu)造決策樹所有屬性是具有類別的(如果是連續(xù)數(shù)值型的,則它們需要事先離散化)基于選擇的屬性對元組進(jìn)行遞歸劃分測試屬性基于統(tǒng)計(jì)學(xué)度量來選擇(例如,信息增益)停止劃分的條件給定結(jié)點(diǎn)的所有元組都屬于同一個(gè)類沒有剩余屬性可以用來進(jìn)一步劃分元組給定的分枝沒有元組第十一頁,共四十四頁。算法基本策略三個(gè)參數(shù):D為數(shù)據(jù)分區(qū),開始時(shí),它是訓(xùn)練元組和它們相應(yīng)類標(biāo)號(hào)的完全集。參數(shù)attribute_list是描述元組屬性的列表。參數(shù)Attribute_selection_method用來選擇可以按類“最好地”區(qū)分給定元組的屬性,該過程使用一種屬性選擇度量(信息增益或基尼指數(shù))。樹從單個(gè)結(jié)點(diǎn)N開始,N代表D中的訓(xùn)練元組如果D中的元組都為同一類,則結(jié)點(diǎn)N變成樹葉,并用該類標(biāo)記它否則,算法調(diào)用Attribute_selection_method確定分裂準(zhǔn)則。分裂準(zhǔn)則指定分裂屬性,并且也指出分裂點(diǎn)或分裂子集對分裂準(zhǔn)則的每個(gè)輸出,由結(jié)點(diǎn)N生長一個(gè)分枝。根據(jù)分裂屬性A的類型,有三種可能的情況A是離散值的:結(jié)點(diǎn)N的測試輸出直接對應(yīng)于A的已知值A(chǔ)是連續(xù)值的:結(jié)點(diǎn)N的測試有兩個(gè)可能的輸出,分別對應(yīng)于條件A<=split_point和A>split_point,其中split_point是分裂點(diǎn)A是離散值并且必須產(chǎn)生二叉樹:在結(jié)點(diǎn)N的測試形如“A∈SA?”,其中SA是A的分裂子集第十二頁,共四十四頁。算法:Generate_decision_tree。由數(shù)據(jù)分區(qū)D中的訓(xùn)練元組產(chǎn)生決策樹。輸入:數(shù)據(jù)分區(qū)D,訓(xùn)練元組和他們對應(yīng)類標(biāo)號(hào)的集合attribute_list,候選屬性的集合。Attribute_selection_method,一個(gè)確定“最好地”劃分?jǐn)?shù)據(jù)元組為個(gè)體類的分裂準(zhǔn)則的過程。這個(gè)準(zhǔn)則由分裂屬性(splitting_attribute)和分裂點(diǎn)或劃分子集組成。輸出:一棵決策樹。方法:(1)創(chuàng)建一個(gè)結(jié)點(diǎn)N;(2)ifD中的元組都在同一類C中then(3)返回N作為葉結(jié)點(diǎn),以類C標(biāo)記;(4)if

attribute_list為空then(5)返回N作為葉結(jié)點(diǎn),標(biāo)記為D中的多數(shù)類;//多數(shù)表決(6)使用Attribute_selection_method(D,attribute_list),找出“最好的”splitting_criterion;(7)用splitting_criterion標(biāo)記結(jié)點(diǎn)N;(8)ifsplitting_attribute是離散值的,并且允許多路劃分then//不限于二叉樹(9)從attribute_list中刪除分裂屬性;(10)for

splitting_criterion的每個(gè)輸出j//劃分元組并對每個(gè)分區(qū)產(chǎn)生子樹(11)設(shè)Dj是D中滿足輸出j的數(shù)據(jù)元組的集合;//一個(gè)分區(qū)(12)if

Dj為空then(13)加一個(gè)樹葉到結(jié)點(diǎn)N,標(biāo)記為D中的多數(shù)類;(14)else

加一個(gè)由Generate_decision_tree(Dj,attribute_list)返回的結(jié)點(diǎn)到N;

endfor(15)返回N;第十三頁,共四十四頁。14屬性選擇度量:信息增益(ID3/C4.5)符號(hào)定義:設(shè)數(shù)據(jù)分區(qū)D為標(biāo)記類元組的訓(xùn)練集。假定類標(biāo)號(hào)屬性具有m個(gè)不同值,定義m個(gè)不同類。設(shè)Ci,D是D中Ci類元組的集合。選擇具有最高信息增益的屬性A作為結(jié)點(diǎn)N的分裂屬性對D中的元組分類所需要的期望信息由下式給出:基于按A劃分對D的元組分類所需要的期望信息:按屬性A劃分的信息增益Pi用|Ci,D|/|D|估計(jì)第十四頁,共四十四頁。15屬性選擇:信息增益ClassP:buys_computer=“yes”ClassN:buys_computer=“no”

意思為14個(gè)樣本中有5個(gè)“age<=30”的人,其中2個(gè)為“Yes”,3個(gè)為“No”.因此類似地,第十五頁,共四十四頁。16計(jì)算連續(xù)值屬性的信息增益假設(shè)A是一個(gè)連續(xù)值屬性必須確定A的最佳分裂點(diǎn)首先將A的值按遞增順序排序每對相鄰值的中點(diǎn)被看做可能的分裂點(diǎn)(ai+ai+1)/2是A的值ai

和ai+1之間的中點(diǎn)對于A的每個(gè)可能分裂點(diǎn),計(jì)算InfoA(D),具有最小期望信息需求的點(diǎn)選做A的分裂點(diǎn)分裂:D1

是滿足A≤split-point的元組集合,而D2

是滿足A>split-point的元組集合.第十六頁,共四十四頁。17屬性選擇:增益率(C4.5)信息增益度量傾向于選擇具有大量值的屬性C4.5(ID3的后繼)采用增益率來克服這個(gè)問題(規(guī)范化信息增益)GainRatio(A)=Gain(A)/SplitInfo(A)Ex.gain_ratio(income)=0.029/1.557=0.019具有最大增益率的屬性作為分裂屬性第十七頁,共四十四頁。18基尼指數(shù)(CART)如果一個(gè)數(shù)據(jù)集D包含n個(gè)類,則D的基尼指數(shù)定義為

其中

pj

是D中元組屬于類j的概率,并用|Ci,D|/|D|估計(jì)如果數(shù)據(jù)集D基于屬性A被劃分成兩個(gè)子集D1

D2,則基尼指數(shù)定義為不純度降低:對于離散值屬性,選擇該屬性產(chǎn)生最小基尼指數(shù)的子集作為它的分裂子集;對于連續(xù)值屬性,選擇產(chǎn)生最小基尼指數(shù)的點(diǎn)作為分裂點(diǎn);產(chǎn)生最小基尼指數(shù)(或最大不純度降低)的屬性選為分裂屬性第十八頁,共四十四頁。19基尼指數(shù)的計(jì)算例如數(shù)據(jù)集D有9個(gè)buys_computer=“yes”的元組和5個(gè)“no”的元組假設(shè)按income屬性子集{low,medium}將數(shù)據(jù)集劃分為D1(10個(gè)元組)和D2(4個(gè)元組)Gini{low,high}

是0.458;Gini{medium,high}

是0.450.因此在income的子集{low,medium}上劃分,因?yàn)?/p>

它的基尼指數(shù)最小第十九頁,共四十四頁。20過分?jǐn)M合與樹剪枝過分?jǐn)M合:樹創(chuàng)建時(shí),由于數(shù)據(jù)中的噪聲和離群點(diǎn),會(huì)過分?jǐn)M合訓(xùn)練數(shù)據(jù)有很多分枝,一些是由于噪聲和離群點(diǎn)導(dǎo)致的異常預(yù)測準(zhǔn)確率下降兩種方法來避免過分?jǐn)M合先剪枝:如果劃分一個(gè)結(jié)點(diǎn)后的元組低于預(yù)定義閾值,則提前停止樹的構(gòu)建選取一個(gè)適當(dāng)?shù)拈撝凳抢щy的后剪枝:由“完全生長”的樹剪去子樹——用回溯方式去除樹的一些點(diǎn)Useasetofdatadifferentfromthetrainingdatatodecidewhichisthe“bestprunedtree”第二十頁,共四十四頁。21分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)第二十一頁,共四十四頁。22使用IF-THEN規(guī)則分類以

IF-THEN規(guī)則的形式表示學(xué)習(xí)得到的模型R:IFage=youthANDstudent=yesTHENbuys_computer=yes“IF”部分稱為規(guī)則前件或前提,“THEN”部分稱為規(guī)則的結(jié)論在規(guī)則前件,條件由一個(gè)或多個(gè)用邏輯連接詞AND連接的屬性測試組成;規(guī)則的結(jié)論包含一個(gè)類預(yù)測對于給定的元組,如果規(guī)則前件中的條件都成立,則規(guī)則覆蓋了該元組規(guī)則的評價(jià):覆蓋率和準(zhǔn)確率ncovers表示規(guī)則R覆蓋的元組數(shù)ncorrect表示規(guī)則R正確分類的元組數(shù)coverage(R)=ncovers/|D|/*D:訓(xùn)練數(shù)據(jù)集*/accuracy(R)=ncorrect/ncovers第二十二頁,共四十四頁。23使用IF-THEN規(guī)則分類如何使用基于規(guī)則的分類來預(yù)測給定元組X的類標(biāo)號(hào)?如果規(guī)則被X滿足,則稱該規(guī)則被觸發(fā)。例如,X=(age=youth,income=medium,student=yes,credit_rating=fair)X滿足規(guī)則R,觸發(fā)該規(guī)則。如果R是唯一滿足的規(guī)則,則該規(guī)則激活,返回X的類預(yù)測注意,觸發(fā)并不總意味激活,因?yàn)榭赡苡卸鄠€(gè)規(guī)則被滿足如果多個(gè)規(guī)則被觸發(fā),則需要解決沖突規(guī)模序:把最高優(yōu)先權(quán)賦予具有“最苛刻”要求的被觸發(fā)的規(guī)則(即,具有最多屬性測試的)規(guī)則序:預(yù)先確定規(guī)則的優(yōu)先次序?;陬惖男?按類的普遍性降序排序基于規(guī)則的序(決策表):根據(jù)規(guī)則質(zhì)量的度量,規(guī)則被組織成一個(gè)優(yōu)先權(quán)列表。最先出現(xiàn)在決策表中的被觸發(fā)的規(guī)則具有最高優(yōu)先權(quán),因此激活它的類預(yù)測。第二十三頁,共四十四頁。24age?student?creditrating?<=30>40noyesyesyes31..40nofairexcellentyesno例子:從buys_computer決策樹提取規(guī)則R1:IFage=youngANDstudent=noTHENbuys_computer=noR2:IFage=youngANDstudent=yesTHENbuys_computer=yesR3:IFage=mid-age THENbuys_computer=yesR4:IFage=oldANDcredit_rating=excellentTHENbuys_computer=noR5:IFage=oldANDcredit_rating=fairTHENbuys_computer=yes由決策樹提取規(guī)則與決策樹相比,IF-THEN規(guī)則可能更容易理解,尤其是當(dāng)決策樹非常大時(shí)對每條從根到樹葉結(jié)點(diǎn)的路徑創(chuàng)建一個(gè)規(guī)則給定路徑上的每個(gè)分裂準(zhǔn)則的邏輯AND形成規(guī)則的前件(“IF”部分);存放類預(yù)測的樹葉結(jié)點(diǎn)形成規(guī)則的后件(“THEN”部分)規(guī)則是互斥的和窮舉的第二十四頁,共四十四頁。25規(guī)則歸納:順序覆蓋算法順序覆蓋算法:直接從訓(xùn)練集中提取規(guī)則典型的順序覆蓋算法:FOIL,AQ,CN2,RIPPER規(guī)則被順序地學(xué)習(xí),給定類的每個(gè)規(guī)則覆蓋該類的許多元組(并且希望不覆蓋其他類的元組)步驟:一次學(xué)習(xí)一個(gè)規(guī)則每學(xué)習(xí)一個(gè)規(guī)則,就刪除該規(guī)則覆蓋的元組在剩下的元組上重復(fù)該過程,直到滿足終止條件,例如,不再有訓(xùn)練元組,或返回規(guī)則的質(zhì)量低于用戶指定的閾值與決策樹對比:決策樹歸納是同時(shí)學(xué)習(xí)一組規(guī)則第二十五頁,共四十四頁。26基本順序覆蓋算法算法:順序覆蓋。學(xué)習(xí)一組IF-THEN分類規(guī)則。輸入:D,類標(biāo)記元組的數(shù)據(jù)集合。Att-vals,所有屬性與它們可能值的集合。輸出:IF-THEN規(guī)則的集合。方法:Rule_set={};//學(xué)習(xí)的規(guī)則集初始為空for每個(gè)類cdo

repeatRule=Learn_One_Rule(D,Att-vals,c);

從D中刪除被Rule覆蓋的元組;

until

終止條件滿足;Rule_set=Rule_set+Rule//將新規(guī)則添加到規(guī)則集endfor返回Rule_set;第二十六頁,共四十四頁。27如何Learn-One-Rule?從最一般的規(guī)則開始:condition=empty(條件為空)通過采用一種貪心的深度優(yōu)先策略添加新的屬性選擇最能提高規(guī)則質(zhì)量的屬性規(guī)則質(zhì)量度量:同時(shí)考慮覆蓋率和準(zhǔn)確率Foil-gain(inFOIL&RIPPER):用下式估計(jì)擴(kuò)展條件而獲得的信息偏向于具有高準(zhǔn)確率并且覆蓋許多正元組的規(guī)則第二十七頁,共四十四頁。28分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)第二十八頁,共四十四頁。29貝葉斯定理:基礎(chǔ)貝葉斯定理:X

表示數(shù)據(jù)元組:類標(biāo)號(hào)未知H為某種假設(shè),如數(shù)據(jù)元組X屬于某個(gè)特定類C分類是確定P(H|X)(即后驗(yàn)概率):

在條件X下,H的后驗(yàn)概率,例如,X是一位35歲的顧客,其收入為4萬美元。令H為某種假設(shè),如顧客將購買計(jì)算機(jī),則P(H|X)反映當(dāng)我們知道顧客的年齡和收入時(shí),顧客X將購買計(jì)算機(jī)的概率。P(H)(先驗(yàn)概率):H的先驗(yàn)概率如,

任意給定顧客將購買計(jì)算機(jī)的概率P(X):X的先驗(yàn)概率,如顧客集合中的年齡為35歲并且收入為4萬美元的概率P(X|H):在條件H下,X的后驗(yàn)概率例如,

已知顧客X將購買計(jì)算機(jī),該顧客是35歲并且收入為4萬美元的概率第二十九頁,共四十四頁。30分類就是導(dǎo)出最大后驗(yàn)概率設(shè)D是訓(xùn)練元組和它們相關(guān)聯(lián)的類標(biāo)號(hào)的集合。每個(gè)元組用一個(gè)n維屬性向量

X=(x1,x2,…,xn)表示假定有m個(gè)類C1,C2,…,Cm.分類法將預(yù)測X屬于具有最高后驗(yàn)概率的類,即,最大的P(Ci|X)。

如果P(Ci|X)在所有k個(gè)類的P(Ck|X)中最大,則預(yù)測

X

屬于類Ci每個(gè)類的后驗(yàn)概率可根據(jù)以下貝葉斯定理計(jì)算得到由于P(X)對所有類為常數(shù),所以只需要最大化第三十頁,共四十四頁。31樸素貝葉斯分類簡單假定:屬性有條件地相互獨(dú)立(即屬性之間不存在依賴關(guān)系):如果Ak

是分類屬性,則P(xk|Ci)是D中屬性Ak的值為xk的Ci類的元組數(shù)除以D中Ci類的元組數(shù)|Ci,D|如果Ak

是連續(xù)值屬性,P(xk|Ci)通?;诰郸毯蜆?biāo)準(zhǔn)差σ的高斯分布計(jì)算(假定連續(xù)值屬性服從均值為μ、標(biāo)準(zhǔn)差為σ的高斯分布),由下式定義第三十一頁,共四十四頁。32樸素貝葉斯分類Class:C1:buys_computer=‘yes’C2:buys_computer=‘no’待分類數(shù)據(jù):X=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)第三十二頁,共四十四頁。33樸素貝葉斯分類:例子P(Ci):P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357為每個(gè)類計(jì)算P(X|Ci)P(age=“<=30”|buys_computer=“yes”)=2/9=0.222P(age=“<=30”|buys_computer=“no”)=3/5=0.6P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.4P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.2P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,credit_rating=fair)

P(X|Ci):P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019P(X|Ci)*P(Ci):P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028

P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007因此,X屬于類(“buys_computer=yes”)

第三十三頁,共四十四頁。34避免零概率問題樸素貝葉斯分類預(yù)測需要每個(gè)條件概率是非零的,否則,預(yù)測概率將會(huì)為零

例如,假設(shè)一個(gè)具有1000個(gè)元組的數(shù)據(jù)集,income=low(0),income=medium(990),和income=high(10)使用拉普拉斯校準(zhǔn)(或拉普拉斯估計(jì)法)每個(gè)組元組數(shù)加1Prob(income=low)=1/1003Prob(income=medium)=991/1003Prob(income=high)=11/1003“校準(zhǔn)的”概率估計(jì)與對應(yīng)的“未校準(zhǔn)的”估計(jì)很接近第三十四頁,共四十四頁。35樸素貝葉斯分類:評價(jià)優(yōu)點(diǎn)易于實(shí)施大部分情況下可以獲得好的結(jié)果缺點(diǎn)假設(shè):類條件獨(dú)立,因此損失準(zhǔn)確性實(shí)際中,屬性之間經(jīng)常存在依賴性屬性之間存在依賴的情況不能通過樸素貝葉斯分類建模怎么處理這些依賴性?貝葉斯信念網(wǎng)絡(luò)第三十五頁,共四十四頁。36分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)第三十六頁,共四十四頁。組合方法:提高分類準(zhǔn)確率組合方法把k個(gè)學(xué)習(xí)得到的模型,M1,M2,…,Mk,組合在一起,旨在創(chuàng)建

一個(gè)改進(jìn)的復(fù)合分類模型M*流行的組合方法裝袋:在一組分類器上平均預(yù)測提升:基于一組分類器的加權(quán)表決37給定一個(gè)待分類元組X,它收集由基分類器返回的類標(biāo)號(hào)預(yù)測,并輸出占多數(shù)的類。第三十七頁,共四十四頁。裝袋:自助聚集類似:基于多個(gè)醫(yī)生多數(shù)表決的診斷訓(xùn)練每次迭代i,d個(gè)元組的訓(xùn)練集Di采用有放回抽樣從原始數(shù)據(jù)集D抽取從每個(gè)訓(xùn)練集Di學(xué)習(xí)一個(gè)分類器模型Mi分類:對一個(gè)未知元組X分類每個(gè)分類器Mi

返回它的類預(yù)測裝袋分類器M*統(tǒng)計(jì)得票,并將得票最高的類賦予X預(yù)測:通過取給定元組的每個(gè)預(yù)測的平均值,裝袋也可以用于連續(xù)值的預(yù)測準(zhǔn)確率準(zhǔn)確率顯著高于從原訓(xùn)練集D導(dǎo)出的單個(gè)分類器的準(zhǔn)確率對于噪聲數(shù)據(jù):更魯棒38第三十八頁,共四十四頁。裝袋:自助聚集39算法:裝袋。裝袋算法——為學(xué)習(xí)方案創(chuàng)建組合分類模型,其中每個(gè)模型給出等權(quán)重預(yù)測。輸入:D:d個(gè)訓(xùn)練元組的集合;k:組合分類器中的模型數(shù);

一種學(xué)習(xí)方案(例如,決策樹算法、后向傳播等)輸出:組合分類器——復(fù)合模型M*。方法:fori=1tokdo//創(chuàng)建k個(gè)模型通過對D有放回抽樣,創(chuàng)建自助樣本Di;使用Di和學(xué)習(xí)方法導(dǎo)出模型Mi;endfor使用組合分類器對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論