數(shù)據(jù)挖掘第8章-分類(lèi):基本概念_第1頁(yè)
數(shù)據(jù)挖掘第8章-分類(lèi):基本概念_第2頁(yè)
數(shù)據(jù)挖掘第8章-分類(lèi):基本概念_第3頁(yè)
數(shù)據(jù)挖掘第8章-分類(lèi):基本概念_第4頁(yè)
數(shù)據(jù)挖掘第8章-分類(lèi):基本概念_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與商務(wù)智能范勤勤物流研究中心第八章分類(lèi)1基本概念2決策樹(shù)歸納3貝葉斯分類(lèi)方法4基于規(guī)則的分類(lèi)5模型評(píng)估與選擇6提高分類(lèi)準(zhǔn)確率的技術(shù)基本概念分類(lèi)VS.預(yù)測(cè)分類(lèi)預(yù)測(cè)類(lèi)標(biāo)號(hào)(離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類(lèi)標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類(lèi)現(xiàn)有數(shù)據(jù),并用來(lái)分類(lèi)新數(shù)據(jù)典型應(yīng)用信譽(yù)證實(shí)(分類(lèi)為低,中,高風(fēng)險(xiǎn))醫(yī)療診斷(腫瘤是良性還是惡性)性能預(yù)測(cè)目標(biāo)市場(chǎng)預(yù)測(cè)建立連續(xù)函數(shù)值模型,比如預(yù)測(cè)空缺值4一個(gè)兩步過(guò)程第一步,建立一個(gè)分類(lèi)模型,描述預(yù)定數(shù)據(jù)類(lèi)或概念集假定每個(gè)元組屬于一個(gè)預(yù)定義的類(lèi),由一個(gè)類(lèi)標(biāo)號(hào)屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組)學(xué)習(xí)模型可以由分類(lèi)規(guī)則、判定樹(shù)或數(shù)學(xué)公式的形式提供第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類(lèi)評(píng)估模型的預(yù)測(cè)準(zhǔn)確率測(cè)試集:要獨(dú)立于訓(xùn)練樣本集,避免“過(guò)分?jǐn)M合”的情況對(duì)每個(gè)測(cè)試樣本,將已知的類(lèi)標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類(lèi)預(yù)測(cè)比較準(zhǔn)確率:被模型正確分類(lèi)的測(cè)試樣本的百分比如果準(zhǔn)確率可以接受,那么使用該模型來(lái)分類(lèi)標(biāo)簽為未知的樣本56第一步——建立模型訓(xùn)練數(shù)據(jù)集分類(lèi)算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類(lèi)規(guī)則7第二步——用模型進(jìn)行分類(lèi)分類(lèi)規(guī)則測(cè)試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?有指導(dǎo)的學(xué)習(xí)VS.無(wú)指導(dǎo)的學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)(用于分類(lèi))模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類(lèi)的“指導(dǎo)”下進(jìn)行新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類(lèi)無(wú)指導(dǎo)的學(xué)習(xí)(用于聚類(lèi))每個(gè)訓(xùn)練樣本的類(lèi)編號(hào)是未知的,要學(xué)習(xí)的類(lèi)集合或數(shù)量也可能是事先未知的通過(guò)一系列的度量、觀察來(lái)建立數(shù)據(jù)中的類(lèi)編號(hào)或進(jìn)行聚類(lèi)8決策樹(shù)歸納用決策樹(shù)歸納分類(lèi)什么是決策樹(shù)?類(lèi)似于流程圖的樹(shù)結(jié)構(gòu)每個(gè)內(nèi)部節(jié)點(diǎn)(非樹(shù)葉節(jié)點(diǎn))表示在一個(gè)屬性上的測(cè)試每個(gè)分枝代表該測(cè)試的一個(gè)輸出每個(gè)樹(shù)葉節(jié)點(diǎn)存放一個(gè)類(lèi)標(biāo)號(hào)10age?nostudent?credit_rating?noyesfairexcellentyouthseniornoyesyesyesMiddleaged決策樹(shù):Buys_computer用決策樹(shù)歸納分類(lèi)使用決策樹(shù)分類(lèi)給定一個(gè)類(lèi)標(biāo)號(hào)未知的元組X,在決策樹(shù)上測(cè)試元組的屬性值,跟蹤一條由根到葉節(jié)點(diǎn)的路徑,葉節(jié)點(diǎn)存放該元組的類(lèi)預(yù)測(cè)。決策樹(shù)容易轉(zhuǎn)換為分類(lèi)規(guī)則決策樹(shù)的生成由兩個(gè)階段組成決策樹(shù)構(gòu)建:自頂向下遞歸地分治方式使用屬性選擇度量來(lái)選擇將元組最好的劃分為不同的類(lèi)的屬性遞歸的通過(guò)選定的屬性(必須是離散值)來(lái)劃分樣本樹(shù)剪枝決策樹(shù)建立時(shí),許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲或離群點(diǎn),樹(shù)剪枝試圖識(shí)別并剪去這種分枝,以提高對(duì)未知數(shù)據(jù)分類(lèi)的準(zhǔn)確性11決策樹(shù)歸納策略輸入數(shù)據(jù)分區(qū)D,訓(xùn)練元組和他們對(duì)應(yīng)類(lèi)標(biāo)號(hào)的集合attribute_list,候選屬性的集合Attribute_selection_method,指定選擇屬性的啟發(fā)式過(guò)程算法步驟1.樹(shù)以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)(N)開(kāi)始2.如果樣本都在同一個(gè)類(lèi),則該節(jié)點(diǎn)成為樹(shù)葉,并用該類(lèi)標(biāo)記3.否則,算法調(diào)用Attribute_selection_method,選擇能夠最好的將樣本分類(lèi)的屬性;確定“分裂準(zhǔn)則”,指出“分裂點(diǎn)”或“分裂子集”4.對(duì)測(cè)試屬性每個(gè)已知的值,創(chuàng)建一個(gè)分支,并以此劃分元組5.算法使用同樣的過(guò)程,遞歸的形成每個(gè)劃分上的元組決策樹(shù)。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何子節(jié)點(diǎn)上出現(xiàn)6.遞歸劃分步驟停止的條件劃分D(在N節(jié)點(diǎn)提供)的所有元組屬于同一類(lèi)沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分元組——使用多數(shù)表決沒(méi)有剩余的樣本給定分支沒(méi)有元組,則以D中多數(shù)類(lèi)創(chuàng)建一個(gè)樹(shù)葉12屬性選擇度量屬性選擇度量屬性選擇度量是一種選擇分裂準(zhǔn)則,將給定類(lèi)標(biāo)號(hào)的訓(xùn)練元組最好的進(jìn)行劃分的方法理想情況,每個(gè)劃分都是“純”的,即落在一個(gè)給定分區(qū)的所有元組都屬于相同的類(lèi)屬性選擇度量又稱為分裂規(guī)則常用的屬性選擇度量信息增益增益率基尼指數(shù)(Gini指數(shù))13信息增益選擇具有最高信息增益的屬性作為結(jié)點(diǎn)N的分裂屬性pi是D中任意元組屬于類(lèi)Ci的非零概率,并用|Ci,D|/|D|估計(jì)對(duì)D中的元組分類(lèi)所需要的期望信息(熵)由下式給出:14信息增益用屬性A將D劃分為v個(gè)分區(qū)或子集后,為了得到準(zhǔn)確的分類(lèi),我們還需要多少信息?這個(gè)量由下式度量:例8.115ageincomestudentcredit_ratingbuys_computeryouthhighnofairnoyouthhighnoexcellentnomiddle_agedhighnofairyesseniormediumnofairyesseniorlowyesfairyesseniorlowyesexcellentnomiddle_agedlowyesexcellentyesyouthmediumnofairnoyouthlowyesfairyesseniormediumyesfairyesyouthmediumyesexcellentyesmiddle_agedmediumnoexcellentyesmiddle_agedhighyesfairyesseniormediumnoexcellentno16例8.1代表“age<=30”占14個(gè)樣本中的5個(gè)有2個(gè)"yes"和3個(gè)"no"ClassP:buys_computer=“yes”ClassN:buys_computer=“no”相應(yīng)的,計(jì)算對(duì)D中元組分類(lèi)所需要的期望信息:若元組根據(jù)age劃分,則:這種劃分的信息增益:計(jì)算連續(xù)值屬性的信息增益假設(shè)A是連續(xù)值的,而不是離散值分裂D1是滿足A≤split-point的元組集合,而D2是滿足A>split-point的元組集合必須確定A的“最佳”分裂點(diǎn)將A的值按遞增序排序典型的,每對(duì)相鄰值的中點(diǎn)被看作可能的分裂點(diǎn)A的值ai和ai+1之間的中點(diǎn)是(ai+ai+1)/2A具有最小期望信息需求的點(diǎn)選做A的分裂點(diǎn)17增益率信息增益度量?jī)A向于選擇具有大量值的屬性18ID3的后繼C4.5使用一種稱為增益率的信息增益擴(kuò)充,試圖克服這種偏倚,它用“分裂信息”值將信息增益規(guī)范化,分裂信息定義如下:分裂信息增益率選擇具有最大增益率的屬性作為分裂屬性—GainRatio(income)=0.029/1.557=0.019例8.2incomehigh4medium6low4基尼指數(shù)如果A的二元?jiǎng)澐謱劃分成D1和D2,則給定該劃分,D的基尼指數(shù)為:最大化不純度降低(或等價(jià)地,具有最小基尼指數(shù))的屬性選為分裂屬性。(需要枚舉所有可能的分裂情況)19基尼指數(shù)度量數(shù)據(jù)分區(qū)或訓(xùn)練元組集D的不純度,定義為:其中pj是D中元組屬于Ci類(lèi)的概率不純度降低為:屬性選擇度量對(duì)比信息增益偏向于多值屬性基尼指數(shù)偏向于多值屬性當(dāng)類(lèi)的數(shù)量很大時(shí)會(huì)有困難傾向于導(dǎo)致相等大小的分區(qū)和純度增益率傾向于不平衡的劃分,其中一個(gè)分區(qū)比其他分區(qū)小得多20三種度量通常會(huì)得到好的結(jié)果,但這些度量并非無(wú)偏的過(guò)度擬合與樹(shù)剪枝產(chǎn)生的決策樹(shù)會(huì)出現(xiàn)過(guò)分適應(yīng)數(shù)據(jù)的問(wèn)題由于數(shù)據(jù)中的噪聲和離群點(diǎn),許多分枝反映的是訓(xùn)練數(shù)據(jù)的異常對(duì)未知樣本判斷不準(zhǔn)確防止過(guò)分?jǐn)M合的兩種方法先剪枝通過(guò)提前停止樹(shù)的構(gòu)造,如果劃分一個(gè)結(jié)點(diǎn)元組導(dǎo)致低于預(yù)定義臨界值的劃分,則給定子集的進(jìn)一步劃分將停止。選擇一個(gè)合適的臨界值往往很困難后剪枝由“完全生長(zhǎng)”的樹(shù)剪去子集——算法產(chǎn)生一個(gè)漸進(jìn)的剪枝樹(shù)集合使用一個(gè)獨(dú)立的測(cè)試集來(lái)評(píng)估每顆樹(shù)的準(zhǔn)確率,就能得到具有最小期望錯(cuò)誤率的決策樹(shù)21可伸縮性與決策樹(shù)歸納RainForest(雨林)能適應(yīng)可用的內(nèi)存量,并用于任意決策樹(shù)歸納算法結(jié)點(diǎn)N上屬性A的AVC-集給出N上元組A的每個(gè)值的類(lèi)標(biāo)號(hào)計(jì)數(shù)在每個(gè)結(jié)點(diǎn),對(duì)每個(gè)屬性維護(hù)一個(gè)AVC-集(其中AVC表示“屬性-值,類(lèi)標(biāo)號(hào)”),描述該結(jié)點(diǎn)的訓(xùn)練元組結(jié)點(diǎn)N上所有AVC-集的集合是N的AVC-組群2223雨林:訓(xùn)練集和它的AVC-集AVC-setonincomeAVC-setonAgeAVC-setonStudentAVC-setoncredit_ratingAgeBuy_Computeryesno<=302331..4040>4032incomeBuy_Computeryesnohigh22medium42low31studentBuy_Computeryesnoyes61no34CreditratingBuy_Computeryesnofair62excellent33貝葉斯分類(lèi)方法貝葉斯定理設(shè)X是數(shù)據(jù)元組(“證據(jù)”):類(lèi)標(biāo)號(hào)未知P(H|X)是后驗(yàn)概率,或在條件X下,H的后驗(yàn)概率例如,X是一位35歲的顧客,其收入為4萬(wàn)美元。令H為某種假設(shè),如顧客將購(gòu)買(mǎi)計(jì)算機(jī)令H為某種假設(shè),如數(shù)據(jù)元組X屬于某個(gè)特定類(lèi)C25P(H)(priorprobability)是先驗(yàn)概率,或H的先驗(yàn)概率例如,X將購(gòu)買(mǎi)電腦,無(wú)論年齡和收入等等P(X)是X的先驗(yàn)概率,可觀察到樣本數(shù)據(jù)用上面的例子,它是顧客集合中年齡為35歲且收入為四萬(wàn)美元的概率貝葉斯定理為樸素貝葉斯分類(lèi)(Na?veBayesian)設(shè)D是訓(xùn)練元組和它們相關(guān)聯(lián)的類(lèi)標(biāo)號(hào)的集合。通常,每個(gè)元組用一個(gè)n維屬性向量X=(x1,x2,…,xn)表示,描述由n個(gè)屬性對(duì)元組的n個(gè)測(cè)量給定元組X,分類(lèi)法將預(yù)測(cè)X屬于具有最高后驗(yàn)概率的類(lèi)(在條件X下)假設(shè)有m個(gè)類(lèi)C1,C2,…,Cm26根據(jù)貝葉斯定理由于P(X)對(duì)所有類(lèi)為常數(shù),所以需將下式最大化類(lèi)條件獨(dú)立使用樸素貝葉斯分類(lèi)預(yù)測(cè)類(lèi)標(biāo)號(hào)類(lèi)C1:buys_computer=‘yes’C2:buys_computer=‘no’希望分類(lèi)的元組X=(age<=30,Income=medium,Student=yes,Credit_rating=Fair)27ageincomestudentcredit_ratingbuys_computer<=30highnofairno<=30highnoexcellentno31…40highnofairyes>40mediumnofairyes>40lowyesfairyes>40lowyesexcellentno31…40lowyesexcellentyes<=30mediumnofairno<=30lowyesfairyes>40mediumyesfairyes<=30mediumyesexcellentyes31…40mediumnoexcellentyes31…40highyesfairyes>40mediumnoexcellentno使用樸素貝葉斯分類(lèi)預(yù)測(cè)類(lèi)標(biāo)號(hào)P(Ci)P(buys_computer=“yes”)=9/14=0.643P(buys_computer=“no”)=5/14=0.357為計(jì)算P(X|Ci),計(jì)算下面的條件概率P(age=“<=30”|buys_computer=“yes”)=2/9=0.222P(age=“<=30”|buys_computer=“no”)=3/5=0.600P(income=“medium”|buys_computer=“yes”)=4/9=0.444P(income=“medium”|buys_computer=“no”)=2/5=0.400P(student=“yes”|buys_computer=“yes)=6/9=0.667P(student=“yes”|buys_computer=“no”)=1/5=0.200P(credit_rating=“fair”|buys_computer=“yes”)=6/9=0.667P(credit_rating=“fair”|buys_computer=“no”)=2/5=0.40028ageincomebuys_computer<=30highno<=30highno31…40highyes>40mediumyes>40lowyes>40lowno31…40lowyes<=30mediumno<=30lowyes>40mediumyes<=30mediumyes31…40mediumyes31…40highyes>40mediumnostudentcredit_ratingbuys_computernofairnonoexcellentnonofairyesnofairyesyesfairyesyesexcellentnoyesexcellentyesnofairnoyesfairyesyesfairyesyesexcellentyesnoexcellentyesyesfairyesnoexcellentno使用樸素貝葉斯分類(lèi)預(yù)測(cè)類(lèi)標(biāo)號(hào)X=(age<=30,income=medium,student=yes,credit_rating=fair)P(X|Ci)*P(Ci)P(X|buys_computer=“yes”)*P(buys_computer=“yes”)=0.028P(X|buys_computer=“no”)*P(buys_computer=“no”)=0.007P(X|Ci)P(X|buys_computer=“yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer=“no”)=0.6x0.4x0.2x0.4=0.019因此,對(duì)于元組X,樸素貝葉斯分類(lèi)預(yù)測(cè)元組X的類(lèi)為“buys_computer=yes”29使用拉普拉斯校準(zhǔn)避免計(jì)算零概率值例8.5假設(shè)在某訓(xùn)練數(shù)據(jù)庫(kù)D上,類(lèi)buys-computer=yes包含1000個(gè)元組,0個(gè)元組income=low,990個(gè)元組income=medium,10個(gè)元組income=high用拉普拉斯進(jìn)行校準(zhǔn)對(duì)每個(gè)收入-值對(duì)增加一個(gè)元組Prob(income=low)=1/1003Prob(income=medium)=991/1003Prob(income=high)=11/1003這些“校準(zhǔn)的”概率估計(jì)與對(duì)應(yīng)的“未校準(zhǔn)的”估計(jì)很接近,但是避免了零概率值30基于規(guī)則的分類(lèi)使用IF-THEN規(guī)則分類(lèi)一個(gè)IF-THEN規(guī)則是一個(gè)如下形式的表達(dá)式R:IFage=youthANDstudent=yesTHENbuys_computer=yes規(guī)則前件/規(guī)則的結(jié)論將R的覆蓋率和準(zhǔn)確率定義為ncovers

:為規(guī)則R覆蓋的元組數(shù)ncorrect:R正確分類(lèi)的元組數(shù)coverage(R)=ncovers/|D|/*D:trainingdataset*/accuracy(R)=ncorrect/ncovers32使用IF-THEN規(guī)則分類(lèi)如果多個(gè)規(guī)則被觸發(fā),則需要一種解決沖突的策略來(lái)決定激活哪一個(gè)規(guī)則,并對(duì)X指派它的類(lèi)預(yù)測(cè)規(guī)模序:方案把最高優(yōu)先權(quán)賦予具有“最苛刻”要求的被觸發(fā)的規(guī)則,其中苛刻性用規(guī)則前件的規(guī)模度量,激活具有最多屬性測(cè)試的被觸發(fā)的規(guī)則?;陬?lèi)的序:類(lèi)按“重要性”遞減排序,如按普遍性的降序排序基于規(guī)則的序:根據(jù)規(guī)則質(zhì)量的度量,或領(lǐng)域?qū)<业慕ㄗh,把規(guī)則組織成一個(gè)優(yōu)先權(quán)列表33由決策樹(shù)提取規(guī)則規(guī)則比大的決策樹(shù)更容易理解對(duì)每條從根到樹(shù)葉結(jié)點(diǎn)的路徑創(chuàng)建一個(gè)規(guī)則規(guī)則是互斥的和窮舉的例8.7由決策樹(shù)提取分類(lèi)規(guī)則IFage=youngANDstudent=noTHENbuys_computer=noIFage=youngANDstudent=yesTHENbuys_computer=yesIFage=mid-age THENbuys_computer=yesIFage=oldANDcredit_rating=excellentTHENbuys_computer=noIFage=oldANDcredit_rating=fairTHENbuys_computer=yes34age?student?creditrating?<=30>40noyesyesyes31..40nofairexcellentyesno模型評(píng)估與選擇模型評(píng)估與選擇評(píng)價(jià)指標(biāo):我們?nèi)绾螠y(cè)量精度?其他指標(biāo)要考慮嗎?評(píng)估一個(gè)分類(lèi)準(zhǔn)確率的方法保持方法,隨機(jī)二次抽樣交叉驗(yàn)證自助法分類(lèi)器的準(zhǔn)確率最好在檢驗(yàn)集上估計(jì)模型選擇統(tǒng)計(jì)顯著性檢驗(yàn)基于成本效益和ROC曲線36評(píng)估分類(lèi)器性能的度量37正組元(P):感興趣的主要類(lèi)的元組。負(fù)組元(N):其他元組。真正例(TruePositive,TP):是指被分類(lèi)器正確分類(lèi)的正元組。真負(fù)例(TrueNegative,TN):是指被分類(lèi)器正確分類(lèi)的負(fù)元組。假正例(FalsePositive,F(xiàn)P):是被錯(cuò)誤地標(biāo)記為正元組的負(fù)元組。假負(fù)例(False

Negative,F(xiàn)N):是被錯(cuò)誤地標(biāo)記為負(fù)元組的正元組。評(píng)估分類(lèi)器性能的度量:混淆矩陣混淆矩陣給定m個(gè)類(lèi),混淆矩陣前m行和m列中的表目CMi,j指出類(lèi)i的元組被分類(lèi)器標(biāo)記為類(lèi)j的個(gè)數(shù)混淆矩陣的例子38實(shí)際的類(lèi)\預(yù)測(cè)的類(lèi)yesnoyesTPFNnoFPTN類(lèi)buy_computer=yesbuy_computer=no合計(jì)buy_computer=yes6954467000buy_computer=no41225883000合計(jì)7366263410000準(zhǔn)確性、錯(cuò)誤率、敏感度和特效性類(lèi)不平衡問(wèn)題其中感興趣的主類(lèi)是稀少的,例如“欺詐”正類(lèi)多,負(fù)類(lèi)少靈敏性(召回率):正確識(shí)別的正元組的百分比,靈敏性=TP/P特效性:正確識(shí)別的負(fù)元組的百分比,特效性=TN/N準(zhǔn)確率=靈敏性×P/(P+N)+特效性×N/(P+N)=(TP+TN)/(P+N)錯(cuò)誤率)=(FP+FN)/(P+N)39A\Pyesno合計(jì)yesTPFNPnoFPTNN合計(jì)P’N’P+N精度、召回率、F度量精度:精確性的度量,即標(biāo)記為正類(lèi)元組實(shí)際為正類(lèi)所占的百分比F度量(F1

或F分?jǐn)?shù)):把精度和召回率集中到一個(gè)度量中F?:精度和召回率的加權(quán)度量它賦予召回率權(quán)重是賦予進(jìn)度的β倍40例子41類(lèi)cancer=yescancer=no合計(jì)識(shí)別率(%)cancer=yes90(TP)210(FN)300(P)30.00(sensitivitycancer=no140(FP)9560(TN)9700(N)98.56(specificity)合計(jì)23097701000096.40(accuracy)準(zhǔn)確率(TP+TN)/(P+N)錯(cuò)誤率(FP+FN)/(P+N)敏感度(召回率)TP/P特效性TN/N精度TP/(TP+FP)Precision=90/230=39.13%

Recall=90/300=30.00%保持方法,隨機(jī)二次抽樣保持方法給定的數(shù)據(jù)隨機(jī)的劃分為兩個(gè)獨(dú)立的集合訓(xùn)練集,通常2/3的數(shù)據(jù)被分配到訓(xùn)練集檢驗(yàn)集,通常1/3的數(shù)據(jù)被分配到檢驗(yàn)集隨機(jī)二次抽樣:保持方法的變形將保持方法重復(fù)k次,總準(zhǔn)確率估計(jì)取每次迭代準(zhǔn)確率的平均值交叉驗(yàn)證(k-折交叉驗(yàn)證)初始數(shù)據(jù)隨機(jī)地劃分成k個(gè)互不相關(guān)的子集,每個(gè)子集的大小大致相等在第i次迭代,分區(qū)Di用作檢驗(yàn)集,其他區(qū)位訓(xùn)練集留一:每次只給檢驗(yàn)集“留出”一個(gè)樣本分層交叉驗(yàn)證:折被分層,使的每個(gè)折中樣本的類(lèi)分布與在初始數(shù)據(jù)中的大致相同42自助法自助法處理較小的數(shù)據(jù)集合比較有效從給定訓(xùn)練元組中有放回的均勻抽樣在有放回的抽樣中,允許機(jī)器多次選擇同一個(gè)元組43有多種自助方法,最常用的一種是.632自助法假設(shè)給定的數(shù)據(jù)集包括d個(gè)元組。該數(shù)據(jù)集有放回地抽樣d次,產(chǎn)生d個(gè)樣本的自助樣本集或訓(xùn)練集。結(jié)果是,在平均的情況下,63.2%的原數(shù)據(jù)元組將出現(xiàn)在自助樣本中,而其余36.8%的元組將形成檢驗(yàn)使用統(tǒng)計(jì)顯著性檢驗(yàn)選擇模型假設(shè)已經(jīng)由數(shù)據(jù)產(chǎn)生了兩個(gè)分類(lèi)模型M1

和M2,如何確定哪一個(gè)更好?M1

和M2

的平均錯(cuò)誤率雖不同,但差別可能不是統(tǒng)計(jì)顯著的進(jìn)行10折交叉驗(yàn)證,得到每一個(gè)平均錯(cuò)誤率err(M1)和err(M2)i如果二者之間的差別只是偶然的,該如何處理?統(tǒng)計(jì)顯著性檢驗(yàn)44使用統(tǒng)計(jì)顯著性檢驗(yàn)選擇模型如果我們能拒絕原假設(shè),則則可以斷言模型之間的差是統(tǒng)計(jì)顯著的在此情況下,我們可以選擇具有較低錯(cuò)誤率的模型45進(jìn)行10次10-折交叉驗(yàn)證利用t-檢驗(yàn)假設(shè)它們服從具有k-1個(gè)自由度的t分布,其中k=10.原假設(shè):M1&M2

相同t-檢驗(yàn)46如果使用單個(gè)檢驗(yàn)集:逐對(duì)比較

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論