決策樹基本概念教材和企業(yè)分配決策

上傳人：w*** IP屬地：浙江上傳時間：2023-05-30 格式：PPTX 頁數(shù)：62 大?。?08.82KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩57頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)2什么是分類？分類，分類器銀行貸款員需要分析數(shù)據(jù)，以便搞清楚哪些貸款申請者是“安全的”；醫(yī)學(xué)研究人員分析癌癥數(shù)據(jù)，以便選擇治療方案數(shù)據(jù)分析任務(wù)都是分類，都需要構(gòu)造一個分類器來預(yù)測類標(biāo)號數(shù)值預(yù)測，預(yù)測器銷售經(jīng)理希望預(yù)測一位給定的顧客在雙11的一次購物期間將花多少錢數(shù)據(jù)分析任務(wù)就是數(shù)值預(yù)測，所構(gòu)造的模型（預(yù)測器）預(yù)測一個連續(xù)值函數(shù)或有序值，而不是類標(biāo)號3分類預(yù)測類標(biāo)號(離散的或標(biāo)稱的)基于訓(xùn)練集和類標(biāo)號構(gòu)建分類器，并對新的數(shù)據(jù)進(jìn)行分類數(shù)值預(yù)測所構(gòu)造的模型預(yù)測一個連續(xù)值函數(shù)，而不是類標(biāo)號典型應(yīng)用信用卡/貸款批準(zhǔn):醫(yī)療診斷:腫瘤是良性的還是惡性的欺詐檢測:一次交易是否是欺詐的網(wǎng)頁分類:屬于哪一類預(yù)測問題:分類與數(shù)值預(yù)測4分類—一個兩階段過程兩階段：學(xué)習(xí)階段（構(gòu)建分類模型）和分類階段（使用模型預(yù)測給定數(shù)據(jù)的類標(biāo)號）分類模型構(gòu)建(學(xué)習(xí)階段):描述預(yù)先定義的類假設(shè)每個元組都屬于一個預(yù)先定義的類，由類標(biāo)號屬性確定，類標(biāo)號屬性是離散值的和無序的用于模型構(gòu)建的元組集合稱為訓(xùn)練集模型用分類規(guī)則，決策樹，或數(shù)學(xué)公式表示模型使用(分類階段):用于分類未知對象評估模型的準(zhǔn)確性檢驗樣本的已知標(biāo)簽與模型的分類結(jié)果比較準(zhǔn)確率是被模型正確分類的檢驗樣本所占的百分比檢驗集是獨立于訓(xùn)練集的(否則過分?jǐn)M合)如果準(zhǔn)確性是可接受的，則使用模型來分類新的數(shù)據(jù)5監(jiān)督和無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)(分類)監(jiān)督:提供了每個訓(xùn)練元組的類標(biāo)號即分類器的學(xué)習(xí)在被告知每個訓(xùn)練元組屬于哪個類的“監(jiān)督”下進(jìn)行的新的數(shù)據(jù)基于訓(xùn)練集被分類無監(jiān)督學(xué)習(xí)

(聚類)每個訓(xùn)練元組的類標(biāo)號是未知的要學(xué)習(xí)的類的個數(shù)或集合也可能事先不知道6階段(1):模型構(gòu)建訓(xùn)練數(shù)據(jù)分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類器(模型)學(xué)習(xí)：用分類算法分析訓(xùn)練數(shù)據(jù)7階段(2):使用模型預(yù)測分類器檢驗數(shù)據(jù)新數(shù)據(jù)(Jeff,Professor,4)Tenured?分類：檢驗數(shù)據(jù)用于評估分類規(guī)則的準(zhǔn)確率8分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)9決策樹從有類標(biāo)號的訓(xùn)練元組中學(xué)習(xí)決策樹樹結(jié)構(gòu)每個內(nèi)部結(jié)點（非樹葉結(jié)點）表示在一個屬性上的測試每個分枝代表該測試的一個輸出每個樹葉結(jié)點存放一個類標(biāo)號樹的最頂層結(jié)點是根結(jié)點如何使用決策樹分類？給定一個類標(biāo)號未知的元組X，在決策樹上測試該元組的屬性值。跟蹤一條由根到葉結(jié)點的路徑，該葉結(jié)點就存放著該元組的類預(yù)測。10決策樹歸納:一個例子age?overcaststudent?creditrating?<=30>40noyesyesyes31..40nofairexcellentyesno訓(xùn)練數(shù)據(jù)集:Buyscomputer決策樹:11決策樹歸納算法基礎(chǔ)算法(貪心算法)決策樹以自頂向下遞歸的分治方式構(gòu)造從訓(xùn)練元組集和它們相關(guān)聯(lián)的類標(biāo)號開始構(gòu)造決策樹所有屬性是具有類別的(如果是連續(xù)數(shù)值型的，則它們需要事先離散化)基于選擇的屬性對元組進(jìn)行遞歸劃分測試屬性基于統(tǒng)計學(xué)度量來選擇(例如,信息增益)停止劃分的條件給定結(jié)點的所有元組都屬于同一個類沒有剩余屬性可以用來進(jìn)一步劃分元組給定的分枝沒有元組算法基本策略三個參數(shù)：D為數(shù)據(jù)分區(qū)，開始時，它是訓(xùn)練元組和它們相應(yīng)類標(biāo)號的完全集。參數(shù)attributelist是描述元組屬性的列表。參數(shù)Attributeselectionmethod用來選擇可以按類“最好地”區(qū)分給定元組的屬性，該過程使用一種屬性選擇度量（信息增益或基尼指數(shù)）。樹從單個結(jié)點N開始，N代表D中的訓(xùn)練元組如果D中的元組都為同一類，則結(jié)點N變成樹葉，并用該類標(biāo)記它否則，算法調(diào)用Attributeselectionmethod確定分裂準(zhǔn)則。分裂準(zhǔn)則指定分裂屬性，并且也指出分裂點或分裂子集對分裂準(zhǔn)則的每個輸出，由結(jié)點N生長一個分枝。根據(jù)分裂屬性A的類型，有三種可能的情況A是離散值的:結(jié)點N的測試輸出直接對應(yīng)于A的已知值A(chǔ)是連續(xù)值的:結(jié)點N的測試有兩個可能的輸出，分別對應(yīng)于條件A<=splitpoint和A>splitpoint,其中splitpoint是分裂點A是離散值并且必須產(chǎn)生二叉樹:在結(jié)點N的測試形如“A∈SA？”，其中SA是A的分裂子集算法:Generatedecisiontree。由數(shù)據(jù)分區(qū)D中的訓(xùn)練元組產(chǎn)生決策樹。輸入:數(shù)據(jù)分區(qū)D,訓(xùn)練元組和他們對應(yīng)類標(biāo)號的集合attributelist,候選屬性的集合。Attributeselectionmethod,一個確定“最好地”劃分?jǐn)?shù)據(jù)元組為個體類的分裂準(zhǔn)則的過程。這個準(zhǔn)則由分裂屬性(splittingattribute)和分裂點或劃分子集組成。輸出:一棵決策樹。方法:(1)創(chuàng)建一個結(jié)點N；(2)ifD中的元組都在同一類C中then(3)返回N作為葉結(jié)點,以類C標(biāo)記;(4)if

attributelist為空then(5)返回N作為葉結(jié)點,標(biāo)記為D中的多數(shù)類;//多數(shù)表決(6)使用Attributeselectionmethod(D,attributelist),找出“最好的”splittingcriterion;(7)用splittingcriterion標(biāo)記結(jié)點N;(8)ifsplittingattribute是離散值的，并且允許多路劃分then//不限于二叉樹(9)從attributelist中刪除分裂屬性；(10)for

splittingcriterion的每個輸出j//劃分元組并對每個分區(qū)產(chǎn)生子樹(11)設(shè)Dj是D中滿足輸出j的數(shù)據(jù)元組的集合；//一個分區(qū)(12)if

Dj為空then(13)加一個樹葉到結(jié)點N,標(biāo)記為D中的多數(shù)類；(14)else

加一個由Generatedecisiontree(Dj,attributelist)返回的結(jié)點到N；

endfor(15)返回N；14屬性選擇度量:信息增益(ID3/C4.5)符號定義：設(shè)數(shù)據(jù)分區(qū)D為標(biāo)記類元組的訓(xùn)練集。假定類標(biāo)號屬性具有m個不同值，定義m個不同類。設(shè)Ci,D是D中Ci類元組的集合。選擇具有最高信息增益的屬性A作為結(jié)點N的分裂屬性對D中的元組分類所需要的期望信息由下式給出:基于按A劃分對D的元組分類所需要的期望信息:按屬性A劃分的信息增益Pi用|Ci,D|/|D|估計15屬性選擇:信息增益ClassP:buyscomputer=“yes”ClassN:buyscomputer=“no”

意思為14個樣本中有5個“age<=30”的人，其中2個為“Yes”,3個為“No”.因此類似地,16計算連續(xù)值屬性的信息增益假設(shè)A是一個連續(xù)值屬性必須確定A的最佳分裂點首先將A的值按遞增順序排序每對相鄰值的中點被看做可能的分裂點(ai+ai+1)/2是A的值ai

和ai+1之間的中點對于A的每個可能分裂點,計算InfoA(D),具有最小期望信息需求的點選做A的分裂點分裂:D1

是滿足A≤split-point的元組集合,而D2

是滿足A>split-point的元組集合.17屬性選擇:增益率(C4.5)信息增益度量傾向于選擇具有大量值的屬性C4.5(ID3的后繼)采用增益率來克服這個問題(規(guī)范化信息增益)GainRatio(A)=Gain(A)/SplitInfo(A)Ex.gainratio(income)=0.029/1.557=0.019具有最大增益率的屬性作為分裂屬性18基尼指數(shù)(CART)如果一個數(shù)據(jù)集D包含n個類，則D的基尼指數(shù)定義為

其中

是D中元組屬于類j的概率,并用|Ci,D|/|D|估計如果數(shù)據(jù)集D基于屬性A被劃分成兩個子集D1

和

D2,則基尼指數(shù)定義為不純度降低:對于離散值屬性,選擇該屬性產(chǎn)生最小基尼指數(shù)的子集作為它的分裂子集；對于連續(xù)值屬性，選擇產(chǎn)生最小基尼指數(shù)的點作為分裂點；產(chǎn)生最小基尼指數(shù)（或最大不純度降低）的屬性選為分裂屬性19基尼指數(shù)的計算例如數(shù)據(jù)集D有9個buyscomputer=“yes”的元組和5個“no”的元組假設(shè)按income屬性子集{low,medium}將數(shù)據(jù)集劃分為D1(10個元組)和D2(4個元組)Gini{low,high}

是0.458;Gini{medium,high}

是0.450.因此在income的子集{low,medium}上劃分,因為

它的基尼指數(shù)最小20過分?jǐn)M合與樹剪枝過分?jǐn)M合:樹創(chuàng)建時，由于數(shù)據(jù)中的噪聲和離群點，會過分?jǐn)M合訓(xùn)練數(shù)據(jù)有很多分枝，一些是由于噪聲和離群點導(dǎo)致的異常預(yù)測準(zhǔn)確率下降兩種方法來避免過分?jǐn)M合先剪枝:如果劃分一個結(jié)點后的元組低于預(yù)定義閾值，則提前停止樹的構(gòu)建選取一個適當(dāng)?shù)拈撝凳抢щy的后剪枝:由“完全生長”的樹剪去子樹——用回溯方式去除樹的一些點Useasetofdatadifferentfromthetrainingdatatodecidewhichisthe“bestprunedtree”21分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)22使用IF-THEN規(guī)則分類以

IF-THEN規(guī)則的形式表示學(xué)習(xí)得到的模型R:IFage=youthANDstudent=yesTHENbuyscomputer=yes“IF”部分稱為規(guī)則前件或前提,“THEN”部分稱為規(guī)則的結(jié)論在規(guī)則前件，條件由一個或多個用邏輯連接詞AND連接的屬性測試組成；規(guī)則的結(jié)論包含一個類預(yù)測對于給定的元組，如果規(guī)則前件中的條件都成立，則規(guī)則覆蓋了該元組規(guī)則的評價:覆蓋率和準(zhǔn)確率ncovers表示規(guī)則R覆蓋的元組數(shù)ncorrect表示規(guī)則R正確分類的元組數(shù)coverage(R)=ncovers/|D|/*D:訓(xùn)練數(shù)據(jù)集*/accuracy(R)=ncorrect/ncovers23使用IF-THEN規(guī)則分類如何使用基于規(guī)則的分類來預(yù)測給定元組X的類標(biāo)號？如果規(guī)則被X滿足，則稱該規(guī)則被觸發(fā)。例如，X=(age=youth,income=medium,student=yes,creditrating=fair)X滿足規(guī)則R，觸發(fā)該規(guī)則。如果R是唯一滿足的規(guī)則，則該規(guī)則激活，返回X的類預(yù)測注意，觸發(fā)并不總意味激活，因為可能有多個規(guī)則被滿足如果多個規(guī)則被觸發(fā)，則需要解決沖突規(guī)模序:把最高優(yōu)先權(quán)賦予具有“最苛刻”要求的被觸發(fā)的規(guī)則(即,具有最多屬性測試的)規(guī)則序:預(yù)先確定規(guī)則的優(yōu)先次序?；陬惖男?按類的普遍性降序排序基于規(guī)則的序(決策表):根據(jù)規(guī)則質(zhì)量的度量，規(guī)則被組織成一個優(yōu)先權(quán)列表。最先出現(xiàn)在決策表中的被觸發(fā)的規(guī)則具有最高優(yōu)先權(quán)，因此激活它的類預(yù)測。24age?student?creditrating?<=30>40noyesyesyes31..40nofairexcellentyesno例子:從buyscomputer決策樹提取規(guī)則R1:IFage=youngANDstudent=noTHENbuyscomputer=noR2:IFage=youngANDstudent=yesTHENbuyscomputer=yesR3:IFage=mid-age THENbuyscomputer=yesR4:IFage=oldANDcreditrating=excellentTHENbuyscomputer=noR5:IFage=oldANDcreditrating=fairTHENbuyscomputer=yes由決策樹提取規(guī)則與決策樹相比，IF-THEN規(guī)則可能更容易理解，尤其是當(dāng)決策樹非常大時對每條從根到樹葉結(jié)點的路徑創(chuàng)建一個規(guī)則給定路徑上的每個分裂準(zhǔn)則的邏輯AND形成規(guī)則的前件(“IF”部分);存放類預(yù)測的樹葉結(jié)點形成規(guī)則的后件(“THEN”部分)規(guī)則是互斥的和窮舉的25規(guī)則歸納:順序覆蓋算法順序覆蓋算法:直接從訓(xùn)練集中提取規(guī)則典型的順序覆蓋算法:FOIL,AQ,CN2,RIPPER規(guī)則被順序地學(xué)習(xí),給定類的每個規(guī)則覆蓋該類的許多元組（并且希望不覆蓋其他類的元組）步驟:一次學(xué)習(xí)一個規(guī)則每學(xué)習(xí)一個規(guī)則,就刪除該規(guī)則覆蓋的元組在剩下的元組上重復(fù)該過程，直到滿足終止條件,例如,不再有訓(xùn)練元組，或返回規(guī)則的質(zhì)量低于用戶指定的閾值與決策樹對比:決策樹歸納是同時學(xué)習(xí)一組規(guī)則26基本順序覆蓋算法算法：順序覆蓋。學(xué)習(xí)一組IF-THEN分類規(guī)則。輸入：D，類標(biāo)記元組的數(shù)據(jù)集合。Att-vals,所有屬性與它們可能值的集合。輸出：IF-THEN規(guī)則的集合。方法：Ruleset={};//學(xué)習(xí)的規(guī)則集初始為空for每個類cdo

repeatRule=LearnOneRule(D,Att-vals,c);

從D中刪除被Rule覆蓋的元組；

until

終止條件滿足；Ruleset=Ruleset+Rule//將新規(guī)則添加到規(guī)則集endfor返回Ruleset;27如何Learn-One-Rule?從最一般的規(guī)則開始:condition=empty(條件為空)通過采用一種貪心的深度優(yōu)先策略添加新的屬性選擇最能提高規(guī)則質(zhì)量的屬性規(guī)則質(zhì)量度量:同時考慮覆蓋率和準(zhǔn)確率Foil-gain(inFOIL&RIPPER):用下式估計擴(kuò)展條件而獲得的信息偏向于具有高準(zhǔn)確率并且覆蓋許多正元組的規(guī)則28分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)29貝葉斯定理:基礎(chǔ)貝葉斯定理:X

表示數(shù)據(jù)元組:類標(biāo)號未知H為某種假設(shè)，如數(shù)據(jù)元組X屬于某個特定類C分類是確定P(H|X)(即后驗概率):

在條件X下，H的后驗概率，例如，X是一位35歲的顧客，其收入為4萬美元。令H為某種假設(shè)，如顧客將購買計算機(jī)，則P(H|X)反映當(dāng)我們知道顧客的年齡和收入時，顧客X將購買計算機(jī)的概率。P(H)(先驗概率):H的先驗概率如,

任意給定顧客將購買計算機(jī)的概率P(X):X的先驗概率，如顧客集合中的年齡為35歲并且收入為4萬美元的概率P(X|H):在條件H下，X的后驗概率例如,

已知顧客X將購買計算機(jī)，該顧客是35歲并且收入為4萬美元的概率30分類就是導(dǎo)出最大后驗概率設(shè)D是訓(xùn)練元組和它們相關(guān)聯(lián)的類標(biāo)號的集合。每個元組用一個n維屬性向量

X=(x1,x2,…,xn)表示假定有m個類C1,C2,…,Cm.分類法將預(yù)測X屬于具有最高后驗概率的類,即,最大的P(Ci|X)。

如果P(Ci|X)在所有k個類的P(Ck|X)中最大，則預(yù)測

屬于類Ci每個類的后驗概率可根據(jù)以下貝葉斯定理計算得到由于P(X)對所有類為常數(shù)，所以只需要最大化31樸素貝葉斯分類簡單假定:屬性有條件地相互獨立(即屬性之間不存在依賴關(guān)系):如果Ak

是分類屬性,則P(xk|Ci)是D中屬性Ak的值為xk的Ci類的元組數(shù)除以D中Ci類的元組數(shù)|Ci,D|如果Ak

是連續(xù)值屬性,P(xk|Ci)通?；诰郸毯蜆?biāo)準(zhǔn)差σ的高斯分布計算（假定連續(xù)值屬性服從均值為μ、標(biāo)準(zhǔn)差為σ的高斯分布），由下式定義32樸素貝葉斯分類Class:C1:buyscomputer=‘yes’C2:buyscomputer=‘no’待分類數(shù)據(jù):X=(age<=30,Income=medium,Student=yes,Creditrating=Fair)33樸素貝葉斯分類:例子P(Ci):P(buyscomputer=“yes”)=9/14=0.643P(buyscomputer=“no”)=5/14=0.357為每個類計算P(X|Ci)P(age=“<=30”|buyscomputer=“yes”)=2/9=0.222P(age=“<=30”|buyscomputer=“no”)=3/5=0.6P(income=“medium”|buyscomputer=“yes”)=4/9=0.444P(income=“medium”|buyscomputer=“no”)=2/5=0.4P(student=“yes”|buyscomputer=“yes)=6/9=0.667P(student=“yes”|buyscomputer=“no”)=1/5=0.2P(creditrating=“fair”|buyscomputer=“yes”)=6/9=0.667P(creditrating=“fair”|buyscomputer=“no”)=2/5=0.4X=(age<=30,income=medium,student=yes,creditrating=fair)

P(X|buyscomputer=“no”)*P(buyscomputer=“no”)=0.007因此,X屬于類(“buyscomputer=yes”)

34避免零概率問題樸素貝葉斯分類預(yù)測需要每個條件概率是非零的，否則，預(yù)測概率將會為零

例如，假設(shè)一個具有1000個元組的數(shù)據(jù)集,income=low(0),income=medium(990),和income=high(10)使用拉普拉斯校準(zhǔn)(或拉普拉斯估計法)每個組元組數(shù)加1Prob(income=low)=1/1003Prob(income=medium)=991/1003Prob(income=high)=11/1003“校準(zhǔn)的”概率估計與對應(yīng)的“未校準(zhǔn)的”估計很接近35樸素貝葉斯分類:評價優(yōu)點易于實施大部分情況下可以獲得好的結(jié)果缺點假設(shè):類條件獨立，因此損失準(zhǔn)確性實際中,屬性之間經(jīng)常存在依賴性屬性之間存在依賴的情況不能通過樸素貝葉斯分類建模怎么處理這些依賴性?貝葉斯信念網(wǎng)絡(luò)36分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)組合方法:提高分類準(zhǔn)確率組合方法把k個學(xué)習(xí)得到的模型,M1,M2,…,Mk,組合在一起，旨在創(chuàng)建

一個改進(jìn)的復(fù)合分類模型M*流行的組合方法裝袋:在一組分類器上平均預(yù)測提升:基于一組分類器的加權(quán)表決37給定一個待分類元組X，它收集由基分類器返回的類標(biāo)號預(yù)測，并輸出占多數(shù)的類。裝袋:自助聚集類似:基于多個醫(yī)生多數(shù)表決的診斷訓(xùn)練每次迭代i，d個元組的訓(xùn)練集Di采用有放回抽樣從原始數(shù)據(jù)集D抽取從每個訓(xùn)練集Di學(xué)習(xí)一個分類器模型Mi分類:對一個未知元組X分類每個分類器Mi

返回它的類預(yù)測裝袋分類器M*統(tǒng)計得票，并將得票最高的類賦予X預(yù)測:通過取給定元組的每個預(yù)測的平均值，裝袋也可以用于連續(xù)值的預(yù)測準(zhǔn)確率準(zhǔn)確率顯著高于從原訓(xùn)練集D導(dǎo)出的單個分類器的準(zhǔn)確率對于噪聲數(shù)據(jù):更魯棒38裝袋:自助聚集39算法：裝袋。裝袋算法——為學(xué)習(xí)方案創(chuàng)建組合分類模型，其中每個模型給出等權(quán)重預(yù)測。輸入：D：d個訓(xùn)練元組的集合；k:組合分類器中的模型數(shù)；

一種學(xué)習(xí)方案（例如，決策樹算法、后向傳播等）輸出：組合分類器——復(fù)合模型M*。方法：fori=1tokdo//創(chuàng)建k個模型通過對D有放回抽樣，創(chuàng)建自助樣本Di;使用Di和學(xué)習(xí)方法導(dǎo)出模型Mi;endfor使用組合分類器對元組X分類：

讓k個模型都對X分類并返回多數(shù)表決;提升類似:咨詢多位醫(yī)生，根據(jù)醫(yī)生先前的診斷準(zhǔn)確率，對每位醫(yī)生的診斷賦予一個權(quán)重——加權(quán)診斷的組合作為最終的診斷提升?權(quán)重被賦予每個訓(xùn)練元組迭代地學(xué)習(xí)k個分類器學(xué)習(xí)得到分類器Mi

之后,更新權(quán)重,使得其后的分類器Mi+1”更關(guān)注”Mi誤分類的訓(xùn)練元組最終提升的分類器M*組合每個個體分類器的表決,其中每個分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)提升算法也可以用于數(shù)值預(yù)測與裝袋相比:提升有更高的準(zhǔn)確率，但存在對數(shù)據(jù)過分?jǐn)M合的危險4041Adaboost(FreundandSchapire,2023)給定一個包含d個類標(biāo)記元組(X1,y1),…,(Xd,yd)的數(shù)據(jù)集D開始,對每個訓(xùn)練元組賦予相等的權(quán)重(1/d)k輪產(chǎn)生k個分類器.在第i輪,從D中元組有放回抽樣,形成大小為d的訓(xùn)練集Di。每個元組被選中的機(jī)會由它的權(quán)重決定從訓(xùn)練集Di導(dǎo)出分類器Mi。計算Mi的錯誤率如果元組被不正確地分類,則它的權(quán)重增加，否則它的權(quán)重減少錯誤率:err(Xj)是元組

Xj的誤分類誤差.模型Mi

的錯誤率是模型Mi誤分類D中的每個元組的加權(quán)和:分類器Mi的表決權(quán)重為42分類:基本概念分類:基本概念決策樹基于規(guī)則分類貝葉斯分類方法提高分類準(zhǔn)確率的技術(shù)小結(jié)小結(jié)分類是一種提取模型的數(shù)據(jù)分析形式有效的分類方法：決策樹歸納,基于規(guī)則的分類,貝葉斯分類方法.裝袋和提升可用于提高整體的分類準(zhǔn)確率43企業(yè)分配決策

第一節(jié)企業(yè)分配的基本理論

一.企業(yè)分配的含義

企業(yè)分配是根據(jù)企業(yè)所有權(quán)的歸屬及各權(quán)益占有的比例,對企業(yè)生產(chǎn)成果進(jìn)行劃分,是一種利用財務(wù)手段確保生產(chǎn)成果的合理歸屬和正確分配的管理過程。企業(yè)分配是對企業(yè)一定生產(chǎn)成果的分配。

利潤是指企業(yè)在一定時期內(nèi)從事各種經(jīng)營活動所獲取的經(jīng)營成果。企業(yè)的利潤總額由營業(yè)利潤、投資凈收益、補貼收入和營業(yè)外收支凈額組成。

補貼收入指企業(yè)按規(guī)定實際收到退還的增值稅或按銷量或工作量等依據(jù)國家規(guī)定的補助定額計算并按期給予的定額補貼及屬于國家扶持的領(lǐng)域而給予的其他形式的補貼。

?(一)營業(yè)利潤：是企業(yè)通過銷售商品和提供勞務(wù)等經(jīng)營業(yè)務(wù)實現(xiàn)的利潤。

營業(yè)利潤=營業(yè)收入-營業(yè)成本-期間費用

營業(yè)收入:指企業(yè)通過銷售商品和提供勞務(wù)等經(jīng)營業(yè)務(wù)實現(xiàn)的收入。

營業(yè)成本:指企業(yè)為生產(chǎn),銷售商品和提供勞務(wù)等發(fā)生的直接人工、直接材料、制造費用等。

期間費用:是直接計入當(dāng)期損益的費用。包括管理費用,財務(wù)費用和營業(yè)費用。?(二)投資凈收益：是指企業(yè)對外投資收益扣除投資損失后的數(shù)額。

投資收益:投資股票分得的股利,投資債券取得的利息收入,從被投資企業(yè)分得的利潤,投資到期收回的款項或中途轉(zhuǎn)讓取得的款項高于投資賬面價值的差額。

投資損失:指投資到期收回的款項或中途轉(zhuǎn)讓取的款項低于投資賬面價值的差額。?(三)營業(yè)外收支：指與企業(yè)生產(chǎn)經(jīng)營無直接聯(lián)系的收入和支出。

人人文庫> 全部分類> 應(yīng)用文書 > 規(guī)章制度

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

決策樹基本概念教材和企業(yè)分配決策

文檔簡介

溫馨提示

最新文檔

評論

決策樹基本概念教材和企業(yè)分配決策

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔