小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者

上傳人：我*** IP屬地：北京上傳時(shí)間：2023-01-17 格式：DOCX 頁(yè)數(shù)：71 大小：1.52MB 積分：12 舉報(bào) 版權(quán)申訴

小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者_(dá)第2頁(yè)

小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者_(dá)第3頁(yè)

小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者_(dá)第4頁(yè)

小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者_(dá)第5頁(yè)

已閱讀5頁(yè)，還剩66頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本課件包括演示文稿、示例、代碼、題庫(kù)、和在課程范圍外向任何第散播。任何其他人或機(jī)構(gòu)不得盜版、、仿造其中的創(chuàng)意及內(nèi)容，我們課咨

主要內(nèi)樣、分類(lèi)算法描前向分步算法+指數(shù)損失函

復(fù)習(xí)：線性回歸的梯度

復(fù)習(xí)：Logistic回歸的梯度方

復(fù)習(xí)：梯度下降的自適應(yīng)學(xué)習(xí)xk=a，沿著負(fù)梯度方向，移動(dòng)到xk+1=b，有baFafaf從x0為出發(fā)點(diǎn)，每次沿著當(dāng)前函數(shù)梯度反方向移動(dòng)x0,x1,x2,!,對(duì)應(yīng)的各點(diǎn)函數(shù)值序列之間的關(guān)系fx0fx1fx2!fxn當(dāng)n達(dá)到一定值時(shí)，函數(shù)f(x)收斂到局部最小

學(xué)習(xí)率α的計(jì)算標(biāo)+αdk)的最小值。即 h'fxd

線性搜索求學(xué)習(xí)不斷將區(qū)間[α1α2]分成兩半，選擇端點(diǎn)異號(hào)的

dfxcfxT ,c 計(jì)算搜索方向上的最大步長(zhǎng)，沿著搜索方向移f(xk+αdk)f())

復(fù)習(xí)：三種決策樹(shù)學(xué)習(xí)ID3：使用信息增益/互信息g(D,A)進(jìn)行特征選C4.5：信息增益率gr(D,A)g(D,A)CART：基尼指(率)/gini

剪枝系數(shù)的確根據(jù)原損失函

CTNtH葉結(jié)點(diǎn)越多，決策樹(shù)越復(fù)雜，損失越大，修正

CTCTTleaf假定當(dāng)前對(duì)以r為根剪枝剪枝后，只保留r 以r為根剪枝后

rCr剪枝前

令二者相等

Crα稱(chēng)為結(jié)點(diǎn)r的剪枝系數(shù)

Rleaf

剪枝算對(duì)于給定的決策樹(shù)計(jì)算所有內(nèi)部節(jié)點(diǎn)的剪枝系數(shù)查找最小剪枝系數(shù)的結(jié)點(diǎn)，剪枝得決策樹(shù)Tk重復(fù)以上步驟，直到?jīng)Q策樹(shù)Tk只有1個(gè)結(jié)得到?jīng)Q策樹(shù)序列T0T1T2…TK使用驗(yàn)證樣本集選擇最價(jià)函數(shù)：CTNtHt

隨機(jī)森隨機(jī)森林在bagging從樣本集中用Bootstrap采樣選出n從所有屬性中隨機(jī)選擇k個(gè)屬性，選擇最佳分割重復(fù)以上兩步m次，即建立了m棵CART決策這m個(gè)CART形成隨機(jī)森林，通過(guò)投票表決結(jié)果，

輸入數(shù)據(jù)x：M個(gè)樣本數(shù)據(jù)，每個(gè)數(shù)據(jù)包

隨機(jī)森

由決策樹(shù)和隨機(jī)森林的關(guān)系的思假定當(dāng)前一定得到了m-1顆決策樹(shù)，是否可以通各個(gè)決策樹(shù)組成隨機(jī)森林后，最后的投票過(guò)程

提升的概提升是一個(gè)機(jī)器學(xué)習(xí)技術(shù)，可以用于回歸和分類(lèi)問(wèn)是依據(jù)損失函數(shù)的梯度方向，則稱(chēng)之為梯度升(Gradientboosting)梯度提升弱函數(shù)集合()；提升算法近局部極小值。這種在函數(shù)域的梯度提升觀點(diǎn)對(duì)機(jī)器學(xué)習(xí)的很多領(lǐng)域有深刻影提升的理論意義：如果一個(gè)問(wèn)題存在弱分類(lèi)器，則

提升算給定輸入向量x和輸出變量y組成的若干訓(xùn)練樣本義為2

假定最優(yōu)函數(shù)為

Ly,F F*即 x,yF假定F(x)是一族基函數(shù)fi(x) M xFx!fM x

提升算法推首先，給定常函數(shù)00

Lyi,

!n n

yi,Fm1

fxi

Ly, 梯度近似

貪心法在每次選擇最優(yōu)基函數(shù)f使用梯度下降的方法近似計(jì)將樣本帶入基函數(shù)f得到f(x1),f(x2),...,f(xn) 為向量

Ly,

xinmy, nmy,

x!Ly,

提升算

Lyi,00

F 計(jì)算偽F

i1,2,!,pseudo

xFm1x使用數(shù)

計(jì)算擬合殘差的基函數(shù)計(jì)算

arg

Ly,

梯度提升決策樹(shù)梯度提升的典型基函數(shù)即決策樹(shù)(尤其是在第m步的梯度提升是根據(jù)偽殘差數(shù)據(jù)計(jì)算決策樹(shù)性預(yù)測(cè)。使用指示記號(hào)I(x)，對(duì)于輸入x，tm(x)!tmx!

bjmIxRjmj。其中，bjm是樣本x在區(qū)域Rjm的預(yù)測(cè)。

tmx

bjmIxRjmj margminLyi,Fm1xitmxi Fm Fm1 argminLy, !!

參數(shù)設(shè)置和正則對(duì)訓(xùn)練集擬合過(guò)高會(huì)降低模型的泛化能力，需要使對(duì)復(fù)雜模型增加懲罰項(xiàng)，如：模型復(fù)雜度正比于葉葉結(jié)點(diǎn)數(shù)目控制了樹(shù)的層數(shù)，一般選擇4≤J≤8葉結(jié)點(diǎn)包含的最少樣本數(shù)梯度提升迭代次數(shù)

衰減因子、降采 0 稱(chēng)ν每次迭代都對(duì)偽殘差樣本采用無(wú)放回的降采樣，用部分降采樣的額外好處是能夠使用剩余樣本

GBDT

FMM

x,yf

函數(shù)估計(jì)本來(lái)被認(rèn)為是在函數(shù)空間而非參數(shù)空間的歸問(wèn)題；而誤差函數(shù)換成多類(lèi)別Logistic似然函數(shù)，對(duì)目標(biāo)函數(shù)分解成若干基函數(shù)的思考：如果對(duì)基函數(shù)的學(xué)習(xí)中，不止考慮函數(shù)的參數(shù)和權(quán)值，而是對(duì)樣本本身也，會(huì)得到什么結(jié)

boosting的思

設(shè)訓(xùn)練數(shù)據(jù)集T={(x1,y1Dw,w! !, , 1,i1,2,!,

Adaboost：對(duì)于 NNemPGmxiyiwmiIGmxiyi

1log1m m

Adaboost：對(duì)于 , ! !,

wmiexpyGx,i1,2,!,ZZm

NZmwmiexpmyiGmxiN它的目的僅僅是使Dm+1成為一個(gè)概率分 wmiexpyGxZ expyGxZ wexpyGxZZm

MMfxmGmGxsignfx

舉

解Dw,w! !, , 1,i1,2,!, =

G1(x)在訓(xùn)練數(shù)據(jù)集上的誤差率e1=P(G1(xi)≠yi)計(jì)算G1的系數(shù)1

log1

分類(lèi)器sign(f1(x))在訓(xùn)練數(shù)據(jù)集上有3個(gè)誤分類(lèi)

更新訓(xùn)練數(shù)據(jù)的權(quán)值分 , ! !, m1, wmiexpyGx,i1,2,!,ZZm

D2=(0.0715,0.0715,0.0715,0.0715,0.0715,0.1666,0.1666,0.1666,分類(lèi)器sign(f1(x))在訓(xùn)練數(shù)據(jù)集上有3個(gè)誤分類(lèi)

x x

e2=P(G2(xi)≠yi)0.2143(0.0715*3)計(jì)算G2的系2 1log12

更新訓(xùn)練數(shù)據(jù)的權(quán)值分 , ! !, m1, wmiexpyGx,i1,2,!,ZZm

D3=(0.0455,0.0455,0.0455,0.1667, 0.1060,0.1060,0.1060,f2(x)=0.4236G1(x)+分類(lèi)器sign(f2(x))在訓(xùn)練數(shù)據(jù)集上有3個(gè)誤分類(lèi)

e3=P(G3(xi)≠yi)0.1820(0.0455*4)計(jì)算G3的系1log1 3 3

更新訓(xùn)練數(shù)據(jù)的權(quán)值分 , ! !, m1, wmiexpyGx,i1,2,!,ZZm

D4=(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,f3(x)=0.4236G1(x)+分類(lèi)器sign(f3(x))在訓(xùn)練數(shù)據(jù)集上有0個(gè)誤分類(lèi)

IGxy

1expyfx NAdaboost誤差上N

mNN

后半部分

expyifxi

i w

mim

myiGmMM m1 MMw1iexp1yiG1xiexpmyiGmxi Z1expmyiGmxiZ1expmyiGmxi iMMZ1w2iexpmyiGmxi MZ1Z2w3iexpmyiGmxiM Z1Z2!ZM1wMiexpMyiGMxii ZyGxm Zmwm1,iwmiexpmyiGmxiZ1w2,iw1iexp1yiG1xim

后半部1

myGxNexpyifxiN

w1iexpmyiGmxiw1iexpmyiGmxi

Mw1iexp1yiG1xiexpmyiGmxi Z1expmyiGmxiZ1expmyiGmxi iM w miexpZZ1w2iexpmyiGM w miexpZ

yxyxM12 mimiZM12 mimi

yGx

Zmwm1,iwmiexpmyiGmxi

Z1Z2!ZM1wMiexpMyiGMxi

yGxiMM

訓(xùn)練誤差

142

2 Zm

其中， 222

NZmwmiexpmyiGmxiN

ww mww yiGmxi m1eemem

m2 14

訓(xùn)練誤差NZmwmiexpmyiGmxiN ww m wwyiGmxi yiGmxi

1m mm 14m

取γ1,γ2…的最小 N1NN

Adaboost算法AdaBoost算法是模型為加法模型、損失函數(shù)

前向分步算M

基函數(shù)：bx;m基函數(shù)的參基函數(shù)的系數(shù)：

前向分步算法的含在給定訓(xùn)練數(shù)據(jù)及損失函數(shù)L(y,f(x))的條件

minLyi,mbxi; m,m N

minLyi,bxi;

前向分步算法的算法框訓(xùn)練數(shù)據(jù)集T={(x1,y1),損失函數(shù)基函數(shù)集加法模型

前向分步算法的算法框初始化f0(x對(duì)于N極小化損失函

m,margminLyi,fm1xibxi;得到參數(shù)m

更新當(dāng)前模mfx xbx;m M得到加法模型fxfMxmbx;mM

前向分步算法與

證到fm-1(x)：fm1xfm2xm1Gm1x1G1x!m1Gm1在第mm,Gmx和fmNN

證 ,Gx

expyiGxi

fm1xiwmi既不依賴(lài)α也不依賴(lài)G，所以與最小化無(wú)關(guān)。但wmi依賴(lài)于fm-1(x)，所以，每輪迭代會(huì)

基本分類(lèi)器對(duì)于任意α>0，是上式最小的G(x)由下式mG*xmG

Gxi其中， expy x

權(quán)值的計(jì)

w w

wmiyiGmxi yiGmxiwmiwmi

NNe

將G*(x)

*xG

Gxi

1log1m m

分類(lèi)錯(cuò)誤em

wmiIyiGxiN NNN

wmiIyiGxiNN

權(quán)值的更

fmxfm1xmGm

exp

wm1,iwm,iexpyimGm

權(quán)值和錯(cuò)誤率的關(guān)鍵解事實(shí)上，根據(jù)Adaboost的構(gòu)造過(guò)程，權(quán)值

i i

wmi

1mm

1log1

AdaBoostAdaBoost算法可以看做是采用指數(shù)損失函數(shù)Ada

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

小象-機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)新技術(shù)教育領(lǐng)航者

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔