版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
集成學(xué)習(xí)(
)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院理論出發(fā)點(diǎn)和Boosting算法AdaBoost算法Bagging算法選擇性集成總結(jié)課程內(nèi)容No
Free
Lunch
TheoremSuppose
we
make
no
prior
assumptions
aboutthe
nature
of
the
classification
task.
Can
weexpect
any
classification
method
to
be
superioror
inferior
overall?No
Free
Lunch
Theorem:
Answer
to
abovequestion:
NOIf
goal
is
to
obtain
good
generalizationperformance,
there
is
no
context-independentor
usage-independent
reasons
to
favor
oneNo
Free
Lunch
TheoremIf
one
algorithm
seems
to
outperform
another
ina
particular
situation,
it
is
a
consequenceof
its
fitto
a
particular
pattern
recognition
problem.For
a
new
classification
problem,
what
mattersmost:
prior
information,
data
distribution,
size
oftraining
set,
cost
fn.No
Free
Lunch
TheoremIt
is
the
assumptions
about
the
learningalgorithm
that
are
importantEven
popular
algorithms
will
perform
poorlyon
some
problems,
where
the
learningalgorithm
and
data
distribution
do
not
matchwellIn
practice,
experience
with
a
broad
range
oftechniques
is
the
best
insurance
for
solvingarbitrary
new
classification
problemsBias
and
VarianceNo
“best
classifier”
in
generalNecessity
for
exploring
a
variety
of
methodsHow
to
evaluate
if
the
learning
algorithm
“matches”
theclassification
problemBias:
measures
the
quality
of
thematchHigh-bias
implies
poor
matchVariance:
measures
the
specificity
of
the
matchHigh-variance
implies
a
weak
matchBias
and
variance
arenot
independent
of
each
otherBias
and
VarianceGiven
true
function
F(x)Estimated
function
g(x;
D)
from
a
training
set
DDependence
of
function
g
on
training
set
D.Each
training
setgives
an
estimate
of
error
in
the
fitTaking
average
over
all
training
sets
of
size
n,
MSE
isAverage
error
that
g(x;D)makes
in
fitting
F(x)Difference
between
expectedDifference
between
observedvalue
and
expected
valueLow
bias:
o age,
we
willaccura y
estimate
F
from
DLow
variance:
Estimate
of
F
doesnot
change
much
with
different
DMotivation泛化能力是機(jī)器學(xué)習(xí)關(guān)注的一個(gè)根本問題泛化能力(generalization ability)表征了學(xué)習(xí)系統(tǒng)對新事件的適用性泛化能力越強(qiáng)越好提高泛化能力是機(jī)器學(xué)習(xí)的追求決策,便是部分的日常生活中,所謂的利用了這種想法。譬如選總統(tǒng),每個(gè)人都以自己的考慮,投下自己的一票,但最后由多數(shù)人選出的總統(tǒng),似乎應(yīng)該好于由一個(gè)人指定的總統(tǒng)。28【集成學(xué)習(xí):
】在機(jī)器學(xué)習(xí)中,直接建立一個(gè)高性能的分類器是很
的。但是,如果能找到一系列性能較差的分類器,并把它們集成起來的話,也許就能得到更好的分類器。集成學(xué)習(xí),就是一種把輸入送入多個(gè)學(xué)習(xí)器,再通過某種辦法把學(xué)習(xí)的結(jié)果集成起來的辦法。這每一個(gè)學(xué)習(xí)器,也就相應(yīng)的被稱為“弱學(xué)習(xí)器”。集成學(xué)習(xí)最早也叫做“Committee
VotingMethod”,也就是因?yàn)樗屯镀钡倪^程相似。29【集成學(xué)習(xí):】Classifier
ensembleΣαihi(x)hn(x)h2(x)h1(x)InputvectorClassifier
1Classifier
2……Classifier
NCombine
ClassifiersOutputx【集成學(xué)習(xí):圖示】問題問題集成學(xué)習(xí)集成學(xué)習(xí)(Ensemble
Learning)是一種機(jī)器學(xué)習(xí)范式,它使用多個(gè)學(xué)習(xí)器來解決同一個(gè)問題…
...…
...由于集成學(xué)習(xí)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點(diǎn)“當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首”[T.G.
Dietterich,AIMag97]Example:
Weather
ForecastReality1XXX2XXX3XXX4XX5XXCombine期望結(jié)果1(精度33.3%)2(精度33.3%)3(精度33.3%)集成(精度33.3%)投票期望結(jié)果1(精度33.3%)2(精度33.3%)3(精度33.3%)集成(精度0%)投票必須有差異 精度不能太低E
E
A
[A.
Krogh
&
J.
Vedelsby,NIPS94]學(xué)習(xí)器越精確、差異越大,集成越好【如何構(gòu)建好的集成】【集成學(xué)習(xí):如何構(gòu)造?】辦法就是改變訓(xùn)練集。通常的學(xué)習(xí)算法,根據(jù)訓(xùn)練集的不同,會(huì)給出不同的學(xué)習(xí)器。這時(shí)就可以通過改變訓(xùn)練集來構(gòu)造不同的學(xué)習(xí)器。然后再把它們集成起來?!編?quán)的采樣:
】通過給訓(xùn)練數(shù)據(jù)賦以不同的權(quán),實(shí)際上使得每個(gè)學(xué)習(xí)器關(guān)注訓(xùn)練集中的某一部分,這也符合
最初
投票的想法。直觀上,每個(gè)學(xué)習(xí)器關(guān)注訓(xùn)練集中的某一部分,很多個(gè)訓(xùn)練集應(yīng)該可以覆蓋訓(xùn)練集中的大部分,只要巧妙的選擇平均的權(quán),就可以得到更好的學(xué)習(xí)效果?!居枚鄠€(gè)學(xué)習(xí)器覆蓋樣本空間】【分類設(shè)計(jì)的重采樣技術(shù)】分類器設(shè)計(jì)的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合(arcing,adaptive
reweightingand
combining);這類方法的主要思想是利用同一個(gè)訓(xùn)練樣本集合構(gòu)造多個(gè)分類器,然后以某種方式將這些分類器組一個(gè)分類器;主要方法包括:bagging算法和boosting算法【集成學(xué)習(xí):如何構(gòu)造?】
一般選定
平均的方法來構(gòu)造集成學(xué)習(xí)的最終學(xué)習(xí)器。但是里面的每一個(gè)Classifier
i怎樣做呢?有一些研究,是針對每個(gè)學(xué)習(xí)器都不同構(gòu)的情況,比如識(shí)別一個(gè)人,一個(gè)學(xué)習(xí)器考慮臉,另一個(gè)考慮步態(tài),另一個(gè)考慮
。這種研究通常稱為Information
Fusion,不在
今天
的范疇。
今天
的,是用同樣的學(xué)習(xí)算法來構(gòu)造不同的弱學(xué)習(xí)器的方法。3839【集成學(xué)習(xí):如何構(gòu)造?】辦法就是改變訓(xùn)練集。通常的學(xué)習(xí)算法,根據(jù)訓(xùn)練集的不同,會(huì)給出不同的學(xué)習(xí)器。這時(shí)就可以通過改變訓(xùn)練集來構(gòu)造不同的學(xué)習(xí)器。然后再把它們集成起來。40【隨機(jī)采樣】在原來的訓(xùn)練集上隨機(jī)采樣,可以得到新的訓(xùn)練集。41可以給訓(xùn)練集里的每個(gè)元素不采樣時(shí),同的權(quán)。權(quán)值可以通過上一次訓(xùn)練的結(jié)果來確定。【帶權(quán)的采樣】42通過給訓(xùn)練數(shù)據(jù)賦以不同的權(quán),實(shí)際上使得每個(gè)學(xué)習(xí)器關(guān)注訓(xùn)練集中的某一部分,這也符合最初投票的想法。直觀上,每個(gè)學(xué)習(xí)器關(guān)注訓(xùn)練集中的某一部分,很多個(gè)訓(xùn)練集應(yīng)該可以覆蓋訓(xùn)練集中的大部分,只要巧妙的選擇平均的權(quán),就可以得到更好的學(xué)習(xí)效果?!編?quán)的采樣:】43【集成學(xué)習(xí):評述】集成學(xué)習(xí)實(shí)際上代表了一種與傳統(tǒng)不同的思維理念。傳統(tǒng)的機(jī)器學(xué)
般都自認(rèn)為是單模型的,對于模型的分析總是在整體上完成。Rosenblatt:PerceptronRumelhart:
BPVapnik:
SVM但是,所有這些模型其實(shí)都可以看作是一種平均的多模型。44【集成學(xué)習(xí):評述】所以,當(dāng)然應(yīng)該考慮研究一般的多模型。實(shí)際上,從90年始,對集成學(xué)習(xí)的研究取得了一系列突破進(jìn)展。在算法上,集成學(xué)習(xí)的典型代表AdaBoost算法,已經(jīng)成為與SVM并立的方法。而且,集成學(xué)習(xí)比SVM更為一般,可能可以有更廣闊的前景。45【泛化能力】泛化:generalization泛化能力越強(qiáng),處理新數(shù)據(jù)的能力越好泛化能力是機(jī)器學(xué)習(xí)關(guān)注的基本問題之一提高泛化能力是 的追求46集成學(xué)習(xí)(Ensemble
Learning)是一種機(jī)器學(xué)習(xí)范式,它使用多個(gè)(通常是同質(zhì)的)學(xué)習(xí)器來解決同一個(gè)問題問題…...…...問題集成學(xué)習(xí)中使用的多個(gè)學(xué)習(xí)器稱為
學(xué)習(xí)器當(dāng) 學(xué)習(xí)器均為決策樹時(shí),稱為“決策樹集成”當(dāng) 學(xué)習(xí)器均為神經(jīng)網(wǎng)絡(luò)時(shí),稱為“神經(jīng)網(wǎng)絡(luò)集成”……
……【集成學(xué)習(xí)】47由于集成學(xué)習(xí)技術(shù)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點(diǎn),并被國際T.G.
Dietterich
稱為當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首[T.G.Dietterich,
AIMag97]問題:對20維超立方體空間中的區(qū)域分類左圖中縱軸為錯(cuò)誤率從上到下的四條線分別表示:平均神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率最好神經(jīng)網(wǎng)絡(luò)錯(cuò)誤率兩種神經(jīng)網(wǎng)絡(luò)集成的錯(cuò)誤率令人驚奇的是,集成的錯(cuò)誤率比最好的 還低[L.K.
Hansen
&P.
Salamon,
TPAMI90]【集成學(xué)習(xí)的重要性】48只要能用到機(jī)器學(xué)習(xí)的地方,就能用到集成學(xué)習(xí)【集成學(xué)習(xí)的應(yīng)用】集成學(xué)習(xí)技術(shù)已經(jīng)在行星探測、 波分析、Web信息過濾、生物特征識(shí)別、計(jì)算機(jī)輔助醫(yī)療等眾多領(lǐng)域得到了廣泛的應(yīng)用49的在意味著:時(shí)需要更大的計(jì)算開銷,因?yàn)橐?jì)算的更大的
開銷,因?yàn)橛?/p>
的
需要保存的增加將使得
間的差異越來越難以獲得【
越多越好嗎?】既然多個(gè)
的集成比單個(gè)
更好,那么是不是 越多越好?50【分類設(shè)計(jì)的重采樣技術(shù)】分類器設(shè)計(jì)的重采樣技術(shù)也被稱為“自適應(yīng)的權(quán)值重置和組合(arcing,adaptive
reweightingand
combining);這類方法的主要思想是利用同一個(gè)訓(xùn)練樣本集合構(gòu)造多個(gè)分類器,然后以某種方式將這些分類器組一個(gè)分類器;主要方法包括:bagging算法和boosting算法理論出發(fā)點(diǎn)和Boosting算法AdaBoost算法bagging算法選擇性集成總結(jié)課程內(nèi)容研究背景1988年,Kearns等在研究PAC學(xué)習(xí)模型時(shí)提出了一個(gè)有趣的問題:“弱可學(xué)習(xí)是否等價(jià)
可學(xué)習(xí)?”即Boosting問題。如果這一問題有肯定的回答,意味著只要找到比隨機(jī)猜測略好的弱學(xué)習(xí)算法,以將其提升為強(qiáng)學(xué)習(xí)算法,而不必直接去尋找通常情況下很難獲得的強(qiáng)學(xué)習(xí)算法,這對學(xué)習(xí)算法的設(shè)計(jì)有著重要的意義??梢酝ㄟ^一弱學(xué)習(xí)定理:只要找到比隨機(jī)猜測略好的學(xué)習(xí)算法,那么定的方式,構(gòu)造出強(qiáng)學(xué)習(xí)算法。意義:不用直接尋找通常情況下很難獲得的強(qiáng)學(xué)習(xí)算法,迂回
,通過找弱學(xué)習(xí)算法來集成。Boosting背景來源于:PAC-Learning
ModelValiant 1984
-11提出問題:強(qiáng)學(xué)習(xí)算法:準(zhǔn)確率很高的學(xué)習(xí)算法弱學(xué)習(xí)算法:準(zhǔn)確率不高,僅比隨機(jī)猜測略好是否可以將弱學(xué)習(xí)算法提升為強(qiáng)學(xué)習(xí)算法Boosting背景最初的boosting算法Schapire
1989AdaBoost算法Freund
and
Schapire
1995Boosting—concepts(3)Boosting弱學(xué)習(xí)機(jī)(weak
learner):對一定分布的訓(xùn)練樣本給出假設(shè)(僅僅強(qiáng)于隨機(jī)猜測)根據(jù)有云猜測可能會(huì)下雨強(qiáng)學(xué)習(xí)機(jī)(strong
learner):根據(jù)得到的弱學(xué)習(xí)機(jī)和相應(yīng)的權(quán)重給出假設(shè)(最大程度上符合實(shí)際情況:almost
perfect
expert)根據(jù)CNN,ABC,CBS以往的 表現(xiàn)及實(shí)際天氣情況作出綜合準(zhǔn)確的天氣弱學(xué)習(xí)機(jī)強(qiáng)學(xué)習(xí)機(jī)Boosting流程(loop1)強(qiáng)學(xué)習(xí)機(jī)弱學(xué)習(xí)機(jī)原始訓(xùn)練集后的訓(xùn)練集后的假設(shè)X>1?1:-1弱假設(shè)Boosting流程(loop2)強(qiáng)學(xué)習(xí)機(jī)弱學(xué)習(xí)機(jī)原始訓(xùn)練集后的訓(xùn)練集后的假設(shè)Y>3?1:-1弱假設(shè)2020/11/16高級人工智能58Boosting流程(loop3)強(qiáng)學(xué)習(xí)機(jī)弱學(xué)習(xí)機(jī)原始訓(xùn)練集后的訓(xùn)練集后的假設(shè)Z>7?1:-1弱假設(shè)Boosting過程:在一定的權(quán)重條件下訓(xùn)練數(shù)據(jù),得出分類法Ct根據(jù)Ct的錯(cuò)誤率調(diào)整權(quán)重Set
ofweightedinstancesClassifier
Cttrain
classifieradjust
weights流程描述Step1:原始訓(xùn)練集輸入,帶有原始分布Step2:給出訓(xùn)練集中各樣本的權(quán)重Step3:
將改變分布后的訓(xùn)練集輸入已知的弱學(xué)習(xí)機(jī),弱學(xué)習(xí)機(jī)對每個(gè)樣本給出假設(shè)Step4:
對此次的弱學(xué)習(xí)機(jī)給出權(quán)重Step5:
轉(zhuǎn)到Step2,
直到循環(huán)到達(dá)一定次數(shù)或者某度量標(biāo)準(zhǔn)符合要求Step6:
將弱學(xué)習(xí)機(jī)按其相應(yīng)的權(quán)重 組合形成強(qiáng)學(xué)習(xí)機(jī)思想樣本的權(quán)重沒有先驗(yàn)知識(shí)的情況下,初始的分布應(yīng)為等概分布,也就是訓(xùn)練集如果有N個(gè)樣本,每個(gè)樣本的分布概率為1/N每次循環(huán)一后提高錯(cuò)誤樣本的分布概率,分錯(cuò)樣本在訓(xùn)練集中所占權(quán)重增大,使得下一次循環(huán)的弱學(xué)習(xí)機(jī)能夠集中力量對這些錯(cuò)誤樣本進(jìn)行判斷。弱學(xué)習(xí)機(jī)的權(quán)重準(zhǔn)確率越高的弱學(xué)習(xí)機(jī)權(quán)重越高循環(huán)控制:損失函數(shù)達(dá)到最小在強(qiáng)學(xué)習(xí)機(jī)的組合中增加一個(gè)的弱學(xué)習(xí)機(jī),使準(zhǔn)確率提高,損失函數(shù)值減小。簡單問題演示(Boosting訓(xùn)練過程)++--+--
+-++-++--++--++--loop1Weak
learner1(y=0.5)loop2
Weak
learner2(x=0.7)loop3Weak
learner3(y=0.4)loop4
Weak
learner4(x=0.6)training
set等概分布strong
learnerw1*(y>0.5?1:-1)
+
w2*(x<0.7?1:-1)
+
w3*(y<0.4?1:-1)
+
w4*(x>0.6?1:-1)算法—問題描述訓(xùn)練集{(x1,y1),(x2,y2),…,(xN,yN)}xi
Rm,
yi
{-1,+1}Dt為第t次循環(huán)時(shí)的訓(xùn)練樣本分布(每個(gè)樣本在訓(xùn)練集中所占的概率,Dt總和應(yīng)該為1)ht:X{-1,+1}
為第t次循環(huán)時(shí)的Weak
learner,對每個(gè)樣本給出相應(yīng)的假設(shè),應(yīng)該滿足強(qiáng)于隨機(jī)猜測:為t次循環(huán)得到的Strong
learner12[
y
h
(x)]
Pt(
x,
y)Dtwt為ht的權(quán)重t?i1Ht
(i
)
sign
(
wi
ht
(i
))算法—樣本權(quán)重思想:提高分錯(cuò)樣本的權(quán)重?反映了strong
learner對樣本的假設(shè)是否正確采用什么樣的函數(shù)形式?yi
Ht(i
)i
t
iright
0
wrongy
H
(
)
0exp
yi
Ht(i
)算法—弱學(xué)習(xí)機(jī)權(quán)重思想:錯(cuò)誤率越低,該學(xué)習(xí)機(jī)的權(quán)重應(yīng)該越大為學(xué)習(xí)機(jī)的錯(cuò)誤概率采用什么樣的函數(shù)形式?和指數(shù)函數(shù)遙相呼應(yīng):tt
P
[
y
h
(x)](
x,
y)D?t
t
1
t
wt
ln12Boosting算法的發(fā)展歷史Boosting算法(提升算法)是一種把若干個(gè)弱分類器整合為一個(gè)強(qiáng)分類器的方法。Boosting算法存在的幾個(gè)問題:如何調(diào)整訓(xùn)練集,使得在訓(xùn)練集上訓(xùn)練的弱分類器得以進(jìn)行。如何將訓(xùn)練得到的各個(gè)弱分類器
形成強(qiáng)分類器。需要預(yù)先知道弱學(xué)習(xí)算法學(xué)習(xí)正確率的下限。即弱分類器的誤差。理論出發(fā)點(diǎn)和Boosting算法AdaBoost算法Bagging算法隨機(jī)森林選擇性集成總結(jié)課程內(nèi)容AdaBoost算法的引入AdaBoost算法簡介AdaBoost算法流程圖AdaBoost實(shí)例:二元分類缺點(diǎn)和不足總結(jié)匯報(bào)提綱針對以上幾個(gè)問題,AdaBoost算法進(jìn)行了調(diào)整:使用
后選取的訓(xùn)練數(shù)據(jù)代替隨機(jī)選取的訓(xùn)練樣本,這樣將訓(xùn)練的焦點(diǎn)集中在比較難分的訓(xùn)練數(shù)據(jù)樣本上。將弱分類器 ,使用
的投票機(jī)制代替平均投票機(jī)制。讓分類效果好的弱分類器具有較大的權(quán)重,而分類效果差的分類器具有較小的權(quán)重。不需預(yù)估弱學(xué)習(xí)器的正確下限。AdaBoost算法的引入AdaBoost(AdaptiveBoost)算法是一種把若干個(gè)弱分類器整合為一個(gè)強(qiáng)分類器的自適應(yīng)提升算法。自適應(yīng)體現(xiàn)一輪分類器分錯(cuò)的樣本會(huì)被增強(qiáng),用來訓(xùn)練下一個(gè)分類器AdaBoost算法簡介AdaBoost算法流程圖循環(huán)迭代多次:尋找當(dāng)前分布下的最優(yōu)弱分類器計(jì)算弱分類器帶權(quán)分類誤差更新樣本分布聚合多次訓(xùn)練的弱分類器
t=PrxDt,yI[ht(x)
y];Input:數(shù)據(jù)集D={(x1,y1),(x2,y2),……,xm,ym)};循環(huán)次數(shù):T;基學(xué)習(xí)算法;for
t
1,……,T
:ht=
(D,Dt);//從D中利用分布Dt訓(xùn)練學(xué)習(xí)器ht2
t=
Ln(
tif
t>0.5,
then
break;1
1
t
);exp(
t)exp(
t)Dt+1(i)=Dt
(i)
//計(jì)算學(xué)習(xí)器ht的帶權(quán)分類誤差//如果此學(xué)習(xí)器誤差大于0.5,算法失敗//計(jì)算此學(xué)習(xí)器的權(quán)重endTmif
ht(xi)=yi
if
ht(xi)
yi//更新樣本分布Zt
Dt
1(i);
Dt
1(i)
Dt
1(i)
/
Zt;i1//歸一化樣本分布Output:H(x)=sign(t
ht
(x))t
1AdaBoost的一種偽代碼描述)2t=
Ln(
t1
1
t“弱分類器權(quán)重-帶權(quán)分類誤差”函數(shù)圖像誤差越低,分類器權(quán)重越高誤差大于0.5,權(quán)重為負(fù),實(shí)際已退出關(guān)鍵步驟:計(jì)算學(xué)習(xí)器權(quán)重關(guān)鍵步驟:更新樣本分布Dt
1(i)
Dt
(i)
exp(t
)
ht得到新的弱分類器后,需要對樣本分布進(jìn)行更新:分類錯(cuò)誤,提高該樣本的權(quán)值。分類正確,降低該樣本的權(quán)值。mZt
Dt
1(i)i1Dt
1(i)
t(歸一化)AdaBoost實(shí)例:二元分類序號(hào)12345678910X0123456789Y111-1-1-1111-1注:這里假設(shè)Xi為二元分類,即對于X->Y,有Y={-1,+1}Q:已知如下學(xué)習(xí)樣本及其對應(yīng)的分類,構(gòu)造分類器,對樣本X進(jìn)行準(zhǔn)確分類(也就是要求一個(gè)分類函數(shù)F(x),其對樣本X能進(jìn)行準(zhǔn)確的分類)X0123456789Y111-1-1-1111-1D10.10.10.10.10.10.10.10.10.10.1這里
要訓(xùn)練得到一個(gè)弱分類器。嚴(yán)格來講,應(yīng)在給定的權(quán)重樣本和分類方法上窮舉分類器,選擇帶權(quán)誤差最小的弱分類器作為本輪訓(xùn)練得到的分類器。選擇的分類方法為:y=1
(X<分界值)y=-1(X>分界值)1
x2.51
x2.5G1(x)
分界值0.51.52.53.54.55.56.57.58.5帶權(quán)誤差0.50.40.30.40.50.60.50.40.3不同值作為分界時(shí)分類器帶權(quán)誤差在此分類方法下,選擇2.5或8.5作為分界值,得到的帶權(quán)分類誤差最小。這里選擇2.5。故本輪
訓(xùn)練得到的分類器為:X0123456789Y111-1-1-1111-1D10.10.10.10.10.10.10.10.10.10.1
11
x2.51
x2.5G1(x)
1=0.5ln(1
1
)=0.4236分類函數(shù)?。河校?/p>
1=0.1+0.1+0.1=0.3更新Di;F1(x)=1*G1(x)=0.4236*G1(x)Q:為什么G1(x)要取這種形式呢?分錯(cuò)了x7,x8,x9X0123456789Y111-1-1-1111-1D20.0710.0710.0710.0710.0710.0710.1660.1660.1660.0714444447774選擇的分類方法為:y=1
(X<分界值)y=-1(X>分界值)1
x8.51
x8.5G2(x)
分界值0.51.22.53.54.55.56.57.58.5帶權(quán)誤差0.64290.57150.50010.57150.64290.71430.54760.38090.2142不同值作為分界時(shí)分類器帶權(quán)誤差在當(dāng)前選取的分類方法下,選擇8.5作為分界值,得到的帶權(quán)分類誤差最小。故本輪
訓(xùn)練得到的分類器為:
21
x8.51
x8.5G2(x)
2
=0.5ln(1
2
)=0.6499;分類函數(shù)?。河校?/p>
2=0.0714+0.0714+0.0714=0.2142;更新Di;F2(x)=1*G1(x)+
2*G2(x)=0.4236*G1(x)+0.6499*G2(x)X0123456789YD210.071410.071410.0714-10.0714-10.0714-10.071410.166710.166710.1667-10.0714Q:為什么G2(x)要取這種形式呢?分錯(cuò)了x4、x5、x6X0123456789Y111-1-1-1111-1D30.0450.0450.0450.1660.1660.1660.1060.1060.1060.0454447771114選擇的分類方法為:y=-1(X<分界值)y=1(X>分界值)-1
x5.5+1
x5.5G3(x)
分界值0.51.52.53.54.55.56.57.58.5帶權(quán)誤差0.59090.63630.68170.51500.34830.18160.28770.34840.4545不同值作為分界時(shí)分類器帶權(quán)誤差在當(dāng)前選取的分類方法下,選擇5.5作為分界值,得到的帶權(quán)分類誤差最小。故本輪
訓(xùn)練得到的分類器為:)=0.7528;
3=0.5ln(
31
x5.51
x5.5G3(x)
1
3分類函數(shù)取:有:
3=0.0454+0.0454+0.0454+0.0454=0.1816;更新Di;F3(x)=1*G1(x)+
2*G2(x)+
3*G3(
x)
0.4236*G1(x)+0.6499*G2(x)
0.7528
*
G
3(
x)X0123456789YD310.045410.045410.0454-10.1667-10.1667-10.166710.106110.106110.1061-10.0454Q:為什么G3(x)要取這種形式呢?通過弱學(xué)習(xí)算法生產(chǎn)的,具體到本例:通過窮舉算法來獲得分錯(cuò)了x1,x2,x3,x10H(x)=sig=sign[1*G1(x)+
2*G2(x
sign[0.4236*G1(x)+0.6499*G2(x)
0.7528
*1
x2.51
x2.5G1(x)
1
x8.51
x8.5G2(x)
1
x5.51
x5.5G3(x)
X0123456789Y111-1-1-1111-1F3(X)0.32070.32070.3207-0.5265-0.5265-0.52650.97910.97910.9791-0.3207H(x)111-1-1-1111-1AdaBoost算法得到的分類器分類效果優(yōu)點(diǎn)和不足優(yōu)點(diǎn):精度很高只是框架,弱學(xué)習(xí)算法(弱分類器的構(gòu)造生成方法)可以多樣不會(huì)產(chǎn)生過渡擬合缺點(diǎn):難以估計(jì)訓(xùn)練次數(shù)效果與弱分類器選擇有關(guān)樣本多時(shí)效率較低離散AdaBoost-AdaBoost.M1AdaBoost.M1
和AdaBoost.M2
是用來解決多分類單
問題AdaBoost.M1算法(x1,
y1),(x2
,
y2
),...,
(xn
,
yn
)Step
1:訓(xùn)練集Step
2:初始化權(quán)值1,iiw2n
1for
y
0,1,For
t
=
1,
…
,
T1.
歸一化權(quán)值,2.
對于第j個(gè)特征,在給定權(quán)值條件下訓(xùn)練若分類器hj
,若分類器的分類錯(cuò)誤率為:3.
更新權(quán)值:End最終的強(qiáng)分類器:t
,it
,
jwt
,iwnj
1w
j
wi
|
hj
(xi
)
yi
|i如果t
1/2,設(shè)T
t
1,退出循環(huán)it
,i
tt
,i
twt
,i1et
1,iw
w
w
,
如果樣本被正確分類其他tt
t1
th(x)=arg
maxyYlogt
1...TFloatboost
算法向前增加一個(gè)弱分類器之后,就需要向后回饋r。r的取值取決于當(dāng)前分類性能的穩(wěn)定性。這種弱分類器選擇的方法相對于前向搜索來說具有更大的靈活性,因此,增加弱分類器組合的多樣性,相比AdaBoost中的單調(diào)搜索有更優(yōu)的解集合。mT
(x1,
y1
),
(x2
,
y2
),
...
,
(xm
,
ym
)J
(Hm
)為此特征集合的目標(biāo)函數(shù)值,J
min是目前m個(gè)特征構(gòu)成的集合中目標(biāo)函數(shù)的最小值。圖像正樣本=1負(fù)樣本=-1Step
1:訓(xùn)練集Step
2:初始化權(quán)值t
mmw
(i)
1
,
i
1,...m;
J
min
=max-value(t=1,...,Max),
M=01.
每個(gè)弱分類器h,在權(quán)值下進(jìn)行訓(xùn)練,得到 函數(shù)ht.2.
計(jì)算誤判率,選取參數(shù)at:3.
更新權(quán)值:4.最終的函數(shù):i
j
wi
|
hj
(xi
)
yi
|選擇有最小錯(cuò)誤率t的若分類器ht。MtZi
1Wt
(xi
)
exp(t
yi
ht
(xi
))Wt
1
(xi
)
,Zt是使Wt
1
(xi
)的歸一化因子。Step
3:弱分類器訓(xùn)練For
t
=1,
…
,
TM
M
mhHm設(shè)h'arg
min,為
最小特征集合,若J(H)(為漏檢率與虛警率的和)<Jmin
,則刪掉此特征,當(dāng)J(HM
)低于值或循環(huán)次數(shù)大于預(yù)定值M時(shí),停止循環(huán)。MH
(x)
sign(
hm
(x))m1總結(jié)AdaBoost算法是一種自適應(yīng)性的提升類算法。通過前一個(gè)分類器的分類結(jié)果對樣本分布進(jìn)行更新,用來訓(xùn)練下一個(gè)弱分類器,最后將弱分類器組合得到強(qiáng)的分類器。AdaBoost算法能得到分類精度高的強(qiáng)分類器。AdaBoost算法只是一個(gè)框架,容易拓展應(yīng)用。理論出發(fā)點(diǎn)和Boosting算法AdaBoost算法Bagging算法隨機(jī)森林選擇性集成總結(jié)課程內(nèi)容03
Bagging算法通過自助采樣始終數(shù)據(jù)集D中約有36.8%的樣本未出現(xiàn)在采樣數(shù)據(jù)集D’中。自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測試集時(shí)很有用;此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對集成學(xué)習(xí)等方法有很大好處。Bagging是并行式集成學(xué)習(xí)最著名的代表。它直接基于自助采樣法。自助采樣法:給定包含m個(gè)樣本的數(shù)據(jù)集D,對它采樣產(chǎn)生數(shù)據(jù)集D’,每次隨機(jī)從
D中挑選一個(gè)樣本,將其拷貝放入D’,然后再將該樣本放回?cái)?shù)據(jù)集D中,使得該樣本在下次采樣時(shí)仍有可能被采到;這個(gè)過程重復(fù)執(zhí)行m次后,就得到了包含m個(gè)樣本的數(shù)據(jù)集D’,這就是自助采樣的結(jié)果。顯然,D中有一部分樣本會(huì)在D’中多次出現(xiàn),而另一部分樣本不出現(xiàn)樣本在m次采樣中始終不被采到的概率是(1
1
)m
,取極限得到mm
emlim(1
1
)m
1
0.368bagging算法Bagging算法的主要思想:給定訓(xùn)練集 和弱學(xué)習(xí)算法,對該學(xué)習(xí)算法進(jìn)行T次調(diào)用,每次調(diào)用時(shí)只使用訓(xùn)練集S中的某個(gè)子集作為當(dāng)前訓(xùn)練集,每一個(gè)訓(xùn)練例在某輪訓(xùn)練集中可以多次或根本不出現(xiàn)。經(jīng)過T次調(diào)用后,可得到T個(gè)不同的分類器啊,當(dāng)對于一個(gè)測試實(shí)例工進(jìn)行分類時(shí),分別調(diào)用這T個(gè)分類器,得到T個(gè)分類結(jié)果。最后對分類問題把這T個(gè)分類結(jié)果中出現(xiàn)次數(shù)多的類賦予測試實(shí)例x。2S
((x1,
y1),(x203
Bagging算法Bagging算法的主要思想:通過自助采樣法得到含有m個(gè)樣本的采樣集;進(jìn)行T輪,可以采樣出T個(gè)含m個(gè)訓(xùn)練樣本的訓(xùn)練集;基于每個(gè)采樣訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器hi(x);對T個(gè)基學(xué)習(xí)器進(jìn)行結(jié)合得到最終分類器H(x);對于 輸出進(jìn)行結(jié)合時(shí),采用簡單投票法,對回歸任務(wù)使用簡單平均法。圖1
Bagging算法流程圖Bagging算法(x1,
y1),(x2
,y2
),...,(xn
,yn
)Step
1:訓(xùn)練Step
2:初始化權(quán)值For
t
=1,
…
,
TS’為從給定訓(xùn)練集S中,隨機(jī)抽樣(有放回).在S’
上訓(xùn)練弱學(xué)習(xí)器,得到第t
輪的
函數(shù)ht
.t
=
t
+
1
.End最終輸出:
對未知樣本X分類時(shí),每個(gè)模型ht得到一個(gè)分類器,得票最高的未知樣本x
的分類輸入:訓(xùn)練集;3:若t<T,回到1,并令t=t+1,否則轉(zhuǎn)4;函4:將各 集合生成最終數(shù):D={(x1,
y1),(x2
,
y2
),,(xm
,
ym
)}基學(xué)習(xí)算法h(x);訓(xùn)練輪數(shù)T輸出:集成
模型過程:1:從初始的訓(xùn)練集中采用boostrap方法抽取出m個(gè)訓(xùn)練例組成子集S’;2:在S’上訓(xùn)練基學(xué)習(xí)器
h1,h2
,
,hT
,得到第t輪的 函數(shù)ht(x);函數(shù)H
(x)
signhi
(x)03
Bagging算法圖2
Bagging算法描述03
Bagging算法Bagging與Boosting的區(qū)別:Bagging的訓(xùn)練集的選擇是隨機(jī)的,各訓(xùn)練集之間相互獨(dú)立;而Boosting的訓(xùn)練集的選擇不獨(dú)立,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)有關(guān);Bagging的各個(gè) 函數(shù)沒 重,而Boosting各訓(xùn)練集
重;Bagging各個(gè)函數(shù)可以并行生成,Boosting只能順序生成。(對于像神經(jīng)網(wǎng)絡(luò)這種比較耗時(shí)的學(xué)習(xí)方法,
Bagging可通過并行訓(xùn)練節(jié)省大量的時(shí)間)Bagging
和AdaBoost
區(qū)別Bagging的訓(xùn)練集是隨機(jī)的,各訓(xùn)練集是獨(dú)的,而
Boosting訓(xùn)練集的選擇不是獨(dú)立的,每一次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。Bagging的每個(gè)
函數(shù)(即弱假設(shè))沒重,而Boosting根據(jù)每一次訓(xùn)練的訓(xùn)練誤差得到該次函數(shù)的權(quán)重。Bagging的各個(gè)
函數(shù)可以并行生成,而Boosting的只能順序生成。對于像神經(jīng)網(wǎng)絡(luò)這樣極為耗時(shí)的學(xué)習(xí)方法,Bagging可通過并行訓(xùn)練節(jié)省大量時(shí)間開銷。理論出發(fā)點(diǎn)和Boosting算法AdaBoost算法Bagging算法隨機(jī)森林選擇性集成總結(jié)課程內(nèi)容04
隨機(jī)森林--Random
Forest隨機(jī)森林(RandomForest,簡稱RF)是Bagging的一個(gè)擴(kuò)展變體。隨機(jī)森林由許多的決策樹組成,因?yàn)檫@些決策樹的形成采用了隨機(jī)的方法,因此也叫做隨機(jī)決策樹。隨機(jī)森林中的樹之間是沒有關(guān)聯(lián)的。當(dāng)測試數(shù)據(jù)進(jìn)入隨機(jī)森林時(shí),其實(shí)就是讓每一顆決策樹進(jìn)行分類,最后取所有決策樹中分類結(jié)果最多的那類為最終的結(jié)果。RF在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入隨機(jī)屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合(假定有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;在RF中,對決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后再從這個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分;這里的參數(shù)k控制了隨機(jī)性的引入程度:若令k=d,則基決策樹的構(gòu)建與傳統(tǒng)決策樹相同;若令k=1,則是隨機(jī)選擇一個(gè)屬性用于劃分;一般情況下, 值k=log2d。04
隨機(jī)森林--Random
Forest決策樹復(fù)習(xí):決策樹實(shí)際上是將空間用超平面進(jìn)行劃分的
法,每次分割的時(shí)候,都將當(dāng)前的空間一分為二,比如說下面的決策樹(其屬性的值都是連續(xù)的實(shí)數(shù)):圖3 決策樹圖4 空間劃分后04
隨機(jī)森林--Random
Forest隨機(jī)森林的構(gòu)造過程:假N個(gè)樣本,則有放回的隨機(jī)選擇N個(gè)樣本(每次隨機(jī)選擇一個(gè)樣本,然后放回繼續(xù)選擇),用選擇好的N個(gè)樣本來訓(xùn)練決策樹。當(dāng)每個(gè)樣本有d個(gè)屬性時(shí),在決策樹的每個(gè)節(jié)點(diǎn)需要時(shí),隨機(jī)從這k個(gè)屬性中選取出k個(gè)屬性,滿足條件k<<d。然后從這k個(gè)屬性中采用某種策略(比如說信息增益)來選擇1個(gè)屬性作為該節(jié)點(diǎn)的屬性。決策樹形成過程中每個(gè)節(jié)點(diǎn)都要按照步驟2來,一直到不能夠再 為止。注意整個(gè)決策樹形成過程中沒有進(jìn)行剪枝。按照步驟1~3建立大量的決策樹,這樣就構(gòu)成了隨機(jī)森林。隨機(jī)森林的隨機(jī)性體現(xiàn)在:每顆數(shù)的訓(xùn)練樣本是隨機(jī)的;樹中每個(gè)節(jié)點(diǎn)的分類屬性是隨機(jī)選擇的。04
隨機(jī)森林--Random
Forest隨機(jī)森林的優(yōu)點(diǎn):在數(shù)據(jù)集上表現(xiàn)良好,兩個(gè)隨機(jī)性的引入,使得隨機(jī)森林不容易陷入過擬合,具有很好的抗噪聲能力。它能夠處理很高維度(feature很多)的數(shù)據(jù),并且不用做特征選擇,對數(shù)據(jù)集的適應(yīng)能力強(qiáng):既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化。能夠并行處理,訓(xùn)練速度快。隨機(jī)森林的缺點(diǎn):算法傾向于觀測值較多的類別隨機(jī)森林中水平較多的分類屬性的自變量(如土地利用類型>20個(gè)類別)比水平較少的分類屬性的自變量(氣候區(qū)類型<10個(gè)類別)對模型的影響大。理論出發(fā)點(diǎn)和Boosting算法AdaBoost算法Bagging算法隨機(jī)森林選擇性集成總結(jié)課程內(nèi)容的在意味著:時(shí)需要更大的計(jì)算開銷,因?yàn)橐?jì)算的選擇性集成既然多個(gè)學(xué)習(xí)器的集成比單個(gè)學(xué)習(xí)器更好,那么是不是學(xué)習(xí)器越多越好?更大的
開銷,因?yàn)橛?/p>
的 需要保存E
E
A [A.Krogh
&
J.
Vedelsby,
NIPS94]的增加將使得 間的差異越來越難以獲得104Many
Could
be
Better
Th
l:在有一組
學(xué)習(xí)器可用時(shí),從中選擇一部分進(jìn)行集成,可能比用所有學(xué)習(xí)器進(jìn)行集成更好[Z.-H.
Zhou
et
al.,
AIJ02]【選擇性集成】選擇性集成提出了選擇性集成(Selective
Ensemble)證明了
“Many
Could
be
Better
Th l”
Theorem在有一組 學(xué)習(xí)器可用時(shí),從中選擇一部分進(jìn)行集成,可能比用所
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)業(yè)科技合伙經(jīng)營合同協(xié)議書3篇
- 2024年中國鉻釩鋼長套筒市場調(diào)查研究報(bào)告
- 2024年中國鐵線浴室架市場調(diào)查研究報(bào)告
- 2024年中國金屬加熱圈市場調(diào)查研究報(bào)告
- 2025版新能源汽車會(huì)計(jì)出納財(cái)務(wù)支持合同
- 二零二五年度公共綠化建設(shè)項(xiàng)目內(nèi)部承包合同樣本3篇
- 二零二五年度體育場館保安服務(wù)終止與賽事安全保障合同
- 2025年度班主任學(xué)生心理健康教育與干預(yù)協(xié)議3篇
- 2024年起重機(jī)購銷與售后服務(wù)保障合同范本3篇
- 二零二五年度健康醫(yī)療產(chǎn)業(yè)合作更改擔(dān)保協(xié)議2篇
- GB/T 19923-2024城市污水再生利用工業(yè)用水水質(zhì)
- 護(hù)理組長述職演講
- 2024年生開心果市場需求分析報(bào)告
- 修理廠環(huán)保規(guī)定匯總
- 現(xiàn)代材料分析測試技術(shù)課件
- 2022-2023學(xué)年北京市海淀區(qū)高一(上)期末地理試卷
- 2024年其他招錄考試-大學(xué)畢業(yè)生士兵提干筆試歷年真題薈萃含答案
- 北魏政治和北方民族大交融【全國一等獎(jiǎng)】
- 淮安市2023-2024學(xué)年七年級上學(xué)期期末歷史試卷(含答案解析)
- 培養(yǎng)學(xué)生深度思考的能力
- 【瑞幸咖啡財(cái)務(wù)分析報(bào)告(附財(cái)務(wù)報(bào)表)5300字(論文)】
評論
0/150
提交評論