




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、重采樣技術(shù)在高維復(fù)雜信號檢測中的應(yīng)用 一、畢業(yè)設(shè)計(jì)(論文)任務(wù)課題內(nèi)容在信號處理領(lǐng)域,高維復(fù)雜信號的涌現(xiàn),對信號處理是一個挑戰(zhàn)。高維復(fù)雜信號的廣泛存在,其檢測成為信號處理不得不面對的問題。但是,通過“樣本采集”獲得的樣本集,并應(yīng)用“重采樣技術(shù)”,對樣本統(tǒng)計(jì)模型的真實(shí)性進(jìn)行擬合,大大降低了信號檢測的難度。重采樣技術(shù)(resampling methods)是從自然模型多次采樣得到樣本集,基于此一系列樣本集進(jìn)行學(xué)習(xí),并通過集成學(xué)習(xí)得到自然模型擬合。重采樣技術(shù)的主要方法是adaboost算法,其基本思想是將大量學(xué)習(xí)能力一般的弱分類器通過一定方法組合起來,構(gòu)成一個學(xué)習(xí)能力很強(qiáng)的強(qiáng)分類器。課題任務(wù)要求 1
2、. 具有一定的專業(yè)知識和實(shí)驗(yàn)開發(fā)能力,掌握課題相關(guān)理論知識和實(shí)驗(yàn)技術(shù)。2. 要求有一定的文字功能和文檔處理能力,撰寫合格的畢業(yè)設(shè)計(jì)論文,提供相關(guān)實(shí)驗(yàn)圖表。3. 在學(xué)習(xí)本課題相關(guān)領(lǐng)域知識的基礎(chǔ)上,掌握一定的自主學(xué)習(xí)方法,具備一定創(chuàng)新能力。 課題完成后應(yīng)提交的資料(或圖表、設(shè)計(jì)圖紙)1.畢業(yè)論文含:1)中英文摘要2)重采樣方法概述3)重采樣技術(shù)原理4)自適應(yīng)重采樣技術(shù)的經(jīng)典算法5)重采樣技術(shù)的matlab仿真實(shí)驗(yàn)2畢業(yè)論文任務(wù)書,畢業(yè)論文開題報告,畢業(yè)論文正文,外文文獻(xiàn)原文及翻譯主要參考文獻(xiàn)與外文翻譯文件(由指導(dǎo)教師選定)1 李子清, 張軍平. 人臉識別中子空間的統(tǒng)計(jì)學(xué)習(xí)/王玨等主編. 機(jī)器學(xué)習(xí)及
3、其應(yīng)用. 北京:清華大學(xué)出版社, 20062 陳希孺. 數(shù)理統(tǒng)計(jì)學(xué)簡史. 長沙:湖南教育出版社, 2002 3 simon haykin, mcmaster.神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí) 加拿大:機(jī)械工業(yè)出版社, 2009 4 t. g. dietterich. machine learning research: four current directions ai magazine. 18 (4), 97-136, 1997.5 rosset, zhu and hastie. boosting as a regularized path to a maximum margin classifier.
4、 journal of machinelearning research 5 (2004) 941973, 2004.6 newman, d.j. & hettich, s. & blake, c.l. & merz, c.j. (1998). uci repository of machine learning databases.同組設(shè)計(jì)者 無注:1. 此任務(wù)書由指導(dǎo)教師填寫。如不夠填寫,可另加頁。2. 此任務(wù)書最遲必須在畢業(yè)設(shè)計(jì)(論文)開始前一周下達(dá)給學(xué)生。3. 此任務(wù)書可從教務(wù)處網(wǎng)頁表格下載區(qū)下載 重采樣技術(shù)在高維復(fù)雜信號檢測中的應(yīng)用重采樣技術(shù)在高維復(fù)雜信號檢測
5、中的應(yīng)用摘要在信號處理領(lǐng)域,高維復(fù)雜信號的涌現(xiàn)對信號處理是一個挑戰(zhàn)。高維復(fù)雜信號的廣泛存在,其檢測成為信號處理不得不面對的問題。通過樣本采集獲得的樣本集,并應(yīng)用重采樣技術(shù),對樣本統(tǒng)計(jì)模型的真實(shí)性進(jìn)行擬合,大大降低了信號檢測的難度。重采樣技術(shù)是從自然模型中多次采樣得到樣本集,基于此一系列樣本集進(jìn)行學(xué)習(xí),并通過集成學(xué)習(xí)得到自然模型擬合。重采樣技術(shù)的主要方法是自適應(yīng)的自助算法,其基本思想是將大量學(xué)習(xí)能力一般的弱分類器通過一定方法組合起來,構(gòu)成一個學(xué)習(xí)能力很強(qiáng)的強(qiáng)分類器。本文從刀切法和自助法闡述了重采樣技術(shù)的思想來源,詳細(xì)分析了自適應(yīng)的自助算法的三種典型算法,并提出了由粗到精的級聯(lián)分類器以及訓(xùn)練系統(tǒng)的
6、設(shè)計(jì)的重采樣技術(shù)實(shí)現(xiàn)方法。最后進(jìn)行了重采樣技術(shù)基于高維數(shù)據(jù)的matlab仿真,通過比較分析得出了三種典型算法各自的特點(diǎn)和算法的優(yōu)劣。關(guān)鍵詞:樣本集;重采樣;分類器;集成學(xué)習(xí)re-sampling technique in high-dimensional complex signal detectionabstractthe emergence of high-dimensional complex signals is a challenge for signal processing. because dimensional complex signal is widespread, th
7、e detection of a signal becomes a problem to face. the sample set was obtained by sampling, and apply the re-sampling technique, the authenticity of the sample to fit the statistical model, which greatly reduces the difficulty of signal detection.re-sampling technique is repeatedly sampled from the
8、natural model of the sample set, a series of sample sets based on this study, obtained by integration of the natural learning model fitting. the main re-sampling method is self-adaptive algorithm. the basic idea is to a large number of general learning ability of weak classifiers combined through a
9、certain method to form a very strong learning classifier.this article from the jackknife method and self-help law sets forth the ideological source of re-sampling technique, a detailed analysis of three typical algorithms for self-adaptive algorithm algorithm, and made from simple to complex cascade
10、 of classifiers and training system designed to re-sampling technology methods. finally, a re-sampling high dimensional data, matlab simulation, through comparative analysis of the three typical algorithms for their own characteristics and merits of the algorithm. self-adaptive algorithm.key words:
11、sample set; resampling;classification;ensemble learning 目錄1 緒論11.1 課題研究的背景與意義11.2 重采樣方法的發(fā)展31.3 論文主要內(nèi)容及章節(jié)安排52 重采樣技術(shù)72.1 重采樣方法的理論基礎(chǔ)72.2.1 刀切法72.2.1 自助法82.2 重采樣方法的自助算法102.2.1 自助重采樣方法起源102.2.2 自助重采樣算法113 自適應(yīng)的重采樣技術(shù)143.1 自適應(yīng)重采樣算法的提出143.2 自適應(yīng)重采樣算法的基本原理153.2.1 分類器的訓(xùn)練153.2.2 弱分類器原理163.2.3 強(qiáng)分類器原理173.3 自適應(yīng)重采樣算
12、法183.4 自適應(yīng)重采樣強(qiáng)分類器算法204 典型的自適應(yīng)重采樣技術(shù)實(shí)現(xiàn)224.1 gentle adaboost算法224.2 real adaboost算法234.3 modest adaboost算法244.4 重采樣技術(shù)具體實(shí)現(xiàn)274.4.1 重采樣技術(shù)算法結(jié)構(gòu)274.4.2 重采樣技術(shù)級聯(lián)分類器284.4.3 重采樣技術(shù)訓(xùn)練系統(tǒng)的設(shè)計(jì)295 重采樣技術(shù)的matlab仿真實(shí)驗(yàn)315.1 實(shí)驗(yàn)介紹315.1.1 高維數(shù)據(jù)315.1.2 matlab工具箱介紹325.2 實(shí)驗(yàn)運(yùn)行結(jié)果335.2.1 實(shí)驗(yàn)一運(yùn)行結(jié)果335.2.2 實(shí)驗(yàn)二運(yùn)行結(jié)果345.3 結(jié)果分析與比較35參考文獻(xiàn)35致謝3
13、6附錄37 重采樣技術(shù)在高維復(fù)雜信號檢測中的應(yīng)用1 緒論1.1 課題研究的背景與意義在信息化社會的今天,隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,現(xiàn)代化的生產(chǎn)和科學(xué)研究產(chǎn)生了大量數(shù)據(jù)和重要信息其中許多數(shù)據(jù)屬于高維數(shù)據(jù),如多媒體數(shù)據(jù)、空間數(shù)據(jù)、時間序列數(shù)據(jù)、web數(shù)據(jù)等,同時現(xiàn)實(shí)世界數(shù)據(jù)庫所存儲和處理的規(guī)模越來越大。這些海量數(shù)據(jù)中蘊(yùn)藏著大量有價值的信息,如何高效、準(zhǔn)確地使用這些信息就成為當(dāng)今研究的一項(xiàng)重要課題。由于這些數(shù)據(jù)兼具數(shù)據(jù)量超大及數(shù)據(jù)維數(shù)超大的特征,這就使得對它們進(jìn)行各項(xiàng)操作運(yùn)算時間過長或者超出了當(dāng)前普通計(jì)算機(jī)的運(yùn)算能力。又因?yàn)楦呔S復(fù)雜信號存在的普遍性,使得對高維數(shù)據(jù)提取的研究有著非常重要的意義。
14、但由于維災(zāi)的影響,也使得高維數(shù)據(jù)提取變得異常地困難,必須采用一些特殊的手段進(jìn)行處理。高維數(shù)據(jù)提取是基于高維度的一種數(shù)據(jù)提取,它和傳統(tǒng)的數(shù)據(jù)提取最主要的區(qū)別在于它的高維度。目前高維數(shù)據(jù)提取已成為數(shù)據(jù)提取的重點(diǎn)和難點(diǎn)。隨著技術(shù)的進(jìn)步使得數(shù)據(jù)收集變得越來越容易,導(dǎo)致數(shù)據(jù)庫規(guī)模越來越大、復(fù)雜性越來越高,維度(屬性)通??梢赃_(dá)到成百上千維,甚至更高。隨著數(shù)據(jù)維數(shù)的升高,高維索引結(jié)構(gòu)的性能迅速下降,在低維空間中,我們經(jīng)常采用歐式距離作為數(shù)據(jù)之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復(fù)存在,這就給高維數(shù)據(jù)提取帶來了很嚴(yán)峻的考驗(yàn),一方面引起基于索引結(jié)構(gòu)的數(shù)據(jù)提取算法的性能下降,另一方面很多基
15、于全空間距離函數(shù)的提取方法也會失效。解決的方法可以有以下幾種:可以通過降低維數(shù)將數(shù)據(jù)從高維降到低維,然后用低維數(shù)據(jù)的處理辦法進(jìn)行處理;對算法效率下降問題可以通過設(shè)計(jì)更為有效的索引結(jié)構(gòu)、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。計(jì)算機(jī)工業(yè)以其部件的小型化和價格日趨低廉而有助于我們解決數(shù)據(jù)量問題。盡管我們總是受限于數(shù)學(xué)問題,但仍然認(rèn)識到,多維系統(tǒng)也給了我們新的自由度。這些使得該領(lǐng)域既富于挑戰(zhàn)性又無窮樂趣。統(tǒng)計(jì)學(xué)始于被觀測的數(shù)據(jù),wegman把統(tǒng)計(jì)描述為一種將原數(shù)據(jù)轉(zhuǎn)化為信息的方法,以區(qū)別于傳統(tǒng)統(tǒng)計(jì)學(xué)的描述-傳統(tǒng)統(tǒng)計(jì)學(xué)是關(guān)于收集和分析帶隨機(jī)性誤差的數(shù)據(jù)的科學(xué)和藝
16、術(shù)。從統(tǒng)計(jì)學(xué)的發(fā)展可以看出數(shù)據(jù)的采集方式經(jīng)歷了大樣本到小樣本,再到大樣本的過程。在1908年以前統(tǒng)計(jì)學(xué)的主要用武之地是社會統(tǒng)計(jì)(尤其是人口統(tǒng)計(jì))問題,后來加入生物學(xué)統(tǒng)計(jì)問題。這些問題涉及到的數(shù)據(jù)一般都是大量的,自然采集的。而所采用的方法,以拉普拉斯中心極限定理為依據(jù),總是歸結(jié)到正態(tài)。到20世紀(jì),受人工控制的試驗(yàn)條件下所得數(shù)據(jù)的統(tǒng)計(jì)分析,日漸引人注意。由于試驗(yàn)數(shù)據(jù)量一般不大,直接導(dǎo)致了依賴于近似正態(tài)分布的傳統(tǒng)方法的失效,在這種小樣本的研究方向上,gosset和fisher發(fā)展了確定正態(tài)樣本統(tǒng)計(jì)量的精確分布的理論。無論大樣本理論還是小樣本理論,它們的共同特點(diǎn)是數(shù)據(jù)維數(shù)一般不大,最多幾維,即,自然模
17、型涉及的變量數(shù)量很少。然而,現(xiàn)在我們面臨自然涌現(xiàn)的數(shù)據(jù)除了觀測的數(shù)據(jù)數(shù)量劇增之外,最大的不同是,數(shù)據(jù)維數(shù)少則幾十維,多則上萬維。如果再考慮數(shù)據(jù)性質(zhì)的復(fù)雜性和數(shù)據(jù)表述的多樣性,這不僅對計(jì)算機(jī)科學(xué)是一個挑戰(zhàn)性的問題,對統(tǒng)計(jì)學(xué)同樣是一個挑戰(zhàn)性的問題。例如,銀行的巨額交易數(shù)據(jù),電話呼叫記錄,文本數(shù)據(jù)等,數(shù)據(jù)量達(dá)到gb甚至tb級。適合分析和處理在精心設(shè)計(jì)實(shí)驗(yàn)獲得獨(dú)立同分布、同方差和低維數(shù)據(jù)的傳統(tǒng)統(tǒng)計(jì)學(xué)理論已不能適應(yīng),需要新的思考。在統(tǒng)計(jì)建模中高維信號數(shù)據(jù)會遇到兩個困難:其一,bellman的維數(shù)災(zāi)難現(xiàn)象。維數(shù)災(zāi)難現(xiàn)象表明,在給定模型精度下的估計(jì)模型,需要的樣本數(shù)量將隨著維數(shù)的增加指數(shù)增長。而與此相關(guān)的問
18、題是空間現(xiàn)象,即高維空間的本質(zhì)上是稀疏空間。一個典型的例子是高斯分布中的3準(zhǔn)則:當(dāng)樣本集在二至三維空間時,采用高斯函數(shù),可以證明,90%以上的樣本集分布在3范圍以內(nèi)。然而,當(dāng)維數(shù)顯著增加時,樣本集的分布更多的集中在高斯函數(shù)的邊界(3以外)而不是中間。這表明在高維樣本集中,數(shù)據(jù)可能大多數(shù)分布在超球的外殼,而不是在球的中心。由此產(chǎn)生的困難是,在多元數(shù)據(jù)分析中缺乏一般性的方法來直接分析高維空間的密度估計(jì)和幾何性質(zhì),因?yàn)橄鄬Φ兔芏鹊膮^(qū)域包含了樣本集的大部分,反而高密度區(qū)域可能完全沒有數(shù)據(jù)存在。其二,不適定問題。我們對自然模型,幾乎一無所知,如果使用傳統(tǒng)統(tǒng)計(jì)學(xué)的理論、方法和理念,估計(jì)概率密度函數(shù),這一定
19、是一個不適定問題。20世紀(jì)初hadamard在某些情況下求解線性算子方程的問題(尋找滿足這一等式的函數(shù))是不確定的。即使方程存在唯一解,如果方程右邊有一個微小變動(如用取代,其中任意小),也會導(dǎo)致解有很大的變化(即可能導(dǎo)致很大)。20世紀(jì)后半葉,人們發(fā)現(xiàn)根據(jù)數(shù)據(jù)估計(jì)密度函數(shù)這個統(tǒng)計(jì)學(xué)中的主要問題是不確定的:使泛函最小化的函數(shù)并不能保證在時是方程真實(shí)解的一個好的近似。高維空間的數(shù)據(jù)在擬合模型時的稀疏性,使得所獲得的樣本集不足以表現(xiàn)自然模型;傳統(tǒng)統(tǒng)計(jì)學(xué)的不適定問題使得我們無法在高維復(fù)雜數(shù)據(jù)的情形下精確估計(jì)自然模型。這兩個有關(guān)高維的、復(fù)雜的、自然涌現(xiàn)數(shù)據(jù)的問題,是重采樣技術(shù)出現(xiàn)與成長的溫床。特別是,
20、當(dāng)前一些重要的領(lǐng)域,例如,銀行交易數(shù)據(jù)、文本數(shù)據(jù)、web數(shù)據(jù)都是自然涌現(xiàn)的,不但數(shù)據(jù)量龐大,而且維數(shù)很高,并且可能不能簡單以一個固定的樣本空間進(jìn)行描述,即,數(shù)據(jù)不能使用相同維數(shù)的向量表述。而重采樣技術(shù)恰恰為處理這類數(shù)據(jù)提供了工具,并在理論上給出了統(tǒng)計(jì)解釋。1.2 重采樣方法的發(fā)展由于當(dāng)時海量涌現(xiàn)的高維數(shù)據(jù)具有天生的稀疏性,因此“獲得有代表性的樣本”對需要滿足同分布條件的各種機(jī)器學(xué)習(xí)研究具有重要的現(xiàn)實(shí)意義。重采樣方法的出現(xiàn)原本是為了更準(zhǔn)確地獲得“有代表性的樣本”,其思想來源大致有兩個方面:其一,試驗(yàn)設(shè)計(jì),其二,抽樣調(diào)查。重采樣方法最早可以追溯到上個世紀(jì)30年代fisher提出的配對化檢驗(yàn)和pit
21、man提出的兩個獨(dú)立樣本的隨機(jī)化檢驗(yàn)。對兩樣本情形,試驗(yàn)者從可能不同的自然模型中得到兩個樣本,希望用統(tǒng)計(jì)假設(shè)檢驗(yàn)來判斷兩個自然模型是否相同以,決定“兩個自然模型相同”這個零假設(shè)是否被拒絕。一個直觀的方法是將兩個樣本組合成一個有序的樣本,不管每個值是來自哪個自然模型,從小到大給樣本賦“秩”,而檢驗(yàn)統(tǒng)計(jì)量就可能是來自其中一個自然模型觀測值的“秩和”。如果這個秩和太小或太大,就意味著來自這個自然模型的值趨向于比來自另一自然模型的值小(或者大,視具體情況而定)。由此可知,如果與一個樣本相關(guān)的秩趨向于比另一個樣本相關(guān)的秩大,則“兩個自然模型相同”這個零假設(shè)可能被拒絕。fisher用數(shù)據(jù)本身作為秩來解決配
22、對數(shù)據(jù)是否來自同一自然模型,描述如下:兩個獨(dú)立的隨機(jī)樣本集分別來自兩個自然模型 希望根據(jù)樣本檢驗(yàn)“兩個自然模型相同”這個零假設(shè),如果為真,兩樣本來自同一自然模型。檢驗(yàn)統(tǒng)計(jì)量是觀測值之和:,將混合成一個樣本集,從中抽取出個樣本,在假設(shè)條件下,每一種個樣本的組合方式都是等概率的,考慮所有組合的可能性,可得零分布。之后采用標(biāo)準(zhǔn)的假設(shè)檢驗(yàn)原理構(gòu)造概率值,做出接受或者拒絕的結(jié)論。在隨機(jī)化檢驗(yàn)中采用數(shù)據(jù)組合的方式構(gòu)造假設(shè)檢驗(yàn)的過程,體現(xiàn)出了早期的重采樣思想,當(dāng)兩個樣本集融合在一起時,除非來自不同自然模型,否則重新采樣后的統(tǒng)計(jì)指標(biāo)和原樣本統(tǒng)計(jì)指標(biāo)應(yīng)沒有差別。此方法先于計(jì)算機(jī)發(fā)展,所以一般限制在小樣本數(shù)據(jù)上,
23、在樣本容量較大的情形下,需要的計(jì)算工作量很大,在當(dāng)時,其應(yīng)用必然受到限制。幾乎是同一時期,抽樣調(diào)查方面也開始冒出了重采樣的萌芽,這種早期的重采樣思想是從有限自然模型中無重復(fù)采樣。在pearson的統(tǒng)計(jì)框架中,針對一個自然模型,其對應(yīng)著一個龐大的卻有限的樣本的集合。在理想情況下,科學(xué)家會搜集所有的這些樣本,并確定其分布參數(shù)。如果無法搜集到全部樣本,那么就搜集一個很大的并且具有代表性的數(shù)據(jù)子集。通過大量的且具有代表性的子集計(jì)算模型的參數(shù),如果數(shù)據(jù)具有足夠的代表性,被計(jì)算出的參數(shù)將與自然模型的參數(shù)相同。然而pearson學(xué)派的方法存在一個根本性的缺陷,如果所獲得的數(shù)據(jù)被稱為“便利樣本”,即屬于那些最
24、容易得到的數(shù)據(jù),這些數(shù)據(jù)并不能真正代表自然模型。 20世紀(jì)30年代的早期,印度發(fā)現(xiàn)了一個便利抽樣的典型案例,為了估計(jì)孟買碼頭上大批黃麻的價值,需要從每包中抽取一些樣品,黃麻的質(zhì)量由這些樣品來確定。抽樣是將一把中空的圓形刀片插入包中,再拔出來,刀片中央的空處帶出了少量的黃麻,但是由于天氣和包裝運(yùn)輸?shù)脑颍鈱狱S麻會變質(zhì),而由于在中間的黃麻被壓緊,并結(jié)成一塊,導(dǎo)致空心刀片難以插入,這樣,所取的樣本多是外層已經(jīng)變質(zhì)的黃麻,這種“便利樣本”就會產(chǎn)生偏差,由此,導(dǎo)致評價整包黃麻質(zhì)量偏低,實(shí)際上整包黃麻的質(zhì)量要高得多。這個例子說明,收集具有代表性樣本對估計(jì)模型準(zhǔn)確性的重要性。為了收集能夠準(zhǔn)確估計(jì)自然模型的
25、具有代表性的子樣本,當(dāng)時出現(xiàn)了“判斷樣本”的方法。這個方法是將自然模型劃分為幾個子模型,每個子模型上都由某些樣本來“代表”,這些“代表”的樣本組成的集合作為判斷樣本。但是只有對自然模型有充分了解之后,才能將自然模型劃分為一些能用個體樣本來代表的子模型,這樣判斷樣本才具有代表性,如果我們對自然模型已經(jīng)了解的那么清楚,就無需進(jìn)行抽樣。mahalanobis建議采用隨機(jī)樣本來推斷有限自然模型。這種采樣得到的樣本優(yōu)于便利樣本和判斷樣本。最初mahalanobis于1946年在研究作物產(chǎn)量上使用交叉抽樣方法,之后mccarthy于1966年將其擴(kuò)展到抽樣調(diào)查領(lǐng)域。在抽樣調(diào)查領(lǐng)域,僅從自然模型隨機(jī)抽取,得
26、到所有可能樣本中的一次采樣,并依此來推斷自然模型,其推斷結(jié)果是否準(zhǔn)確可靠,無法衡量,通過重復(fù)采樣法進(jìn)行抽樣得到個子樣本集,由于各個子樣本集都獨(dú)立且采樣方式相同,若各子樣本集的估計(jì)結(jié)果一致或者比較接近時,推斷結(jié)果的真實(shí)性比較容易讓人信服。此時的采樣方法是基于從自然模型上重復(fù)采樣的原則。1969年hartigan提出了random sub-sampling方法,并首次將此方法用在統(tǒng)計(jì)量估計(jì)中。1.3 論文主要內(nèi)容及章節(jié)安排本文通過現(xiàn)實(shí)中高維數(shù)據(jù)的大量存在,提出了高維數(shù)據(jù)檢測的重采樣技術(shù)。接著講述了重采樣技術(shù)的發(fā)展進(jìn)程,并從刀切法和自助法闡述了其思想來源。提出了實(shí)現(xiàn)重采樣技術(shù)的具體方法自適應(yīng)的自助算
27、法即adaboost算法,詳細(xì)論述了adaboost算法的原理,以及算法的具體流程。接著具體分析了adaboost算法的三種典型算法,并提出了由粗到精的級聯(lián)分類器以及訓(xùn)練系統(tǒng)的設(shè)計(jì)的重采樣技術(shù)實(shí)現(xiàn)方法。最后用matlab進(jìn)行了重采樣技術(shù)高維數(shù)據(jù)的仿真,通過對比較分析得出了gentle adaboost,real adaboost,modest adaboost這三種算法各自的特點(diǎn)和算法的優(yōu)劣。本文章節(jié)安排如下:第一章:緒論。闡述了本課題研究的背景與意義,提出了高維復(fù)雜信號檢測的兩個基本問題,介紹了重采樣方法的發(fā)展進(jìn)程。第二章:重采樣技術(shù)。介紹了重采樣方法的理論基礎(chǔ):刀切法,自助法,并闡述了它們
28、的原理。然后通過提高自助重采樣方法起源和算法概述講述了重采樣方法的自助原理。第三章:自適應(yīng)的重采樣技術(shù)。提出了自適應(yīng)的重采樣技術(shù)adaboost算法,通過有效地解決了早自助算法在實(shí)際運(yùn)用中的困難引出adaboost算法,并從分類器的訓(xùn)練,弱分類器原理,強(qiáng)分類器原理詳細(xì)分析了其原理。最后提出算法具體流程,訓(xùn)練強(qiáng)分類器的算法。第四章:典型的自適應(yīng)重采樣技術(shù)實(shí)現(xiàn)。通過對adaboost典型的三種算法:gentle adaboost算法,real adaboost算法,modest adaboost算法的論述,分析了重采樣技術(shù)具體實(shí)現(xiàn)的算法結(jié)構(gòu),提出由粗到精的級聯(lián)分類器以及訓(xùn)練系統(tǒng)的設(shè)計(jì)的重采樣技術(shù)實(shí)
29、現(xiàn)方法。第五章:重采樣技術(shù)的matlab仿真實(shí)驗(yàn)。用matlab進(jìn)行了重采樣技術(shù)高維數(shù)據(jù)的仿真,首先介紹了matlab實(shí)驗(yàn)工具箱,然后通過仿真并對實(shí)驗(yàn)結(jié)果進(jìn)行了分析??偨Y(jié)了gentle adaboost,real adaboost,modest adaboost這三種算法的誤差特點(diǎn),及通過對比較得出算法的優(yōu)劣。2 重采樣技術(shù)重采樣技術(shù)是從自然模型中多次采樣得到樣本集,基于此一系列樣本集進(jìn)行學(xué)習(xí),并通過集成學(xué)習(xí)得到自然模型擬合。通過樣本采集獲得的樣本集,并應(yīng)用重采樣技術(shù),對樣本統(tǒng)計(jì)模型的真實(shí)性進(jìn)行擬合,大大降低了信號檢測的難度。目前重采樣技術(shù)是機(jī)器學(xué)習(xí)中比較熱的一個研究方向,獲得了越來越廣泛的關(guān)
30、注。2.1 重采樣方法的理論基礎(chǔ)2.1.1 刀切法1949年,quenouille提出了刀切法,這是近代重采樣方法的標(biāo)志,以后,由quenouille和tukey不斷完善,重采樣方法成為統(tǒng)計(jì)學(xué)的重要方法之一。刀切法的原始動機(jī)是降低估計(jì)的偏差。常用做法是:每次從樣本集中刪除一個或者幾個樣本,剩余的樣本成為“刀切”樣本,由一系列這樣的刀切樣本計(jì)算統(tǒng)計(jì)量的估計(jì)值。從這一批估計(jì)值,不但可以得到算法的穩(wěn)定性衡量(方差),還可以減少算法的偏差。這個方法暗示,刀切法的樣本集需要事先給定,即,它的重采樣過程是在給定樣本集上的采樣過程。最簡單的一階刀切法描述如下:假設(shè)獨(dú)立同分布的樣本來自一個未知概率模型, 是未
31、知參數(shù),是估計(jì)統(tǒng)計(jì)量,則的刀切法估計(jì)為: (2-1)其中是刀切樣本集上的統(tǒng)計(jì)量,是把原樣本集中第個樣本剔除后剩余的個樣本組成的集合。 刀切法的最重要的性質(zhì)是:刀切估計(jì)可以將偏差從減少到,并可以修正估計(jì)為無偏估計(jì),但是并不能保證減少方差。這個性質(zhì)描述如下:設(shè)為獨(dú)立同分布樣本集,其中為未知參數(shù),統(tǒng)計(jì)量為的估計(jì),若其偏差為: (2-2)則的刀切法估計(jì)的偏差為雖然刀切法可以降低估計(jì)偏差,但當(dāng)參數(shù)不光滑時,刀切法會失效。此處光滑是指樣本集上的微小變化,只會引起統(tǒng)計(jì)量的微小變化。最簡單的不光滑的統(tǒng)計(jì)量是中位數(shù),中位數(shù)是刻畫隨機(jī)變量分布“中心”的統(tǒng)計(jì)量。滿足且的實(shí)數(shù)稱為中位數(shù),在樣本集上,樣本中位數(shù)定義為。
32、通俗地說,將一維樣本排序,處在最中間位置的那個數(shù)據(jù)(或最中間兩個數(shù)據(jù)的平均數(shù))即為這組數(shù)據(jù)的中位數(shù)。efron指出刀切法在估計(jì)中位數(shù)時會失效,而自助法可以有效地給出中位數(shù)的估計(jì)。用老鼠數(shù)據(jù)的例子來說明,9個排好序的樣本分別為:10,27,31,40,46,50,52,104,146這個樣本集的中位數(shù)是46(樣本個數(shù)是奇數(shù),中位數(shù)為最中間位置的樣本)。如果改變第四個樣本,當(dāng)增加至并且超過46,中位數(shù)才會改變,之前中位數(shù)不改變。當(dāng)樣本從46繼續(xù)增加直至50,中位數(shù)和此樣本值相同,超過50之后,中位數(shù)變?yōu)?0。使用一階刀切法估計(jì)中位數(shù),先去掉第一個樣本,剩余8個樣本的中位數(shù)是48(46與50的算術(shù)平
33、均值),依次去掉相應(yīng)的第個樣本,得到如下中位數(shù)估計(jì)結(jié)果:48,48,48,48,45,43,43,43,43刀切法只得到3個不同的中位數(shù)估計(jì),方差較大。而自助法的采樣方法使得樣本集變化較大,會得到比較敏感的中位數(shù)變化。并且,在大樣本性質(zhì)上,中位數(shù)的刀切法估計(jì)的標(biāo)準(zhǔn)差是不相合的(不能收斂到真實(shí)的標(biāo)準(zhǔn)差)。而自助估計(jì)是相合的。2.1.2 自助法efron1979年這篇文章指出了自助法與刀切法的關(guān)系。首先,自助法通過經(jīng)驗(yàn)分布函數(shù)構(gòu)建了自助法世界,將不適定的估計(jì)概率分布的問題轉(zhuǎn)化為從給定樣本集中重采樣。第二,自助法可以解決不光滑參數(shù)的問題。遇到不光滑參數(shù)估計(jì)時,刀切法會失效,而自助法可以有效地給出中位
34、數(shù)的估計(jì)。第三,將自助法估計(jì)用泰勒公式展開,可以得到刀切法是自助法方法的一階近似。第四,對于線性統(tǒng)計(jì)量的估計(jì)方差這個問題,刀切法或者自助法會得到同樣的結(jié)果。但在非線性統(tǒng)計(jì)量的方差估計(jì)問題上,刀切法嚴(yán)重依賴于統(tǒng)計(jì)量線性的擬合程度,所以遠(yuǎn)不如自助法有效。efron將刀切法納入了自助法的體系中,并構(gòu)建了從真實(shí)世界(自然模型)到自助世界的采樣過程。這里,自助世界是基于經(jīng)驗(yàn)分布函數(shù)從給定樣本集重采樣獲得。樣本集來自一個未知概率模型,是我們關(guān)注的未知參數(shù),是估計(jì)參數(shù)的統(tǒng)計(jì)量,它們可以通過傳統(tǒng)統(tǒng)計(jì)方法(極大似然,map等)獲得,定義。然而我們不僅關(guān)注估計(jì)值本身,同時也關(guān)注統(tǒng)計(jì)量的準(zhǔn)確程度,是無偏估計(jì)嗎?距離
35、真實(shí)值的偏差是多少?穩(wěn)定嗎?方差是多少?但是這樣的問題往往無法回答,因?yàn)槲覀儾涣私庾匀荒P捅旧?,我們面對的只有從自然模型中的采樣結(jié)果樣本集。我們可以在給定樣本的條件下,構(gòu)造的估計(jì),然后從分布中重新生成一批隨機(jī)樣本。如果是的一個足夠好的估計(jì),那么與的關(guān)系會從和的關(guān)系中體現(xiàn)出來。自助法定義如下: 樣本集來自一個未知概率模型,關(guān)注統(tǒng)計(jì)量,定義: 是樣本集上的經(jīng)驗(yàn)分布函數(shù),其中每個樣本的概率均為。從上次隨機(jī)采樣得到自助樣本集為,目的是用自助樣本集上的統(tǒng)計(jì)量的分布去逼近原樣本集上統(tǒng)計(jì)量的分布。其中表示自助樣本集中樣本的個數(shù),表示原始樣本集中樣本的個數(shù)。產(chǎn)生過程如下:從自然模型采樣得到樣本集,基于此樣本集
36、進(jìn)行學(xué)習(xí)。如果樣本集是對自然模型的獨(dú)立同分布的采樣,那么,在統(tǒng)計(jì)上,這樣的樣本集對自然模型是理想的,它可以很好的擬合自然模型。傳統(tǒng)統(tǒng)計(jì)學(xué)的樣本是定義在事先給定的空間上,即,空間維數(shù)確定,通??梢岳斫鉃闅W式空間中的點(diǎn)。對自然模型進(jìn)行估計(jì),并基于這個估計(jì)使用自助法得到自助樣本集,可以不受樣本空間維數(shù)固定的制約,并且可以追加新樣本。學(xué)習(xí)的模型在統(tǒng)計(jì)意義下可對自然模型可以解釋。重采樣的次數(shù)是有限的,需要我們設(shè)計(jì)采樣方法使得重采樣樣本構(gòu)建的算法具有代表性,雖然自助法本身沒有對算法類型做任何限制,但是弱可學(xué)習(xí)這個條件對于算法建模來說,容易滿足,并且能夠適用在自助樣本集上。從自助法的采樣過程來看,弱可學(xué)習(xí)建
37、立的模型只依賴于部分樣本,為了得到自然模型的擬合,需要考慮某種集成方法,將這些自助樣本集上的學(xué)習(xí)算法集群起來。 2.2 重采樣方法的自助算法重采樣技術(shù)實(shí)現(xiàn)的主要方法是自助法,自助法是一種有效的分類器組合方法,其通過加權(quán)投票來組合多個基分類器進(jìn)行分類。它可以有效地將精度較低的弱學(xué)習(xí)算法提升為精度較高的強(qiáng)學(xué)習(xí)算法。自助法是近年來流行的一種用來提高學(xué)習(xí)算法精度的方法,作為一種新的集成機(jī)器學(xué)習(xí)方法,它以學(xué)習(xí)理論為依據(jù),在很多應(yīng)用領(lǐng)域中都表現(xiàn)出了其優(yōu)良特性,在實(shí)際應(yīng)用中也有廣泛的前景。2.2.1 自助重采樣方法起源在機(jī)器學(xué)習(xí)領(lǐng)域中,關(guān)鍵的問題就是如何利用觀測數(shù)據(jù)通過學(xué)習(xí)得到精確估計(jì)。目前,隨著計(jì)算機(jī)硬件
38、技術(shù)的迅猛發(fā)展,學(xué)習(xí)準(zhǔn)確率比運(yùn)算速度顯得更為重要。但是,在實(shí)際應(yīng)用領(lǐng)域中,構(gòu)造一個高精度的估計(jì)幾乎是不可能的。自助法是一種試圖提升任意給定學(xué)習(xí)算法精度的普遍方法。它的思想起源valiant提出的計(jì)算學(xué)習(xí)理論pac(probably approximately correct)學(xué)習(xí)模型。pac是統(tǒng)計(jì)機(jī)器學(xué)習(xí)、集成機(jī)器學(xué)習(xí)等方法的理論基礎(chǔ)。kearns和valiant首先提出下面問題:在valiant的pac模型中,一個性能僅比隨機(jī)猜測稍好的“弱”學(xué)習(xí)算法是否能被“提升”為一個具有任意精度的“強(qiáng)”學(xué)習(xí)算法?1990年schapire提出了第一個可證明的多項(xiàng)式時間自助算法,對這個問題做出了肯定的回答
39、。schapire證明,如果將多個pac分類器集成在一起,它將具有pac強(qiáng)分類器的泛化能力。進(jìn)而又說明,這類集成后的強(qiáng)分類器具有統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)。之后,freund設(shè)計(jì)了一個更加高效的通過重取樣或過濾運(yùn)作的boost-by-majority算法。這個算法盡管在某種意義上是優(yōu)化的,但卻有一些實(shí)踐上的缺陷。1995年rreund與schapire提出了自適應(yīng)的自助算法。這個算法和“boost-by-majority”算法的效率幾乎一樣,卻可以非常容易的應(yīng)用到實(shí)際問題中去。然后,自助算法經(jīng)過進(jìn)一步改進(jìn)又有了很大的發(fā)展,如通過調(diào)整權(quán)重而運(yùn)作的一系列算法,解決了早期的自助算法很多實(shí)踐上的問題。 自助法
40、的主要思想就是通過粗糙的、不太正確的、簡單的、單憑經(jīng)驗(yàn)的初級預(yù)測方法,按照一定的規(guī)則,最終得出一個復(fù)雜的、精確度很高的預(yù)測方法。自助法對那些容易錯分類的訓(xùn)練實(shí)例加強(qiáng)學(xué)習(xí),就好像一個人背英語單詞一樣,首先第一遍背完以后有一些容易記住的單詞就記住了,還有一些不容易記住的,則第二遍的時候?qū)δ切┎蝗菀子涀〉膯卧~多看幾眼,第三遍又對第二遍還一記不住的單詞再多看幾眼。自助法是近十年來提出的最有效的學(xué)習(xí)思想之一,是提高預(yù)測學(xué)習(xí)系統(tǒng)能力的有效工具,也是集成學(xué)習(xí)中最具代表性的方法。2.2.2 自助重采樣算法機(jī)器學(xué)習(xí)要解決的問題是如何利用已有的訓(xùn)練樣本,自動學(xué)習(xí)出縣有較好預(yù)測能力的分類器。例如,我們想得到一個可以
41、自動分別垃圾郵件與非垃圾郵件的分類器。機(jī)器學(xué)習(xí)是用以下步驟來獲得這樣的分類器的:首先收集大量的垃圾郵件與垃圾郵件的樣本,然后把這些具有標(biāo)定的樣本輸入到你要使用的學(xué)習(xí)算法中,我們就可以得到條對垃圾郵件與非垃圾郵件的判別準(zhǔn)則。以后再來一封新的郵件,我們就可以用這一準(zhǔn)則來判斷它是否是垃圾郵件。我們的目標(biāo)當(dāng)然是希望這一分類器對新的樣本有最準(zhǔn)確的預(yù)測能力。建立一個預(yù)測能力很強(qiáng)的判別準(zhǔn)則往往是一件很困難的事情,然而獲得些較為粗糙的判別能力較強(qiáng)的準(zhǔn)則就容易得多。例如,如果郵件中出現(xiàn)“現(xiàn)在購買”,我們就判定它是垃圾郵件。這樣一些準(zhǔn)則甚至不能覆蓋所有的垃圾郵件,例如郵件中沒有出現(xiàn)“現(xiàn)在購買”,也不能判定它就不是
42、垃圾郵件。但是這些粗糙的準(zhǔn)則比起隨機(jī)猜測還是強(qiáng)很多。自助法就是建立在尋找粗糙的弱分類器比尋找很強(qiáng)的分類器要容易得多,這一發(fā)現(xiàn)的基礎(chǔ)上的。它把許多弱分類器融合在一起,從而獲得到一個分類能力很強(qiáng)的判別準(zhǔn)則。自助法的思想是一些簡單的規(guī)則組合起來得到一個整體,使得這個整體的性能要比其中任何一個規(guī)則的性能高。假設(shè)為一假設(shè)集,考慮下面的一個合成的整體假設(shè)集,這里的代表整體中每個成員的一個相關(guān)系數(shù),和假設(shè)都可以在自助過程中通過學(xué)習(xí)得到。在本節(jié)中我們主要關(guān)注于兩類分類問題。兩類分類問題的任務(wù)是基于一個觀察集合找到一個規(guī)則(假設(shè))為實(shí)體集分成兩類。我們假定每個實(shí)體屬于一個輸入空間x,由規(guī)則(假設(shè))輸出的空間為y
43、。那么兩類分類問題的任務(wù)可以形式化的描述為估計(jì)得到一個函數(shù)使用服從某一個概率分的隨機(jī)數(shù)據(jù)對(輸入輸出):使得能夠正確的預(yù)測來知的。在這種情況下,每個輸入的類別標(biāo)簽是由給出的,我們稱這類分類器為硬分類器。然而在實(shí)際應(yīng)用過程中很可能會出現(xiàn)這種情況,當(dāng)訓(xùn)練數(shù)據(jù)量比較小的情況下,實(shí)際錯誤率可以很低,然而廣義錯誤率卻不是很低,這就是所謂的過適應(yīng)問題。所以小的廣義錯誤率并不能通過簡單的減小實(shí)際錯誤率。過適應(yīng)問題可以通過規(guī)則化來解決,規(guī)則化通過限制集合f(假設(shè)是從這個集合中挑選的)的大小來實(shí)現(xiàn)。從直覺上,對于都能描述訓(xùn)練數(shù)據(jù)的兩個假設(shè),簡單的和復(fù)雜的,通常簡單的假設(shè)要比復(fù)雜的假設(shè)更為合適。 自助法會產(chǎn)生一個
44、的復(fù)合整體假設(shè),該算法可以保證在某些情況下這個復(fù)合整體假設(shè)的復(fù)雜度并不會很高。既然復(fù)雜度不是很高,那么通常情況下就不會出現(xiàn)過適應(yīng)問題,但是在一些具有噪聲的數(shù)據(jù)中就很有可能會出現(xiàn)過適應(yīng)的情況,這時候就不可避免的要使用規(guī)則化了。自助重采樣算法在實(shí)際中有著大量而廣泛的應(yīng)用:其一,近年來在很多領(lǐng)域中都采用了自助法,如文本分類、圖像分類檢索,自然語合理解和語音識別等。其具體做法通常是將自助法與其它方法相結(jié)合,如與神經(jīng)網(wǎng)絡(luò)、決策樹等算法相結(jié)合。和其他算法相比較,自助法有很多優(yōu)點(diǎn),如速度快、簡單、編程容易,在分類的同時能夠進(jìn)行特征選取等等;在弱分類器確定后,除了迭代次數(shù)t之外不需要調(diào)節(jié)其他參數(shù); 自助法不需
45、要弱分類器的先驗(yàn)知識,只要給定足夠多的數(shù)據(jù),通過尋找比隨機(jī)稍好的弱分類器,就能夠得到一個比較好的最終強(qiáng)分類器,而不是一開始就試圖設(shè)計(jì)一個分類比較精確的算法;同時它還具有理論支持,只要有足夠多的數(shù)據(jù)以及弱分類器就能夠達(dá)到任意的預(yù)測精度??傊碚撋献灾ㄊ且环N可以集成任何弱分類算法的算法框架,它有比較完整的數(shù)學(xué)理論基礎(chǔ),而且還有實(shí)驗(yàn)表明該算法對少樣本、高維數(shù)據(jù)具有很好的適用性,和其他的分類算法相比,自助法具有適應(yīng)性強(qiáng)、精度高的優(yōu)點(diǎn)。 其二,自助法得到的廣泛的研究和應(yīng)用,其研究成果大部分都集中的分類問題上。在這個算法將分類任務(wù)劃分成多個子分類器,每個子分類器關(guān)注于一些較難分類的樣本,然后組合這些子
46、分類器的結(jié)果形成一個強(qiáng)的分類器。在自助法中,我們是通過調(diào)整樣本的權(quán)重來控制子分類器專注于某些難分類的問題的,較難分類的樣本我們則賦予高的權(quán)重,反之,則賦予較低的權(quán)重。所以,我們需要使用帶權(quán)重的訓(xùn)練樣本,有的學(xué)習(xí)算法可以直接使用帶權(quán)重的訓(xùn)練樣本,而有的學(xué)習(xí)算法卻無法使用帶權(quán)重的訓(xùn)練樣本。對于可以使用帶權(quán)重的學(xué)習(xí)算法,我們可以使用通過重新分配權(quán)重來加強(qiáng)的方法。對于那樣不能使用帶權(quán)重的學(xué)習(xí)算法,我們則采用通過重采樣來加強(qiáng)的方法。3 自適應(yīng)的重采樣技術(shù)重采樣技術(shù)有許多不同的變形,其中最為流行的一種是自適應(yīng)的自助算法即adaboost算法。在該算法中,每個樣本都被賦予一個權(quán)重,代表該樣本被當(dāng)前分類器選入
47、訓(xùn)練集的概率,并根據(jù)預(yù)測函數(shù)的輸出與期望輸出的差異調(diào)整樣本權(quán)重:如果某個樣本點(diǎn)已被正確分類,那么在下一個訓(xùn)練集的構(gòu)造中,它的權(quán)重減小、被選中的概率降低;如果它沒有被正確分類,則它的權(quán)重增大。通過這種方式,adaboost算法使得學(xué)習(xí)算法集中學(xué)習(xí)較難判別(富有信息)的樣本變得容易判別起來。因此,adaboost算法提出后在機(jī)器學(xué)習(xí)領(lǐng)域得到極大的關(guān)注。3.1 自適應(yīng)重采樣算法的提出adaboost算法是schapire和frcundll在1995年提出的,它有效地解決了早期自助算法在實(shí)際運(yùn)用中的困難,它的最終判別準(zhǔn)則的精確度是依賴所有弱學(xué)習(xí)過程得出的弱假設(shè)的,因而更能全面地挖掘弱學(xué)習(xí)算法的能力,也
48、正是由此原因而得名“adaptive boosting”,簡稱adaboost。同時由于其簡單的執(zhí)行和理想的效果,adaboost成為人們關(guān)注的焦點(diǎn)。一般情況下若無特別說明,我們說自助算法都是指adaboost算法。adaboost算法是自助算法家族的最具代表性的算法,之后出現(xiàn)的自助算法都是在adaboost算法的基礎(chǔ)上發(fā)展得來的。adaboost算法的研究以及應(yīng)用大多集中于分類問題,同時近年也出現(xiàn)了一些在回歸問題上的應(yīng)用。就其應(yīng)用adaboost系列主要解決了:兩類問題、多類單標(biāo)簽問題、多類多標(biāo)簽問題、大類單標(biāo)簽問題,回歸問題。它用全部的訓(xùn)練樣本進(jìn)行學(xué)習(xí)。adaboost方法是一種機(jī)器學(xué)習(xí)方
49、法,它的基本思想是基于這樣一個事實(shí):直接建立一個具有高度區(qū)分能力的分類器很困難,但是找到一個具有比隨機(jī)猜想好的弱分類器是相當(dāng)容易的。adaboost方法可以通過不斷學(xué)習(xí),把若干個弱分類器組合成為一個強(qiáng)分類器。adaboost的訓(xùn)練過程是一個迭代循環(huán)的過程,在每一次迭代中選擇出一個最好的弱分類器,這個弱分類器是所有弱分類器中對目前權(quán)重分布下加權(quán)分類錯誤率最好的一個,選出這個弱分類器后,依據(jù)它的分類錯誤率給于該弱分類器一個恰當(dāng)?shù)呐袆e權(quán)重,然后更新每一個訓(xùn)練樣本的權(quán)重,對于那些分類錯誤的樣本,加重它的權(quán)重,而對于那些分類正確的樣本,則降低它的權(quán)重,從而可以使得在下次迭代中更加看重那些被分類錯誤的樣本
50、,從而盡量把這些分錯的樣本分正確。接著進(jìn)入下一個迭代過程,一直到所有選擇出來的弱分類器所組成的強(qiáng)分類器的分類錯誤率達(dá)到給定的值才停止。adaboost算法之所以被稱為自適應(yīng)的自助算法,是因?yàn)槠淠軌驅(qū)θ醴诸惼骷现蟹诸愋阅芎玫娜醴诸惼鹘o予較高權(quán)重,而對分類性能差的弱分類器給予較低權(quán)重,進(jìn)而在巨大的弱分類器空間中挑選出若干關(guān)鍵分類器,整合為一個強(qiáng)分類器,整合的規(guī)則是由若干弱分類器的性能決定的。算法的每一輪迭代過程中,樣本的權(quán)值都會受錯分樣本權(quán)值之和的影響,若樣本被分對,在下一輪迭代時該樣本權(quán)值便降低.,若樣本被分錯,在下一輪迭代時該樣本權(quán)值就升高。adaboost方法是合并許多弱分類器的輸出,以產(chǎn)
51、生有效系統(tǒng)的過程,也是自助算法家族中最具代表性的算法,其主要思想是:首先給出任意一個弱學(xué)習(xí)算法和訓(xùn)練集,此處, 表示某個域或?qū)嵗臻g,在分類問題中是一個帶類別標(biāo)志的集合,.初始化時,adaboost 為訓(xùn)練集指定分布為,即每個訓(xùn)練例的權(quán)重都相同為。接著,調(diào)用弱學(xué)習(xí)算法進(jìn)行t 次迭代,每次迭代后,按照訓(xùn)練結(jié)果更新訓(xùn)練集上的分布,對于訓(xùn)練失敗的訓(xùn)練例賦予較大的權(quán)重,使得下一次迭代更加關(guān)注這些訓(xùn)練例,從而得到一個預(yù)測函數(shù)序列, 每個預(yù)測函數(shù)也賦予一個權(quán)重,預(yù)測效果好的,相應(yīng)的權(quán)重越大。t 次迭代之后,在分類問題中最終的預(yù)測函數(shù)h 采用帶權(quán)重的投票法產(chǎn)生。3.2 自適應(yīng)重采樣算法的基本原理3.2.1
52、分類器的訓(xùn)練adaboost算法是經(jīng)過調(diào)整的自助算法,其能夠?qū)θ鯇W(xué)習(xí)得到的分類器的錯誤進(jìn)行適應(yīng)性調(diào)整。上述算法中迭代了t次的主循環(huán),每一次循環(huán)根據(jù)當(dāng)前的權(quán)重分布對樣本x定一個分布p,然后對這個分布下的樣本使用弱學(xué)習(xí)算法得到一個錯誤率為的弱分類器,這個算法定義的弱學(xué)習(xí)算法對所有的分類器都實(shí)用 ,而且這個錯誤率的上限并不需要事先知道。實(shí)際上每一次迭代都要對權(quán)重進(jìn)行更新。更新的規(guī)則是:減小弱分類器分類效果較好的數(shù)據(jù)的概率,增大弱分類器分類效果較差的數(shù)據(jù)的概率。最終的分類器是一個分類器的加權(quán)平均。分類器訓(xùn)練的具體步驟如下:(1)原始訓(xùn)練集輸入,帶有原始分布;(2)給出訓(xùn)練集中各樣本的權(quán)重;(3)將改變
53、分布后的訓(xùn)練集輸入已知的弱學(xué)習(xí)機(jī),弱學(xué)習(xí)機(jī)對每個樣本給出假設(shè);(4)對此次的弱學(xué)習(xí)機(jī)給出權(quán)重;(5)轉(zhuǎn)到(2), 直到循環(huán)到達(dá)一定次數(shù)或者某度量標(biāo)準(zhǔn)符合要求;(6)將弱學(xué)習(xí)機(jī)按其相應(yīng)的權(quán)重加權(quán)組合形成強(qiáng)學(xué)習(xí)機(jī)。分類訓(xùn)練圖如下所示: 加權(quán)后的訓(xùn)練集 原始訓(xùn)練集 強(qiáng)學(xué)習(xí)機(jī)弱學(xué)習(xí)機(jī) z>7?1:-1 弱假設(shè) 加權(quán)后的假設(shè) 圖3.1 訓(xùn)練圖3.2.2 弱分類器原理adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確
54、,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù)特征,并將關(guān)鍵放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。該算法其實(shí)是一個簡單的弱分類算法提升過程,這個過程通過不斷的訓(xùn)練,可以提高對數(shù)據(jù)的分類能力。整個過程如下所示: (1)先通過對n個訓(xùn)練樣本的學(xué)習(xí)得到第一個弱分類器 ;(2)將分錯的樣本和其他的新數(shù)據(jù)一起構(gòu)成一個新的n個的訓(xùn)練樣本,通過對這個樣本的學(xué)習(xí)得到第二個弱分類器 ;(3)將(1)和(2)都分錯了的樣本加上其他的新樣本構(gòu)成另一個新的n個的訓(xùn)練
55、樣本,通過對這個樣本的學(xué)習(xí)得到第三個弱分類器 ;(4)最終經(jīng)過提升的弱分類器即為某個數(shù)據(jù)被分為哪一類要通過,形成多數(shù)表決。3.2.3 強(qiáng)分類器原理adaboost算法中不同的訓(xùn)練集是通過調(diào)整每個樣本對應(yīng)的權(quán)重來實(shí)現(xiàn)的。開始時,每個樣本對應(yīng)的權(quán)重是相同的,即 其中 n 為樣本個數(shù),在此樣本分布下訓(xùn)練出一弱分類器 。對于分類錯誤的樣本,加大其對應(yīng)的權(quán)重;而對于分類正確的樣本,降低其權(quán)重,這樣分錯的樣本就被突出出來,從而得到一個新的樣本分布 。在新的樣本分布下,再次對弱分類器進(jìn)行訓(xùn)練,得到弱分類器。依次類推,經(jīng)過 t 次循環(huán),得到 t 個弱分類器,把這 t 個弱分類器按一定的權(quán)重疊加(boost)起來,得到最終想要的強(qiáng)分類器。強(qiáng)分類器的具體步驟如下:(1)給定訓(xùn)練樣本集s,其中x和y分別對應(yīng)于正例樣本和負(fù)例樣本;t為訓(xùn)練
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年法制宣傳日普法知識競賽搶答題庫及答案(共80題)
- 新員工入職培訓(xùn)流程與要點(diǎn)
- 《藝術(shù)概論:西方繪畫藝術(shù)的發(fā)展歷程及特點(diǎn)》
- 共享經(jīng)濟(jì)與協(xié)作式消費(fèi)作業(yè)指導(dǎo)書
- 福建省龍巖市2024-2025學(xué)年高二上學(xué)期1月期末生物學(xué)試題(含答案)
- 兒童繪本中的教育意義解讀
- 人力資源外包合作協(xié)議
- 小學(xué)生讀書筆記讀后感
- 水資源開發(fā)與保護(hù)聯(lián)合協(xié)議
- 裝修大包合同
- 小學(xué)主題班會【安全使用和維護(hù)家用電器】
- (完整版)收據(jù)電子版
- 學(xué)術(shù)英語智慧樹知到課后章節(jié)答案2023年下南開大學(xué)
- 文獻(xiàn)檢索-第六講-畢業(yè)論文寫作與文獻(xiàn)檢索課件
- 劉鴻文版材料力學(xué)(第五版全套356張)課件
- IATF16949審核資料清單(詳細(xì))
- 《旅游學(xué)概論》第一章
- 國際海事組織標(biāo)準(zhǔn)航海通信用語中英文對照
- 軸線翻身技術(shù)技術(shù)操作考核評分標(biāo)準(zhǔn)
- 部編2023版道德與法治六年級下冊活動園問題及答案
- 中電投山西鋁業(yè)有限公司寧武寬草坪鋁土礦資源開發(fā)利用、地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
評論
0/150
提交評論