機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)_第1頁
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)_第2頁
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)_第3頁
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)_第4頁
機(jī)器學(xué)習(xí)和遷移學(xué)習(xí)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Machine Learning制作者:黃皓璇 陳韜2015年5月7日目錄1234機(jī)器學(xué)習(xí)常見算法集成方法遷移學(xué)習(xí)1.機(jī)器學(xué)習(xí)1.1 概念簡介 機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法。 由于機(jī)器學(xué)習(xí)是人工智能的一個核心領(lǐng)域,所以也有如下定義:“機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能。1.機(jī)器學(xué)習(xí)1.2 分類(1)監(jiān)督學(xué)習(xí):從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù),

2、當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計分類。(2)無監(jiān)督學(xué)習(xí):與監(jiān)督學(xué)習(xí)相比,訓(xùn)練集沒有人為標(biāo)注的結(jié)果。常見的無監(jiān)督學(xué)習(xí)算法為聚類。(3)半監(jiān)督學(xué)習(xí):介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間,如遷移學(xué)習(xí)。(4)增強(qiáng)學(xué)習(xí):通過觀察來學(xué)習(xí)做成如何的動作。每個動作都會對環(huán)境有所影響,學(xué)習(xí)對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷。2.常見算法2.1 簡介分類算法:最近鄰居法、樸素貝葉斯、決策樹、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。聚類算法:K均值、DBSCAN算法、EM算法、模糊C均值、SOM

3、(自組織映射)等。2.常見算法2.2 決策樹(C4.5)2.常見算法2.2 決策樹(C4.5)2.常見算法2.3 支持向量機(jī)(SVM)2.常見算法2.3 支持向量機(jī)(SVM)3.集成方法3.1 概念簡介集成方法(ensemble)是機(jī)器學(xué)習(xí)領(lǐng)域中用來提升分類算法準(zhǔn)確率的技術(shù),主要包括Bagging和Boosting即裝袋和提升。前面介紹的決策樹、樸素貝葉斯等均屬于弱分類器,通過集成方法可以將不同的弱分類器組合起來,構(gòu)造強(qiáng)分類器。比較有代表性的集成方法有:AdaBoost、隨機(jī)森林(RandomForest)等。3.集成方法3.2 AdaBoost算法(1)在沒有先驗知識的情況下,初始的分布為等

4、概分布,也就是訓(xùn)練集如果有n個樣本,每個樣本的分布概率為1/n,并設(shè)置迭代次數(shù)m。(2)每次訓(xùn)練后得到一個基分類器,并根據(jù)準(zhǔn)確率計算其權(quán)值。接著提高錯誤樣本的分布概率,即讓分類錯誤的樣本在訓(xùn)練集中的權(quán)重增大,分類正確的樣本權(quán)重減小,使得下一次訓(xùn)練的基分類器能集中力量對這些錯誤樣本進(jìn)行判斷。(3)最后通過級聯(lián)m個基分類器形成一個強(qiáng)分類器。4.遷移學(xué)習(xí)在傳統(tǒng)分類學(xué)習(xí)中,為了保證訓(xùn)練得到的分類模型具有準(zhǔn)確性和高可靠性,都有兩個基本的假設(shè): (1)用于學(xué)習(xí)的訓(xùn)練樣本與新的測試樣本滿足獨立同分布的條件; (2)必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個好的分類模型。 但是,在實際應(yīng)用中我們發(fā)現(xiàn),這兩個條

5、件往往無法滿足。于是乎,遷移學(xué) 習(xí)應(yīng)運而生。遷移學(xué)習(xí),是一種運用已存有的知識對不同但相關(guān)領(lǐng)域的問題 進(jìn)行求解的新的機(jī)器學(xué)習(xí)方法。4.1 概念簡介4.遷移學(xué)習(xí)針對源領(lǐng)域和目標(biāo)領(lǐng)域樣本是否標(biāo)注以及任務(wù)是否相同,可以把遷移學(xué)習(xí)劃分為: 1、歸納遷移學(xué)習(xí) 2、直推式遷移學(xué)習(xí) 3、無監(jiān)督遷移學(xué)習(xí)而按照遷移學(xué)習(xí)方法采用的技術(shù)劃分,又可以把遷移學(xué)習(xí)方法大體上分為: 1、基于特征選擇的遷移學(xué)習(xí)算法研究 2、基于特征映射的遷移學(xué)習(xí)算法研究 3、基于權(quán)重的遷移學(xué)習(xí)算法研究4.2 分類4.遷移學(xué)習(xí)TrAdaBoost算法的目標(biāo)就是從輔助的源數(shù)據(jù)中找出那些適合測試數(shù)據(jù)的實例,并把這些適合的實例遷移到目標(biāo)領(lǐng)域中少量有標(biāo)

6、簽樣本的學(xué)習(xí)中去。該算法的關(guān)鍵思想是利用Boosting技術(shù)過濾掉源領(lǐng)域數(shù)據(jù)中那些與目標(biāo)領(lǐng)域中少量有標(biāo)簽樣本最不像的樣本數(shù)據(jù)。在TrAdaBoost算法中,AdaBoost被用于在目標(biāo)領(lǐng)域里少量有標(biāo)簽的樣本中,以保證分類模型在目標(biāo)領(lǐng)域數(shù)據(jù)上的準(zhǔn)確性;而Hedge( )被用在源領(lǐng)域數(shù)據(jù)上,用于自動調(diào)節(jié)源領(lǐng)域數(shù)據(jù)的重要度。4.3 TrAdaBoost算法4.遷移學(xué)習(xí)4.3 TrAdaBoost算法機(jī)制訓(xùn)練數(shù)據(jù)TbT源訓(xùn)練數(shù)據(jù)輔助訓(xùn)練數(shù)據(jù)aT基本分類器AdaBoostHedge( )4.遷移學(xué)習(xí)4.4 TrAdaBoost算法示意圖4.遷移學(xué)習(xí)4.5 TrAdaBoost算法描述輸入:兩個訓(xùn)練數(shù)據(jù)集 和 (訓(xùn)練數(shù)據(jù)集 ),一個基本分類算法以及迭代次數(shù)N。初始化: 1. 初始化權(quán)重向量 ,各個元素均為1 。For 1. 設(shè)置 滿足: 2. 調(diào)用基本分類器,根據(jù)合并后的訓(xùn)練數(shù)據(jù) 以及 上的權(quán)重分布 ,得到 一個分類器 。 3. 計算 在 上的錯誤率:bTaTbaTTT)(1111111,.,.mnnnNt,.,1tpmnitittp1TTtpththbTmnnimnnitiiittitxcxh114.遷移學(xué)習(xí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論