機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-10-31 格式：PPTX 頁(yè)數(shù)：29 大?。?.54MB 積分：15 舉報(bào) 版權(quán)申訴

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論_第2頁(yè)

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論_第3頁(yè)

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論_第4頁(yè)

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論_第5頁(yè)

已閱讀5頁(yè)，還剩24頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章機(jī)器學(xué)習(xí)基本理論機(jī)器學(xué)習(xí)方法離不開(kāi)數(shù)據(jù)和模型，俗話(huà)說(shuō)，“巧婦難為無(wú)米之炊”，數(shù)據(jù)便是“米”，模型則是“巧婦”。沒(méi)有充足的數(shù)據(jù)、合適的特征，再?gòu)?qiáng)大的模型結(jié)構(gòu)也無(wú)法得到滿(mǎn)意的輸出。機(jī)器學(xué)習(xí)業(yè)界有一句經(jīng)典“Garbagein，garbageout”。對(duì)于一個(gè)機(jī)器學(xué)習(xí)問(wèn)題，數(shù)據(jù)和特征往往決定了結(jié)果的上限，而模型和算法的選擇及優(yōu)化則逐步接近這個(gè)上限。12.1機(jī)器學(xué)習(xí)術(shù)語(yǔ)基本概念過(guò)擬合和欠擬合模型評(píng)估22.1.1基本概念數(shù)據(jù)集（dataset）是一種由數(shù)據(jù)所組成的集合，通常以表格的形式出現(xiàn)，其中每一行是一個(gè)數(shù)據(jù)，表示對(duì)一個(gè)事件或?qū)ο蟮拿枋?，又稱(chēng)為樣本（sample）或?qū)嵗╥nstance）。每一列反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)，稱(chēng)為特征（feature）或?qū)傩裕╝ttribute）。屬性上的取值稱(chēng)為屬性值（attributevalue）或特征值。所有屬性構(gòu)成的空間稱(chēng)為屬性空間（attributespace）、樣本空間（samplespace）或輸入空間（inputspace）。

屬性空間中的每一個(gè)點(diǎn)通常用一個(gè)向量來(lái)表示，稱(chēng)為特征向量（featurevector），即每個(gè)特征向量附屬于一個(gè)實(shí)例。32.1.1基本概念模型（model）指描述特征和問(wèn)題之間關(guān)系的數(shù)學(xué)對(duì)象。從數(shù)據(jù)中使用算法得到模型的過(guò)程稱(chēng)為學(xué)習(xí)（learning）或訓(xùn)練（training）。訓(xùn)練過(guò)程中使用的數(shù)據(jù)集又被分為以下3種：訓(xùn)練集（trainningset）：通常取數(shù)據(jù)集中一部分?jǐn)?shù)據(jù)作為訓(xùn)練集來(lái)訓(xùn)練模型。測(cè)試集（testingset）：用來(lái)對(duì)已經(jīng)學(xué)習(xí)好的模型或者算法進(jìn)行測(cè)試和評(píng)估的數(shù)據(jù)集。驗(yàn)證集（validationset）：有時(shí)需要把訓(xùn)練集進(jìn)一步拆分成訓(xùn)練集和驗(yàn)證集，驗(yàn)證集用于在學(xué)習(xí)過(guò)程中對(duì)模型進(jìn)行調(diào)整和選擇。42.1.1基本概念每個(gè)實(shí)例中描述模型輸出的可能值稱(chēng)為標(biāo)簽（label）或標(biāo)記。特征是事物固有屬性，標(biāo)簽是根據(jù)固有屬性產(chǎn)生的認(rèn)知。在經(jīng)過(guò)一定次數(shù)的訓(xùn)練迭代后，模型損失不再發(fā)生變化或變化很小，說(shuō)明當(dāng)前訓(xùn)練樣本已經(jīng)無(wú)法改進(jìn)模型，稱(chēng)為模型達(dá)到收斂（convergence）狀態(tài)。新的數(shù)據(jù)輸入到訓(xùn)練好的模型中，以對(duì)其進(jìn)行判斷稱(chēng)為預(yù)測(cè)（prediction）。通過(guò)學(xué)習(xí)得到的模型適用于新樣本的能力，稱(chēng)為泛化（generalization）能力。檢驗(yàn)?zāi)Ｐ托Ч姆椒ǚQ(chēng)為模型評(píng)估（evaluation）。52.1.2過(guò)擬合和欠擬合

當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好”的時(shí)候，很可能將訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作所有潛在樣本的共有特性，這樣會(huì)導(dǎo)致泛化性能下降，這在機(jī)器學(xué)習(xí)中稱(chēng)為“過(guò)擬合”。與之相反地，“欠擬合”是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好。62.1.2過(guò)擬合和欠擬合處理過(guò)擬合的方法大致分為以下幾種：從數(shù)據(jù)入手，獲得更多的訓(xùn)練數(shù)據(jù)。降低模型復(fù)雜度。正則化方法。集成學(xué)習(xí)方法。處理欠擬合的方法大致分為以下幾種：添加新特征。增加模型復(fù)雜度。減小正則化系數(shù)。72.1.3模型評(píng)估現(xiàn)實(shí)中如何進(jìn)行模型的評(píng)估與選擇呢？通過(guò)實(shí)驗(yàn)測(cè)試來(lái)對(duì)學(xué)習(xí)器的泛化誤差進(jìn)行評(píng)估并進(jìn)而做出選擇。具體地講，先使用某種實(shí)驗(yàn)評(píng)估方法測(cè)得學(xué)習(xí)器的某個(gè)性能度量結(jié)果，然后對(duì)這些結(jié)果進(jìn)行比較。這個(gè)評(píng)估的過(guò)程涉及到實(shí)驗(yàn)評(píng)估方法的選擇、性能度量指標(biāo)以及比較檢驗(yàn)等幾個(gè)步驟。82.2實(shí)驗(yàn)估計(jì)方法

92.2.1留出法

“留出法”是最簡(jiǎn)單也是最直接的驗(yàn)證方法，它將原始的樣本集合隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩部分。比方說(shuō)，對(duì)于一個(gè)點(diǎn)擊率預(yù)測(cè)模型，我們把樣本按照70%~30%的比例分成兩部分，70%的樣本用于模型訓(xùn)練；30%的樣本用于模型驗(yàn)證Scikit-learn提供的train_test_split函數(shù)能夠?qū)?shù)據(jù)集切分成訓(xùn)練集和測(cè)試集兩類(lèi)，其函數(shù)原型如下：sklearn.model_selection.train_test_split(X,y,**options)102.2.2交叉驗(yàn)證法

“交叉驗(yàn)證法”首先將全部樣本劃分成k個(gè)大小相等的樣本子集；依次遍歷這k個(gè)子集，每次把當(dāng)前子集作為驗(yàn)證集，其余所有子集作為訓(xùn)練集，進(jìn)行模型的訓(xùn)練和評(píng)估；最后把k次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。

112.2.3自助法

自助法是基于自助采樣法的檢驗(yàn)方法。對(duì)于總數(shù)為n的樣本集合，進(jìn)行n次有放回的隨機(jī)抽樣，得到大小為n的訓(xùn)練集。n次采樣過(guò)程中，有的樣本會(huì)被重復(fù)采樣，有的樣本沒(méi)有被抽出過(guò)，將這些沒(méi)有被抽出的樣本作為驗(yàn)證集，進(jìn)行模型驗(yàn)證，這就是自助法的驗(yàn)證過(guò)程。

122.3性能度量性能度量（performancemeasure）是指衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)，同時(shí)反映了任務(wù)需求。在對(duì)比不同模型能力時(shí)，使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果；這意味著模型的“優(yōu)劣”是相對(duì)的，對(duì)模型評(píng)價(jià)的標(biāo)準(zhǔn)不僅取決于算法和數(shù)據(jù)，還決定于任務(wù)需求。132.3.1錯(cuò)誤率與精度

精度則定義為

142.3.2查準(zhǔn)率、查全率與F1真實(shí)情況預(yù)測(cè)結(jié)果正例反例正例TP（真正例）FN（假反例）反例FP（假正例）TN（真反例）

152.3.3查準(zhǔn)率、查全率與F1“平衡點(diǎn)”（Break-EventPoint，簡(jiǎn)稱(chēng)BEP）是“查準(zhǔn)率＝查全率”時(shí)的取值

162.3.4ROC與AUCROC全稱(chēng)是“受試者工作特征”（ReceiverOperatingCharacteristic）曲線(xiàn)AUC(AreaUnderROCCurve)

172.4比較檢驗(yàn)統(tǒng)計(jì)假設(shè)檢驗(yàn)（hypothesistest）為我們進(jìn)行學(xué)習(xí)器性能比較提供了重要依據(jù)。基于假設(shè)檢驗(yàn)結(jié)果可以推斷出，若在測(cè)試集上觀察到學(xué)習(xí)器A比B好，則A的泛化性能是否在統(tǒng)計(jì)意義上由于B，以及這個(gè)推斷結(jié)論的準(zhǔn)確性有多大。182.4.1假設(shè)檢驗(yàn)

192.4.1假設(shè)檢驗(yàn)

202.4.1假設(shè)檢驗(yàn)

αk251020300.0512.7062.7762.2622.0932.0450.106.3142.1321.8331.7291.699雙邊t檢驗(yàn)的常用臨界值212.4.2交叉驗(yàn)證t檢驗(yàn)

222.4.2交叉驗(yàn)證t檢驗(yàn)

232.4.2交叉驗(yàn)證t檢驗(yàn)

242.5參數(shù)調(diào)優(yōu)機(jī)器學(xué)習(xí)常涉及兩類(lèi)參數(shù)：一類(lèi)是算法的參數(shù)亦稱(chēng)“超參數(shù)”，數(shù)目常在10以?xún)?nèi)；另一類(lèi)是模型的參數(shù)，數(shù)目可能很多，例如大型“深度學(xué)習(xí)”模型甚至有上百億個(gè)參數(shù)。參數(shù)搜索算法一般包括三個(gè)要素：目標(biāo)函數(shù)，即算法需要最大化/最小化的目標(biāo)；搜索范圍，一般通過(guò)上限和下限來(lái)確定；算法的其他參數(shù)，如搜索步長(zhǎng)。252.5.1網(wǎng)格搜索網(wǎng)格搜索是最簡(jiǎn)單、應(yīng)用最廣泛的超參數(shù)搜索算法，它通過(guò)查找搜索范圍內(nèi)的所有點(diǎn)來(lái)確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長(zhǎng)，網(wǎng)格搜索有很大概率找到全局最優(yōu)值。

在實(shí)際應(yīng)用中，網(wǎng)格搜索法一般會(huì)先使用較廣的搜索范圍和較大的步長(zhǎng)，來(lái)尋找全局最優(yōu)值可能的位置；然后會(huì)逐漸縮小搜索范圍和步長(zhǎng)，來(lái)尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時(shí)間和計(jì)算量，但由于目標(biāo)函數(shù)一般是非凸的，所以很可能會(huì)錯(cuò)過(guò)全局最優(yōu)值。262.5.2隨機(jī)搜索隨機(jī)搜索（GridSearchCV）的思想與網(wǎng)格搜索比較相似，只是不再測(cè)試上界和下界之間的所有值，而是在搜索范圍中隨機(jī)選取樣本點(diǎn)。它的理論依據(jù)是，如果樣本點(diǎn)集足夠大，那么通過(guò)隨機(jī)采樣也能大概率地找到全局最優(yōu)值，或其近似值。GridSearchCV采用的是暴力尋找的方法來(lái)尋找最優(yōu)參數(shù)。當(dāng)待優(yōu)化的參數(shù)是離散的取值的時(shí)候,GridSearchCV能夠順利地找出最優(yōu)的參數(shù)。但是當(dāng)待優(yōu)化的參數(shù)是連續(xù)取值的時(shí)候暴力尋找就有心無(wú)力了。272.5.3貝葉斯優(yōu)化算法貝葉斯優(yōu)化算法通過(guò)對(duì)目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí)，找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是：首先根據(jù)先驗(yàn)分布，假設(shè)一個(gè)搜集函數(shù)；然后，每一次使用新的采樣點(diǎn)來(lái)測(cè)試目標(biāo)函數(shù)時(shí)，利用這個(gè)信息來(lái)更新目標(biāo)函數(shù)的先驗(yàn)分布；最后，算法測(cè)試由后驗(yàn)分布給出的全局最值最可能出現(xiàn)的位置的點(diǎn)。28

2.6本章小結(jié)本章首先介紹了包含數(shù)據(jù)集、模型、泛化等常見(jiàn)的機(jī)器學(xué)習(xí)基礎(chǔ)概念，

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第2章 機(jī)器學(xué)習(xí)基本理論

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

機(jī)器學(xué)習(xí)算法與實(shí)踐課件第2章機(jī)器學(xué)習(xí)基本理論