機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第2章 機(jī)器學(xué)習(xí)基本理論_第1頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第2章 機(jī)器學(xué)習(xí)基本理論_第2頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第2章 機(jī)器學(xué)習(xí)基本理論_第3頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第2章 機(jī)器學(xué)習(xí)基本理論_第4頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第2章 機(jī)器學(xué)習(xí)基本理論_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章機(jī)器學(xué)習(xí)基本理論機(jī)器學(xué)習(xí)方法離不開(kāi)數(shù)據(jù)和模型,俗話(huà)說(shuō),“巧婦難為無(wú)米之炊”,數(shù)據(jù)便是“米”,模型則是“巧婦”。沒(méi)有充足的數(shù)據(jù)、合適的特征,再?gòu)?qiáng)大的模型結(jié)構(gòu)也無(wú)法得到滿(mǎn)意的輸出。機(jī)器學(xué)習(xí)業(yè)界有一句經(jīng)典“Garbagein,garbageout”。對(duì)于一個(gè)機(jī)器學(xué)習(xí)問(wèn)題,數(shù)據(jù)和特征往往決定了結(jié)果的上限,而模型和算法的選擇及優(yōu)化則逐步接近這個(gè)上限。12.1機(jī)器學(xué)習(xí)術(shù)語(yǔ)基本概念過(guò)擬合和欠擬合模型評(píng)估22.1.1基本概念數(shù)據(jù)集(dataset)是一種由數(shù)據(jù)所組成的集合,通常以表格的形式出現(xiàn),其中每一行是一個(gè)數(shù)據(jù),表示對(duì)一個(gè)事件或?qū)ο蟮拿枋?,又稱(chēng)為樣本(sample)或?qū)嵗╥nstance)。每一列反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì),稱(chēng)為特征(feature)或?qū)傩裕╝ttribute)。屬性上的取值稱(chēng)為屬性值(attributevalue)或特征值。所有屬性構(gòu)成的空間稱(chēng)為屬性空間(attributespace)、樣本空間(samplespace)或輸入空間(inputspace)。

屬性空間中的每一個(gè)點(diǎn)通常用一個(gè)向量來(lái)表示,稱(chēng)為特征向量(featurevector),即每個(gè)特征向量附屬于一個(gè)實(shí)例。32.1.1基本概念模型(model)指描述特征和問(wèn)題之間關(guān)系的數(shù)學(xué)對(duì)象。從數(shù)據(jù)中使用算法得到模型的過(guò)程稱(chēng)為學(xué)習(xí)(learning)或訓(xùn)練(training)。訓(xùn)練過(guò)程中使用的數(shù)據(jù)集又被分為以下3種:訓(xùn)練集(trainningset):通常取數(shù)據(jù)集中一部分?jǐn)?shù)據(jù)作為訓(xùn)練集來(lái)訓(xùn)練模型。測(cè)試集(testingset):用來(lái)對(duì)已經(jīng)學(xué)習(xí)好的模型或者算法進(jìn)行測(cè)試和評(píng)估的數(shù)據(jù)集。驗(yàn)證集(validationset):有時(shí)需要把訓(xùn)練集進(jìn)一步拆分成訓(xùn)練集和驗(yàn)證集,驗(yàn)證集用于在學(xué)習(xí)過(guò)程中對(duì)模型進(jìn)行調(diào)整和選擇。42.1.1基本概念每個(gè)實(shí)例中描述模型輸出的可能值稱(chēng)為標(biāo)簽(label)或標(biāo)記。特征是事物固有屬性,標(biāo)簽是根據(jù)固有屬性產(chǎn)生的認(rèn)知。在經(jīng)過(guò)一定次數(shù)的訓(xùn)練迭代后,模型損失不再發(fā)生變化或變化很小,說(shuō)明當(dāng)前訓(xùn)練樣本已經(jīng)無(wú)法改進(jìn)模型,稱(chēng)為模型達(dá)到收斂(convergence)狀態(tài)。新的數(shù)據(jù)輸入到訓(xùn)練好的模型中,以對(duì)其進(jìn)行判斷稱(chēng)為預(yù)測(cè)(prediction)。通過(guò)學(xué)習(xí)得到的模型適用于新樣本的能力,稱(chēng)為泛化(generalization)能力。檢驗(yàn)?zāi)P托Ч姆椒ǚQ(chēng)為模型評(píng)估(evaluation)。52.1.2過(guò)擬合和欠擬合

當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好”的時(shí)候,很可能將訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作所有潛在樣本的共有特性,這樣會(huì)導(dǎo)致泛化性能下降,這在機(jī)器學(xué)習(xí)中稱(chēng)為“過(guò)擬合”。與之相反地,“欠擬合”是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好。62.1.2過(guò)擬合和欠擬合處理過(guò)擬合的方法大致分為以下幾種:從數(shù)據(jù)入手,獲得更多的訓(xùn)練數(shù)據(jù)。降低模型復(fù)雜度。正則化方法。集成學(xué)習(xí)方法。處理欠擬合的方法大致分為以下幾種:添加新特征。增加模型復(fù)雜度。減小正則化系數(shù)。72.1.3模型評(píng)估現(xiàn)實(shí)中如何進(jìn)行模型的評(píng)估與選擇呢?通過(guò)實(shí)驗(yàn)測(cè)試來(lái)對(duì)學(xué)習(xí)器的泛化誤差進(jìn)行評(píng)估并進(jìn)而做出選擇。具體地講,先使用某種實(shí)驗(yàn)評(píng)估方法測(cè)得學(xué)習(xí)器的某個(gè)性能度量結(jié)果,然后對(duì)這些結(jié)果進(jìn)行比較。這個(gè)評(píng)估的過(guò)程涉及到實(shí)驗(yàn)評(píng)估方法的選擇、性能度量指標(biāo)以及比較檢驗(yàn)等幾個(gè)步驟。82.2實(shí)驗(yàn)估計(jì)方法

92.2.1留出法

“留出法”是最簡(jiǎn)單也是最直接的驗(yàn)證方法,它將原始的樣本集合隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩部分。比方說(shuō),對(duì)于一個(gè)點(diǎn)擊率預(yù)測(cè)模型,我們把樣本按照70%~30%的比例分成兩部分,70%的樣本用于模型訓(xùn)練;30%的樣本用于模型驗(yàn)證Scikit-learn提供的train_test_split函數(shù)能夠?qū)?shù)據(jù)集切分成訓(xùn)練集和測(cè)試集兩類(lèi),其函數(shù)原型如下:sklearn.model_selection.train_test_split(X,y,**options)102.2.2交叉驗(yàn)證法

“交叉驗(yàn)證法”首先將全部樣本劃分成k個(gè)大小相等的樣本子集;依次遍歷這k個(gè)子集,每次把當(dāng)前子集作為驗(yàn)證集,其余所有子集作為訓(xùn)練集,進(jìn)行模型的訓(xùn)練和評(píng)估;最后把k次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。

112.2.3自助法

自助法是基于自助采樣法的檢驗(yàn)方法。對(duì)于總數(shù)為n的樣本集合,進(jìn)行n次有放回的隨機(jī)抽樣,得到大小為n的訓(xùn)練集。n次采樣過(guò)程中,有的樣本會(huì)被重復(fù)采樣,有的樣本沒(méi)有被抽出過(guò),將這些沒(méi)有被抽出的樣本作為驗(yàn)證集,進(jìn)行模型驗(yàn)證,這就是自助法的驗(yàn)證過(guò)程。

122.3性能度量性能度量(performancemeasure)是指衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),同時(shí)反映了任務(wù)需求。在對(duì)比不同模型能力時(shí),使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果;這意味著模型的“優(yōu)劣”是相對(duì)的,對(duì)模型評(píng)價(jià)的標(biāo)準(zhǔn)不僅取決于算法和數(shù)據(jù),還決定于任務(wù)需求。132.3.1錯(cuò)誤率與精度

精度則定義為

142.3.2查準(zhǔn)率、查全率與F1真實(shí)情況預(yù)測(cè)結(jié)果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)

152.3.3查準(zhǔn)率、查全率與F1“平衡點(diǎn)”(Break-EventPoint,簡(jiǎn)稱(chēng)BEP)是“查準(zhǔn)率=查全率”時(shí)的取值

162.3.4ROC與AUCROC全稱(chēng)是“受試者工作特征”(ReceiverOperatingCharacteristic)曲線(xiàn)AUC(AreaUnderROCCurve)

172.4比較檢驗(yàn)統(tǒng)計(jì)假設(shè)檢驗(yàn)(hypothesistest)為我們進(jìn)行學(xué)習(xí)器性能比較提供了重要依據(jù)。基于假設(shè)檢驗(yàn)結(jié)果可以推斷出,若在測(cè)試集上觀察到學(xué)習(xí)器A比B好,則A的泛化性能是否在統(tǒng)計(jì)意義上由于B,以及這個(gè)推斷結(jié)論的準(zhǔn)確性有多大。182.4.1假設(shè)檢驗(yàn)

192.4.1假設(shè)檢驗(yàn)

202.4.1假設(shè)檢驗(yàn)

αk251020300.0512.7062.7762.2622.0932.0450.106.3142.1321.8331.7291.699雙邊t檢驗(yàn)的常用臨界值212.4.2交叉驗(yàn)證t檢驗(yàn)

222.4.2交叉驗(yàn)證t檢驗(yàn)

232.4.2交叉驗(yàn)證t檢驗(yàn)

242.5參數(shù)調(diào)優(yōu)機(jī)器學(xué)習(xí)常涉及兩類(lèi)參數(shù):一類(lèi)是算法的參數(shù)亦稱(chēng)“超參數(shù)”,數(shù)目常在10以?xún)?nèi);另一類(lèi)是模型的參數(shù),數(shù)目可能很多,例如大型“深度學(xué)習(xí)”模型甚至有上百億個(gè)參數(shù)。參數(shù)搜索算法一般包括三個(gè)要素:目標(biāo)函數(shù),即算法需要最大化/最小化的目標(biāo);搜索范圍,一般通過(guò)上限和下限來(lái)確定;算法的其他參數(shù),如搜索步長(zhǎng)。252.5.1網(wǎng)格搜索網(wǎng)格搜索是最簡(jiǎn)單、應(yīng)用最廣泛的超參數(shù)搜索算法,它通過(guò)查找搜索范圍內(nèi)的所有點(diǎn)來(lái)確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長(zhǎng),網(wǎng)格搜索有很大概率找到全局最優(yōu)值。

在實(shí)際應(yīng)用中,網(wǎng)格搜索法一般會(huì)先使用較廣的搜索范圍和較大的步長(zhǎng),來(lái)尋找全局最優(yōu)值可能的位置;然后會(huì)逐漸縮小搜索范圍和步長(zhǎng),來(lái)尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時(shí)間和計(jì)算量,但由于目標(biāo)函數(shù)一般是非凸的,所以很可能會(huì)錯(cuò)過(guò)全局最優(yōu)值。262.5.2隨機(jī)搜索隨機(jī)搜索(GridSearchCV)的思想與網(wǎng)格搜索比較相似,只是不再測(cè)試上界和下界之間的所有值,而是在搜索范圍中隨機(jī)選取樣本點(diǎn)。它的理論依據(jù)是,如果樣本點(diǎn)集足夠大,那么通過(guò)隨機(jī)采樣也能大概率地找到全局最優(yōu)值,或其近似值。GridSearchCV采用的是暴力尋找的方法來(lái)尋找最優(yōu)參數(shù)。當(dāng)待優(yōu)化的參數(shù)是離散的取值的時(shí)候,GridSearchCV能夠順利地找出最優(yōu)的參數(shù)。但是當(dāng)待優(yōu)化的參數(shù)是連續(xù)取值的時(shí)候暴力尋找就有心無(wú)力了。272.5.3貝葉斯優(yōu)化算法貝葉斯優(yōu)化算法通過(guò)對(duì)目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí),找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是:首先根據(jù)先驗(yàn)分布,假設(shè)一個(gè)搜集函數(shù);然后,每一次使用新的采樣點(diǎn)來(lái)測(cè)試目標(biāo)函數(shù)時(shí),利用這個(gè)信息來(lái)更新目標(biāo)函數(shù)的先驗(yàn)分布;最后,算法測(cè)試由后驗(yàn)分布給出的全局最值最可能出現(xiàn)的位置的點(diǎn)。28

2.6本章小結(jié)本章首先介紹了包含數(shù)據(jù)集、模型、泛化等常見(jiàn)的機(jī)器學(xué)習(xí)基礎(chǔ)概念,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論