




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
-.z.機器學(xué)習(xí)是怎樣的學(xué)科:致力于研究如何通過計算的手段,利用經(jīng)驗來改善系統(tǒng)自身的性能。機器學(xué)習(xí)主要分為兩大類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)、強化學(xué)習(xí)(AlphaGo)、半監(jiān)督學(xué)習(xí)。機器學(xué)習(xí)所要研究的主要內(nèi)容是關(guān)于計算機在從數(shù)據(jù)中產(chǎn)生"模型”的算法,即"學(xué)習(xí)算法”。(有了學(xué)習(xí)算法,我們把經(jīng)驗提供給它,他就能基于這些數(shù)據(jù)產(chǎn)生模型)。學(xué)習(xí)的特點:數(shù)據(jù)驅(qū)動,以方法為中心,概率統(tǒng)計優(yōu)化為基礎(chǔ)。從數(shù)據(jù)中學(xué)得模型的過程稱為"學(xué)習(xí)”或"訓(xùn)練”,這個過程通過執(zhí)行*個學(xué)習(xí)算法來完成。訓(xùn)練過程中使用的數(shù)據(jù)稱為"訓(xùn)練數(shù)據(jù)”,每一個樣本稱為"訓(xùn)練樣本”,訓(xùn)練樣本組成的集合稱為"訓(xùn)練集”。三要素:模型、策略、算法。學(xué)得模型后,使用其進行預(yù)測得過程稱為"測試”。被測樣本稱為"測試樣本”。機器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于"新樣本”。獨立同分布學(xué)得模型適用于新樣本的能力,稱為"泛化”能力。具有強泛化能力的模型能很好地適用于整個樣本空間。"奧卡姆剃刀”原則,是一種常用地、自然科學(xué)研究中最基礎(chǔ)地原則,即"諾有多個假設(shè)與觀察一致,則選最簡單地那個”。(采用這個原則,則所描繪地曲線更平滑,更簡單)。20世紀(jì)50年代-70年代初,人工智能處于"推理期”。20世紀(jì)70年代中期開始,人工智能進入"知識期”。20世紀(jì)80年代:被研究最多的應(yīng)用最廣的是"從樣本中學(xué)習(xí)”,其中的兩個主流技術(shù):符號主義學(xué)習(xí)(決策樹,ILP:歸納邏輯程序設(shè)計),基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)20世紀(jì)90年代中期:統(tǒng)計學(xué)習(xí):代表性技術(shù),支持向量機21世紀(jì)以來,連接主義學(xué)習(xí)"深度學(xué)習(xí)”即很多層的神經(jīng)網(wǎng)絡(luò)1980年夏,美國卡耐基梅隆大學(xué)舉辦了第一屆機器學(xué)習(xí)研討會(IWML)。同年《策略分析與信息系統(tǒng)》連出三期機器學(xué)習(xí)專輯。1986年,第一本機器學(xué)習(xí)專業(yè)期刊MachineLearning創(chuàng)刊。1989年,人工智能領(lǐng)域地權(quán)威期刊ArtificialIntelligence出版機器學(xué)習(xí)專輯。2006年,卡耐基梅隆大學(xué)宣告成立世界上第一個"機器學(xué)習(xí)系”。經(jīng)驗誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差稱為"訓(xùn)練誤差”或"經(jīng)驗誤差”。泛化誤差:在新樣本上的誤差稱為"泛化誤差”。"測試誤差”作為泛化誤差的近似。模型評估時用來測試模型的數(shù)據(jù)集叫什么集:A訓(xùn)練集B測試集C評估集D驗證集(訓(xùn)練集是用來訓(xùn)練模型的,通過嘗試不同的方法和思路使用訓(xùn)練集來訓(xùn)練不同的模型,再通過驗證集使用交叉驗證來挑選最優(yōu)的模型,通過不斷的迭代來改善模型在驗證集上的性能,最后再通過測試集來評估模型的性能。將一個數(shù)據(jù)集D分為訓(xùn)練集S和測試集T的方法:留出法:直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個作為S一個作為T。注意點:訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布一致。單次使用留出法得到的估計結(jié)果往往不夠穩(wěn)定可靠。一般采用若干次隨機劃分、重復(fù)進行實驗評估后取平均值作為結(jié)果。常見做法是將大約2/3~4/5的樣本用于訓(xùn)練剩余樣本用于測試。保留類別比例的采樣方式通常稱為"分層采樣”。交叉驗證法:(可能大題)將數(shù)據(jù)集D劃分為k個大小相似的的互斥子集,每個子集盡可能保持?jǐn)?shù)據(jù)分布的一致性,即通過分層采樣得到。然后每次用k-1個子集的并集作為訓(xùn)練集,余下的一個子集作為測試集并進行K次訓(xùn)練和測試。例如:5折交叉驗證,D分為D1~D5,第一次取4個子集的并集,D2-D5作為訓(xùn)練集,D1作為測試集。第二次取D1、D3、D4、D5的并集作為訓(xùn)練集,D2作為測試集。以此類推,最后將5次測試結(jié)果平均得到返回結(jié)果。其中,如果D一共有m個樣本,k=m,則得到交叉驗證法的特例:留一法。因為m個樣本只有唯一的劃分方式,即劃分為m個子集,每一個子集只有一個樣本。這樣所用的訓(xùn)練集只比原數(shù)據(jù)少一個樣本。留一法的優(yōu)點:評估結(jié)果往往被認為比較精確(并非最精確),缺點:數(shù)據(jù)集較大時,訓(xùn)練m個模型的計算開銷可能難以忍受。自助法:(這種方法有一些樣本永遠取不到)建立一個新的數(shù)據(jù)集D’在D中隨機取一個樣本復(fù)制到D’中,進行m次后,D’中的樣本數(shù)量和D一樣,這時將D’作為訓(xùn)練集D\D’(表示D中不包括D’的部分)作為測試集。因為是復(fù)制到D’中所以D中的一部分樣本會取不到,則不被取到的概率為(1-1/m)^m取極限得到=1/e≈0.368,即數(shù)據(jù)集D中約有36.8%的樣本未出現(xiàn)在D’中。得到結(jié)果也稱為"包外估計”。在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測試集時很有用此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個不同的訓(xùn)練集,對集成學(xué)習(xí)有很大好處。但是自助法改變了初始數(shù)據(jù)集的分布,這會引入估計偏差。所以數(shù)據(jù)足夠多的時候其他兩種方法更加常用。錯誤率與精度錯誤率:分類錯誤的樣本占樣本總數(shù)的比例。精度:分類正確的樣本數(shù)占樣本總數(shù)的比例。查準(zhǔn)率、查全率與F1認為是正例的樣本中:真正例TP假正例FP認為是假例的樣本中:假反例FN真反例TN查準(zhǔn)率P:TP/(TP+FP)即在查到的正例中正確的占比。查全率R:TP/(TP+FN)即在所有正確的例子中查到的正例的占比。一般來說,查準(zhǔn)率高,查全率偏低,查全率高,查準(zhǔn)率偏低。根據(jù)這一現(xiàn)象可以得到"P-R曲線”,當(dāng)R(*軸)相同時,P(Y軸)越大越好。曲線和P=R的直線的交點稱為平衡點。越大越優(yōu)。因為平衡點過于簡化,所以用F1來衡量優(yōu)劣:F1=(2*P*R)/(P+R)=(2*TP)/(樣本總數(shù)+TP-TN)=>1/F1=1/2*(1/P+1/R)有時因為場景的需要,可能回偏向查全率或者查準(zhǔn)率,則有了F1的變形:FβFβ=((1+β2)*P*R)/((β2*P)+R)當(dāng)β=1時,則為標(biāo)準(zhǔn)的F1;β>1時查全率有更大影響;β<1時查準(zhǔn)率有更大影響。線性模型:給定d個描述*=(*1;*2*3...*d)(例如西瓜顏色、形狀2個描述,d=2),*i是*在第i個屬性上的取值(即顏色=*1;形狀=*2)。從而有線性模型的基本形式f(*)=wT*+b加粗表示向量線性回歸這里的數(shù)據(jù)集為D={(*1,y1),(*2,y2),...,(*m,ym)},其中*i=(*i1,*i2,...,*id)即線性模型的描述。此處的y應(yīng)該是判斷結(jié)果,我猜測為正確答案。簡單化*i,將其中的值縮減到1個,則D={(*i,yi)}i=1m。同時,若屬性間存在"序”,并且為離散值,則可以將輸入變?yōu)轭愃粕砀?>{1,0}其中1表示高,0表示矮。如果不存在"序”關(guān)系,k個屬性就用k維向量表示。線性回歸目的是求出f(*)=wT*+b的函數(shù)使得帶入的值經(jīng)過函數(shù)計算后得到的f(*)與預(yù)測的y近似。所以為了近似,則需要做差最小。使用均方誤差得到:(w*,b*)=argminΣ(i=1~m)(f(*i)-yi)2不方便同時做上下標(biāo)簡單表示=argminΣ(i=1~m)(yi-w*i-b)2這里我理解的是承接上面簡化屬性值僅有一個分別對w和b做偏導(dǎo)得到書上P51的3.5和3.6,然后兩個式子=0,解后得到3.7和3.8的解。(過程作業(yè)有寫,需要熟悉)此時如果使用原本的數(shù)據(jù)集,而不簡化,即f(*)=wT*+b≈yi稱為"多元線性回歸”最小二乘法就是通過使兩個式子的均方誤差最小化,來求得函數(shù)的未知值。來近似標(biāo)準(zhǔn)函數(shù),可以百度關(guān)鍵詞"最小二乘法”,其中原理的部分較好理解。對數(shù)線性回歸:即之前的線性回歸是為了逼近y值,如果要使得函數(shù)逼近與y相關(guān)的值,例如lny,就是改變指數(shù)尺度=>lny=wT*+b這一式子則稱為對數(shù)線性回歸,本質(zhì)是使得e底的wT*+b逼近y。該式子在本質(zhì)上仍然是線性回歸。P56圖3.1表現(xiàn)得較為明顯。如果有g(shù)(.)使得y=g-1(wT*+b)這樣得到得模型稱為"廣義線性模型”,函數(shù)g(.)稱為"聯(lián)系函數(shù)”,則對數(shù)線性回歸是廣義線性模型在g(.)=ln(.)時得特例。我這里認為g(.)中.表示輸入值。對數(shù)幾率回歸:是分類問題通過找一個單調(diào)可微函數(shù)g(.)將分類任務(wù)的真實標(biāo)記y與線性回歸模型的預(yù)測值f(*)聯(lián)系起來。設(shè)預(yù)測值z=wT*+b則將z的值通過"單位越階函數(shù)”P57(3.16)與輸出標(biāo)記y一致。即通過g(.)獲取到的函數(shù)為P57圖3.2中的黑線。紅色部分則為判斷的輸出標(biāo)記。因為希望函數(shù)值接近0或1,所用用y=1/1+e-z作為"替代函數(shù)”且可微。帶入z=wT*+b,得到P58(3.18)(3.19)則為了求"對數(shù)幾率”,最后就是求ln(y/1-y),將y和1-y分別視為為1和為0的概率,則有P59(3.23)(3.24)作業(yè)有相關(guān)內(nèi)容。熵模型:百度內(nèi)容:給定一個概率分布,則熵的定義為:Hp=?p(*)logp(*)放到作業(yè)中即-plnq大致意思是要求一個函數(shù)的最小值就取它的負,這樣反過來求它的最大值。線性判別分析:是一種經(jīng)典的線性學(xué)習(xí)方法,再二分類問題上提出。簡稱LDA:給定訓(xùn)練集例集,設(shè)法將樣例投影到一條直線上,使得同類的樣例的投影盡可能得靠近,異類樣例盡可能遠離;對新樣本進行分析時,將樣本投影到這條直線上,再根據(jù)位置判斷類別??焖倥袛嗍欠窨梢跃€性可分:將兩類樣本包起來,類似連接每類樣例的最外層樣本,形成一個封閉的圖形,如果兩個類別不重疊,則可以線性可分,反之不可。多類別學(xué)習(xí):有些二分類學(xué)習(xí)方法可直接推廣到多分類,但是再更多情形下,我們是基于一些基本策略,利用二類學(xué)習(xí)器來解決多分類問題。即多次利用二分類來解決多分類。最經(jīng)典的拆分策略有三種:"一對一”(OvO),"一對其余”(OvR)和"多對多”(MvM)。OvR只需要N個分類器,OvO需要N(N-1)/2個分類器。通常,OvO的存儲開銷和測試時間開銷比OvR更大,但是OvO每次只用到兩類樣例,OvR則是全部樣例。所以在類別多的的情況下OvO的訓(xùn)練時間開銷通常比OvR更小。取決于具體數(shù)據(jù)分布。P64圖3.4(大題)信息增益:信息熵:是度量樣本集合純度最常用的一種指標(biāo)。集合D的信息熵定義為Ent(D)值越小表示純度越高。神經(jīng)元模型:"M-P神經(jīng)元模型”P97圖5.1*i為輸入y為輸出Wi為對應(yīng)*i的連接權(quán)重激勵函數(shù):類似神經(jīng)傳播,當(dāng)一個電位超過一定值,則激活神經(jīng)元,從而進行再傳遞。類似地接收到帶權(quán)重地輸入信號,將總輸入值和閥值進行比較,然后通過"激勵函數(shù)”處理產(chǎn)生輸出。所以這里地激勵函數(shù)最好是躍階函數(shù)(即只有y=1或y=0)但是實際用Sigmoid函數(shù)將值壓縮在0-1之間。(1表示興奮,0表示抑制)把許多個這樣地神經(jīng)元按一定地層次結(jié)構(gòu)連接起來,就得到了神經(jīng)網(wǎng)絡(luò)。感知機和多層網(wǎng)絡(luò):要求會計算"與”、"或”、"非”:這里用躍階函數(shù)計算。wi和θ的值是可變化的,設(shè)定值后。帶入*1和*2計算,達到*1與*2*1或*2非*的效果。y=f(Σiwi**i-θ)深度學(xué)習(xí):"深”在哪里?參數(shù)越多、"容量”越大、復(fù)雜模型典型的深度學(xué)習(xí)模型就是很深層的神經(jīng)網(wǎng)絡(luò),顯然,對神經(jīng)網(wǎng)絡(luò)模型,提高容量的一個簡單辦法是增加隱層的數(shù)目=>隱層數(shù)目大。"多隱層”是指三個及以上隱層。深度學(xué)習(xí)通常有八九層甚至更多隱層。支持向量機:兩大重點:最大間隔、核技巧在樣本空間中,劃分超平面可通過如下線性方程描述:wT*+b=0間隔:距離超平面最近的幾個訓(xùn)練樣本點中,兩個異類支持向量到超平面的距離之和稱為"間隔”。最大間隔:找到滿足式子P122(6.3)中約束的參數(shù)w和b,使得間隔最大。支持向量機(SVM)的基本型:P123(6.6)函數(shù)間隔:實際上是|wT*+b|,函數(shù)間隔代表了我們認為特征是正例還是反例的確信度。針對全局樣本的定義的函數(shù)間隔:意思就是找到訓(xùn)練樣本中函數(shù)間隔最小的那個樣本,并且要讓它的函數(shù)間隔最大。幾何間隔:幾何間隔首先簡單一點說就是點到直線距離。在式子中的表現(xiàn)為||w||。硬間隔:要求所有樣本均滿足約束。P122(6.3)軟間隔:允許*些樣本不滿足約束。P130(6.28)常用的"軟間隔支持向量機”在P130P131min和s.t.部分。線性間隔:不需要升維,就可以找到一個超平面將訓(xùn)練樣本正確分類。非線性間隔:需要升維,才能將訓(xùn)練樣本分類。組合,有線性軟間隔、線性硬間隔、非線性軟間隔、非線性硬間隔。對偶問題:作業(yè)大題。主要還是求偏導(dǎo)。因為在解對偶問題時,有用到二次規(guī)劃算法,該問題的規(guī)模正比于訓(xùn)練樣本數(shù),這會在實際任務(wù)中造成很大的開銷。為了避開這個障礙,人們通過利用問題本身的特性,提出了很多高效算法,SMO(SequentialMinimalOptimization)是其中一個著名的代表。核函數(shù):在樣本無法線性可分的情況下,可以將原始空間映射到一個更高維的特征空間,使得樣本在這個空間內(nèi)線性可分。在將其轉(zhuǎn)換為對偶問題時??梢栽O(shè)想一個函數(shù)k(*i,*j)用來計算*i與*j在特征空間的內(nèi)積。這函數(shù)稱為"核函數(shù)”,這一方法稱為"核技巧”。核方法:是解決非線性問題模式分析問題的一種有效途徑,其核心思想是:首先,通過*種非線性映射將原始數(shù)據(jù)嵌入到合適的高維特征空間;然后,利用通用的線性學(xué)習(xí)器在這個新的空間中分析和處理模式。其表現(xiàn)形式:P137(6.58)高斯核:高斯核函數(shù)(Gaussiankernel),也稱徑向基(RBF)函數(shù),是常用的一種核函數(shù)。它可以將有限維數(shù)據(jù)映射到高維空間,我們來看一下高斯核函數(shù)的定義:上述公式涉及到兩個向量的歐式距離(2范數(shù))計算,而且,高斯核函數(shù)是兩個向量歐式距離的單調(diào)函數(shù)。σσ是帶寬,控制徑向作用范圍,換句話說,σσ控制高斯核函數(shù)的局部作用范圍。當(dāng)**和*′*′的歐式距離處于*一個區(qū)間范圍內(nèi)的時候,假設(shè)固定*′*′,k(*,*′)k(*,*′)隨*的變化而變化的相當(dāng)顯著。從二十世紀(jì)二三十年代開始出現(xiàn)了頻率主義學(xué)派和貝葉斯學(xué)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 五年級上冊數(shù)學(xué)教學(xué)設(shè)計-第三單元第1課時 因數(shù)與倍數(shù) 北師大版
- 一年級下冊數(shù)學(xué)教案-綜合實踐 趣味拼擺| 青島版(五四學(xué)制)
- 學(xué)習(xí)2025年雷鋒精神六十二周年主題活動實施方案 (3份)-54
- 2025年河南測繪職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫帶答案
- 2025年廣西安全工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫含答案
- 2025年廣東金融學(xué)院單招職業(yè)適應(yīng)性測試題庫完整
- 2025年貴州航天職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫一套
- 2025福建省安全員考試題庫及答案
- 2025年度幼兒園教職工被辭退勞動權(quán)益保護合同
- 2025年度幼兒園實習(xí)教師培養(yǎng)與就業(yè)服務(wù)協(xié)議
- 二年級下冊計算小能手帶答案
- 2024年臨滄市工業(yè)產(chǎn)業(yè)發(fā)展集團限公司招聘2名公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 2023年3月云南專升本大??肌堵糜螌W(xué)概論》試題及答案
- 一年級趣味數(shù)學(xué)幾和第幾
- 2024年西安電力高等??茖W(xué)校單招職業(yè)技能測試題庫及答案解析
- 2024年中國科學(xué)技術(shù)大學(xué)創(chuàng)新班物理試題答案詳解
- 方案優(yōu)缺點對比表模板
- 中職數(shù)學(xué)基礎(chǔ)模塊上冊學(xué)業(yè)水平考試第四章三角函數(shù)單元測試及參考答案
- 數(shù)據(jù)真實性承諾書
- 山東信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試參考試題庫(含答案)
- 充電站風(fēng)險管理的法律法規(guī)研究
評論
0/150
提交評論