




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、通過本篇文章可以對(duì)ML的常用算法有個(gè)常識(shí)性的認(rèn)識(shí),沒有代碼,沒有復(fù)雜的理論推導(dǎo),就是圖解一下,知道這些算法是什么,它們是怎么應(yīng)用的,例子主要是分類問題。每個(gè)算法都看了好幾個(gè)視頻,挑出講的最清晰明了有趣的,便于科普。以后有時(shí)間再對(duì)單個(gè)算法做深入地解析。今天的算法如下:1. 決策樹2. 隨機(jī)森林算法3. 邏輯回歸4. SVM5. 樸素貝葉斯6. K最近鄰算法7. K均值算法8. Adaboost 算法9. 神經(jīng)網(wǎng)絡(luò)10. 馬爾可夫1. 決策樹根據(jù)一些 feature 進(jìn)行分類,每個(gè)節(jié)點(diǎn)提一個(gè)問題,通過判斷,將數(shù)據(jù)分為兩類,再繼續(xù)提問。這些問題是根據(jù)已有數(shù)據(jù)學(xué)習(xí)出來的,再投入新數(shù)據(jù)的時(shí)候,就可以根據(jù)
2、這棵樹上的問題,將數(shù)據(jù)劃分到合適的葉子上。2. 隨機(jī)森林視頻在源數(shù)據(jù)中隨機(jī)選取數(shù)據(jù),組成幾個(gè)子集S 矩陣是源數(shù)據(jù),有 1-N 條數(shù)據(jù),A B C 是feature,最后一列C是類別由 S 隨機(jī)生成 M 個(gè)子矩陣這 M 個(gè)子集得到 M 個(gè)決策樹將新數(shù)據(jù)投入到這 M 個(gè)樹中,得到 M 個(gè)分類結(jié)果,計(jì)數(shù)看預(yù)測(cè)成哪一類的數(shù)目最多,就將此類別作為最后的預(yù)測(cè)結(jié)果3. 邏輯回歸視頻當(dāng)預(yù)測(cè)目標(biāo)是概率這樣的,值域需要滿足大于等于0,小于等于1的,這個(gè)時(shí)候單純的線性模型是做不到的,因?yàn)樵诙x域不在某個(gè)范圍之內(nèi)時(shí),值域也超出了規(guī)定區(qū)間。所以此時(shí)需要這樣的形狀的模型會(huì)比較好那么怎么得到這樣的模型呢?這個(gè)模型需要滿足兩
3、個(gè)條件 大于等于0,小于等于1大于等于0 的模型可以選擇 絕對(duì)值,平方值,這里用 指數(shù)函數(shù),一定大于0小于等于1 用除法,分子是自己,分母是自身加上1,那一定是小于1的了再做一下變形,就得到了 logistic regression 模型通過源數(shù)據(jù)計(jì)算可以得到相應(yīng)的系數(shù)了最后得到 logistic 的圖形4. SVMsupport vector machine要將兩類分開,想要得到一個(gè)超平面,最優(yōu)的超平面是到兩類的 margin 達(dá)到最大,margin就是超平面與離它最近一點(diǎn)的距離,如下圖,Z2>Z1,所以綠色的超平面比較好將這個(gè)超平面表示成一個(gè)線性方程,在線上方的一類,都大于等于1,另
4、一類小于等于1點(diǎn)到面的距離根據(jù)圖中的公式計(jì)算所以得到 total margin 的表達(dá)式如下,目標(biāo)是最大化這個(gè) margin,就需要最小化分母,于是變成了一個(gè)優(yōu)化問題舉個(gè)栗子,三個(gè)點(diǎn),找到最優(yōu)的超平面,定義了 weight vector(2,3)(1,1)得到 weight vector 為(a,2a),將兩個(gè)點(diǎn)代入方程,代入(2,3)另其值1,代入(1,1)另其值-1,求解出 a 和 截矩 w0 的值,進(jìn)而得到超平面的表達(dá)式。a 求出來后,代入(a,2a)得到的就是 support vectora 和 w0 代入超平面的方程就是 support vector machine5. 樸素貝葉斯視
5、頻舉個(gè)在 NLP 的應(yīng)用給一段文字,返回情感分類,這段文字的態(tài)度是positive,還是negative為了解決這個(gè)問題,可以只看其中的一些單詞這段文字,將僅由一些單詞和它們的計(jì)數(shù)代表原始問題是:給你一句話,它屬于哪一類通過 bayes rules 變成一個(gè)比較簡(jiǎn)單容易求得的問題問題變成,這一類中這句話出現(xiàn)的概率是多少,當(dāng)然,別忘了公式里的另外兩個(gè)概率栗子:?jiǎn)卧~ love 在 positive 的情況下出現(xiàn)的概率是 0.1,在 negative 的情況下出現(xiàn)的概率是 0.0016. K最近鄰視頻k nearest neighbours給一個(gè)新的數(shù)據(jù)時(shí),離它最近的 k 個(gè)點(diǎn)中,哪個(gè)類別多,這個(gè)數(shù)
6、據(jù)就屬于哪一類栗子:要區(qū)分 貓 和 狗,通過 claws 和 sound 兩個(gè)feature來判斷的話,圓形和三角形是已知分類的了,那么這個(gè) star 代表的是哪一類呢k3時(shí),這三條線鏈接的點(diǎn)就是最近的三個(gè)點(diǎn),那么圓形多一些,所以這個(gè)star就是屬于貓7. K均值視頻想要將一組數(shù)據(jù),分為三類,粉色數(shù)值大,黃色數(shù)值小最開心先初始化,這里面選了最簡(jiǎn)單的 3,2,1 作為各類的初始值剩下的數(shù)據(jù)里,每個(gè)都與三個(gè)初始值計(jì)算距離,然后歸類到離它最近的初始值所在類別分好類后,計(jì)算每一類的平均值,作為新一輪的中心點(diǎn)幾輪之后,分組不再變化了,就可以停止了8. Adaboost視頻adaboost 是 bosti
7、ng 的方法之一bosting就是把若干個(gè)分類效果并不好的分類器綜合起來考慮,會(huì)得到一個(gè)效果比較好的分類器。下圖,左右兩個(gè)決策樹,單個(gè)看是效果不怎么好的,但是把同樣的數(shù)據(jù)投入進(jìn)去,把兩個(gè)結(jié)果加起來考慮,就會(huì)增加可信度adaboost 的栗子,手寫識(shí)別中,在畫板上可以抓取到很多 features,例如 始點(diǎn)的方向,始點(diǎn)和終點(diǎn)的距離等等training 的時(shí)候,會(huì)得到每個(gè) feature 的 weight,例如 2 和 3 的開頭部分很像,這個(gè) feature 對(duì)分類起到的作用很小,它的權(quán)重也就會(huì)較小而這個(gè) alpha 角 就具有很強(qiáng)的識(shí)別性,這個(gè) feature 的權(quán)重就會(huì)較大,最后的預(yù)測(cè)結(jié)果是
8、綜合考慮這些 feature 的結(jié)果9. 神經(jīng)網(wǎng)絡(luò)視頻Neural Networks 適合一個(gè)input可能落入至少兩個(gè)類別里NN 由若干層神經(jīng)元,和它們之間的聯(lián)系組成第一層是 input 層,最后一層是 output 層在 hidden 層 和 output 層都有自己的 classifierinput 輸入到網(wǎng)絡(luò)中,被激活,計(jì)算的分?jǐn)?shù)被傳遞到下一層,激活后面的神經(jīng)層,最后output 層的節(jié)點(diǎn)上的分?jǐn)?shù)代表屬于各類的分?jǐn)?shù),下圖例子得到分類結(jié)果為 class 1同樣的 input 被傳輸?shù)讲煌墓?jié)點(diǎn)上,之所以會(huì)得到不同的結(jié)果是因?yàn)楦髯怨?jié)點(diǎn)有不同的weights 和 bias這也就是 forward propagation10. 馬爾可夫視頻Markov Chains 由 state 和 transitions 組成栗子,根據(jù)這一句話 the quick brown fox jumps over the lazy dog,要得到 ma
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 運(yùn)動(dòng)服裝生產(chǎn)中的快速響應(yīng)生產(chǎn)模式考核試卷
- 草原割草與草地碳氮平衡考核試卷
- 紙品加工技術(shù)考核試卷
- 實(shí)踐中遇到的嵌入式問題試題及答案
- 碳酸飲料配方設(shè)計(jì)考核試卷
- 數(shù)據(jù)庫性能監(jiān)控的關(guān)鍵指標(biāo)試題及答案
- 公路工程資本運(yùn)作試題及答案
- 納米技術(shù)在印刷包裝中的應(yīng)用考核試卷
- 行政組織理論的統(tǒng)計(jì)分析方法及2025年試題及答案
- 嵌入式技術(shù)的改進(jìn)與趨勢(shì)試題及答案
- 眼球的結(jié)構(gòu)與功能
- 《社會(huì)主義制度在中國(guó)的確立》示范課教學(xué)設(shè)計(jì)【高中思想政治人教版必修1中國(guó)特色社會(huì)主義】
- 立方米臥式濃硫酸儲(chǔ)罐設(shè)計(jì)
- 三乙胺安全標(biāo)簽
- GB/T 4490-2021織物芯輸送帶寬度和長(zhǎng)度
- GB/T 28650-2012公路防撞桶
- GB/T 17793-1999一般用途的加工銅及銅合金板帶材外形尺寸及允許偏差
- ICU常見檢查項(xiàng)目及課件
- 土地荒漠化的防治(公開課)課件
- MSA量測(cè)系統(tǒng)分析RMSA量測(cè)系統(tǒng)分析課件
- 中考備考應(yīng)對(duì)中考?xì)v史學(xué)科的復(fù)習(xí)策略和解題技巧課件
評(píng)論
0/150
提交評(píng)論