版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
MACHINELEARNING機器學習第1章機器學習概述1.1什么是機器學習1.2
機器學習的一般形式1.3機器學習的分類of4121.4機器學習過程1.5機器學習解決的問題1.6常用機器學習模型舉例第1章機器學習概述of4131.1什么是機器學習第1章機器學習概述of414機器學習(MachineLearning):人工智能的一個子學科,研究人工智能領域的基本算法、原理、思想方法,機器學習研究的內容在其它子學科都會用到??突仿〈髮W機器學習和人工智能教授湯姆.米切爾(TomMitchell)在他的經典教材《機器學習》中,給出了更為具體的定義:對于某類任務(Task,簡稱T)和某項性能評價準則(Performance,簡稱P),如果一個計算機在程序T上,以P作為性能度量,隨著經驗(Experience,簡稱E)的積累,不斷自我完善,那么我們稱計算機程序從經驗E中進行了學習。例如,射擊運動員的訓練過程:射擊標靶(任務T),以準確率為性能度量(P),隨著不斷練習(經驗E),準確率不斷提高,這個過程稱為學習。1.1什么是機器學習第1章機器學習概述of4151、建模所謂機器學習,在形式上可近似等同于在數據對象中通過統(tǒng)計、推理的方法,來尋找一個接受特定輸入X,并給出預期輸出Y功能函數f,即Y=f(x)這個函數以及確定函數的參數被稱為模型2、評估針對已知的輸入,函數給出的輸出(預測值)與實際輸出(目標值)之間存在一定誤差,因此需要構建一個評估體系,根據誤差大小判定函數的優(yōu)劣
3、優(yōu)化學習的核心在與改善性能,通過數據對算法的反復錘煉,不斷提升函數預測的準確性,直至獲得能夠滿足實際需求的最優(yōu)解,這個過程就是機器學習1.2機器學習的形式第1章機器學習概述of416在已知數據輸出(經過標注的)的情況下對模型進行訓練,根據輸出進行調整、優(yōu)化的學習方式稱為有監(jiān)督學習1.3機器學習的分類1、有監(jiān)督學習第1章機器學習概述of417沒有已知輸出的情況下,僅僅根據輸入信息的相關性,進行類別的劃分1.3機器學習的分類2、無監(jiān)督學習第1章機器學習概述of418先通過無監(jiān)督學習劃分類別,再人工標記通過有監(jiān)督學習方式來預測輸出.例如先對相似的水果進行聚類,再識別是哪個類別
1.3機器學習的分類3、半監(jiān)督學習第1章機器學習概述of419通過對不同決策結果的獎勵、懲罰,使機器學習系統(tǒng)在經過足夠長時間的訓練以后,越來越傾向于接近期望結果的輸出
1.3機器學習的分類4、強化學習將學習過程和應用過程分開,用全部訓練數據訓練模型,然后再在應用場景中進行預測,當預測結果不夠理想時,重新回到學習過程,如此循環(huán)
5、批量學習將學習過程和應用過程統(tǒng)一起來,在應用的同時,以增量的方式不斷學習新的內容,邊訓練、邊預測
6、增量學習第1章機器學習概述of4110根據樣本數據,建立用于聯系輸入和輸出的某種數學模型,將待預測輸入帶入該模型,預測其結果
1.3機器學習的分類7、基于模型學習根據以往經驗,尋找與待預測輸入最接近的樣本,以其輸出作為預測結果(從數據中找答案)
8、基于實例學習第1章機器學習概述of41111、數據采集:手段如手工采集、設備自動化采集、爬蟲等2、數據清洗:數據規(guī)范化,具有較大誤差的、沒有意義的數據進行清理3、選擇模型(算法)4、訓練模型5、模型評估6、測試模型7、應用模型8、模型維護1.4機器學習的過程第1章機器學習概述of4112根據已知的輸入和輸出,尋找某種性能最佳的模型,將未知輸出的輸入代入模型,得到連續(xù)的輸出。根據房屋面積、地段、修建年代以及其它條件預測房屋價格根據各種外部條件預測某支股票的價格根據農業(yè)、氣象等數據預測糧食收成計算兩個人臉的相似度1.5機器學習解決的問題1、回歸問題第1章機器學習概述of4113問題根據已知的輸入和輸出,尋找性能最佳的模型,將未知輸出的輸入帶入模型,得到離散的輸出,例如:手寫體識別(10個類別分類問題)水果、鮮花、動物識別工業(yè)產品瑕疵檢測(良品、次品二分類問題)識別一個句子表達的情緒(正面、負面、中性)1.5機器學習解決的問題2、分類問題第1章機器學習概述of4114根據已知輸入的相似程度,將其劃分為不同的群落,例如:根據一批麥粒的數據,判斷哪些屬于同一個品種根據客戶在電商網站的瀏覽和購買歷史,判斷哪些客戶對某件商品感興趣判斷哪些客戶具有更高的相似度1.5機器學習解決的問題3、聚類問題在性能損失盡可能小的情況下,降低數據的復雜度,數據規(guī)??s小都稱為降維問題.4、降維問題第1章機器學習概述of4115一棟600平方英尺(約56m2)的房子,價格是220000英鎊(約1942578元)。這個房子的確很不錯,但是它并不滿足你的要求——你將和你的家人一同居住,而這個房子面積太小,并不能讓每個人都住得舒適。所以,你繼續(xù)研究并找到一棟1700平方英尺(約158m2)的房子,價格是730000英鎊(約6445827元)。這個房子滿足你的要求,但是它的價格有些超出你現在的預算——你的預算與小面積房子的價格相比要高一些,但也不像大房子的價格那么高。然而,只有當你與業(yè)主或代理人見面并提交詳細資料后,才能得到房子的實際價格。但是你并不想與每一個業(yè)主或者代理人見面。
1.6常用機器學習模型舉例1、線性回歸第1章機器學習概述of4116找到一棟面積在這兩棟房子之間的房子。這棟新房子的面積大約有1250平方英尺(約116m2),但你還不知道價格。所以,你想預測房子的價格,看其是否符合預算和要求。將新房子的信息放在同一個二維平面上,試著預測這個房子的價格。1.6常用機器學習模型舉例1、線性回歸第1章機器學習概述of4117為了預測房屋的價格,將設置一條符合已知結果(即房屋價格和房屋面積)的直線,這里得到了一條直線。1.6常用機器學習模型舉例1、線性回歸第1章機器學習概述of4118通過這條直線,可以預測出1250平方英尺(約116m2)的房子的價格是475000英鎊(約4194202.5元)。所以,我們得到了一條根據房子面積來預測房子價格的直線,這種技術稱為線性回歸(LinearRegression)??梢园堰@種技術理解為在現有數據點上尋找最佳直線。比如,計算3個點到直線距離之和的最小值。首先,隨機選擇一條線,直線上方有A、B、C共3個點1.6常用機器學習模型舉例1、線性回歸第1章機器學習概述of4119計算每個點到直線的距離可以得到總距離是a+b+c?,F在,移動直線的位置(向下移動)并再次計算點到直線的距離改變了線的位置,但總距離a+b+c增加了。顯然,這不是我們想要的結果。讓我們將直線朝另一個方向(向上移動)移動1.6常用機器學習模型舉例1、線性回歸第1章機器學習概述of4120這條直線比第一條直線要更符合要求?,F在移動這條線,并試著重復進行同樣的步驟。最終通過這種方式結束直線的選擇,從而確定直線位置對于給定的3個點(A、B、C)來說,下圖所示的直線是最符合條件的。在這里取3個點到直線的非負距離,找到這條線的方法稱為梯度下降法1.6常用機器學習模型舉例1、線性回歸第1章機器學習概述of4121有時在所有數據點上擬合一條直線并沒有多大意義,如果嘗試使用線性回歸技術來擬合一條直線。1.6常用機器學習模型舉例2、多項式回歸第1章機器學習概述of4122上圖直線不適合用來預測。相反,曲線來對數據建模更合適。這就是所謂的多項式回歸(PolynomialRegression)
——因為其參數是多項式1.6常用機器學習模型舉例2、多項式回歸第1章機器學習概述of4123有一個售鞋網站,其中包含來自不同公司的各種鞋子,可以通過其網上商店訂購鞋子。鞋子成功交付后,公司將發(fā)送電子郵件獲取顧客的反饋。顧客在評論區(qū)內留言,其中有些評論是正面的,有些評論則是負面的。該公司每天銷售數千雙鞋,需要跟蹤每一個評論并采取相應的行動。如果顧客評論說鞋子質量不佳,則需向生產商詢問有關產品的質量問題;有些鞋子反響很好,則最好將它們放在網站的首頁。為了解決這個問題,首先需要從一組顧客評論開始,將每個評論分為負面評論或者正面評論,下面給出部分示例。1.6常用機器學習模型舉例3、樸素貝葉斯分類器(Na?veBayesClassifier)第1章機器學習概述of4124正面評論A1:質量不錯!我很喜歡這雙鞋子。A2:非常好的產品。A3:給我爸爸買的,他很喜歡。負面評論B1:材質不好,不適合。B2:很不喜歡這個產品,包裝也很不好。B3:千萬不要買這個產品。分析示例中的正面評論和負面評論,會發(fā)現,如果評論中包含“喜歡”這個詞,那么它更可能是一個正面評論。因此,創(chuàng)建這條規(guī)則并檢查所有數據集,會發(fā)現60%的正面評論中包含“喜歡”這個詞;另一方面,只有10%的負面評論中包含“喜歡”這個詞1.6常用機器學習模型舉例3、樸素貝葉斯分類器(Na?veBayesClassifier)第1章機器學習概述of4125其他詞語所占的比例如表因此,對于將來可能獲得的評論,根據其所包含的詞的復合概率,可以判定該評論是正面評論還是負面評論,這就是樸素貝葉斯分類器(Na?veBayesClassifier)1.6常用機器學習模型舉例3、樸素貝葉斯分類器(Na?veBayesClassifier)第1章機器學習概述of4126一個向不同的人推薦雜志的例子。假設已經記錄了用戶的年齡、性別、位置以及他們閱讀的雜志類型1.6常用機器學習模型舉例4、決策樹第1章機器學習概述of4127現在,通過對這些數據進行觀察,可以發(fā)現小于15歲的人喜歡閱讀兒童雜志。根據其制作一個節(jié)點和它的決策。每個圓節(jié)點表示決策節(jié)點,圖的邊緣(箭頭)則表示相應的決策,每個矩形節(jié)點表示通過圖分支之后采取的決策。1.6常用機器學習模型舉例4、決策樹第1章機器學習概述of4128可以說每個年齡小于或等于15歲的人都有可能閱讀兒童雜志?,F在再來處理大于15歲的讀者的分支?,F在,第二個觀察特征是男性,他們喜歡閱讀政治雜志。為其創(chuàng)建相同的決策節(jié)點和分支1.6常用機器學習模型舉例4、決策樹第1章機器學習概述of4129需要看一下年齡在15歲以上的女性的選擇。還有一個信息可以利用——地區(qū)。因此,可以說,來自美國的女性喜歡閱讀體育雜志,而其他地區(qū)的女性則喜歡商業(yè)雜志。1.6常用機器學習模型舉例4、決策樹第1章機器學習概述of4130正確地對每個數據點進行分類,這個過程中形成了決策樹??赡艽嬖诙喾N創(chuàng)建決策樹的方法。根據現有的數據,這些方法可以做出正確的預測。1.6常用機器學習模型舉例4、決策樹第1章機器學習概述of4131有幾個人每年申請貸款,銀行根據他們的收入和貸款額從而決定是否對其提供貸款,目標是向那些在規(guī)定時間內償還債務,且沒有任何違約的人提供貸款。如果一個人月收入是20000美元,他申請了100000美元的貸款,銀行根據他的收入來源可以批準貸款;如果一個人月收入是3000美元,他申請了600000美元的貸款,則銀行可能會早早地拒絕他。1.6常用機器學習模型舉例5、邏輯回歸第1章機器學習概述of4132因此,銀行基于以往違約者的歷史創(chuàng)建了一個數據散點圖。紅點表示銀行拒絕受理的申請,綠點表示銀行批準的申請。橫坐標是請求的貸款額度,縱坐標是月收入。1.6常用機器學習模型舉例5、邏輯回歸第1章機器學習概述of4133現在,一個月收入20000美元的人想要貸款300000美元,銀行是否會給予批準呢?可以通過一條直線來分割數據。1.6常用機器學習模型舉例5、邏輯回歸第1章機器學習概述of4134根據上面的直線,可以預測銀行將同意月薪20000美元的人申請300000美元的貸款申請?,F在,已經有一條合適的直線來分割現有的數據點。我們使用的算法(梯度下降法)與在線性回歸過程中使用的算法相同。在這里,目標變量是類別而不是在線性回歸情況下連續(xù)的預測值,這種技術稱為邏輯回歸(LogisticsRegression)。1.6常用機器學習模型舉例5、邏輯回歸第1章機器學習概述of4135接上面例子,現在銀行來了一位新的經理,他要檢查所有記錄,他認為銀行批準或拒絕貸款申請的參數是荒謬的,一些像10000美元或20000美元的貸款申請并沒有風險,銀行可以同意這部分貸款申請。所以,他改變了規(guī)則和數據。1.6常用機器學習模型舉例6、神經網絡第1章機器學習概述of4136僅僅使用一條直線并不能將紅點和綠點分開,可以用兩條線把數據分開。1.6常用機器學習模型舉例6、神經網絡第1章機器學習概述of4137與一條直線相比,使用兩條直線可以將紅點和綠點分開。這種技術被稱為神經網絡(NeuralNetwork)。神經網絡是基于大腦中的神經元的概念提出的。大腦中的神經元收集信息并將其傳遞給其他神經元。簡單來說,就是基于先前神經元的輸入,下一個神經元接收要求并決定輸出,它還將信息傳遞給其他神經元。最后,通過處理不同的神經元,大腦做出決定。1.6常用機器學習模型舉例6、神經網絡第1章機器學習概述of4138兩個神經元通過使用不同的假設建立模型,并且將它們的發(fā)現發(fā)送給另一個神經元。根據收集到的信息,輸出神經元做出決策。1.6常用機器學習模型舉例6、神經網絡第1章機器學習概述of4139在處理數據時,對于一條分割數據點的直線,可能有不同的選擇。與直線1相比,直線2的邊距更大,其在分割數據方面似乎更好。要尋找最佳分割路線,而梯度下降并不能解決這個問題,需要線性優(yōu)化才能實現。這種技術被稱為最大間隔分類器或支持向量機(SupportVectorMachine,SVM)1.6常用機器學習模型舉例7、支持向量機第1章機器學習概述在現實世界中,數據并不能完全分割開。所以,不能通過一條直線就把紅點和綠點分開。但是如果通過一個平面來區(qū)分紅點和綠點,就可以用一個分類器對它們進行分類。創(chuàng)建一個新的維度并用這個平面來分割紅點和綠點。使用一個新的維度將紅點和綠點分開。這種技術被稱為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國自動焊劑焊條烘箱數據監(jiān)測研究報告
- 2025至2030年中國潔膚精油數據監(jiān)測研究報告
- 2025至2030年中國平面趟門數據監(jiān)測研究報告
- 2025年中國神衰果素片市場調查研究報告
- 2025年中國可控流量型磷化氫熏蒸機市場調查研究報告
- 2025至2031年中國聚四氟乙烯再生粉行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國現場壓力變送器行業(yè)投資前景及策略咨詢研究報告
- 新型基礎設施建設對城市經濟韌性的影響研究
- 2025年度建筑工地專用鋼釘鐵釘租賃合同4篇
- 2025年度存量房買賣資金監(jiān)管服務合同4篇
- 【語文】第23課《“蛟龍”探?!氛n件 2024-2025學年統(tǒng)編版語文七年級下冊
- 加強教師隊伍建設教師領域學習二十屆三中全會精神專題課
- 2024-2025學年人教版數學七年級上冊期末復習卷(含答案)
- 2024年決戰(zhàn)行測5000題言語理解與表達(培優(yōu)b卷)
- 四年級數學上冊人教版24秋《小學學霸單元期末標準卷》考前專項沖刺訓練
- 中國游戲發(fā)展史課件
- 2025年慢性阻塞性肺疾病全球創(chuàng)議GOLD指南修訂解讀課件
- (完整版)減數分裂課件
- 銀行辦公大樓物業(yè)服務投標方案投標文件(技術方案)
- 第01講 直線的方程(九大題型)(練習)
- 微粒貸逾期還款協(xié)議書范本
評論
0/150
提交評論