第5章機器學習_第1頁
第5章機器學習_第2頁
第5章機器學習_第3頁
第5章機器學習_第4頁
第5章機器學習_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第五章機器學習人工智能概論目錄人工智能相關概念5.1機器學習與機器智能

5.1.1機器學習的基本概念

5.1.2機器學習的發(fā)展歷史

5.1.3學習系統(tǒng)的基本模型5.2機器學習的類型和應用5.3監(jiān)督學習與無監(jiān)督學習

5.3.1支持向量機

5.3.2k-最近鄰分類

5.3.3樸素貝葉斯分類器

5.3.4集成分類—Bagging算法、隨機森林算法與Boosting算法

5.3.5k-均值聚類算法5.4小結5.1機器學習與機器智能概念機器學習(machinelearning)通俗地說就是研究如何用機器來模擬人類的學習活動,以使機器能夠更好地幫助人類。通過對人類學習過程和特點的研究,建立學習理論和方法,并應用于機器,以改進機器的行為和性能,提高機器解決問題的能力。人工智能基礎5.1.1機器學習的基本概念人工智能基礎機器學習需要滿足的條件首先,它必須具備自主或主動獲取和處理知識的能力。主動獲取知識是機器智能的瓶頸問題。機器學習的理想目標是讓機器能夠通過閱覽書本、與人談話、觀察環(huán)境等自然方式獲取知識。其次,它必須具備主動識別事物和模式分類能力。更重要的是,它還必須具備通過少數(shù)數(shù)據(jù)、樣本進行抽象、概括、歸納,并從中發(fā)現(xiàn)關系、規(guī)律、模式等的能力。最后,它必須具備常識學習能力。也就是說,機器必須像人一樣掌握常識進而形成知識。如果能夠滿足上述條件,機器就可以達到人類的智能程度。5.1.1機器學習的基本概念人工智能基礎機器學習的目機器學習的目的就是專門研究機器(主要是計算機)怎樣模擬或?qū)崿F(xiàn)學習能力,以獲取新的知識或技能,重新組織已有的知識結構,不斷改善自身的性能,從而實現(xiàn)機器智能。機器學習是使計算機等機器具有智能的重要途徑之一。5.1.1機器學習的基本概念人工智能基礎機器學習的研究工作機器學習的研究工作主要從這3個方面進行一是認知模型的研究,通過對人類學習機理的研究和模擬,從根本上解決機器學習方面存在的種種問題三是面向任務的研究,主要目的是根據(jù)特定任務的要求建立相應的學習系統(tǒng)二是理論學習的研究,從理論上探索各種可能的學習方法,并建立起獨立于具體應用領域的學習算法、5.1.2機器學習的發(fā)展歷史

機器學習是計算機科學的子領域,也是人工智能的一個分支和實現(xiàn)方式。起源可以追溯到20世紀50年代以來人工智能的符號演算、邏輯推理、自動機模型、啟發(fā)式搜索、模糊數(shù)學、專家系統(tǒng)以及神經(jīng)網(wǎng)絡的反向傳播BP算法等。機器學習的發(fā)展分為知識推理期、知識工程期、淺層學習(shallowlearning)和深度學習(deeplearning)幾個階段。、5.1.3學習系統(tǒng)的基本模型學習系統(tǒng)的基本模型結構

機器學習的系統(tǒng)模型可以簡單地表示成上圖所示的形式,在宏觀上它是一個有反饋的系統(tǒng)。機器學習的實現(xiàn)依賴于學習系統(tǒng),學習系統(tǒng)能夠利用過去與環(huán)境作用時得到的信息并提高自身的性能。、5.1.3學習系統(tǒng)的基本模型

從學習系統(tǒng)的基本模型結構可以看出,學習系統(tǒng)不僅與環(huán)境和知識庫有關,而且還包含學習與執(zhí)行兩個環(huán)節(jié)。

學習系統(tǒng)中的環(huán)境是指學習系統(tǒng)進行學習時的信息來源。學習環(huán)節(jié)是機器先從環(huán)境獲取外部信息,然后通過對獲取信息的分析、綜合、類比和歸納等過程形成知識,所生成的知識被放入知識庫,即學習是將外界信息加工成知識的過程。知識庫是以某種形式表示的知識的集合,用來存放學習環(huán)節(jié)所得的知識。執(zhí)行環(huán)節(jié)是利用知識庫中的知識完成某種任務的過程,并把完成任務過程中所獲得的一些信息反饋給學習環(huán)節(jié),以提高學習性能。、5.1.3學習系統(tǒng)的基本模型

適當?shù)膶W習環(huán)境是建立學習系統(tǒng)模型的第一重要因素,環(huán)境所提供的信息水平與質(zhì)量都影響著機器的性能。即如果沒有很好的環(huán)境,提供的信息雜亂無章,則學習部分不容易處理,必須從足夠的數(shù)據(jù)中提取原則,然后放入知識庫中,這增加了學習環(huán)境的設計負擔。、5.1.3學習系統(tǒng)的基本模型

知識庫是設計學習系統(tǒng)的另一重要因素,常用的知識表示有多種,如謂詞、產(chǎn)生式、語義網(wǎng)絡等。選擇合適的表示方法也是很重要的,選擇表示方法時,應當遵循以下一些原則:其一,所選擇的表示法要能夠很好地表達相關的知識,因為不同的知識表示方法適用于不同的對象;其二,盡可能地使得推理容易些;其三,要考慮知識庫的修改難易程度;其四,要考慮知識是否易于擴展,隨著系統(tǒng)學習能力的提髙,單一的知識表示法已不能滿足需要,有的時候還需要幾種知識表示同時使用,以適應外部環(huán)境需要。機器學習是一個龐大的家族體系,涉及眾多算法和學習理論。根據(jù)不同的學習路徑,機器學習模型的類型主要有以下4種劃分方式:按學習理論劃分按學習理論的不同,可以將機器學習模型分為有監(jiān)督學習、半監(jiān)督學習、無監(jiān)督學習、遷移學習和強化學習。按求解的算法劃分按求解算法的不同,可以將機器學習模型分為生成模型和判別模型。5.2機器學習的類型和應用按方法劃分按所用方法的不同,可以將機器學習模型分為線性模型和非線性模型。按任務劃分按任務的不同,可以將機器學習模型分為回歸模型、分類模型和結構化學習模型。機器學習與人工智能5.2機器學習的類型和應用機器學習最成功的應用領域涉及計算機視覺、模式識別、數(shù)據(jù)挖掘、圖像處理等,此外,它還被廣泛應用于自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用卡欺詐、證券市場分析、DNA基因測序、語音和手寫字符識別、戰(zhàn)略游戲和機器人等領域。機器學習與人工智能的一些重要分支或研究領域都有著緊密聯(lián)系,如圖所示。機器學習與人工智能的重要研究領域的關系5.2機器學習的類型和應用機器學習與人工智能的重要研究領域的關系(1)模式識別模式識別是從工業(yè)界發(fā)展起來的,而機器學習來自于計算機學科,可以將二者視為人工智能的兩個方面。模式識別的主要方法都是機器學習的主要方法。5.2機器學習的類型和應用機器學習與人工智能的重要研究領域的關系(2)數(shù)據(jù)挖掘數(shù)據(jù)挖掘是利用機器學習等方法在數(shù)據(jù)中尋找規(guī)律和知識的領域,因此可以認為:數(shù)據(jù)挖掘=機器學習+數(shù)據(jù)庫。(3)統(tǒng)計學習統(tǒng)計學習是與機器學習高度重疊的學科,因為機器學習中的大多數(shù)方法都來自于統(tǒng)計學,甚至可以說,統(tǒng)計學的發(fā)展促進了機器學習的興盛。二者的區(qū)別在于,統(tǒng)計學習重點關注的是統(tǒng)計模型的發(fā)展與優(yōu)化,側重于數(shù)學;而機器學習重點關注的是如何解決問題,側重于實踐。5.2機器學習的類型和應用機器學習與人工智能的重要研究領域的關系(4)計算機視覺圖像處理技術用于將圖像處理為適合進入機器學習模型的輸入,機器學習則負責從圖像中識別出相關的模式。手寫字符、車牌、人臉等的識別都是計算機視覺和模式識別的應用。計算機視覺的主要基礎是圖像處理和機器學習。5.2機器學習的類型和應用機器學習與人工智能的重要研究領域的關系(5)自然語言處理自然語言處理是讓機器理解人類語言的一門技術。在自然語言處理中,大量使用了編譯原理相關的技術,如語法分析等。除此之外,在理解層面,其使用了語義理解、機器學習等技術,因此自然語言處理的基礎是文本處理和機器學習。5.2機器學習的類型和應用機器學習與人工智能的重要研究領域的關系(6)語音識別語音識別是利用自然語言處理、機器學習等的相關技術實現(xiàn)對人類語音識別的技術。語音識別的主要基礎是自然語言處理和機器學習。5.2機器學習的類型和應用機器學習與人工智能的重要研究領域的關系通俗地說,監(jiān)督學習就是首先拿已經(jīng)分好類的樣本對機器學習模型(如神經(jīng)網(wǎng)絡)進行訓練,即確定模型參數(shù)(神經(jīng)網(wǎng)絡的連接權值和偏置等參數(shù)),然后把待分類的樣本輸入經(jīng)過訓練的機器學習模型中進行分類。5.3監(jiān)督學習與無監(jiān)督學習

機器學習中的監(jiān)督學習,主要是指須對用于訓練學習模型的樣本進行人工標注或打標簽,即須事先通過人工方式把數(shù)據(jù)分成不同的類別。

無監(jiān)督學習與監(jiān)督學習相比,最大的區(qū)別就是其數(shù)據(jù)訓練集沒有人為標注,常見的無監(jiān)督學習算法稱為聚類。半監(jiān)督學習介于監(jiān)督學習與無監(jiān)督學習之間,是結合(少量的)標注訓練數(shù)據(jù)和(大量的)未標注訓練數(shù)據(jù)來進行學習的。單層感知器、CNN和RNN的網(wǎng)絡模型訓練都屬于監(jiān)督學習,而DBN是基于概率的“生成模型”,預訓練過程是無監(jiān)督學習,依靠無監(jiān)督的“逐層初始化”訓練每層RBM。5.3監(jiān)督學習與無監(jiān)督學習

在實際應用中,機器學習主要以監(jiān)督學習為主,另外還有無監(jiān)督學習、半監(jiān)督學習以及小樣本、弱標注等技術。為了讓分界面更靠近“正中間”,并且和已有的訓練數(shù)據(jù)有一定間隔,我們找到兩條邊界線,使正樣本都在靠近正樣本邊界的一側,而負樣本都在靠近負樣本邊界線的一側,它們中間的這些空白就是為了更好地泛化能力而留出來的間隔。最終的分界線就在這兩條邊界線的正中間。SVM的基本流程如圖5.3就是把上述操作轉化為一個優(yōu)化問題。用兩類樣本分別在邊界的一側而不越界作為約束條件,優(yōu)化的目標是使間隔最大。找到最優(yōu)解后,將其作為分界線,就可以對新來的測試樣本進行分類了?;維VM算法流程通常用來處理有監(jiān)督的分類問題,即需要一定的有類別標注的訓練樣本來確定超平面,然后對沒有標注的樣本進行類別預測。SVM既可以處理兩類別分類問題也可以通過對類別進行劃分,處理多類別分類問題。以SVM的思路處理回歸問題的算法稱為支持向量回歸(supportvectorregression,SVR)。任務類型給定兩組不同類別的數(shù)據(jù)點,找一個超平面把它們分割開,并希望這個超平面離這兩組數(shù)據(jù)點的距離盡可能大。這樣,我們就認為超平面一側是一個類別,一側則是另一個類別。當新來一個數(shù)據(jù)點時,只需看它在這個分割平面的哪一側,就可以預測其類別。概念5.3.1支持向量機k近鄰模型處理的任務類型主要是有監(jiān)督的分類問題,但是實際上k近鄰模型也可以處理回歸問題。在回歸問題中,將分類問題中對個近鄰樣本的類別多數(shù)表決得到最終預測結果的過程修改為:對個近鄰樣本的輸出值進行平均(也可以是與距離相關的加權平均),得到預測結果。在實際操作中,k近鄰模型思路簡單,對于數(shù)據(jù)分布等也沒有太多假設,因此很多任務場景都可以應用。由于其沒有訓練過程,因此比較適用于訓練集經(jīng)常更新的任務(如在線的預測或者分類)。k近鄰模型用來處理根據(jù)特征預測類別的分類問題。它的實現(xiàn)方式很直接也很簡單:假設有一定量的訓練數(shù)據(jù),這些數(shù)據(jù)是已知類別的。對于新來的樣本,在特征空間中找到距離它最近的k個訓練樣本,并找到這k個樣本里所屬最多的是哪個類別,將該類別作為新來樣本的預測結果。5.3.2k-最近鄰分類k-最近鄰分類概念任務類型樸素貝葉斯模型的基本思路就是利用貝葉斯的后驗概率公式來推算當前屬性下的數(shù)據(jù)樣本屬于哪個類別。01基本概念樸素貝葉斯模型一般用于處理分類問題。樸素貝葉斯模型假設了特征屬性之間的條件獨立性,雖然現(xiàn)實中的數(shù)據(jù)不一定都能滿足該假設,但是即便不滿足假設,模型在很多場景的結果也是可以接受的。樸素貝葉斯模型經(jīng)常被應用于文本相關的分類問題,如垃圾郵件的過濾、新聞類別的分類等。02任務類型5.3.3樸素貝葉斯分類器

1.樸素貝葉斯模型5.3.3樸素貝葉斯分類器2.樸素貝葉斯算法的步驟與流程假設訓練樣本集中的每個樣本共有個特征,分別用…表示,其中的取值共種。所有樣本共分為個類別,類別變量用表示。我們希望通過樸素貝葉斯算法來預測一個特征為…的新樣本所屬的類別,具體步驟如下:(1)通過圖中計算類別的先驗概率,以及給定類別下每一個特征取到每一候選值的條件概率。樸素貝葉斯算法的步驟與流程樸素貝葉斯算法的步驟與流程(1)通過圖中計算類別的先驗概率,以及給定類別下每一個特征取到每一候選值的條件概率。(1)通過圖中計算類別的先驗概率,以及給定類別下每一個特征取到每一候選值的條件概率。樸素貝葉斯算法的步驟與流程(2)對于新樣本用下式計算各個類別下的先驗概率與條件概率的乘積(正比于后驗概率)。樸素貝葉斯算法的步驟與流程(3)用下式找到最大乘積所對應的類別,即對新樣本的預測結果。樸素貝葉斯算法的步驟與流程樸素貝葉斯也稱為簡單貝葉斯,是一種十分簡單的分類算法。樸素貝葉斯分類器的基礎是貝葉斯定理。基于貝葉斯式來估計后驗概率的主要困難是:條件概率難以從有限的訓練樣本中直接估計而得。因此,樸素貝葉斯分類器會針對已知類別假設所有屬性相互獨立。Xi表示樣本的特征,yk表示樣本的類別,P(yk)是類別的“先驗概率”,P(xi|yk)表示不同特征相應的類別概率。我們由訓練集可以計算出所有的P(yk),以及以類別為條件時特征的“條件概率”P(xi|yk)。對所有類別來說P(xi),相同,所以可以直接利用樸素貝葉斯分類器的判定準則式對P(xi|yk)進行判別:3.樸素貝葉斯分類器5.3.4集成分類—Bagging算法、隨機森林算法與Boosting算法集成分類是將多個分類器集成在一起的技術,該技術通過從訓練數(shù)據(jù)中選擇不同的子集來訓練不同的分類器,然后使用某種投票方式綜合各分類器的輸出,最終輸出基于所有分類器的加權和。最流行的集成分類技術包括Bagging算法、隨機森林算法和Boosting算法。集成分類技術010203Boosting算法Boosting算法是一種框架算法,也是一種重要的集成機器學習技術。它首先會在對訓練集進行轉化后重新訓練出分類器,即通過對樣本集進行操作獲得樣本子集,然后用弱分類算法在樣本子集上訓練生成一系列的分類器,從而對當前分類器不能很好分類的數(shù)據(jù)點實現(xiàn)更好地分類。其主要算法有自適應提升(adaptiveboostingAdaBoost)和梯度提升決策樹(gradientboostingdescisiontreeGBDT)。隨機森林算法隨機森林算法是當今最流行的套袋集成技術,由許多決策樹分類器組成,并利用Bagging算法進行訓練。Bagging算法agging算法(Bootstrapaggregating,引導聚集算法),又稱裝袋算法,是機器學習領域的一種團體學習算法5.3.5k-均值聚類算法基于中心的聚類算法關注簇內(nèi)的樣本與簇的中心點的關系。在這種思路下,每個樣本都可以用一個從該樣本所屬的簇中心出發(fā)到該樣本點的向量來表征,然后通過優(yōu)化,使這些向量盡量短一些,從而使樣本更靠近簇的中心。k-均值算法是一種非常經(jīng)典的基于中心的聚類算法,其思路直觀,易于理解,且實現(xiàn)過程也不復雜。k-均值算法的基本思路就是求解一個優(yōu)化問題,其優(yōu)化目標是使簇內(nèi)部的這些樣本點到這個簇的中心的總距離最短。該距離反映的就是希望劃分為同一類別的元素之間的緊湊程度。樣本點到所屬的簇中心的距離越短,說明該簇的樣本屬性差別越小,即更“像”是同一類。其優(yōu)化目標的數(shù)學表達式為:其中,ck為第個簇;xi

為樣本特征;mk為第k類的中心點(簇內(nèi)樣本特征均值)??梢赃@樣理解:每個簇的中心點實際上就是該簇內(nèi)樣本的一個“平均特征”、即簇中代表了對于簇內(nèi)樣本點特征和屬性的一種概括性的表達,反映了簇內(nèi)樣本的某種共性、因此,簇的中心點有時也被稱為原型(prototype)。以這種方式理解,則目標函數(shù)實際上就描述每一簇內(nèi)的樣本符合該共性的程度。1.k-均值算法的基本思路將需要被聚類的樣本集記作S={x1,x2,…,xn},k-均值算法聚類的步驟如下。

首先確定希望聚成的簇的數(shù)目,然后對個簇的中心進行初始化。初始化時可以直接隨機指派個樣本點作為初始的簇中心;也可以通過隨機將每個樣本歸類到一個簇中,然后計算這些簇的中心位置作為初始的簇中心。指定好個簇中心后(這里記作M={m1,m2,…,mn},即進入迭代步驟。

在迭代過程中,每次迭代都需要執(zhí)行兩個步驟:樣本歸類和中心更新。

樣本歸類:對于樣本集中的每個樣本,分別計算它與現(xiàn)在的個簇中心各自的距離,然后選擇距離最近的簇作為樣本所屬的簇。其數(shù)學表示為式如下:

其中,C(xi)為樣本所屬的簇。2.k-均值算法步驟中心更新:所有樣本點都完成歸類后,對于現(xiàn)在每個簇中的所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論