模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第7、8章 核方法和支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)_第1頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第7、8章 核方法和支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)_第2頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第7、8章 核方法和支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)_第3頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第7、8章 核方法和支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)_第4頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第7、8章 核方法和支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩68頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

核方法和支持向量機(jī)第七章模式識(shí)別與機(jī)器學(xué)習(xí)新工科建設(shè)·人工智能與智能科學(xué)系列教材01引言在機(jī)器學(xué)習(xí)與模式識(shí)別中,如在回歸與分類(lèi)問(wèn)題的線性參數(shù)模型中,從輸入x到輸出y的映射y(x,w)由自適應(yīng)參數(shù)w控制。在學(xué)習(xí)階段,一組訓(xùn)練數(shù)據(jù)被用于參數(shù)向量的點(diǎn)估計(jì),或用于判別參數(shù)向量的后驗(yàn)分布。引言然后,丟棄訓(xùn)練數(shù)據(jù),對(duì)新輸入的預(yù)測(cè)僅依賴(lài)于被學(xué)習(xí)的參數(shù)向量w。這一方法同樣適用于非線性參數(shù)模型,如神經(jīng)網(wǎng)絡(luò)。引言然而,在另一類(lèi)模式識(shí)別技術(shù)中,訓(xùn)練數(shù)據(jù)點(diǎn)或者其中的一個(gè)子集在預(yù)測(cè)階段仍被保留或應(yīng)用。例如,Parzen概率密度模型包含核函數(shù)的線性組合,其中的每個(gè)核函數(shù)都以一個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)為中心。引言類(lèi)似地,“最近鄰域”這樣的簡(jiǎn)單分類(lèi)技術(shù)對(duì)每個(gè)新測(cè)試向量分配訓(xùn)練集中與其最接近例子的相同標(biāo)簽?;谟洃浀姆椒ù鎯?chǔ)整個(gè)數(shù)據(jù)集,以便對(duì)未來(lái)數(shù)據(jù)點(diǎn)做出預(yù)測(cè)。這類(lèi)方法的特點(diǎn)是,需要預(yù)先定義一個(gè)度量標(biāo)準(zhǔn)來(lái)測(cè)量輸入空間中兩個(gè)向量的相似度,訓(xùn)練速度通常很快,但對(duì)測(cè)試數(shù)據(jù)點(diǎn)做出預(yù)測(cè)的速度很慢。引言02核學(xué)習(xí)機(jī)大多數(shù)線性參數(shù)模型都采用對(duì)偶形式表達(dá)為核函數(shù)的形式。其中預(yù)測(cè)根據(jù)核函數(shù)的線性組合得到,核函數(shù)則通過(guò)訓(xùn)練數(shù)據(jù)點(diǎn)估計(jì)。核學(xué)習(xí)機(jī)如將要看到的那樣,對(duì)于依賴(lài)不變非線性特征空間的映射φ(x),核函數(shù)由如下關(guān)系式給出:由以上定義可以看出,核是關(guān)于其參數(shù)的一個(gè)對(duì)稱(chēng)函數(shù),于是有k(x,x')=k(x',x)。核學(xué)習(xí)機(jī)考慮式(7.1)中特征空間的恒等映射,即φ(x)=x,有k(x,x')=xTx',我們將其稱(chēng)為線性核,這是最簡(jiǎn)單的核函數(shù)。核被表述為特征空間內(nèi)積的概念可讓我們擴(kuò)展許多被人熟知的算法,方法是采用核決策或者核置換。核學(xué)習(xí)機(jī)核方法是解決非線性模式分析問(wèn)題的有效途徑之一,其核心思想如下:首先,通過(guò)某個(gè)非線性映射將原始數(shù)據(jù)嵌入合適的高維特征空間。然后,利用通用線性學(xué)習(xí)器在這個(gè)新空間中分析和處理模式。核方法基于如下假設(shè):在低維空間中不能線性分割的點(diǎn)集,轉(zhuǎn)換為高維空間中的點(diǎn)集后,很可能變成線性可分的。核學(xué)習(xí)機(jī)相對(duì)于使用通用非線性學(xué)習(xí)器直接在原始數(shù)據(jù)上進(jìn)行分析的范式,核方法具有如下優(yōu)點(diǎn):首先,通用非線性學(xué)習(xí)器不便反映具體應(yīng)用問(wèn)題的特性,而核方法的非線性映射因面向具體應(yīng)用問(wèn)題設(shè)計(jì)而便于集成問(wèn)題相關(guān)的先驗(yàn)知識(shí)。線性學(xué)習(xí)器相對(duì)于非線性學(xué)習(xí)器有更好的過(guò)擬合控制,因此可以更好地保證泛化性能。核學(xué)習(xí)機(jī)03支持向量機(jī)支持向量機(jī)(SupportVectorMachines)是一種二分類(lèi)模型,目的是尋找一個(gè)超平面來(lái)分割樣本。分割的原則是間隔最大化,最終轉(zhuǎn)換為一個(gè)凸二次規(guī)劃問(wèn)題來(lái)求解。支持向量機(jī)由簡(jiǎn)至繁的模型包括:當(dāng)訓(xùn)練樣本線性可分時(shí),通過(guò)硬間隔最大化,學(xué)習(xí)一個(gè)線性可分支持向量機(jī)。當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過(guò)軟間隔最大化,學(xué)習(xí)一個(gè)線性支持向量機(jī)。當(dāng)訓(xùn)練樣本線性不可分時(shí),通過(guò)核技巧和軟間隔最大化,學(xué)習(xí)一個(gè)非線性支持向量機(jī)。支持向量機(jī)線性可分支持向量機(jī)支持向量機(jī)通過(guò)間隔的概念來(lái)解決這個(gè)問(wèn)題,間隔定義為兩個(gè)異類(lèi)支持向量到超平面的距離之和,如圖7.1所示。支持向量機(jī)在支持向量機(jī)中,決策邊界選為間隔最大的那個(gè)。最大間隔的解受計(jì)算學(xué)習(xí)理論的推動(dòng)。然而,了解最大間隔的起源后,就會(huì)發(fā)現(xiàn)旱在2000年它就被Tong和Koller提出他們考慮了一個(gè)基于生成和判別方法的分類(lèi)框架。支持向量機(jī)軟間隔線性支持向量機(jī)在前面的討論中,我們假設(shè)訓(xùn)練樣本在樣本空間或特征空間中是線性可分的。但在現(xiàn)實(shí)任務(wù)中往往很難確定合適的核函數(shù)使訓(xùn)練集在特征空間中線性可分。支持向量機(jī)即使找到了這樣的核函數(shù)使得樣本在特征空間中線性可分,也很難判斷其是否由過(guò)擬合造成。因此,人們提出了線性支持向量機(jī)(軟間隔支持向量機(jī))。支持向量機(jī)為了解決該問(wèn)題,可對(duì)每個(gè)樣本點(diǎn)引入一個(gè)松弛變量(見(jiàn)圖7.2)。支持向量機(jī)非線性支持向量機(jī)到目前為止,我們都假設(shè)訓(xùn)練數(shù)據(jù)點(diǎn)在特征空間q(x)中是線性可分的。盡管相應(yīng)的決策邊界是非線性的,支持向量機(jī)的結(jié)果仍會(huì)在原始輸入空間x中給出訓(xùn)練數(shù)據(jù)的準(zhǔn)確分類(lèi)。支持向量機(jī)實(shí)際上,類(lèi)條件分布可能是重疊的,這時(shí)訓(xùn)練數(shù)據(jù)的準(zhǔn)確分類(lèi)會(huì)導(dǎo)致較差的推廣。對(duì)于非線性問(wèn)題,線性可分支持向量機(jī)并不能有效地解決,需要使用非線性模型。支持向量機(jī)非線性問(wèn)題往往不好求解,因此希望能用解線性分類(lèi)問(wèn)題的方法求解。于是,我們可以采用非線性變換將非線性問(wèn)題變換成線性問(wèn)題。支持向量機(jī)對(duì)于這樣的問(wèn)題,可將訓(xùn)練樣本從原始空間映射到一個(gè)高維空間,使樣本在高維空間中線性可分。如果原始空間的維數(shù)是有限的,即屬性是有限的,就一定存在一個(gè)高維特征空間是樣本可分的。支持向量機(jī)于是,在特征空間中劃分超平面對(duì)應(yīng)的模型就可以表示為最小化函數(shù)為支持向量機(jī)04支持向量回歸機(jī)下面將支持向量機(jī)擴(kuò)展到回歸問(wèn)題,同時(shí)保留稀疏性。在簡(jiǎn)單的線性回歸中,我們用式(7.39)最小化一個(gè)正規(guī)化誤差函數(shù):支持向量回歸機(jī)ε不敏感誤差函數(shù)的一個(gè)簡(jiǎn)單例子如下,它與不敏感區(qū)域外誤差相比有一個(gè)線性損失,如圖7.3所示:支持向量回歸機(jī)奇異值分解回歸示意圖,如圖7.4所示:支持向量回歸機(jī)圖7.5采用正弦數(shù)據(jù)集顯示了如何用支持向量機(jī)解決回歸分析問(wèn)題,其中參數(shù)v和C是人為選擇的。支持向量回歸機(jī)05小結(jié)本章介紹了核方法和支持向量機(jī)的相關(guān)知識(shí),并且基于核學(xué)習(xí)機(jī)的定義和核函數(shù)重點(diǎn)介紹了支持向量機(jī)在分類(lèi)核回歸問(wèn)題上的應(yīng)用。即線性可分支持向量機(jī)、線性與非線性支持向量機(jī)和線性與非線性支持向量回歸機(jī)。小結(jié)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)第八章模式識(shí)別與機(jī)器學(xué)習(xí)新工科建設(shè)·人工智能與智能科學(xué)系列教材01引言簡(jiǎn)單來(lái)說(shuō),人工神經(jīng)網(wǎng)絡(luò)是指模仿生物大腦的結(jié)構(gòu)和功能,采用數(shù)學(xué)和物理方法進(jìn)行研究而構(gòu)成的一種信息處理系統(tǒng)或計(jì)算機(jī)。人是地球上具有最高智慧的生物,而人的智能均來(lái)自大腦,人類(lèi)靠大腦進(jìn)行思考、聯(lián)想、記憶和推理判斷,這些功能是任何被稱(chēng)為電腦的計(jì)算機(jī)都無(wú)法取代的。引言長(zhǎng)期以來(lái),很多科學(xué)家一直致力于人腦內(nèi)部結(jié)構(gòu)和功能的研究,試圖建立模仿人類(lèi)大腦的計(jì)算機(jī)。截至目前,雖然人們對(duì)大腦的內(nèi)部工作原理還不甚清楚,但對(duì)其結(jié)構(gòu)已有所了解。引言02感知器感知器的概念美國(guó)學(xué)者F.Rosenblatt在1957年提出了感知器模型,如圖8.1所示。感知器因此,它實(shí)質(zhì)上是一種線性閾值計(jì)算單元,如圖8.2所示。感知器感知器訓(xùn)練算法及其收斂性通過(guò)上面的定義,感知器問(wèn)題就變成了ωi/ωj,兩類(lèi)問(wèn)題。因此,感知器的自組織、自學(xué)習(xí)思想可用于確定性分類(lèi)器的訓(xùn)練。這就是感知器訓(xùn)練方法。感知器針對(duì)ωi/ωj兩類(lèi)問(wèn)題,可以利用增廣模式向量、增廣加權(quán)向量和判決規(guī)則感知器感知器準(zhǔn)則函數(shù)及梯度法我們知道,一個(gè)函數(shù)的梯度指明了其自變量增加時(shí)該函數(shù)的最大增大率方向,負(fù)梯度則指明了同樣條件下函數(shù)的最陡下降方向?;谔荻群瘮?shù)這一重要性質(zhì),下面介紹梯度法。感知器求函數(shù)f(w)的數(shù)值解時(shí),通常只能求出某種意義下的最優(yōu)解,即首先定義一個(gè)準(zhǔn)則函數(shù),然后在使此準(zhǔn)則函數(shù)最大或最小的情況下,求出f(w)的解。梯度法首先確定一個(gè)準(zhǔn)則函數(shù)J(w),然后選擇一個(gè)初值w(1),通過(guò)迭代方法找到w的數(shù)值解。感知器03多層前向神經(jīng)網(wǎng)絡(luò)一般來(lái)說(shuō),一個(gè)人工神經(jīng)元網(wǎng)絡(luò)由多層神經(jīng)元結(jié)構(gòu)組成,而每層神經(jīng)元都包含輸入和輸出兩部分。每層神經(jīng)網(wǎng)絡(luò)Iayer(i)(i表示網(wǎng)絡(luò)層數(shù))由Ni個(gè)網(wǎng)絡(luò)神經(jīng)元組成,layer(i-1)層神經(jīng)元的輸出是layer(i)層神經(jīng)元的輸入。多層前向神經(jīng)網(wǎng)絡(luò)多層前向神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)涉及網(wǎng)絡(luò)的結(jié)構(gòu)、神經(jīng)元的數(shù)量,以及網(wǎng)絡(luò)的層數(shù)、神經(jīng)元的激活函數(shù)、初始值和學(xué)習(xí)算法等。對(duì)于多層感知器網(wǎng)絡(luò)來(lái)說(shuō),輸入層和輸出層的神經(jīng)元數(shù)量可以根據(jù)需要求解的問(wèn)題來(lái)確定。多層前向神經(jīng)網(wǎng)絡(luò)因此,多層感知器網(wǎng)絡(luò)的設(shè)計(jì)一般應(yīng)從網(wǎng)絡(luò)的層數(shù)、隱藏層中的神經(jīng)元數(shù)量、神經(jīng)元的激活函數(shù)、初始值和學(xué)習(xí)率等方面來(lái)考慮。在設(shè)計(jì)過(guò)程中,應(yīng)當(dāng)盡可能地減小神經(jīng)網(wǎng)絡(luò)模型的規(guī)模,以便縮短網(wǎng)絡(luò)的訓(xùn)練時(shí)間。多層前向神經(jīng)網(wǎng)絡(luò)BP神經(jīng)網(wǎng)絡(luò)基本BP算法包括兩個(gè)方面:信號(hào)的正向傳播和誤差的反向傳播。也就是說(shuō),計(jì)算實(shí)際輸出時(shí)按從輸入到輸出的方向進(jìn)行,而權(quán)值和閾值的修正從輸出到輸入的方向進(jìn)行。多層前向神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu):BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖8.6所示。多層前向神經(jīng)網(wǎng)絡(luò)RBF神經(jīng)網(wǎng)絡(luò)徑向基函數(shù)(RedialBasisFunction,RBF)神經(jīng)網(wǎng)絡(luò)是由J.Moody和C.Darken于20世紀(jì)80年代末提出的一種神經(jīng)網(wǎng)絡(luò)模型。它是由輸入層、隱藏層(徑向基層)和線性輸出層組成的前向神經(jīng)網(wǎng)絡(luò)。多層前向神經(jīng)網(wǎng)絡(luò)04自組織特征映射神經(jīng)網(wǎng)絡(luò)生物學(xué)研究表明,在人腦的感覺(jué)通道上,神經(jīng)元的組織原理是有序排列的。當(dāng)外界的特定時(shí)空信息輸入時(shí),大腦皮層的特定區(qū)域興奮,而且類(lèi)似的外界信息在對(duì)應(yīng)的區(qū)域中是連續(xù)映像的。自組織特征映射神經(jīng)網(wǎng)絡(luò)生物視網(wǎng)膜中有許多特定的細(xì)胞對(duì)特定的圖形比較敏感,當(dāng)視網(wǎng)膜中有若干接收單元同時(shí)受特定模式刺激時(shí);就使大腦皮層中的特定神經(jīng)元開(kāi)始興奮,輸入模式接近,與之對(duì)應(yīng)的興奮神經(jīng)元也接近。在聽(tīng)覺(jué)通道上,神經(jīng)元在結(jié)構(gòu)排列上與頻率的關(guān)系十分密切,對(duì)于某個(gè)頻率,特定的神經(jīng)元具有最大的響應(yīng),位置相鄰的神經(jīng)元具有相近的頻率特征,而相互遠(yuǎn)離的神經(jīng)元具有的頻率特征差別也較大。自組織特征映射神經(jīng)網(wǎng)絡(luò)SOM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)輸入層:通過(guò)加權(quán)向量將外界信息匯集到輸出層的各神經(jīng)元。輸入層的形式與BP神經(jīng)網(wǎng)絡(luò)的相同,節(jié)點(diǎn)數(shù)與樣本維數(shù)相同。輸出層:輸出層也是競(jìng)爭(zhēng)層。其神經(jīng)元的排列有多種形式,分為一維線陣、二維平面陣和三維柵格陣。自組織特征映射神經(jīng)網(wǎng)絡(luò)最典型的結(jié)構(gòu)是二維形式,它更具大腦皮層的形象,如圖8.11所示。自組織特征映射神經(jīng)網(wǎng)絡(luò)05深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,主要是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展,現(xiàn)已廣泛應(yīng)用于人工智能的很多方面。如圖像分類(lèi)、目標(biāo)檢測(cè)、景深估計(jì)、超分辨重建等,并取得了非常好的效果。深度學(xué)習(xí)在機(jī)器學(xué)習(xí)的發(fā)展歷程中,人工神經(jīng)網(wǎng)絡(luò)曾是非常熱的一個(gè)領(lǐng)域,但是后來(lái)由于人工神經(jīng)網(wǎng)絡(luò)的理論分析較為困難。在當(dāng)時(shí)的計(jì)算機(jī)等硬件水平下,其他一些人工智能方法有著不輸人工神經(jīng)網(wǎng)絡(luò)的效率,人工神經(jīng)網(wǎng)絡(luò)的研宄逐漸退出了人們的視野。深度學(xué)習(xí)2006年,Hinton提出了逐層訓(xùn)練的思想,并且利用逐層訓(xùn)練建立的網(wǎng)絡(luò)模型在分類(lèi)方面取得了很好的效果,使得深度學(xué)習(xí)被研究人員所關(guān)注。2012年,Krizhevsky等人提出了深度網(wǎng)絡(luò)模型AlexNet,該網(wǎng)絡(luò)模型在2012年的Imagenet挑戰(zhàn)中取得了最好的分類(lèi)效果。深度學(xué)習(xí)深度學(xué)習(xí)的應(yīng)用范圍十分廣泛,在圖像處理方面,有2012年用于圖片級(jí)別分類(lèi)(確定整張圖片包含的內(nèi)容屬于什么類(lèi))的AlexNet。有2014年用于像素級(jí)別分類(lèi)(確定一張圖片中的每個(gè)像素屬于什么類(lèi))的全卷積網(wǎng)絡(luò)FCN,還有2015年用于圖像超分辨重建和單張圖片景深估計(jì)方面的深度卷積網(wǎng)絡(luò)。深度學(xué)習(xí)自2016年以來(lái),一些基于深度學(xué)習(xí)的圖像問(wèn)答研究取得了一定的進(jìn)展。在工業(yè)界,各種IT巨頭也對(duì)深度學(xué)習(xí)表現(xiàn)出了足夠的重視。Google、Baidu、Microsoft等公司均成立了專(zhuān)門(mén)的研究院,并且取得了有意義的研究成果。深度學(xué)習(xí)研究深度學(xué)習(xí)的相關(guān)模型對(duì)計(jì)算機(jī)的硬件水平有一定的要求,而現(xiàn)在的計(jì)算機(jī)硬件發(fā)展十分迅速。各種高性能的CPU處理器、強(qiáng)大的GPU運(yùn)算單元、存儲(chǔ)量巨大的硬盤(pán)等,都為深度學(xué)習(xí)的發(fā)展建立了理想的平臺(tái),深度學(xué)習(xí)領(lǐng)域的相關(guān)研究成果呈現(xiàn)出爆炸式增長(zhǎng)。深度學(xué)習(xí)近年來(lái),深度學(xué)習(xí)發(fā)展十分迅速,研究人員提出了大量的深度學(xué)習(xí)模型。本節(jié)詳細(xì)介紹深度學(xué)習(xí)的幾個(gè)常用模型。包括堆棧式自編碼網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)。深度學(xué)習(xí)堆棧式自編碼網(wǎng)絡(luò)(SAE)前面在對(duì)比淺層學(xué)習(xí)和深度學(xué)習(xí)時(shí)說(shuō)過(guò),簡(jiǎn)單地增加淺層人工神經(jīng)網(wǎng)絡(luò)的層數(shù)并不能得到深度學(xué)習(xí)模型。原因是簡(jiǎn)單增加層數(shù)后,訓(xùn)練時(shí)會(huì)出現(xiàn)梯度擴(kuò)散(膨脹)問(wèn)題。深度學(xué)習(xí)深度置信網(wǎng)絡(luò)(DBN)RBM結(jié)構(gòu)示意圖如圖8.16所示。深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)是另一種深度學(xué)習(xí)模型,現(xiàn)已成為語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更加類(lèi)似于生物神經(jīng)網(wǎng)絡(luò),因此降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它是根據(jù)“人的認(rèn)知基于過(guò)往的經(jīng)驗(yàn)和記憶”這一觀點(diǎn)提出的。與CNN不同的是,它不僅考慮前一時(shí)刻的輸入,而且賦予網(wǎng)絡(luò)對(duì)前面的內(nèi)容的一種“記憶”功能。深度學(xué)習(xí)生成對(duì)抗網(wǎng)絡(luò)(GAN)圖8.26中顯示了GAN模型中的生成模型和判別模型。深度學(xué)習(xí)擴(kuò)散模型擴(kuò)散模型(DiffusionModel)是深度生成模型中最先進(jìn)的模型之一。擴(kuò)散模型在圖像合成任務(wù)上超越了GAN模型,且在其他多項(xiàng)任務(wù)上也表現(xiàn)出了較大的潛力,如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和多模態(tài)建模等。深度學(xué)習(xí)Transformer模型Transformer模型是一種基于注意力機(jī)制的深度學(xué)習(xí)模型,最初用于自然語(yǔ)言處理(NLP)任務(wù),在機(jī)器翻譯中表現(xiàn)尤其出色。Transformer的主要貢獻(xiàn)是提出了自注意力(Self-Attention)機(jī)制和多頭(Multi-Head)注意力機(jī)制。深度學(xué)習(xí)0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論