版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
行業(yè)深度研究行業(yè)深度研究深度學(xué)習(xí)的三要素包括算法、數(shù)據(jù)和算力,本文主要對(duì)算法的演進(jìn)過(guò)程進(jìn)行了回顧,認(rèn)為過(guò)往神經(jīng)網(wǎng)絡(luò)的發(fā)展以eu激活函數(shù)的提出為分水嶺,分為淺層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)兩個(gè)階。在淺層神經(jīng)網(wǎng)絡(luò)階段,最重要的任務(wù)就是解決梯度不穩(wěn)定的問(wèn)。在這個(gè)問(wèn)題未被妥善解決之前,神經(jīng)網(wǎng)絡(luò)應(yīng)用性能不佳,而屬于非神經(jīng)網(wǎng)絡(luò)的支持向量機(jī)算法)是解決人工智能模式識(shí)別的主流方法。201年eu激活函數(shù)被提出、梯度消失問(wèn)題被大幅緩解之,神經(jīng)網(wǎng)絡(luò)進(jìn)入深度學(xué)習(xí)時(shí),算法和應(yīng)用的發(fā)展均突飛猛。最初C、RN等模型在不同的模態(tài)和任務(wù)均各有擅長(zhǎng)2017年rnsforer的提出讓深度學(xué)習(xí)進(jìn)入了大模型時(shí)代2020年sonransfrer的提出讓深度學(xué)習(xí)進(jìn)入了多模態(tài)時(shí)代,自此多模態(tài)和多任務(wù)底層算法被統(tǒng)一為ransforer架構(gòu)。目深度學(xué)習(xí)算法主要是基于ransforer骨干網(wǎng)絡(luò)進(jìn)行分支網(wǎng)絡(luò)的創(chuàng)新,如引入擴(kuò)散模型、強(qiáng)化學(xué)習(xí)等方法。整個(gè)行業(yè)算法發(fā)展速度放緩,靜待骨干網(wǎng)絡(luò)的下一次突破。下文我們將對(duì)各發(fā)展階段的經(jīng)典模型進(jìn)行回顧:感知機(jī):第一個(gè)神經(jīng)網(wǎng)絡(luò)感知機(jī)由osenbatt在1958年提出是神經(jīng)網(wǎng)發(fā)展的起。感知機(jī)是一個(gè)單層的神經(jīng)網(wǎng)絡(luò)模,由輸入值、權(quán)、求和函數(shù)及激活函三部分組成。整個(gè)模型對(duì)輸入值進(jìn)行有監(jiān)學(xué)習(xí),權(quán)重部分是可訓(xùn)練參;將對(duì)應(yīng)輸與權(quán)重相乘求和,得到的求和值與常數(shù)比對(duì),判斷是否觸發(fā)激活函數(shù),最終依據(jù)輸出的0-1信號(hào)判斷圖像類(lèi)別。感知機(jī)提出了用神經(jīng)網(wǎng)絡(luò)模型解決人工智能任務(wù)但作為神經(jīng)網(wǎng)絡(luò)模型的開(kāi)山之作,還存在以下問(wèn):受階躍激活函數(shù)限制,感知機(jī)只能輸出0或1,因此只進(jìn)二元分。感知機(jī)只能處理線性可分?jǐn)?shù)據(jù),無(wú)法處理線性不可分的數(shù)據(jù),而線性不可分?jǐn)?shù)據(jù)是現(xiàn)實(shí)世界中的常態(tài)。該嚴(yán)重缺陷由nsky于1969年提出,扼殺了人們對(duì)感知機(jī)的興趣,也由此導(dǎo)致了神經(jīng)網(wǎng)絡(luò)域研究的長(zhǎng)期停滯。圖表1:感知機(jī)二元分類(lèi)過(guò)程 圖表2:數(shù)據(jù)的線性可分性 AI與強(qiáng)化學(xué)習(xí)公眾號(hào), PaddleEu多層感知機(jī)與BP算——神經(jīng)網(wǎng)絡(luò)的再興起多層感知機(jī)解決了多元分類(lèi)問(wèn)題20世紀(jì)0年代,多層感知機(jī)L)被提出。模由輸入層、輸出層和至少一層的隱藏層構(gòu),是一種全連接神經(jīng)網(wǎng)絡(luò),即每一個(gè)神經(jīng)元都會(huì)和上下兩層所有的神經(jīng)元相連接。各隱藏層中的神經(jīng)元可接收相鄰前序隱藏層中神經(jīng)元傳遞的信息,經(jīng)過(guò)加工處理后將信息輸出到后續(xù)隱藏層中的神經(jīng)元。-4-行業(yè)深度研究行業(yè)深度研究由于隱藏層豐富了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力,感知機(jī)的線性不可分問(wèn)題得以解決,因而神經(jīng)網(wǎng)絡(luò)再次迎來(lái)興起。圖表3:多層感知機(jī)通過(guò)引入隱藏層進(jìn)行多元分類(lèi)eepAI相較感知機(jī),多層感知機(jī)主要進(jìn)行了如下改:解決了感知機(jī)的二元分類(lèi)問(wèn)題:引入隱藏層,并采用非線性激活函數(shù)god代替階躍函數(shù),使得神經(jīng)網(wǎng)絡(luò)可以對(duì)非線性函數(shù)進(jìn)行擬合??蛇M(jìn)行多元分類(lèi)任務(wù):多層感知機(jī)拓寬了輸出層寬度。多層感知機(jī)的發(fā)展受到算力限。由于多層感知機(jī)是全連接神經(jīng)網(wǎng)絡(luò),所需算力隨著神經(jīng)元的增呈幾增長(zhǎng)。而在算力相對(duì)匱乏20世紀(jì)80年代,算力瓶頸阻礙了多層感知的進(jìn)一步發(fā)。P算法:神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本算法1986年,nton提出了一種適用于多層感機(jī)訓(xùn)練的反向傳播算—P算法,至今仍是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的主流算法。P算法的核心思想為將輸出值與標(biāo)記進(jìn)行比較,誤差反向由輸出層向輸入層傳播,在這個(gè)過(guò)程中利用梯度下降算法對(duì)神經(jīng)的權(quán)進(jìn)行調(diào)整。P算法最大的問(wèn)題在于梯度不穩(wěn)定。由于當(dāng)時(shí)god、anh作為非線性激活函數(shù)應(yīng)用廣泛,而這兩種激活函數(shù)都存在一定范圍內(nèi)梯度過(guò)大或過(guò)小的問(wèn)題。神經(jīng)網(wǎng)絡(luò)停在淺層時(shí),連乘次數(shù)少、梯度較為穩(wěn)定;而當(dāng)神經(jīng)網(wǎng)絡(luò)向深層邁進(jìn),梯度的不穩(wěn)定性加劇,使得深層神經(jīng)網(wǎng)絡(luò)無(wú)法正常訓(xùn)練。因此,有效緩解梯度不穩(wěn)定現(xiàn)象是神經(jīng)網(wǎng)絡(luò)向深層次邁進(jìn)前必須解決的問(wèn)。圖表4:梯度消失使神經(jīng)網(wǎng)絡(luò)無(wú)法正常訓(xùn)練SciencePog,深度學(xué)習(xí)與圖網(wǎng)絡(luò)公眾號(hào),-5-行業(yè)深度研究行業(yè)深度研究淺層神經(jīng)網(wǎng)絡(luò)在多應(yīng)用領(lǐng)域各自演進(jìn)多層感知機(jī)的出現(xiàn)奠定了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),也使得神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍不再局限于圖像識(shí)別,而是向自然語(yǔ)言處理、語(yǔ)音識(shí)別等其他領(lǐng)域拓展。由于各個(gè)領(lǐng)域的任務(wù)具有不同特點(diǎn),神經(jīng)網(wǎng)絡(luò)產(chǎn)生了眾多分支模型。這一階段分支網(wǎng)絡(luò)探索各自領(lǐng)域的任務(wù)特點(diǎn),通過(guò)機(jī)制創(chuàng)新使神經(jīng)網(wǎng)絡(luò)獲得對(duì)應(yīng)的特征提取能力。圖像識(shí)別領(lǐng)域“卷積”機(jī)制提取圖空間特征人類(lèi)在進(jìn)行圖像識(shí)別時(shí),能夠從細(xì)小的特征推理得知事物的全貌,即“窺一斑而見(jiàn)全豹。在多層感知機(jī)時(shí)代,由于二維圖像被轉(zhuǎn)化為一維向量后輸入模型,因此丟失了圖像的空間特征信息。為了使神經(jīng)網(wǎng)絡(luò)獲得從特征到全局的圖像識(shí)別能力,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。1998年,Leet卷積神網(wǎng)()首次應(yīng)用于圖像分。CN通過(guò)多個(gè)卷積層對(duì)特征進(jìn)行提取和壓縮,得到較為可靠的高層次特征,最終輸出的特征可應(yīng)用于圖像分類(lèi)等任務(wù)。Leet網(wǎng)絡(luò)由卷積層、池化層和全連接層構(gòu)成:卷積層:通過(guò)在輸入圖像上滑動(dòng)卷積核,進(jìn)行卷積操作提取關(guān)鍵特。卷積核的尺寸比輸入圖像小得多,無(wú)需像多層感知一樣學(xué)習(xí)完整圖片信息;池化層:對(duì)特征進(jìn)約減,從提取主要特征比如將卷積層的輸出劃分為若干矩形區(qū)域,取各區(qū)域的平均值或最大值,從而簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜;全連接層:對(duì)提取到的特征進(jìn)行匯總,將多維的特征映射為二維輸出。圖表5:卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu) 圖表6:卷積的實(shí)質(zhì)是提取關(guān)鍵特征iveintoeepLeann(Atonhang等,221, VIIA相較多層感知機(jī),卷積神經(jīng)網(wǎng)絡(luò)具備以下優(yōu):計(jì)算量減少:神經(jīng)元只與對(duì)應(yīng)的部分局部連;圖像識(shí)別能力增強(qiáng)利用卷積思想,使神經(jīng)網(wǎng)絡(luò)具備了局部特征提取能力;平移不變性:由于卷積核會(huì)在輸入圖像上滑動(dòng),所以無(wú)論被檢測(cè)物體在圖片哪個(gè)位臵都能被檢測(cè)到相同的特征。自然語(yǔ)言處理領(lǐng)域“循”機(jī)制提語(yǔ)言時(shí)序特征人類(lèi)在進(jìn)行文字閱讀、語(yǔ)音識(shí)別時(shí),不僅會(huì)關(guān)注當(dāng)前看到、聽(tīng)到的詞句,還會(huì)聯(lián)上下文進(jìn)行輔助理解。在多層感知機(jī)時(shí)代,所有的輸入彼此獨(dú)立,模型僅針對(duì)當(dāng)前詞句進(jìn)行訓(xùn)練,而不關(guān)注前后信息,造成了時(shí)序信息的丟失。為了使神經(jīng)網(wǎng)絡(luò)獲得時(shí)序信息提取能力1986年循環(huán)神經(jīng)網(wǎng)絡(luò)R)被提出,將循環(huán)思想引入神經(jīng)網(wǎng)絡(luò)在RN中,每個(gè)神經(jīng)元既接受當(dāng)前時(shí)刻輸入信息、也接受上一時(shí)刻神經(jīng)元的輸出信息,使神經(jīng)網(wǎng)絡(luò)具備了時(shí)序特征提取能力。-6-行業(yè)深度研究行業(yè)深度研究圖表7:N同時(shí)接受當(dāng)前時(shí)刻輸入與上一時(shí)刻輸?shù)男畔ython與機(jī)器智能公眾號(hào),相較多層感知機(jī),循環(huán)神經(jīng)網(wǎng)絡(luò)具備以下優(yōu):可處理文本、語(yǔ)音等時(shí)序相關(guān)的信息;計(jì)算量大大降低在循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),參數(shù)、、V是共享的,這減少了訓(xùn)練所需的計(jì)算量。支持向量機(jī)深度學(xué)習(xí)出之前的主算法支持向量機(jī)SV)是傳統(tǒng)機(jī)器學(xué)習(xí)中最重要的分類(lèi)算法之一作為有監(jiān)督的分類(lèi)器,其核心思想與感知機(jī)類(lèi),但對(duì)目標(biāo)函數(shù)進(jìn)行了改:感知機(jī)目標(biāo)函數(shù):錯(cuò)誤分類(lèi)點(diǎn)到超平面的距離之和最小。支持向量機(jī)目標(biāo)函數(shù):支持向(距離超平面最近的正反例到超平面的距離最大化。圖表8:感知機(jī)與支持向量目標(biāo)函數(shù)不同人工智能技術(shù)公眾號(hào),AI與強(qiáng)化學(xué)習(xí)公眾號(hào),支持向量機(jī)的思想最早在1963由apnk等人提出,在90年代經(jīng)過(guò)多次模型和算法改進(jìn),能解決感知機(jī)線性不可分和多元分等缺陷,并可應(yīng)用于人體動(dòng)作識(shí)別、人臉識(shí)別、文本識(shí)別、生物信息學(xué)等領(lǐng)域。圖表9:在深度學(xué)習(xí)之前支持向量是解決人工智能任務(wù)的主流方法時(shí)間 理論提出者 理論內(nèi)容3年k等在解決模式識(shí)別問(wèn)題時(shí)提出支持向量方法1年r等構(gòu)造基于支持向量構(gòu)建核空間的方法,可用于解決線性不可分問(wèn)題7年g等將支持向量方法用于人體動(dòng)作識(shí)別,最高準(zhǔn)確度達(dá)%5年k等提出“”的塊算法,正式為持機(jī),其用于手寫(xiě)數(shù)字識(shí)別-7-行業(yè)深度研究行業(yè)深度研究6年z等將VM用于物體識(shí)別6年ct等將VM用于說(shuō)話人識(shí)別7年sa等提出分解算法,并將VM用于人臉識(shí)別7年c將VM用于文本識(shí)別8年sn等構(gòu)造多值分類(lèi)模型,可用VM處理多元分類(lèi)任務(wù)9年b等將VM應(yīng)用于基因表達(dá)微陣列數(shù)據(jù)分類(lèi)《Atuoalnupotvecormahnesforatteneonion(uges等,198《lecarclaifictonofcnce:lasdicoveyndcaspedicinbygeeexpeionmitoing(ob等,1999,電子與信息學(xué)報(bào)公眾號(hào),聲振之家公眾號(hào),由支持向量機(jī)方法基本上不涉及概率測(cè)度及大數(shù)定律,具有更嚴(yán)格的理論和數(shù)學(xué)基,因擁有泛化能力強(qiáng)、收斂到全局最優(yōu)、維數(shù)不敏感優(yōu)點(diǎn)作為與神經(jīng)網(wǎng)絡(luò)并行的方法流派,在“深度學(xué)習(xí)出現(xiàn)之前,支持向量機(jī)度擁有更高的精,是解人工智能任的主流方。支持向量的最大瓶頸在不適合進(jìn)行多維度大樣本訓(xùn)練其本質(zhì)是借助二次規(guī)劃獲得最優(yōu)解,當(dāng)樣本量過(guò)大時(shí)會(huì)極大增加機(jī)器內(nèi)存和運(yùn)算時(shí)。梯度消失問(wèn)題的解決使神經(jīng)網(wǎng)向深層邁進(jìn)逐層無(wú)監(jiān)督是深度學(xué)習(xí)的初次探索2006年,深度學(xué)習(xí)之父nton提出了一種梯度消失問(wèn)題的解決方法是深度學(xué)習(xí)的初次探。nton的解決方法分為兩步1)逐層無(wú)監(jiān)督:即先通過(guò)無(wú)監(jiān)督學(xué)習(xí)逐層初始各神經(jīng)元的參數(shù)而P算法的初始參數(shù)為隨機(jī)賦予,使各神經(jīng)元的參數(shù)較為接近最優(yōu)值,這一步極大地緩解了梯度消失問(wèn);2)通過(guò)P算法進(jìn)行有監(jiān)督學(xué)習(xí),得到神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。nton的論文發(fā)表之后,深度學(xué)習(xí)方法在學(xué)術(shù)界引起了巨大的反響,但由于此時(shí)模型的應(yīng)用表現(xiàn)較為一般,因此深度學(xué)習(xí)的浪潮未向產(chǎn)業(yè)界蔓延。圖表10:逐層無(wú)監(jiān)督P有監(jiān)督解決梯度消失問(wèn)題《AatLeaningAgitmforeepBeefet(intn等,20)eu激活函數(shù)的提出開(kāi)啟了深度學(xué)習(xí)時(shí)代201年,eLu激活函數(shù)被提出,該激活函數(shù)的優(yōu)點(diǎn):具有更好的非線性擬合能,緩解梯度消失問(wèn);具有稀疏激活性,去掉了無(wú)關(guān)的噪聲,能夠更好地挖掘相關(guān)特征、且提升訓(xùn)練速度(導(dǎo)數(shù)為0或1,非常簡(jiǎn)單。eLu激活函數(shù)被提出后201年微軟首次將深度學(xué)習(xí)應(yīng)用于語(yǔ)音識(shí),使得-8-行業(yè)深度研究行業(yè)深度研究識(shí)別詞錯(cuò)誤率穩(wěn)定降低了2030,在產(chǎn)業(yè)界引起轟動(dòng)。2012年,nton及其學(xué)生提出exet,自此奠定了深度學(xué)習(xí)的經(jīng)典訓(xùn)練范式。exet采用了經(jīng)典的CN網(wǎng)絡(luò)結(jié)構(gòu)、使用eLu激活函數(shù)、對(duì)輸入值進(jìn)行有監(jiān)督學(xué)習(xí)(摒棄了此前的逐層無(wú)監(jiān)督方法、并采用GU對(duì)訓(xùn)練進(jìn)行加速。由于exet將ageet數(shù)據(jù)集上圖像分類(lèi)的錯(cuò)誤率由26%降至15,此后5年學(xué)術(shù)界均用exet的范式進(jìn)行深度學(xué)習(xí)訓(xùn)。同時(shí),由于錯(cuò)誤率大幅降低,產(chǎn)業(yè)界開(kāi)啟了深度學(xué)習(xí)的應(yīng)用。圖表1:iid和tanh函數(shù)存在梯度過(guò)/過(guò)小問(wèn)題 圖表12:殘差學(xué)習(xí)進(jìn)一步緩解了梯度消失問(wèn)題來(lái)源:PaddleEu 《eepeiulLanngforIaeeonton(inge等,2016,2016年,何愷明等人提出eset,使得神經(jīng)網(wǎng)絡(luò)可以對(duì)殘差進(jìn)行學(xué)習(xí),更好地緩解了梯度消失問(wèn)題,也讓eset的神經(jīng)網(wǎng)絡(luò)深度高達(dá)152層。由于殘差學(xué)習(xí)能很好地緩解梯度消失問(wèn)題,在之的ransforer架構(gòu)中也得以沿用。ansoer統(tǒng)一了各任務(wù)底層算法,開(kāi)啟多模態(tài)和大模型時(shí)代2017年,Googe將注意力機(jī)制引入神經(jīng)網(wǎng)絡(luò),提出了新一代深度學(xué)習(xí)底層算法——ransforer。于ransorer在物體分類(lèi)、語(yǔ)義理解等項(xiàng)任務(wù)準(zhǔn)確率超過(guò)、N等傳統(tǒng)算法,且能應(yīng)用于、LP等多模態(tài),因而ransforer的提出使得多任務(wù)、多模態(tài)的底層算法得到統(tǒng)一。與、RN相,3種模型的算法復(fù)雜程度差異不大ransforer的主要優(yōu)勢(shì)在:可并行計(jì)算、減少訓(xùn)練時(shí)間、便于處理大數(shù)據(jù)ransforer用位臵編碼的方式代替了N的詞句逐個(gè)輸入、循環(huán)迭代,因此可以采用并行計(jì)算加速訓(xùn)練。加強(qiáng)了神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)序特征的提取:無(wú)論兩個(gè)詞相隔多遠(yuǎn),都能捕捉到彼此之間的依賴(lài)關(guān)系。-9-行業(yè)深度研究行業(yè)深度研究圖表13:Tafrer示意圖《AttentionIsAlloueed(hihaani等,207)由于在處理大數(shù)據(jù)方面具備顯著優(yōu)勢(shì)ransforer的出現(xiàn)開(kāi)啟了深度學(xué)習(xí)的“大模型”時(shí)代。如OpenI發(fā)布的G-3,該模型在多個(gè)任務(wù)都取得了第一的成績(jī),而其在算法結(jié)構(gòu)上與前代的GT、G-2沒(méi)有明顯差別,最大的區(qū)別是采用海量數(shù)據(jù)進(jìn)行模型訓(xùn)練,生地詮釋了“大就是好”的理念。圖表14:GT系列模型參數(shù)呈指數(shù)級(jí)增長(zhǎng)模型名稱(chēng)發(fā)布時(shí)間參數(shù)量?jī)|訓(xùn)練數(shù)據(jù)大小算力消耗fs-ay8年6月756-29年2月4-30年5月00《OntheompaabityofPetaiedLanuaeMdl(Mathas等,00)2020年,Goge出sonransorer(T)以解決計(jì)算機(jī)視覺(jué)問(wèn)題,這標(biāo)志著自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)兩個(gè)最重要深度學(xué)領(lǐng)域?qū)崿F(xiàn)底層算法的統(tǒng)一。T的核心思想是把圖像當(dāng)文本處理,即將完整的圖像劃分為若干個(gè)小塊,把各個(gè)小塊視為詞,把各個(gè)小塊構(gòu)成的完整圖像視為語(yǔ),在此基礎(chǔ)之進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)。圖表15:iT模將圖像當(dāng)作文本進(jìn)行處理《Anmgeisoth1616od:TanfoesformgeecgiinatSce(oovitiy等,2020)-10-行業(yè)深度研究行業(yè)深度研究相較,T在計(jì)算機(jī)視覺(jué)領(lǐng)域任務(wù)處理的優(yōu)點(diǎn)在于:計(jì)算量降低:注意力機(jī)制的引入使得神經(jīng)網(wǎng)絡(luò)可以將有限算力應(yīng)用于關(guān)鍵信息,降低了計(jì)算量、提升了神經(jīng)網(wǎng)絡(luò)的性能。關(guān)注全局信息T不僅能對(duì)局部特征進(jìn)行提取,還關(guān)注各個(gè)小塊之間的空間依賴(lài)關(guān)系,能夠依靠多個(gè)局部特征之間的空間關(guān)系輔助推理,使得神經(jīng)網(wǎng)絡(luò)智能程度得到顯著提升。相較,T在計(jì)算機(jī)視覺(jué)領(lǐng)域任務(wù)處理的缺點(diǎn)在于:1)需要更大的訓(xùn)練樣本ransforr相較N缺少一定的平移不變性和局部感知性,因而需要更大的訓(xùn)練樣本獲得對(duì)局部特征的學(xué)習(xí)。在Iageet-21k、F-300M等大數(shù)據(jù)集之中T較eset準(zhǔn)確性更高。2021年nransforer的提出很好地彌合了上述問(wèn),成為目前通用的骨干網(wǎng)絡(luò)與T始終進(jìn)行1616patch的全局建模不同,每層Snransforr模塊之間進(jìn)行了類(lèi)似于N池化層的atchergng降采樣操作,用于縮小分辨率,有效地降低了模型的計(jì)算復(fù)雜度。目前nransforr在圖像分類(lèi)、語(yǔ)義分割、目標(biāo)識(shí)別等領(lǐng)域均刷新了最優(yōu)記錄。圖表16:每層winTanfrer之間進(jìn)行了類(lèi)似N的atchering《SinTanfoe:ieacialiinTnfomeruinghftdno(eLu等,021,國(guó)金證券研究所探索多模態(tài)主干網(wǎng)絡(luò)T開(kāi)啟多模態(tài)時(shí)代之后,學(xué)術(shù)界開(kāi)始嘗試使用圖像以及其對(duì)應(yīng)的文本信息對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的理解能力。2021年1月penI發(fā)布了圖像和文本并行大規(guī)模多模模型L,該模型在超過(guò)4億的圖-文本對(duì)上進(jìn)行訓(xùn),優(yōu)點(diǎn)在使神經(jīng)網(wǎng)絡(luò)不僅關(guān)注特征之間的空間聯(lián)系,而且還會(huì)關(guān)注特之間的語(yǔ)義聯(lián)系,使得神經(jīng)網(wǎng)絡(luò)對(duì)圖的理解能力邁向新高度。圖表17:P多模態(tài)網(wǎng)絡(luò)采用圖-文本聯(lián)合訓(xùn)練OpenAI-1-行業(yè)深度研究行業(yè)深度研究現(xiàn)階段的多模態(tài)神經(jīng)網(wǎng)絡(luò)主要面向計(jì)算機(jī)視覺(jué)領(lǐng)域,還無(wú)法完成機(jī)器翻譯、閱讀理解等經(jīng)典自然語(yǔ)言處理任務(wù)。其主要目的是通過(guò)引入文本信息幫助神經(jīng)網(wǎng)絡(luò)更好地完成傳統(tǒng)視覺(jué)任務(wù),并且使神經(jīng)網(wǎng)絡(luò)能夠處理圖文檢索、語(yǔ)義圖像生成、語(yǔ)義圖像編輯等跨模態(tài)任務(wù),拓寬深度學(xué)習(xí)能夠面向的下游領(lǐng)域。圖表18:目前主流的多模態(tài)主干網(wǎng)絡(luò)公司發(fā)布時(shí)間模型名稱(chēng)多模態(tài)任務(wù)AI1年1月P圖文檢索、地理定位、視頻動(dòng)作識(shí)別微軟1年8月-3視覺(jué)推理、視覺(jué)問(wèn)答、圖像描述、圖文檢索OpenAI,微軟,探索ansoer時(shí)代的分支網(wǎng)絡(luò)ransforr統(tǒng)一了多模態(tài)、多任務(wù)的骨干網(wǎng)絡(luò),這也使得其分支網(wǎng)絡(luò)數(shù)量相對(duì)較少,往往是ransforer其他現(xiàn)有算法”的形式,學(xué)術(shù)界算法創(chuàng)新速度放。IGC領(lǐng)域:多模態(tài)ranfoer+擴(kuò)散模型人工智能生成內(nèi)容AG)是指由人工智能進(jìn)行創(chuàng)意創(chuàng)作,主要包括文學(xué)創(chuàng)作、代碼生成、圖像生成、視頻生成等。其中文學(xué)創(chuàng)作和代碼生成屬于單一模態(tài)任務(wù)、難度較低,基于ransforer主干網(wǎng)絡(luò)建立的大規(guī)模語(yǔ)言模型即可較好地適應(yīng)這類(lèi)任務(wù)。而圖像生成、視頻生成等任務(wù)難度較高,僅靠ransforer主干網(wǎng)絡(luò)難以很好地完成任務(wù),因而催生出一批由ransforer與其他現(xiàn)有算法結(jié)合而成的分支網(wǎng)。擴(kuò)散模型是一種圖像生成方法,其核心思想是污染與重構(gòu)。擴(kuò)散模型最早提出于2015年2020年o等人在原模型基礎(chǔ)上進(jìn)行了簡(jiǎn)化和建模方式改進(jìn),提出M模型,目前M是擴(kuò)散模型應(yīng)用的主流版本擴(kuò)散模型在訓(xùn)練時(shí)包括前向擴(kuò)散和反向生成過(guò)程兩個(gè)階段。在前向擴(kuò)散過(guò)程中,高斯噪音被逐步添加至圖像中,直到圖像成為完全隨機(jī)噪聲;在反向生成過(guò)程中,模型在每一個(gè)時(shí)間節(jié)點(diǎn)對(duì)噪聲的概率分布進(jìn)行預(yù)測(cè),并嘗試重構(gòu)圖像。相較GAN而言,擴(kuò)散模型訓(xùn)練更加穩(wěn)定,且能生成更加多樣的樣本;缺點(diǎn)是訓(xùn)練和推理速度較慢。圖表19:擴(kuò)散模型的前向擴(kuò)散和反向生成過(guò)程oadsataScience2022年4月penI基于多模態(tài)主干網(wǎng)絡(luò)L、結(jié)合擴(kuò)散模型方法,訓(xùn)練得到了新一代圖像生成模型LL·E2。該模型能夠完成語(yǔ)義圖像生成、語(yǔ)義圖像編輯、圖像風(fēng)格遷移等多種任務(wù),而用戶無(wú)需任何計(jì)算機(jī)知識(shí),僅需輸入簡(jiǎn)短文字即可完成圖像生成。-12-行業(yè)深度研究行業(yè)深度研究圖表20:M在GC領(lǐng)域的前沿成果公司發(fā)布時(shí)間模型名稱(chēng)多模態(tài)任務(wù)AI2年4月A·E2語(yǔ)義圖像生成e2年8月rtort語(yǔ)義圖像編輯a2年9月eavo語(yǔ)義視頻生成編輯、圖像視頻生成OpenAI,Gool,Mta對(duì)話機(jī)器人haG:語(yǔ)言rasfrer+強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)最早出現(xiàn)于20世紀(jì)60年代,核心思想是獎(jiǎng)勵(lì)機(jī)制,使模型能夠根據(jù)所處環(huán)境做出最優(yōu)決策Googe研發(fā)著圍棋人工智能phaGoero便是基于強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到。圖表21:強(qiáng)化學(xué)習(xí)模型示意來(lái)源:清華大數(shù)據(jù)軟件團(tuán)隊(duì)公眾號(hào),2022年1月0日,OpenI對(duì)外發(fā)布新一對(duì)話機(jī)器人hatGT,這是一個(gè)基于nstructGT模型,通過(guò)與人類(lèi)互動(dòng)進(jìn)行強(qiáng)化學(xué)習(xí)的語(yǔ)言網(wǎng)絡(luò)。相較G-3,nstructGT的參數(shù)量更小,但引入了人類(lèi)反饋強(qiáng)化學(xué)習(xí)LF)的方法。LF是強(qiáng)化學(xué)習(xí)的一種,其核心思想是將人類(lèi)提供的范例作為學(xué)習(xí)目標(biāo),當(dāng)神經(jīng)網(wǎng)絡(luò)輸出的內(nèi)容接近范例時(shí)給予神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)。LF的另一優(yōu)點(diǎn)是能夠幫助模型后續(xù)迭代升級(jí)。隨著hatGT免費(fèi)開(kāi)放給公眾使用,廣大用戶形成的對(duì)話資料在經(jīng)過(guò)數(shù)據(jù)處理后,將成為最好的訓(xùn)練數(shù)據(jù),助力模型智能水平進(jìn)一步提。小結(jié)及投資建議深度學(xué)習(xí)的三要素包括算法、數(shù)據(jù)和算力,本文主要對(duì)算法的演進(jìn)過(guò)程進(jìn)行了回顧,認(rèn)為過(guò)往神經(jīng)網(wǎng)絡(luò)的發(fā)展以eu激活函數(shù)的提出為分水嶺,分為淺層神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)兩個(gè)階段。在淺層神經(jīng)網(wǎng)絡(luò)階段,最重要的任務(wù)就是解決梯度不穩(wěn)定的問(wèn)。在這個(gè)問(wèn)題未被妥善解決之前,神經(jīng)網(wǎng)絡(luò)應(yīng)用性能不佳,而屬于非神經(jīng)網(wǎng)絡(luò)的支持向量機(jī)算法)是解決人工智能模式識(shí)別的主流方。201年eu激活函數(shù)被提、梯度消失問(wèn)題被大幅緩之后,神經(jīng)網(wǎng)絡(luò)進(jìn)入深度學(xué)習(xí)時(shí)代算法和應(yīng)用的發(fā)展均突飛猛。最初C、RN等模型在不同的模態(tài)和任務(wù)中各有擅長(zhǎng)2017年rnsforer的提出讓深度學(xué)習(xí)進(jìn)入了大模型時(shí)代2020年sonransfrer的提出讓深度學(xué)習(xí)進(jìn)入了多模態(tài)時(shí)代,自此多模態(tài)和多任務(wù)底層算法被統(tǒng)一為ransforer架構(gòu)。目深度學(xué)習(xí)算法主要是基于ransforer骨干網(wǎng)絡(luò)進(jìn)行分支網(wǎng)絡(luò)的創(chuàng)新,如引入擴(kuò)散模型、強(qiáng)化學(xué)習(xí)等方催生出G、hatGT等應(yīng)用熱。但隨著ransforr基本完成底層算法統(tǒng)一之后整個(gè)行業(yè)底層算法發(fā)展速度放緩,靜待骨干網(wǎng)絡(luò)的下一次突。同時(shí)基于ransforer對(duì)大數(shù)據(jù)的需求,催生了無(wú)監(jiān)督學(xué)習(xí)、高算力芯片的發(fā)展。-13-行業(yè)深度研究行業(yè)深度研究圖表22:神經(jīng)網(wǎng)絡(luò)各發(fā)展階段經(jīng)典模型梳理時(shí)代模型時(shí)間核心思想優(yōu)點(diǎn)缺點(diǎn)淺神網(wǎng)時(shí)感知機(jī)1958年通過(guò)激活函數(shù)進(jìn)行二元分類(lèi)神經(jīng)網(wǎng)絡(luò)發(fā)展的起點(diǎn)無(wú)法處理多維線性不可分的數(shù)據(jù)多層感知機(jī)1980s引入隱藏層及非線性激活函數(shù),處理多分類(lèi)任務(wù)可擬合非線性函數(shù),處多元分類(lèi)任務(wù)對(duì)算力要求高;所有輸入彼此獨(dú)立,失時(shí)間和空間信息RNN1986年每個(gè)神經(jīng)元既接受當(dāng)前時(shí)刻的輸入信息也接受上一時(shí)刻神元的輸出信息解決了時(shí)序信息的丟失題;計(jì)算量大大降低準(zhǔn)確率待提升,尤其圖像處理表現(xiàn)不佳CNNLeNet1998年通過(guò)多個(gè)卷積層對(duì)特征進(jìn)行提取和壓縮,得到高層次特征解決了空間信息的丟失問(wèn)題;計(jì)算量大大降低準(zhǔn)確率待提升,尤其是NL表現(xiàn)不佳-2006年用逐層無(wú)監(jiān)督初始化P算法有監(jiān)督學(xué)習(xí)的方法解決梯度消的問(wèn)題緩解梯度消失問(wèn)題實(shí)際應(yīng)用表現(xiàn)一般深學(xué)時(shí)leNet2012年CNNReLu激活函數(shù)+輸入值有監(jiān)督學(xué)習(xí)+PU訓(xùn)練梯度消失問(wèn)題大大緩解,準(zhǔn)確率更高訓(xùn)練速度提升NL表現(xiàn)不佳rans-ormer-2017年引入注意力機(jī)制,信息賦予不同的權(quán)開(kāi)啟了大模型時(shí)代,可并行處理大數(shù)據(jù),訓(xùn)練時(shí)減少;加強(qiáng)了對(duì)時(shí)序特征的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 半電動(dòng)堆高機(jī)行業(yè)市場(chǎng)發(fā)展及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025標(biāo)準(zhǔn)私人房產(chǎn)合同
- 2024年素質(zhì)教育培訓(xùn)行業(yè)市場(chǎng)調(diào)查研究及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 寧夏吸塑托盤(pán)項(xiàng)目資金申請(qǐng)報(bào)告
- 2024-2027年中國(guó)軟件建模行業(yè)市場(chǎng)調(diào)研及未來(lái)發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 湖北省2024年初中學(xué)業(yè)水平考試模擬訓(xùn)練語(yǔ)文試卷含答案
- 2020-2025年中國(guó)安全防護(hù)服行業(yè)市場(chǎng)運(yùn)營(yíng)現(xiàn)狀及投資戰(zhàn)略咨詢(xún)報(bào)告
- 年產(chǎn)噸無(wú)氧光亮銅桿項(xiàng)目可行性研究報(bào)告
- 2024-2027年中國(guó)UWB定位市場(chǎng)競(jìng)爭(zhēng)態(tài)勢(shì)及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 2025年全球核燃料行業(yè)市場(chǎng)調(diào)研與發(fā)展前景預(yù)測(cè)分析報(bào)告
- 2024年03月中國(guó)農(nóng)業(yè)發(fā)展銀行內(nèi)蒙古分行校園招考擬招錄人員筆試歷年參考題庫(kù)附帶答案詳解
- 2024年盾構(gòu)操作工職業(yè)技能競(jìng)賽理論考試題庫(kù)(含答案)
- ISO 56001-2024《創(chuàng)新管理體系-要求》專(zhuān)業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之8:“5領(lǐng)導(dǎo)作用-5.2創(chuàng)新方針”(雷澤佳編制-2025B0)
- (西北卷)名校教研聯(lián)盟2025屆高三12月聯(lián)考英語(yǔ)試卷(含答案解析)
- 金科新未來(lái)大聯(lián)考2025屆高三12月質(zhì)量檢測(cè)語(yǔ)文試題(含答案解析)
- 江蘇省2025年高中學(xué)業(yè)水平合格考?xì)v史試卷試題(含答案詳解)
- 《地下水環(huán)境背景值統(tǒng)計(jì)表征技術(shù)指南(試行)》
- 大學(xué)試卷(示范)
- 高職院校智能制造實(shí)驗(yàn)室實(shí)訓(xùn)中心建設(shè)方案
- 房產(chǎn)交易管理平臺(tái)行業(yè)發(fā)展預(yù)測(cè)分析
- 檔案工作人員分工及崗位責(zé)任制(4篇)
評(píng)論
0/150
提交評(píng)論