版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
3 6 6 18 27 38 51 54 72 76 4.3從謀求模型與數(shù)據(jù)規(guī)模的“極致”,向場 80 90 92 1伴隨互聯(lián)網(wǎng)/行業(yè)大數(shù)據(jù)、并行計(jì)算能力、機(jī)器學(xué)習(xí)算法的突破和人Transformer、華為盤古、悟道、ERINE、M6等大規(guī)模預(yù)訓(xùn)練模型快件下“大數(shù)據(jù)+大模型”的大規(guī)模預(yù)訓(xùn)練范式轉(zhuǎn)變,即基于海量廣域第二名。2019年以后,基于自監(jiān)督學(xué)習(xí)的語言模型已成為基礎(chǔ)性方2破很相似,標(biāo)志著一個(gè)大模型時(shí)代的開始。當(dāng)下,自然語言處理模型(State-Of-The-Artmodel,S使不同領(lǐng)域任務(wù)在統(tǒng)一框架下實(shí)現(xiàn)基于低標(biāo)注代價(jià)的性能提升?一34567L(x)=ilogP(xi|xi-k,…,xi-1;θ)自編碼的預(yù)訓(xùn)練方法代表性的工作是掩碼語言模型,如BERT。簡單來說,模型需要通過對于遮蓋數(shù)據(jù)的預(yù)測進(jìn)行參數(shù)優(yōu)化。如圖8對于句子x,假設(shè)其中存在m個(gè)需要預(yù)測的詞匯,那么其損失函L(x)=Σi1logP([mask]i=yi|x-,θ)9MASS能夠?qū)幋a器和解碼器進(jìn)行聯(lián)合訓(xùn)練提高特征抽取和語言模型要和對話生成等,進(jìn)行參數(shù)微調(diào)能夠獲得較好的性能。BART通過先損壞文檔再解碼恢復(fù)的策略實(shí)現(xiàn)從損壞文檔到原始文檔之間的魯棒映射。另一類方法使用注意力機(jī)制將理解和生成任務(wù)結(jié)合起來,如和性能表現(xiàn);MacBERT[15]則使用相似詞替換[MASK]字符,以緩和預(yù)融合多語言的預(yù)訓(xùn)練模型旨在使用同一套參數(shù)處理多種不同的多語言融合的預(yù)訓(xùn)練模型往往能夠在跨語言任務(wù)上取得不錯(cuò)的一些工作希望將知識圖譜中的事實(shí)三元組信息融入到預(yù)訓(xùn)練模階段使用知識對于文本表示進(jìn)行增讓,如K-BERT[16],它使用樹狀更深層次的信息,從而在后續(xù)的解碼階段模型才能夠生成語義通順、PLATO-XL[17]也成為了全球最大的對話生成模型。2019年百度發(fā)布了通用領(lǐng)域的對話模型PLATO,該模型首次提出了將離散隱變量與Transformer的編碼器-解碼器結(jié)構(gòu)相結(jié)合,離散隱變量的每一個(gè)取增加訓(xùn)練集數(shù)據(jù),將模型增加到16億參數(shù)。此外,PLATO-2將具體估模型則用來學(xué)習(xí)回復(fù)的一致性從而選擇最合適的回復(fù)。PLATO-XL以生成更加流程一致的回復(fù)。PLATO-XL憑借其千億級的訓(xùn)練語料和百億級的參數(shù)規(guī)模已經(jīng)在各類評估指標(biāo)上顯著超越了目前主流的對Facebook提出的Blender對話模型具有僅次于PLATO-XL的94三個(gè)子模型:檢索模型、生成模型、檢索+生成模型。檢索模型以對方式,首先檢索出候選的回復(fù),再將該候選傳入生成器中作為參考,1)模型會經(jīng)常重復(fù)對方的說話內(nèi)容,產(chǎn)生較為普遍的迎合式或2)模型無法記住所有的歷史信息,也無法根據(jù)對話內(nèi)容建立邏3)模型缺乏對知識和客觀事實(shí)的理解,除非針對特定領(lǐng)域精心意力、混合專家模型(MixtureofExpert)等。最近,混合專家模由于超大規(guī)模預(yù)訓(xùn)練模型本身大量的參數(shù)難以進(jìn)行全參數(shù)的微而同時(shí)不可忽視的是,無監(jiān)督/自監(jiān)督學(xué)習(xí)這類方法已經(jīng)革新了自然/自監(jiān)督學(xué)習(xí)將是實(shí)現(xiàn)人類智能的關(guān)鍵,被廣泛認(rèn)為是通往通用人工習(xí)到的視覺特征遷移到下游任務(wù)(downstreamtask),使用少量帶深度圖像聚類:深度圖像聚類[26]是將聚類與深度結(jié)合的方法,棄填補(bǔ)0像素值,之后利用卷積神經(jīng)網(wǎng)絡(luò)的編碼-解碼結(jié)示。在訓(xùn)練完成后,將編碼-解碼模塊的部分參數(shù)作為預(yù)訓(xùn)練模型應(yīng)了極大的突破,其成功基于兩方面:1).視覺Transformer的提出,為計(jì)算機(jī)視覺和自然語言處理的預(yù)訓(xùn)練統(tǒng)一奠定了基礎(chǔ);2).分析了MAE[28]的框架圖如圖2.2-6所示。圖像經(jīng)過線性層映射成詞條在密集預(yù)測的下游任務(wù)中使用。此外微軟亞研院提出的BEiT[29]、SimMIM[30]也是此類方法中的一),MoCo:此方法基于對比學(xué)習(xí)的基礎(chǔ)上提出了記憶池(memorybank),該方法使用一個(gè)在內(nèi)存中的memorybank保存以往樣本的特SimCLR:此方法基于對比學(xué)習(xí)的基礎(chǔ)上,將同一個(gè)批次(batch)比學(xué)習(xí)的思想,即對于同一圖像的不同視角仍然是一個(gè)類別。BYOL表方法:DeepMind提出的多任務(wù)學(xué)習(xí)框架[38],中科院自動(dòng)化所提DeepMind提出的方法由4個(gè)自監(jiān)督任務(wù)組成:(a)切片的相對位學(xué)習(xí)工作iBoT[40],參考MST利用教師模型產(chǎn)生的信息給予學(xué)生模歸預(yù)測編碼VQ-APC(Vector-Q來源:2019年臺灣大學(xué)AndyT.Liu等人提出了一種新的語音表示學(xué)習(xí)方法Mockingjay[48],該方法使用雙向的TransformerEncoder別、基于語音的情感分析等。除此之外,實(shí)驗(yàn)證明用Mockingjay方現(xiàn);在Mockingjay模型的基礎(chǔ)上,該團(tuán)隊(duì)又提出了兩種進(jìn)階優(yōu)化版來源:/p絡(luò),并且加入了一個(gè)VQ模塊學(xué)習(xí)離散化的特征,在下游任務(wù)上取得來源:來源:除了上述介紹的一系列基于掩碼重構(gòu)的預(yù)訓(xùn)練方法,AlexanderH.Liu等人提出一種使用兩側(cè)幀的信息預(yù)測中間幀信息的預(yù)訓(xùn)練方[51],通過感受野限制信息的前向傳遞過程來確保重建過程只依賴于(mask)的幀前后的幀,從而可以進(jìn)一步提升模來源:https://arxiv.or比學(xué)習(xí)的語音預(yù)訓(xùn)練模型CPC[52],模型直接使用原始音頻數(shù)據(jù)作為來源:Wav2Vec[53],如圖2.3-8所示,將原始音頻信號作為輸入,然后應(yīng)文網(wǎng)絡(luò)將編碼器的多個(gè)時(shí)間步組合在一起以獲得上下文表示。Wav2Vec首次嘗試使用卷積神經(jīng)網(wǎng)絡(luò)用于ASR領(lǐng)域通過對比學(xué)習(xí)令當(dāng)前輸出的特征去預(yù)測未來時(shí)刻的特征。通過來源:/pub/2019_Wav2V進(jìn)階優(yōu)化版本VQ-Wav2Vec[54]了同年自然語言處理NLP領(lǐng)域提出來的BERT中的思想,首先在信息捕捉能力,在各種下游任務(wù)中都能達(dá)到當(dāng)時(shí)的最佳性能。圖2.3-9VQ-Wav2Vec框架圖來源:/p2020年Facebook該團(tuán)隊(duì)再次將VQ-Wav一步的改進(jìn)和優(yōu)化,將原先VQ-Wav2Vec兩階段的預(yù)訓(xùn)練合并到了一接在下游任務(wù)進(jìn)行微調(diào)。Wav2Vec2.0能夠?qū)W習(xí)到用于解決自監(jiān)督任來源:/督語音表征的新方法HuBERT[56],HuBERT借鑒了自監(jiān)督視覺表HuBERT通過學(xué)習(xí)未掩碼音頻的連續(xù)表征編碼以及捕捉所學(xué)表征詞匯資源。HuBERT在語音識別、語音生成、語音壓縮等多種語音任來源:預(yù)測的方法對離散化的語音進(jìn)行建模。Wav2Vec-BERT使用端到端的等下游任務(wù)上進(jìn)一步刷新了同期最好模型的性能。一種利用多個(gè)自監(jiān)督訓(xùn)練任務(wù)來學(xué)習(xí)語音表示的工作問題無關(guān)語音型可以學(xué)習(xí)到問題無關(guān)的語音特征。通過P來源:隨著基于TransformerEncoder的BERT[59]的出現(xiàn),基于大規(guī)等。VL-BERT提出一種圖像+文本的多模態(tài)預(yù)訓(xùn)練模型,該模型將圖像的文本描述和目標(biāo)區(qū)域作為BERT的輸入,通過隨機(jī)掩碼(mask)掉視頻+文本的預(yù)訓(xùn)練模型,使用融合文本信息和視頻序列作為輸入。UNITER提出了一種多任務(wù)的多模態(tài)預(yù)訓(xùn)練方法,相對于其它方法,作者增加了圖文匹配模塊,來更進(jìn)一步建立圖像與文本之CLIP[65]等。ViLBERT提出使用Tra測和圖文匹配預(yù)測兩種預(yù)訓(xùn)練任務(wù)。LXMERT呈現(xiàn)與ViLBERT類似的雙流結(jié)構(gòu),主要的不同在于LXMERT引入視覺問答作為預(yù)訓(xùn)練任務(wù),因而在下游的視覺問答任務(wù)能夠?qū)崿F(xiàn)比ViLBERT更高的性能。CLIP[65]模型是一個(gè)雙塔結(jié)構(gòu),一條分支使用ResNet/ViT進(jìn)行圖像特征編碼,另一條分支使用BERT進(jìn)行文本特征編碼,最后使用對比學(xué)習(xí)越來越多的關(guān)注。該系列模型采用Transformer的解碼部分。GPT-3機(jī)構(gòu)發(fā)布基于大規(guī)模預(yù)訓(xùn)練的文本到圖像生成模一個(gè)鱷梨形狀的扶手椅。雖然DALL-E在一定程度上提供了對少量物對象時(shí),DALL-E容易混淆對象及其顏色之間的關(guān)聯(lián),成功率會急?。F(xiàn)比DALL-E更好的結(jié)果,同時(shí)只需微調(diào)就能執(zhí)行超分辨率、風(fēng)格遷M6[72]等。VL-T5使用編解碼結(jié)構(gòu),將一系列多模態(tài)任務(wù)都統(tǒng)一建預(yù)訓(xùn)練任務(wù)。阿里巴巴達(dá)摩院提出M6模型,共享編碼器和解碼器的任務(wù)。實(shí)體概念等先驗(yàn)語義知識,學(xué)習(xí)真實(shí)世界的語義關(guān)系。具體來說,念的語義表示。相較于BERT學(xué)習(xí)原始語言信號,ERNIE直接對先驗(yàn)一個(gè)知識增強(qiáng)的ERNIE模型[74],與百度所提出的ERNIE不同的是,該模型修改了BERT的結(jié)構(gòu),將知識圖譜引入到了模型中,能同時(shí)在研究者設(shè)計(jì)了一種新型預(yù)訓(xùn)練目標(biāo),即隨機(jī)Mask掉一些對齊了輸入齊。現(xiàn)存的預(yù)訓(xùn)練表征模型只利用局部上下文預(yù)測Token,但ERNIE的新目標(biāo)要求模型同時(shí)聚合上下文和知識事實(shí)的信息,并同時(shí)預(yù)測比如,微軟和華盛頓大學(xué)提出OSCAR模型[75],引入目標(biāo)類別標(biāo)簽(objecttags)作為橋梁,來連接視覺和文本模態(tài),幫助更好地對2.4.6大規(guī)模超參模型的優(yōu)化方法與泛化理論監(jiān)督/自監(jiān)督預(yù)訓(xùn)練模型上的應(yīng)用還少有出現(xiàn)。此外,用千萬量級數(shù)模型參數(shù)數(shù)量并不能很好地描述模型復(fù)雜度,特別是當(dāng)模型的在人工智能平臺方面,2016年谷歌DeepMind開源了DeepMindLab3D游戲平臺,主要面向智能體的人工智能研究,代表性工作包括AlphaGo[95]、AlphaZero[96]、具有計(jì)劃能力的MuZero[97]和提供的游戲、網(wǎng)站或其他的應(yīng)用程序評價(jià)和訓(xùn)練一個(gè)AI通用智能模型,代表性的工作是Gym訓(xùn)練接口和GPT-3系列。2019年谷歌在GoogleCloudNext2019大會推出了AI平臺,便于開發(fā)人員和數(shù)據(jù)學(xué)習(xí)表格(AutoMLTables)獲取數(shù)據(jù)庫中的表數(shù)據(jù)并自動(dòng)創(chuàng)建模型預(yù)Vision)便于在邊緣設(shè)備上部署并檢測圖片中的物體。這些工具和服務(wù)可以組合起來應(yīng)用在特定垂直領(lǐng)域,譬如新零售、搜索等。2018年臉書開源強(qiáng)化學(xué)習(xí)AI平臺Horizon主要解決端到端行業(yè)應(yīng)用的強(qiáng)化學(xué)習(xí)平臺,主要應(yīng)用在機(jī)器人和游戲等場景。大模型方面,國際上比較有代表性的單位有OpenAI、微軟、谷據(jù)和參數(shù)呈指數(shù)上升,通過無監(jiān)督學(xué)習(xí)條件下的“大數(shù)據(jù)+大模型”模仿寫作、翻譯、聊天、生成代碼、數(shù)學(xué)分析、制作簡歷、設(shè)計(jì)網(wǎng)頁等,因此吸引了全球AI領(lǐng)域的關(guān)注,被廣泛認(rèn)為是通往通用人工智能(AGI)的重要途徑之一。GPT-3采用預(yù)訓(xùn)練語等方法,證明了基于“大數(shù)據(jù)+大規(guī)?!钡募夹g(shù)路計(jì)算機(jī)代碼并具有巨大的潛力——如果它創(chuàng)建的計(jì)算機(jī)代碼被證明源下,其訓(xùn)練速度上比Google之前研發(fā)的最大模型T5-XXL還要快4倍。它由混合專家(MixofExpert,MoE)AI模型范式發(fā)展而來。的圖像可以像在現(xiàn)實(shí)世界中拍攝的一樣。與此同時(shí)發(fā)布的Megatron驅(qū)動(dòng)的Megatron-Turing自然語言生成模型(MT-),這是迄今為止訓(xùn)練的最大和最強(qiáng)大的解碼語言模型。這個(gè)模型包括微調(diào)可以提高GPT-3在某些任務(wù)上的性能。OpenAI還發(fā)現(xiàn),結(jié)果質(zhì)調(diào),一個(gè)用戶能夠?qū)⒄_輸出率從83%提高到95%。另一用戶通過每周添加他們產(chǎn)品的新數(shù)據(jù),將錯(cuò)誤率降低了50%。型開發(fā)平臺、大模型高效推理工具包BMInf、全新升級的AI文圖繪舉辦新聞發(fā)布會,聯(lián)合發(fā)布全球首個(gè)知識增強(qiáng)千億大模型——“鵬),技術(shù),模型參數(shù)壓縮率可達(dá)99.98%。壓縮版模型僅保留0.02%參數(shù)大模型為核心,基于全棧國產(chǎn)化基礎(chǔ)軟硬件平臺,可支撐全場景AI音生圖,將開拓AI在視頻配音、語音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等更多元場景的應(yīng)用。構(gòu)為:最底層是微芯片層;第二層是百度自研的深度學(xué)習(xí)框架百度在開發(fā)方式方面提供云和端兩種開放的方式-云端結(jié)合。最右側(cè)的AI市場是為開發(fā)者和合作伙伴、企業(yè)搭建的上下游產(chǎn)品服務(wù)交易阿里云AI平臺依托其算法技術(shù)、云計(jì)算基礎(chǔ)設(shè)施和平臺服務(wù),了MoE模型,并通過更細(xì)粒度的CPUoffload技術(shù),最終實(shí)現(xiàn)為通用性AI大模型,M6擁有多模態(tài)、多任務(wù)能力,尤其擅長設(shè)計(jì)、用前景。與傳統(tǒng)AI相比,大模型擁有成百上千倍神經(jīng)元數(shù)量,認(rèn)知需能耗,能讓一輛汽車在地月之間往返一趟。2021年5月,通過專家并行策略及優(yōu)化技術(shù),達(dá)摩院M6團(tuán)隊(duì)將萬億模型能耗降低超過為強(qiáng)大的AI處理能力。華為云盤古系列大模型包括NLP(中文語言)結(jié)合,盤古大模型能快速實(shí)現(xiàn)不同場景的適配,加速AI行業(yè)應(yīng)用,族還在不斷壯大,2021年9月華為云新推出盤古藥物分子大模型,其研究了17億個(gè)小分子的化學(xué)結(jié)構(gòu),可以高效生成藥物新分子,計(jì)定向優(yōu)化,實(shí)現(xiàn)全流程的AI輔助藥物設(shè)計(jì)。結(jié)合華為云盤古大模型騰訊云TI平臺是基于騰訊云強(qiáng)大計(jì)算能力的一站式機(jī)器學(xué)習(xí)生訓(xùn)練、評估和預(yù)測。TI系列產(chǎn)品支持公有云訪問、私有化部署以及專屬云部署。TI-ACC是騰訊云AI和優(yōu)圖實(shí)驗(yàn)室最新發(fā)布的一款A(yù)I類任務(wù)1.0和1.1中拿下業(yè)界第一的好成績。騰訊云自然語言處理2021年9月28日,浪潮人工智能研究院宣布推出大模型“源和570GB訓(xùn)練數(shù)據(jù)集,“源1.0”的參數(shù)規(guī)模增加了了其人工智能戰(zhàn)略愿景,提出了三個(gè)核心行動(dòng)支柱1)投資并規(guī)強(qiáng)國的領(lǐng)導(dǎo)地位2)支持向人工智能賦能經(jīng)濟(jì)轉(zhuǎn)型,從英國創(chuàng)新中獲益,確保人工智能惠及所有產(chǎn)業(yè)和地區(qū)3)確保英國獲得人工智能技術(shù)的治理權(quán),以鼓勵(lì)創(chuàng)新和投資,保護(hù)公眾和基本價(jià)值觀。會—國家人工智能咨詢委員會(NAIAC)。該委員會將就人工智能相超大規(guī)模訓(xùn)練數(shù)據(jù)的可用性。未來AI發(fā)展的最大趨勢主要包括:從再變成小模型等。同時(shí)以低代碼低成本高效率的AI模型算法快速開這些趨勢上的變化,在應(yīng)用層面上也早有顯露。實(shí)現(xiàn)AI模型工業(yè)化的必要條件是標(biāo)準(zhǔn)化、輕量化和通用化,并結(jié)合SaaS商業(yè)模式可行路徑,將打破傳統(tǒng)AI模型“手工作坊式”的行業(yè)瓶頸。量的無標(biāo)注文本數(shù)據(jù)上采用相應(yīng)的訓(xùn)練方法訓(xùn)練得到最終的預(yù)訓(xùn)練種技術(shù)也成為了預(yù)訓(xùn)練大模型關(guān)鍵技術(shù)之一。為此,本節(jié)將從務(wù)的應(yīng)用方式以及預(yù)訓(xùn)練大模型的并行訓(xùn)練與部署等四個(gè)方面對大單詞的表示向量X,X由單詞的嵌入表達(dá)(Embedding就的編碼信息傳遞到解碼器中,解碼器依次會根據(jù)當(dāng)前看見過的單詞組成的。針對句子中的每個(gè)詞,自注意力根據(jù)輸入線性變換得到的(ResidualConnection)用于防止網(wǎng)絡(luò)退化,Norm表示層歸一化基于微調(diào)的方法是指在完成預(yù)訓(xùn)練模型在大規(guī)模無標(biāo)注數(shù)據(jù)上型針對不同任務(wù)的微調(diào)方式,在BERT模型中,針對文本分類模型,微調(diào)時(shí)在每個(gè)輸入對應(yīng)的[CLS]表示后接一個(gè)全連接層作為分類輸出拼接,之后再采用輸出中的[CLS]的表示做分類。對于等有具體情感傾向的詞,最后再將這些詞映射為相應(yīng)的情感類別中, 的預(yù)訓(xùn)練語言模型可以被用來解決各種各樣的下游任務(wù)。采用多機(jī)多卡的訓(xùn)練方式是緩解大規(guī)模預(yù)訓(xùn)練模型難以訓(xùn)練的步等問題受到了許多關(guān)注,各種訓(xùn)練框架也應(yīng)運(yùn)而生。Nvidia開發(fā)的Megatron-LM訓(xùn)練框架可以直接將大規(guī)模預(yù)訓(xùn)練語言模型在多機(jī)行的能力,并支持APEX的混合精度加速訓(xùn)練,下圖為Megatron-LM基于MoE的預(yù)訓(xùn)練模型提供了高效的分布式訓(xùn)練框架。將大規(guī)模的預(yù)訓(xùn)練語言模型通過知識蒸餾縮減為小規(guī)模模型成為了實(shí)際應(yīng)用中常用的方式。知識蒸餾使用教師模型(在這里即為大規(guī)模預(yù)訓(xùn)練模型)的輸出和數(shù)據(jù)的真實(shí)標(biāo)簽去訓(xùn)練學(xué)生模型。這樣可以將甚至3D(視頻),這就造成在同等參數(shù)規(guī)模下,視覺模型往往具有前視覺大模型在模型規(guī)模上落后于文本等領(lǐng)域模型規(guī)模的主要原因。MOCOv3發(fā)現(xiàn)這種不穩(wěn)定性主要是由于訓(xùn)練過程中梯度的突變導(dǎo)略,掩碼比例高達(dá)75%,并且實(shí)驗(yàn)表明這種預(yù)訓(xùn)練方式不僅能夠獲得隨著模型參數(shù)規(guī)模的不斷增大,性能也趨向飽和[11,12,20],如圖家模型(MoE,MixtureofExperts)。稀疏擴(kuò)容最早應(yīng)用于NLP領(lǐng)在視覺預(yù)訓(xùn)練任務(wù)中,也有少部分工作嘗試對模型進(jìn)行稀疏擴(kuò)容在ImageNet上的精度只略高于現(xiàn)有中型模型。此某個(gè)評估方式下性能表現(xiàn)好并不代表在其他評估方式下具備同樣的此外,視覺大模型方面,面對多種多樣的視覺任務(wù),采用APC和VQ-APC都是基于自回歸的語音預(yù)訓(xùn)練模型,模型的輸入Mockingjay是一種使用雙向Transformer編碼網(wǎng)絡(luò)在大規(guī)模無過過去時(shí)刻的信息對未來時(shí)刻的信息進(jìn)行預(yù)測,而Mockingjay通過過去和未來幀的信息來共同預(yù)測當(dāng)前幀的信息。為了實(shí)現(xiàn)這一點(diǎn),通過該任務(wù)來學(xué)習(xí)語音的特征表示。掩碼聲學(xué)建模的方式與Bert中掩碼語言建模的方式(MaskedLanguageModel)類似,選擇15%的80%會被置為0,10%保持不變,另外10%替換成其他任意幀,最型根據(jù)上下文信息對被遮蓋的幀進(jìn)行預(yù)測,模型使用L1損失函數(shù)來神經(jīng)網(wǎng)絡(luò)(CNN)作為非線性編碼器將分割的時(shí)間窗口上每個(gè)觀測值主要方法是將來自于當(dāng)前上下文特征表示相隔k個(gè)步長的樣本作為前上下文特征之間的互信息同時(shí)最小化負(fù)樣本與當(dāng)前上下文特征之VQ-Wav2Vec在Wav2Vec的基礎(chǔ)上做了進(jìn)一步的改進(jìn),在特征編碼器的后面加了一層量化模塊,使用K-means或者Gumbal-softmax1)使用CNN特征編碼器、量化模塊、CNN上下文模塊,基于對2)基于VQ-Wav2Vec的離散化輸出,參考BWav2Vec2.0又在VQ-Wav2Vec的基礎(chǔ)上將訓(xùn)練流程做了進(jìn)一步優(yōu)不同于其他語音無監(jiān)督學(xué)習(xí)方法,Wav2Vec2.0沒有嘗試對音頻些建模單元使得模型將注意力集中在代表語音音頻的最重要因素上。Wav2Vec2.0只需要很少的訓(xùn)練數(shù)據(jù)就可以取得不錯(cuò)的性能,通過跨語言的預(yù)訓(xùn)練,Wav2Vec2.0還可以學(xué)習(xí)多種語言使用的語音單元,極大地降低了很多小語種語音識別中資源不足的問題。HuBERT是一種使用掩碼預(yù)測任務(wù)(maskedpredition)來學(xué)習(xí)通過在聚類和預(yù)測過程之間交替,HuBERT會隨著時(shí)間的推移改進(jìn)其2)每一幀獲取學(xué)習(xí)目標(biāo)之后,針對掩碼的位置,進(jìn)行掩碼預(yù)測3)進(jìn)行迭代式的聚類,基于之前的預(yù)訓(xùn)練模型,根據(jù)預(yù)訓(xùn)練模HuBERT成功實(shí)現(xiàn)了對語音信號的直接語言建模,在低資源語音目前應(yīng)用深度學(xué)習(xí)技術(shù)時(shí)通常把數(shù)據(jù)獲取和數(shù)據(jù)處理兩部分分計(jì)算的網(wǎng)絡(luò)模型結(jié)構(gòu),改進(jìn)甚至是替代Transformer。效的訓(xùn)練方式?,F(xiàn)在的預(yù)訓(xùn)練都是基于Softmax、回歸或者對比損失預(yù)訓(xùn)練模型通常需要領(lǐng)域標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)來實(shí)現(xiàn)具體下游任級訓(xùn)練,從而得到小模型。第二種方式類似現(xiàn)在NLP中非?;鸬膒rompt方法,它跟蒸餾其實(shí)非常像,相當(dāng)于預(yù)先找到了一個(gè)最佳的NLP領(lǐng)域幾乎所有的同期最好模型都是少數(shù)幾個(gè)基于Transformer的1科技部新一代人工智能發(fā)展研究中心:《中國新一代人工智能發(fā)適配訓(xùn)練套件和AI算法工具包等。基礎(chǔ)軟硬件已經(jīng)成為人工智能基),但只是單純在現(xiàn)有基礎(chǔ)上進(jìn)行擴(kuò)大,并且發(fā)現(xiàn)ROI(投資回報(bào)率)比4.4多模態(tài)大模型成為人工智能基礎(chǔ)設(shè)施,模型研發(fā)從“手工作坊”行業(yè)痛點(diǎn)。大部分AI項(xiàng)目落地還停留在“手工作坊”階段,要實(shí)現(xiàn)AI模型落地全流程,需要包括確定需求、數(shù)據(jù)收集、模型算法設(shè)訓(xùn)練調(diào)優(yōu)、應(yīng)用部署和運(yùn)營維護(hù)等階段。這需要AI研發(fā)人員扎實(shí)的專業(yè)知識和協(xié)同合作能力。近期比較有影響力的DALL-E和CLIP,前者是用于給定模板化文本輸于詞條級別(Token-level)、模態(tài)級別(Mo以多模態(tài)大模型為核心的通用人工智能平臺上,可以讓AI模型研發(fā)人效低。作為AI新基礎(chǔ)設(shè)施的多模態(tài)預(yù)訓(xùn)練大模型成為降低人員研大模型可以解決傳統(tǒng)AI模型難以泛化和復(fù)制的難題,基于大模型可快的完整鏈條閉環(huán),大幅提升AI模型的開發(fā)效率,降低面向不同項(xiàng)題,用戶才愿意為此買單,實(shí)現(xiàn)AI模型賦能各行各業(yè)。媒體多模態(tài)大模型”,將加速推動(dòng)AI在如視頻配音、語音播報(bào)、標(biāo)以及手勢/觸覺等其他方式。對話一般包括閑聊、知識型問答和任務(wù)要應(yīng)用場景。大模型有助于實(shí)現(xiàn)更智能的對話客服服務(wù)應(yīng)用。根據(jù)平臺、大模型高效推理工具包BMInf、全新升級的AI文圖繪畫大師賦能產(chǎn)業(yè)應(yīng)用案例:冬奧會語音播報(bào)數(shù)字人和OPPO小布助手問答系小布助手開放式對話的長尾問題,單條回答建設(shè)成本降低99%。DeepMind聯(lián)合谷歌旗下生物科技公司Calico,開發(fā)了一種結(jié)合流程。但是基于文到圖生成技術(shù),可以直接把流行的款式描述輸入使用原來5%左右的樣本,通過率就可以達(dá)到百分之八十五以上。這把主播的話轉(zhuǎn)化成文字,需要把主播說話時(shí)非??谡Z化的部分去掉,6多模態(tài)大模型發(fā)展規(guī)劃建議速完善國產(chǎn)基礎(chǔ)軟硬件體系,以及加強(qiáng)AIforScience等人工智能6.1打造工業(yè)化范式的多模態(tài)大模型生態(tài)薦引擎、AI助理等多模態(tài)應(yīng)用服務(wù),讓多模態(tài)預(yù)訓(xùn)練模型實(shí)現(xiàn)研發(fā)6.2持續(xù)完善國產(chǎn)基礎(chǔ)軟硬件支撐體系但經(jīng)過幾年努力,像華為的昇思MindSpore,百度的飛槳PaddlePaddle以及寒武紀(jì)芯片等都形成了自有生態(tài),實(shí)現(xiàn)了從“不可用”練和推理套件研發(fā),推動(dòng)國產(chǎn)AI計(jì)算設(shè)施與行業(yè)已有業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)6.4健全人工智能產(chǎn)業(yè)應(yīng)用政策標(biāo)準(zhǔn),大力培養(yǎng)復(fù)合型人才[1]MatthewE.Peters,MarkNeumann,MohitIyyerClark,KentonLee,LukeZettlemoyer.Deepcontextualizedwordrepresentations.NAACL2018[2]AlecRadford,KarthikNarasimhaLanguageUnderstandingbyGenerativePre-Training.Pre-trainingofDeepBidirectionalTransformersfoSutskever.LanguageModelsareUnsupervisedMultita[5]TomB.Brown,Benjam[6]ZhilinYang,ZihangDai,YimingYang,JaimeCarboneQuocV.Le.XLNet:GeneraUnderstanding.NeurIPS2sequencetosequencepre-trainingforlanguagegeneratidenoisingsequence-to-sequencepre-trainingfornaturallanguagegeneration,translation,andcomprehension.arXiv:1910.13461[9]LiDong,NanYang,WenhuiWang,FuruWei,XiaodongLiu,naturallanguageunderstandingandgenOmerLevy,MikeLewis,LukeZettlemoyer,andVeselinSrobustlyoptimizedBERTpretrainingapproach.arXivpreprintarXiv:1907.11692,[11]JunqiuWei,XiaozheRen,XiWang,JiashuLin,XinJiang,XiaoCcontextualizedrepresentatiERNIE:enhancedlanguagerepresentationwithHaifengWang.ERNIE2.0:Acontinualpretrainingframeworkforlunderstanding.InAAAI,2019.pre-trainingchinesetextencoderenhancedbyn-gramrepresentations.arXivpreprintarXiv:1911.00720,2019.RevisitingPre-TrainedModelsfor[16]WeijieLiu,PengZhou,ZheZhao,ZhiruoWang,QiJWang.K-BERT:Enablinglanguagerepresentati[17]SiqiBao,HuangHe,FanWang,HuaWu,HaifengWang,WenZhengyuNiu.PLATO-XL:ExploringtheLarge-scalePre-trainingofGeneration.arXiv:2109.09519distilledversionofBERT:smaller,faster,cheaperandlighter.NeurZhou.MobileBERT:aCompactTask-AgnosticBERTforResource-LimitedContinualLearning.arXiv:forZero-shotLearningbyMeta-tuningonDatasetandPromptCollections.[22]BenjaminNewman,PrafullaKumarChoubey,NazneenRajani.P-Adapters:Prompts.arXiv:2110[23]JingL,TianY.Self-supervisedvisualfeaturelearningwAsurvey[J].IEEEtransactionsonpatternanalysisandmachineconferenceoncomputervision.Springer[25]CaronM,BojanowskiP,JoulinA,etal.Deepclusteringforlearningofvisualfeatures[C].ProceedingsoftheEuropeanConferenceonusingagenerativeadversarialnetwork[C]oncomputervisionandpatternrecognition.2017:4681-46[27]PathakD,KrahenbuhlP,DonahueJ,etal.Contexteninpainting[C].ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.2016:2536-2544.[28]HeK,ChenX,XieS,etal.ProceedingsoftheIEEEc[29]BaoH,DongL,WeiF.BEiT:BarXivpreprintarXiv:2106.082Modeling[J].arXivpreprintarXiv:2111.09886,representationlearning[C].ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2020:9729-97contrastivelearning[J].arXivpreprintarXiv:2003.0[33]ChenX,XieS,HeK.AnempiricalstudyoftrainingTransformers[J].arXivpreprintarXiv:2104.0205semi-supervisedlearners[J].arXivpreprintarXiv:20[35]ChenT,KornblithS,learningofvisualrepresentations[C].Internatsemi-supervisedlearners[J].arXivpreprintarXiv:20[37]GrillJB,StrubF,Altchself-supervisedlearnin[38]DoerschC,ZissermanA.Multi-taskself-supervisedvisuallearning[C].ProceedingsoftheIEEEInternVisualRepresentation[C].ConferenceandWorkshoponNeuralInformationTokenizer[J].arXivpreprintarXiv:2111.07preprintarXiv:2106.04560,2021.pre-training[J].arXivpreprintarXiv:2110.02095,202[43]FedusW,ZophB,ShazeerN.SwitchTransformers:Scalingtotrif[45]LouY,XueF,ZhengZ,etal.Sparse-mlp:Aconditionalcomputation[J].arXivpreprintarXiv:2109.02autoregressivepredictivecoding.PredictiveCoding.PrMockingjay:UnsupervisedSpeechBidirectionalTransformerEncoders.ICASSP[49]ShaoshiLing,YuzongLiu,JulianSalazar,KatrinKirchhoff.DeepConteAcousticRepresentationsForSemi-SupervisedSpeechRecognition.ICASSP[50]ShaoshiLing,YuzongLiu.RepresentationswithVectorQuantization.ICASS[51]Liu,AlexanderandChung,Yu-AnandGlass,James.NonPredictiveCodingforLearDependencies.arXivpreprintarXiv:201[52]Oord,Aaronvanden,YazheLi,andOriolVinyals.Representationlearnincontrastivepredictivecoding.arXivpreprintarXiv:1807.0[53]SteffenSchneider,UnsupervisedPre-trainingforSpeechRecognition.Interspeech20[54]AlexeiBaevski,SteffenSchneider,MLearningofDiscreteSpeechRepresentations.ICLR2020[55]AlexeiBaevski,HenryZhou,A2.0:AFrameworkforSelf-SupervisedLearningofSpeechRepresentations.NeurIPS2020[56]Wei-NingHsu,BenjaminBolte,Yao-HungHubertTsai,KushalLakhotia,RuslanSalakhutdinov,AbdelrahmanMohamed.HuBERT:Self-SuperviRepresentationLearningbyMaskedPredictionofHiddenUnits.ICASSP2021LanguageModelingforSelf-Supervise[58]SantiagoPascual,MircoRavanelli,JoanSerrà,AntonioBonafonSelf-SupervisedTasks.Interspeech[59]JacobDevlin,Ming-WeiChang,KentonLee,andKristinBERT:Pre-trainingofdeepbidirectionalTransformersforlanguageunderstanding.InProc.ofNAACL2019.[60]SuW,ZhuXVisual-LinguisticRepresentations[J].2languagerepresentationlearning[C].ProceedinConferenceonComputerVision.2019:[62]ChenYC,LiL,YuL,etal.Uniter:Urepresentationsforvision-and-languagetasks[J].arXivarXiv:1908.02265,2[64]TanH,BansalM.Lxmert:Learningcross-modalityencoderrepresentationsfromTransformers[J].arXivpreprintarXiv:1908.0749[65]AlecR,JongWK,Cimplications[J].OpenAIBloghttps://openai.com/blog/better-lanarXivpreprintarXiv:2005.141preprintarXiv:2102.12092,2021.[69]DingM,YangZ,HongW,etal.CogView:MasteringText-tviaTransformers[J].arXivpreprintarXiv:2105.13290,2generation[J].arXivpreprintarXiv:2102.027EnhancedbyVisualLearning[J].arXivpreprintarXiv:2106.0180preprintarXiv:2103.00823,2021.integration[J].arXivpreprintarXiv:1904.092[74]ZhengyanZhang,XuHan,ZhiyuanLiu,XinJiang,MaosongSun,QunLiu.2019.OfACL2019.[75]LiX,YinX,LiC,etal.Oscar:Objecvision-languagetasks[C].European[76]ZhuL,YangY.Actbert:Learningglobal-localvideoProceedingsoftheIEEE/CVF
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45086.1-2024車載定位系統(tǒng)技術(shù)要求及試驗(yàn)方法第1部分:衛(wèi)星定位
- 2025農(nóng)村公益性服務(wù)合同書
- 展覽展示裝修合同范例
- 物流門頭定制合同范例
- 農(nóng)村合資建房合同范例
- 承包開挖石方合同范例
- 文案合同范例
- 合同范例公示寫
- 水電工合同范例
- 市場衛(wèi)生保潔合同范例
- 天津市南開區(qū)2023-2024學(xué)年四年級上學(xué)期期末語文試卷
- 數(shù)據(jù)中心智能運(yùn)維體系建設(shè)
- 2023年計(jì)劃訂單專員年度總結(jié)及下一年規(guī)劃
- 體質(zhì)測試成績表(自動(dòng)統(tǒng)計(jì)數(shù)據(jù))(小學(xué)、初中)
- 2022年全國垃圾分類知識競賽試題庫(附含答案與解析)
- 2024版醫(yī)院手術(shù)安全管理學(xué)習(xí)培訓(xùn)課件
- 材料標(biāo)準(zhǔn)目錄
- 腦卒中后吞咽障礙患者進(jìn)食護(hù)理(2023年中華護(hù)理學(xué)會團(tuán)體標(biāo)準(zhǔn))
- 護(hù)士執(zhí)業(yè)注冊申請表 新
- 妊娠期高血壓疾病診治指南(2022版)解讀
- 公章證照使用登記表
評論
0/150
提交評論