大模型系列報(bào)告(一):Transformer架構(gòu)的過(guò)去、現(xiàn)在和未來(lái)-財(cái)通證券_第1頁(yè)
大模型系列報(bào)告(一):Transformer架構(gòu)的過(guò)去、現(xiàn)在和未來(lái)-財(cái)通證券_第2頁(yè)
大模型系列報(bào)告(一):Transformer架構(gòu)的過(guò)去、現(xiàn)在和未來(lái)-財(cái)通證券_第3頁(yè)
大模型系列報(bào)告(一):Transformer架構(gòu)的過(guò)去、現(xiàn)在和未來(lái)-財(cái)通證券_第4頁(yè)
大模型系列報(bào)告(一):Transformer架構(gòu)的過(guò)去、現(xiàn)在和未來(lái)-財(cái)通證券_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)計(jì)算機(jī)/行業(yè)__題報(bào)告/2025.01.19大模型系列報(bào)告?一ā?Transformer架構(gòu)的過(guò)去1ā在和未來(lái)投資評(píng)級(jí)投資評(píng)級(jí):看好(維持)最à12o^場(chǎng)表ā計(jì)算機(jī)滬深300P證指數(shù)分析師楊燁SAC證書編??S0160522050001yangye01@相s報(bào)告相s報(bào)告1.:電力信o化研究框架??一ā總章;2025-01-142.:英__達(dá)GB300含苞à放,s注液冷和電源?節(jié);2025-01-143.:智駕o報(bào)?車^表ā強(qiáng)勁,首個(gè)Robotaxi法規(guī)出爐;2025-01-12證券研究報(bào)告核心ê點(diǎn)核心ê點(diǎn)Transformer架構(gòu)的過(guò)去和ā在?人類大腦在p限的資源條tQ,通過(guò)神經(jīng)元回路的自ā裝和微調(diào),實(shí)ā了高效的信o處理2~了`化信o處理,大腦發(fā)展了高效的信o選擇和投注機(jī)制——注意力,而非依賴超大容à的處理能力2隨著s們對(duì)大腦認(rèn)知機(jī)制的深入了解?及計(jì)算機(jī)科學(xué)的?m,研究人員嘗試通過(guò)算法à化大腦的認(rèn)知?能,將人類的思維模式映射到人工智能P2Transformer是一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu),由GoogleBrain團(tuán)隊(duì)于2017年在論文:AttentionIsAllYouNeed;中e出2通過(guò)摒``統(tǒng)循?結(jié)構(gòu),Transformer利用自注意力機(jī)制并行處理序列元素,顯著e升了ˉ?速度和長(zhǎng)距離依賴建模能力2Transformer架構(gòu)的靈活性,使wr~__多非自然語(yǔ)言處理領(lǐng)域Y?模型構(gòu)建的基礎(chǔ)框架,展ā出廣闊的T用前o,包括但O限于能夠?qū)\模態(tài)的數(shù)據(jù)映射到統(tǒng)一的特à表示空間,促?跨模態(tài)T用發(fā)展2目前,人工智能大模型的?化主要依賴于人工版本的更新2而隨著技術(shù)的發(fā)展,研究人員k在探索自s?化的模型,使w能夠自主完善和學(xué)`由自身生r的經(jīng)驗(yàn),D而èú人工智能U更高級(jí)的智能發(fā)展2`前AI的局限性或在于w學(xué)`效率的PQ,而非數(shù)據(jù)O足2真k的智能O僅是數(shù)據(jù)à的堆?,而是在于對(duì)信o的壓縮和e煉,類似于通過(guò)總結(jié)第一性原理的方式獲×更深層l的智能2Transformer架構(gòu)的未來(lái)?}管Transformer憑借著ā多`勢(shì)r~如今的主流架構(gòu),但w并非}善}美,?p無(wú)法?免的局限性,例如計(jì)算復(fù)g度高和計(jì)算r本高2目前對(duì)Transformer架構(gòu)的未來(lái),主要p兩條道路,一是被更`ù的全新架構(gòu)??,D是在原p架構(gòu)基礎(chǔ)P通過(guò)`化注意力機(jī)制等方式?行升級(jí),à兩條道路都是通?計(jì)算復(fù)g度更P1計(jì)算r本更P1效率更高à個(gè)目標(biāo)2目前研究人員k在?極探索可能×?或增強(qiáng)Transformer的全新架構(gòu),并e出了數(shù)個(gè)潛在的??架構(gòu),例如RetNet1Mamba1RWKV1Hyena1線性注意力機(jī)制等2無(wú)論選擇哪條路?,最ā的目標(biāo)都是實(shí)ā更高的性能1更強(qiáng)的泛化能力1更P的資源消耗,?èúAI在更多實(shí)×場(chǎng)o中的T用,\時(shí)?w更à可持續(xù)的n惠化的發(fā)展2投資建°?短期來(lái)看,Transformer架構(gòu)依然是大模型的主流,建°T點(diǎn)s注基礎(chǔ)?施領(lǐng)域的公ù,如英__達(dá)1海Z信o1寒n紀(jì)1`創(chuàng)數(shù)據(jù)1英維克1中科曙Z1浪潮信o1潤(rùn)澤科技1歐?通1曙Z數(shù)創(chuàng)等,\時(shí)持續(xù)s注全球各大模型廠商1學(xué)界的創(chuàng)新?展2風(fēng)險(xiǎn)e示?技術(shù)迭?O及預(yù)期的風(fēng)險(xiǎn)ā商業(yè)化落地O及預(yù)期的風(fēng)險(xiǎn)ā政策支持O及預(yù)期風(fēng)險(xiǎn)ā全球宏ê經(jīng)濟(jì)風(fēng)險(xiǎn)2?閱ü最^一頁(yè)的T要聲明!行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告1Transformer架構(gòu)的過(guò)去和ā在 41.1人腦帶來(lái)的啟示?數(shù)據(jù)的無(wú)損壓縮 41.2TransformerT?而生?Attentionisallyouneed 61.3Transformer的`勢(shì)?規(guī)模擴(kuò)展1多模態(tài)能力 9 2.3架構(gòu)展望?更P計(jì)算復(fù)g度1更Pr本1更高效率 3投資建° 4風(fēng)險(xiǎn)e示 ā表目錄ā表目錄ā1.大語(yǔ)言模型?LLMsā自?化概念框架ā 4ā2.大語(yǔ)言模型?LLMsāP大腦相似性估計(jì)框架的示意ā 5ā3.大語(yǔ)言模型PO\e示添à策略P大腦相似性 5ā4.大語(yǔ)言模型在處理?極和消極情感文本時(shí)P大腦的相似性 5 6 7ā7.縮放點(diǎn)?注意力?ScaledDot-ProductAttentionā原理和Softmax公式 8ā8.多頭注意力?Multi-HeadAttentionā原理和MHA公式 9ā9.Transformer和LSTM在O\參數(shù)數(shù)à和PQ文長(zhǎng)度Q的測(cè)試損失 ā10.主流大模型參數(shù)àù化 ā11.RNN/LSTM1CNN和Transformer在跨模態(tài)任á中的`勢(shì)1劣勢(shì) ā12.Transformer架構(gòu)的計(jì)算復(fù)g度過(guò)高來(lái)源于w自注意力機(jī)制SoftmaxAttent ā13.大模型參數(shù)àO斷膨脹,已達(dá)1000B 謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)2行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告ā14.谷歌COREML/AI副總裁BillJia在2024年硅谷__源科技年會(huì)P接?采à ā15.潛在的Transformer架構(gòu)??架構(gòu) ā16.RetNet的并行P循?過(guò)程 ā17.RetNet\時(shí)實(shí)āˉ?并行性1良好性能和Pè理r本à一<O可能的O角= ā18.狀態(tài)空間模型?SSMā的架構(gòu)示意ā ā19.RNNs1Transformers和SSMs在自回__序列建模任á中的`缺點(diǎn) ā20.改?Mamba架構(gòu)的āp研究總結(jié)?主要集中于修改塊?計(jì)1掃?模式和記à管理ā ā22.RWKV-41RWKV-5Eagle和RWKV-6Finch模型的PQ文長(zhǎng)度實(shí)驗(yàn)隨版本迭?表āù好 ā24.RWKV基礎(chǔ)模型的__多T用場(chǎng)o ā27.AgentAttention的計(jì)算流程 ā28.O\模型大小的Transformer和TransNormerLLM的最大PQ文長(zhǎng)度 23 謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)3行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告1Transformer架構(gòu)的過(guò)去和ā在1.1人腦帶來(lái)的啟示?數(shù)據(jù)的無(wú)損壓縮人類大腦的?化伴隨著神經(jīng)系統(tǒng)的復(fù)g化,包括神經(jīng)元數(shù)à1類型1?接方式?及大腦|域的擴(kuò)展2à?ù化主要由基因的復(fù)制和分化驅(qū)ú2大腦|域的模塊化?化à速了à一過(guò)程,因~O\的模塊可?獨(dú)立?化2隨著s們對(duì)大腦認(rèn)知機(jī)制的深入了解?及計(jì)算機(jī)科學(xué)的?m,研究人員嘗試通過(guò)算法à化大腦的認(rèn)知?能,將人類的思維模式映射到人工智能P2目前,人工智能大模型的?化主要依賴于人工版本的更新2而隨著技術(shù)的發(fā)展,研究人員k在探索自s?化的模型,使w能夠自主完善和學(xué)`由自身生r的經(jīng)驗(yàn),D而èú人工智能U更高級(jí)的智能發(fā)展2ā1.大語(yǔ)言模型?LLMsā自?化概念框架ā數(shù)據(jù)來(lái)源?ZhengweiTao等論文:ASurveyonSelf-EvolutionofLargeLanguageModels;,ˉ通證券研究所注?概念框架ā展示了大語(yǔ)言模型的?化目標(biāo)?EvolutionObjectiveā,包括能力?Abilityā和方U?Directionā,?及自?化的4個(gè)?段?1ā經(jīng)驗(yàn)獲×?ExperienceAcquisitionāā2ā經(jīng)驗(yàn)精煉?ExperienceRefinementāā3ā更新?Updatingāā4ā評(píng)估?Evaluationā2人類大腦在p限的資源條tQ,通過(guò)神經(jīng)元回路的自ā裝和微調(diào),實(shí)ā了高效的信o處理2~了`化信o處理,大腦發(fā)展了高效的信o選擇和投注機(jī)制——注意力,而非依賴超大容à的處理能力2通過(guò)集中p限的計(jì)算資源于T要任áP,注意力機(jī)制使大腦能夠迅速分析s鍵信o并做出?策2在人工智能領(lǐng)域,?人類注數(shù)據(jù),如自然語(yǔ)言中的文本2自注意力機(jī)制通過(guò)計(jì)算輸入序列各部分之間的相似度,并~每個(gè)部分分配O\的hT,D而更à精準(zhǔn)地理解÷子含義2à種機(jī)制能夠綜合考慮輸入的全面性和個(gè)別單詞之間的相s性,e升對(duì)信o的理解能力2因l,人工智能中的自注意力機(jī)制P人類大腦的注意力機(jī)制類似,都能在p限資源Q高效地處理信o,并`化?策過(guò)程2謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)4行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告ā2.大語(yǔ)言模型?LLMsāP大腦相似性估計(jì)框架的示意ā數(shù)據(jù)來(lái)源?YuqiRen等論文:DoLargeLanguageModelsMirrorCognitiveLanguageProcessing?;,ˉ通證券研究所注?通過(guò)à化的方式,比較大語(yǔ)言模型和人類大腦在處理相\文本時(shí)的相似性,D而~研究LLMs的認(rèn)知能力和語(yǔ)言處理機(jī)制e供一種方法和視角2<預(yù)測(cè)s壓縮,壓縮s智能=2D神經(jīng)科學(xué)的角度來(lái)看,人腦依然àà超過(guò)`前的大型語(yǔ)言模型?LLMā2}管LLM的參數(shù)和?接數(shù)達(dá)到數(shù)萬(wàn)億,但?無(wú)法P人腦的復(fù)g性相e并論2人類大腦的?化依賴于選擇和投注機(jī)制,?較P的容à實(shí)ā更高效的信o處理2人工智能的注意力機(jī)制主要是基于算法和模型來(lái)實(shí)ā的,雖然在?能PP人類的注意力機(jī)制p相似之處,但在實(shí)ā原理和靈活性P存在顯著差__,例如對(duì)定性?述詞的理解2`前AI的局限性或在于w學(xué)`效率的PQ,而非數(shù)據(jù)O足2真k的智能O僅是數(shù)據(jù)à的堆?,而是在于對(duì)信o的壓縮和e煉,類似于通過(guò)總結(jié)第一性原理的方式獲×更深層l的智能2āā3.大語(yǔ)言模型PO\e示添à策略P大腦相似性數(shù)據(jù)來(lái)源?YuqiRen等論文:DoLargeLanguageModelsMirrorCognitiveLanguageProcessing?;,ˉ通證券研究所注?該ā表明e示添à策略會(huì)影響大語(yǔ)言模型P大腦的相似性,明確e示添à策略在e升相似性方面xp一定`勢(shì)2ā4.大語(yǔ)言模型在處理?極和消極情感文本時(shí)P大腦的數(shù)據(jù)來(lái)源?YuqiRen等論文:DoLargeLanguageModelsMirrorCognitiveLanguageProcessing?;,ˉ通證券研究所注?該ā表明大語(yǔ)言模型在處理?極情感文本時(shí)P大腦的相似性更高,可能反映了ˉ?數(shù)據(jù)或模型結(jié)構(gòu)等因素對(duì)情感處理的影響2謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)5行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告1.2Transformer應(yīng)運(yùn)而生:Attentionisallyouneed現(xiàn)旨在解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,簡(jiǎn)稱RNN)在處理長(zhǎng)序列構(gòu)由編碼器(含輸入嵌入、位置編碼、多頭注意力、前饋網(wǎng)絡(luò)、殘差連接與層歸力、前饋網(wǎng)絡(luò)、殘差連接與層歸一化,最后經(jīng)線性層和Softmax層輸出)組成。力機(jī)制(Multi-HeadAttention,簡(jiǎn)稱MHA)解決了自注意力機(jī)制可能導(dǎo)致的有效數(shù)據(jù)來(lái)源:GoogleBrain,財(cái)通證券注意力機(jī)制的核心原理是依據(jù)輸入序列中每個(gè)元素的獨(dú)特的能力,即同時(shí)計(jì)算輸入序列中所有位置之間的相互關(guān)系權(quán)重,并據(jù)此加權(quán)他所有元素,并根據(jù)彼此之間的相關(guān)性重新分配權(quán)重。對(duì)于序列中的每個(gè)詞,模型會(huì)計(jì)算它與其他所有詞之間的注意力分?jǐn)?shù),然后依據(jù)這些分?jǐn)?shù)對(duì)所有詞進(jìn)行加謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)6行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告權(quán)求和,從而得到該詞的新表示。這一過(guò)程是并行地對(duì)序列中所有詞同時(shí)進(jìn)行的數(shù)據(jù)來(lái)源:OpenAI公開演講,財(cái)通證券研注:在大語(yǔ)言模型中,注意力機(jī)制依語(yǔ)境分配權(quán)重來(lái)準(zhǔn)確預(yù)測(cè),當(dāng)單詞預(yù)測(cè)概率越接近1.0,表明模型預(yù)測(cè)的結(jié)果越好。在數(shù)學(xué)表達(dá)中,注意力機(jī)制的函數(shù)可以被定義為將一個(gè)查詢(Query,簡(jiǎn)稱Q)重則是基于查詢(Q)與相應(yīng)鍵(K)之間的兼容性函數(shù)計(jì)算得到的。用更通俗的語(yǔ)言來(lái)解釋這一過(guò)程:lKey(鍵)代表“可能相關(guān)的信息線索”;謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)7行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告圖7.縮放點(diǎn)積注意力(ScaledDot-ProductAttention)原理和Softmax公式數(shù)據(jù)來(lái)源:GoogleBrain,財(cái)通證券擴(kuò)展了模型的視野,使其能夠從多個(gè)不同的角度同時(shí)關(guān)注輸入信息,從而捕捉到更豐富的特征和關(guān)系。這種機(jī)制不僅增強(qiáng)了模型對(duì)序列中依賴關(guān)系的學(xué)習(xí)能力,還有效緩解了單一注意力機(jī)制可能遇到的有效分辨率降低等問(wèn)題,進(jìn)而顯著提高謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)8行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告圖8.多頭注意力(Multi-HeadAttention)原理和MHA公式數(shù)據(jù)來(lái)源:GoogleBrain,財(cái)通證券1.3Transformer的優(yōu)勢(shì):規(guī)模擴(kuò)展、多模態(tài)能力勢(shì),能更好地利用長(zhǎng)上下文信息,且隨著參數(shù)和上下文長(zhǎng)度的增加,其性能提升謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)9行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告效率,使其在處理大規(guī)模數(shù)據(jù)集如語(yǔ)言模型預(yù)訓(xùn)練、機(jī)器翻譯等任務(wù)時(shí),能在更模型,在自然語(yǔ)言處理領(lǐng)域取得了突破性成果。謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)10行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告跨模態(tài)T用廣泛2Transformer架構(gòu)的靈活性,使wr~___多非自然語(yǔ)言處理領(lǐng)域Y?模型構(gòu)建的基礎(chǔ)框架,展ā出廣闊的T用前o2Transformer架構(gòu)x備一ùs鍵能力,s能夠?qū)\模態(tài)的數(shù)據(jù)映射到統(tǒng)一的特à表示空間2?多模態(tài)任á中的文本Pā像處理~例,Transformer首Y將文本數(shù)據(jù)轉(zhuǎn)化~詞Uà,\時(shí)將ā像數(shù)據(jù)轉(zhuǎn)換~像素特àUà2在完rà一轉(zhuǎn)換^,à?來(lái)自O(shè)\模態(tài)的特àUà便能夠在\一特à空間內(nèi)?行p效的處理P交互2相比之Q,Transformer的前期架構(gòu),例如CNN,雖然擅長(zhǎng)處理視覺(jué)數(shù)據(jù),在ā像處理任á中p強(qiáng)大的`勢(shì),但跨模態(tài)信o的融合能力相對(duì)較弱ā而RNN/LSTM雖然適合處理序列數(shù)據(jù),尤w是文本和語(yǔ)音數(shù)據(jù),但在跨模態(tài)任á中的長(zhǎng)程依賴和效率P較~薄弱2à種統(tǒng)一的特à表示方式,顯著降P了O\模態(tài)數(shù)據(jù)融合P比較的復(fù)g度,?而?力多模態(tài)模型更à高效地整合和分析來(lái)自多種數(shù)據(jù)源的豐富信o2ā11.RNN/LSTM1CNN和Transformer在跨模態(tài)任á中的`勢(shì)1劣勢(shì)架構(gòu)]ā`勢(shì)O足自注意力機(jī)制?能夠捕捉長(zhǎng)程依賴和全局PQ文信o,對(duì)長(zhǎng)文本或復(fù)gā像-文本s系p跨模態(tài)信o融合能力強(qiáng)?能夠在多個(gè)模態(tài)之間高效對(duì)齊和融合特à計(jì)算開銷大?處理大規(guī)模數(shù)據(jù)時(shí)需要大à的計(jì)算資源,尤w在跨模態(tài)任á中更~顯著對(duì)小數(shù)據(jù)集效果較弱?雖然預(yù)ˉ?模型可?彌補(bǔ)數(shù)據(jù)O足,但在小樣本學(xué)`場(chǎng)o中?p并行計(jì)算?由于沒(méi)p序列化的計(jì)算依賴,可??行更高效的ˉ?視覺(jué)特àe×能力強(qiáng)?CNN非常擅長(zhǎng)Dā像中e×空間局部特à,適用于ā像識(shí)別1物體檢測(cè)等任á局部特à捕捉?適合捕捉ā像中的邊緣1紋理等P級(jí)特à高效的卷?操作?對(duì)于ā像數(shù)據(jù)處理非常高局長(zhǎng)程依賴s系,可能在復(fù)g的ā像-文本{配任á中表āO佳一模態(tài)?如ā像ā?行建模,跨模態(tài)融合能序列數(shù)據(jù),適合文本1語(yǔ)音等ú序化數(shù)據(jù)的m計(jì)算,無(wú)法并行處理,ü致計(jì)算效率P長(zhǎng)短期記à?LSTM通過(guò)引入記à單元解ù長(zhǎng)輸入處理?能夠處理ù長(zhǎng)輸入,適合處á,Transformer通常能更好地捕捉長(zhǎng)程依賴數(shù)據(jù)來(lái)源?KyuhongShim等論文:AComparisonofTransformer,Convolutional,andRecurrentNeuralNetworksonPhonemeRecognition;,ˉ通證券研究所謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告2Transformer架構(gòu)的未來(lái)Transformer架構(gòu)通過(guò)并行處理整個(gè)輸入序列,顯著à快了ˉ?和è理時(shí)間,`并行處理能力P自注意力機(jī)制的結(jié)合使得基于Transformer架構(gòu)的大模型能夠p效捕捉長(zhǎng)距離依賴s系和PQ文信o2}管Transformer憑借著ā多`勢(shì)r~如今的主流架構(gòu),但w并非}善}美,?p無(wú)法?免的局限性22.1Transformer架構(gòu)的局限性計(jì)算復(fù)g度過(guò)高2自注意力機(jī)制?Self-Attentionā的計(jì)算復(fù)g度~O(N2d),w中N是序列長(zhǎng)度1d~token嵌入的維度2簡(jiǎn)單來(lái)說(shuō),à使得Transformer模型的計(jì)算復(fù)g度會(huì)隨著輸入序列長(zhǎng)度?token數(shù)àā的增à呈Dl方增長(zhǎng)2 架構(gòu)的計(jì)算復(fù)g度過(guò)高來(lái)源于w自注意力機(jī)制SoftmaxAttention數(shù)據(jù)來(lái)源?MiniMax論文:MiniMax-01:ScalingFoundationModelswithLightningAttention;,ˉ通證券研究所模型規(guī)模的擴(kuò)大將顯著增àˉ?和部署r本2在計(jì)算資源方面,基于Transformer架構(gòu)的模型O僅需要大à的計(jì)算資源,?要求高效的并行處理能力,à使得ˉ?r本需要覆蓋高性能的GPU和大à的存儲(chǔ)空間,`隨著序列長(zhǎng)度的增à,w平方級(jí)的擴(kuò)展ü致高內(nèi)存使用,因而對(duì)內(nèi)存需求__極大2謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告ā13.大模型參數(shù)àO斷膨脹,已達(dá)1000B數(shù)據(jù)來(lái)源?Predi,ˉ通證券研究所計(jì)算復(fù)g度和計(jì)算r本帶來(lái)最直接的影響是限制Transformer在長(zhǎng)序列Q的T用2雖然Transformer能夠準(zhǔn)確捕捉短距離的文本s系,但w注意力機(jī)制的計(jì)算復(fù)g度會(huì)隨著序列長(zhǎng)度呈Dl增長(zhǎng),à使得處理長(zhǎng)文本時(shí)的計(jì)算r本ù得難?承?,因而大部分大模型會(huì)將支持的PQ文長(zhǎng)度框定在一定范圍內(nèi)2`Q基于Transformer架構(gòu)的大模型支持的PQ文長(zhǎng)度已p所拓展,àk是研究者意識(shí)到Transformer架構(gòu)局限性^對(duì)注意力機(jī)制等方面?行改?的結(jié)果,`改?^的PQ文長(zhǎng)度?無(wú)法比肩一?新t架構(gòu)22.2Transformer架構(gòu)的挑戰(zhàn)者如谷歌COREML/AI副總裁BillJia在à談中所說(shuō),大模型的未來(lái)發(fā)展p著O條方U?l一是基于ā在的架構(gòu)繼續(xù)構(gòu)建基礎(chǔ)大模型,增à參數(shù)1投入更多的ˉ?資源ālD是基于大語(yǔ)言模型構(gòu)建垂直模型,通過(guò)蒸餾模型1à化模型來(lái)?模型ù得更小1更p效率1更p性?比ālO是離開ā在主流的Transformer架構(gòu),?~O\的模型架構(gòu)2謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告ā14.谷歌COREML/AI副總裁BillJia在2024年硅谷__源科技年會(huì)P接?采à數(shù)據(jù)來(lái)源?新浪,ˉ通證券研究所構(gòu)建全新的模型架構(gòu)突破Transformer的局限性無(wú)疑是極x挑戰(zhàn)性的一個(gè)方U,但__會(huì)帶來(lái)更多創(chuàng)新1p更多遐想空間2目前研究人員k在?極探索可能×?或增強(qiáng)Transformer的全新架構(gòu),并e出了數(shù)個(gè)潛在的??架構(gòu),本文將主要探??Q幾種架構(gòu)2ā15.潛在的Transformer架構(gòu)??架構(gòu)架構(gòu)]ā核心特點(diǎn)`勢(shì)O足RWKV多尺度保留機(jī)制?Retentionā,融合RNN和Transformer的`點(diǎn)ˉ?并行化è理r本P實(shí)×T用較少循?框架1狀態(tài)空間模型P注意力機(jī)制結(jié)合硬t感知型算法e升長(zhǎng)序列處理效率記à丟失,泛化能力弱復(fù)g模式表āk佳RNNù體支持無(wú)限PQ文長(zhǎng)度顯存需求P對(duì)e示詞格式敏感任á回顧表ā較弱交?隱式參數(shù)化的長(zhǎng)卷?數(shù)據(jù)?制的門?計(jì)算復(fù)g度P長(zhǎng)序列ˉ?速度快無(wú)法使用Mask,^續(xù)預(yù)ˉ?靈活性差跟?T用較少時(shí)間復(fù)g度降P到線性O(shè)如標(biāo)準(zhǔn)Transformer數(shù)據(jù)來(lái)源?YutaoSun等論文:RetentiveNetwork:ASuccessortoTransformerforLargeLanguageModels;,HaohaoQu等論文:ASurveyofMamba;,RWKV官方文檔,MichaelPoli等論文:HyenaHierarchy:TowardsLargerConvolutionalLanguageModels;,MiniMax論文:MiniMax-01:ScalingFoundationModelswith;ˉRetNet引入了一種多尺度保留機(jī)制?Retentionā來(lái)??多頭注意力,它pO種計(jì)算范式?并行1循?和分塊循?表à2保留機(jī)制本質(zhì)P是RNN和Transformer核心原理的融合,sRecurrent和Self-Attention2RetNet采用了遞__方式來(lái)計(jì)算注意謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告力分?jǐn)?shù),`?然支持一定程度的并行計(jì)算,使得w結(jié)合了并行和循?的特點(diǎn)2首Y,并行表à使ˉ?并行化,?充分利用GPU?備2wl,循?表à法在內(nèi)存和計(jì)算方面實(shí)ā了高效的O(1)è理2部署r本和延à可?顯著降P,\時(shí)無(wú)需鍵值緩存技?,大大簡(jiǎn)化了實(shí)ā過(guò)程2l外,分塊循?表à法能夠執(zhí)行高效的長(zhǎng)序列建模2研究者對(duì)每個(gè)局部塊?行并行編碼?e高計(jì)算速度,\時(shí)對(duì)全局塊?行循?編碼?節(jié)省GPU內(nèi)存2ā16.RetNet的并行P循?過(guò)程數(shù)據(jù)來(lái)源?YutaoSun等論文:RetentiveNetwork:ASuccessortoTransformerforLargeLanguageModels;,ˉ通證券研究所RetNet架構(gòu)\時(shí)x備ˉ?可并行1è理r本P和良好性能的特點(diǎn)2在ˉ?過(guò)程中,RetNet能夠比標(biāo)準(zhǔn)Transformer節(jié)省25-50%的內(nèi)存,實(shí)ā7倍的à速,并在高度`化的FlashAttention方面xp`勢(shì)2l外,RetNet的è理延à對(duì)批大小?batchsizeāO敏感,D而實(shí)ā了ā大的吞Tà2在Scaling曲線和PQ文學(xué)`方面,RetNet始ā表ā出競(jìng)?力2RetNet的è理r本P長(zhǎng)度無(wú)s,對(duì)于7B模型和8k序列長(zhǎng)度,w解碼速度是帶鍵值緩存的Transformers的8.4倍,\時(shí)內(nèi)存節(jié)省70%2à?特性使得RetNetr~一種高效`經(jīng)濟(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)2`然,RetNet作~一種x備RNN特點(diǎn)的架構(gòu),w建模長(zhǎng)距離依賴能力?需^續(xù)驗(yàn)證,目前的實(shí)×落地T用__謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告圖17.RetNet同時(shí)實(shí)現(xiàn)訓(xùn)練并行性、良好性能和低推理成本這一“不可能的三角”意力機(jī)制、狀態(tài)空間模型(SSM)的線性特性。狀態(tài)空間模型(SSM)是一種傳代版本Mamba-2利用結(jié)構(gòu)化空間狀態(tài)對(duì)偶(SSD/StructuredSpace-StateDuality)圖18.狀態(tài)空間模型(SSM)的架構(gòu)示意圖謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)16行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告Mamba架構(gòu)?線性增長(zhǎng)的P計(jì)算開銷和硬t感知型算法實(shí)ā了對(duì)長(zhǎng)序列數(shù)據(jù)的高效處理,顯著e升了計(jì)算速度和性能2PTransformer相比,Mamba的計(jì)算開銷隨序列長(zhǎng)度線性增長(zhǎng),à使得它能夠處理更長(zhǎng)的文本序列,\時(shí)大幅降P計(jì)算r本2l外,Mamba采用了硬t感知型算法,使用掃??行循?計(jì)算,在A100GPUP能夠?qū)⒂?jì)算速度e升3倍,?一m增強(qiáng)了w在處理長(zhǎng)序列數(shù)據(jù)時(shí)的效率和性能2ā19.RNNs1Transformers和SSMs在自回__序列建模任á中的`缺點(diǎn)數(shù)據(jù)來(lái)源?HaohaoQu等論文:ASurveyofMamba;,ˉ通證券研究所Mamba架構(gòu)并非沒(méi)p缺陷,記à丟失1難?泛化到O\任á1在復(fù)g模式方面的表āO及基于Transformer的語(yǔ)言模型等問(wèn)題?然存在,但開源的研究社|~Mamba架構(gòu)e出了ā多改?方案,^續(xù)將繼續(xù)`化2ā20.改?Mamba架構(gòu)的āp研究總結(jié)?主要集中于修改塊?計(jì)1掃?模式和記à管理ā數(shù)據(jù)來(lái)源?HaohaoQu等論文:ASurveyofMamba;,ˉ通證券研究所謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告RWKV是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一個(gè)變體。RWKV架構(gòu)由一系列堆疊的殘差塊組成,每個(gè)殘差塊由具有循環(huán)結(jié)構(gòu)的時(shí)間混合(time-mixing)和通道混合每個(gè)時(shí)間步將多少新信息與舊信息分配給每個(gè)頭的引入了基于低秩適應(yīng)(LoRA)的動(dòng)態(tài)遞歸機(jī)制,進(jìn)一步優(yōu)化了TokenShift性插值(ddlerp)。最新版本的架構(gòu)RWKV-7采用了動(dòng)態(tài)狀態(tài)演化(DynamicStateEvolution),其架構(gòu)的訓(xùn)練和推理代碼均已定稿,謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)18行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告 注:經(jīng)過(guò)不斷地版本迭代,基于RWKV架構(gòu)的模型在長(zhǎng)序列任務(wù)上有顯著的改進(jìn),在相同長(zhǎng)度的上下文實(shí)驗(yàn)下?lián)p失越來(lái)越小。Transformer則是以二次方擴(kuò)展。在答案質(zhì)量和泛化能力方面,RWKV的表現(xiàn)與 謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)19行業(yè)專題報(bào)告行業(yè)專題報(bào)告/證券研究報(bào)告基于RWKV架構(gòu)的模型的不足在于RWKV基底模型對(duì)提示詞(prompt)的格式非常敏感,提示詞的格式對(duì)生成結(jié)果有較大影響。且由于架構(gòu)設(shè)計(jì)的原因,RWKV模型在需要回顧的任務(wù)上表現(xiàn)較弱例如,應(yīng)先給模型提供任務(wù)指令,然后再提供需要執(zhí)行任務(wù)的材料文本,以確保 控制的門控)組成,構(gòu)建了一個(gè)高效、靈活且計(jì)算復(fù)雜度低的注意力替代算法,次基本操作:隱式長(zhǎng)卷積和數(shù)據(jù)控制的對(duì)角矩陣乘法。遞歸深度決定算子大小,Hyena可表達(dá)為與數(shù)據(jù)相關(guān)的對(duì)角矩陣和托普利茨矩陣的乘積。它具有亞線性參來(lái)說(shuō)是傅里葉空間中的卷積)并應(yīng)用FFTConv運(yùn)算,時(shí)謹(jǐn)請(qǐng)參閱尾頁(yè)重要聲明及財(cái)通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)20行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告數(shù)據(jù)來(lái)源?MichaelPoli等論文:HyenaHierarchy:TowardsLargerConvolutionalLanguageModels;,ˉ通證券研究所Hyena能夠顯著縮小P注意力機(jī)制的差距,?較小的算力預(yù)算來(lái)達(dá)到相\效果2在序列長(zhǎng)度~2K時(shí),Hyena將ˉ?計(jì)算à減少了20%,達(dá)到了Transformer的質(zhì)à2`序列長(zhǎng)度~8K時(shí),Hyena算子的速度是高度`化注意力的兩倍,而在序列長(zhǎng)度~64K時(shí),速度是100倍2Hyena目前的表ā十分出色,O過(guò)Hyena?算O支持Mask?用于大語(yǔ)言模型預(yù)ˉ?建模過(guò)程中的t蓋ā,à__ü致使用Hyena架構(gòu)?行生r式預(yù)ˉ?建模O夠靈活2Hyena的跟?T用__較少,未來(lái)T用空間pà?一m驗(yàn)證2線性化處理Softmax操作,降P時(shí)間復(fù)g度,e升模型效率2線性注意力機(jī)制通過(guò)對(duì)`統(tǒng)注意力機(jī)制中的Softmax操作?行線性化處理,將時(shí)間復(fù)g度降P到線性?O(N)ā,D而e高Transformer模型的并行性能1降P復(fù)g度,在計(jì)算效率1模型表達(dá)能力等方面都xp`勢(shì)2但線性注意力相比Softmax注意力建模長(zhǎng)距離依賴能力較差,目前的研究k在著T解?à個(gè)問(wèn)題2線性注意力機(jī)制相s研究作~改?Transformer架構(gòu)的T要方U,目前AgentAttention1TransNormerLLM1MiniMax-01等模型研究都×得了一定?展2謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)21行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告數(shù)據(jù)來(lái)源?MiniMax論文:MiniMax-01:ScalingFoundationModelswithLightningAttention;,ˉ通證券研究所lAgentAttention?一種新的注意力機(jī)制,通過(guò)在`統(tǒng)注意力模塊中引入一ā額外的?理UàA,實(shí)ā了D鍵K和值V中高效聚合信o,并將à?信op效廣播回查詢UàQ2à一?計(jì)O僅顯著e升了計(jì)算效率,?保留了全局PQ文建模的強(qiáng)大能力2AgentAttention的創(chuàng)新之處在于,它r?地將`統(tǒng)的Softmax注意力P線性注意力無(wú)縫集r,形r了一種全新的注意力范式2à種范式O僅x備高表達(dá)能力,\時(shí)擁pP計(jì)算復(fù)g度的`勢(shì)2實(shí)驗(yàn)表明,AgentAttention在多種視覺(jué)Transformer模型及O\視覺(jué)任á中均表ā出色,尤w在處理高分辨率場(chǎng)o時(shí)效果更~顯著2l外,AgentAttention?可T用于預(yù)ˉ?的大規(guī)模擴(kuò)散模型,p效à速ā像生r過(guò)程,并顯著e升生rā像的質(zhì)à2謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)22行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告 數(shù)據(jù)來(lái)源?DongchenHan等論文:AgentAttention:OntheIntegrationofSoftmaxandLinearAttention;,ˉ通證券研究所lTransNormerLLM?由P海人工智能實(shí)驗(yàn)室和OpenNLPLab首個(gè)線性注意力Transformer大模型2該模型完全放`了`統(tǒng)的Softmax注意力機(jī)制,轉(zhuǎn)而采用線性注意力機(jī)制,將Softmax注意力分解~多個(gè)線性?算,D而將計(jì)算復(fù)g度D平方級(jí)別降P到線性級(jí)別,極大地e高了模型的效率,使w能夠處理更長(zhǎng)的序列2~了?一me高線性注意力的計(jì)算效率,TransNormerLLM引并分別?行計(jì)算,D而減少了內(nèi)存à問(wèn)l數(shù)并e高了計(jì)算速度,研究團(tuán)隊(duì)表示w可?將線性注意力在ˉ?時(shí)的速度e升兩倍,并`w?能通過(guò)感知IO將內(nèi)存用à減少4倍2ā28.O\模型大小的Transformer和TransNormerLLM的最大PQ文長(zhǎng)度數(shù)據(jù)來(lái)源?ZhenQin等論文:TransNormerLLM:AFasterandBetterLargeLanguageModelwithImprovedTransNormer;,ˉ通證券研究所謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)23行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告lMiniMax-01系列模型?首l將線性注意力機(jī)制擴(kuò)展到商用模型的級(jí)別2MiniMax-Text-01架構(gòu)?結(jié)構(gòu)化的方式整合了線性注意力和Softmax注意力機(jī)制2通過(guò)使用線性注意力,原生Transformer的計(jì)算復(fù)g度可DO(N2)大幅Q降到O(N)2MiniMax的相s技術(shù)報(bào)告中寫道,à主要是得益于一種右邊?核技??rightproductkerneltrickā2基于LightningAttention,MiniMax?e出了一種Hybrid-lightning,s每隔8層將LightningAttention?換rSoftmax注意力,D而既解?了Softmax注意力的效率問(wèn)題,__e升了Lightning數(shù)據(jù)來(lái)源?MiniMax論文:MiniMax-01:ScalingFoundationModelswithLightningAttention;,ˉ通證券研究所2.3架構(gòu)展望?更P計(jì)算復(fù)g度1更Pr本1更高效率目前對(duì)Transformer架構(gòu)的未來(lái),主要p兩條道路,一是被更`ù的全新架構(gòu)??,D是在原p架構(gòu)基礎(chǔ)P通過(guò)`化注意力機(jī)制等方式?行升級(jí),à兩條道路都是通?計(jì)算復(fù)g度更P1計(jì)算r本更P1效率更高à個(gè)目標(biāo)2AI大模型的未來(lái)方U__是如l,一方面可能會(huì)探索全新的基礎(chǔ)理論和模型架構(gòu),D根本P顛覆āp技術(shù)體系ā?一方面,__會(huì)在āp技術(shù)框架內(nèi)深挖潛力,例如`化參數(shù)高效化1開發(fā)更智能的ˉ?方法1降P對(duì)數(shù)據(jù)和算力的依賴等2無(wú)論選擇哪條路?,最ā的目謹(jǐn)?參閱~頁(yè)T要聲明及ˉ通證券股票和行業(yè)評(píng)級(jí)標(biāo)準(zhǔn)24行業(yè)__題報(bào)告行業(yè)__題報(bào)告/證券研究報(bào)告標(biāo)都是實(shí)ā更高的性能1更強(qiáng)的泛化能力1更P的資源消耗,?èúAI在更多實(shí)×場(chǎng)o中的T用,\時(shí)?w更à可持續(xù)的n惠化的發(fā)展23投資建°短期來(lái)看,Transformer架構(gòu)依然是大模型的主流,建°T點(diǎn)s注基礎(chǔ)?施領(lǐng)域的公ù,如英__達(dá)1海Z信o1寒n紀(jì)1`創(chuàng)數(shù)據(jù)1英維克1中科曙Z1浪潮信o1潤(rùn)澤科技1歐?通1曙Z數(shù)創(chuàng)等

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論