版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1章大模型技術概 第2章語言大模型技 2.4.5語言大模型的工具學 第3章多模態(tài)大模型技 第4章大模型技術生 第5章大模型的開發(fā)訓練與推理部 第6章大模型應 第7章大模型的安全 第8章總結與思 名詞索 126年GofryHnn解由于梯度消失而導致的深層網(wǎng)絡難以訓練的問題[1],為神經(jīng)網(wǎng)絡的有效學習提供了重要的優(yōu)化途徑。此后,深度學習在計算機視覺[2[34+標注數(shù)據(jù)微調”的預訓練模型,再到如今的“大規(guī)模無標注數(shù)據(jù)預訓+指令微調+人類對齊”的大模型,經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù),從小2022OpenAIChatGPT引發(fā)了社會ChatGPT為代表的大模型技術可以在經(jīng)濟、法律、本序列的生成概率。特別地,N-gram語言模型[6]認為下一個詞匯的訓練語言模型包括EM[9P11]和BET1]Lo模型基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(LSTM)[12]構建,存在長距離序列rsormer13GP1和Trnsormr架構一個重要的經(jīng)驗性法則是擴展定律(ScalingLaw)[14]:隨著模型參1-120182023年間典型預訓練模型的參數(shù)量變化趨勢。OpenAIGPTGPT-1[10][16]三個不同參數(shù)規(guī)模的模型,谷歌也推出了參數(shù)規(guī)模高達5400億參數(shù)的PaLM模型[17]。當模型參數(shù)規(guī)模達到千億量級,語言大模型能夠展現(xiàn)出多方面的能力躍升[18]。例如,GPT-3在沒有微調的情況下,可以僅通過提示詞或少數(shù)樣例(In-contextlearning,上下文學習(Large1-12018-2023年模型參數(shù)規(guī)模變化圖(InstructionTuning)[20]以及基于人類反饋的強化學習(ReinforcementLearningfromHumanFeedback,RLHF)[21]化能力;基于人類反饋的強化學習(1-2所示)將人類標注者引(包括思維鏈(Chain-of- CoT)[22]、思維1-2OeAIrnfomerG-1asormer(dede-nyrnsorer)+G-2初步驗證了擴大模型參數(shù)規(guī)模的有效性(擴展法則,并且探索了基于自然GP3模型效果,提出了基于“上下文學習”的任務解決方法;CdX2]使用代碼數(shù)據(jù)對P-3ntucGT2(H化對于人類指令的遵循能力和人類偏好的對齊能力;aGPT與IntutGT的技術原理相似,進一步引入了對話數(shù)據(jù)進行學習,從而加強了多輪對話能力;GP42]能夠處理更長的上下文窗口,具大模型服務平臺正向個人開放及商業(yè)落地應用延伸,不同公司互有側重OeAIAPI地面向公眾開放的大模型服務平臺,用戶可以通過API訪問不同的GPTClde系列模型是由nhiclue和lade-ntt該系列模型通過無監(jiān)督預訓練、基于人類反饋的強化學習和CntuinlI()Clde0Klde20K基于百度文心大模型的知識增強語言大模型,提供APP、網(wǎng)頁版、API提供了分桶梯度、通信計算重疊、跳過同步等技術,支持大規(guī)模的分架,ZeRO技術減少冗余內存訪問,使得可以訓練萬億級模型。開LLaMA[30]實現(xiàn)高效訓練。Falcon[31]TII研究院,最大規(guī)模型的生成能力。Baichuan系列模型由百川智能開發(fā),支持中英雙語,Baichuan2在保留原有模型優(yōu)勢的基礎上,增強了邏輯推理等方面的能力。CPM33][34]系列采用經(jīng)典的語言模型自回歸訓練方式,NLP任務上均表現(xiàn)卓越。ChatGPT為代表的大模型技術取得關鍵性突破,但當前1]、4]情景學習能力[19][7]等方面有待展開深入研究,為大模型的大規(guī)模2rnsomer將模型在大規(guī)模無標注數(shù)據(jù)上進行自監(jiān)督訓練得到預訓練模型,2)將模型在下游各種自然語言處理任務上的小規(guī)模有標注數(shù)據(jù)進行微(ageLnugedel,LL)TransformerTransformer架構[13]是目前語言大模型采用的主流架構[5]于自注意力機制(Self-attentionMechanism)Transformer2-1-解碼器架構,其編碼器和解碼器均由一個編碼層和若干相同的Transformer模塊層堆疊組成,編碼器的Transformer模塊層包括多頭注意力層和全連接成,其中每個Transformer層多了一個交叉注意力層。相比于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetwork,RNN)和長短時記憶神經(jīng)網(wǎng)絡(LongShort-TermMemoryNetwork,LSTM,Transformer架構的Transformer架構包含編碼層與Transformer模塊兩個核心組件,2-1Transformer架構讓模型能夠理解序列中的順序信息,引入了位置編碼。標準Transformer架構的位置編碼方式是使用正弦和余弦函數(shù)的方法。對idd是模jj是偶j個元素為sin(i10000j/d;j是奇數(shù),那么編j個元素為cos(i10000j/d。2-2Transformer自注意力網(wǎng)絡網(wǎng)絡層,這兩部分通過殘差連接和層歸一化操作連接起來,Transformer模塊,由自注意力層、全連接前饋層、殘差連接和層歸組成部分。它包含一個查詢矩陣QKHAttention(Q,K,V) 直觀來說,矩陣H中的每一行是V中行向量的加權和,其列的特征矩陣和具有序列長度為m Xq 和 ,三個矩陣Q、K、V由三個線性變換得QXqWqKXkvWk,VXkvWv.Transformer被稱為自注意力機制,因為三個矩陣Q、K、V同特征矩陣X nd此外,Transformer采用了多頭自注意力(Multi-headAttention)能力。多頭注意力的計算方式如下:使用了多個查詢矩陣Q(i)陣K(i)和值矩陣V(i),最終輸出為H dvdo,它是通過將一系列H進dv拼接并使用一個新的權重矩陣Wodv,Hh,Hh q kv kvHAttention(Q(i),K(i),V(i))Attention(XW(i),XW(i), q kv kv對于解碼器,TransformerAttentionSoftmax之前引入了一個額外的掩碼(MASK)操作,防止查詢矩陣Q去對序列中尚未解外的“交叉注意力”層,其中查詢矩陣Q是從解碼器中前一層的輸出中派生出來的,而鍵矩陣K和值矩陣V是從編碼器的最后一層的輸出中Transformer在解碼時避XdidGELU,diddfb ,W df
(1)活:在每個注意力模塊之后引入了非線性激活函數(shù)(,這有助于增(2之后,Transformer都應用殘差連接(ResidualConnection)和層歸一化(LayerNormalization)技術,這有助于在模型非常深時保留信息歸一化層定義為LayerNormX
fXTransformer模型被提出之后,它也衍生出了相當一部分的變現(xiàn)有的語言大模型幾乎全部是以Transformer模型作為基礎架Transformer編碼器或解碼器,或者同時使用兩者。從建模策略的角度,語言大模型架構大致可以分為三類[36]:2-3語言大模型的三種典型架構掩碼語言建模(MaskedLanguageModeling,MLM)是基于Transformer編碼器的雙向模型,其中BERT[11]和RoBERTa[41]是中還加入了下一句預測(NextSentencePrediction,NSP)任務。在預記[CLS]和[SEP],并且隨機用[MASK]標記替換原始序列中的字[MASK]位置的標簽字符的條件概率,即讓模型執(zhí)行“完型填空”任務。而[CLS]的最終表示被用于預測兩個句子是否連貫。RoBERTaBERT基本相同,但是自回歸語言模型在訓練時通過學習預測序列中的下一個詞來建rnsorer的優(yōu)化目標為最大化對序列中每個位置的下一個詞的條件概率的預OeI的PT[6]]、Mta的LaA0]和Ggle的PM[7]G-3[1]Transformer架構上的序列到序列模型,即同時使用編碼器-解碼器結構,代表性模型包括T5[42]和要的預訓練任務,即隨機用單個[MASK]特殊標記替換文本中任意54章。高效預訓練策略對語言大模型的預訓練。一種是在預訓練中設計高效的優(yōu)化任務目標熱啟動策略漸進式訓練策略知識繼承方法234375%(PreitaleSaig[6]pAI在P-4使用00倍至00倍較少計算資源訓練的小模型可靠地預測GP4 ETrnsrmer(統(tǒng)一的序列建模(542和BAT43等2計算高效的模型架構rnsorer訓練穩(wěn)定性、顯存利用等方面進行優(yōu)化。比如,rnsomer其并行O(),rnfomer模型也是顯存密集型模型,輸入序列越長、占用的內存nsorerRet44,其(Rtnin能的基礎上同時實現(xiàn)模型訓練速度、推斷速度和內存節(jié)約的大幅提升。針對自注意力顯存消耗大,斯坦福大學在rnsomer中引入Fahtein45]O計算實現(xiàn)訓練和推理加速,典型工作包括Google的SwitchTransformers[46]和Pathways[47]架構、清華大學的MoEfication架構[48]、FastMoE架構[49]等。2-5混合專家化的模型架構(InstructionTuning)[21],是一種可以幫助語言大模型多工作采用多任務提示方式對基于指令描述的大量任務集上對語言指令數(shù)據(jù)獲取,指如何構建包含多樣性的任務指令數(shù)據(jù)。2000NLPOPT-IML[52]。ii)借助語言大模型的自動過GPT-3、InstructGPT等在線平臺收集用戶真實指令數(shù)據(jù)。指令對齊, 言大模在多然語言理任都展現(xiàn)了卓越性能而它有時會出現(xiàn)預期為如造虛假信息、追求錯誤目標或產(chǎn)生有偏見的內容5]。其根本原因在于,語言大型在練時僅過語型建模未涉人的價值或偏好。為了解決這一問題,研究者提出了“指令對齊,使語言大模型的輸更符類的預期但這對齊與始預有所不同注重于用性實性和害性外指對齊會降低言大模型的些通力,這稱為lgmetx。現(xiàn)模型出與對人類價值的對齊,IsrcGPT提出了一種基于人類反饋的微調方法利用強化習技術將類反納入模微調程實際ChtGT也用與ItrcGT的技術以確生高質且無害的出指對齊的泛應用適配微從純學習的統(tǒng)微參數(shù)高效微調(PaametEiietigET為代“”3類[4]()添加式方法并僅微調該引入部分的參數(shù)。如適配器(dter)方法,旨將小規(guī)2指定式方法:旨在原模型指定模型中部分參數(shù)為可訓練參數(shù),并固定模型其他參%3重參數(shù)化方法:將原模型或部分模型參數(shù)重參數(shù)化到低維度參數(shù)空間oR[4個低秩矩陣相乘,即WW0WW0WdownWup2-63種范式etang40繞參數(shù)高效微調的開源工具也被研發(fā),代表性包括OpPropt[5、OeDla[6dperu[7]Dltantr[0等。種更輕量級的下游任務適配方法。特別地,LRA4]已廣泛應用于(如LLM)通過大規(guī)模文本數(shù)據(jù)預訓練之后的語言大模型具備了作為通用指令提示(InstructionPrompt,也稱為提示學習。OpenAI在GPT-3[16]GPT-3在少樣本提示下能(Prompt1(3ICL,也稱2-7思維鏈(hinofThoght,CT)[8]。推理的過程通常涉及模型的多步推理能力,被鼓勵語言大模型生成解決問題的中間推理圖27國AllenAIGPT-3(falsepremise)的簡單性常識性問題時,如類似“太陽有幾只眼睛?”,GPT-3仍然會給出“太陽兩只眼睛”的荒謬回復。有效的解決4類[59]2-8所示:2-84以BERT為首的各種預訓練模型是現(xiàn)在知識遷移的主要方法。2.4.521OpI推出eGT60,利用G-3器和搜索引擎交互獲取互聯(lián)網(wǎng)信息在長文本問答上實現(xiàn)非常強的能bhp6]223年3OeAI發(fā)布CaGTPgns2],實現(xiàn)ChPT支持瀏覽器實時信息獲取、代碼解釋器、PDF閱讀等能力,截至8月已支持40Mta擴展語言大模型能力的方法,統(tǒng)一稱為增廣語言模型(AgetdLnugeoes[3olLerig)框架24]2-9基于用戶接口視角的工具分類(2-9瀏覽器、Office辦公軟件等、基于編程接口的工具(如數(shù)據(jù)庫、知Learning,利用Learning3面向理解任務的多模態(tài)大模型,其核心結構通常是基于Transformer的編碼器。按照模型結構的不同,面向理解任務的多模Transformer網(wǎng)絡進行處理;而多流結構Transformer網(wǎng)絡進行編碼處理,這些網(wǎng)絡之了一種雙流TransformerTransformr特征嵌入到共享的語義空間中。CLIP4億圖文對進行訓練,可零樣本(zero-shot)分類能力。另一個與CLIP含超過10億個噪聲圖像-文本對的數(shù)據(jù)集來擴展視覺和視覺語言表征CLIP類似,VATT將每個模態(tài)線性投影為特Transformer編碼器中,并將編碼后的特3-1CLIP[65]單流結構的一個典型代表是VL-BERT[68],它將圖像的描述文本和關鍵物體的區(qū)域特征拼接后作為BERT另一代表性方法UNITER[69],則采用了一種多任務的多模態(tài)預訓練代表性方法有VideoBERT[70]和ActBET[71]VideoBERT是一個視頻-語言模型,它融合了文本和視頻作為BERT網(wǎng)絡的輸入;而ActBERT采用了一種全局-局部關系的建模方法,輸入不止包括文本現(xiàn)有的面向理解任務的多模態(tài)大模型大多都以上面兩類結構為Florence[72],它著重于如何使模型適應各種下游任務,并設D、分子結構等多種模態(tài)內容的生成應用。目前常用的方法主要是difsondl在序列生成模型中,DALL-E[73]是個典型代表。它是由OpenAI發(fā)布的一個基于4億圖文對訓練的圖像生成模型,通過采用VQVAE[74]GPT組合的結構,在以文生圖任務型的圖像生成模型是北京智源研究院所的CogView模型[75](如圖3-2所示DALL-E類似的結構,但是面向中文環(huán)境的文CogView3-2CogView75]性方法LDM[77]StableDiffusionLDM至開放領域的文本至圖像生成,是當性方法有OpenAI的DALL-E2[78]與谷歌的Imagen[79]。其中,DALL-E2首先然CLIP訓練一個獨立的映射模型將CLIP模型的文本特征映射到圖像特征空匹配程度。而Imagen首先將文本進行編碼表征,之后使用擴散模型64x641024x10243-3所示。DALL-E2ImagenT5模ImagenT5CLIP模3-3Imagen[79]Transformer編碼器通過雙向的注意力機制來學習對數(shù)據(jù)的理解時具備這兩種能力從而可以在更廣泛的下游任務上應用,可以聯(lián)合Transformer編碼器與解碼器,設計能夠兼顧理解與生成任務的多模VL-T5[80]模型,3-4所示,該模型由Transformer編碼器和自回歸的解碼器組成,其主要創(chuàng)新點在型UnifiedVLP[81],它的主要特點是編碼器和解碼器共享同一個Transformer網(wǎng)絡。該方法通過設置注意力掩碼來控制網(wǎng)絡為編碼器BLIP-2[82]Q-former結構等(3-5所示。這類模型3-5BLIP-2[82]上,典型方法有KRISP[84],它結合了隱含知識和明確知識的學習,Transformer或卷積神經(jīng)網(wǎng)絡(CNN)來捕捉視覺和語言代Transformer,成為了重要的研究方向。20-70-40-Flmno(ewst的多等多種任務。另一個代表性模型SMOS186],它將一個基于rnfomer6(將圖像、視頻等感知模塊與LMA7]等開源的語言大模型對接,從而實現(xiàn)類似P-4的多模態(tài)理解能力。其中的一個典型模型是ChtBige8],它使用多個并行的感知模塊用來處理包括圖片、音Modeling,MLM:預訓練模型被要求根據(jù)可見的多模態(tài)上下文來預測這些被遮蔽的單3-7。多模態(tài)大模型通過執(zhí)行這種預訓練任務,模型3-7ModelingMIM訓練模型被要求在僅看到其余圖像內容與文本等其他模態(tài)信息的情3-8。3-8Matching,ITM:3-9。3-9ITC,3-10。3-10圖像-基于適配器網(wǎng)絡的模型微調適配:適配器層,使得模型可以在不同任務之間共享通用預訓練模型的表4ChatGPT、文心一言、訊飛星火等提供如APP、網(wǎng)頁版、API接口等多種形式的開放服務,并通過開放插件機制、FunctionCall等實現(xiàn)大模型外部工具、服務的調用,加速應用生態(tài)的AI芯片開展適配和聯(lián)合優(yōu)化。大模型的訓練數(shù)GPTOpenAI的GPTChatGPTGPT-4是兩個代表性模型。ChatGPT專注于對各種文本ChatGPT32,000個字符,它可以執(zhí)行各種任務,包括代碼編寫、數(shù)學問題求解、寫作建議等。GPT-4在推理方面的能力比ChatGPT更強,同時也減少了幻象的產(chǎn)生,能夠更準確地理解ChatGPTGPT-4發(fā)布以來,許多開發(fā)者已經(jīng)開始將各種工具ChatGPTPlusClaudeClaudeAnthropic開發(fā)的閉源語言大模型,目前包含Claude和Claude-InstantClaude2023AI技術(包含監(jiān)督訓練和強化學習)進行訓練,旨在改進模型的有Claude-2200K詞元的上下文。相比于Claude1.3Claude2擁有更強的綜合能力,同時能夠生成更長的相PaLMPaLM17]Google2022種PaLM的改進版本。Med-PaLM[89]是PaLM540B在醫(yī)療數(shù)據(jù)上績。PaLM-E90]是PaLM的多模態(tài)版本,能夠在現(xiàn)實場景中控制機器人完成簡單任務。20235月,Google發(fā)布了PaLM2,但并未公開其技術細節(jié)。Google340B,訓練數(shù)據(jù)為PaLM5倍左右。Bard是GoogleOpenAIChatGPT后,GoogleBard的開包括添加數(shù)學與邏輯能力、添加代碼能力、支持更多語言等。5月,Google發(fā)布了基于新一代語言大模型PaLM2Bard32019年發(fā)布。831APP、網(wǎng)頁版、API接口等多種形式的開放服務。文心一言一方面采用有監(jiān)330多倍。文心一言還建設了202356日發(fā)布的語言748169日星火大模型升級到V1.5版,實現(xiàn)了開放式知識問答、多輪對話、邏輯和數(shù)學能力的提升;8月15日星火大模型升級到V2.0版,對于代碼和多模態(tài)能力進行了提升。同時,訊飛和華為2023703年80的產(chǎn)品體系以及廣泛的應用場景使得通義千問更具可落地性和市場可接受程度。LLaMAFalconPythiaT5BLOOMOPTMPTERNIE2.0,ERNIEGLMBaichuanCPM盤古LLaMALaA0]B到5B集。這些數(shù)據(jù)集包括ComnCral、iieia、peex2、ReaNw、oks等。LMALMA使用了高效的數(shù)據(jù)并行和流水線并行技術,以加速模型的訓練和擴LaA1B在ComeneA等9G-315B,而LaA65Bhnhla-0B和Pa-0BLaAGPTLMA采用了eodolyoraiztnLaMA對每個rnfomer子層的輸入進行了RMSormiU將ReLUSwiGLU線性,同時減少參數(shù)量和計算量;RoPE位置編碼,模型的輸入不再使用位置編碼,而是在網(wǎng)絡的每一層添加了位置編碼,RoPE位置編FalconFalcon[31]系列模型是由位于阿布扎比的技術創(chuàng)新研究院(TechnologyInnovationInstitute,TII)創(chuàng)建的生成式語言大模型,其基于Apache2.0許可發(fā)布。Falcon大模型家族目前主要包含三個基礎模型:Falcon-7B,F(xiàn)alcon-40B,以及Falcon-180B。三個模型都是在Falcon-7B基于解碼器模型架構并在精心處理的RefinedWeb數(shù)據(jù)集上使用1.5萬億個字符預訓練。除此之外,使用多查詢注意力機制增強推理時的可擴展性,并顯著降低顯存需求。Falcon-40B擁有400億參數(shù),并在1萬億字符上進行了訓練。在發(fā)布后的兩個月里,其在HuggingFace的開源語言大模型排行榜上排名第一。該系列最新的Falcon180B具有1800億參數(shù)的,在3.5萬億字符上進行預訓練。該 的開源語言大模型排行榜上擊敗了Meta LLaMA2-70B等競爭對手。在閉源模型中,它的排名僅次于OpenAI的GPT4,性能與谷歌的PaLM2Large相當,但只有其模型的一半PythiaPythia[91]EleutherAI開發(fā)的一系列生成式語言大模型。該系列有1612B提供下載和清洗重組數(shù)據(jù)的工具,以便進一步研究。EleutherAI使用2Pythia88種不同的模型尺寸。一套是直接在Pile上訓練的,另一套則在經(jīng)過MinHashLSH近重復處理后的Pile0.87。經(jīng)字符。由于Pythia系列模型在相同架構基礎上涵蓋多個不同尺寸,HuggingFace上直接獲取,也可以通過Github的官方頁面獲取。T5T5[42]模型是由GoogleBrain團隊在2019年提出的一種基于NLP任務(如翻譯、摘要、問答等)轉化為一個統(tǒng)一的框架下進英文網(wǎng)頁文本數(shù)據(jù)的大規(guī)模語料庫。T5模型還探索了不同規(guī)模的模型架構和參數(shù)量,從小到大分別有small、base、large、XL、XXL和XXXL六種規(guī)模。其中,XXXLT5110億個參數(shù),Transformer的預訓練語言模型之一。BLOOMBigScience2022年提出了BLOOM系列模型[92]BLOOM有1760Transformer解碼器架構的語言大模型,4613提升BLOOM庫中包含的語言。此外,BLOOMTransformer架構提出了許多的更改。相比于在嵌入層添加位置信息,BLOOM采用了ALiBi技術,基于keys和queries二者之間距離來計算注意力分數(shù)。雖然ALiBi技術擁有外推至更長的序列的能力,但其在原始序列上也能夠BLOOM在嵌入層之后后立即進行層分詞器相比,BLOOM25萬個字符,以支持多種語言。BLOOMZBLOOM擁有相同的模型架構與超參數(shù),在130了SGPTBi-Encoder方案進行對比微調。通過訓練,可以得到擁有高bitext挖掘、重排或者特征抽取等任務。GPT-Neo[93]系列模型是由EleutherAI開發(fā)的預訓練語言大模GPT-Neo基于OpenAI的GPT該模型的最大版本,GPT-Neo2.7B27億個參數(shù)。它是在多樣化125M,350M1.3B等不同參數(shù)規(guī)模。GPT-Neo項目的一個獨特之處在于其強調開源開發(fā)和社區(qū)參與。EleutherAI公開了該模型的訓練權重,使其他研究人員和開發(fā)人員能GPT-Neo模型的OPTOT[4]模型是由MetaAI發(fā)布的一款dedeny模型,與GP3GP-3MtaAIOT模15M到15B原因和動機,為研究社區(qū)的使用和進一步研究提供了重要的參考資O-5BP3PT包括RoEa的okops和tois,以及更新的CNwsPle的CmoCrwl、MMaemais、Poecttebe、HakeNwsOpSuilsOenex2USO和ikpda。MPTMP(MosaicMLransformer研發(fā)的開源可商用模型。MPT-7B在2023年5月發(fā)布,有MPT-7B-StoryWriter-65k+65K20236月,MPT-30BMPT-7B更強大的性能,超過了原Chat方面表現(xiàn)出色。MPT-30B8,000字符長度的上下文窗ERNIE2019年,百度將大規(guī)模知識與海量數(shù)據(jù)融合學習的方法,在超90GLUE、SuperGlue20究和產(chǎn)業(yè)發(fā)展。ERNIE3.0[97]1000億,首次GLMGLM[98]AI等合作研發(fā)的開源語言大模型。GLM采用了自回歸填空作為預訓練任務,并且使用多任務為了能夠更好地進行預訓練,GLM采用了二維位置編碼,第一維表息。此外,為了能夠盡量推理和訓練所占用的顯存,GLM-130B可以使用INT4進行量化并且不會明顯影響模型效果。通過優(yōu)化,GLM-130B4張RTX3090Ti(24G)8張RTX2080Ti(11G)的顯卡上進行推理。ChatGLM是基于GLM1萬億字符的中英文語料進行訓練,能夠支持中文和英文兩種語言的ChatGLM擁有強大的生成能力,能夠生成更符合人類偏好的內容。與GLMINT4量化和P-Tuningv2[99]等高效微調的算法,ChatGLM7GChatGLM的基礎上,ChatGLM21.4FlashAttention技術,ChatGLM23.2通過Multi-QueryAttention技術,ChatGLM2能夠進一步地提升推理BaichuanBaichuan的中文和英文benchmark上均取得同尺寸最好的效果,其基于Transformer解碼器架構。Baichuan-7B1.2萬億字符上訓練704096的上下文窗口長度。Baichuan-13B在Baichuan-7B的基礎上進一步擴大參數(shù)量到1301.4LLaMA-13B40%,是當前開源13B尺寸下訓練數(shù)據(jù)量最多的模型。其支持中英雙語,使用ALiBi4096的上下文窗口長度,使用INT8INT4了部署的機器資源需求。Baichuan2-7B和Baichuan2-13B2.6萬億高質量多語言數(shù)據(jù)進行訓練,在保留了上一代開源模型良好CPMCPM系列模型由北京智源人工智能研究院和清華大學的合作研發(fā),目前包括了CPM-1、CPM-2,CPM-3和CPM-Bee典型模型。CPM-1[33]26億參數(shù)。100GB數(shù)據(jù)為基礎,等類型。在多個公開的中文數(shù)據(jù)集上的實驗表明,CPM-1在對話、練模型訓練的計算開銷對應用的使用限制。CPM-3是基于BMTrain預訓練技術,在零樣本和少樣本場景中表現(xiàn)出色。CPM-Bee的是一個完全開源、允許商用的百億參數(shù)中英文基座模型。它采用Transformer自回歸架構,通過對預訓練預料進行嚴格后處理提升數(shù)鵬程盤古α[100]由以鵬城實驗室為首的技術團隊聯(lián)合協(xié)作開20482000閱讀理解等,并且擁有很強的小樣本學習能力。鵬程.盤古α收集了80TB的原始數(shù)據(jù),包括開源數(shù)據(jù)集、commoncrawl網(wǎng)頁數(shù)據(jù)、電1.1TB的高質量中文語料數(shù)據(jù)集。研究對比了智源研究院發(fā)布的首個26億參數(shù)的中文預訓練語言模型「悟道·文源」CPM1.1TB數(shù)據(jù)中策略抽樣100GB2.6B參數(shù)規(guī)模的「鵬程.盤古α」模型,16個下游任務上進行了對比。實驗結果表明,鵬程.盤古α-2.6BCPM-2.6B模型具有更強的語言學習能力,特別是在生成任務和小樣本學習方面。實驗還對比了鵬程.盤古α-13B和鵬程.盤古α-2.6BPPL任務上,13B2.6B,說明鵬程.盤古α-13B模型具有較強的小OPT,7B,LLaMA-AdapterViT,CPM-KOSMOS-2[101]是微軟亞洲研究院在KOSMOS-1模型的基礎上開發(fā)的多模態(tài)大模型。其中,KOSMOS-1是在大規(guī)模多模態(tài)數(shù)據(jù)集(即零樣本學習KOSMOS-2KOSMOS-1相同的模型架構和訓練目標對模型進行訓練,并在此基礎上新增了對圖像局部區(qū)域OpenFlamingo[102]DeepMindFlamingo模型的開源復現(xiàn)版,可實現(xiàn)多模態(tài)大模型的訓練和評估。OpenFlamingo使用交叉注在大型多模態(tài)數(shù)據(jù)集(MultimodalC4)上進行訓練,可以實現(xiàn)以交錯的圖像/文本為輸入來進行文本生成。例如,OpenFlamingo可BLIP-2[82]通過一個輕量級的查詢轉換器彌補了模態(tài)之間的差生成學習。BLIP-2在各種視覺語言任務上實現(xiàn)了最先進的性能,盡管與現(xiàn)有方法相比,可訓練的參數(shù)明顯更少。例如,BLIP-2模型在8.7%BLIP-2模型,對視覺語言指令進行微調。具體地,InstructBlipBLIP-2的結構,有一個圖像編碼器,一個語言大Q-Former覺特征提取過程,指令不僅會指導語言大模型生成文本,同時也會指力與圖像能力結合。其利用視覺編碼器和語言大模型Vicuna[109]進行結合訓練。具體地,MiniGPT-4使用一個投影層來將來自BLIP-2的凍結視覺編碼器與凍結的Vicuna(LLaMA指令微500萬個圖像-文本對進行視覺-語言對齊訓練。第二個微調階段進行多模態(tài)指令微調以提高其生成可靠性和整體可用性。MiniGPT-4能夠產(chǎn)生許多類似于GPT-4中展示的新興視覺語言能力。LlaMA-AdapterV2[105]是一種參數(shù)高效的視覺指令模型。具體LlaMAAdapterLLaMA模型該模型將額外的專家模型(例如字幕/OCR系統(tǒng))合并到LLaMA-Adapter中,以進一步增強其圖像理解能力。ImageBind[106]是Meta(3D習能力,接下來是多任務的指令微調,使其與用戶的意圖對齊。VisualGLM-6B[107是由語言模型ChatGLM-6B與圖像模型BLIP2-Qformer結合而得到的一個多模態(tài)大模型,其能夠整合視覺和文圖像文本對進行預訓練。這種方法使視覺信息能夠很好地與ChatGLM的語義空間對齊。在微調階段,該模型在長視覺問答數(shù)據(jù)VisCPM-Paint模型支持文到CPM-Bee基座的雙語能力,VisCPMmPLUG-Owl[110]大模型可以支持多種數(shù)據(jù)模態(tài),各種多模態(tài)任務。與傳統(tǒng)的多模態(tài)模型相比,mPLUG-Owl有更高的Qwen-VL[111]是支持中英文等多種語言的視覺語言模型。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型,了具備基本的圖文識別、描述、問答及對話能力之外,Qwen-VL還PyochPyorch[27]gradients communication)以及在梯度累積(gradientsynchronizationPyTorch分布式數(shù)據(jù)并行可以用256個GPU達到接近線性的可擴展性程度。在DP的基礎上,原生支持DDP,每個節(jié)點都有自己的本DDP都顯著快于DP,能達到略低于卡數(shù)的加速比,但要求每塊GPU卡都能裝載完整輸入維度的參數(shù)集合在1.11版本后Pyorch開始支持FSDP技術,可以更加高效的將部分使用完畢的參數(shù)移至TensorFlowTensorFlow在多個領域有廣泛的應CPU、GPU和TPU等。TensorFlow還提供了高級API,使開發(fā)者可以快速構建、訓練和部署深度學習模型。(PaddlePaddle[13]ParallelERNIE等處理(NLP)模型訓練場景,又覆蓋了有著龐大的Embedding層模深度學習訓練/推理框架。MindSpore能很好匹配昇騰處理器算力,AIMindSpore還習框架。Jittor集成了算子編譯器和調優(yōu)器,可以為模型生成高性能的代碼。Jittor與PyTorch兼容,可以方便地將PyTorch程序遷移Jittor框架上。JittorCPU、GPU、TPU等。Jittor在框架層面也提供了許多優(yōu)化功能,如算子融合、自動混OneFlow:OneFlow[116][116]能夠較好適用于多機多卡訓練場景,是國內較早發(fā)布的并行計算框架。OneFlow會把整個分布式集設備。最新版本的OneFlow和TensorFlow一樣,實現(xiàn)了同時對動兼容了PyTorch,支持數(shù)據(jù)+模型的混合并行方式,可提升并行計AI[117]機PyTorch代碼快速擴展到并行計算機集群上,無需關心并行編程Megatron-LMMegratron[118]是NVIDIA提出的一種基于PyTorch分布式訓練大規(guī)模語言模型的架構,用于訓練基于Transformer架構的巨型語言模型。針對Transformer進行了專門的Megatron設計就是為了支持超TransformerTensorPipeline并行兩種模型并行方式。同時提出了更加精細的pipeline結構與communication模式。通過多種并行方式的結合,可以讓大模型的訓LayerNormDropout安裝輸入維度進一步切DeepSpeed2021年2月份,微軟發(fā)布了一款名為ZeROZeRO-1,ZeRO-2,ZeRO-3ZeRO-3OffloadGPU規(guī)Offload512顆V100上訓練萬億參數(shù)規(guī)模的大模型。law7B的小規(guī)?!敖炭茣═extbooks)”高質量的代碼訓練數(shù)據(jù)(包括從web上篩選的“教科tokensGPT3、PaLM[17]和GLaM[120]模型在訓練數(shù)據(jù)構造時都使用了基于鍵詞過濾,如BLOOM和Gopher[121]都采用了基于啟發(fā)式的方法。要對數(shù)據(jù)進行冗余去除。文本冗余發(fā)現(xiàn)(TextDuplicateDetection)也方法使用了基于Transformer的模型,并結合機器翻譯技術,可以處100種語言的文本,消除其中的隱私信息。(Plainshotbased1語言大模型預38G,RedditURLWeb3CommonThe語言大模型指52000條指令數(shù)據(jù),涵蓋創(chuàng)作、生成、設Ontocord.ai這三個機構共同制作,用于對1.8G,ShareGPT數(shù)據(jù)集是一個由用戶共享SFT1億條來語言大模型強化學習微調數(shù)16M52MRLHF數(shù)據(jù)集,包3020007774個問題。helpfulharmless圖片-文本多模COCO330K,圖片/1.5MConceptual12M視頻-文本多模136M,視頻標題對/1345002.5M,視頻標題對/130001.8M圖文音多模態(tài)1M,視頻-音頻-5AI模型相比,非常依賴分布式技術提升效率。因此,大模型開發(fā)的示的梯度檢查點(Checkpointing)方法,以及內存優(yōu)化的ZeRO-Offload[142]方法,即通過將數(shù)據(jù)和計算從GPUCPU,GPU內存占用的方法。二是多設備優(yōu)化方GPU一起數(shù)據(jù)并行[143]后,對參數(shù)梯度做AllReduce聚合,然后每個處理器獨立進行參數(shù)更張量并行8]但需要設計高效的并行算法和通信機制來確保計算的正確性和高效1F1BInterleaving1F1B“通信-計算”重疊的方式隱藏通信時間,的是基于PyTorch進行進一步封裝形成單獨的工具,如微軟的DeepSpeed-Megatron[147]、NVIDIA的Megatron-LM[118]、清華大學的BMTrainPaddePaddle硬件資源異構性,進一步發(fā)展出了端到端自適應分布式訓練架構5-15-2如:FasterTransformer、TensorRT-LLM、vLLM、TextGenertionInference、HuggingFaceTG等實現(xiàn),這些工具已經(jīng)針對大模型推理進ChatGPT30多倍;騰訊混元大模型,通40%。從而減少Attention層的參數(shù)量,提高模型的效率。ALBERT[152]采用了權重共享數(shù)轉換為低位數(shù)的技術。通常情況下,量化的精度可被降低到8位難以量化的問題[155]。自適應Shift-SmoothQuant[156]大模型量化方Hardwarewareness,協(xié)同優(yōu)化模型推理效率[102][103]。TokenGeneration階段則屬于訪存密集型。針對這種計算特點,可以通過協(xié)同硬件開展優(yōu)化,研發(fā)LLM.INT8()[67]WeightOnly量化混合的推理方案。這種方案能夠快速進行量化,GPU資源的利用目前國際上主要的大模型訓練芯片有英偉達GPU,如H100、A100,以及谷歌的TPU(TensorProcessingUnit,國內主要有華為AI芯片的技術棧提供差層硬件SDK支持硬件算子庫。NVIDIACUDAC開發(fā)語言,然后深度學習框架通過高級開發(fā)間表示(IntermediateRepresentation,IR)對接硬件的代碼生成器(CodegenSDK支持代碼生成的硬件。算子融合優(yōu)化等技術,并通過接入硬件Transformer大算子庫,針對TPU(TensorProcessingUnit)CPU和GPU不同,TPU型訓練的特殊需求。ASIC(Application-SpecificIntegratedCircuit)加個特定應用場景而設計制造。ASIC的優(yōu)勢在于能夠實現(xiàn)高度優(yōu)化的電路結構和算法,從而提高性能和能效。除了ASICFPGA(Field-ProgrammableGateArray)加速也是一種重要的硬件加速技另外,云服務也為大模型訓練提供了強大的計算能力和存儲資zueoleCud6和少樣本學習能力,可以快速掌握新的任務,實現(xiàn)對不同領域、不同數(shù) (年來的向量索引。在在線階段,檢索系統(tǒng)接收到用戶查詢后,首先如經(jīng)典的B5pK以索引為核心的“索引—召回—精排”檢索架構被廣泛應用在各種信息檢索系統(tǒng)中。ChatGPT為代表的生成式大模型和以搜索引擎為代表的檢索6-1NewBing6-2中國科學院自動化研究所基于自主研發(fā)的音視頻理解大模型“聞AI技術在視頻配音、語音播報、標題生成、海報設計Talk2Car任務中。具體地,用戶通過給出一個指令,比如“在223年7月7CtGT“市-園區(qū)-商圈-社區(qū)-網(wǎng)點級別的智能計算與研判,為線上線下數(shù)實融AI“空間AI專家顧”6-3AIDeepMindCalicoDNA遠端交互進行基因表達和染色質狀態(tài)預測的神經(jīng)網(wǎng)絡架構Enformer[159]20萬個堿基對,大幅提高了根據(jù)DNA序列預測基因表達的準確性。為進一步研究疾病中的基因調控“EVE”[160]基因突變是“致病”還是“良性”AI模型可幫助遺AlphaFold2使得6-4AlphaFold2微軟推出的新一代辦公軟件Copilot,將大模型應用于辦公場景,實現(xiàn)智能化協(xié)助用戶提高工作效率。在文字處理軟件Word中,Copilot戶只需用自然語言提出需求,Copilot即可以快速生成或修改文檔內PowerPoint中,Copilot可以根據(jù)用戶的要求,Excel中,Copilot可以完成數(shù)6-5在影視行業(yè),大模型技術為內容制作和影視創(chuàng)作帶來了新的變6-6新應用,以智能化手段提升教與學效果。7月,K12模型能夠較好地因材施教,為學生提供全方位知識支持。8月,好未來MathGPT,可自動出題并給出解答,涵蓋小學到2023年6月,恒生電子發(fā)布多款大模型金融應用,其中金融行業(yè)LightGPT4000億字節(jié)的金融領域數(shù)據(jù)進行預訓練,風險控制等能力。在模型訓練規(guī)模不斷擴大的背景下,金融行業(yè)大模20235月,MedGPT,實現(xiàn)從預防到康復的全流程智能診療,7月,谷歌DeepMind研發(fā)Med-PaLM[89]醫(yī)療大模型,其在醫(yī)學考試和開放式問答上達到專家水平,86.5%,大幅超過早期版本。非專業(yè)評估者也阿里巴巴的多模態(tài)大模型M6已經(jīng)在眾多民生服務領域產(chǎn)生了影響。首先,M6除了提供文本到圖像生成的能力,還被改進為可根據(jù)可以保留其領子并進一步進行個性化調整。M6改進后每次可以只生M6還被用于生成營銷文案,傳統(tǒng)方法需要十萬到百萬級別訓練數(shù)據(jù)才能達到工業(yè)級可用,M6只需要使用原來5%左右的樣本,即可實包括題目,還可以輸入圖,大大增加了模型的預測效率。M6模型還M6,這一過程已經(jīng)成功地上線實現(xiàn)。20221213GoogleRoboticTransformer-1[162],框Transformer直接EverydayRobots公司機器人的機械臂狀態(tài)和移動底盤狀態(tài)2023124日,Microsoft發(fā)布了ControlTransformer[163],在氣象方面,大模型也取得了突破。202376當。與IFS1000072023428須由各國展開協(xié)調設定紅線”,需要“AI有助于人類幸福,而不會成為人類威脅的環(huán)境”。OpenAI首席執(zhí)行官山姆阿爾特曼呼吁美AI社會威脅的擔憂日益底,眾多AIAI領袖發(fā)表公開聲明,呼吁防范AI的生存風險應該與流行病和核戰(zhàn)爭等其他大規(guī)模風險一樣,成為全球優(yōu)先議題。20236Geoff
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高考地理一輪復習第二部分人文地理-重在運用第一章人口的變化第17講人口的空間變化學案新人教版
- 以德育人始于行立德無聲潤于心-2024年秋季學期學校德育工作(匯報)總結【課件】
- 小學2024-2025年第二學期數(shù)學教學計劃
- 2024CSCO免疫檢查點抑制劑相關的毒性管理指南
- 建筑機電設備安裝通病
- 二零二五年度餐飲店員工福利保障合同范本3篇
- “乘風破浪的姐姐”中不同人格類型的心理分析
- 大豆加工發(fā)展前景分析
- 月球的各種圓缺形態(tài)課件說課講解
- 2024年浙江特殊教育職業(yè)學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 土地流轉合同補充協(xié)議書(2024版)
- 2024年小學語文名師工作室年度工作總結
- 羽毛球教練勞動合同模板
- JBT 6434-2024 輸油齒輪泵(正式版)
- 2024時事政治考試題庫附參考答案(黃金題型)
- 中華人民共和國勞動合同法全文下載
- GIS設備帶電補氣作業(yè)指導書
- 產(chǎn)品銷售合同的簽署方式
- 小學二年級除法口算1200道(81以內整除)
- 2024-2029年中國大健康行業(yè)市場發(fā)展現(xiàn)狀分析及發(fā)展趨勢與投資戰(zhàn)略規(guī)劃報告
- 全國醫(yī)院數(shù)量統(tǒng)計
評論
0/150
提交評論