2024大型語(yǔ)言模型應(yīng)用實(shí)踐與場(chǎng)景落地_第1頁(yè)
2024大型語(yǔ)言模型應(yīng)用實(shí)踐與場(chǎng)景落地_第2頁(yè)
2024大型語(yǔ)言模型應(yīng)用實(shí)踐與場(chǎng)景落地_第3頁(yè)
2024大型語(yǔ)言模型應(yīng)用實(shí)踐與場(chǎng)景落地_第4頁(yè)
2024大型語(yǔ)言模型應(yīng)用實(shí)踐與場(chǎng)景落地_第5頁(yè)
已閱讀5頁(yè),還剩310頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄TOC\o"1-2"\h\u23618 18807CHAPTER 31501第1 35561 3255021.1Transformer 3156041.2 7300911.3 2753551.4 36221571.5 43214CHAPTER 442337第2 447355 44221952.1 4471462.2 51160232.3 73236882.4基于PEFT的LLaMA 8166512.5 8924638CHAPTER 901102第3 907042 90214813.1 90225553.2 9533303.3基于DPO 10232743.4 10818732CHAPTER 10923363第4 1098186創(chuàng)建個(gè)人專屬的 109119894.1GPTs 109167554.2GPTs 1212423▲圖4-20你畫(huà)我猜” 132147214.3GPTs 133148664.4 14519330CHAPTER 14620028第5 1463994大型語(yǔ)言模型SQL 146252925.1 14619255.2 157209595.3Text2SQL 166202085.4 17729265CHAPTER 17827556第6 17831671 17892286.1 178315726.2 183140396.3基于Baichuan 18627050▲圖6-9 205258026.4 20611664CHAPTER 2071532第7 207242 207281747.1 20732467.2 20816167▲圖7-6 213317777.3基于Qwen 21424837.4 2373689CHAPTER 23818233第8 23867558.1Agent 238288688.2Agent 240255848.3Agent 24213748▲圖8-3Reflexion 246215088.4主流Agent 246158558.5 25629323CHAPTER 25831437第9 25814386 258256549.1 258162589.2 260112039.3 268225319.4 28932232CHAPTER 29121307第10 29126992使用LangChain構(gòu)建一個(gè) 2912527410.1AutoGPT 291200010.2LangChain 2942243410.3使用LangChain構(gòu)建 295540610.4運(yùn)行 3152234210.5 318CHAPTER第1SOTA(StateOfTheArt,最高水平)。這一現(xiàn)象使得許多AI(LargeLanguageModel,LLM)的研究。大型語(yǔ)言模型中的“大”,不僅僅是指模型參數(shù)目前,大型語(yǔ)言模型已經(jīng)成為從業(yè)人員必須掌握的重要知識(shí)領(lǐng)域。本章首先講解大型語(yǔ)言模型的基礎(chǔ)架構(gòu)——no,然后介紹目前常用的通用大型語(yǔ)言模型和領(lǐng)域大型言模型的概念和原理。TransformerSeq2Seq)任務(wù),該模型摒棄了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)結(jié)構(gòu),采用注意力分別為多頭注意力(Multi-HeadAttention)層和前饋網(wǎng)絡(luò)(Feed-ForwardNetwork,F(xiàn)FN)層,并采用相加和層歸一化(LayerNormalization,LayerNorm)操作連接兩個(gè)子層。解圖1-1Transformer多頭注意力層由多個(gè)縮放點(diǎn)積注意力(ScaledDot-ProductAttention)的自注意力注意力機(jī)制一般可以看作將查詢(Query)和一組鍵值對(duì)(KeyValuePair)映射到高維空▲圖1-2在不同位置中,、和的獲取方式不同。編碼器部分的多頭注意力層和解碼器部分的第一個(gè)多頭注意力層的、、是由輸入向量經(jīng)過(guò)3種不同的全連接層變換得來(lái)的。解碼器部分的第二個(gè)多頭注意力層的的,、則是編碼器部分的輸出向量。(ComputerVision,CV)任務(wù)上嶄露頭角,目前主流的大型語(yǔ)言模型基本上都采用了no結(jié)構(gòu)仍存在一些缺點(diǎn),例如:組成no的自注意力機(jī)制的計(jì)算復(fù)雜度為(),當(dāng)輸入長(zhǎng)度過(guò)大時(shí),會(huì)導(dǎo)致計(jì)算量爆炸;no獲取內(nèi)容位置信息的方式全部來(lái)源于位置信息編碼等。因此,出現(xiàn)了很多no結(jié)構(gòu)的變種,例如peno、ongo、gd、oungno、o、no、o、ynh和no等,也涌現(xiàn)出了各種位置編碼,如o、i等,用于解決上述問(wèn)題。本節(jié)主要介紹原始no的結(jié)構(gòu),上述變體以及位置編碼就不過(guò)多介紹了,若想了解更多可以閱讀相關(guān)論文。些常用的大型語(yǔ)言模型,包括GPT(GenerativePre-Training,生成式預(yù)訓(xùn)練)系列模型、GPT首個(gè)采用Transformer結(jié)構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型(PretrainLanguageModel,PLM)。與傳統(tǒng)圖1-3GPT模型示意在預(yù)訓(xùn)練時(shí),GPT模型僅采用BooksCorpus(BytePairEncoding,BPE)方法獲取大小為40000的詞表。模型僅包含12層,參數(shù)量為GeLU(GaussianerrorLinearUnits,高斯誤差線性單元)激活函數(shù),模型的最大輸入長(zhǎng)度但不幸的是,在BERT(BidirectionalEncoderRepresentationfromTransformer,來(lái)自因此,無(wú)監(jiān)督數(shù)據(jù)的規(guī)模和質(zhì)量顯得尤為重要。2模型構(gòu)建了一個(gè)高質(zhì)量的、多領(lǐng)域的、帶有任務(wù)性質(zhì)的bx數(shù)據(jù)集。該數(shù)據(jù)集主要爬取dd網(wǎng)站中大于3的網(wǎng)頁(yè),并從中抽取文本內(nèi)容,最終獲取了800萬(wàn)個(gè)文檔,總計(jì)40文本。以英譯法的翻譯任務(wù)為例,如圖14所示,在bx數(shù)據(jù)集中可以發(fā)現(xiàn)相似內(nèi)容的表達(dá),也充分證明了在無(wú)監(jiān)督數(shù)據(jù)中包含各種有監(jiān)督任務(wù)數(shù)據(jù),但這些數(shù)據(jù)以片段或者隱含的方式體現(xiàn)。圖1-4無(wú)監(jiān)督WebText然而GPT-3在全連接和局部帶狀稀疏注意力模塊方面借鑒了SparseTransformer模型,并設(shè)表1-1GPT-3CommonCrawl數(shù)據(jù)集,但由于該數(shù)據(jù)集質(zhì)量偏低,因此需要進(jìn)行數(shù)據(jù)清洗,具體步驟如步驟1:對(duì)原始CommonCrawl數(shù)據(jù)集進(jìn)行過(guò)濾,即通過(guò)GPT-2的高質(zhì)量數(shù)據(jù)集和現(xiàn)有的CommonCrawl數(shù)據(jù)集構(gòu)建正負(fù)樣本,使用邏輯回歸分類器訓(xùn)練,再使用分類器對(duì)CommonCrawl數(shù)據(jù)集進(jìn)行判斷,獲取質(zhì)量較高的數(shù)據(jù)集。最終從45TB的CommonCrawl數(shù)據(jù)集中清洗了570GB,相當(dāng)于4000億個(gè)Token,用于GPT-3是質(zhì)量較高的數(shù)據(jù)集的采樣頻率更高。各數(shù)據(jù)集分布情況如表1-2所示,CommonCrawl和表1-2GPT-33模型訓(xùn)練采用d優(yōu)化器,其中1和2的值分別為0.9和0.95,采用余弦將學(xué)習(xí)率衰減到10。模型能接受的最大總長(zhǎng)度為2048,當(dāng)文檔中句子的總長(zhǎng)度小于2048個(gè)文檔采用停止符拼接,以提高模型的訓(xùn)練效率。模型在微軟提供的高帶寬100集群上進(jìn)行訓(xùn)練。圖1-5GPT-3模型中少樣本學(xué)習(xí)、單樣本學(xué)習(xí)、零樣本學(xué)習(xí)及傳統(tǒng)微調(diào)的訓(xùn)練流程圖1-6ChatGPT步驟1:監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT)階段,收集示例數(shù)據(jù)并訓(xùn)練一個(gè)監(jiān)督學(xué)步驟2:獎(jiǎng)勵(lì)模型(RewardModeling,RM)階段,收集比較數(shù)據(jù)并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型。步驟3:強(qiáng)化學(xué)習(xí)階段,通過(guò)強(qiáng)化學(xué)習(xí)的近端策略優(yōu)化(ProximalPolicyOptimization,對(duì)于獎(jiǎng)勵(lì)模型來(lái)說(shuō),采用模型進(jìn)行參數(shù)初始化,并將原來(lái)的輸出層替換成一個(gè)線用方法進(jìn)行模型訓(xùn)練,即對(duì)于同一個(gè)提示內(nèi)容來(lái)說(shuō),比較兩個(gè)不同回答和l之間的差異。假設(shè)在真實(shí)情況下好于,那么希望經(jīng)過(guò)模型后的分?jǐn)?shù)比經(jīng)過(guò)模型后的分?jǐn)?shù)高,反之亦然。而對(duì)于獎(jiǎng)勵(lì)模型來(lái)說(shuō),標(biāo)注人員對(duì)每個(gè)提示內(nèi)容生成的個(gè)2023年3月14日,pn又發(fā)布了4模型,4模型是一個(gè)多模態(tài)模型,相比于h模型,它不僅可以接受文本輸入,還可以接受圖像輸入,并輸出文本內(nèi)容。4模型可以很好地理解輸入圖片所包含的語(yǔ)義內(nèi)容。此外,4模型在生成編造內(nèi)容、偏見(jiàn)內(nèi)容及生成內(nèi)容安全方面均有較大的改善,并且可以以排名前10的成績(jī)通過(guò)模擬律師資格考試。OPTMetaAI在2022年提出了GPT-3模型的開(kāi)源復(fù)制版本OPT(OpentrainedTransformerlanguagemodel,開(kāi)放的預(yù)訓(xùn)練Transformer語(yǔ)言模型)。OPT的結(jié)構(gòu)與表1-3147TFLOP/s,總計(jì)算資源消耗為GPT-3的1/7。模型訓(xùn)練權(quán)重的初始化與Megatron-LM開(kāi)Bloom隨著被證明可以僅根據(jù)一些示例或提示來(lái)完成一些新任務(wù),越來(lái)越多的研究人員開(kāi)始深入研究。但是,訓(xùn)練的成本只有資源充足的組織才能承擔(dān)。目前,等模型沒(méi)有開(kāi)放參數(shù),而需要向申請(qǐng)使用,因此沒(méi)有真正實(shí)現(xiàn)開(kāi)源。為此,uggng牽頭組織了gn項(xiàng)目,并于2022年提出了Bloom(Bigsciencelargeopen-scienceopen-accessmultilinguallanguagemodel,大科學(xué)、大計(jì)1.6TB的文本數(shù)據(jù)。任何人都可以在HuggingFace網(wǎng)站上免費(fèi)下載,并允許商業(yè)化使圖1-7BloomGLMGLM(GeneralLanguageModelpretrainingwithautoregressiveblankinfilling,基于自回歸為了解決每個(gè)標(biāo)記與文本中文本片段對(duì)齊的問(wèn)題,在預(yù)訓(xùn)練過(guò)程中,使用了兩種位置編碼方式。第一種位置編碼方式是,文本的位置編碼按照okn順序進(jìn)行遞增編碼,而文本中每個(gè)文本片段的位置編碼與文本中對(duì)應(yīng)的標(biāo)記的位置編碼相同。第二種位置編碼方式是,文本的位置編碼全為0,而文本中每個(gè)文本片段按照okn順序遞增編碼,具體如圖1所示?!鴪D1-8GLM▲圖1-9GLM··類偏好對(duì)齊,進(jìn)一步改善模型的相關(guān)性能指標(biāo);利用FlashAttention技術(shù)將模型支持的長(zhǎng)上下文擴(kuò)展到了3.2萬(wàn)個(gè)Token;利用Multi-QueryAttention技術(shù)使模型有更快的推理速度和LLaMA模型是由在2023年2月提出的,共開(kāi)源了70億個(gè)參數(shù)、130億個(gè)參數(shù)、330億個(gè)參數(shù)和650億個(gè)參數(shù)4種不同大小的模型。經(jīng)過(guò)1.4萬(wàn)億個(gè)okn的數(shù)據(jù)訓(xùn)練后的A模型,僅130億個(gè)參數(shù)的性能就優(yōu)于使用1750億個(gè)參數(shù)的3模型。此外,130億個(gè)參數(shù)的模型只需要一個(gè)100顯卡就可以進(jìn)行推理計(jì)算,大大降低了大型語(yǔ)言模型的推理成本?!け?-4不同參數(shù)量LLaMA如Alpaca模型、Vicuna模型、ChineseLLaMA模型等,如圖1-10所示,可以說(shuō)LLaMA模型降低了很多人進(jìn)入大型語(yǔ)言模型道的門檻。圖1-10LLaMA2023年7月18日,又開(kāi)源了2模型,此次不僅開(kāi)源了預(yù)訓(xùn)練模型,還開(kāi)源了利用對(duì)話數(shù)據(jù)微調(diào)后的2h模型,均包含70億個(gè)參數(shù)、130億個(gè)參數(shù)和700億個(gè)參數(shù)三種。在預(yù)訓(xùn)練階段使用了2萬(wàn)億個(gè)okn,在微調(diào)階段使用了超過(guò)10萬(wàn)個(gè)數(shù)據(jù),人類偏好數(shù)據(jù)超過(guò)100萬(wàn)。些問(wèn)題,采用GhostAttention方法來(lái)增強(qiáng)模型對(duì)指令的遵從。Baichuan2023年6月15日,百川智能發(fā)布了70億個(gè)參數(shù)的具有中英雙語(yǔ)能力的hun7僅在v、v和ok等中文評(píng)測(cè)榜單上超過(guò)同參數(shù)等級(jí)的模型,并且在U英文評(píng)測(cè)榜單上超過(guò)7模型。同年7月11日又發(fā)布了hun13模型,兩個(gè)模型均采用nor的解碼器結(jié)構(gòu),支持的輸入最大長(zhǎng)度為4096,hun7模型在1.2萬(wàn)億個(gè)okn的中英雙語(yǔ)數(shù)據(jù)下進(jìn)行訓(xùn)練,采用o位置編碼,而hun13模型則是在1.4萬(wàn)億個(gè)okn數(shù)據(jù)下進(jìn)行訓(xùn)練,采用位置編碼?!ぁぴ~表增大:利用nn中的方法將詞表大小從64000擴(kuò)展到125696。為了更好了空okn;詞表中okn的長(zhǎng)度最長(zhǎng)不超過(guò)32;對(duì)數(shù)據(jù)壓縮更多,使模型的解碼效率提高?!ぁ€(gè)聚類后的簇中內(nèi)容(文檔、段落、句子)圖1-11Baichuan2·Max-zloss:受NormSoftmax啟發(fā),對(duì)logits進(jìn)行歸約,主要有助于穩(wěn)定訓(xùn)練并使推理對(duì)超Qwen在h爆火之后,國(guó)內(nèi)各廠商都緊追不舍,紛紛開(kāi)放自研大型語(yǔ)言模型接口邀請(qǐng)用戶進(jìn)行測(cè)試和體驗(yàn)。百度在2023年3月16日宣布大型語(yǔ)言模型“文心一言開(kāi)始內(nèi)測(cè),阿里巴巴在2023年4月7日宣布自研大型語(yǔ)言模型“通義千問(wèn)開(kāi)始內(nèi)測(cè),很多廠商紛紛發(fā)聲,開(kāi)啟了國(guó)內(nèi)大型語(yǔ)言模型的崛起之路。但僅通過(guò)來(lái)訪問(wèn)大型語(yǔ)言模型,對(duì)研究這些模型的人來(lái)說(shuō)變得十分困難。阿里巴巴為了幫助更多人從事大型語(yǔ)言模型相關(guān)的研究,于20238月3日開(kāi)源了70億個(gè)參數(shù)的“通義千問(wèn)大模型n7,在9月25日又開(kāi)源了140億個(gè)參數(shù)的“通義千問(wèn)大模型n14,隨后在11月30日開(kāi)源了18億個(gè)參數(shù)和720億個(gè)參數(shù)的“通義千問(wèn)”大模型n1.8和n72?!ぁご送?,在模型預(yù)訓(xùn)練過(guò)程中,n模型采用hno技術(shù)來(lái)提高訓(xùn)練速度;采用d優(yōu)化器,并將超參數(shù)1、2和分別定為0.9、0.95和108;采用余弦學(xué)習(xí)率計(jì)劃,學(xué)習(xí)率衰減到峰值的10%;采用o1進(jìn)行混合精度訓(xùn)練。由于nor模型的注意成倍增加。n模型利用了動(dòng)態(tài)感知插值(隨著序列長(zhǎng)度的增加動(dòng)態(tài)縮放位置信量數(shù)據(jù)進(jìn)行偏好模型預(yù)訓(xùn)練(PreferenceModelPretraining,PMP),再采用高質(zhì)量偏好數(shù)表1-5QwenSkywork2023年10月30日,昆侖萬(wàn)維開(kāi)源了130億個(gè)參數(shù)的天工大模型kyok13。kyok13B模型共采用3.2萬(wàn)億個(gè)okn的數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練。預(yù)訓(xùn)練數(shù)據(jù)以網(wǎng)頁(yè)、書(shū)籍、學(xué)術(shù)論文、百科全書(shū)、代碼為主,涉及多種語(yǔ)言,但以中、英文為主,詳細(xì)數(shù)據(jù)分布如表16所示。其中,雜項(xiàng)數(shù)據(jù)涉及法律文本、法律裁決書(shū)、年報(bào)等。kyo模型的數(shù)據(jù)清洗過(guò)程主要包括結(jié)構(gòu)內(nèi)容提取、數(shù)據(jù)分布過(guò)濾、數(shù)據(jù)去重、數(shù)據(jù)質(zhì)量過(guò)濾,并為了協(xié)調(diào)模型中英文的熟練程度,還構(gòu)建了一個(gè)高質(zhì)量的平行語(yǔ)料庫(kù)(將英文段落與相應(yīng)的中文段落配對(duì),確保兩種語(yǔ)言之間的語(yǔ)言能力無(wú)縫匹配)。表1-6Skywork(續(xù)kyo模型在構(gòu)建詞表的過(guò)程中采用分詞器,對(duì)模型的原始詞表進(jìn)行擴(kuò)充,加入常用的中文字符和詞語(yǔ),包括模型詞表中的8000個(gè)單字符和25000個(gè)高頻的中文詞語(yǔ),并且保留了17個(gè)預(yù)留符號(hào),最終詞表大小擴(kuò)展到65536。kyo模型的結(jié)構(gòu)依然采用nor的解碼器結(jié)構(gòu),但做了以下修改。表1-7Skywork模型與LLaMAkyo模型在預(yù)訓(xùn)練時(shí)采用了兩階段預(yù)訓(xùn)練策略,在第一階段中主要采用通用語(yǔ)料(爬取的網(wǎng)頁(yè)數(shù)據(jù)、書(shū)籍?dāng)?shù)據(jù)、論文數(shù)據(jù)等)階段中主要采用M(科學(xué)、技術(shù)、工程、數(shù)學(xué))數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練,提升模型數(shù)據(jù)、邏輯推理、解題等能力。模型在預(yù)訓(xùn)練過(guò)程中輸入上下文的最大長(zhǎng)度為4096,采用d優(yōu)化器進(jìn)行模型優(yōu)化,其中1和2值分別為0.9和0.95,并且模型采用o16混合精度進(jìn)行訓(xùn)練。在第一階段通用預(yù)訓(xùn)練時(shí),采用2萬(wàn)億個(gè)okn數(shù)據(jù),利用余弦學(xué)習(xí)率進(jìn)行訓(xùn)練,學(xué)習(xí)率從6104逐步衰減到6105。后續(xù)發(fā)現(xiàn)模型并沒(méi)有完全收斂,增加了1萬(wàn)億個(gè)okn數(shù)據(jù)進(jìn)行增量訓(xùn)練,并將學(xué)習(xí)率恒定為615。在第二階段預(yù)訓(xùn)練時(shí),采用1300億個(gè)數(shù)據(jù)和恒定為6105的學(xué)習(xí)率進(jìn)行模型訓(xùn)練。型、LawyerLLaMA模型、智海-錄問(wèn)模型、HanFei模型、DISC-LawLLM模型等。LaWGPTLaWGPT模型是由PengxiaoSong等人研發(fā)的,模型基座采用LLaMA模型架構(gòu),并使用中表1-8LaWGPTh模型是由北京大學(xué)提出的,主要由大型語(yǔ)言模型、關(guān)鍵詞生成模型和向量匹配模型三個(gè)部分組成,如圖112所示。而大型語(yǔ)言模型的基座采用模型架構(gòu),并采構(gòu)造對(duì)話數(shù)據(jù)集進(jìn)行模型的指令微調(diào)。h系統(tǒng)模型共涉及2個(gè)模型,詳細(xì)如表1所示?!鴪D1-12ChatLaw▼表1-9ChatLawLawyerLLaMAyr模型是由北京大學(xué)提出的,模型基座采用模型架構(gòu),并在大規(guī)模法律語(yǔ)料上進(jìn)行模型繼續(xù)預(yù)訓(xùn)練,再利用h話數(shù)據(jù)進(jìn)行模型指令微調(diào)。其中法考解題數(shù)據(jù)共7000條、法律咨詢數(shù)據(jù)共1.45開(kāi)源的y13bb1.0模型是以hn13模型為底座,未經(jīng)過(guò)法律語(yǔ)料繼續(xù)預(yù)訓(xùn)練,使用通用和法律指令數(shù)據(jù)進(jìn)行指令微調(diào)得來(lái)。x模型是由o等人研發(fā)的,模型基座采用h6模型架構(gòu),在模型指要來(lái)自于項(xiàng)目,法律領(lǐng)域數(shù)據(jù)包括:_h模型中5.2萬(wàn)條單輪問(wèn)答數(shù)據(jù)和9.2萬(wàn)條帶有法律依據(jù)的情景問(wèn)答、yr模型中法考數(shù)據(jù)和法律指令微調(diào)數(shù)據(jù)、2萬(wàn)條高質(zhì)量華律網(wǎng)問(wèn)答數(shù)據(jù)、3.6萬(wàn)條百度知道中的法律問(wèn)答數(shù)據(jù)。此外,為了增加模型了增加模型對(duì)法律案例和文書(shū)的了解,對(duì)5萬(wàn)條法律文書(shū)采用正則匹配方法提取事實(shí)和裁判分析過(guò)程部分內(nèi)容構(gòu)造了對(duì)應(yīng)的指令數(shù)據(jù)。x模型共涉及3種指令微調(diào)方法,包括參數(shù)凍結(jié)方法、o方法和unngv方法。智海-智海-錄問(wèn)模型是由浙江大學(xué)、阿里巴巴達(dá)摩院及華院計(jì)算等提出的,模型基座采用hun7模型,采用法律文書(shū)、司法案例及法律問(wèn)答等40數(shù)據(jù)進(jìn)行模型繼續(xù)預(yù)訓(xùn)練工作,再采用10萬(wàn)條指令數(shù)據(jù)集進(jìn)行模型的指令微調(diào)。在10萬(wàn)條指令數(shù)據(jù)中,70%為通用數(shù)據(jù),30%的數(shù)據(jù)為法律領(lǐng)域數(shù)據(jù)。通用數(shù)據(jù)主要來(lái)自、pna、h、、等;法律領(lǐng)域數(shù)據(jù)主要通過(guò)h進(jìn)行構(gòu)造,數(shù)據(jù)種類包含法律咨詢、情景問(wèn)答、罪名預(yù)測(cè)、觸犯法律預(yù)測(cè)、刑期預(yù)測(cè)、法考選擇題、案件摘要提取、司法判斷題、法律多輪對(duì)話、法院意見(jiàn)、法律閱讀理解等。智海-錄問(wèn)模型的增量預(yù)訓(xùn)練和指令微調(diào)均采用全量參數(shù)訓(xùn)練的方式。HanFei模型是由中科院深圳先進(jìn)院、深圳市大數(shù)據(jù)研究院等提出的,模型基座采用DISC-LawLLM模型由復(fù)旦大學(xué)提出,模型基座采用Baichuan-13B模型,采用29.5萬(wàn)條的DISC-Law-EvalBenchmark,從客觀和主觀兩個(gè)角度對(duì)來(lái)對(duì)法律大型語(yǔ)言模型的性能進(jìn)行MINGMING模型是由上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室提出的,模型基座采用Bloom-7B模BenTsao模型是由哈爾濱工業(yè)大學(xué)提出的,模型底座采用LLaMA、Bloom、活字模型等表1-10BenTsaoChatMed模型是由WeiZhu等人提出的,模型底座采用LLaMA模型架構(gòu),從互聯(lián)網(wǎng)上爬表1-11ChatMedBianQue模型是由華南理工大學(xué)提出的,模型底座采用T5和ChatGLM模型等多個(gè)底座模表1-12BianQueuuo模型是由香港中文大學(xué)深圳數(shù)據(jù)科學(xué)學(xué)院和深圳大數(shù)據(jù)研究院提出的,模型底座采用hun和等多個(gè)底座模型,通過(guò)nu方法構(gòu)建61400條指令數(shù)據(jù),并采用兩個(gè)h分別作為患者和醫(yī)生構(gòu)建68888條多輪對(duì)話數(shù)據(jù)集,還采集真實(shí)場(chǎng)景中醫(yī)療單輪69768條數(shù)據(jù)和多輪25986條對(duì)話數(shù)據(jù)進(jìn)行模型指令微調(diào)。uuo系列模型共涉及2個(gè)模型,詳細(xì)如表113所示。表1-13HuaTuoGPTQiZhenGPT模型是由浙江大學(xué)提出的,模型底座采用ChatGLM、LLaMA模型等多個(gè)底表1-14QiZhenGPTTaiyiTaiyi模型是由大連理工大學(xué)提出的,底座模型采用Qwen-7B模型,通過(guò)收集140個(gè)任務(wù)XuanYuan模型是由度小滿提出的,模型底座采用LLaMA、Bloom模型等多個(gè)模型,構(gòu)表1-15XuanYuanCornucopia模型是由中科院成都計(jì)算機(jī)應(yīng)用研究所提出的,模型底座采用LLaMA模型,表1-16CornucopiaDISC-FinLLM模型是由復(fù)旦大學(xué)提出的,模型底座采用Baichuan-13B-Chat模型,對(duì)現(xiàn)有開(kāi)源數(shù)據(jù)采用Self-Instruct、Chain-of-Retrievalprompting等方法利用ChatGPT生成約25萬(wàn)條Taolio模型是由北京語(yǔ)言大學(xué)、清華大學(xué)、東北大學(xué)、北京交通大學(xué)提出的,模型底座采用模型,通過(guò)通用和國(guó)際中文教育指令數(shù)據(jù)進(jìn)行模型的指令微調(diào),其中國(guó)際中文問(wèn)答數(shù)據(jù)組成。o模型是在hn7模型上繼續(xù)訓(xùn)練的,具體微調(diào)方法暫不明確。QiaoBano模型是由哈爾濱工業(yè)大學(xué)提出的,模型底座采用hun7模型,通過(guò)人工構(gòu)建了1千條高質(zhì)量中文兒童情感教育對(duì)話數(shù)據(jù),并且通過(guò)3.5指導(dǎo)下構(gòu)建5千條對(duì)話數(shù)據(jù)進(jìn)行模型的指令微調(diào)。o模型采用全量參數(shù)微調(diào)方式進(jìn)行模型訓(xùn)練。EduChat模型是由華東師范大學(xué)等提出的,模型底座采用LLaMA、Baichuan模型等多個(gè)表1-17EduChat·傳統(tǒng)任務(wù):在大型語(yǔ)言模型之前,我們一般在哪種任務(wù)上訓(xùn)練模型,就在哪種任務(wù)并且可以達(dá)到很好的效果。因此在評(píng)價(jià)大型語(yǔ)言模型的知識(shí)和能力時(shí),應(yīng)該在傳統(tǒng)任務(wù)上進(jìn)行模型的評(píng)估。其中,傳統(tǒng)任務(wù)主要包括情感分析任務(wù)、文本分類任務(wù)、信息抽取任務(wù)、問(wèn)答任務(wù)、摘要任務(wù)、對(duì)話任務(wù)和機(jī)器翻譯任務(wù)等?!と祟惪荚嚕耗壳按笮驼Z(yǔ)言模型效果十分驚人,明顯可以感覺(jué)到僅通過(guò)常規(guī)的自然語(yǔ)言處理任務(wù)已無(wú)法很好地區(qū)分大型語(yǔ)言模型之間的差異。而考試是在社會(huì)中衡量一個(gè)人的知言模型亦可如此,一般可以從不同科目的試題來(lái)衡量大型語(yǔ)言模型不同維度的能力,例如·復(fù)雜推理:大型語(yǔ)言模型的強(qiáng)大不僅僅是因?yàn)樵诔R?jiàn)任務(wù)上的效果優(yōu)于之前的模型,而類型包括常識(shí)推理任務(wù)、邏輯推理任務(wù)、多跳推理任務(wù)和數(shù)學(xué)推理任務(wù)等?!すぞ呤褂茫汗ぞ呤侨祟愇拿骱蜕鐣?huì)發(fā)展的關(guān)鍵組成部分,人類的智慧往往體現(xiàn)在創(chuàng)造、單工具任務(wù)和多工具任務(wù)等?!惱淼赖略u(píng)測(cè):主要評(píng)估大型語(yǔ)言模型是否具有與人類相同的倫理價(jià)值且生成內(nèi)容是否建立?!ぁ敯粜栽u(píng)測(cè):主要評(píng)估大型語(yǔ)言模型在受到一定攻擊的情況下,是否依然可以正常生成入內(nèi)容中加入不安全的指令主題等。自動(dòng)評(píng)估法就是利用一些自動(dòng)化的手段來(lái)評(píng)估大型語(yǔ)言模型,主要包括利用評(píng)估指標(biāo)(如準(zhǔn)確率、精確度、召回率、1值、困惑度、值、oug值等)打分和利用更強(qiáng)大的語(yǔ)言模型(通常采用4模型)打分。括兩個(gè)都好、兩個(gè)都差、模型比模型好、模型比模型好,通過(guò)勝平率或者o評(píng)分對(duì)評(píng)估人員進(jìn)行篩選和培訓(xùn),使其明確評(píng)價(jià)標(biāo)準(zhǔn)和目標(biāo),保證最終評(píng)估結(jié)果的一致性??茖W(xué)、社會(huì)科學(xué)等57個(gè)學(xué)科,涉及傳統(tǒng)領(lǐng)域(數(shù)學(xué)、物理、化學(xué)、歷史等)表1-18MMLU表1-19C-Eval(續(xù)括普通入學(xué)考試(高考和美國(guó)SAT)、法學(xué)院入學(xué)考試、數(shù)據(jù)競(jìng)、律師資格考試和公務(wù)語(yǔ)、理科數(shù)學(xué)、物理、化學(xué)、生物)和文科(地理),是由復(fù)旦大學(xué)提出的,針對(duì)中文大型語(yǔ)言模型進(jìn)行評(píng)測(cè),目前包含3期。包含17個(gè)大類的453個(gè)問(wèn)題,包括事實(shí)性問(wèn)答、閱讀理解、框架生成、段落息量、邏輯性和無(wú)害性5個(gè)角度進(jìn)行評(píng)估。包含12個(gè)學(xué)科的480題領(lǐng)域知識(shí)測(cè)試集,對(duì)每個(gè)學(xué)科領(lǐng)域題目包含單項(xiàng)選擇題和問(wèn)答題兩種。其中每個(gè)學(xué)科25~30道客觀題,10~15道主觀題。單項(xiàng)選擇題從正確性和解釋正確性兩個(gè)角度評(píng)分,主觀題從正確性、流暢性、信息量和邏輯性資格角度評(píng)分。聚焦于專業(yè)知識(shí)能力評(píng)測(cè),涵蓋4模型從回答正確性和解釋正確性兩個(gè)角度評(píng)分。OpenLLMLeaderboard榜單、OpenCompass榜單和FlagEval·OpenLLMLeaderboard由HuggingFace提出,主要針對(duì)英文開(kāi)源大型語(yǔ)言模型進(jìn)行評(píng)測(cè),CHAPTER第2WordPiece、BPE(BytePairEncoding,字節(jié)對(duì)編碼)等。數(shù)據(jù)清洗也十分重要,結(jié)合Meta發(fā)布的LIMA(LessIsMoreforAlignment)模型,在RLHF(ReinforcementLearningfromHumanFeedback,人類反饋強(qiáng)化學(xué)習(xí))就達(dá)到了和基于Self-Instruct圖2-1Self-Instruct利用openaiAPI問(wèn)題1:巴塞羅那的市區(qū)面積有多少?答案1:803問(wèn)題4:巴塞羅那的氣候類型怎么樣?答案4問(wèn)題5:恩底彌翁的職業(yè)是什么?答案5IFD在論文“FromQuantitytoQuality:BoostingLLMPerformancewithGuidedDataSelectionforInstructionTuning”中,研究者提出了一種可以從大量可用數(shù)據(jù)集利用IFD指標(biāo)自動(dòng)篩選“精選數(shù)據(jù)”(CherryData),再利用精選數(shù)據(jù)進(jìn)行模型指令微調(diào),步驟1:利用少量數(shù)據(jù)進(jìn)行模型初學(xué),所選用的數(shù)據(jù)采用n算法對(duì)數(shù)據(jù)進(jìn)行聚類,到初學(xué)模型(fod)。案分?jǐn)?shù)(ConditionedAnswerScore,CAS)與直接答案分?jǐn)?shù)(DirectAnswerScore,MoDS隨著研究的不斷深入,研究者在論文orientedDataSelectionforInstructionTuning”中提出了一種面向模型的指令數(shù)據(jù)選擇方法,數(shù)據(jù)質(zhì)量。為確保數(shù)據(jù)質(zhì)量,o方法設(shè)計(jì)采用了一套獎(jiǎng)勵(lì)模型對(duì)數(shù)據(jù)進(jìn)行質(zhì)量打分。將原始數(shù)據(jù)的nuon、npu、upu三個(gè)部分進(jìn)行拼接,送入獎(jiǎng)勵(lì)模型,得到評(píng)數(shù)據(jù)覆蓋范圍。為了避免所選數(shù)據(jù)高度相似,可通過(guò)中心貪心(nd)集(dnuon,)。進(jìn)一步地,確保所選數(shù)據(jù)中的指令足夠多樣、涉及知識(shí)范圍更廣。到增強(qiáng)指令數(shù)據(jù)集(AugmentedInstructionData,AID),利用AID與SID進(jìn)行最終模型的顯然,該方法的詞表中僅需存儲(chǔ)字符級(jí)別的okn,能夠最大限度地縮減詞表的大小,但所有的詞匯語(yǔ)義信息,使得在后續(xù)訓(xùn)練階段失去重要意義。單詞眾多,導(dǎo)致詞表不斷擴(kuò)大,如TransformerXL使用基于空格和標(biāo)點(diǎn)符號(hào)的規(guī)則分詞BPEBPE是由愛(ài)丁堡大學(xué)的RicoSennrich等學(xué)者于2015文“Neuralmachinetranslationofrarewordswithsubwordunits”中提出的一種簡(jiǎn)單而高效的繁更新,這無(wú)疑增加了處理的復(fù)雜性和工作量。為了解決這一難題,RicoSennrich等人提采用任意分詞方法(如空格分割方法)重復(fù)3)和4),當(dāng)然HuggingFace也提供了分詞器包,可以快速進(jìn)行模型分詞器的訓(xùn)練,以下是BPE訓(xùn)練相應(yīng)的詞庫(kù)。下面結(jié)合RoBERTa模型來(lái)測(cè)試BPE分詞的效果。我們將利用HuggingFace倉(cāng)針對(duì)文本“Alargelanguageisalanguagemodelconsistingofaneuralnetworkwithmanyparameters.”得到的分詞結(jié)果如WordPieceod分詞器最初由oog提出,旨在解決神經(jīng)機(jī)器翻譯中的未登錄詞問(wèn)題。該分詞方法被廣泛關(guān)注,特別是在深度學(xué)習(xí)領(lǐng)域得到了應(yīng)用,如常用的預(yù)訓(xùn)練語(yǔ)言模型就采用了od分詞。od可以視作的一種變體。它首先將所有字符添加到詞庫(kù)中,并需要預(yù)先設(shè)定詞庫(kù)的規(guī)模。在不斷添加子詞的過(guò)程中,od與最大的區(qū)別在于子詞加入詞庫(kù)的方式。od選擇最大化訓(xùn)練數(shù)據(jù)的可能詞對(duì),而不考慮詞詞庫(kù)達(dá)到所設(shè)規(guī)模為止。具體操作步驟如下。重復(fù)3)和4)HuggingFace也提供了分詞器包,可以快速進(jìn)行模型分詞器的訓(xùn)練,以下是WordPiece訓(xùn)例如,針對(duì)文本“Alargelanguageisalanguagemodelconsistingofaneuralnetworkwithmanyparameters.”,利用我們訓(xùn)練的面使用BERT來(lái)進(jìn)行分詞測(cè)試。我們可以利用HuggingFace倉(cāng)庫(kù)中公布的BERT模型文件來(lái)針對(duì)文本“Alargelanguageisalanguagemodelconsistingofaneuralnetworkwithmanyparameters.”得到的分詞結(jié)果如Unigram刪除具有最高損失x%重復(fù)3)和4)HuggingFace也提供了分詞器包,可以快速進(jìn)行模型分詞器的訓(xùn)練,以下是Unigram分詞SentencePieceTakuKudo提出了一種創(chuàng)新的分詞方式,被稱為SentencePiece?!ぁne實(shí)現(xiàn)了兩種子詞分割算法,即前文提到的和ng,并且擴(kuò)展了直接等內(nèi)容,而分詞方式可以采用、ng等方法。例如針對(duì)文本“Alargelanguageisalanguagemodelconsistingofaneuralnetworkwithmanyparameters.”,利用我們訓(xùn)練的在由HuggingFace提供的Transformers庫(kù)中,多數(shù)基于Transformer架構(gòu)的模型(如聯(lián)合提出。這里我們采用在HuggingFace上哈工大公布的一個(gè)基于中文XLNet模型架構(gòu)提針對(duì)文本“Alargelanguageisalanguagemodelconsistingofaneuralnetworkwithmanyparameters.”得到的分詞結(jié)果如圖2-2在針對(duì)進(jìn)行中文詞表擴(kuò)充的任務(wù)中,通過(guò)上述流程將詞表的大小得以擴(kuò)充至49953個(gè)單詞,而二代中文則進(jìn)一步擴(kuò)充至55396個(gè)單詞。這個(gè)詞表擴(kuò)充的過(guò)程不同應(yīng)用場(chǎng)景下的需求。上述各種在模型參數(shù)調(diào)優(yōu)階段進(jìn)行的操作,開(kāi)源社區(qū)HuggingFace將其歸納為高效參數(shù)調(diào)優(yōu)方法(Parameter-EfficientFine-Tuning,PEFT)。PEFT方法能夠在不微調(diào)所有模型參數(shù)優(yōu)(PrefixTuning)這一方法,這是一種輕量級(jí)的微調(diào)替代方法,專門用于自然語(yǔ)言生成圖2-3提示調(diào)優(yōu)(PromptTuning)是一種簡(jiǎn)單而有效的機(jī)制,該方法采用“示”(SoftPrompt)的方式,賦予語(yǔ)言模型能夠執(zhí)行特定的下游任務(wù)的能力。該方法是由BrianLester在論文“ThePowerofScaleforParameter-EfficientPromptTuning”中提出的,相提示調(diào)優(yōu)的架構(gòu)如圖24所示。相較于模型調(diào)整需要為每個(gè)下游任務(wù)制作一個(gè)任務(wù)特定的中,對(duì)于5模型,每個(gè)經(jīng)過(guò)調(diào)整的模型副本需要110需要的參數(shù)規(guī)模僅為20480個(gè)參數(shù)。圖2-4P-TuningTuningv2方法,該方法是一種針對(duì)深度提示調(diào)優(yōu)的優(yōu)化和適應(yīng)性實(shí)現(xiàn),最顯著的改進(jìn)是Tuningv2方法實(shí)際上是一種針對(duì)大型語(yǔ)言模型的軟提示方法,主要是將大型語(yǔ)言模型的詞嵌入層和每個(gè)Transformer網(wǎng)絡(luò)層前都加上新的參數(shù)。實(shí)驗(yàn)表明,P-Tuningv2在30億到得至關(guān)重要。微軟公司在2021年提出了一種名為L(zhǎng)ow-RankAdaptation(LoRA,低秩適配與使用Adam微調(diào)的GPT-3175B相比,LoRA可以將可訓(xùn)練參數(shù)的數(shù)量減少10000圖2-5LoRA圖2-6DyLoRA量。根據(jù)上述思想,研究者提出了do方法,可以根據(jù)權(quán)重矩陣的重要性得分,在權(quán)重矩陣之間自適應(yīng)地分配參數(shù)規(guī)模。的廣泛關(guān)注,TimDettmers文“QLoRA:EfficientFinetuningofQuantizedLLMs”中提出了一種高效的模型微調(diào)方法——圖2-7QLoRA1)4bitNormalFloat(NF4)。NF4是一種新型數(shù)據(jù)類型,它對(duì)正態(tài)分布的權(quán)重來(lái)說(shuō)是信息實(shí)驗(yàn)表明,QLoRA技術(shù)使得研究者能夠在單個(gè)48GBGPU上微調(diào)650億個(gè)參數(shù)規(guī)模的模QA-負(fù)擔(dān),尤其是在需要將它們部署到邊緣設(shè)備時(shí),應(yīng)用受到了限制。在論文-ounoneonkdponofgengugeod中,研究者提出了一種量化感知的低秩適應(yīng)(o)算法。該方法來(lái)源于量化和適應(yīng)的自由度不平衡的思想。具體而言,預(yù)訓(xùn)練權(quán)重矩陣的每一列只伴隨一個(gè)縮放和零參數(shù)對(duì),但有很多o參數(shù)。這種不平衡不僅導(dǎo)致了大量的量化誤差(對(duì)M的準(zhǔn)確性造成損害),而且在增加量化自由度的同時(shí)減少適應(yīng)自由度。o的實(shí)現(xiàn)簡(jiǎn)便,僅需幾行代碼,同時(shí)賦予原始的o兩倍的能力:在微調(diào)過(guò)程中,M的權(quán)重被量化(如),以降低時(shí)間和內(nèi)存的使用;微調(diào)后,M和輔助權(quán)重能夠自然地集成到一個(gè)量化模型中,而不損失準(zhǔn)確性。通過(guò)在和2模型系列的實(shí)驗(yàn)中證明,o在不同的微調(diào)數(shù)據(jù)集和下游場(chǎng)景中驗(yàn)證了其有效性。如圖28所示,與之前的適應(yīng)方法o和o相比,o在微調(diào)和推理階段都具失。在圖28中展示了的量化,但o可以推廣到3和2。圖2-8LoRA、QLoRA、QA-LoRA究者在論文“LongLoRA:EfficientFine-tuningofLong-ContextLargeLanguageModels”中提圖2-9LongLoRA(VanillaAttention)進(jìn)行微調(diào)的效果相似;其次,通過(guò)重新審視上下文擴(kuò)展的參數(shù)高效微(Vector-basedRandommatrixAdaptation,VeRA)的方法,與LoRA相比,VeRA成功將的實(shí)現(xiàn)方法是通過(guò)使用一對(duì)低秩矩陣在所有層之間共享,并學(xué)習(xí)小的縮放向量來(lái)實(shí)現(xiàn)這一目標(biāo)。實(shí)驗(yàn)證明,在和2基準(zhǔn)測(cè)試中展現(xiàn)了其有效性,并在使用27模型時(shí)僅使用140言模型微調(diào)中降低存儲(chǔ)開(kāi)銷提供了一種新的思路,有望在實(shí)際應(yīng)用中取得更為顯著的效益。圖2-10VeRA與LoRAS-LoRA(ServingthousandsofconcurrentLoRAadapters)方法,S-LoRA是一種專為可伸縮o的設(shè)計(jì)理念是將所有適配器存儲(chǔ)在主內(nèi)存中,并在U內(nèi)存中動(dòng)態(tài)獲取當(dāng)前運(yùn)行查詢所需的適配器。為了高效使用內(nèi)存并減少碎片,oA引入了統(tǒng)一分頁(yè)。統(tǒng)一分頁(yè)采用統(tǒng)一的內(nèi)存池來(lái)管理具有不同秩的動(dòng)態(tài)適配器權(quán)重以及具有不同序列長(zhǎng)度的V緩存張量。此外,o還采用了一種新穎的張量并行策略和高度優(yōu)化的自定義A核心,用于異構(gòu)批處理o計(jì)算。這些特性使得o能夠在單個(gè)U或跨多個(gè)上提供數(shù)千個(gè)o適配器,而開(kāi)銷相對(duì)較小?;赑EFT的LLaMA究者進(jìn)行了LLaMA的中文化。這里我們采用一個(gè)中文化的LLaMA2-7B模型進(jìn)行大型語(yǔ)LLaMA-2PEFT的模型進(jìn)行配置。數(shù)據(jù)格式通常要求參考nuo方式進(jìn)行構(gòu)造,以便模型能夠準(zhǔn)確理解和學(xué)習(xí)相應(yīng)知識(shí)信息。的一份指令數(shù)據(jù)集進(jìn)行驗(yàn)證。該數(shù)據(jù)基礎(chǔ)格式如下:步驟1紹了如o等常用技巧。最后,通過(guò)基于的模型微調(diào)實(shí)戰(zhàn),進(jìn)一步鞏固對(duì)大型語(yǔ)言模型的微調(diào)方法的應(yīng)用。CHAPTER第3上一章介紹了大型語(yǔ)言模型的微調(diào)方法,雖然與之前的模型存在差異,但整體思路同原有任務(wù)預(yù)訓(xùn)練微調(diào)的兩個(gè)階段保持一致。然而,真正讓大型語(yǔ)言模型與眾不同類反饋的強(qiáng)化學(xué)習(xí)框架,然后介紹4種前沿偏好對(duì)齊方法,最后開(kāi)展基于的偏好對(duì)齊實(shí)戰(zhàn)。通過(guò)本章的內(nèi)容,希望讓讀者了解偏好對(duì)齊技術(shù)的前沿發(fā)展。放異彩。它們提出了包括DQN(DeepQ-Learning)、蒙特卡洛方法等一系列的強(qiáng)化學(xué)習(xí)圖3-1RLHF算法、算法、算法、算法等。pn在研制h模型時(shí)所使用的就是算法。到這里可能會(huì)有人存在疑惑,前文介紹大型語(yǔ)言模型都是使用,這與算法是否存在矛盾呢?回答這一問(wèn)題主要需要理解框架與算法的差異,是一個(gè)完整技術(shù)框架,僅僅是其中強(qiáng)化學(xué)習(xí)算法模塊的一種實(shí)現(xiàn)方式。這也體現(xiàn)出了學(xué)習(xí)框架的重要性,我們?cè)诤罄m(xù)3.3節(jié)中介紹的算法也是對(duì)算法的一種升級(jí)。優(yōu)異的強(qiáng)化學(xué)習(xí)算法與健全的深度學(xué)習(xí)框架將共同支撐系統(tǒng)的自我更新學(xué)習(xí)。駕駛場(chǎng)景時(shí)才得以大展拳腳。pn公司為了設(shè)計(jì)優(yōu)化各類強(qiáng)化學(xué)習(xí)算法,專門研制了一套仿真物理環(huán)境的yhon類庫(kù)——y,關(guān)注強(qiáng)化學(xué)習(xí)環(huán)境的讀者可以進(jìn)一步研究這個(gè)類庫(kù)。的做法是不再像原有強(qiáng)化學(xué)習(xí)系統(tǒng)依賴機(jī)器計(jì)算獎(jiǎng)勵(lì)反饋,而是利用人工計(jì)算獎(jiǎng)勵(lì)標(biāo)注大量的數(shù)據(jù),如果還需要標(biāo)注大量模型生成的反饋數(shù)據(jù),成本會(huì)成倍地提高(意的是,標(biāo)注反饋評(píng)價(jià)數(shù)據(jù)往往比標(biāo)注正確答案成本更高)。也正因如此,當(dāng)pn與pnd在2017年提出這個(gè)方法時(shí)并不被大眾看好,它們并不會(huì)覺(jué)得有哪種場(chǎng)景真正值得如此巨大的標(biāo)注投入。但是h與4的橫空出世,以及的助力,讓我們重新思考,原來(lái)真的勤勤懇懇標(biāo)注數(shù)據(jù)就可以由量變引起質(zhì)變。接下來(lái)重點(diǎn)介紹一下nhop公司于2022年4月發(fā)表的一篇介紹如何利用訓(xùn)練智能交互機(jī)器人的論文。之所以重點(diǎn)介紹這篇論文,一方面是因?yàn)閚hop公司旗下的ude是可以與h在許多場(chǎng)景一較高下、相互媲美的明星級(jí)產(chǎn)品,通過(guò)對(duì)其技術(shù)路線研究,可以更好地看清強(qiáng)化學(xué)習(xí)是如果一步步讓大型語(yǔ)言模型變得如此強(qiáng)大的。另一方面,也極為關(guān)鍵,那就是這篇論文的作者,也與許多nhop的員工一樣,都是pn曾經(jīng)的員工。在pn并沒(méi)有將其技術(shù)路線詳細(xì)剖析的時(shí)候,我們通過(guò)研讀其曾經(jīng)員工的前瞻技術(shù)研究,或許也能大體了解h早期的技術(shù)路線。圖3-2基于RLHF圖3-3InstructGPT訓(xùn)練的3與第2章的介紹一致,大型語(yǔ)言模型的訓(xùn)練是從任務(wù)微調(diào)開(kāi)始的。但是nu并沒(méi)有將任務(wù)局限于情感識(shí)別,而是像圖33中所示一樣,需要模型生成向一個(gè)6歲智力的模型解釋強(qiáng)化學(xué)習(xí)這樣極為復(fù)雜的問(wèn)題。更值得我們關(guān)注的是,pn團(tuán)隊(duì)在數(shù)據(jù)標(biāo)注上面注,pn團(tuán)隊(duì)則邀請(qǐng)各行領(lǐng)域?qū)<议_(kāi)展數(shù)據(jù)標(biāo)注。首先介紹來(lái)自阿里巴巴的RRHF(RankResponseswithHumanFeedback,基于人類反饋的圖34所示為的工作流程,當(dāng)一個(gè)輸入請(qǐng)求出現(xiàn)時(shí),可能會(huì)存在專家、h以及當(dāng)前訓(xùn)練模型3種生成結(jié)果,此時(shí)可以使用排序模型作為中的獎(jiǎng)勵(lì)模型,對(duì)相關(guān)結(jié)更加可靠的排序獎(jiǎng)勵(lì)模型后,當(dāng)輸入大量樣本,可以通過(guò)h的快速生成,以原有模展新一輪大模型的迭代微調(diào)。在實(shí)踐中,用一個(gè)大模型同時(shí)扮演排序模型與生成模型。這樣的好處是可以利用聯(lián)的自我評(píng)價(jià)能力。原有的模型需要同時(shí)在顯存中保留4個(gè)模型(原始生成模型、策略優(yōu)化后的生成模型、原始偏好判別模型、策略優(yōu)化后的偏好判別模型),之所以比原有的生成評(píng)價(jià)模型多2個(gè)原始模型,是因?yàn)樯弦还?jié)介紹的利用離散度做正則約束,避免了偏好漂移的出現(xiàn)。但是4圖3-4RRHF就可以用一個(gè)模型緩解這一問(wèn)題。在的框架中,若人工標(biāo)注的候選集有且僅有一條,則它退化成生成模型的微調(diào)任務(wù)。而且利用訓(xùn)練好的模型不僅可以用來(lái)生成更高質(zhì)量的數(shù)據(jù),其本身也是優(yōu)秀的評(píng)價(jià)模型。然而經(jīng)過(guò)一段時(shí)間的驗(yàn)證,框架并未得到廣泛的應(yīng)用,其風(fēng)頭也被后續(xù)和所蓋過(guò),可能還是因?yàn)楠?jiǎng)勵(lì)模型使用生成質(zhì)量。但是其設(shè)計(jì)思想,特別是摒棄強(qiáng)化學(xué)習(xí)這方面,也打開(kāi)了我們研究的思路。同時(shí),利用h進(jìn)行數(shù)據(jù)構(gòu)造,也非常符合當(dāng)下數(shù)據(jù)標(biāo)注的現(xiàn)狀。與pn的從0到1構(gòu)建模型有所不同,現(xiàn)在的模型除了借鑒人類反饋的數(shù)據(jù)標(biāo)注外,還利用工具降低運(yùn)行成本,進(jìn)而提高建模效率。的出現(xiàn),讓大家重新認(rèn)知到原有的的對(duì)齊成本可以進(jìn)一步下降,也讓偏好對(duì)齊研究從單純的追求對(duì)齊效果轉(zhuǎn)換成更具性價(jià)比的研究。RLAIF(ReinforcementLearningwithAIFeedback,基于AI反饋的強(qiáng)化學(xué)習(xí))是由谷歌提圖3-5RLAIF與RLHF從圖35中可以看出,兩者的唯一差別就是用生成的偏好作為獎(jiǎng)勵(lì)模型的訓(xùn)練樣本,其3.1節(jié)中介紹的那樣,偏好對(duì)齊的標(biāo)注工作極為繁雜,標(biāo)注運(yùn)營(yíng)成本極為高昂。所以利用反饋代替人類反饋可以極大降低運(yùn)營(yíng)成本,還可以避免不同人的偏好不一致、主觀性過(guò)強(qiáng)等一系列問(wèn)題。通過(guò)對(duì)比試驗(yàn),在總結(jié)、咨詢類任務(wù)中,利用機(jī)制訓(xùn)練的生成模型比精度提高1~2,但在生成無(wú)害內(nèi)容任務(wù)(大型語(yǔ)言模型在各種極端要求下都不得生成負(fù)面、消極、暴力等相關(guān)內(nèi)容)上,精度比提升了12。這一方面說(shuō)明了機(jī)器在無(wú)害生成上比人工反饋更加理智,另一方面也帶給我們一些反思,即許多任務(wù)未必人工DPO(DirectPreferenceOptimization,直接偏好優(yōu)化)是斯坦福大學(xué)設(shè)計(jì)的,在其論文標(biāo)(Input)-輸出(Output)”數(shù)據(jù)集改為了“輸入(Input)-正反饋(AcceptResponse)-負(fù)反饋(NegativeResponse)”。這種樣本訓(xùn)練學(xué)習(xí)方法并不是首創(chuàng),其實(shí)就是從圖像領(lǐng)域興圖3-6RLHF與DPO讀到這里可能會(huì)產(chǎn)生困惑,為什么同樣簡(jiǎn)單且利用二階段排序訓(xùn)練的沒(méi)有像一樣效果優(yōu)秀,并受到更多研究者的追捧?簡(jiǎn)單來(lái)看,是因?yàn)楦袷堑牡统杀颈?,但也讓?xùn)練效果進(jìn)一步下降。而采用對(duì)比學(xué)習(xí),提升。此外,具有強(qiáng)大的理論支持,在其論文中,作者提出借鑒nu中強(qiáng)化學(xué)習(xí)算法面向策略模型采用離散度,也在其損失函數(shù)中加入了對(duì)比學(xué)習(xí)的離散度(中并未涉及)。相較于強(qiáng)化學(xué)習(xí)的策略模型,采用的交叉熵函數(shù)更加高效,其正則化約束收效相較于也更加明顯,這也直接導(dǎo)致通過(guò)對(duì)齊后的模型生成更加穩(wěn)定。騰訊的研究團(tuán)隊(duì)在2023年11月公布了其設(shè)計(jì)的APO(AdversarialPreferenceOptimization,及兩類模型:生成模型(norod)與判別模型(norod)。為了實(shí)現(xiàn)兩個(gè)模型的高效迭代,框架采用對(duì)抗的思路開(kāi)展訓(xùn)練。以偽造生成圖片場(chǎng)景為例,成一輪生成模型與判別模型的迭代,連續(xù)多輪迭代后將最終得到更加出色的兩個(gè)模型。圖3-7APO基于DPO表3-1TRLTRL(TransformerReinforcementLearning,基于Transformer的強(qiáng)化學(xué)習(xí))框架也是近年來(lái)然后設(shè)置模型參數(shù)CHAPTER第4創(chuàng)建個(gè)人專屬的——pn在2023年11月7號(hào)的開(kāi)發(fā)者大會(huì)上發(fā)布重磅功能s,即普通用戶通過(guò)流程對(duì)和網(wǎng)頁(yè)配置就可以快速開(kāi)發(fā)個(gè)人專屬的h的工具。的本質(zhì)是以聊天的方式快速搭建一個(gè)應(yīng)用,降低普通用戶的使用門檻。在與Tud的聊天過(guò)程中,會(huì)根據(jù)聊天內(nèi)容以及用戶訴求,自動(dòng)生成系統(tǒng)提示戶在不需要任何編程背景下,就可以完成專屬h的配置和定制。此外,還支持用戶上傳用戶的私有數(shù)據(jù)以及使用外部工具。在2024年1月11日,pn又推出店,用戶可以通過(guò)個(gè)人創(chuàng)建的應(yīng)用的使用情況獲取一定的利潤(rùn)分配。用戶也可以通過(guò)社區(qū)瀏覽排行榜上熱門和流行的應(yīng)用,同時(shí)pn還提供了舉報(bào)按鈕,用戶可以對(duì)發(fā)布的進(jìn)行監(jiān)督。GPTs在發(fā)布之前,用戶在利用h進(jìn)行專項(xiàng)任務(wù)的過(guò)程中,往往需要編寫(xiě)大量的詳細(xì)且復(fù)雜的提示詞,以確保h要再次輸入之前的提示詞內(nèi)容。而通過(guò)創(chuàng)建的專屬h應(yīng)用,相當(dāng)于將提示詞等內(nèi)容提前預(yù)置到系統(tǒng)中,用戶在使用時(shí)可以直接輸入需求,交由本身理解生成指令,即可處理專項(xiàng)任務(wù),無(wú)須再反復(fù)輸入煩瑣的提示詞內(nèi)容。目前需要訂閱ChatGPTPlus的賬號(hào),才可以使用GPTs來(lái)創(chuàng)建個(gè)人專屬的ChatGPT,下面進(jìn)入應(yīng)用創(chuàng)建頁(yè)面。在ChatGPT的首頁(yè)位置單擊ExploreGPTs按鈕,如圖4-1所示,進(jìn)圖4-1ChatGPT首頁(yè)的ExploreGPTs在GPTs頁(yè)面中單擊“+Create”按鈕,如圖4-2所示,進(jìn)入GPTBuilder頁(yè)面。GPTBuilder頁(yè)面分左右兩個(gè)部分,如圖4-3所示。左半部分為應(yīng)用創(chuàng)建模塊,可以通過(guò)與GPTBuilder進(jìn)行▲圖4-2GPTs頁(yè)面的“+Create”▲圖4-3GPTBuilder通過(guò)與GPTBuilder進(jìn)行多輪對(duì)話創(chuàng)建應(yīng)用。在Create頁(yè)面的對(duì)話框中描述所需創(chuàng)建應(yīng)用的要求,讓GPTBuilder進(jìn)行自動(dòng)提煉并生成相應(yīng)的應(yīng)用名稱、提示詞內(nèi)容和應(yīng)用頭像圖4-4與GPTBuilder當(dāng)用戶與GPTBuilder進(jìn)行交互的過(guò)程中,會(huì)進(jìn)行不斷地更新,并通過(guò)反問(wèn)、引導(dǎo)等方式在與GPTBuilder進(jìn)行交互的過(guò)程中,預(yù)覽頁(yè)面也會(huì)跟著用戶訴求實(shí)時(shí)更新,如圖4-5所圖4-5爆款標(biāo)題生成”通過(guò)查看和修改配置信息來(lái)微調(diào)應(yīng)用。與GPTBuilder交互過(guò)程中,可以輕松通過(guò)自然Description、Instructions、Conversationstarters、Knowledge、Capabilities和Actions七個(gè)配令),ChatGPT會(huì)嚴(yán)格遵循指令內(nèi)容執(zhí)行任務(wù);Conversationstarters為對(duì)話啟動(dòng)者,即顯功能選項(xiàng),即GPTs內(nèi)置的3個(gè)功能插件,包括聯(lián)網(wǎng)搜索(WebBrowsing)(DALL·EImageGeneration)和代碼解釋器(CodeInterpreter),用戶可自行選擇使用;圖4-6Configure圖4-7圖4-8Save按鈕進(jìn)行應(yīng)用保存,如圖4-9所示。保存模式共包含3種:Onlyme(僅自己使用)、Anyonewithalink(擁有訪問(wèn)鏈接的人可以使用)、Everyone(公開(kāi)所有人都可以使圖4-9用戶完成以上5個(gè)步驟后就擁有了一個(gè)個(gè)人專屬的h應(yīng)用,可以直接在h首頁(yè)進(jìn)行使用,如圖410重新編輯該應(yīng)用內(nèi)容,如圖411所示?!鴪D4-10爆款標(biāo)題生成”▲圖4-11GPTsGPTs用戶在使用創(chuàng)建h應(yīng)用時(shí),若僅采用提示詞內(nèi)容,應(yīng)用會(huì)顯得過(guò)于簡(jiǎn)單,往往可以采用的內(nèi)置功能進(jìn)行一些復(fù)雜應(yīng)用的搭建。本節(jié)會(huì)詳細(xì)介紹如何使用知識(shí)庫(kù)和功能插件來(lái)進(jìn)行初階應(yīng)用的搭建,主要涉及采用知識(shí)庫(kù)構(gòu)建一個(gè)冰箱售后機(jī)器人應(yīng)用、采用內(nèi)置檢索插件構(gòu)建一個(gè)搜索集合機(jī)器人構(gòu)建一個(gè)你畫(huà)我猜應(yīng)用。當(dāng)h模型于2022年11月30日發(fā)布時(shí),其訓(xùn)練數(shù)據(jù)僅包含到2021年9月為止的信息,意味著模型無(wú)法準(zhǔn)確回答截止時(shí)間之后發(fā)生的事件或問(wèn)題。盡管2023年11月7日,pnI在開(kāi)發(fā)者大會(huì)上宣布h模型的訓(xùn)練數(shù)據(jù)已更新至2023年4月,但僅依賴模型本身進(jìn)可以彌補(bǔ)這一不足,不僅能為h模型提供更準(zhǔn)確、可靠的問(wèn)答支持,還可以根據(jù)新信息的出現(xiàn)快速更新和擴(kuò)展,保持信息的時(shí)效性。因此,為h模型(或者說(shuō)大型語(yǔ)言模型)配備外部知識(shí)庫(kù),已成為其應(yīng)用中的一個(gè)重要方面。本小節(jié)以搭建一個(gè)冰箱售后機(jī)器人應(yīng)用為例,為讀者介紹如何在中使用知識(shí)庫(kù)功能。而待搭建的冰箱售后機(jī)器人應(yīng)用主要功能是根據(jù)冰箱售后手冊(cè)內(nèi)容自動(dòng)回復(fù)用戶答并提示可以轉(zhuǎn)人工。冰箱售后手冊(cè)內(nèi)容如圖412所示。由于需要上傳外部文件“冰箱售后手冊(cè)”,在與GPTBuilder交互來(lái)創(chuàng)建應(yīng)用的過(guò)程中,用戶需要點(diǎn)擊聊天框左側(cè)的按鈕上傳本地文件“冰箱售后手冊(cè).docx”,并告訴GPTBuilder該當(dāng)Tud成功加載本地文件后,查看ongu頁(yè)面,用戶可以發(fā)現(xiàn)在nodg部分已經(jīng)有本地文件存在;或者用戶也可以直接單擊nodg部分的pods按鈕上傳本地文件冰箱售后手冊(cè).dox,如圖414所示。注意,支持上傳多個(gè)文件作為知識(shí)庫(kù)內(nèi)容,讀者可以自行嘗試。▲圖4-12冰箱售后手冊(cè)”▲圖4-13GPTBuilder▲圖4-14Configure頁(yè)面的Knowledge對(duì)搭建的“冰箱售后機(jī)器人應(yīng)用進(jìn)行預(yù)覽測(cè)試,如圖415所示。由于上傳的冰箱售后手冊(cè)”文檔內(nèi)容存在主要零部件的保修時(shí)間為3年,下鄉(xiāng)產(chǎn)品在2010年5月1日后購(gòu)買的保修12年”,當(dāng)用戶提問(wèn)冰箱買了7年,現(xiàn)在壓縮機(jī)壞了,還可以包修嗎人回答完全準(zhǔn)確。當(dāng)問(wèn)與“冰箱售后機(jī)器人中無(wú)關(guān)的內(nèi)容時(shí),例如:去哪兒買冰箱比較好”,該機(jī)器人要求拒絕回答,符合用戶原始訴求。具體冰箱售后機(jī)器人應(yīng)用的配置信息見(jiàn)表41?!鴪D4-15冰箱售后機(jī)器人”▼表4-1冰箱售后機(jī)器人”本小節(jié)以搭建一個(gè)“搜索聚合機(jī)器人應(yīng)用為例,向讀者介紹如何在中使用內(nèi)置插件功能。待搭建的“搜索聚合機(jī)器人在維基、知乎、等網(wǎng)站上搜索答案,然后將排名前三的回答鏈接提供給用戶,并綜合給出一個(gè)答案。由于需要使用GPTs的聯(lián)網(wǎng)搜索插件,在與GPTBuilder交互來(lái)創(chuàng)建應(yīng)用的過(guò)程中,用戶需當(dāng)GPTBuilder成功使用聯(lián)網(wǎng)搜索插件后,查看Configure頁(yè)面,用戶可以發(fā)現(xiàn)在Capabilities部分已經(jīng)勾選了WebBrowsing;或者用戶也可以直接勾選Capabilities部分的內(nèi)置插件,如▲圖4-16GPTBuilder▲圖4-17Configure頁(yè)面的Capabilities▲圖4-18搜索聚合機(jī)器人”▼表4-2搜索聚合機(jī)器人”本小節(jié)以搭建一個(gè)“你畫(huà)我猜應(yīng)用為例,為讀者介紹如何在中結(jié)合使用知識(shí)庫(kù)和內(nèi)置插件功能。而待搭建的“你畫(huà)我猜應(yīng)用的主要功能是隨機(jī)從本地上傳的成語(yǔ)文件中選擇由于需要使用GPTs的知識(shí)庫(kù)和文本生成圖片插件,在與GPTBuilder交互來(lái)創(chuàng)建應(yīng)用的過(guò)地文件存在,在Capabilities部分已經(jīng)勾選了DALL·EImageGeneration,如圖4-19所示。圖4-19Configure頁(yè)面的Capabilities▲圖4-20你畫(huà)我猜”▼表4-3你畫(huà)我猜”GPTs用戶配置Actions動(dòng)作時(shí),需要在Configure頁(yè)面的Actions部分單擊Createnewaction按鈕,部分、Authentication(身份驗(yàn)證)部分和Privacypolicy(隱私權(quán)政策)部分?!鴪D4-21進(jìn)入Actions▲圖4-22Actions的接口,可以直接在ImportfromURL處導(dǎo)入對(duì)應(yīng)openapi.yaml文件即可,如圖4-23和圖4-Examples按鈕,可以選擇“Weather(JSON)”“PetStore(YAML)”“BlankTemplate”,如例,“PetStore(YAML)”為一個(gè)寵物商店API的YAML格式樣例,“BlankTemplate”為一▲圖4-23標(biāo)準(zhǔn)APIURL▲圖4-24標(biāo)準(zhǔn)APISchema▲圖4-25Schemaget:表示可以執(zhí)行HTTPGET請(qǐng)求來(lái)獲取數(shù)據(jù),若需要HTTPPOST請(qǐng)求來(lái)獲取數(shù)據(jù),圖4-26天氣查詢API的JSON\h計(jì)算器API直接選擇一個(gè)公開(kāi)的API,其具體調(diào)用參數(shù)如表4-4所示。表4-4BMI計(jì)算器API參數(shù)調(diào)用及輸出說(shuō)明將接口規(guī)范JSON輸入Schema窗口時(shí),如果輸入內(nèi)容正確,則會(huì)增加Availableactions模根據(jù)“健康管理”應(yīng)用的功能需求,與GPTBuilder交互來(lái)創(chuàng)建應(yīng)用,在應(yīng)用創(chuàng)建過(guò)程中,▲圖4-27Availableactions▲圖4-28Actions▲圖4-29▲圖4-30健康管理”▼表4-5健康管理”CHAPTER第5大型語(yǔ)言模型SQL當(dāng)前x2技術(shù)引起了自然語(yǔ)言處理和數(shù)據(jù)庫(kù)社區(qū)的廣泛關(guān)注,該技術(shù)有望實(shí)現(xiàn)將自然語(yǔ)言中的語(yǔ)義轉(zhuǎn)換為查詢,為直接使用自然語(yǔ)言調(diào)用數(shù)據(jù)庫(kù)系統(tǒng)提供實(shí)際應(yīng)用。這種形式之間進(jìn)行準(zhǔn)確的語(yǔ)義轉(zhuǎn)換。本章將對(duì)公開(kāi)數(shù)據(jù)集及模型方法進(jìn)行介紹,最后結(jié)合pkod進(jìn)行模型微調(diào),并測(cè)試效果。表5-1通過(guò)在亞馬遜MechanicalTurk上使用模板,利用眾包的方式為每個(gè)SQL查詢注釋了一個(gè)簡(jiǎn)(nevlnoony)數(shù)據(jù)集是一個(gè)經(jīng)典的自然語(yǔ)言到解析任務(wù)的基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集包含用戶在航空公司旅行查詢系統(tǒng)上詢問(wèn)航班信息的問(wèn)題,以及一個(gè)包含有關(guān)城市、機(jī)場(chǎng)、航班等信息的關(guān)系數(shù)據(jù)庫(kù)的集合。在數(shù)據(jù)集中,查詢?cè)谑褂米泳鋱?zhí)行時(shí)效率較低。為此,在之后的研究中對(duì)這些查詢進(jìn)行了修改,同時(shí)保持了查詢的輸出不變。該數(shù)據(jù)集共包含5418個(gè)自然語(yǔ)言表達(dá),每個(gè)表達(dá)都對(duì)應(yīng)一個(gè)可執(zhí)行的查詢。其中,4473個(gè)樣本用于訓(xùn)練,497個(gè)樣本用于開(kāi)發(fā),而448個(gè)樣本用于測(cè)試。表5-2Text2SQL追一2020年之前公開(kāi)的Text2SQL數(shù)據(jù)集中有一份高質(zhì)量的中文數(shù)據(jù)集,是由比主辦方追一該數(shù)據(jù)集在CCKS2022金融NL2SQL評(píng)測(cè)中發(fā)布,比要求選手根據(jù)提供的訓(xùn)練集數(shù)該數(shù)據(jù)集共包含78520條有標(biāo)注的訓(xùn)練集數(shù)據(jù),28137由_n2q_n.on、_n2q_.on、undb.xx三個(gè)文件組成,其關(guān)鍵字段與2數(shù)據(jù)集相同,此處不再介紹。數(shù)據(jù)樣例如下:DuSQL是2020年語(yǔ)言與智能技術(shù)競(jìng)提供的大規(guī)模開(kāi)放領(lǐng)域的復(fù)雜中文Text-to-SQL數(shù)據(jù)數(shù)據(jù)的基礎(chǔ)格式與前文所提及的pd基本一致,在該數(shù)據(jù)集構(gòu)建的過(guò)程中,首先分析了用戶在真實(shí)場(chǎng)景中使用查詢語(yǔ)句的分布,并考慮了其中大量的數(shù)據(jù)表中行列運(yùn)算的情況。接著在數(shù)據(jù)構(gòu)造過(guò)程中,u通過(guò)定義的語(yǔ)法自動(dòng)生成查詢語(yǔ)句和對(duì)應(yīng)的偽語(yǔ)言問(wèn)題描述,并通過(guò)眾包方式將偽語(yǔ)言問(wèn)題描述改寫(xiě)為自然語(yǔ)言問(wèn)題。與之前的跨領(lǐng)域上下文依賴數(shù)據(jù)集相比,增強(qiáng)了上下文依賴的特點(diǎn)并增加了對(duì)話過(guò)程中的復(fù)雜程度??梢苑譃閮刹糠郑汉?。在C中,12名學(xué)生作為標(biāo)注者進(jìn)行問(wèn)題序列的建立以及相應(yīng)語(yǔ)句的標(biāo)注,還提供了查詢意圖推薦方法來(lái)保證多樣性。在中,類似于pd,直接將中的交互查詢數(shù)據(jù)集翻譯為中文數(shù)據(jù)集并減小中英文之間的偏差。相比以往的數(shù)據(jù)集,大幅增加了hd類型的數(shù)據(jù)規(guī)模,減少了上下文獨(dú)立樣本的數(shù)據(jù)量,彌補(bǔ)了x2多輪交互任務(wù)中文數(shù)據(jù)集的空白。x2雖然近年來(lái)才流行起來(lái),但實(shí)際上它的研究歷史還是比較長(zhǎng)的。早在20世紀(jì)六七十年代,人們就提出了(ulngugeneo)概念并做了一語(yǔ)法等。ATHENA是構(gòu)建一棵解釋樹(shù)(InterpretationTree),其中節(jié)點(diǎn)對(duì)應(yīng)概念或?qū)傩?,邊表示在·槽位填充式(slotfilling):槽位填充就是把SQL語(yǔ)句看作一系列的槽,通過(guò)解碼器對(duì)槽一個(gè)一個(gè)地進(jìn)行填充。比如,我們預(yù)先設(shè)定一個(gè)SQL語(yǔ)句“SELECT*FROM*WHERE*”,下面將詳細(xì)介紹這3在當(dāng)前深度學(xué)習(xí)研究背景下,xo任務(wù)可被看作一個(gè)類似于神經(jīng)機(jī)器翻譯的序列到序列的生成任務(wù),主要采用q2q模型框架。基線q2q制后,在單領(lǐng)域數(shù)據(jù)集上可以達(dá)到80以上的準(zhǔn)確率,但在多領(lǐng)域數(shù)據(jù)集上效果很差,準(zhǔn)確率均低于25。首先,由數(shù)據(jù)庫(kù)中的元素(如表名、列名、表格元素值)、問(wèn)題中的詞匯和關(guān)鍵字三部分組成,所需要生成的內(nèi)容較多,導(dǎo)致生成難度較大;其次,為型在訓(xùn)練時(shí)未見(jiàn)過(guò)的內(nèi)容,存在大量未登錄詞,從而使得后續(xù)結(jié)果的可靠性無(wú)法得到保證。了指針網(wǎng)絡(luò)(PointerNetwork),從而很好地解決了這一問(wèn)題,其輸出所用到的詞表是隨圖5-1Seq2SQL圖5-2RAT-SQL這種方法最早在(2017)中提出,用于解決k數(shù)據(jù)集中因?yàn)檎Z(yǔ)句等價(jià)形式所引起的順序問(wèn)題。引入了序列到集合的結(jié)構(gòu),用于預(yù)測(cè)無(wú)序的約束集,而不是有序的序列。yp(2018)中也使用了模板插值,并且在解碼過(guò)程中將需要插值的內(nèi)容總結(jié)為3個(gè)類別并使用3面介紹在此類工作中常見(jiàn)的一種模式——“共享編碼器多任務(wù)解碼”。對(duì)于簡(jiǎn)單類型的x2數(shù)據(jù)集,例如2等,共享編碼器多任務(wù)解碼器是一種qu、be和ou進(jìn)行聯(lián)合編碼,例如將輸入序列拼接為“[CLS]query[SEP]column1[SEP]column2 圖5-3M-SQL將預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用于各種、等一般是在通用的文本場(chǎng)景中使用M等任務(wù)訓(xùn)練得到的,與下游基于表格和文本的x2任務(wù)場(chǎng)景明顯不一致。為了獲得具有文本和表格聯(lián)合編碼能力的語(yǔ)言模型,耶魯大學(xué)的u等人首先提出了一種適用于表格語(yǔ)義解析的語(yǔ)法增強(qiáng)預(yù)訓(xùn)練方在使用大型語(yǔ)言模型完成生成任務(wù)時(shí),主要流程如圖54所示,根據(jù)獲取的表字段信息,配置用于生成格,若不合格,需要進(jìn)一步調(diào)整提示語(yǔ),若合格則可以部署上線。圖5-4基于大型語(yǔ)言模型的SQL為“selectinvestadvisorabbrnamefrommf_investadvisoroutlineorderbyregcapitaldesclimit圖5-5單表場(chǎng)景ChatGPT的SQL圖5-6ChatGPT圖5-7多表場(chǎng)景ChatGPT的SQL圖5-8SQLCoder圖5-9SQLCoderLangChain為此提供了SQLChains和Agents,用于構(gòu)建和運(yùn)行SQL查詢,通過(guò)自然語(yǔ)言提PostgreSQL、OracleSQL、Databricks和SQLite。nghn提供了與數(shù)據(jù)庫(kù)交互的工具,包括根據(jù)自然語(yǔ)言用戶問(wèn)題構(gòu)建查詢、使用鏈進(jìn)行查詢的創(chuàng)建和執(zhí)行,以及使用代理與數(shù)據(jù)庫(kù)進(jìn)行靈活而強(qiáng)大的查詢交互。這一系列工具的整合使nghn成為一個(gè)強(qiáng)大而靈活的工具集,用戶能夠以直觀的方式數(shù)據(jù)庫(kù)交互體驗(yàn)。nghn的特點(diǎn)在于簡(jiǎn)化了用戶與數(shù)據(jù)庫(kù)之間的交互流程,提高了靈活性和便捷性,有助于滿足企業(yè)在數(shù)據(jù)查詢和分析方面的需求?!鴪D5-10基于LangChain的Text2SQLub是一個(gè)實(shí)驗(yàn)項(xiàng)目,采用大型語(yǔ)言模型實(shí)現(xiàn)xo解析。該項(xiàng)目主要包括理,不僅能夠提高xo的解析能力,也能夠降低模型訓(xùn)練的成本,使更多開(kāi)發(fā)者能夠參與到提升xo準(zhǔn)確度的工作中。Text2SQLSQL生成任務(wù),選取的代碼生成底座為DeepSeekCoderDeepSeekCoder涵蓋了一系列從頭開(kāi)始訓(xùn)練的代碼語(yǔ)言模型,這些模型分別在英語(yǔ)和中文等。這些模型首先在存儲(chǔ)庫(kù)級(jí)別的代碼語(yǔ)料庫(kù)上進(jìn)行預(yù)訓(xùn)練,使用1.6萬(wàn)個(gè)okn小和額外的代碼填充任務(wù),形成基礎(chǔ)模型(pkode)。隨后,通過(guò)使用20億個(gè)okn的指令數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),得到了經(jīng)過(guò)指令調(diào)整的模型,即pk-odnu。此外,pkod是開(kāi)源的,可供研究和商業(yè)用途免費(fèi)使用,為廣大開(kāi)發(fā)者和研究人員提供了強(qiáng)大的代碼語(yǔ)言模型資源。本項(xiàng)目是基于DeepSeekCoder完成SQL生成的微調(diào)任務(wù)。利用DeepSeekCoder模型從開(kāi)源以前文介紹的DuSQL數(shù)據(jù)為例,進(jìn)行基于DeepSeekCoder的SQL生成模型訓(xùn)練。首先需要針對(duì)DeepSeekCoder模型微調(diào),采用finetune文件夾中的train_deepseek.py進(jìn)行模型訓(xùn)練,步驟1步驟2:實(shí)例化分詞器和DeepSeekCoder針對(duì)已微調(diào)后的DeepSeekCoder模型,可以使用相應(yīng)的模型加載方法,針對(duì)問(wèn)題和參考段步驟1解到SQL查詢生成的多種方法。最后,通過(guò)Text2SQL任務(wù)的實(shí)際案例,以DeepSeekCoderCHAPTER第6演應(yīng)用可以成為游戲中的NPC(Non-PlayerCharacter,非玩家角色),讓游戲變得更智▲圖6-1character.ai▲圖6-2表6-1為了增強(qiáng)大型語(yǔ)言模型角色扮演能力,可以通過(guò)上下文學(xué)習(xí)或少樣本方式來(lái)增加模型效果,主要是在原始提示內(nèi)容中增加一些演示示例,將新的知識(shí)有效地融入大型語(yǔ)言模型中2所示。但不同的演示示例的選擇可能很大程度上會(huì)影響模型的推理效果,可以根據(jù)表6-2(如4)雖然展現(xiàn)出了出色的角色扮演能力,但也面臨著調(diào)用成本高、上下文窗職業(yè)角色時(shí)表現(xiàn)較好,但在處理更復(fù)雜、細(xì)粒度的具體角色(如孫悟空、福爾摩斯、甄嬛)時(shí),表現(xiàn)往往不盡如人意,無(wú)法進(jìn)行細(xì)致的互動(dòng)。根據(jù)維基資料,讓大型語(yǔ)言模型提取出一些角色相關(guān)的重要場(chǎng)景(涉及地點(diǎn)、背景、人物等信息),的對(duì)話數(shù)據(jù)。收集一定量角色的臺(tái)詞數(shù)據(jù)作為臺(tái)詞庫(kù),將目標(biāo)角色發(fā)言前的內(nèi)容作為問(wèn)題,讓大型語(yǔ)應(yīng)的臺(tái)詞內(nèi)容提供參考,防止大型語(yǔ)言模型生成對(duì)話不符合角色原始風(fēng)格。RoleEval榜單是通過(guò)做題形式來(lái)評(píng)估大型語(yǔ)言模型在角色扮演方面的能力的。該榜單包CharacterEval榜單則是通過(guò)設(shè)計(jì)13個(gè)具體指標(biāo)(分為4個(gè)維度),利用人工評(píng)價(jià)的方法圖6-3GPT-3.5圖6-4修改提示詞后GPT-3.5步驟2圖6-5Baichuan2-7B圖6-6Baichuan2-7B基于Baichuan本項(xiàng)目中的角色扮演數(shù)據(jù)來(lái)自RoleLLM論文,一種用于評(píng)估、引導(dǎo)和提升大型語(yǔ)言模型步驟2步驟1步驟8步驟9表6-3(續(xù)圖6-7圖6-8過(guò)程中,不會(huì)增加額外的預(yù)測(cè)時(shí)間。參數(shù)融合代碼見(jiàn)g_p.py文件,具體步驟如下。步驟1步驟2▲圖6-9圖6-10WebCHAPTER第7因此,對(duì)話要素抽取比從文檔中進(jìn)行要素抽取更難、更復(fù)雜。在h人工智能進(jìn)入大型語(yǔ)言模型時(shí)代。隨著模型的參數(shù)越來(lái)越大,模型的訓(xùn)練數(shù)據(jù)越來(lái)越充分,模型對(duì)口語(yǔ)化、多角色、復(fù)雜的對(duì)話進(jìn)行要素抽取也具有較為優(yōu)秀的效果。醫(yī)療報(bào)告生成:在醫(yī)療咨詢過(guò)程中,對(duì)話要素抽取可以從患者與醫(yī)生之間的對(duì)話中提取在對(duì)話結(jié)束后,可以節(jié)省醫(yī)生手動(dòng)編寫(xiě)醫(yī)療報(bào)告的時(shí)間。對(duì)話情感趨勢(shì)分析:在客服和用戶的對(duì)話場(chǎng)景中,對(duì)話要素抽取可以分析用戶對(duì)具體商進(jìn)。高頻知識(shí)提?。簩?duì)話語(yǔ)料中包含大量的知識(shí)及高頻問(wèn)答對(duì),對(duì)話要素抽取可以從對(duì)話中抽取常用的問(wèn)答對(duì),進(jìn)行知識(shí)沉淀、知識(shí)集成,并構(gòu)建機(jī)器人搭建等?;贕PT-3.5API其中,API調(diào)用密鑰需要在官方文檔中單擊APIkeys按鈕進(jìn)入創(chuàng)建頁(yè)面,再單擊Createnewsecretkey按鈕生成一個(gè)API密鑰,如圖7-1所示。圖7-1OpenAIAPI調(diào)用GPT-3.5API進(jìn)行對(duì)話要素抽取命令如下,運(yùn)行后如圖7-2圖7-2GPT-3.5API內(nèi)容為你現(xiàn)在是一個(gè)醫(yī)療對(duì)話要素抽取專家。n請(qǐng)針對(duì)下面對(duì)話內(nèi)容抽取出藥品名稱、以格式返回,y為上述待抽取的字段名稱,u為抽取出的文本內(nèi)容。n注意事項(xiàng):(1)藥品名稱、藥物類別、醫(yī)療檢查和醫(yī)療操作的內(nèi)容會(huì)在對(duì)話中存在多個(gè),因此u內(nèi)容以形式存放;若抽取內(nèi)容為空,則為一個(gè)空的;n(2)抽取出的藥品名容不重復(fù);n(3)現(xiàn)病史、輔助檢查、診斷結(jié)果和醫(yī)療建議的內(nèi)容需要根據(jù)整個(gè)對(duì)話內(nèi)容進(jìn)行總結(jié)抽取,u內(nèi)容以x形式存放。n對(duì)話文本:n,抽取結(jié)果如圖74所示??梢园l(fā)現(xiàn)藥品名稱、醫(yī)療操作等內(nèi)容抽取更加完整,且生成內(nèi)容更加準(zhǔn)確?!鴪D7-3▲圖7-4基于Qwen-1.8B步驟2▲圖7-5Qwen-1.8B▲圖7-6圖7-7基于Qwen本項(xiàng)目是基于n1.8模型的對(duì)話要素抽取實(shí)戰(zhàn)。通過(guò)n1.8模型在醫(yī)療對(duì)話數(shù)據(jù)療建議等相關(guān)內(nèi)容,并對(duì)n1.8模型進(jìn)行模型訓(xùn)練及測(cè)試,讓讀者更加深入地了解大型語(yǔ)言模型在真實(shí)場(chǎng)景中如何進(jìn)行微調(diào)。代碼見(jiàn)ub中的xo項(xiàng)目。項(xiàng)目主要結(jié)構(gòu)如下。能對(duì)話診療數(shù)據(jù)集。該數(shù)據(jù)收集了真實(shí)的在線醫(yī)患對(duì)話,并進(jìn)行了命名實(shí)體、對(duì)話意其中,藥品名稱、藥物類別、醫(yī)療檢查和醫(yī)療操作4步驟3步驟5步驟8步驟1步驟9表7-1圖7-8圖7-9為了保證模型在保存時(shí),所存儲(chǔ)變量盡可能小,以節(jié)約模型存儲(chǔ)時(shí)間,在7.3.2儲(chǔ)時(shí),僅保存了訓(xùn)練的參數(shù),即外掛的o參數(shù)。因此在模型預(yù)測(cè)前,需要進(jìn)行參數(shù)融過(guò)程中,不會(huì)增加額外的推理時(shí)間。參數(shù)融合代碼見(jiàn)g_p.py文件,具體步驟如下。步驟1步驟2步驟4步驟4表7-2▲圖7-10本章主要介紹了對(duì)話要素抽取應(yīng)用,并通過(guò)GPT-3.5API和Qwen-1.8B模型進(jìn)行測(cè)試,最后CHAPTER第8AgentAgentAgentgn的一個(gè)關(guān)鍵特性是利用作為推理引擎。gn通過(guò)來(lái)決定如何與外部世界進(jìn)行交互,這意味著代理的行為不是預(yù)設(shè)的序列(硬編碼是預(yù)置流程),入和先前動(dòng)作的結(jié)果動(dòng)態(tài)決定的。這種靈活性使得代理能夠應(yīng)對(duì)多變的環(huán)境和復(fù)雜的任AgentAgent在LilianWeng的博客“LLMPoweredAutonomousAgents”中對(duì)Agent做了3表8-1AgentAgent包含什么?如何定義一個(gè)Agent?LilianWeng客“LLMPoweredAutonomousAgents”清晰地定義了LLM驅(qū)動(dòng)的Agent模塊是gn的核心,負(fù)責(zé)處理用戶輸入、生成響應(yīng)、執(zhí)行操作等,相當(dāng)于gnt的大腦。因?yàn)間n不是按預(yù)設(shè)路徑行動(dòng)的,而是根據(jù)實(shí)時(shí)情況來(lái)動(dòng)態(tài)調(diào)整其行為策略,所以模塊不僅是處理和生成響應(yīng)的工具,而是作為一個(gè)動(dòng)態(tài)的推理引擎,關(guān)鍵在于決定如何與外部世界互動(dòng)。模塊在處理復(fù)雜交互和決策中處于核心地位。綜合nng所做的上述模塊定義,一個(gè)gn的定義涉及多個(gè)層面,如圖81所示。它是一個(gè)集成了(包含在圖81的gn方塊內(nèi),gn的語(yǔ)言能力)、nnng、oy、oo和dbk等模塊的系統(tǒng)。這些模塊共同協(xié)作,使gn能夠自主執(zhí)行任務(wù)、學(xué)習(xí)并改進(jìn)其行為。圖8-1AgentAgentAgentAgentReAct策略,即“理性思考后行動(dòng)”(ReasoningandthenActing),思考和行動(dòng)過(guò)程,左側(cè)是HotpotQA的問(wèn)答系統(tǒng)操作過(guò)程,右側(cè)是AlfWorldEnv環(huán)境下的任圖8-2HotpotQA和AlfWorldEnv(為了實(shí)現(xiàn)自我反思,gn通過(guò)給括兩種情況:一是失敗的軌跡,即gn在過(guò)去嘗試中的不成功行動(dòng);二是自我反思,即對(duì)于如何改進(jìn)行動(dòng)計(jì)劃的思考。圖83展示了gn運(yùn)用xon框架進(jìn)行反思的完整過(guò)程?!鴪D8-3Reflexion(總的來(lái)說(shuō),策略和xon框架的結(jié)合為gn的實(shí)現(xiàn)提供了較明朗的方向性指導(dǎo)。策略和xon策略使代理能夠考慮到與特定問(wèn)題相關(guān)的上下文信息,例如在o_onx類型的gn中所體現(xiàn)的上下文感知能力為gn在解決特定問(wèn)題時(shí)提供了豐富的信息背景。在第10章使用nghn框架實(shí)現(xiàn)uo的代碼實(shí)踐中,采用的是xon框架和策略。另外值得注意的是,xon框架通過(guò)使用像opo這樣的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),促進(jìn)了主流AgentLangChain使用nghn的gn模塊的最大優(yōu)勢(shì)是利用nghn各大模塊快速組合。nghn是基于的應(yīng)用程序的通用框架,包含了構(gòu)建應(yīng)用程序的所有基本模塊,例如由nghn封裝的的及其數(shù)據(jù)接口、工具和工具包模塊,在一個(gè)框架內(nèi)能夠快速構(gòu)建使用選擇一系列行動(dòng)的gn。一個(gè)對(duì)gn技術(shù)一無(wú)所知的非編程人員想要構(gòu)建一個(gè)gn,最快的方式是使用nghn的gn模塊。代理執(zhí)行器:代理的運(yùn)行時(shí)環(huán)境。它負(fù)責(zé)調(diào)用代理,執(zhí)行其選擇的操作,將操作結(jié)果反行必要的調(diào)用,并將結(jié)果傳遞回gn組件。nghn的gn模塊的主要優(yōu)勢(shì)在于,它為開(kāi)發(fā)者提供了一系列預(yù)構(gòu)建的gn和大量nghn提供了一套gn構(gòu)建協(xié)議,對(duì)初學(xué)者尤其有幫助。通過(guò)遵循這套協(xié)議并參考nghn的自定義gn教程,開(kāi)發(fā)者可以定制自己的gn。nghn的gn應(yīng)用范圍廣泛,包括規(guī)則驅(qū)動(dòng)任務(wù)(如天氣預(yù)測(cè))、自主決策與動(dòng)態(tài)環(huán)境互動(dòng)(如實(shí)時(shí)圖像分析)、與大型語(yǔ)言模型的交互,以及結(jié)合視覺(jué)、語(yǔ)言和行動(dòng)模型的復(fù)雜任務(wù)(作)。這些應(yīng)用展示了gn在多個(gè)領(lǐng)域的強(qiáng)大潛力和實(shí)用價(jià)值。LlamaIndex通過(guò)使用不同復(fù)雜度的gn來(lái)處理實(shí)際數(shù)據(jù)任務(wù)(如金融分析)。這些gn的代理和簡(jiǎn)單的路由代理。代理能夠通過(guò)迭代推理和分解輸入來(lái)處理復(fù)雜的數(shù)據(jù)查詢,特別是在使用高級(jí)(如4)時(shí)。而簡(jiǎn)單gn則直接選擇工具來(lái)回應(yīng)查詢,適用于較簡(jiǎn)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論