第2章 什么是LLM電子課件_第1頁
第2章 什么是LLM電子課件_第2頁
第2章 什么是LLM電子課件_第3頁
第2章 什么是LLM電子課件_第4頁
第2章 什么是LLM電子課件_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高等學(xué)校數(shù)字素養(yǎng)與技能型人才培養(yǎng)精品系列周蘇教授QQ:81505050AIGC通識(shí)教程第2章周蘇教授QQ:81505050什么是LLM大語言模型(LLM)不僅促進(jìn)了人工智能技術(shù)的進(jìn)步,還對(duì)社會(huì)經(jīng)濟(jì)、文化教育、科學(xué)研究等多個(gè)領(lǐng)域產(chǎn)生了重要影響。學(xué)習(xí)LLM,關(guān)乎技術(shù)本身的發(fā)展,更是推動(dòng)社會(huì)進(jìn)步、經(jīng)濟(jì)轉(zhuǎn)型和文化繁榮的重要力量。LLM通過模仿人類語言的復(fù)雜性,極大提升了自然語言處理(NLP)技術(shù)的能力,使得機(jī)器能夠更準(zhǔn)確地理解、生成和交互自然語言。這不僅推動(dòng)了聊天機(jī)器人、智能客服、自動(dòng)翻譯、內(nèi)容創(chuàng)作等領(lǐng)域的技術(shù)革新,還為新興技術(shù)如語音識(shí)別、虛擬助理等提供了強(qiáng)大的技術(shù)支持,創(chuàng)造更多商業(yè)價(jià)值。第2章什么是LLM在科研領(lǐng)域,LLM可以幫助科研人員快速梳理文獻(xiàn)、發(fā)現(xiàn)研究趨勢(shì),甚至輔助撰寫科學(xué)報(bào)告,加速知識(shí)的產(chǎn)生和傳播。它還可以用于知識(shí)圖譜的構(gòu)建和維護(hù),促進(jìn)跨學(xué)科知識(shí)的融合與創(chuàng)新。在教育領(lǐng)域,LLM能夠根據(jù)學(xué)生的學(xué)習(xí)習(xí)慣和能力,提供個(gè)性化的學(xué)習(xí)資源和輔導(dǎo),改善教學(xué)效果。同時(shí),它能夠生成多語言學(xué)習(xí)材料,促進(jìn)文化的全球交流與傳播,增強(qiáng)文化多樣性的理解和尊重。第2章什么是LLM01Blockhead思維實(shí)驗(yàn)02從NLP起步03LLM定義04LLM工作原理目錄/CONTENTS05LLM的幻覺PART01Blockhead思維實(shí)驗(yàn)在任何現(xiàn)有或想象中的未來計(jì)算機(jī)系統(tǒng)中,存儲(chǔ)數(shù)千個(gè)單詞的所有可能序列都是不現(xiàn)實(shí)的:與之相比,這些序列的數(shù)量使得宇宙中的原子數(shù)量看起來微不足道。因此,研究人員重新利用神經(jīng)網(wǎng)絡(luò)的試驗(yàn)和真實(shí)方法,將這些巨大的集合減少為更易管理的形式。神經(jīng)網(wǎng)絡(luò)最初被應(yīng)用于解決分類問題——決定某物是什么,例如輸入一張圖片,網(wǎng)絡(luò)將確定它是狗還是貓的圖像。神經(jīng)網(wǎng)絡(luò)必須以一種使相關(guān)的輸入產(chǎn)生相似結(jié)果的方式來壓縮數(shù)據(jù)。2.1

Blockhead思維實(shí)驗(yàn)1981年,內(nèi)德·布洛克構(gòu)建了一個(gè)“Blockhead(傻瓜)”假說——假定科學(xué)家們通過編程,在Blockhead內(nèi)預(yù)先設(shè)定好了近乎所有問題的答案,那么,當(dāng)它回答問題的時(shí)候,人們也許就根本無法區(qū)分是Blockhead還是人類在回答問題。顯然,這里的Blockhead并不被認(rèn)為是智能的,因?yàn)樗卮饐栴}的方式僅僅是從其龐大的記憶知識(shí)庫中檢索并復(fù)述,并非通過理解問題之后給出答案。哲學(xué)家們一致認(rèn)為,這樣的系統(tǒng)不符合智能的標(biāo)準(zhǔn)。2.1

Blockhead思維實(shí)驗(yàn)對(duì)于多年來一直在思考人工智能的哲學(xué)家來說,GPT-4就像是一個(gè)已經(jīng)實(shí)現(xiàn)了的思維實(shí)驗(yàn)。實(shí)際上,GPT-4的許多成就就是通過類似的內(nèi)存檢索操作產(chǎn)生的。GPT-4的訓(xùn)練集中包括了數(shù)億個(gè)人類個(gè)體生成的對(duì)話和數(shù)以千計(jì)的學(xué)術(shù)出版物,涵蓋了潛在的問答對(duì)。研究發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)多層結(jié)構(gòu)的設(shè)計(jì)使其能夠有效地從訓(xùn)練數(shù)據(jù)中檢索到正確答案。這表明,GPT-4的回答其實(shí)是通過近似甚至是精確復(fù)制訓(xùn)練集中的樣本生成的。2.1

Blockhead思維實(shí)驗(yàn)如果GPT-4真的是以這種方式運(yùn)行,那么它就只是Blockhead的現(xiàn)實(shí)版本。由此,人們?cè)谠u(píng)估LLM時(shí)存在一個(gè)關(guān)鍵問題:它的訓(xùn)練集中可能包含了評(píng)估時(shí)使用的測(cè)試問題,這被稱為“數(shù)據(jù)污染”,這些是應(yīng)該在評(píng)估前予以排除的問題。研究者指出,LLM不僅可以簡(jiǎn)單地復(fù)述其提示的或訓(xùn)練集的大部分內(nèi)容,它們還能夠靈活地融合來自訓(xùn)練集的內(nèi)容,產(chǎn)生新的輸出。許多經(jīng)驗(yàn)主義哲學(xué)家提出,能夠靈活復(fù)制先前經(jīng)驗(yàn)中的抽象模式,可能不僅是智能的基礎(chǔ),還是創(chuàng)造力和理性決策的基礎(chǔ)。2.1

Blockhead思維實(shí)驗(yàn)PART02從NLP起步NLP(自然語言處理)是一門研究如何讓計(jì)算機(jī)理解、生成和分析人類自然語言的學(xué)科,它是人工智能和計(jì)算機(jī)科學(xué)的重要分支。早期的NLP系統(tǒng)依賴于手工編寫的規(guī)則來解析和理解語言。這些規(guī)則基于語言學(xué)理論,試圖直接編碼語法和語義規(guī)則,但這種方法難以擴(kuò)展到大規(guī)模文本和處理語言的靈活性。隨著數(shù)據(jù)量的增長和計(jì)算能力的提升,統(tǒng)計(jì)方法開始主導(dǎo)NLP領(lǐng)域。這些方法利用概率模型來處理語言,比如n-gram模型,能夠更好地處理語言的變異性,但仍然有局限性,尤其是在處理長距離依賴和復(fù)雜語言結(jié)構(gòu)時(shí)。2.2從NLP起步如今,NLP研究的主要內(nèi)容大致可以分為以下幾個(gè)方面。隨著技術(shù)的不斷進(jìn)步,新的研究方向和應(yīng)用場(chǎng)景也在不斷涌現(xiàn)。(1)文本預(yù)處理:這是NLP的基礎(chǔ)步驟,包括文本清洗(去除無關(guān)字符、標(biāo)點(diǎn)符號(hào)等)、分詞(將文本切分成單詞或詞匯單元)、詞性標(biāo)注(為每個(gè)詞匯分配語法類別,如名詞、動(dòng)詞等)、命名實(shí)體識(shí)別(識(shí)別文本中的特定實(shí)體,如人名、地點(diǎn)、組織機(jī)構(gòu)名等)。(2)詞法分析:如何分析詞匯的形式和意義,包括詞干提?。▽⒃~匯還原為其詞根形式)、詞形還原(將詞匯還原為標(biāo)準(zhǔn)詞典形式)等。2.2.1

NLP研究內(nèi)容(3)句法分析:分析句子的結(jié)構(gòu)和組成成分,包括句法樹結(jié)構(gòu)的構(gòu)建、依存關(guān)系分析(確定詞匯間的語法關(guān)系)等。(4)語義分析:理解文本的深層含義,包括情感分析(判斷文本的情感傾向)、主題抽?。ㄗR(shí)別文本的主題內(nèi)容)、篇章理解(理解長篇文本的連貫性和邏輯關(guān)系)等。(5)自然語言生成:將非自然語言形式的信息轉(zhuǎn)換成自然語言文本,如自動(dòng)生成報(bào)告、新聞?wù)?、?duì)話應(yīng)答等。2.2.1

NLP研究內(nèi)容(6)機(jī)器翻譯:將一種自然語言自動(dòng)轉(zhuǎn)換為另一種自然語言,這是NLP的重要應(yīng)用之一。(7)對(duì)話系統(tǒng):構(gòu)建能夠與人類進(jìn)行自然對(duì)話的系統(tǒng),包括聊天機(jī)器人、語音助手等,涉及對(duì)話管理、上下文理解、自然語言生成等技術(shù)。(8)信息檢索與過濾:從大量文本中找出與查詢條件相匹配的信息,如搜索引擎、推薦系統(tǒng)等。(9)語音識(shí)別與語音合成:將語音信號(hào)轉(zhuǎn)換為文本(語音識(shí)別),或?qū)⑽谋巨D(zhuǎn)換為語音信號(hào)(語音合成)。2.2.1

NLP研究內(nèi)容(10)知識(shí)圖譜與語義網(wǎng):構(gòu)建和利用知識(shí)圖譜來增強(qiáng)機(jī)器對(duì)世界的理解和推理能力,用于問答系統(tǒng)、智能推薦等場(chǎng)景。(11)深度學(xué)習(xí)模型:使用深度神經(jīng)網(wǎng)絡(luò)(如RNN、LSTM、Transformer等)來處理自然語言任務(wù),包括語言模型、詞向量表示(如Word2Vec、GloVe)、注意力機(jī)制等。NLP的發(fā)展經(jīng)歷了從基于規(guī)則的方法到統(tǒng)計(jì)方法,再到深度學(xué)習(xí)方法的轉(zhuǎn)變。LLM的興起標(biāo)志著NLP領(lǐng)域的一個(gè)重要里程碑,它們代表了深度學(xué)習(xí)方法在處理自然語言上的最新進(jìn)展。2.2.1

NLP研究內(nèi)容深度學(xué)習(xí)對(duì)NLP領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響,徹底改變了我們處理、理解和生成人類語言的方式。深度學(xué)習(xí)在NLP中的幾個(gè)關(guān)鍵影響點(diǎn)如下。(1)提升理解能力:深度學(xué)習(xí)模型,尤其是基于Transformer架構(gòu)的模型如BERT、GPT系列等,能夠?qū)W習(xí)到語言的深層結(jié)構(gòu)和語境依賴性,極大地提升了計(jì)算機(jī)理解復(fù)雜語言任務(wù)的能力,比如問答系統(tǒng)、文本蘊(yùn)含判斷和語義理解。2.2.2深度學(xué)習(xí)革命(2)文本生成與創(chuàng)意寫作:通過使用序列到序列模型(seq2seq)結(jié)合注意力機(jī)制,深度學(xué)習(xí)模型能夠生成連貫、有邏輯的文本,應(yīng)用于文章創(chuàng)作、新聞?wù)?、?duì)話系統(tǒng)響應(yīng)生成等,甚至可以模仿特定風(fēng)格或作者的寫作風(fēng)格。(3)詞嵌入與表征學(xué)習(xí):詞嵌入技術(shù)(如Word2Vec、GloVe)以及更先進(jìn)的上下文敏感的詞嵌入(如BERT中的詞塊嵌入)為詞語提供了高維向量表示,這些表示能夠捕捉詞匯之間的語義和語法關(guān)系,使得模型能夠更好地理解和處理文本,為深度學(xué)習(xí)應(yīng)用于NLP奠定了基礎(chǔ)。2.2.2深度學(xué)習(xí)革命(4)情感分析與語義理解:深度學(xué)習(xí)模型能夠更準(zhǔn)確地識(shí)別文本中的情緒、態(tài)度和觀點(diǎn),這對(duì)于社交媒體分析、客戶服務(wù)、產(chǎn)品反饋分析等領(lǐng)域至關(guān)重要,幫助企業(yè)和機(jī)構(gòu)更好地理解用戶需求和市場(chǎng)趨勢(shì)。(5)機(jī)器翻譯:基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng),如Transformer模型,相比傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯方法,能夠提供更流暢、更準(zhǔn)確的翻譯結(jié)果,大大推進(jìn)了跨語言溝通的便利性。2.2.2深度學(xué)習(xí)革命(6)對(duì)話系統(tǒng)與聊天機(jī)器人:深度學(xué)習(xí)技術(shù)使得聊天機(jī)器人更加智能化,能夠進(jìn)行多輪對(duì)話、理解用戶意圖并作出恰當(dāng)反應(yīng),改善了用戶體驗(yàn),廣泛應(yīng)用于客戶服務(wù)、教育、娛樂等多個(gè)行業(yè)。(7)命名實(shí)體識(shí)別與信息抽取:深度學(xué)習(xí)模型在識(shí)別文本中的命名實(shí)體(如人名、地點(diǎn)、組織機(jī)構(gòu)等)和抽取關(guān)鍵信息方面展現(xiàn)出了強(qiáng)大性能,對(duì)于構(gòu)建知識(shí)圖譜、信息檢索和智能文檔處理等應(yīng)用極為重要。2.2.2深度學(xué)習(xí)革命(8)解決數(shù)據(jù)稀疏性問題:盡管自然語言處理任務(wù)常面臨數(shù)據(jù)稀疏性挑戰(zhàn),深度學(xué)習(xí)模型通過學(xué)習(xí)更高級(jí)別的抽象特征,能在一定程度上緩解這一問題,尤其是在少數(shù)族裔語言、專業(yè)領(lǐng)域術(shù)語等方面。(9)模型可擴(kuò)展性與遷移學(xué)習(xí):預(yù)訓(xùn)練的大規(guī)模語言模型,如T5、BERT等,通過遷移學(xué)習(xí)策略,能夠在少量樣本上快速適應(yīng)新的任務(wù),降低了特定領(lǐng)域應(yīng)用的門檻,加速了NLP技術(shù)的普及和應(yīng)用。2.2.2深度學(xué)習(xí)革命(10)持續(xù)推動(dòng)技術(shù)創(chuàng)新:深度學(xué)習(xí)的引入激發(fā)了一系列研究和開發(fā)活動(dòng),不斷推動(dòng)NLP技術(shù)邊界,包括但不限于模型結(jié)構(gòu)創(chuàng)新、訓(xùn)練策略優(yōu)化、計(jì)算效率提升等,為未來的自然語言處理技術(shù)發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。源自NLP,如今,LLM已被應(yīng)用于各種場(chǎng)景,極大地推動(dòng)了人工智能的實(shí)用化進(jìn)程,也對(duì)模型的效率、經(jīng)濟(jì)成本、倫理和隱私等方面提出了新的挑戰(zhàn)。隨著技術(shù)的持續(xù)發(fā)展,LLM正逐步成為NLP領(lǐng)域的新常態(tài),不斷拓展人類與機(jī)器交互的邊界。2.2.2深度學(xué)習(xí)革命PART03LLM定義LLM(大語言模型)是一種基于深度學(xué)習(xí)技術(shù)的人工智能模型,具有大規(guī)模參數(shù)和復(fù)雜結(jié)構(gòu),其設(shè)計(jì)目的是理解和生成類似于人類的自然語言。這類模型通過在海量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠?qū)W習(xí)到語言的復(fù)雜結(jié)構(gòu)、語義和上下文依賴,從而在多種NLP任務(wù)中展現(xiàn)卓越性能。LLM代表了NLP領(lǐng)域的一大進(jìn)步,推動(dòng)著人工智能技術(shù)在對(duì)話系統(tǒng)、內(nèi)容創(chuàng)作、信息檢索、語言理解等多個(gè)應(yīng)用場(chǎng)景的革新,OpenAI推出的ChatGPT就是一個(gè)LLM的例子,它被訓(xùn)練來理解和生成人類語言,以便進(jìn)行有效的對(duì)話和解答各種問題。2.3

LLM定義在LLM的上下文中,“大”主要有兩層含義。一方面,它指的是模型的參數(shù)數(shù)量。在這些模型中,參數(shù)的數(shù)量通常會(huì)非常大,達(dá)到數(shù)十億甚至數(shù)萬億。這使得模型能夠?qū)W習(xí)和表示語言中細(xì)微且非常復(fù)雜的模式。另一方面,“大”也指的是訓(xùn)練數(shù)據(jù)的規(guī)模。LLM通??梢栽趤碜曰ヂ?lián)網(wǎng)、書籍、新聞等各種來源的大規(guī)模文本數(shù)據(jù)上進(jìn)行訓(xùn)練。2.3

LLM定義在LLM中,“通用”這個(gè)詞描述的是模型的應(yīng)用范圍。通用語言模型在預(yù)訓(xùn)練時(shí)使用了來自各種領(lǐng)域的數(shù)據(jù),因此模型只需少量額外訓(xùn)練或調(diào)整,就能夠處理下游各種類型的任務(wù),例如文本生成、情感分析、問答系統(tǒng)、機(jī)器翻譯、文本摘要等,而不限于某一特定的任務(wù)或領(lǐng)域,這些模型在處理新的、未見過的任務(wù)時(shí)具有很強(qiáng)的泛化能力。2.3

LLM定義LLM的核心特征還包括:(1)深度學(xué)習(xí)架構(gòu):它們通?;谙冗M(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),尤其是Transformer模型,該架構(gòu)擅長處理序列數(shù)據(jù),通過自注意力機(jī)制理解長距離的依賴關(guān)系。(2)無監(jiān)督預(yù)訓(xùn)練:首先在大量未標(biāo)注文本上進(jìn)行無監(jiān)督學(xué)習(xí),預(yù)訓(xùn)練讓模型學(xué)習(xí)語言的統(tǒng)計(jì)規(guī)律和潛在結(jié)構(gòu),之后可以根據(jù)具體任務(wù)進(jìn)行有監(jiān)督的微調(diào)。2.3

LLM定義(3)生成與理解并重:既能根據(jù)上下文生成連貫、有邏輯的新文本,也能理解輸入文本的意義,進(jìn)行精準(zhǔn)的語義解析和信息提取。(4)持續(xù)學(xué)習(xí)與適應(yīng)性:具有持續(xù)學(xué)習(xí)能力,可以通過接收新數(shù)據(jù)不斷優(yōu)化和擴(kuò)展知識(shí),保持模型的時(shí)效性和準(zhǔn)確性。2.3

LLM定義PART04LLM工作原理LLM基于深度學(xué)習(xí)技術(shù),特別是Transformer網(wǎng)絡(luò)架構(gòu)的廣泛應(yīng)用,這些模型通過學(xué)習(xí)海量文本數(shù)據(jù),能夠理解和生成自然語言。通過深度學(xué)習(xí)和海量數(shù)據(jù)訓(xùn)練,LLM實(shí)現(xiàn)了對(duì)自然語言的深度理解與生成,其工作原理涉及復(fù)雜的數(shù)學(xué)模型、優(yōu)化算法以及對(duì)倫理和社會(huì)影響的深刻考量。2.4

LLM工作原理LLM的訓(xùn)練需要極高的計(jì)算資源,包括大量的GPU或TPU(兩種不同類型的處理器),以及相應(yīng)的能源消耗,這也是其發(fā)展的一個(gè)重要考量因素。LLM容易吸收訓(xùn)練數(shù)據(jù)中的偏見,因此在數(shù)據(jù)選擇和模型使用上需要特別注意倫理問題,努力減少偏見和歧視。隨著技術(shù)的發(fā)展,LLM也在不斷進(jìn)化,持續(xù)學(xué)習(xí)機(jī)制和更高效的學(xué)習(xí)算法被研究,以提高模型的適應(yīng)性和效率。2.4

LLM工作原理在語言模型中,“tokens”是指單詞、單詞部分(稱為子詞)或字符轉(zhuǎn)換成的數(shù)字列表。每個(gè)單詞或單詞部分都被映射到一個(gè)特定的數(shù)字表示,稱為詞元(token)。這種映射關(guān)系通常是通過預(yù)定義的規(guī)則或算法完成的,不同的語言模型可能使用不同的標(biāo)記化方案,但重要的是要保證在相同的語境下,相同的單詞或單詞部分始終被映射到相同的詞元。圖2-1相同的單詞始終被映射到相同的詞元2.4.1詞元及其標(biāo)記化大多數(shù)語言模型傾向于使用子詞標(biāo)記化,因?yàn)檫@種方法高效靈活。子詞標(biāo)記化能夠處理單詞的變形、錯(cuò)字等情況,從而更好地識(shí)別單詞之間的關(guān)系。2.4.1詞元及其標(biāo)記化訓(xùn)練一個(gè)LLM可能非常耗時(shí)和昂貴——如今,最常見的商業(yè)系統(tǒng)是在數(shù)千臺(tái)強(qiáng)大處理器上同時(shí)訓(xùn)練數(shù)周,耗資達(dá)數(shù)百萬美元。這些程序通常被稱為“基礎(chǔ)模型”,具有廣泛的適用性和長期使用壽命。它們可以用作為許多不同類型專業(yè)LLM的基礎(chǔ),盡管直接與它們交互也是完全可能的(而且很有用和有趣)。圖2-2訓(xùn)練基礎(chǔ)模型2.4.2基礎(chǔ)模型LLM在完成了對(duì)大型文本語料庫的“基礎(chǔ)訓(xùn)練”后,就要進(jìn)入調(diào)整階段。這包括向它提供一系列示例,說明它應(yīng)該如何禮貌地和合作地回答問題(響應(yīng)“提示”),以及最重要的是,它不允許說什么(當(dāng)然,這反映了其開發(fā)者的態(tài)度和偏見的價(jià)值判斷)。初始訓(xùn)練步驟大多是自動(dòng)化過程,這個(gè)社交化步驟是通過所謂的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來完成的。人類審查LLM對(duì)一系列可能引起不當(dāng)行為的提示的反應(yīng),然后幫助LLM做出改進(jìn)。2.4.2基礎(chǔ)模型完成訓(xùn)練后,LLM接受使用者的提示或問題作為輸入,對(duì)其進(jìn)行轉(zhuǎn)換并生成一個(gè)回應(yīng)。與訓(xùn)練步驟相比,這個(gè)過程快速而簡(jiǎn)單,但它是如何將輸入轉(zhuǎn)換為回應(yīng)的呢?模型將這種“猜測(cè)下一個(gè)詞”的技術(shù)擴(kuò)展到更長的序列上。重要的是,要理解分析和猜測(cè)實(shí)際上不是在詞本身進(jìn)行的,而是在所謂的標(biāo)記上進(jìn)行的——它們代表詞的一部分,并且這些標(biāo)記進(jìn)一步以“嵌入”形式表達(dá),旨在捕捉它們的含義。2.4.2基礎(chǔ)模型LLM首先使用詞嵌入技術(shù)將文本中的每個(gè)詞匯轉(zhuǎn)化為高維向量,確保模型可以處理連續(xù)的符號(hào)序列。這些向量不僅編碼了詞匯本身的含義,還考慮了語境下的潛在關(guān)聯(lián)。將每個(gè)單詞表示為一種特定形式的向量(列表),稱為嵌入。嵌入將給定的單詞轉(zhuǎn)換為具有特殊屬性的向量(有序數(shù)字列表):相似的單詞具有相似的向量表示。想象一下,“朋友”“熟人”“同事”和“玩伴”這些詞的嵌入。目標(biāo)是,嵌入應(yīng)該將這些單詞表示為彼此相似的向量,通過代數(shù)組合嵌入來促進(jìn)某些類型的推理。2.4.3詞嵌入及其含義單詞嵌入的一個(gè)缺點(diǎn)是它們并不固有地解決多義性的問題——單詞具有多個(gè)含義的能力。處理這個(gè)問題有幾種方法。例如,如果訓(xùn)練語料庫足夠詳細(xì),單詞出現(xiàn)的上下文將傾向于聚合成統(tǒng)計(jì)簇,每個(gè)簇代表同一個(gè)單詞的不同含義。這允許LLM以模棱兩可的方式表示單詞,將其與多個(gè)嵌入相關(guān)聯(lián)。多義性的計(jì)算方法是一個(gè)持續(xù)研究的領(lǐng)域。2.4.3詞嵌入及其含義當(dāng)你想知道一個(gè)詞的含義時(shí),你可能會(huì)查字典。在字典里,你會(huì)找到用詞語表達(dá)的關(guān)于詞義的描述,讀了定義后你理解了一個(gè)詞的含義。換句話說,就是,通過與其他單詞的關(guān)系來表示單詞的含義,通常被認(rèn)為是語義的一種滿意的實(shí)際方法。當(dāng)然,有些詞確實(shí)指的是現(xiàn)實(shí)世界中的真實(shí)事物。但是,在相互關(guān)聯(lián)的定義的混亂中有太多的內(nèi)在結(jié)構(gòu),以至于關(guān)于給定單詞的幾乎所有需要知道的東西都可以通過它與其他單詞的關(guān)系來編碼。2.4.3詞嵌入及其含義Transformer是一種在NLP領(lǐng)域中廣泛使用的深度學(xué)習(xí)模型,它源自谷歌公司在2017年發(fā)表的一篇論文“注意力就是你所需要的”。Transformer模型的主要特點(diǎn)是使用了“自注意力”機(jī)制,允許模型在處理序列數(shù)據(jù)時(shí)考慮到序列中所有元素的上下文關(guān)系。Transformer模型首先被應(yīng)用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)模型架構(gòu),目標(biāo)是從源語言轉(zhuǎn)換到目標(biāo)語言,它完成了對(duì)源語言序列和目標(biāo)語言序列全局依賴的建模。因?yàn)檫m用于并行計(jì)算,使它的模型復(fù)雜程度在精度和性能上都要高于之前流行的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,如今的LLM幾乎都基于Transformer結(jié)構(gòu)。2.4.4基于Transformer模型當(dāng)一個(gè)Transformer模型對(duì)一句話進(jìn)行處理時(shí),它會(huì)一次查看所有單詞,并為每對(duì)單詞計(jì)算一個(gè)“注意分?jǐn)?shù)”。注意分?jǐn)?shù)確定句子中每個(gè)單詞應(yīng)該對(duì)其他每個(gè)單詞的解釋產(chǎn)生多大影響。例如,如果句子是“貓坐在墊子上”,當(dāng)模型處理單詞“坐”時(shí),它可能會(huì)更多地關(guān)注單詞“貓”(因?yàn)椤柏垺笔亲膶?duì)象),而對(duì)單詞“墊子”關(guān)注較少。但是當(dāng)處理單詞“上”時(shí),它可能會(huì)更多地關(guān)注“墊子”。2.4.4基于Transformer模型當(dāng)要求LLM回答問題時(shí),類似的過程也會(huì)發(fā)生。LLM首先將該單詞轉(zhuǎn)換為嵌入,然后它以相同的方式處理詢問,使其專注于輸入的最重要部分,并使用這些來預(yù)測(cè):如果您開始回答問題,則輸入的下一個(gè)單詞可能是什么。為了解決序列信息中詞語順序的問題,Transformer模型引入了位置編碼機(jī)制,利用詞嵌入來表達(dá)語言中的復(fù)雜概念。2.4.4基于Transformer模型在Transformer中,每個(gè)單詞都被表示為一個(gè)高維向量,而這些向量在表示空間中的位置反映了單詞之間的語義關(guān)系。例如,具有相似含義的單詞在表示空間中可能會(huì)更加接近,而含義不同的單詞則會(huì)相對(duì)遠(yuǎn)離。這種機(jī)制允許模型理解并記住單詞之間的相對(duì)或絕對(duì)位置關(guān)系,即使在轉(zhuǎn)換成固定長度向量后也能保留上下文信息。2.4.4基于Transformer模型通過使用這種高維表示,Transformer能夠更好地理解和生成自然語言。它們通過學(xué)習(xí)大量文本數(shù)據(jù),自動(dòng)調(diào)整詞嵌入向量的參數(shù),使得模型能夠根據(jù)上下文理解單詞的含義,并生成連貫的語言輸出。Transformer模型中的注意力機(jī)制允許模型集中注意力于輸入中與當(dāng)前任務(wù)相關(guān)的部分,從而提高了模型在處理長文本序列和復(fù)雜語境中的性能。2.4.4基于Transformer模型早期在解決機(jī)器翻譯這一類序列到序列的問題時(shí),通常采用的做法是利用一個(gè)編碼器和一個(gè)解碼器構(gòu)建端到端的神經(jīng)網(wǎng)絡(luò)模型。但是,基于編碼解碼的神經(jīng)網(wǎng)絡(luò)存在兩個(gè)問題,我們拿機(jī)器翻譯作為例子:?jiǎn)栴}1:如果翻譯的句子很長很復(fù)雜,比如直接將一篇文章輸進(jìn)去,模型的計(jì)算量很大,并且模型的準(zhǔn)確率下降嚴(yán)重。問題2:在不同的翻譯語境下,同一個(gè)詞可能具有不同含義,但是網(wǎng)絡(luò)對(duì)這些詞向量并沒有區(qū)分度,沒有考慮詞與詞之間的相關(guān)性,導(dǎo)致翻譯效果比較差。2.4.5自注意力機(jī)制同樣,在計(jì)算機(jī)視覺領(lǐng)域,如果輸入的圖像尺寸很大,做圖像分類或者識(shí)別時(shí),模型的性能也會(huì)下降。針對(duì)這樣的問題,提出了注意力機(jī)制。早在20世紀(jì)九十年代對(duì)注意力機(jī)制就有研究,到2014年弗拉基米爾的《視覺注意力的反復(fù)模型》一文中將其應(yīng)用在視覺領(lǐng)域,后來,伴隨著2017年Transformer結(jié)構(gòu)的提出,注意力機(jī)制在自然語言處理、計(jì)算機(jī)視覺等相關(guān)問題上被廣泛應(yīng)用。2.4.5自注意力機(jī)制“注意力機(jī)制”實(shí)際上就是想將人的感知方式、注意力的行為應(yīng)用在機(jī)器上,讓機(jī)器學(xué)會(huì)去感知數(shù)據(jù)中的重要和不重要的部分。比如要識(shí)別一張圖片中是一個(gè)什么動(dòng)物時(shí),我們讓機(jī)器側(cè)重于關(guān)注圖片中動(dòng)物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太關(guān)注其背景信息。核心目的是希望機(jī)器能注意到當(dāng)前任務(wù)的關(guān)鍵信息,而減少對(duì)其他非關(guān)鍵信息的注意。同樣,在機(jī)器翻譯中,讓機(jī)器注意到每個(gè)詞向量之間的相關(guān)性,有側(cè)重地進(jìn)行翻譯,模擬人類的理解過程。2.4.5自注意力機(jī)制對(duì)模型的每一個(gè)輸入項(xiàng),它可能是圖片中的不同部分,或者是語句中的某個(gè)單詞,分配一個(gè)權(quán)重,這個(gè)權(quán)重的大小代表了我們希望模型對(duì)該部分的關(guān)注程度。這樣,通過權(quán)重大小來模擬人在處理信息時(shí)的注意力側(cè)重,有效的提高模型的性能,并且在一定程度上降低了計(jì)算量。2.4.5自注意力機(jī)制深度學(xué)習(xí)中的注意力機(jī)制通??煞譃槿悾很涀⒁猓ㄈ肿⒁猓?、硬注意(局部注意)和自注意力(內(nèi)注意)(1)軟注意機(jī)制:對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重在0~1之間,也就是某些部分關(guān)注多一點(diǎn),某些部分關(guān)注少一點(diǎn)。由于對(duì)大部分信息都有考慮,但考慮程度不一,所以相對(duì)計(jì)算量比較大。(2)硬注意機(jī)制:對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重非0即1,只考慮哪部分需要關(guān)注,哪部分不關(guān)注,也就是直接舍棄掉一些不相關(guān)項(xiàng)。優(yōu)勢(shì)在于可以減少一定的時(shí)間和計(jì)算成本,但有可能丟失一些本應(yīng)該注意的信息。2.4.5自注意力機(jī)制(3)自注意力機(jī)制:對(duì)每個(gè)輸入項(xiàng)分配的權(quán)重取決于輸入項(xiàng)之間的相互作用,即通過輸入項(xiàng)內(nèi)部的“表決”來決定應(yīng)該關(guān)注哪些輸入項(xiàng),它在處理很長的輸入時(shí),具有并行計(jì)算的優(yōu)勢(shì)。自注意力是Transformer的核心部件,通過計(jì)算輸入序列中每個(gè)位置的單詞與其他所有位置單詞的相關(guān)性,從而實(shí)現(xiàn)對(duì)整個(gè)句子的全局建模。多頭自注意力則擴(kuò)展了這一機(jī)制,使其能夠從不同視角捕獲并整合信息。在自注意力層之后,模型通常會(huì)包含一個(gè)或多個(gè)全連接的前饋神經(jīng)網(wǎng)絡(luò)層,用于進(jìn)一步提煉和組合特征,增強(qiáng)模型對(duì)復(fù)雜語言結(jié)構(gòu)的理解和表達(dá)能力。2.4.5自注意力機(jī)制對(duì)于生成任務(wù)(如文本創(chuàng)作、對(duì)話系統(tǒng)),模型根據(jù)給定的初始文本或上下文,生成連續(xù)的、有邏輯的文本序列。這通常通過采樣技術(shù)(如貪婪采樣、核密度采樣)實(shí)現(xiàn),確保生成的文本既符合語法又具有連貫性。而對(duì)于理解任務(wù)(如問答、情緒分析),模型需理解輸入文本的深層含義,這依賴于模型在預(yù)訓(xùn)練和微調(diào)階段學(xué)習(xí)到的語義理解能力。模型通過分析文本內(nèi)容,提取關(guān)鍵信息并給出準(zhǔn)確的響應(yīng)或判斷。2.4.6生成和理解預(yù)訓(xùn)練的目標(biāo)通常是為了學(xué)習(xí)語言的普遍規(guī)律,模型被訓(xùn)練去預(yù)測(cè)給定序列中缺失的單詞(如BERT)或預(yù)測(cè)序列的下一個(gè)單詞(如GPT系列)。在預(yù)訓(xùn)練階段,模型在大規(guī)模的通用文本數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)語言的基本結(jié)構(gòu)和各種常識(shí)。海量的數(shù)據(jù)集可能包含互聯(lián)網(wǎng)文本、書籍、新聞、社交媒體等多種來源,旨在覆蓋廣泛的主題和語言風(fēng)格。2.4.7預(yù)訓(xùn)練過程與微調(diào)模型通常采用Transformer架構(gòu),它通過自注意力機(jī)制處理輸入序列,使得模型能夠理解上下文依賴,而不僅僅是相鄰單詞的關(guān)系。模型使用如交叉熵?fù)p失函數(shù)來衡量預(yù)測(cè)錯(cuò)誤的程度,并通過梯度下降等優(yōu)化算法更新參數(shù),以最小化損失函數(shù)。2.4.7預(yù)訓(xùn)練過程與微調(diào)LLM被訓(xùn)練來解決通用(常見)的語言問題,如文本分類、問答、文檔總結(jié)和文本生成等。(1)文本分類:LLM可以通過對(duì)輸入文本進(jìn)行分析和學(xué)習(xí),將其歸類到一個(gè)或多個(gè)預(yù)定義的類別中。例如,可以使用LLM來分類電子郵件是否為垃圾郵件,或?qū)⒉┛臀恼職w類為積極、消極或中立。(2)問答:LLM可以回答用戶提出的自然語言問題。例如,可以使用LLM來回答搜索引擎中的用戶查詢,或者回答智能助手中的用戶問題。2.4.7預(yù)訓(xùn)練過程與微調(diào)(3)文檔總結(jié):LLM可以自動(dòng)提取文本中的主要信息,以生成文檔摘要或摘錄。例如,可以使用LLM來生成新聞文章的概要,或從長篇小說中提取關(guān)鍵情節(jié)和事件。(4)文本生成:LLM可以使用先前學(xué)習(xí)的模式和結(jié)構(gòu)來生成新的文本。例如,可以使用LLM來生成詩歌、短故事、或者以特定主題的文章。2.4.7預(yù)訓(xùn)練過程與微調(diào)以訓(xùn)練狗為例,可以訓(xùn)練它坐、跑、蹲和保持不動(dòng)。但如果訓(xùn)練的是警犬、導(dǎo)盲犬和獵犬,則需要特殊的訓(xùn)練方法。LLM的訓(xùn)練也采用與之類似的思路。預(yù)訓(xùn)練完成后,在微調(diào)階段,模型可以在特定任務(wù)上進(jìn)行微調(diào),在更小、帶有標(biāo)簽的數(shù)據(jù)集上進(jìn)行進(jìn)一步的訓(xùn)練,使模型適應(yīng)特定的語言理解和生成任務(wù)。這個(gè)數(shù)據(jù)集通常是針對(duì)某個(gè)特定任務(wù)或領(lǐng)域的,例如醫(yī)學(xué)文本、法律文本,或者是特定的對(duì)話數(shù)據(jù)。微調(diào)可以讓模型更好地理解和生成這個(gè)特定領(lǐng)域的語言,從而更好地完成特定的任務(wù)。2.4.7預(yù)訓(xùn)練過程與微調(diào)根據(jù)任務(wù)類型,可能需要調(diào)整模型的輸出層。例如,在分類任務(wù)中,最后的輸出層會(huì)設(shè)計(jì)為輸出類別概率;在生成任務(wù)中,則可能使用softmax函數(shù)來預(yù)測(cè)下一個(gè)單詞。2.4.7預(yù)訓(xùn)練過程與微調(diào)PART05LLM的幻覺所謂幻覺,是指LLM在回答問題或提示時(shí),實(shí)際上并不會(huì)查閱其訓(xùn)練時(shí)接觸到的所有詞序列,這就意味著它們通常只能訪問那些信息的統(tǒng)計(jì)摘要——LLM可能“知道”很多詞,但它們無法重現(xiàn)創(chuàng)建它們的確切序列。于是,LLM就出現(xiàn)了幻覺,簡(jiǎn)而言之就是“胡說八道”,即模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶輸入不一致的現(xiàn)象。通常LLM很難區(qū)分現(xiàn)實(shí)和想象。至少目前來說,它們沒有很好的方法來驗(yàn)證它們認(rèn)為或相信可能是真實(shí)的事物的準(zhǔn)確性。即使它們能夠咨詢互聯(lián)網(wǎng)等其他來源,也不能保證它們會(huì)找到可靠的信息。2.5

LLM的幻覺研究人員將LLM的幻覺分為事實(shí)性幻覺和忠實(shí)性幻覺。(1)事實(shí)性幻覺,是指模型生成的內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)不一致。比如問模型“第一個(gè)在月球上行走的人是誰?”,模型回復(fù)“查爾斯·林德伯格在1951年月球先驅(qū)任務(wù)中第一個(gè)登上月球”。實(shí)際上,第一個(gè)登上月球的人是尼爾·阿姆斯特朗。事實(shí)性幻覺又可以分為事實(shí)不一致(與現(xiàn)實(shí)世界信息相矛盾)和事實(shí)捏造(壓根沒有,無法根據(jù)現(xiàn)實(shí)信息驗(yàn)證)。2.5.1幻覺的分類(2)忠實(shí)性幻覺,是指模型生成的內(nèi)容與用戶的指令或上下文不一致。比如讓模型總結(jié)今年10月的新聞,結(jié)果模型卻在說2006年10月的事。忠實(shí)性幻覺也可以細(xì)分為指令不一致(輸出偏離用戶指令)、上下文不一致(輸出與上下文信息不符)、邏輯不一致(推理步驟以及與最終答案之間的不一致)3類。2.5.1幻覺的分類LLM采用的數(shù)據(jù)是致使它產(chǎn)生幻覺的一大原因,其中包括數(shù)據(jù)缺陷、數(shù)據(jù)中捕獲的事實(shí)知識(shí)的利用率較低等因素。具體來說,數(shù)據(jù)缺陷分為錯(cuò)誤信息和偏見(重復(fù)偏見、社會(huì)偏見),此外,LLM也有知識(shí)邊界,所以存在領(lǐng)域知識(shí)缺陷和過時(shí)的事實(shí)知識(shí)。2.5.2產(chǎn)生幻覺的原因?qū)嶋H上,即便LLM應(yīng)用了大量的數(shù)據(jù),也會(huì)在利用時(shí)出現(xiàn)問題。LLM可能會(huì)過度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)和相關(guān)文檔計(jì)數(shù),從而導(dǎo)致幻覺。比如說,如果訓(xùn)練數(shù)據(jù)中頻繁共現(xiàn)“加拿大”和“多倫多”,那么LLM可能會(huì)錯(cuò)誤地將多倫多識(shí)別為加拿大的首都。此外,LLM還可能會(huì)出現(xiàn)長尾知識(shí)回憶不足、難以應(yīng)對(duì)復(fù)雜推理的情況。2.5.2產(chǎn)生幻覺的原因這里,所謂長尾知識(shí)是指:不能過于迷信依靠人工智能模型自身能力解決問題。頂流人工智能模型的水平雖然高,但主要體現(xiàn)在語言與思維能力。它們掌握的世界知識(shí),其實(shí)僅僅是人類文明史里極少數(shù)意義重大的知識(shí)。浩如煙海的長尾知識(shí)散落在數(shù)字世界的各個(gè)角落。這些知識(shí)既難以規(guī)整成數(shù)據(jù)集,人工智能也無法跟上它指數(shù)級(jí)增長的生產(chǎn)速度。

圖2-3長尾效應(yīng)2.5.2產(chǎn)生幻覺的原因除了數(shù)據(jù),訓(xùn)練過程也會(huì)使LLM產(chǎn)生幻覺。主要是預(yù)訓(xùn)練階段(LLM學(xué)習(xí)通用表示并獲取世界知識(shí))、對(duì)齊階段(微調(diào)LLM使其更好地與人類偏好一致)兩個(gè)階段產(chǎn)生問題。2.5.2產(chǎn)生幻覺的原因預(yù)訓(xùn)練階段可能會(huì)存在:(1)架構(gòu)缺陷。基于前一個(gè)詞元預(yù)測(cè)下一個(gè)詞元,這種單向建模阻礙了模型捕獲復(fù)雜的上下文關(guān)系的能力;自注意力模塊存在缺陷,隨著詞元長度增加,不同位置的注意力被稀釋。(2)暴露偏差。訓(xùn)練策略也有缺陷,模型推理時(shí)依賴于自己生成的詞元進(jìn)行后續(xù)預(yù)測(cè),模型生成的錯(cuò)誤詞元會(huì)在整個(gè)后續(xù)詞元中產(chǎn)生級(jí)聯(lián)錯(cuò)誤。2.5.2產(chǎn)生幻覺的原因?qū)R階段可能會(huì)存在:(1)能力錯(cuò)位。LLM內(nèi)在能力與標(biāo)注數(shù)據(jù)中描述的功能之間可能存在錯(cuò)位。當(dāng)對(duì)齊數(shù)據(jù)需求超出這些預(yù)定義的能力邊界時(shí),LLM會(huì)被訓(xùn)練來生成超出其自身

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論