大語(yǔ)言模型基礎(chǔ)微課版課件第5、6章大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-12-17 格式：PPTX 頁(yè)數(shù)：211 大?。?.89MB 積分：20 舉報(bào) 版權(quán)申訴

大語(yǔ)言模型基礎(chǔ)微課版課件第5、6章大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織_第2頁(yè)

大語(yǔ)言模型基礎(chǔ)微課版課件第5、6章大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織_第3頁(yè)

大語(yǔ)言模型基礎(chǔ)微課版課件第5、6章大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織_第4頁(yè)

大語(yǔ)言模型基礎(chǔ)微課版課件第5、6章大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織_第5頁(yè)

已閱讀5頁(yè)，還剩206頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

浙江省普通本科高?！笆奈濉敝攸c(diǎn)教材建設(shè)成果之一大語(yǔ)言模型基礎(chǔ)大語(yǔ)言模型基礎(chǔ)周蘇教授QQ：81505050第5章大模型預(yù)訓(xùn)練數(shù)據(jù)一般情況下，用于預(yù)訓(xùn)練的都是具備復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)，眾多參數(shù)量，以及足夠大數(shù)據(jù)集的大模型。在自然語(yǔ)言處理領(lǐng)域，預(yù)訓(xùn)練模型往往是語(yǔ)言模型（見(jiàn)圖5-1），其訓(xùn)練是無(wú)監(jiān)督的，可以獲得大規(guī)模語(yǔ)料。同時(shí)，語(yǔ)言模型又是許多典型自然語(yǔ)言處理任務(wù)的基礎(chǔ)，如機(jī)器翻譯、文本生成、閱讀理解等。第5章大模型預(yù)訓(xùn)練數(shù)據(jù)

圖5-1從語(yǔ)言模型嵌入第5章大模型預(yù)訓(xùn)練數(shù)據(jù)（1）在RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）模型中，每一個(gè)詞嵌入的輸出要參考前面已經(jīng)輸入過(guò)的數(shù)據(jù)，所以叫做上下文詞嵌入。（2）除了考慮每個(gè)詞嵌入前文，同時(shí)還要考慮后文，所以再?gòu)木湮蚕蚓涫子?xùn)練。（3）使用多層隱藏層后，最終的詞嵌入=該詞所有層的詞嵌入的加權(quán)平均（見(jiàn)右圖）。圖5-2從句子中訓(xùn)練第5章大模型預(yù)訓(xùn)練數(shù)據(jù)訓(xùn)練大模型需要數(shù)萬(wàn)億各類(lèi)型數(shù)據(jù)。如何構(gòu)造海量“高質(zhì)量”數(shù)據(jù)對(duì)于大模型的訓(xùn)練至關(guān)重要。研究表明，預(yù)訓(xùn)練數(shù)據(jù)是影響大模型效果及樣本泛化能力的關(guān)鍵因素之一。大模型預(yù)訓(xùn)練數(shù)據(jù)要覆蓋盡可能多的領(lǐng)域、語(yǔ)言、文化和視角，通常來(lái)自網(wǎng)絡(luò)、圖書(shū)、論文、百科和社交媒體等。第5章大模型預(yù)訓(xùn)練數(shù)據(jù)01大模型預(yù)訓(xùn)練數(shù)據(jù)02數(shù)據(jù)處理03數(shù)據(jù)影響分析04典型的開(kāi)源數(shù)據(jù)集目錄/CONTENTS05訓(xùn)練集、測(cè)試集、驗(yàn)證集的異同06數(shù)據(jù)集面臨的挑戰(zhàn)PART01大模型預(yù)訓(xùn)練數(shù)據(jù)OpenAI訓(xùn)練GPT-3使用的主要數(shù)據(jù)來(lái)源，包含經(jīng)過(guò)過(guò)濾的CommonCravwl、WebText2、Books1、Books2及英文維基百科等數(shù)據(jù)集。其中CommonCrawl的原始數(shù)據(jù)有45TB，過(guò)濾后僅保留了570GB的數(shù)據(jù)。通過(guò)詞元方式對(duì)上述數(shù)據(jù)進(jìn)行切分，大約包含5000億個(gè)詞元。為了保證模型使用更多高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練，在訓(xùn)練GPT-3時(shí)，根據(jù)數(shù)據(jù)來(lái)源的不同，設(shè)置不同的采樣權(quán)重。在完成3000億個(gè)詞元的訓(xùn)練時(shí)，英文維基百科的數(shù)據(jù)平均訓(xùn)練輪數(shù)為3.4次，而CommonCrawl和Books2僅有0.44次和0.43次。5.1數(shù)據(jù)來(lái)源另一個(gè)例子，由于CommonCrawl數(shù)據(jù)集的過(guò)濾過(guò)程繁瑣復(fù)雜，Meta公司的研究人員在訓(xùn)練OPT模型時(shí)，采用了混合RoBERTa、Pile和PushShift.ioReddit數(shù)據(jù)的方法。由于這些數(shù)據(jù)集中包含的絕大部分?jǐn)?shù)據(jù)都是英文數(shù)據(jù)，因此OPT也從CommonCrawl數(shù)據(jù)集中抽取了部分非英文數(shù)據(jù)加入訓(xùn)練數(shù)據(jù)。大模型預(yù)訓(xùn)練所需的數(shù)據(jù)來(lái)源大體上分為通用數(shù)據(jù)和專(zhuān)業(yè)數(shù)據(jù)兩大類(lèi)。5.1數(shù)據(jù)來(lái)源通用數(shù)據(jù)在大模型訓(xùn)練數(shù)據(jù)中占比非常高，主要包括網(wǎng)頁(yè)、圖書(shū)、新聞、對(duì)話(huà)文本等不同類(lèi)型的數(shù)據(jù)，具有規(guī)模大、多樣性和易獲取等特點(diǎn)，因此支持大模型的語(yǔ)言建模和泛化能力。5.1.1通用數(shù)據(jù)網(wǎng)頁(yè)是通用數(shù)據(jù)中數(shù)量最多的一類(lèi)。隨著互聯(lián)網(wǎng)的日益普及，人們通過(guò)網(wǎng)站、論壇、博客、App創(chuàng)造了海量的數(shù)據(jù)。網(wǎng)頁(yè)數(shù)據(jù)使語(yǔ)言模型能夠獲得多樣化的語(yǔ)言知識(shí)并增強(qiáng)其泛化能力。爬取和處理海量網(wǎng)頁(yè)內(nèi)容并不是一件容易的事情，因此一些研究人員構(gòu)建了ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等開(kāi)源網(wǎng)頁(yè)數(shù)據(jù)集。雖然這些爬取的網(wǎng)絡(luò)數(shù)據(jù)包含大量高質(zhì)量的文本（如維基百科），但也包含非常多低質(zhì)量的文本（如垃圾郵件等）。因此，過(guò)濾并處理網(wǎng)頁(yè)數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量對(duì)大模型訓(xùn)練非常重要。5.1.1通用數(shù)據(jù)圖書(shū)是人類(lèi)知識(shí)的主要積累方式之一，從古代經(jīng)典到現(xiàn)代學(xué)術(shù)著作，承載了豐富多樣的人類(lèi)思想。圖書(shū)通常包含廣泛的詞匯，包括專(zhuān)業(yè)術(shù)語(yǔ)、文學(xué)表達(dá)及各種主題詞匯。利用圖書(shū)數(shù)據(jù)進(jìn)行訓(xùn)練，大模型可以接觸多樣化的詞匯，從而提高其對(duì)不同領(lǐng)域和主題的理解能力。相較于其他數(shù)據(jù)庫(kù)，圖書(shū)也是最重要的，甚至是唯一的長(zhǎng)文本書(shū)面語(yǔ)的數(shù)據(jù)來(lái)源。圖書(shū)提供了完整的句子和段落，使大模型可以學(xué)習(xí)到上下文之間的聯(lián)系。這對(duì)于模型理解句子中的復(fù)雜結(jié)構(gòu)、邏輯關(guān)系和語(yǔ)義連貫性非常重要。5.1.1通用數(shù)據(jù)圖書(shū)涵蓋了各種文體和風(fēng)格，包括小說(shuō)、科學(xué)著作、歷史記錄等等。用圖書(shū)數(shù)據(jù)訓(xùn)練大模型，可以使模型學(xué)習(xí)到不同的寫(xiě)作風(fēng)格和表達(dá)方式，提高大模型在各種文本類(lèi)型上的能力。受限于版權(quán)因素，開(kāi)源圖書(shū)數(shù)據(jù)集很少，現(xiàn)有的開(kāi)源大模型研究通常采用Pile數(shù)據(jù)集中提供的Books3和BookCorpus2數(shù)據(jù)集。5.1.1通用數(shù)據(jù)對(duì)話(huà)文本是指有兩個(gè)或更多參與者交流的文本內(nèi)容。對(duì)話(huà)文本包含書(shū)面形式的對(duì)話(huà)、聊天記錄、論壇帖子、社交媒體評(píng)論等。研究表明，對(duì)話(huà)文本可以有效增強(qiáng)大模型的對(duì)話(huà)能力，并潛在地提高大模型在多種問(wèn)答任務(wù)上的表現(xiàn)。對(duì)話(huà)文本可以通過(guò)收集、清洗、歸并等過(guò)程從社會(huì)媒體、論壇、郵件組等處構(gòu)建。相較于網(wǎng)頁(yè)數(shù)據(jù)，對(duì)話(huà)文本數(shù)據(jù)的收集和處理會(huì)困難一些，數(shù)據(jù)量也少很多。常見(jiàn)的對(duì)話(huà)文本數(shù)據(jù)集包括PushShift.ioReddit、UbuntuDialogueCorpus、DoubanConversationCorpus、ChromiumConversationsCorpus等。此外，還提出了使用大模型自動(dòng)生成對(duì)話(huà)文本數(shù)據(jù)的UltraChat方法。5.1.1通用數(shù)據(jù)專(zhuān)業(yè)數(shù)據(jù)包括多語(yǔ)言數(shù)據(jù)、科學(xué)文本數(shù)據(jù)、代碼及領(lǐng)域特有資料等。雖然專(zhuān)業(yè)數(shù)據(jù)在大模型中所占比例通常較低，但是其對(duì)改進(jìn)大模型在下游任務(wù)上的特定解決能力有著非常重要的作用。專(zhuān)業(yè)數(shù)據(jù)種類(lèi)非常多，大模型使用的專(zhuān)業(yè)數(shù)據(jù)主要有三類(lèi)。5.1.2專(zhuān)業(yè)數(shù)據(jù)多語(yǔ)言數(shù)據(jù)對(duì)于增強(qiáng)大模型的語(yǔ)言理解和生成多語(yǔ)言能力具有至關(guān)重要的作用。當(dāng)前的大模型訓(xùn)練除了需要目標(biāo)語(yǔ)言中的文本，通常還要整合多語(yǔ)言數(shù)據(jù)庫(kù)。例如，BLOOM的預(yù)訓(xùn)練數(shù)據(jù)中包含46種語(yǔ)言的數(shù)據(jù)，PaLM的預(yù)訓(xùn)練數(shù)據(jù)中甚至包含高達(dá)122種語(yǔ)言的數(shù)據(jù)。研究發(fā)現(xiàn)，通過(guò)多語(yǔ)言數(shù)據(jù)混合訓(xùn)練，預(yù)訓(xùn)練模型可以在一定程度上自動(dòng)構(gòu)建多語(yǔ)言之間的語(yǔ)義關(guān)聯(lián)。因此，多語(yǔ)言數(shù)據(jù)混合訓(xùn)練可以有效提升翻譯、多語(yǔ)言摘要和多語(yǔ)言問(wèn)答等任務(wù)能力。此外，由于不同語(yǔ)言中不同類(lèi)型的知識(shí)獲取難度不同，多語(yǔ)言數(shù)據(jù)還可以有效地增加數(shù)據(jù)的多樣性和知識(shí)的豐富性。5.1.2專(zhuān)業(yè)數(shù)據(jù)科學(xué)文本數(shù)據(jù)包括教材、論文、百科及其他相關(guān)資源。這些數(shù)據(jù)對(duì)于提升大模型在理解科學(xué)知識(shí)方面的能力具有重要作用?？茖W(xué)文本數(shù)據(jù)的來(lái)源主要包括arXiv論文、PubMed論文、教材、課件和教學(xué)網(wǎng)頁(yè)等。由于科學(xué)領(lǐng)域涉及眾多專(zhuān)業(yè)領(lǐng)域且數(shù)據(jù)形式復(fù)雜，通常還需要對(duì)公式、化學(xué)式、蛋白質(zhì)序列等采用特定的符號(hào)標(biāo)記并進(jìn)行預(yù)處理。例如，公式可以用LaTeX語(yǔ)法表示，化學(xué)結(jié)構(gòu)可以用SMILES（簡(jiǎn)化的分子輸入管路輸入系統(tǒng)）表示，蛋白質(zhì)序列可以用單字母代碼或三字母代碼表示。這樣可以將不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的形式，使大模型更好地處理和分析科學(xué)文本數(shù)據(jù)。5.1.2專(zhuān)業(yè)數(shù)據(jù)代碼是進(jìn)行程序生成任務(wù)所必需的訓(xùn)練數(shù)據(jù)。研究表明，通過(guò)在大量代碼上進(jìn)行預(yù)訓(xùn)練，大模型可以有效提升代碼生成的效果。程序代碼除本身之外，還包含大量的注釋信息。與自然語(yǔ)言文本不同，代碼是一種格式化語(yǔ)言，對(duì)應(yīng)著長(zhǎng)程依賴(lài)和準(zhǔn)確的執(zhí)行邏輯。代碼的語(yǔ)法結(jié)構(gòu)、關(guān)鍵字和特定的編程范式都對(duì)其含義和功能起著重要作用。代碼的主要來(lái)源是編程問(wèn)答社區(qū)和公共軟件倉(cāng)庫(kù)。編程問(wèn)答社區(qū)中的數(shù)據(jù)包含了開(kāi)發(fā)者提出的問(wèn)題、其他開(kāi)發(fā)者的回答及相關(guān)代碼示例。這些數(shù)據(jù)提供了豐富的語(yǔ)境和真實(shí)世界中的代碼使用場(chǎng)景。5.1.2專(zhuān)業(yè)數(shù)據(jù)公共軟件倉(cāng)庫(kù)中的數(shù)據(jù)包含了大量的開(kāi)源代碼，涵蓋多種編程語(yǔ)言和不同領(lǐng)域。這些代碼庫(kù)中的很多代碼經(jīng)過(guò)了嚴(yán)格的代碼評(píng)審和實(shí)際的使用測(cè)試，因此具有一定的可靠性。5.1.2專(zhuān)業(yè)數(shù)據(jù)PART02數(shù)據(jù)處理由于數(shù)據(jù)質(zhì)量對(duì)于大模型的影響非常大。因此，在收集各種類(lèi)型的數(shù)據(jù)之后，需要對(duì)數(shù)據(jù)進(jìn)行處理，去除低質(zhì)量數(shù)據(jù)、重復(fù)數(shù)據(jù)、有害信息、個(gè)人隱私等內(nèi)容和進(jìn)行詞元切分。5.2數(shù)據(jù)處理互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊，因此，從收集到的數(shù)據(jù)中刪除過(guò)濾掉低質(zhì)量數(shù)據(jù)是大模型訓(xùn)練中的重要步驟，其方法大致分為兩類(lèi)；基于分類(lèi)器的方法和基于啟發(fā)式的方法。5.2.1質(zhì)量過(guò)濾（1）基于分類(lèi)器的方法。目標(biāo)是訓(xùn)練文本質(zhì)量判斷模型，利用該模型識(shí)別并過(guò)濾低質(zhì)量數(shù)據(jù)。GPT-3、PaLM和GLaM模型在訓(xùn)練數(shù)據(jù)構(gòu)造時(shí)都使用了基于分類(lèi)器的方法。例如，基于特征哈希的線(xiàn)性分類(lèi)器，可以非常高效地完成文本質(zhì)量判斷。該分類(lèi)器使用一組精選文本（維基百科、書(shū)籍和一些選定的網(wǎng)站）進(jìn)行訓(xùn)練，目標(biāo)是給與訓(xùn)練數(shù)據(jù)類(lèi)似的網(wǎng)頁(yè)較高分?jǐn)?shù)。利用這個(gè)分類(lèi)器可以評(píng)估網(wǎng)頁(yè)的內(nèi)容質(zhì)量。在實(shí)際應(yīng)用中，還可以通過(guò)使用Pareto分布對(duì)網(wǎng)頁(yè)進(jìn)行采樣，根據(jù)其得分選擇合適的閾值，從而選定合適的數(shù)據(jù)集。然而，一些研究發(fā)現(xiàn)，基于分類(lèi)器的方法可能會(huì)刪除包含方言或者口語(yǔ)的高質(zhì)量文本，從而損失一定的多樣性。5.2.1質(zhì)量過(guò)濾（2）基于啟發(fā)式的方法。通過(guò)一組精心設(shè)計(jì)的規(guī)則來(lái)消除低質(zhì)量文本，BLOOM和Gopher采用了基于啟發(fā)式的方法。一些啟發(fā)式規(guī)則如下?！ふZ(yǔ)言過(guò)濾：如果一個(gè)大模型僅關(guān)注一種或者幾種語(yǔ)言，則可以大幅過(guò)濾數(shù)據(jù)中其他語(yǔ)言的文本。·指標(biāo)過(guò)濾：利用評(píng)測(cè)指標(biāo)也可以過(guò)濾低質(zhì)量文本。例如，可以使用語(yǔ)言模型對(duì)給定文本的困惑度進(jìn)行計(jì)算，利用該值過(guò)濾非自然的句子。·統(tǒng)計(jì)特征過(guò)濾：針對(duì)文本內(nèi)容可以計(jì)算包括標(biāo)點(diǎn)符號(hào)分布、符號(hào)字比、句子長(zhǎng)度在內(nèi)的統(tǒng)計(jì)特征，利用這些特征過(guò)濾低質(zhì)量數(shù)據(jù)?！りP(guān)鍵詞過(guò)濾：根據(jù)特定的關(guān)鍵詞集，可以識(shí)別并刪除文本中的噪聲或無(wú)用元素。例如，HTML標(biāo)簽、超鏈接及冒犯性詞語(yǔ)等。5.2.1質(zhì)量過(guò)濾在大模型出現(xiàn)之前，在自然語(yǔ)言處理領(lǐng)域已經(jīng)開(kāi)展了很多文章質(zhì)量判斷相關(guān)的研究，主要應(yīng)用于搜索引擎、社會(huì)媒體、推薦系統(tǒng)、廣告排序及作文評(píng)分等任務(wù)中。在搜索和推薦系統(tǒng)中，內(nèi)容結(jié)果的質(zhì)量是影響用戶(hù)體驗(yàn)的重要因素之一，因此，此前很多工作都是針對(duì)用戶(hù)生成內(nèi)容的質(zhì)量進(jìn)行判斷的。自動(dòng)作文評(píng)分也是文章質(zhì)量判斷領(lǐng)域的一個(gè)重要子任務(wù)，自1998年提出使用貝葉斯分類(lèi)器進(jìn)行作文評(píng)分預(yù)測(cè)以來(lái)，基于SVM、CNN-RNN、BERT等方法的作文評(píng)分算法相繼被提出，并取得了較大的進(jìn)展。這些方法都可以應(yīng)用于大模型預(yù)訓(xùn)練數(shù)據(jù)過(guò)濾。5.2.1質(zhì)量過(guò)濾由于預(yù)訓(xùn)練數(shù)據(jù)量非常大，并且對(duì)質(zhì)量判斷的準(zhǔn)確率要求并不很高，因此一些基于深度學(xué)習(xí)和預(yù)訓(xùn)練的方法還沒(méi)有應(yīng)用于低質(zhì)過(guò)濾中。5.2.1質(zhì)量過(guò)濾研究表明，大模型訓(xùn)練數(shù)據(jù)庫(kù)中的重復(fù)數(shù)據(jù)會(huì)降低大模型的多樣性，并可能導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定，從而影響模型性能。因此，需要對(duì)預(yù)訓(xùn)練數(shù)據(jù)庫(kù)中的重復(fù)數(shù)據(jù)進(jìn)行處理，去除其中的冗余部分。文本冗余發(fā)現(xiàn)也被稱(chēng)為文本重復(fù)檢測(cè)，是自然語(yǔ)言處理和信息檢索中的基礎(chǔ)任務(wù)之一，其目標(biāo)是發(fā)現(xiàn)不同粒度上的文本重復(fù)，包括句子、段落、文檔、數(shù)據(jù)集等不同級(jí)別。在實(shí)際產(chǎn)生預(yù)訓(xùn)練數(shù)據(jù)時(shí)，冗余去除需要從不同粒度著手，這對(duì)改善語(yǔ)言模型的訓(xùn)練效果具有重要作用。5.2.2冗余去除在句子級(jí)別上，包含重復(fù)單詞或短語(yǔ)的句子很可能造成語(yǔ)言建模中引入重復(fù)的模式。這對(duì)語(yǔ)言模型來(lái)說(shuō)會(huì)產(chǎn)生非常嚴(yán)重的影響，使模型在預(yù)測(cè)時(shí)容易陷入重復(fù)循環(huán)。重復(fù)循環(huán)對(duì)語(yǔ)言模型生成的文本質(zhì)量的影響非常大，因此在預(yù)訓(xùn)練數(shù)據(jù)中需要?jiǎng)h除這些包含大量重復(fù)單詞或者短語(yǔ)的句子。5.2.2冗余去除在文檔級(jí)別上，大部分大模型依靠文檔之間的表面特征相似度（例如n-gram重疊比例）進(jìn)行檢測(cè)并刪除重復(fù)文檔。LLaMA采用CCNet處理模式，先將文檔拆分為段落，并把所有字符轉(zhuǎn)換為小寫(xiě)字符、將數(shù)字替換為占位符，刪除所有Unicode標(biāo)點(diǎn)符號(hào)和重音符號(hào)，對(duì)每個(gè)段落進(jìn)行規(guī)范化處理。然后，使用SHA-1方法為每個(gè)段落計(jì)算一個(gè)哈希碼，并使用前64位數(shù)字作為鍵。最后，利用每個(gè)段落的鍵進(jìn)行重復(fù)判斷。RefinedWeb先去除頁(yè)面中的菜單、標(biāo)題、頁(yè)腳、廣告等內(nèi)容，僅抽取頁(yè)面中的主要內(nèi)容。在此基礎(chǔ)上，在文檔級(jí)別進(jìn)行過(guò)濾，使用n-gram重復(fù)程度來(lái)衡量句子、段落及文檔的相似度。如果超過(guò)預(yù)先設(shè)定的閾值，則會(huì)過(guò)濾重復(fù)段落或文檔。5.2.2冗余去除此外，數(shù)據(jù)集級(jí)別上也可能存在一定數(shù)量的重復(fù)情況，比如很多大模型預(yù)訓(xùn)練數(shù)據(jù)集都會(huì)包含GitHub、維基百科、C4等。需要特別注意預(yù)訓(xùn)練數(shù)據(jù)中混入測(cè)試數(shù)據(jù)，造成數(shù)據(jù)集污染的情況。5.2.2冗余去除由于絕大多數(shù)預(yù)訓(xùn)練數(shù)據(jù)源于互聯(lián)網(wǎng)，因此不可避免地會(huì)包含涉及敏感或個(gè)人信息的用戶(hù)生成內(nèi)容，這可能會(huì)增加隱私泄露的風(fēng)險(xiǎn)。因此，有必要從預(yù)訓(xùn)練數(shù)據(jù)庫(kù)中刪除包含個(gè)人身份信息的內(nèi)容。刪除隱私數(shù)據(jù)最直接的方法是采用基于規(guī)則的算法，BigScienceROOTSCorpus在構(gòu)建過(guò)程中就采用了基于命名實(shí)體識(shí)別的方法，利用算法檢測(cè)姓名、地址、電話(huà)號(hào)碼等個(gè)人信息內(nèi)容并進(jìn)行刪除或者替換。該方法被集成在muliwai類(lèi)庫(kù)中，使用了基于Transformer的模型，并結(jié)合機(jī)器翻譯技術(shù)，可以處理超過(guò)100種語(yǔ)言的文本，消除其中的隱私信息。5.2.3隱私消除傳統(tǒng)的自然語(yǔ)言處理通常以單詞為基本處理單元，模型都依賴(lài)預(yù)先確定的詞表，在編碼輸入詞序列時(shí)，這些詞表示模型只能處理詞表中存在的詞。因此，使用時(shí)如果遇到不在詞表中的未登錄詞，模型無(wú)法為其生成對(duì)應(yīng)的表示，只能給予這些未登錄詞一個(gè)默認(rèn)的通用表示。5.2.4詞元切分在深度學(xué)習(xí)模型中，詞表示模型會(huì)預(yù)先在詞表中加入一個(gè)默認(rèn)的“[UNK]”標(biāo)識(shí)表示未知詞，并在訓(xùn)練的過(guò)程中將[UNK]的向量作為詞表示矩陣的一部分一起訓(xùn)練，通過(guò)引入相應(yīng)機(jī)制來(lái)更新[UNK]向量的參數(shù)。使用時(shí)，對(duì)全部未登錄詞使用[UNK]向量作為表示向量。此外，基于固定詞表的詞表示模型對(duì)詞表大小的選擇比較敏感。當(dāng)詞表過(guò)小時(shí)，未登錄詞的比例較高，影響模型性能；當(dāng)詞表大小過(guò)大時(shí)，大量低頻詞出現(xiàn)在詞表中，這些詞的詞向量很難得到充分學(xué)習(xí)。理想模式下，詞表示模型應(yīng)能覆蓋絕大部分輸入詞，并避免詞表過(guò)大造成的數(shù)據(jù)稀疏問(wèn)題。5.2.4詞元切分為了緩解未登錄詞問(wèn)題，一些工作通過(guò)利用亞詞級(jí)別的信息構(gòu)造詞表示向量。一種直接的解決思路是為輸入建立字符級(jí)別表示，并通過(guò)字符向量的組合獲得每個(gè)單詞的表示，以解決數(shù)據(jù)稀疏問(wèn)題。然而，單詞中的詞根、詞綴等構(gòu)詞模式往往跨越多個(gè)字符，基于字符表示的方法很難學(xué)習(xí)跨度較大的模式。為了充分學(xué)習(xí)這些構(gòu)詞模式，研究人員提出了子詞元化方法，以緩解未登錄詞問(wèn)題。詞元表示模型會(huì)維護(hù)一個(gè)詞元詞表，其中既存在完整的單詞，也存在形如“c”“re”“ing”等單詞的部分信息，稱(chēng)為子詞。5.2.4詞元切分詞元表示模型對(duì)詞表中的每個(gè)詞元計(jì)算一個(gè)定長(zhǎng)向量表示，供下游模型使用。對(duì)于輸入的詞序列，詞元表示模型將每個(gè)詞拆分為詞表內(nèi)的詞元。例如，將單詞“reborn”拆分為“re”和“born”。模型隨后查詢(xún)每個(gè)詞元的表示，將輸入重新組成詞元表示序列。當(dāng)下游模型需要計(jì)算一個(gè)單詞或詞組的表示時(shí)，可以將對(duì)應(yīng)范圍內(nèi)的詞元表示合成需要的表示。因此，詞元表示模型能夠較好地解決自然語(yǔ)言處理系統(tǒng)中未登錄詞的問(wèn)題。詞元分析是將原始文本分割成詞元序列的過(guò)程。詞元切分也是數(shù)據(jù)預(yù)處理中至關(guān)重要的一步。5.2.4詞元切分字節(jié)對(duì)編碼是一種常見(jiàn)的子詞詞元算法。該算法采用的詞表包含最常見(jiàn)的單詞及高頻出現(xiàn)的子詞。使用時(shí)，常見(jiàn)詞通常位于字節(jié)對(duì)編碼詞表中，而罕見(jiàn)詞通常能被分解為若干個(gè)包含在字節(jié)對(duì)編碼詞表中的詞元，從而大幅減小未登錄詞的比例。字節(jié)對(duì)編碼算法包括以下兩個(gè)部分。（1）詞元詞表的確定。（2）全詞切分為詞元及詞元合并為全詞的方法。5.2.4詞元切分PART03數(shù)據(jù)影響分析過(guò)去自然語(yǔ)言處理是一個(gè)任務(wù)用標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)模型，而現(xiàn)在可以在大量無(wú)標(biāo)注的語(yǔ)料上預(yù)訓(xùn)練出一個(gè)在少量有監(jiān)督數(shù)據(jù)上微調(diào)就能做很多任務(wù)的模型。這其實(shí)就比較接近人類(lèi)學(xué)習(xí)語(yǔ)言的過(guò)程。例如參加某個(gè)考試測(cè)試英文能力的好壞，里面有聽(tīng)說(shuō)讀寫(xiě)等各式各樣的任務(wù)，有填空和選擇等很多題型。但我們學(xué)習(xí)英文的方法并不是去做大量的選擇題，而是背大量的英文單詞，理解它的詞性、意思，閱讀大量的英文文章、掌握它在段落中的用法，你只需做少量的選擇題，就可以通過(guò)某個(gè)語(yǔ)言能力的測(cè)試。這便是自然語(yǔ)言處理領(lǐng)域所追求的目標(biāo)。5.3數(shù)據(jù)影響分析我們期待可以訓(xùn)練一個(gè)模型，它真的了解人類(lèi)的語(yǔ)言，在需要解決各式各樣的任務(wù)的時(shí)候，只需要稍微微調(diào)一下，它就知道怎么做了。圖5-3在預(yù)訓(xùn)練基礎(chǔ)上微調(diào)5.3數(shù)據(jù)影響分析大模型訓(xùn)練需要大量計(jì)算資源，通常不可能進(jìn)行多次。有千億級(jí)參數(shù)量的大模型進(jìn)行一次預(yù)訓(xùn)練就需要花費(fèi)數(shù)百萬(wàn)元的計(jì)算成本。因此，在訓(xùn)練大模型之前，構(gòu)建一個(gè)準(zhǔn)備充分的預(yù)訓(xùn)練數(shù)據(jù)庫(kù)尤為重要。5.3數(shù)據(jù)影響分析隨著大模型參數(shù)規(guī)模的增加，為了有效地訓(xùn)練模型，需要收集足夠數(shù)量的高質(zhì)量數(shù)據(jù)。在針對(duì)模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量及總計(jì)算量與模型效果之間關(guān)系的研究被提出之前，大部分大模型訓(xùn)練所采用的訓(xùn)練數(shù)據(jù)量相較于LLaMA等新的大模型都少很多。5.3.1數(shù)據(jù)規(guī)模DeepMind的研究人員描述了他們訓(xùn)練400多個(gè)語(yǔ)言模型后得出的分析結(jié)果（模型的參數(shù)量從7000萬(wàn)個(gè)到160億個(gè)，訓(xùn)練數(shù)據(jù)量從5億個(gè)詞元到5000億個(gè)詞元）。研究發(fā)現(xiàn)，如果希望模型訓(xùn)練達(dá)到計(jì)算最優(yōu)，則模型大小和訓(xùn)練詞元數(shù)量應(yīng)該等比例縮放，即模型大小加倍，則訓(xùn)練詞元數(shù)量也應(yīng)該加倍。為了驗(yàn)證該分析結(jié)果，他們使用與Gopher語(yǔ)言模型訓(xùn)練相同的計(jì)算資源，根據(jù)上述理論預(yù)測(cè)了Chinchilla語(yǔ)言模型的最優(yōu)參數(shù)量與詞元量組合。最終確定Chinchilla語(yǔ)言模型具有700億個(gè)參數(shù)，使用了1.4萬(wàn)億個(gè)詞元進(jìn)行訓(xùn)練。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，Chinchilla在很多下游評(píng)估任務(wù)中都顯著地優(yōu)于Gopher（280B）、GPT-3（175BJurassic-1（178B）及Megatron-TuringNLG（530B）。5.3.1數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量是影響大模型訓(xùn)練效果的關(guān)鍵因素之一。大量重復(fù)的低質(zhì)量數(shù)據(jù)會(huì)導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定，模型訓(xùn)練不收斂。研究表明，訓(xùn)練數(shù)據(jù)的構(gòu)建時(shí)間、噪聲或有害信息、數(shù)據(jù)重復(fù)率等因素，都對(duì)語(yǔ)言模型性能產(chǎn)生較大影響，在經(jīng)過(guò)清洗的高質(zhì)量數(shù)據(jù)上訓(xùn)練數(shù)據(jù)可得到更好的性能。5.3.2數(shù)據(jù)質(zhì)量Gopher語(yǔ)言模型在訓(xùn)練時(shí)針對(duì)文本質(zhì)量進(jìn)行相關(guān)實(shí)驗(yàn)，具有140億個(gè)參數(shù)的模型在OpenWebText、C4及不同版本的MassiveWeb數(shù)據(jù)集上訓(xùn)練得到模型效果對(duì)比。他們分別測(cè)試了利用不同數(shù)據(jù)訓(xùn)練得到的模型在Wikitext103單詞預(yù)測(cè)、CuraticCorpus摘要及Lambada書(shū)籍級(jí)別的單詞預(yù)測(cè)三個(gè)下游任務(wù)上的表現(xiàn)。從結(jié)果可以看到，使用經(jīng)過(guò)過(guò)濾和去重的MassiveWeb數(shù)訓(xùn)練得到的語(yǔ)言模型，在三個(gè)任務(wù)上都遠(yuǎn)好于使用未經(jīng)處理的數(shù)據(jù)訓(xùn)練所得到的模型。使用經(jīng)過(guò)處理的MassiveWeb數(shù)據(jù)訓(xùn)練得到的語(yǔ)言模型在下游任務(wù)上的表現(xiàn)也遠(yuǎn)好于使用OpenWebText和C4數(shù)據(jù)集訓(xùn)練得到的結(jié)果。5.3.2數(shù)據(jù)質(zhì)量構(gòu)建GLaM語(yǔ)言模型時(shí)，也對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量的影響進(jìn)行了分析。實(shí)驗(yàn)結(jié)果可以看到使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型在自然語(yǔ)言生成和理解任務(wù)上表現(xiàn)更好。特別是，高質(zhì)量數(shù)據(jù)對(duì)自然語(yǔ)言生成任務(wù)的影響大于自然語(yǔ)言理解任務(wù)。這可能是因?yàn)樽匀徽Z(yǔ)言生成任務(wù)通常需要生成高質(zhì)量的語(yǔ)言，過(guò)濾預(yù)訓(xùn)練數(shù)據(jù)庫(kù)對(duì)語(yǔ)言模型的生成能力至關(guān)重要。預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量在下游任務(wù)的性能中也扮演著關(guān)鍵角色。5.3.2數(shù)據(jù)質(zhì)量來(lái)自不同領(lǐng)域、使用不同語(yǔ)言、應(yīng)用于不同場(chǎng)景的訓(xùn)練數(shù)據(jù)具有不同的語(yǔ)言特征，包含不同語(yǔ)義知識(shí)。通過(guò)使用不同來(lái)源的數(shù)據(jù)進(jìn)行訓(xùn)練，大模型可以獲得廣泛的知識(shí)。5.3.2數(shù)據(jù)質(zhì)量PART04典型的開(kāi)源數(shù)據(jù)集隨著基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的自然語(yǔ)言處理算法的發(fā)展，以及信息檢索研究的需求增加，特別是對(duì)深度學(xué)習(xí)和預(yù)訓(xùn)練語(yǔ)言模型研究的深入，研究人員構(gòu)建了多種大規(guī)模開(kāi)源數(shù)據(jù)集，涵蓋網(wǎng)頁(yè)、圖書(shū)、論文、百科等多個(gè)領(lǐng)域。在構(gòu)建大模型時(shí)，數(shù)據(jù)的質(zhì)量和多樣性對(duì)于提高模型性能至關(guān)重要。為了推動(dòng)大模型研究和應(yīng)用，學(xué)術(shù)界和工業(yè)界也開(kāi)放了多個(gè)針對(duì)大模型的開(kāi)源數(shù)據(jù)集。5.4典型的開(kāi)源數(shù)據(jù)集Pile數(shù)據(jù)集是一個(gè)用于大模型訓(xùn)練的多樣性大規(guī)模文本數(shù)據(jù)庫(kù)，由22個(gè)不同的高質(zhì)量子集構(gòu)成，包括現(xiàn)有的和新構(gòu)建的，主要來(lái)自學(xué)術(shù)或?qū)I(yè)領(lǐng)域。這些子集包括Pile-CC（清洗后的CommonCrawl子集）、Wikipedia、OpenWebText2、ArXiv、PubMedCentral等。Pile的特點(diǎn)是包含大量多樣化文本，涵蓋不同領(lǐng)域和主題，從而提高了訓(xùn)練數(shù)據(jù)集的多樣性和豐富性。Pile數(shù)據(jù)集包含825GB英文文本，其數(shù)據(jù)類(lèi)型組成大體上如圖5-4所示，所占面積大小表示數(shù)據(jù)在整個(gè)數(shù)據(jù)集中所占的規(guī)模。5.4.1Pile

圖5-4Pile數(shù)據(jù)集的主要構(gòu)成5.4.1PilePile數(shù)據(jù)集的部分子集簡(jiǎn)單介紹如下。（1）Pile-CCC：通過(guò)在WebArchive文件上使用jusText方法提取，比直接使用WET文件產(chǎn)生更高質(zhì)量的輸出。（2）PubMedCentral（PMC）：是由美國(guó)國(guó)家生物技術(shù)信息中心（NCBI）運(yùn)營(yíng)的PubMed生物醫(yī)學(xué)在線(xiàn)資源庫(kù)的一個(gè)子集，提供對(duì)近500萬(wàn)份出版物的開(kāi)放全文訪問(wèn)。5.4.1Pile（3）OpenWebText2（OWT2）：是一個(gè)基于WebText1和OpenWebTextCorpts的通用數(shù)據(jù)集，它包括來(lái)自多種語(yǔ)言的文本內(nèi)容、網(wǎng)頁(yè)文本元數(shù)據(jù)，以及多個(gè)開(kāi)源數(shù)據(jù)集和開(kāi)源代碼庫(kù)。（4）ArXiv：是一個(gè)自1991年開(kāi)始運(yùn)營(yíng)的研究論文預(yù)印版本發(fā)布服務(wù)平臺(tái)。論文主要集中在數(shù)學(xué)、計(jì)算機(jī)科學(xué)和物理領(lǐng)域。ArXiv上的論文是用LaTeX編寫(xiě)的，其中公式、符號(hào)、表格等內(nèi)容的表示非常適合語(yǔ)言模型學(xué)習(xí)。5.4.1Pile（5）GitHub：是一個(gè)大型的開(kāi)源代碼庫(kù)，對(duì)于語(yǔ)言模型完成代碼生成、代碼補(bǔ)全等任務(wù)具有非常重要的作用。（6）FreeLaw：是一個(gè)非營(yíng)利項(xiàng)目，為法律學(xué)術(shù)研究提供訪問(wèn)和分析工具．CourtListener是FreeLaw項(xiàng)目的一部分，包含美國(guó)聯(lián)邦和州法院的數(shù)百萬(wàn)法律意見(jiàn)，并提供批量下載服務(wù)。5.4.1Pile（7）StackExchange：是一個(gè)圍繞用戶(hù)提供問(wèn)題和答案的網(wǎng)站集合，其中StackExchangeDataDump包含了網(wǎng)站集合中所有用戶(hù)貢獻(xiàn)的內(nèi)容的匿名數(shù)據(jù)集。它是最大的問(wèn)題—答案對(duì)數(shù)據(jù)集之一，包括編程、園藝、藝術(shù)等主題。（8）USPTO：是美國(guó)專(zhuān)利商標(biāo)局授權(quán)專(zhuān)利背景數(shù)據(jù)集，源于其公布的批量檔案。該數(shù)據(jù)集包含大量關(guān)于應(yīng)用主題的技術(shù)內(nèi)容，如任務(wù)背景、技術(shù)領(lǐng)域概述、建立問(wèn)題空間框架等。5.4.1Pile（9）Wikipedia（英文版）：是維基百科的英文部分。維基百科旨在提供各種主題的知識(shí)，是世界上最大的在線(xiàn)百科全書(shū)之一。（10）PubMed：是由PubMed的3000萬(wàn)份出版物的摘要組成的數(shù)據(jù)集。它是由美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館運(yùn)營(yíng)的生物醫(yī)學(xué)文章在線(xiàn)存儲(chǔ)庫(kù)，它還包含1946年至今的生物醫(yī)學(xué)摘要。（11）OpenSubtitles：是由英文電影和電視的字幕組成的數(shù)據(jù)集。字幕是對(duì)話(huà)的重要來(lái)源并且可以增強(qiáng)模型對(duì)虛構(gòu)格式的理解，對(duì)創(chuàng)造性寫(xiě)作任務(wù)（如劇本寫(xiě)作、演講寫(xiě)作、交互式故事講述等）有一定作用。5.4.1Pile（12）DeepMindMathematics：以自然語(yǔ)言提示形式給出，由代數(shù)、算術(shù)、微積分、數(shù)論和概率等一系列數(shù)學(xué)問(wèn)題組成的數(shù)據(jù)集。大模型在數(shù)學(xué)任務(wù)上的表現(xiàn)較差，這可能是由于訓(xùn)練集中缺乏數(shù)學(xué)問(wèn)題。因此，Pile數(shù)據(jù)集中專(zhuān)門(mén)增加數(shù)學(xué)問(wèn)題數(shù)據(jù)集，期望增強(qiáng)通過(guò)Pile數(shù)據(jù)集訓(xùn)練的語(yǔ)言模型的數(shù)學(xué)能力。（13）PhilPapers：由國(guó)際數(shù)據(jù)庫(kù)中的哲學(xué)出版物組成，它涵蓋了廣泛的抽象、概念性話(huà)語(yǔ)，文本寫(xiě)作質(zhì)量也非常高。5.4.1Pile（14）NIH：包含1985年至今獲得NIH資助的項(xiàng)目申請(qǐng)摘要，是高質(zhì)量的科學(xué)寫(xiě)作實(shí)例。Pile中不同數(shù)據(jù)子集所占比例及訓(xùn)練時(shí)的采樣權(quán)重有很大不同，高質(zhì)量的數(shù)據(jù)會(huì)有更高的采樣權(quán)重。例如，Pile-CC數(shù)據(jù)集包含227.12GB數(shù)據(jù)，整個(gè)訓(xùn)練周期中采樣1輪，雖然維基百科（英文）數(shù)據(jù)集僅有6.38GB的數(shù)據(jù)，但是整個(gè)訓(xùn)練周期中采樣3輪。5.4.1PileROOTS（負(fù)責(zé)任的開(kāi)放科學(xué)、開(kāi)放協(xié)作文本源）數(shù)據(jù)集是Big-Science項(xiàng)目在訓(xùn)練具有1760億個(gè)參數(shù)的BLOOM大模型時(shí)使用的數(shù)據(jù)集，其中包含46種自然語(yǔ)言和13種編程語(yǔ)言，整個(gè)數(shù)據(jù)集約1.6TB。5.4.2ROOTSROOTS數(shù)據(jù)主要來(lái)源于四個(gè)方面：公開(kāi)數(shù)據(jù)、虛擬抓取、GitHub代碼、網(wǎng)頁(yè)數(shù)據(jù)。（1）在公開(kāi)數(shù)據(jù)方面，目標(biāo)是收集盡可能多的各種類(lèi)型的數(shù)據(jù)，包括自然語(yǔ)言處理數(shù)據(jù)集和各類(lèi)型文檔數(shù)據(jù)集。在收集原始數(shù)據(jù)集的基礎(chǔ)上，進(jìn)一步從語(yǔ)言和統(tǒng)一表示方面對(duì)收集的文檔進(jìn)行規(guī)范化處理。識(shí)別數(shù)據(jù)集所屬語(yǔ)言并分類(lèi)存儲(chǔ)，將所有數(shù)據(jù)都按照統(tǒng)一的文本和元數(shù)據(jù)結(jié)構(gòu)進(jìn)行表示。5.4.2ROOTS（2）在虛擬抓取方面，由于很多語(yǔ)言的現(xiàn)有公開(kāi)數(shù)據(jù)集較少，因此這些語(yǔ)言的網(wǎng)頁(yè)信息是十分重要的資源補(bǔ)充。在ROOTS數(shù)據(jù)集中，采用網(wǎng)頁(yè)鏡像，選取了614個(gè)域名，從這些域名下的網(wǎng)頁(yè)中提取文本內(nèi)容補(bǔ)充到數(shù)據(jù)集中，以提升語(yǔ)言的多樣性。（3）在GitHub代碼方面，針對(duì)程序語(yǔ)言，ROOTS數(shù)據(jù)集從BigQuery公開(kāi)數(shù)據(jù)集中選取文件長(zhǎng)度在100到20萬(wàn)字符，字母符號(hào)占比在15％至65％，最大行數(shù)在20至1000行的代碼。5.4.2ROOTS（4）大模型訓(xùn)練中，網(wǎng)頁(yè)數(shù)據(jù)對(duì)于數(shù)據(jù)的多樣性和數(shù)據(jù)量支撐都起到重要的作用。ROOTS數(shù)據(jù)集中包含了OSCAR21.09版本，對(duì)應(yīng)的是CommonCrawl2021年2月的快照，占整體ROOTS數(shù)據(jù)集規(guī)模的38％。5.4.2ROOTS在數(shù)據(jù)準(zhǔn)備完成后，還要進(jìn)行清洗、過(guò)濾、去重及隱私信息刪除等工作，ROOTS數(shù)據(jù)集處理流程如右圖所示。整個(gè)處理工作采用人工與自動(dòng)相結(jié)合的方法，針對(duì)數(shù)據(jù)中存在的一些非自然語(yǔ)言的文本，例如預(yù)處理錯(cuò)誤、SEO頁(yè)面或垃圾郵件，構(gòu)建ROOTS數(shù)據(jù)集時(shí)會(huì)進(jìn)行一定的處理。

圖5-5ROOTS數(shù)據(jù)集處理流程5.4.2ROOTSPART05訓(xùn)練集、測(cè)試集、驗(yàn)證集的異同訓(xùn)練集、測(cè)試集、驗(yàn)證集三者在數(shù)據(jù)目的與功能、數(shù)據(jù)交互頻率上、數(shù)據(jù)劃分與比例以及使用時(shí)機(jī)等方面均有不同之處。另一方面，它們?cè)跀?shù)據(jù)來(lái)源、預(yù)處理、目標(biāo)、獨(dú)立性以及數(shù)據(jù)質(zhì)量和代表性方面又有著相似之處。5.5訓(xùn)練集、測(cè)試集、驗(yàn)證集的異同（1）目的與功能不同。訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者的目的和功能不同。訓(xùn)練集主要用于訓(xùn)練模型，驗(yàn)證集主要用于在訓(xùn)練過(guò)程中選擇模型和調(diào)整超參數(shù)，測(cè)試集則用來(lái)最終評(píng)估模型的性能。訓(xùn)練集用于模型訓(xùn)練，幫助模型確定權(quán)重和偏置等參數(shù)，模型通過(guò)深入學(xué)習(xí)和理解訓(xùn)練集中的數(shù)據(jù)，逐漸學(xué)會(huì)識(shí)別其中的模式和規(guī)律，并逐步優(yōu)化其預(yù)測(cè)能力。沒(méi)有良好的訓(xùn)練集，模型就像是失去了根基的大樹(shù)，無(wú)法穩(wěn)固地生長(zhǎng)和擴(kuò)展。因此，需要精心準(zhǔn)備和挑選訓(xùn)練集，確保它具有代表性和高質(zhì)量，這樣模型才能更好地理解和適應(yīng)真實(shí)世界的變化。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處驗(yàn)證集用于模型選擇和超參數(shù)調(diào)整。它不參與學(xué)習(xí)參數(shù)的確定，主要幫助在眾多可能性中，找到那些能夠使模型性能達(dá)到巔峰的超參數(shù)，如網(wǎng)絡(luò)層數(shù)、網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、迭代次數(shù)、學(xué)習(xí)率等，為挑選最優(yōu)模型超參數(shù)提供優(yōu)質(zhì)的咨詢(xún)和建議。驗(yàn)證集的作用是能夠在實(shí)戰(zhàn)之前就預(yù)知模型的性能，從而做出最佳的選擇。這種前瞻性的策略，不僅能夠提高模型的效率，更能夠節(jié)省寶貴的時(shí)間和資源。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處測(cè)試集用于評(píng)估模型的最終性能，是考驗(yàn)?zāi)Ｐ偷淖詈笠魂P(guān)。它不參與模型的學(xué)習(xí)參數(shù)過(guò)程，也不介入超參數(shù)的選擇，就是為了對(duì)模型的最終性能（即泛化能力）做出公正的評(píng)價(jià)。一個(gè)人工智能模型只有通過(guò)了測(cè)試集的考驗(yàn)，才能真正稱(chēng)得上是具備良好泛化能力的模型。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處（2）數(shù)據(jù)交互頻率不同。訓(xùn)練集、測(cè)試集、驗(yàn)證集這三者和模型的數(shù)據(jù)交互頻率不同。訓(xùn)練集會(huì)不斷交互，驗(yàn)證集是定期交互，而測(cè)試集只交互一次。使用訓(xùn)練集時(shí)，模型在訓(xùn)練階段不斷與訓(xùn)練集交互，通過(guò)多次地學(xué)習(xí)、調(diào)整和迭代來(lái)提高性能。它在訓(xùn)練集的多次反饋中完成優(yōu)化。在訓(xùn)練集中，模型通過(guò)一次次的迭代優(yōu)化，逐步提升自己的工藝水平。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處驗(yàn)證集在訓(xùn)練過(guò)程中的不同時(shí)間點(diǎn)交互，幫助開(kāi)發(fā)人員調(diào)整模型參數(shù)和決定訓(xùn)練的結(jié)束點(diǎn)。它在訓(xùn)練過(guò)程中的每一個(gè)關(guān)鍵時(shí)刻出現(xiàn)，為開(kāi)發(fā)人員提供寶貴的反饋和指引，幫助開(kāi)發(fā)人員調(diào)整模型的超參數(shù)。所以，和訓(xùn)練集中的情況不一樣，模型不會(huì)在驗(yàn)證集中反復(fù)訓(xùn)練，只會(huì)定期和驗(yàn)證集進(jìn)行數(shù)據(jù)交互。驗(yàn)證集的每一次反饋，都是對(duì)模型的一次重要檢驗(yàn)，所獲得的數(shù)據(jù)評(píng)估指標(biāo)，也是優(yōu)化人工智能性能的重要依據(jù)。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處測(cè)試集僅在整個(gè)訓(xùn)練過(guò)程完成后交互一次，用于模型的最終評(píng)估，這個(gè)活動(dòng)只有在整個(gè)訓(xùn)練過(guò)程圓滿(mǎn)完成后才會(huì)出現(xiàn)。測(cè)試集是模型的最后一道關(guān)卡，通過(guò)了，模型就可以接受真實(shí)世界的考驗(yàn)了。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處（3）數(shù)據(jù)劃分與比例不同。通常情況下，數(shù)據(jù)集會(huì)通過(guò)隨機(jī)抽樣、分層抽樣、時(shí)間序列抽樣等方式，按照不同比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，三者之間不能有交集。訓(xùn)練集作為模型學(xué)習(xí)的主要來(lái)源占據(jù)較大的比例，一般約為60%～80%，以確保模型有足夠的數(shù)據(jù)來(lái)捕捉到數(shù)據(jù)中的模式和規(guī)律。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處一般來(lái)說(shuō)，占比規(guī)模約為10%～20%的驗(yàn)證集已經(jīng)足夠提供模型性能的合理估計(jì)，能提供有關(guān)模型泛化能力的有用信息就行，不用過(guò)多。如果驗(yàn)證集太大，每次評(píng)估的時(shí)間成本會(huì)顯著增加，這會(huì)拖慢整個(gè)實(shí)驗(yàn)的進(jìn)度。因?yàn)闇y(cè)試集在模型訓(xùn)練完成后只評(píng)估一次，所以只要足夠用于評(píng)估模型最終性能就行，一般約10%～20%。如果測(cè)試集太大，評(píng)估過(guò)程會(huì)消耗大量計(jì)算資源和時(shí)間。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處在數(shù)據(jù)劃分上，訓(xùn)練集、測(cè)試集、驗(yàn)證集的具體比例取決于實(shí)際任務(wù)的需求和數(shù)據(jù)量的大小，不同的機(jī)器學(xué)習(xí)問(wèn)題可能有不同的數(shù)據(jù)劃分需求。例如，對(duì)于數(shù)據(jù)量非常龐大的情況，可能只需要很小的驗(yàn)證集和測(cè)試集；而對(duì)于數(shù)據(jù)量本身就很小的情況，可能需要采用交叉驗(yàn)證等方法來(lái)充分利用數(shù)據(jù)。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處（4）使用時(shí)機(jī)不同。訓(xùn)練集、驗(yàn)證集和測(cè)試集在模型的整個(gè)訓(xùn)練過(guò)程的不同階段發(fā)揮作用，所以開(kāi)發(fā)人員使用它們的時(shí)機(jī)是不同的。訓(xùn)練集用在模型的初始訓(xùn)練階段。模型剛剛搭建起來(lái)的時(shí)候，需要耐心地用訓(xùn)練集進(jìn)行大量的訓(xùn)練，直到它掌握了所有的知識(shí)為止，這是初始必經(jīng)過(guò)程。在模型訓(xùn)練過(guò)程中定期使用驗(yàn)證集。因?yàn)轵?yàn)證集用于監(jiān)控模型的性能和調(diào)整超參數(shù)，所以在模型通過(guò)初始階段的訓(xùn)練后，需要在過(guò)程中可以監(jiān)督到模型的學(xué)習(xí)效果。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處在模型的訓(xùn)練過(guò)程中，直到結(jié)束訓(xùn)練前的這個(gè)階段，一般會(huì)用驗(yàn)證集給模型來(lái)幾場(chǎng)“摸底考試”，若是發(fā)現(xiàn)不對(duì)的地方可以及時(shí)調(diào)整，以確保模型在訓(xùn)練過(guò)程中具備良好的性能。測(cè)試集在模型訓(xùn)練完成后使用，以最終評(píng)估模型性能。所以，在訓(xùn)練集和驗(yàn)證集階段都不會(huì)用到測(cè)試集的數(shù)據(jù)，并且也需要保證測(cè)試集的數(shù)據(jù)是模型之前未見(jiàn)過(guò)的數(shù)據(jù)。對(duì)模型學(xué)習(xí)成果來(lái)一次最終的全面檢驗(yàn)是測(cè)試集存在的價(jià)值之一，這也是為什么測(cè)試集會(huì)被放在模型訓(xùn)練的最后階段。5.5.1訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的不同之處訓(xùn)練集、測(cè)試集和驗(yàn)證集在數(shù)據(jù)來(lái)源、預(yù)處理、目標(biāo)、獨(dú)立性以及數(shù)據(jù)質(zhì)量和代表性方面都有著相似之處，這些相似性是確保模型完成有效訓(xùn)練和評(píng)估的基礎(chǔ)。（1）數(shù)據(jù)來(lái)源一致。訓(xùn)練集、驗(yàn)證集和測(cè)試集通常來(lái)自同一數(shù)據(jù)源或具有相同的數(shù)據(jù)分布。這意味著它們共享相同的數(shù)據(jù)特征和屬性，確保模型在不同階段處理的數(shù)據(jù)具有一致性。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處（2）相似的數(shù)據(jù)預(yù)處理。在模型訓(xùn)練之前，訓(xùn)練集、驗(yàn)證集和測(cè)試集都需要進(jìn)行相似的數(shù)據(jù)預(yù)處理步驟，如歸一化、標(biāo)準(zhǔn)化、缺失值處理等。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處歸一化就像是給數(shù)據(jù)量體裁衣，讓每個(gè)數(shù)據(jù)點(diǎn)都在合適的范圍內(nèi)。數(shù)據(jù)歸一化是將數(shù)據(jù)縮放到一個(gè)特定的范圍，通常是在0和1之間。這樣做的目的是讓數(shù)據(jù)在相同的尺度上，以便模型能夠更好地學(xué)習(xí)和識(shí)別其中的模式。例如，如果數(shù)據(jù)集中的某些特征值非常大，而另一些特征值非常小，那么在訓(xùn)練過(guò)程中，較大的值可能會(huì)對(duì)模型的學(xué)習(xí)產(chǎn)生更大的影響。通過(guò)歸一化，我們可以減少這種影響，使得每個(gè)特征對(duì)模型的貢獻(xiàn)更加均衡。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處標(biāo)準(zhǔn)化則是調(diào)整數(shù)據(jù)的尺碼，讓它們能夠站在同一條起跑線(xiàn)上。標(biāo)準(zhǔn)化的方法，是將數(shù)據(jù)特征的均值設(shè)置為0，標(biāo)準(zhǔn)差設(shè)置為1。這通常通過(guò)減去特征的均值然后除以其標(biāo)準(zhǔn)差來(lái)實(shí)現(xiàn)。公式為：z=(x?μ)/σ其中：x是數(shù)據(jù)點(diǎn)的原始值，μ是該特征的均值，σ是該特征的標(biāo)準(zhǔn)差。通過(guò)將每個(gè)數(shù)據(jù)點(diǎn)減去其特征的均值，然后除以其標(biāo)準(zhǔn)差，可以將數(shù)據(jù)特征縮放到一個(gè)標(biāo)準(zhǔn)單位，使其具有零均值和單位方差。這個(gè)過(guò)程有助于算法（如線(xiàn)性回歸）的訓(xùn)練和預(yù)測(cè)過(guò)程更加穩(wěn)定。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處缺失值的處理像是填補(bǔ)數(shù)據(jù)中的空白，讓整個(gè)數(shù)據(jù)集更加完整。在數(shù)據(jù)集中，可能會(huì)有一些數(shù)據(jù)點(diǎn)由于各種原因（如測(cè)量錯(cuò)誤、數(shù)據(jù)錄入錯(cuò)誤等）而丟失。處理這些缺失值的方法有多種，包括刪除含有缺失值的樣本、填充缺失值（如使用平均值、中位數(shù)或眾數(shù)填充）、或者使用模型預(yù)測(cè)缺失值等。處理缺失值的關(guān)鍵是確保不會(huì)引入偏差，同時(shí)保留盡可能多的有效信息。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處（3）目標(biāo)一致又各具獨(dú)立性。訓(xùn)練、驗(yàn)證和測(cè)試三個(gè)數(shù)據(jù)集在模型開(kāi)發(fā)的不同階段使用，但它們的目標(biāo)是一致的，即都是為了構(gòu)建一個(gè)泛化能力強(qiáng)、能夠準(zhǔn)確預(yù)測(cè)新數(shù)據(jù)的模型。為了保證模型評(píng)估的公正性，三個(gè)數(shù)據(jù)集中的樣本必須保持相互獨(dú)立。這意味著，每個(gè)集合中的數(shù)據(jù)是獨(dú)一無(wú)二的，不會(huì)與其他集合的數(shù)據(jù)交叉重疊，讓模型在評(píng)估過(guò)程中的表現(xiàn)不會(huì)受到其他集合數(shù)據(jù)的影響。這種獨(dú)立性確保了評(píng)估結(jié)果的真實(shí)性和有效性。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處（4）保證數(shù)據(jù)質(zhì)量和代表性。為了確保模型在不同階段的學(xué)習(xí)和評(píng)估過(guò)程中能夠獲得準(zhǔn)確和可靠的結(jié)果，訓(xùn)練集、驗(yàn)證集和測(cè)試集都需要能夠代表原始數(shù)據(jù)的整體特性，同時(shí)還需保證數(shù)據(jù)質(zhì)量。這意味著它們都應(yīng)該包含所有可能的數(shù)據(jù)特征和類(lèi)別，以便模型能夠在不同的數(shù)據(jù)集上都能學(xué)習(xí)到有效的模式，提高其泛化能力。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處從訓(xùn)練集、驗(yàn)證集和測(cè)試集的不同與相似中可以發(fā)現(xiàn)，它們?cè)跈C(jī)器學(xué)習(xí)的模型訓(xùn)練中是緊密相連的，它們各司其職，共同保障了模型的有效學(xué)習(xí)結(jié)果和泛化能力。5.5.2訓(xùn)練、測(cè)試與驗(yàn)證數(shù)據(jù)集的相似之處PART06數(shù)據(jù)集面臨的挑戰(zhàn)AI大模型發(fā)展方興未艾，實(shí)際上其應(yīng)用的落地部分還需要進(jìn)一步的探索和創(chuàng)新。為了適應(yīng)更多細(xì)分的落地場(chǎng)景，大模型之間的“卷”也逐步帶起一堆小模型之間的競(jìng)爭(zhēng)。好模型離不開(kāi)好數(shù)據(jù)，好的數(shù)據(jù)集對(duì)模型的成功至關(guān)重要，它能提升模型的精確度，讓模型能更準(zhǔn)確地預(yù)測(cè)或分類(lèi)。同時(shí)，好的數(shù)據(jù)集還能增強(qiáng)模型的可解釋性，使人們更容易理解模型的決策過(guò)程，也有助于模型更快地收斂到最優(yōu)解。這意味著模型的訓(xùn)練時(shí)間將大大縮短，實(shí)打?qū)嵉男屎统杀臼呛诵母?jìng)爭(zhēng)力。5.6數(shù)據(jù)集面臨的挑戰(zhàn)由于數(shù)據(jù)來(lái)源多樣、類(lèi)型復(fù)雜，大模型數(shù)據(jù)集存在質(zhì)量參差不齊的問(wèn)題。高質(zhì)量的數(shù)據(jù)集需要專(zhuān)業(yè)的標(biāo)注和清洗過(guò)程，包括對(duì)數(shù)據(jù)的詳細(xì)分類(lèi)、校對(duì)和驗(yàn)證，以確保模型能夠接收準(zhǔn)確、一致和有用的信息。然而，部分?jǐn)?shù)據(jù)集因缺乏嚴(yán)格的標(biāo)注和清洗流程，導(dǎo)致數(shù)據(jù)質(zhì)量不如意，包括標(biāo)注錯(cuò)誤、數(shù)據(jù)重復(fù)和不平衡的數(shù)據(jù)分布，都可能削弱人工智能大模型的訓(xùn)練效果，從另外一個(gè)角度看，這也凸顯了高質(zhì)量數(shù)據(jù)的價(jià)值。高質(zhì)量數(shù)據(jù)集不僅能夠提升模型的性能，由于其收集和處理的復(fù)雜性，成本也相對(duì)較高。5.6.1規(guī)模和質(zhì)量待提升與此同時(shí)，數(shù)據(jù)文化有其自身的特色，例如在數(shù)據(jù)集的共享和開(kāi)放性方面的相對(duì)謹(jǐn)慎。由于對(duì)數(shù)據(jù)隱私、安全以及商業(yè)競(jìng)爭(zhēng)的考慮，許多有價(jià)值的數(shù)據(jù)庫(kù)并沒(méi)有公開(kāi)。從技術(shù)角度看，這種做法可能會(huì)限制數(shù)據(jù)集的廣泛應(yīng)用和研究。然而換個(gè)角度來(lái)看，保持?jǐn)?shù)據(jù)的獨(dú)立性和私密性也有其合理性。這種做法有助于保護(hù)敏感信息，防止數(shù)據(jù)被濫用，同時(shí)也鼓勵(lì)企業(yè)和機(jī)構(gòu)投資于數(shù)據(jù)收集和分析，以獲得競(jìng)爭(zhēng)優(yōu)勢(shì)，體現(xiàn)了對(duì)數(shù)據(jù)安全和商業(yè)利益的重視。未來(lái)，無(wú)論模型變得多么龐大，數(shù)據(jù)集的質(zhì)量始終是關(guān)鍵。為了從公開(kāi)網(wǎng)絡(luò)中獲取高質(zhì)量的數(shù)據(jù)，需要尋找那些內(nèi)容質(zhì)量高、規(guī)模大的平臺(tái)。5.6.1規(guī)模和質(zhì)量待提升AI模型和數(shù)據(jù)集相輔相成，互相助力。大模型如同大腦，通過(guò)深度學(xué)習(xí)與不斷優(yōu)化，實(shí)現(xiàn)智能識(shí)別、預(yù)測(cè)分析；而數(shù)據(jù)集如同養(yǎng)料，為大模型提供豐富、準(zhǔn)確的信息來(lái)源。只有優(yōu)秀的大模型與高質(zhì)量的數(shù)據(jù)集相結(jié)合，才能充分發(fā)揮人工智能的潛力，為各行各業(yè)帶來(lái)顛覆性的變革。5.6.2大模型與數(shù)據(jù)集相輔相成例如，假設(shè)初次見(jiàn)面，我們讓星火認(rèn)知大模型做自我介紹。問(wèn)題（提示）很簡(jiǎn)單，就用“你好，請(qǐng)介紹一下你自己，我該如何向你提問(wèn)才能得到有效的答案？”看看它的回復(fù)。

圖5-6科大訊飛星火認(rèn)知大模型的“初次相識(shí)”回復(fù)5.6.2大模型與數(shù)據(jù)集相輔相成感興趣的讀者可以自行選擇不同的中文大模型產(chǎn)品來(lái)體驗(yàn)，了解不同產(chǎn)品回復(fù)，在信息組織，邏輯性強(qiáng)弱，傳達(dá)信息的高效和精確等方面，做出自己的評(píng)價(jià)。5.6.2大模型與數(shù)據(jù)集相輔相成大模型所需的數(shù)據(jù)集標(biāo)準(zhǔn)和規(guī)范卻不夠健全，略顯滯后，在一定程度上影響了大模型的訓(xùn)練效果和應(yīng)用范圍?！秶?guó)家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》中提出，要“初步建立人工智能標(biāo)準(zhǔn)體系，重點(diǎn)研制數(shù)據(jù)算法、系統(tǒng)、服務(wù)等重點(diǎn)急需標(biāo)準(zhǔn)，并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點(diǎn)行業(yè)和領(lǐng)域進(jìn)行推進(jìn)。建設(shè)人工智能標(biāo)準(zhǔn)試驗(yàn)驗(yàn)證平臺(tái)，提供公共服務(wù)能力?！?.6.3標(biāo)準(zhǔn)規(guī)范需健全國(guó)家工業(yè)信息安全發(fā)展研究中心2023年9月14日發(fā)布《AI大模型發(fā)展白皮書(shū)》，其中也提到，在基礎(chǔ)支撐方面，AI大模型訓(xùn)練數(shù)據(jù)需求激增，高質(zhì)量數(shù)據(jù)集成為AI大模型進(jìn)化的關(guān)鍵支撐，并建議全面夯實(shí)算法、算力、數(shù)據(jù)等高質(zhì)量發(fā)展根基。與此同時(shí)，由國(guó)家多個(gè)部門(mén)共同發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中，明確了生成式AI服務(wù)提供者在數(shù)據(jù)處理活動(dòng)中應(yīng)遵循的規(guī)定，包括使用合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型，提高訓(xùn)練數(shù)據(jù)質(zhì)量，確保數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性和多樣性等。5.6.3標(biāo)準(zhǔn)規(guī)范需健全無(wú)論是從政策文件還是從實(shí)際應(yīng)用出發(fā)，大模型數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范對(duì)于我國(guó)AI產(chǎn)業(yè)發(fā)展具有重要意義。面對(duì)挑戰(zhàn)，我們期待能看到更完善的政策法規(guī)體系，建立有效的數(shù)據(jù)集質(zhì)量評(píng)估體系，推動(dòng)數(shù)據(jù)集共享與開(kāi)放，加強(qiáng)國(guó)際合作與交流，從而在全球競(jìng)爭(zhēng)中立于不敗之地。5.6.3標(biāo)準(zhǔn)規(guī)范需健全AI技術(shù)的快速進(jìn)步推動(dòng)了AI數(shù)據(jù)集的急劇擴(kuò)張和復(fù)雜化。大型數(shù)據(jù)集不僅包含海量的數(shù)據(jù)，而且還包括大量的文本、圖片、音頻和視頻等不同類(lèi)型的數(shù)據(jù)。這就要求存儲(chǔ)系統(tǒng)必須擁有更大的存儲(chǔ)空間和更快的讀寫(xiě)速度，才能滿(mǎn)足這些不斷增長(zhǎng)的數(shù)據(jù)需求。在人工智能的整個(gè)工作流程中，從數(shù)據(jù)收集、預(yù)處理、模型訓(xùn)練與評(píng)估，再到模型的部署和應(yīng)用，每個(gè)環(huán)節(jié)都離不開(kāi)對(duì)海量數(shù)據(jù)的存儲(chǔ)和快速訪問(wèn)。5.6.4存儲(chǔ)性能待提高然而，目前主流的存儲(chǔ)架構(gòu)，如共享存儲(chǔ)結(jié)合本地SSD硬盤(pán)，還有一些IT系統(tǒng)大多采用煙囪式的建設(shè)模式，導(dǎo)致數(shù)據(jù)在不同存儲(chǔ)集群之間需要頻繁遷移。這種數(shù)據(jù)遷移不僅增加了復(fù)雜性，還降低了大模型處理數(shù)據(jù)的效率，已然是當(dāng)前AI數(shù)據(jù)集發(fā)展中面臨的一個(gè)挑戰(zhàn)。所以，為了提高AI數(shù)據(jù)集的存儲(chǔ)性能，需要對(duì)存儲(chǔ)架構(gòu)進(jìn)行優(yōu)化?？梢钥紤]采用分布式存儲(chǔ)系統(tǒng)，將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上，提高數(shù)據(jù)的訪問(wèn)速度和可靠性。也可以采用數(shù)據(jù)壓縮和去重技術(shù)，減少數(shù)據(jù)存儲(chǔ)的空間需求，提高存儲(chǔ)效率。5.6.4存儲(chǔ)性能待提高除了數(shù)量規(guī)模和數(shù)據(jù)架構(gòu)，大模型參數(shù)的頻繁優(yōu)化和訓(xùn)練平臺(tái)的不穩(wěn)定性也會(huì)增加對(duì)高性能存儲(chǔ)的需求?？梢圆捎脭?shù)據(jù)分片和索引技術(shù)，提高數(shù)據(jù)的查詢(xún)和訪問(wèn)速度。也可以采用數(shù)據(jù)預(yù)處理和特征提取技術(shù)，減少訓(xùn)練數(shù)據(jù)的大小和復(fù)雜度，提高訓(xùn)練效率。伴隨著大模型發(fā)展的大趨勢(shì)，參數(shù)量指數(shù)增長(zhǎng)、多模態(tài)和全模態(tài)的發(fā)展、以及對(duì)算力需求的增長(zhǎng)，都會(huì)帶來(lái)數(shù)據(jù)存儲(chǔ)架構(gòu)的挑戰(zhàn)，如存儲(chǔ)容量、數(shù)據(jù)遷移效率、系統(tǒng)故障間隔時(shí)間等。5.6.4存儲(chǔ)性能待提高因此，一個(gè)滿(mǎn)足大模型發(fā)展的存儲(chǔ)架構(gòu)需要具備高性能和大容量，并能進(jìn)行數(shù)據(jù)全生命周期管理，能支持人工智能全流程業(yè)務(wù)，兼容多種協(xié)議，支持?jǐn)?shù)據(jù)高效流轉(zhuǎn)的同時(shí)又能滿(mǎn)足數(shù)千節(jié)點(diǎn)的橫向擴(kuò)展。要達(dá)到這個(gè)標(biāo)準(zhǔn)，著實(shí)不容易。5.6.4存儲(chǔ)性能待提高01大模型預(yù)訓(xùn)練數(shù)據(jù)02數(shù)據(jù)處理03數(shù)據(jù)影響分析04典型的開(kāi)源數(shù)據(jù)集目錄/CONTENTS05訓(xùn)練集、測(cè)試集、驗(yàn)證集的異同06數(shù)據(jù)集面臨的挑戰(zhàn)大語(yǔ)言模型基礎(chǔ)第5章大模型預(yù)訓(xùn)練數(shù)據(jù)浙江省普通本科高?！笆奈濉敝攸c(diǎn)教材建設(shè)成果之一大語(yǔ)言模型基礎(chǔ)大語(yǔ)言模型基礎(chǔ)周蘇教授QQ：81505050第6章大模型開(kāi)發(fā)組織人工智能正在成為我們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠?。其中，深度學(xué)習(xí)模型尤其引人注目，而大語(yǔ)言模型更是當(dāng)下的熱門(mén)話(huà)題。所謂大模型開(kāi)發(fā)，是指建設(shè)以大模型為功能核心、通過(guò)其強(qiáng)大的理解能力和生成能力、結(jié)合特殊的數(shù)據(jù)或業(yè)務(wù)邏輯來(lái)提供獨(dú)特功能的應(yīng)用。開(kāi)發(fā)大模型相關(guān)應(yīng)用，其技術(shù)核心雖然在大模型上，但一般通過(guò)調(diào)用API或開(kāi)源模型來(lái)達(dá)成理解與生成，通過(guò)提示工程來(lái)實(shí)現(xiàn)大模型控制，因此，大模型是深度學(xué)習(xí)領(lǐng)域的集大成之作，大模型開(kāi)發(fā)卻更多的是一個(gè)工程問(wèn)題。圖6-1大模型開(kāi)發(fā)要素第6章大模型開(kāi)發(fā)組織大模型具有一些重要的特點(diǎn)：（1）高準(zhǔn)確性：隨著模型參數(shù)的增加，模型通常能更好地學(xué)習(xí)和適應(yīng)各種數(shù)據(jù)，從而提高其預(yù)測(cè)和生成的準(zhǔn)確性。（2）多功能性：大模型通常更為通用，能夠處理更多種類(lèi)的任務(wù)，而不僅限于特定領(lǐng)域。（3）持續(xù)學(xué)習(xí)：大模型的巨大容量使其更適合從持續(xù)的數(shù)據(jù)流中學(xué)習(xí)和適應(yīng)新知識(shí)。第6章大模型開(kāi)發(fā)組織01大模型開(kāi)發(fā)流程02大模型的數(shù)據(jù)組織03分而治之的思想04分布式訓(xùn)練與策略目錄/CONTENTSPART01大模型開(kāi)發(fā)流程在大模型開(kāi)發(fā)中，我們一般不會(huì)去大幅度改動(dòng)模型，不必將精力聚焦在優(yōu)化模型本身上，而是將大模型作為一個(gè)調(diào)用工具，通過(guò)提示工程、數(shù)據(jù)工程、業(yè)務(wù)邏輯分解等手段來(lái)充分發(fā)揮大模型能力，適配應(yīng)用任務(wù)。因此，大模型開(kāi)發(fā)的初學(xué)者并不需要深入研究大模型內(nèi)部原理，而更需要掌握使用大模型的實(shí)踐技巧。6.1大模型開(kāi)發(fā)流程以調(diào)用、發(fā)揮大模型作用為核心的大模型開(kāi)發(fā)與傳統(tǒng)的人工智能開(kāi)發(fā)在整體思路上有著較大的不同。大模型的兩個(gè)核心能力：指令理解與文本生成提供了復(fù)雜業(yè)務(wù)邏輯的簡(jiǎn)單平替方案。在傳統(tǒng)的人工智能開(kāi)發(fā)中，首先需要將復(fù)雜的業(yè)務(wù)邏輯進(jìn)行拆解，對(duì)于每一個(gè)子業(yè)務(wù)構(gòu)造訓(xùn)練數(shù)據(jù)與驗(yàn)證數(shù)據(jù)，對(duì)于每一個(gè)子業(yè)務(wù)訓(xùn)練優(yōu)化模型，最后形成完整的模型鏈路來(lái)解決整個(gè)業(yè)務(wù)邏輯。然而，在大模型開(kāi)發(fā)中，嘗試用提示工程來(lái)替代子模型的訓(xùn)練調(diào)優(yōu)，通過(guò)提示鏈路組合來(lái)實(shí)現(xiàn)業(yè)務(wù)邏輯，用一個(gè)通用大模型+若干業(yè)務(wù)提示來(lái)完成任務(wù)，從而將傳統(tǒng)的模型訓(xùn)練調(diào)優(yōu)轉(zhuǎn)變成了更簡(jiǎn)單、輕松、低成本的提示設(shè)計(jì)調(diào)優(yōu)。6.1大模型開(kāi)發(fā)流程在評(píng)估思路上，大模型開(kāi)發(fā)與傳統(tǒng)人工智能開(kāi)發(fā)有質(zhì)的差異。

傳統(tǒng)AI評(píng)估

LLM評(píng)估圖6-2大模型開(kāi)發(fā)與傳統(tǒng)人工智能開(kāi)發(fā)的不同6.1大模型開(kāi)發(fā)流程傳統(tǒng)人工智能開(kāi)發(fā)首先需要構(gòu)造訓(xùn)練集、測(cè)試集、驗(yàn)證集，通過(guò)在訓(xùn)練集上訓(xùn)練模型、在測(cè)試集上調(diào)優(yōu)模型、在驗(yàn)證集上最終驗(yàn)證模型效果來(lái)實(shí)現(xiàn)性能的評(píng)估。然而，大模型開(kāi)發(fā)更敏捷、靈活，一般不會(huì)在初期顯式地確定訓(xùn)練集、驗(yàn)證集，由于不再需要訓(xùn)練子模型，我們直接從實(shí)際業(yè)務(wù)需求出發(fā)構(gòu)造小批量驗(yàn)證集，設(shè)計(jì)合理提示來(lái)滿(mǎn)足驗(yàn)證集效果。然后，不斷從業(yè)務(wù)邏輯中收集提示的壞情況，并將壞情況加入到驗(yàn)證集中，針對(duì)性?xún)?yōu)化提示，最后實(shí)現(xiàn)較好的泛化效果。6.1大模型開(kāi)發(fā)流程通常將大模型開(kāi)發(fā)分解為以下幾個(gè)流程。圖6-3大模型開(kāi)發(fā)流程6.1大模型開(kāi)發(fā)流程（1）確定目標(biāo)。開(kāi)發(fā)目標(biāo)即應(yīng)用場(chǎng)景、目標(biāo)人群、核心價(jià)值。對(duì)于個(gè)體開(kāi)發(fā)者或小型開(kāi)發(fā)團(tuán)隊(duì)而言，一般應(yīng)先設(shè)定最小化目標(biāo)，從構(gòu)建一個(gè)最小可行性產(chǎn)品開(kāi)始，逐步進(jìn)行完善和優(yōu)化。6.1大模型開(kāi)發(fā)流程（2）設(shè)計(jì)功能。確定目標(biāo)后，需要設(shè)計(jì)應(yīng)用所要提供的功能，以及每一個(gè)功能的大體實(shí)現(xiàn)邏輯。雖然通過(guò)使用大模型簡(jiǎn)化了業(yè)務(wù)邏輯的拆解，但是越清晰、深入的業(yè)務(wù)邏輯理解往往能帶來(lái)更好的提示效果。同樣，對(duì)于個(gè)體開(kāi)發(fā)者或小型開(kāi)發(fā)團(tuán)隊(duì)來(lái)說(shuō)，先確定應(yīng)用的核心功能，然后延展設(shè)計(jì)核心功能的上下游功能；例如，我們想打造一款個(gè)人知識(shí)庫(kù)助手，那么核心功能就是結(jié)合個(gè)人知識(shí)庫(kù)內(nèi)容進(jìn)行問(wèn)題的回答，其上游功能的用戶(hù)上傳知識(shí)庫(kù)、下游功能的用戶(hù)手動(dòng)糾正模型回答就是必須要設(shè)計(jì)實(shí)現(xiàn)的子功能。6.1大模型開(kāi)發(fā)流程（3）搭建整體架構(gòu)。目前，絕大部分大模型應(yīng)用都是采用特定數(shù)據(jù)庫(kù)+提示+通用大模型的架構(gòu)。需要針對(duì)所設(shè)計(jì)的功能，搭建項(xiàng)目的整體架構(gòu)，實(shí)現(xiàn)從用戶(hù)輸入到應(yīng)用輸出的全流程貫通。一般情況下，推薦基于LangChain框架進(jìn)行開(kāi)發(fā)，這是一款使用大模型構(gòu)建強(qiáng)大應(yīng)用程序的工具，它提供了鏈、工具等架構(gòu)的實(shí)現(xiàn)，可以基于LangChain進(jìn)行個(gè)性化定制，實(shí)現(xiàn)從用戶(hù)輸入到數(shù)據(jù)庫(kù)再到大模型最后輸出的整體架構(gòu)連接。6.1大模型開(kāi)發(fā)流程（4）搭建數(shù)據(jù)庫(kù)。個(gè)性化大模型應(yīng)用需要有個(gè)性化的數(shù)據(jù)庫(kù)來(lái)支撐。由于大模型應(yīng)用需要進(jìn)行向量語(yǔ)義檢索，一般使用諸如Chroma向量數(shù)據(jù)庫(kù)。在該步驟中，需要收集數(shù)據(jù)并進(jìn)行預(yù)處理，再向量化存儲(chǔ)到數(shù)據(jù)庫(kù)中。數(shù)據(jù)預(yù)處理一般包括從多種格式向純文本的轉(zhuǎn)化，例如PDF、HTML、音視頻等，以及對(duì)錯(cuò)誤數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)進(jìn)行清洗。完成預(yù)處理后，需要進(jìn)行切片、向量化構(gòu)建出個(gè)性化數(shù)據(jù)庫(kù)。6.1大模型開(kāi)發(fā)流程向量數(shù)據(jù)庫(kù)最早應(yīng)用于傳統(tǒng)人工智能和機(jī)器學(xué)習(xí)場(chǎng)景。大模型興起后，由于受大模型詞元數(shù)的限制，很多開(kāi)發(fā)者傾向于將數(shù)據(jù)量龐大的知識(shí)、新聞、文獻(xiàn)、語(yǔ)料等先通過(guò)嵌入算法轉(zhuǎn)變?yōu)橄蛄繑?shù)據(jù)，然后存儲(chǔ)在Chroma等向量數(shù)據(jù)庫(kù)中。當(dāng)用戶(hù)在大模型輸入問(wèn)題后，將問(wèn)題本身也嵌入轉(zhuǎn)化為向量，在向量數(shù)據(jù)庫(kù)中查找與之最匹配的相關(guān)知識(shí)，組成大模型的上下文，將其輸入給大模型，最終返回大模型處理后的文本給用戶(hù)，這種方式不僅降低大模型的計(jì)算量，提高響應(yīng)速度，也降低成本，并避免了大模型的詞元限制，是一種簡(jiǎn)單高效的處理手段。此外，向量數(shù)據(jù)庫(kù)還在大模型記憶存儲(chǔ)等領(lǐng)域發(fā)揮其不可替代的作用。6.1大模型開(kāi)發(fā)流程（5）提示工程。優(yōu)質(zhì)的提示對(duì)大模型能力具有極大影響，需要逐步迭代構(gòu)建優(yōu)質(zhì)的提示工程來(lái)提升應(yīng)用性能。在該步驟中，首先應(yīng)該明確提示設(shè)計(jì)的一般原則及技巧，構(gòu)建出一個(gè)源于實(shí)際業(yè)務(wù)的小型驗(yàn)證集，以此來(lái)滿(mǎn)足基本要求、具備基本能力的提示。6.1大模型開(kāi)發(fā)流程（6）驗(yàn)證迭代。這在大模型開(kāi)發(fā)中是極其重要的一步，一般指通過(guò)不斷發(fā)現(xiàn)壞的情況并針對(duì)性改進(jìn)提示工程來(lái)提升系統(tǒng)效果、應(yīng)對(duì)邊界情況。在完成上一步的初始化提示設(shè)計(jì)后，應(yīng)該進(jìn)行實(shí)際業(yè)務(wù)測(cè)試，探討邊界情況，找到壞的情況，并針對(duì)性分析提示存在的問(wèn)題，從而不斷迭代優(yōu)化，直到達(dá)到一個(gè)較為穩(wěn)定、可以基本實(shí)現(xiàn)目標(biāo)的提示版本。6.1大模型開(kāi)發(fā)流程（7）前后端搭建。完成提示工程及其迭代優(yōu)化之后，就完成了應(yīng)用的核心功能，可以充分發(fā)揮大模型的強(qiáng)大能力。接下來(lái)，需要搭建前后端，設(shè)計(jì)產(chǎn)品頁(yè)面，讓?xiě)?yīng)用能夠上線(xiàn)成為產(chǎn)品。前后端開(kāi)發(fā)是非常經(jīng)典且成熟的領(lǐng)域，有兩種快速開(kāi)發(fā)演示的框架：Gradio和Streamlit，可以幫助個(gè)體開(kāi)發(fā)者迅速搭建可視化頁(yè)面實(shí)現(xiàn)演示上線(xiàn)。（8）體驗(yàn)優(yōu)化。完成前后端搭建后，應(yīng)用就可以上線(xiàn)體驗(yàn)了。接下來(lái)需要進(jìn)行長(zhǎng)期的用戶(hù)體驗(yàn)跟蹤，記錄壞情況，與用戶(hù)負(fù)反饋，再針對(duì)性進(jìn)行優(yōu)化即可。6.1大模型開(kāi)發(fā)流程PART02大模型的數(shù)據(jù)組織在設(shè)計(jì)、研發(fā)、運(yùn)行的過(guò)程中，大模型面臨的主要挑戰(zhàn)如下。（1）計(jì)算資源：訓(xùn)練和運(yùn)行大模型需要大量的計(jì)算資源，這可能限制了許多機(jī)構(gòu)和研究者使用它的能力。（2）環(huán)境影響：大規(guī)模模型的訓(xùn)練對(duì)能源的需求是巨大的，可能會(huì)對(duì)環(huán)境造成負(fù)面影響。（3）偏見(jiàn)和公正性：由于大模型通常從大量的互聯(lián)網(wǎng)文本中學(xué)習(xí)，它們可能會(huì)吸收并再現(xiàn)存在于這些數(shù)據(jù)中的偏見(jiàn)。6.2大模型的數(shù)據(jù)組織盡管存在挑戰(zhàn)，但研究者仍在積極尋找解決方法。例如，通過(guò)更高效的訓(xùn)練方法、結(jié)構(gòu)優(yōu)化等技術(shù)來(lái)降低能源消耗；或者通過(guò)更公正的數(shù)據(jù)收集和處理方法來(lái)減少模型偏見(jiàn)。大模型的研發(fā)流程涵蓋了從數(shù)據(jù)采集到模型訓(xùn)練的多個(gè)步驟。6.2大模型的數(shù)據(jù)組織數(shù)據(jù)采集是大模型項(xiàng)目的起點(diǎn)，根據(jù)大模型訓(xùn)練的需求收集大量數(shù)據(jù)。這些數(shù)據(jù)可以有多種來(lái)源，如公開(kāi)的數(shù)據(jù)集、公司內(nèi)部的數(shù)據(jù)庫(kù)、用戶(hù)生成的數(shù)據(jù)、傳感器數(shù)據(jù)等。數(shù)據(jù)的類(lèi)型可以多樣，包括圖像、文本、聲音、視頻等。定義數(shù)據(jù)需求：確定需要收集什么樣的數(shù)據(jù)。這應(yīng)該基于問(wèn)題陳述和項(xiàng)目目標(biāo)。需要理解你的問(wèn)題是什么，然后決定哪種類(lèi)型的數(shù)據(jù)（例如數(shù)字、類(lèi)別、文本、圖像等）和哪些特定的特征可能對(duì)解決問(wèn)題有幫助。找到數(shù)據(jù)源：確定數(shù)據(jù)來(lái)源。這可能包括公開(kāi)的數(shù)據(jù)庫(kù)、在線(xiàn)資源，或者可以從公司內(nèi)部數(shù)據(jù)庫(kù)或系統(tǒng)中收集數(shù)據(jù)。在某些情況下，可能需要通過(guò)調(diào)查或?qū)嶒?yàn)收集新的數(shù)據(jù)。6.2.1數(shù)據(jù)采集數(shù)據(jù)收集：從選擇的數(shù)據(jù)源中收集數(shù)據(jù)。這涉及到從數(shù)據(jù)庫(kù)中導(dǎo)出數(shù)據(jù)，使用API來(lái)收集在線(xiàn)數(shù)據(jù)，或者使用特殊的數(shù)據(jù)采集設(shè)備（例如物聯(lián)網(wǎng)）。數(shù)據(jù)存儲(chǔ)：將收集到的數(shù)據(jù)存儲(chǔ)在合適的地方，以便進(jìn)一步處理和分析。這可能涉及到設(shè)置數(shù)據(jù)庫(kù)或使用文件系統(tǒng)。檢查數(shù)據(jù)質(zhì)量：查看收集的數(shù)據(jù)，確保其質(zhì)量滿(mǎn)足需求。需要檢查數(shù)據(jù)是否完整，是否有錯(cuò)誤，是否有重復(fù)的數(shù)據(jù)等。6.2.1數(shù)據(jù)采集數(shù)據(jù)整理：如果數(shù)據(jù)來(lái)自多個(gè)來(lái)源，或者在一個(gè)大的數(shù)據(jù)集中，可能需要整理數(shù)據(jù)，使其在一定的上下文中有意義。這包括對(duì)數(shù)據(jù)排序，或者將數(shù)據(jù)分組，或者將數(shù)據(jù)從多個(gè)源合并。數(shù)據(jù)采集是一個(gè)持續(xù)的過(guò)程，特別是對(duì)需要實(shí)時(shí)更新或處理新信息的項(xiàng)目。在整個(gè)數(shù)據(jù)采集過(guò)程中，需要關(guān)注數(shù)據(jù)的質(zhì)量和一致性，同時(shí)也要注意遵守?cái)?shù)據(jù)隱私和安全的相關(guān)規(guī)定。6.2.1數(shù)據(jù)采集收集到的原始數(shù)據(jù)可能含有噪聲、缺失值、錯(cuò)誤數(shù)據(jù)等，所以要對(duì)數(shù)據(jù)進(jìn)行清洗。清洗后的數(shù)據(jù)要進(jìn)行一系列預(yù)處理操作，如歸一化、編碼轉(zhuǎn)換等，使其適合輸入到模型中。數(shù)據(jù)清洗和預(yù)處理是數(shù)據(jù)科學(xué)項(xiàng)目的重要步驟，它們有助于提高模型的性能并減少可能的錯(cuò)誤。數(shù)據(jù)質(zhì)量檢查：這是數(shù)據(jù)清洗的第一步，其中涉及識(shí)別和處理數(shù)據(jù)集中的錯(cuò)誤、重復(fù)值、缺失值和異常值。需要驗(yàn)證數(shù)據(jù)的完整性、一致性和準(zhǔn)確性，確保所有的記錄都是準(zhǔn)確的，與實(shí)際情況相符。6.2.2數(shù)據(jù)清洗和預(yù)處理處理缺失值：有多種方法可以處理數(shù)據(jù)集中的缺失值。這些方法包括：刪除包含缺失值的記錄；用特定值（如列的平均值、中位數(shù)或眾數(shù)）填充缺失值；使用預(yù)測(cè)模型（如KNN近鄰分類(lèi)或回歸）預(yù)測(cè)缺失值；或者使用一種標(biāo)記值來(lái)表示缺失值。處理重復(fù)值：如果數(shù)據(jù)集中存在重復(fù)的記錄，那么可能需要?jiǎng)h除這些重復(fù)的記錄。在一些情況下，重復(fù)的記錄可能是數(shù)據(jù)收集過(guò)程中的錯(cuò)誤，但在其他情況下，重復(fù)的記錄可能是有意義的，所以需要根據(jù)具體情況來(lái)判斷。6.2.2數(shù)據(jù)清洗和預(yù)處理處理異常值：異常值是那些遠(yuǎn)離其他觀察值的值，這些值可能由測(cè)量錯(cuò)誤或其他原因產(chǎn)生。處理異常值的方法包括：刪除異常值；使用統(tǒng)計(jì)方法（如四分位數(shù)間距法）將異常值替換為更合理的值；或者使用機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行預(yù)測(cè)。6.2.2數(shù)據(jù)清洗和預(yù)處理數(shù)據(jù)轉(zhuǎn)換：將數(shù)據(jù)轉(zhuǎn)換為適合進(jìn)行分析或建模的形式。這可能包括以下幾種形式。（1）規(guī)范化或標(biāo)準(zhǔn)化：將數(shù)值特征縮放到同一范圍內(nèi)，如0到1，或者轉(zhuǎn)換為具有零均值和單位方差的值。（2）分類(lèi)變量編碼：例如將分類(lèi)變量轉(zhuǎn)換為獨(dú)熱編碼或標(biāo)簽編碼。（3）特征工程：創(chuàng)建新的特征，使之可能更好地表達(dá)數(shù)據(jù)的某些方面或者提高模型的性能。6.2.2數(shù)據(jù)清洗和預(yù)處理根據(jù)具體的項(xiàng)目和數(shù)據(jù)集，這個(gè)流程可能會(huì)有所不同。在進(jìn)行數(shù)據(jù)清洗和預(yù)處理時(shí)，需要對(duì)數(shù)據(jù)有深入的理解，以便做出最好的決策。6.2.2數(shù)據(jù)清洗和預(yù)處理數(shù)據(jù)標(biāo)注，也叫數(shù)據(jù)標(biāo)記，是一項(xiàng)為原始數(shù)據(jù)添加元信息的工作，以幫助大模型更好地理解和學(xué)習(xí)數(shù)據(jù)。對(duì)于監(jiān)督學(xué)習(xí)任務(wù)，模型需要有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練，數(shù)據(jù)標(biāo)注的目標(biāo)就是為數(shù)據(jù)提供這些標(biāo)簽，這個(gè)過(guò)程可能需要專(zhuān)門(mén)的標(biāo)注團(tuán)隊(duì)。對(duì)于非監(jiān)督學(xué)習(xí)任務(wù)，如聚類(lèi)或生成模型，這一步則不需要。理解任務(wù)需求：首先需要理解要解決的問(wèn)題以及數(shù)據(jù)標(biāo)注應(yīng)該如何進(jìn)行。例如，如果進(jìn)行圖像分類(lèi)任務(wù)，可能需要給每個(gè)圖像一個(gè)分類(lèi)標(biāo)簽；如果在進(jìn)行物體檢測(cè)任務(wù)，可能需要在圖像中的每個(gè)目標(biāo)物體周?chē)?huà)一個(gè)邊界框，并給出這個(gè)物體的分類(lèi)標(biāo)簽。6.2.3數(shù)據(jù)標(biāo)注制定標(biāo)注規(guī)范：規(guī)范是一個(gè)詳細(xì)解釋如何進(jìn)行數(shù)據(jù)標(biāo)注的指南，它解釋哪些數(shù)據(jù)應(yīng)該被標(biāo)記，應(yīng)該如何標(biāo)記，以及如何處理可能出現(xiàn)的問(wèn)題或歧義。清晰、詳細(xì)的標(biāo)注規(guī)范可以幫助保持標(biāo)注的一致性，并提高標(biāo)注的質(zhì)量。選擇或開(kāi)發(fā)標(biāo)注工具：有許多數(shù)據(jù)標(biāo)注工具，可以用于各種類(lèi)型的數(shù)據(jù)標(biāo)注任務(wù)。應(yīng)該選擇或開(kāi)發(fā)一個(gè)適合自己任務(wù)的標(biāo)注工具，它應(yīng)該方便使用，提高標(biāo)注效率，并盡可能減少錯(cuò)誤。6.2.3數(shù)據(jù)標(biāo)注進(jìn)行數(shù)據(jù)標(biāo)注：按照標(biāo)注規(guī)范，使用標(biāo)注工具進(jìn)行數(shù)據(jù)標(biāo)注。這可能是一個(gè)時(shí)間和人力密集型的過(guò)程，尤其是當(dāng)有大量數(shù)據(jù)需要標(biāo)注時(shí)。質(zhì)量檢查：檢查標(biāo)注的數(shù)據(jù)，確保標(biāo)注的質(zhì)量。這涉及到隨機(jī)抽查一部分?jǐn)?shù)據(jù)，并檢查它們是否被正確和一致地標(biāo)注。反饋和修正：根據(jù)質(zhì)量檢查的結(jié)果，如果發(fā)現(xiàn)任何問(wèn)題或不一致，需要反饋給標(biāo)注團(tuán)隊(duì)，并修正錯(cuò)誤的標(biāo)注。6.2.3數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注是一個(gè)重要但往往被忽視的步驟。高質(zhì)量標(biāo)注數(shù)據(jù)對(duì)訓(xùn)練出高性能的機(jī)器學(xué)習(xí)模型至關(guān)重要。因此，盡管這是一個(gè)復(fù)雜和耗時(shí)的過(guò)程，但投入在這個(gè)過(guò)程中的努力會(huì)得到回報(bào)。6.2.3數(shù)據(jù)標(biāo)注數(shù)據(jù)通常被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用于模型訓(xùn)練，驗(yàn)證集用于超參數(shù)調(diào)整和模型選擇，測(cè)試集用于最后的模型性能評(píng)估。數(shù)據(jù)集劃分是大模型項(xiàng)目中的一個(gè)重要步驟，它可以幫助我們更好地理解模型在未見(jiàn)過(guò)的數(shù)據(jù)上的性能。確定劃分策略：確定數(shù)據(jù)集劃分的策略主要取決于數(shù)據(jù)集的大小和特性。一般的策略是將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。在大多數(shù)情況下，數(shù)據(jù)被劃分為80%的訓(xùn)練集，10%的驗(yàn)證集和10%的測(cè)試集，但這并不是硬性規(guī)定，具體的劃分比例需要根據(jù)實(shí)際情況來(lái)確定。6.2.4數(shù)據(jù)集劃分隨機(jī)劃分：為了確保每個(gè)劃分的數(shù)據(jù)分布與原始數(shù)據(jù)集相似，通常需要對(duì)數(shù)據(jù)進(jìn)行隨機(jī)劃分。這可以通過(guò)洗牌數(shù)據(jù)索引來(lái)實(shí)現(xiàn)。分層抽樣：在某些情況下，可能需要確保每個(gè)劃分中各類(lèi)別的數(shù)據(jù)比例與整個(gè)數(shù)據(jù)集相同。這稱(chēng)為分層抽樣。例如，如果數(shù)據(jù)集是一個(gè)二分類(lèi)問(wèn)題，可能希望訓(xùn)練集、驗(yàn)證集和測(cè)試集中正負(fù)樣本的比例都與整個(gè)數(shù)據(jù)集中的比例相同。6.2.4數(shù)據(jù)集劃分時(shí)間序列數(shù)據(jù)的劃分：對(duì)于時(shí)間序列數(shù)據(jù)，數(shù)據(jù)劃分的策略可能會(huì)不同。通常不能隨機(jī)劃分，而是基于時(shí)間來(lái)劃分?jǐn)?shù)據(jù)。例如，我們可能會(huì)使用前80%的數(shù)據(jù)作為訓(xùn)練集，然后使用接下來(lái)10%的數(shù)據(jù)作為驗(yàn)證集，最后10%的數(shù)據(jù)作為測(cè)試集。分割數(shù)據(jù)：按照所選擇的策略，使用編程語(yǔ)言或者數(shù)據(jù)處理工具來(lái)劃分?jǐn)?shù)據(jù)。保存數(shù)據(jù)：保存劃分后的數(shù)據(jù)集，以便后續(xù)的訓(xùn)練和測(cè)試。確保訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù)被正確地保存，并且可以方便地加載。6.2.4數(shù)據(jù)集劃分這個(gè)流程可能根據(jù)數(shù)據(jù)的類(lèi)型和任務(wù)的需求有所不同。無(wú)論如何，正確的數(shù)據(jù)劃分策略對(duì)于避免過(guò)擬合，以及準(zhǔn)確評(píng)估模型的性能至關(guān)重要。6.2.4數(shù)據(jù)集劃分模型設(shè)計(jì)是大模型項(xiàng)目的關(guān)鍵環(huán)節(jié)，需要結(jié)合項(xiàng)目目標(biāo)、數(shù)據(jù)特性以及算法理論選擇或設(shè)計(jì)適合任務(wù)的模型架構(gòu)?？赡軙?huì)使用復(fù)雜的深度學(xué)習(xí)架構(gòu)，如Transformer、BERT、ResNet等。圖6-4案例：文心大模型全景圖6.2.5模型設(shè)計(jì)理解問(wèn)題：首先，需要理解你要解決的問(wèn)題，并根據(jù)問(wèn)題類(lèi)型（例如，分類(lèi)、回歸、聚類(lèi)、生成模型等）決定采用何種類(lèi)型的模型。選擇算法：根據(jù)要解決的問(wèn)題選擇合適的機(jī)器學(xué)習(xí)算法。這可能包括決策樹(shù)、線(xiàn)性回歸、邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)等。在選擇算法時(shí)，需要考慮各種因素，如問(wèn)題的復(fù)雜性、數(shù)據(jù)的大小和維度、計(jì)算資源等。設(shè)計(jì)模型架構(gòu)：這主要涉及到深度學(xué)習(xí)模型。需要設(shè)計(jì)模型的架構(gòu)，例如神經(jīng)網(wǎng)絡(luò)的層數(shù)、每層的節(jié)點(diǎn)數(shù)、激活函數(shù)的選擇等。此步驟可能需要根據(jù)經(jīng)驗(yàn)和實(shí)驗(yàn)結(jié)果進(jìn)行調(diào)整。6.2.5模型設(shè)計(jì)設(shè)置超參數(shù)：超參數(shù)是在開(kāi)始學(xué)習(xí)過(guò)程之前設(shè)置的參數(shù)，而不是通過(guò)訓(xùn)練得到的參數(shù)。例如，學(xué)習(xí)率、批量大小、迭代次數(shù)等。超參數(shù)的選擇可能需要通過(guò)經(jīng)驗(yàn)或者系統(tǒng)的搜索（例如網(wǎng)格搜索、隨機(jī)搜索或貝葉斯優(yōu)化）來(lái)確定。正則化和優(yōu)化策略：為了防止過(guò)擬合并提高模型的泛化能力，可能需要使用一些正則化策略，如L1/L2正則化、dropout（輟學(xué)）、earlystopping（提早停止）等。同時(shí)，還需要選擇合適的優(yōu)化算法（例如，SGD、Adam、RMSprop等）以及可能的學(xué)習(xí)率調(diào)整策略。6.2.5模型設(shè)計(jì)定義評(píng)估指標(biāo)：需要定義合適的評(píng)估指標(biāo)來(lái)衡量模型的性能。選擇的評(píng)估指標(biāo)應(yīng)與業(yè)務(wù)目標(biāo)和模型目標(biāo)相一致。常見(jiàn)的評(píng)估指標(biāo)包括精度、召回率、F1分?jǐn)?shù)、AUC、均方誤差等。需要根據(jù)具體項(xiàng)目和需求進(jìn)行迭代。模型設(shè)計(jì)是一個(gè)需要技術(shù)、經(jīng)驗(yàn)以及實(shí)驗(yàn)驗(yàn)證的過(guò)程，設(shè)計(jì)時(shí)需要保持對(duì)模型復(fù)雜性和泛化能力之間平衡的認(rèn)識(shí)，并始終以實(shí)現(xiàn)業(yè)務(wù)目標(biāo)為導(dǎo)向。6.2.5模型設(shè)計(jì)模型初始化是大模型項(xiàng)目中的重要步驟。訓(xùn)練開(kāi)始前需要初始化模型參數(shù)，這一般通過(guò)隨機(jī)方式進(jìn)行。正確的初始化策略可以幫助模型更快地收斂，并減少訓(xùn)練過(guò)程中可能出現(xiàn)的問(wèn)題。選擇初始化策略：有許多不同的初始化策略可以選擇，例如零初始化、隨機(jī)初始化、He初始化、Xavier初始化等。需要根據(jù)模型和激活函數(shù)來(lái)選擇合適的初始化策略。例如，如果模型使用ReLU激活函數(shù)，He初始化可能是一個(gè)好的選擇；如果模型使用tanh或sigmoid激活函數(shù)，Xavier初始化可能是一個(gè)好的選擇。6.2.6模型初始化初始化權(quán)重：使用選擇的策略來(lái)初始化模型的權(quán)重。對(duì)每一層都需要初始化其權(quán)重。在大多數(shù)情況下，權(quán)重應(yīng)該被初始化為小的隨機(jī)數(shù)，以打破對(duì)稱(chēng)性并保證不同神經(jīng)元學(xué)到不同的特征。初始化偏置：初始化模型的偏置。在許多情況下，偏置可以被初始化為零。但是，對(duì)于某些類(lèi)型的層（如批量歸一化層），偏置的初始化可能需要更復(fù)雜的策略。6.2.6模型初始化設(shè)置初始化參數(shù)：某些初始化策略可能需要額外的參數(shù)。例如，隨機(jī)初始化可能需要一個(gè)范圍或者一個(gè)標(biāo)準(zhǔn)差，你需要設(shè)置這些參數(shù)。執(zhí)行初始化：在模型代碼中執(zhí)行初始化操作。大多數(shù)深度學(xué)習(xí)框架（如TensorFlow和PyTorch）都提供了內(nèi)置的方法來(lái)執(zhí)行初始化。模型初始化是一個(gè)比較技術(shù)性的主題，正確的初始化策略可能對(duì)模型的訓(xùn)練速度和性能有很大的影響。應(yīng)該了解不同的初始化策略，以便根據(jù)模型選擇最適合的策略。6.2.6模型初始化模型訓(xùn)練是大模型項(xiàng)目中的關(guān)鍵步驟，其中包含了多個(gè)環(huán)節(jié)。設(shè)置訓(xùn)練參數(shù)：首先，需要設(shè)置訓(xùn)練參數(shù)，如學(xué)習(xí)率、訓(xùn)練迭代次數(shù)、批次大小等。準(zhǔn)備訓(xùn)練數(shù)據(jù)：需要將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。通常，大部分?jǐn)?shù)據(jù)用于訓(xùn)練，一部分用于驗(yàn)證模型性能和調(diào)整超參數(shù)，剩余的一部分用于測(cè)試。6.2.7模型訓(xùn)練前向傳播：在前向傳播階段，模型接收輸入數(shù)據(jù)，并通過(guò)網(wǎng)絡(luò)層傳遞，直到輸出層。這個(gè)過(guò)程中會(huì)生成一個(gè)預(yù)測(cè)輸出。計(jì)算損失：根據(jù)預(yù)測(cè)輸出和實(shí)際標(biāo)簽，使用損失函數(shù)（如均方誤差、交叉熵等）計(jì)算損失。損失反映了模型預(yù)測(cè)的準(zhǔn)確程度。反向傳播：在這個(gè)階段，算法計(jì)算損失函數(shù)關(guān)于模型參數(shù)的梯度，并根據(jù)這些梯度來(lái)更新模型參數(shù)。這個(gè)過(guò)程通常使用優(yōu)化算法（如梯度下降、隨機(jī)梯度下降、Adam等）來(lái)進(jìn)行。6.2.7模型訓(xùn)練驗(yàn)證和調(diào)整：在每個(gè)迭代結(jié)束后，使用驗(yàn)證集評(píng)估模型性能。如果模型在驗(yàn)證集上的性能沒(méi)有提高，或者開(kāi)始下降，這意味著模型可能過(guò)擬合了，需要調(diào)整模型的超參數(shù)，或者使用一些正則化技術(shù)（如dropout、L1/L2正則化、早停法等）。重復(fù)前向傳播、計(jì)算損失、反向傳播和驗(yàn)證步驟，直到模型性能達(dá)到滿(mǎn)意，或者達(dá)到預(yù)設(shè)的訓(xùn)練迭代次數(shù)。6.2.7模型訓(xùn)練模型測(cè)試：當(dāng)模型訓(xùn)練完成后，使用測(cè)試集進(jìn)行最終的性能評(píng)估。這能夠提供模型在未見(jiàn)過(guò)的數(shù)據(jù)上的性能表現(xiàn)。實(shí)際操作中可能需要根據(jù)特定任務(wù)或特定模型進(jìn)行相應(yīng)的調(diào)整。6.2.7模型訓(xùn)練模型驗(yàn)證是大模型項(xiàng)目中非常關(guān)鍵的一步，目的是在訓(xùn)練過(guò)程中，評(píng)估模型的性能，定期在驗(yàn)證集上測(cè)試模型的性能，監(jiān)控過(guò)擬合，根據(jù)測(cè)試和監(jiān)控結(jié)果調(diào)整模型的超參數(shù)。準(zhǔn)備驗(yàn)證集：在數(shù)據(jù)集劃分階段，應(yīng)該保留一部分?jǐn)?shù)據(jù)作為驗(yàn)證集。這部分?jǐn)?shù)據(jù)不參與模型訓(xùn)練，僅用于模型驗(yàn)證。進(jìn)行模型預(yù)測(cè)：使用訓(xùn)練好的模型對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè)。通常，在每一輪迭代訓(xùn)練結(jié)束后進(jìn)行一次驗(yàn)證。6.2.8模型驗(yàn)證計(jì)算評(píng)估指標(biāo)：根據(jù)模型在驗(yàn)證集上的預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽，計(jì)算相應(yīng)的評(píng)估指標(biāo)。評(píng)估指標(biāo)的選擇取決于任務(wù)類(lèi)型。例如：對(duì)于分類(lèi)任務(wù)，常見(jiàn)的評(píng)估指標(biāo)有準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)等；對(duì)于回歸任務(wù)，常見(jiàn)的評(píng)估指標(biāo)有均方誤差（MSE）、平均絕對(duì)誤差（MAE）等。比較性能：將這一輪的驗(yàn)證性能與前一輪進(jìn)行比較。如果性能提高，則可以繼續(xù)進(jìn)行下一輪訓(xùn)練；如果性能下降，則可能需要調(diào)整學(xué)習(xí)率、增加正則化等措施。6.2.8模型驗(yàn)證早停法：如果在連續(xù)多輪訓(xùn)練后，驗(yàn)證性能沒(méi)有顯著提高，可以使用早停法來(lái)提前結(jié)束訓(xùn)練，以避免過(guò)擬合。調(diào)整超參數(shù)：如果模型在驗(yàn)證集上的性能不佳，可能需要調(diào)整模型的超參數(shù)，如學(xué)習(xí)率、批次大小、正則化參數(shù)等。常用的方法是使用網(wǎng)格搜索或隨機(jī)搜索等方式來(lái)自動(dòng)搜索最優(yōu)的超參數(shù)組合。驗(yàn)證集應(yīng)保持獨(dú)立，不能用于訓(xùn)練模型，否則就可能導(dǎo)致模型的性能評(píng)估不準(zhǔn)確，無(wú)法真實(shí)反映模型在未見(jiàn)過(guò)的數(shù)據(jù)上的性能。6.2.8模型驗(yàn)證模型保存是大模型項(xiàng)目的重要一步，讓我們能夠?qū)⒂?xùn)練好的模型存儲(chǔ)起來(lái)，以便于后續(xù)的測(cè)試、部署或進(jìn)一步訓(xùn)練或分享。選擇保存格式：需要選擇一個(gè)合適的模型保存格式。常用的模型保存格式包括：Python的pickle文件、joblib文件，或者某些深度學(xué)習(xí)框架的專(zhuān)有格式，如TensorFlow的SavedModel格式和PyTorch的pth格式。

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大語(yǔ)言模型基礎(chǔ)微課版課件 第5、6章 大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大語(yǔ)言模型基礎(chǔ)微課版課件第5、6章大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開(kāi)發(fā)組織