第5章大模型預(yù)訓(xùn)練數(shù)據(jù)

上傳人：y*** IP屬地：山東上傳時間：2024-08-23 格式：PPTX 頁數(shù)：85 大?。?.55MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩80頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

浙江省普通本科高?！笆奈濉敝攸c教材大語言模型通識大語言模型通識周蘇教授QQ：81505050第5章大模型預(yù)訓(xùn)練數(shù)據(jù)一般情況下用于預(yù)訓(xùn)練的都是大模型，具備復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)，眾多參數(shù)量，以及在足夠大的數(shù)據(jù)集下進(jìn)行訓(xùn)練而產(chǎn)生的模型。在自然語言處理領(lǐng)域，預(yù)訓(xùn)練模型往往是語言模型，其訓(xùn)練是無監(jiān)督的，可以獲得大規(guī)模語料。同時，語言模型又是許多典型自然語言處理任務(wù)的基礎(chǔ)，如機器翻譯、文本生成、閱讀理解等。

圖5-1從語言模型嵌入第5章大模型預(yù)訓(xùn)練數(shù)據(jù)（1）在RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）模型中，每一個詞嵌入的輸出是要參考前面已經(jīng)輸入過的數(shù)據(jù)，所以叫做上下文化詞嵌入。（2）不止要考慮每個詞嵌入前文，同時還要考慮后文，所以再從句尾向句首訓(xùn)練。第5章大模型預(yù)訓(xùn)練數(shù)據(jù)（3）使用多層隱藏層后，最終的詞嵌入=該詞所有層的詞嵌入進(jìn)行加權(quán)平均（見圖5-2）。

圖5-2從句子中訓(xùn)練第5章大模型預(yù)訓(xùn)練數(shù)據(jù)訓(xùn)練大語言模型需要數(shù)萬億的各類型數(shù)據(jù)。如何構(gòu)造海量“高質(zhì)量”數(shù)據(jù)對于大模型的訓(xùn)練至關(guān)重要。研究表明，預(yù)訓(xùn)練數(shù)據(jù)是影響大模型效果及樣本泛化能力的關(guān)鍵因素之一。大模型采用的預(yù)訓(xùn)練數(shù)據(jù)需要覆蓋盡可能多的領(lǐng)域、語言、文化和視角，通常來自網(wǎng)絡(luò)、圖書、論文、百科和社交媒體等。第5章大模型預(yù)訓(xùn)練數(shù)據(jù)01數(shù)據(jù)來源02數(shù)據(jù)處理03數(shù)據(jù)影響分析04典型的開源數(shù)據(jù)集目錄/CONTENTS05數(shù)據(jù)集面臨的挑戰(zhàn)PART01數(shù)據(jù)來源OpenAI訓(xùn)練GPT-3使用的主要數(shù)據(jù)來源，包含經(jīng)過過濾的CommonCravwl、WebText2、Books1、Books2及英文維基百科等數(shù)據(jù)集。其中CommonCrawl的原始數(shù)據(jù)有45TB，過濾后僅保留了570GB的數(shù)據(jù)。通過詞元方式對上述數(shù)據(jù)進(jìn)行切分，大約包含5000億個詞元。為了保證模型使用更多高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練，在GPT-3訓(xùn)練時，根據(jù)數(shù)據(jù)來源的不同，設(shè)置不同的采樣權(quán)重。在完成3000億個詞元的訓(xùn)練時，英文維基百科的數(shù)據(jù)平均訓(xùn)練輪數(shù)為3.4次，而CommonCrawl和Books2僅有0.44次和0.43次。5.1數(shù)據(jù)來源另一個例子，由于CommonCrawl數(shù)據(jù)集的過濾過程繁瑣復(fù)雜，Meta公司的研究人員在訓(xùn)練OPT模型時，采用了混合RoBERTa、Pile和PushShift.ioReddit數(shù)據(jù)的方法。由于這些數(shù)據(jù)集中包含的絕大部分?jǐn)?shù)據(jù)都是英文數(shù)據(jù)，因此OPT也從CommonCrawl數(shù)據(jù)集中抽取了部分非英文數(shù)據(jù)加入訓(xùn)練數(shù)據(jù)。大模型預(yù)訓(xùn)練所需的數(shù)據(jù)來源大體上分為通用數(shù)據(jù)和專業(yè)數(shù)據(jù)兩大類。5.1數(shù)據(jù)來源通用數(shù)據(jù)在大模型訓(xùn)練數(shù)據(jù)中占比非常高，主要包括網(wǎng)頁、圖書、新聞、對話文本等不同類型的數(shù)據(jù)，具有規(guī)模大、多樣性和易獲取等特點，因此支持大模型的語言建模和泛化能力。5.1.1通用數(shù)據(jù)網(wǎng)頁是通用數(shù)據(jù)中數(shù)量最多的一類。隨著互聯(lián)網(wǎng)的日益普及，人們通過網(wǎng)站、論壇、博客、App創(chuàng)造了海量的數(shù)據(jù)。網(wǎng)頁數(shù)據(jù)使語言模型能夠獲得多樣化的語言知識并增強其泛化能力。爬取和處理海量網(wǎng)頁內(nèi)容并不是一件容易的事情，因此，一些研究人員構(gòu)建了ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等開源網(wǎng)頁數(shù)據(jù)集。雖然這些爬取的網(wǎng)絡(luò)數(shù)據(jù)包含大量高質(zhì)量的文本（如維基百科），但也包含非常多低質(zhì)量的文本（如垃圾郵件等），所以過濾并處理網(wǎng)頁數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量對大模型訓(xùn)練非常重要。5.1.1通用數(shù)據(jù)對話文本是指有兩個或更多參與者交流的文本內(nèi)容。對話文本包含書面形式的對話、聊天記錄、論壇帖子、社交媒體評論等。研究表明，對話文本可以有效增強大模型的對話能力，并潛在地提高大模型在多種問答任務(wù)上的表現(xiàn)。對話文本可以通過收集、清洗、歸并等過程從社會媒體、論壇、郵件組等處構(gòu)建。相較于網(wǎng)頁數(shù)據(jù)，對話文本數(shù)據(jù)的收集和處理會困難一些，數(shù)據(jù)量也少很多。常見的對話文本數(shù)據(jù)集包括PushShift.ioReddit、UbuntuDialogueCorpus、DoubanConversationCorpus、ChromiumConversationsCorpus等。此外，還提出了使用大模型自動生成對話文本數(shù)據(jù)的UltraChat方法。5.1.1通用數(shù)據(jù)書籍是人類知識的主要積累方式之一，從古代經(jīng)典到現(xiàn)代學(xué)術(shù)著作，承載了豐富多樣的人類思想。書籍通常包含廣泛的詞匯，包括專業(yè)術(shù)語、文學(xué)表達(dá)及各種主題詞匯。利用書籍?dāng)?shù)據(jù)進(jìn)行訓(xùn)練，大模型可以接觸多樣化的詞匯，從而提高其對不同領(lǐng)域和主題的理解能力。相較于其他數(shù)據(jù)庫，書籍也是最重要的，甚至是唯一的長文本書面語的數(shù)據(jù)來源。書籍提供了完整的句子和段落，使大模型可以學(xué)習(xí)到上下文之間的聯(lián)系。這對于模型理解句子中的復(fù)雜結(jié)構(gòu)、邏輯關(guān)系和語義連貫性非常重要。5.1.1通用數(shù)據(jù)書籍涵蓋了各種文體和風(fēng)格，包括小說、科學(xué)著作、歷史記錄等等。用書籍?dāng)?shù)據(jù)訓(xùn)練大模型，可以使模型學(xué)習(xí)到不同的寫作風(fēng)格和表達(dá)方式，提高大模型在各種文本類型上的能力。受限于版權(quán)因素，開源書籍?dāng)?shù)據(jù)集很少，現(xiàn)有的開源大模型研究通常采用Pile數(shù)據(jù)集中提供的Books3和BookCorpus2數(shù)據(jù)集。5.1.1通用數(shù)據(jù)專業(yè)數(shù)據(jù)包括多語言數(shù)據(jù)、科學(xué)文本數(shù)據(jù)、代碼及領(lǐng)域特有資料等。雖然專業(yè)數(shù)據(jù)在大模型中所占比例通常較低，但是其對改進(jìn)大模型在下游任務(wù)上的特定解決能力有著非常重要的作用。專業(yè)數(shù)據(jù)種類非常多，大模型使用的專業(yè)數(shù)據(jù)主要有三類。5.1.2專業(yè)數(shù)據(jù)多語言數(shù)據(jù)對于增強大模型的語言理解和生成多語言能力具有至關(guān)重要的作用。當(dāng)前的大模型訓(xùn)練除了需要目標(biāo)語言中的文本，通常還要整合多語言數(shù)據(jù)庫。例如，BLOOM的預(yù)訓(xùn)練數(shù)據(jù)中包含46種語言的數(shù)據(jù)，PaLM的預(yù)訓(xùn)練數(shù)據(jù)中甚至包含高達(dá)122種語言的數(shù)據(jù)。研究發(fā)現(xiàn)，通過多語言數(shù)據(jù)混合訓(xùn)練，預(yù)訓(xùn)練模型可以在一定程度上自動構(gòu)建多語言之間的語義關(guān)聯(lián)。因此，多語言數(shù)據(jù)混合訓(xùn)練可以有效提升翻譯、多語言摘要和多語言問答等任務(wù)能力。此外，由于不同語言中不同類型的知識獲取難度不同，多語言數(shù)據(jù)還可以有效地增加數(shù)據(jù)的多樣性和知識的豐富性。5.1.2專業(yè)數(shù)據(jù)科學(xué)文本數(shù)據(jù)包括教材、論文、百科及其他相關(guān)資源。這些數(shù)據(jù)對于提升大模型在理解科學(xué)知識方面的能力具有重要作用。科學(xué)文本數(shù)據(jù)的來源主要包括arXiv論文、PubMed論文、教材、課件和教學(xué)網(wǎng)頁等。由于科學(xué)領(lǐng)域涉及眾多專業(yè)領(lǐng)域且數(shù)據(jù)形式復(fù)雜，通常還需要對公式、化學(xué)式、蛋白質(zhì)序列等采用特定的符號標(biāo)記并進(jìn)行預(yù)處理。例如，公式可以用LaTeX語法表示，化學(xué)結(jié)構(gòu)可以用SMILES（簡化的分子輸入管路輸入系統(tǒng)）表示，蛋白質(zhì)序列可以用單字母代碼或三字母代碼表示。這樣可以將不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的形式，使大模型更好地處理和分析科學(xué)文本數(shù)據(jù)。5.1.2專業(yè)數(shù)據(jù)代碼是進(jìn)行程序生成任務(wù)所必需的訓(xùn)練數(shù)據(jù)。研究表明，通過在大量代碼上進(jìn)行預(yù)訓(xùn)練，大模型可以有效提升代碼生成的效果。程序代碼除本身之外，還包含大量的注釋信息。代碼不同于自然語言文本，它是一種格式化語言，對應(yīng)著長程依賴和準(zhǔn)確的執(zhí)行邏輯。代碼的語法結(jié)構(gòu)、關(guān)鍵字和特定的編程范式都對其含義和功能起著重要的作用。5.1.2專業(yè)數(shù)據(jù)代碼的主要來源是編程問答社區(qū)和公共軟件倉庫。編程問答社區(qū)中的數(shù)據(jù)包含了開發(fā)者提出的問題、其他開發(fā)者的回答及相關(guān)代碼示例。這些數(shù)據(jù)提供了豐富的語境和真實世界中的代碼使用場景。公共軟件倉庫中的數(shù)據(jù)包含了大量的開源代碼，涵蓋多種編程語言和不同領(lǐng)域。這些代碼庫中的很多代碼經(jīng)過了嚴(yán)格的代碼評審和實際的使用測試，因此具有一定的可靠性。5.1.2專業(yè)數(shù)據(jù)PART02數(shù)據(jù)處理由于數(shù)據(jù)質(zhì)量對于大模型的影響非常大。因此，在收集了各種類型的數(shù)據(jù)之后，需要對數(shù)據(jù)進(jìn)行處理，去除低質(zhì)量數(shù)據(jù)、重復(fù)數(shù)據(jù)、有害信息、個人隱私等內(nèi)容和進(jìn)行詞元切分。5.2數(shù)據(jù)處理互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊，因此，從收集到的數(shù)據(jù)中刪除低質(zhì)量數(shù)據(jù)成為大模型訓(xùn)練中的重要步驟。大模型訓(xùn)練中所使用的低質(zhì)量數(shù)據(jù)過濾方法可以大致分為兩類；基于分類器的方法和基于啟發(fā)式的方法。（1）基于分類器的方法。目標(biāo)是訓(xùn)練文本質(zhì)量判斷模型，利用該模型識別并過濾低質(zhì)量數(shù)據(jù)。GPT-3、PaLM和GLaM模型在訓(xùn)練數(shù)據(jù)構(gòu)造時都使用了基于分類器的方法。例如，基于特征哈希的線性分類器，可以非常高效地完成文本質(zhì)量判斷。5.2.1質(zhì)量過濾該分類器使用一組精選文本（維基百科、書籍和一些選定的網(wǎng)站）進(jìn)行訓(xùn)練，目標(biāo)是給與訓(xùn)練數(shù)據(jù)類似的網(wǎng)頁較高分?jǐn)?shù)。利用這個分類器可以評估網(wǎng)頁的內(nèi)容質(zhì)量。在實際應(yīng)用中，還可以通過使用Pareto分布對網(wǎng)頁進(jìn)行采樣，根據(jù)其得分選擇合適的閾值，從而選定合適的數(shù)據(jù)集。然而，一些研究發(fā)現(xiàn)，基于分類器的方法可能會刪除包含方言或者口語的高質(zhì)量文本，從而損失一定的多樣性。5.2.1質(zhì)量過濾（2）基于啟發(fā)式的方法。通過一組精心設(shè)計的規(guī)則來消除低質(zhì)量文本，BLOOM和Gopher采用了基于啟發(fā)式的方法。一些啟發(fā)式規(guī)則如下?！ふZ言過濾：如果一個大模型僅關(guān)注一種或者幾種語言，則可以大幅過濾數(shù)據(jù)中其他語言的文本?！ぶ笜?biāo)過濾：利用評測指標(biāo)也可以過濾低質(zhì)量文本。例如，可以使用語言模型對給定文本的困惑度進(jìn)行計算，利用該值過濾非自然的句子。5.2.1質(zhì)量過濾·統(tǒng)計特征過濾：針對文本內(nèi)容可以計算包括標(biāo)點符號分布、符號字比、句子長度在內(nèi)的統(tǒng)計特征，利用這些特征過濾低質(zhì)量數(shù)據(jù)?！りP(guān)鍵詞過濾：根據(jù)特定的關(guān)鍵詞集，可以識別并刪除文本中的噪聲或無用元素。例如，HTML標(biāo)簽、超鏈接及冒犯性詞語等。5.2.1質(zhì)量過濾在大模型出現(xiàn)之前，在自然語言處理領(lǐng)域已經(jīng)開展了很多文章質(zhì)量判斷相關(guān)的研究，主要應(yīng)用于搜索引擎、社會媒體、推薦系統(tǒng)、廣告排序及作文評分等任務(wù)中。在搜索和推薦系統(tǒng)中，內(nèi)容結(jié)果的質(zhì)量是影響用戶體驗的重要因素之一，因此，此前很多工作都是針對用戶生成內(nèi)容的質(zhì)量進(jìn)行判斷的。5.2.1質(zhì)量過濾自動作文評分也是文章質(zhì)量判斷領(lǐng)域的一個重要子任務(wù)，自1998年提出使用貝葉斯分類器進(jìn)行作文評分預(yù)測以來，基于SVM、CNN-RNN、BERT等方法的作文評分算法相繼被提出，并取得了較大的進(jìn)展。這些方法都可以應(yīng)用于大模型預(yù)訓(xùn)練數(shù)據(jù)過濾。由于預(yù)訓(xùn)練數(shù)據(jù)量非常大，并且對質(zhì)量判斷的準(zhǔn)確率要求并不很高，因此一些基于深度學(xué)習(xí)和預(yù)訓(xùn)練的方法還沒有應(yīng)用于低質(zhì)過濾中。5.2.1質(zhì)量過濾研究表明，大模型訓(xùn)練數(shù)據(jù)庫中的重復(fù)數(shù)據(jù)會降低大模型的多樣性，并可能導(dǎo)致訓(xùn)練過程不穩(wěn)定，從而影響模型性能。因此，需要對預(yù)訓(xùn)練數(shù)據(jù)庫中的重復(fù)數(shù)據(jù)進(jìn)行處理，去除其中的冗余部分。文本冗余發(fā)現(xiàn)也被稱為文本重復(fù)檢測，是自然語言處理和信息檢索中的基礎(chǔ)任務(wù)之一，其目標(biāo)是發(fā)現(xiàn)不同粒度上的文本重復(fù)，包括句子、段落、文檔、數(shù)據(jù)集等不同級別。在實際產(chǎn)生預(yù)訓(xùn)練數(shù)據(jù)時，冗余去除需要從不同粒度著手，這對改善語言模型的訓(xùn)練效果具有重要作用。5.2.2冗余去除在句子級別上，包含重復(fù)單詞或短語的句子很可能造成語言建模中引入重復(fù)的模式。這對語言模型來說會產(chǎn)生非常嚴(yán)重的影響，使模型在預(yù)測時容易陷入重復(fù)循環(huán)。重復(fù)循環(huán)對語言模型生成的文本質(zhì)量的影響非常大，因此在預(yù)訓(xùn)練數(shù)據(jù)中需要刪除這些包含大量重復(fù)單詞或者短語的句子。5.2.2冗余去除在文檔級別上，大部分大模型依靠文檔之間的表面特征相似度（例如n-gram重疊比例）進(jìn)行檢測并刪除重復(fù)文檔。LLaMA采用CCNet處理模式，先將文檔拆分為段落，并把所有字符轉(zhuǎn)換為小寫字符、將數(shù)字替換為占位符，刪除所有Unicode標(biāo)點符號和重音符號，對每個段落進(jìn)行規(guī)范化處理。然后，使用SHA-1方法為每個段落計算一個哈希碼，并使用前64位數(shù)字作為鍵。5.2.2冗余去除最后，利用每個段落的鍵進(jìn)行重復(fù)判斷。RefinedWeb先去除頁面中的菜單、標(biāo)題、頁腳、廣告等內(nèi)容，僅抽取頁面中的主要內(nèi)容。在此基礎(chǔ)上，在文檔級別進(jìn)行過濾，使用n-gram重復(fù)程度來衡量句子、段落及文檔的相似度。如果超過預(yù)先設(shè)定的閾值，則會過濾重復(fù)段落或文檔。此外，數(shù)據(jù)集級別上也可能存在一定數(shù)量的重復(fù)情況，比如很多大模型預(yù)訓(xùn)練數(shù)據(jù)集都會包含GitHub、維基百科、C4等。需要特別注意預(yù)訓(xùn)練數(shù)據(jù)中混入測試數(shù)據(jù)，造成數(shù)據(jù)集污染的情況。5.2.2冗余去除由于絕大多數(shù)預(yù)訓(xùn)練數(shù)據(jù)源于互聯(lián)網(wǎng)，因此不可避免地會包含涉及敏感或個人信息的用戶生成內(nèi)容，這可能會增加隱私泄露的風(fēng)險。因此，有必要從預(yù)訓(xùn)練數(shù)據(jù)庫中刪除包含個人身份信息的內(nèi)容。刪除隱私數(shù)據(jù)最直接的方法是采用基于規(guī)則的算法，BigScienceROOTSCorpus在構(gòu)建過程中就采用了基于命名實體識別的方法，利用算法檢測姓名、地址、電話號碼等個人信息內(nèi)容并進(jìn)行刪除或者替換。該方法被集成在muliwai類庫中，使用了基于Transformer的模型，并結(jié)合機器翻譯技術(shù)，可以處理超過100種語言的文本，消除其中的隱私信息。5.2.3隱私消除傳統(tǒng)的自然語言處理通常以單詞為基本處理單元，模型都依賴預(yù)先確定的詞表，在編碼輸入詞序列時，這些詞表示模型只能處理詞表中存在的詞。因此，使用時如果遇到不在詞表中的未登錄詞，模型無法為其生成對應(yīng)的表示，只能給予這些未登錄詞一個默認(rèn)的通用表示。5.2.4詞元切分在深度學(xué)習(xí)模型中，詞表示模型會預(yù)先在詞表中加入一個默認(rèn)的“[UNK]”標(biāo)識，表示未知詞，并在訓(xùn)練的過程中將[UNK]的向量作為詞表示矩陣的一部分一起訓(xùn)練，通過引入某些相應(yīng)機制來更新[UNK]向量的參數(shù)。使用時，對全部未登錄詞使用[UNK]向量作為表示向量。此外，基于固定詞表的詞表示模型對詞表大小的選擇比較敏感。當(dāng)詞表過小時，未登錄詞的比例較高，影響模型性能；當(dāng)詞表大小過大時，大量低頻詞出現(xiàn)在詞表中，這些詞的詞向量很難得到充分學(xué)習(xí)。理想模式下，詞表示模型應(yīng)能覆蓋絕大部分的輸入詞，并避免詞表過大所造成的數(shù)據(jù)稀疏問題。5.2.4詞元切分為了緩解未登錄詞問題，一些工作通過利用亞詞級別的信息構(gòu)造詞表示向量。一種直接的解決思路是為輸入建立字符級別表示，并通過字符向量的組合獲得每個單詞的表示，以解決數(shù)據(jù)稀疏問題。然而，單詞中的詞根、詞綴等構(gòu)詞模式往往跨越多個字符，基于字符表示的方法很難學(xué)習(xí)跨度較大的模式。為了充分學(xué)習(xí)這些構(gòu)詞模式，研究人員提出了子詞詞元化方法，試圖緩解未登錄詞問題。詞元表示模型會維護(hù)一個詞元詞表，其中既存在完整的單詞，也存在形如“c”“re”“ing”等單詞的部分信息，稱為子詞。5.2.4詞元切分詞元表示模型對詞表中的每個詞元計算一個定長向量表示，供下游模型使用。對于輸入的詞序列，詞元表示模型將每個詞拆分為詞表內(nèi)的詞元。例如，將單詞“reborn”拆分為“re”和“born”。模型隨后查詢每個詞元的表示，將輸入重新組成詞元表示序列。當(dāng)下游模型需要計算一個單詞或詞組的表示時，可以將對應(yīng)范圍內(nèi)的詞元表示合成需要的表示。因此，詞元表示模型能夠較好地解決自然語言處理系統(tǒng)中未登錄詞的問題。詞元分析是將原始文本分割成詞元序列的過程。詞元切分也是數(shù)據(jù)預(yù)處理中至關(guān)重要的一步。5.2.4詞元切分字節(jié)對編碼是一種常見的子詞詞元算法。該算法采用的詞表包含最常見的單詞及高頻出現(xiàn)的子詞。使用時，常見詞通常位于字節(jié)對編碼詞表中，而罕見詞通常能被分解為若干個包含在字節(jié)對編碼詞表中的詞元，從而大幅減小未登錄詞的比例。字節(jié)對編碼算法包括以下兩個部分。（1）詞元詞表的確定。（2）全詞切分為詞元及詞元合并為全詞的方法。5.2.4詞元切分PART03數(shù)據(jù)影響分析過去自然語言處理是一個任務(wù)用標(biāo)注數(shù)據(jù)訓(xùn)練一個模型，而現(xiàn)在可以在大量無標(biāo)注的語料上預(yù)訓(xùn)練出一個在少量有監(jiān)督數(shù)據(jù)上微調(diào)就能做很多任務(wù)的模型。這其實就比較接近人類學(xué)習(xí)語言的過程。例如參加某個考試測試英文能力的好壞，里面有聽說讀寫等各式各樣的任務(wù)，有填空和選擇等很多題型。但我們學(xué)習(xí)英文的方法并不是去做大量的選擇題，而是背大量的英文單詞，理解它的詞性、意思，閱讀大量的英文文章、掌握它在段落中的用法，你只需做少量的選擇題，就可以通過某個語言能力的測試。這便是自然語言處理領(lǐng)域所追求的目標(biāo)。5.3數(shù)據(jù)影響分析我們期待可以訓(xùn)練一個模型，它真的了解人類的語言，在需要解決各式各樣的任務(wù)的時候，只需要稍微微調(diào)一下，它就知道怎么做了（見圖5-3）。

圖5-3在預(yù)訓(xùn)練基礎(chǔ)上微調(diào)5.3數(shù)據(jù)影響分析大模型的訓(xùn)練需要大量的計算資源，通常不可能進(jìn)行多次。有千億級參數(shù)量的大模型進(jìn)行一次預(yù)訓(xùn)練需要花費數(shù)百萬元的計算成本。因此，在正式訓(xùn)練大模型之前，構(gòu)建一個準(zhǔn)備充分的預(yù)訓(xùn)練數(shù)據(jù)庫尤為重要。5.3數(shù)據(jù)影響分析隨著大模型參數(shù)規(guī)模的增加，為了有效地訓(xùn)練模型，需要收集足夠數(shù)量的高質(zhì)量數(shù)據(jù)。在針對模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量及總計算量與模型效果之間關(guān)系的研究被提出之前，大部分大模型訓(xùn)練所采用的訓(xùn)練數(shù)據(jù)量相較于LLaMA等新的大模型都少很多。5.3.1數(shù)據(jù)規(guī)模DeepMind的研究人員描述了他們訓(xùn)練400多個語言模型后得出的分析結(jié)果（模型的參數(shù)量從7000萬個到160億個，訓(xùn)練數(shù)據(jù)量從5億個詞元到5000億個詞元）。研究發(fā)現(xiàn)，如果希望模型訓(xùn)練達(dá)到計算最優(yōu)，則模型大小和訓(xùn)練詞元數(shù)量應(yīng)該等比例縮放，即模型大小加倍則訓(xùn)練詞元數(shù)量也應(yīng)該加倍。5.3.1數(shù)據(jù)規(guī)模為了驗證該分析結(jié)果，他們使用與Gopher語言模型訓(xùn)練相同的計算資源，根據(jù)上述理論預(yù)測了Chinchilla語言模型的最優(yōu)參數(shù)量與詞元量組合。最終確定Chinchilla語言模型具有700億個參數(shù)，使用了1.4萬億個詞元進(jìn)行訓(xùn)練。通過實驗發(fā)現(xiàn)，Chinchilla在很多下游評估任務(wù)中都顯著地優(yōu)于Gopher（280B）、GPT-3（175B）、Jurassic-1（178B）及Megatron-TuringNLG（530B）。5.3.1數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量是影響大模型訓(xùn)練效果的關(guān)鍵因素之一。大量重復(fù)的低質(zhì)量數(shù)據(jù)會導(dǎo)致訓(xùn)練過程不穩(wěn)定，模型訓(xùn)練不收斂。研究表明，訓(xùn)練數(shù)據(jù)的構(gòu)建時間、包含噪聲或有害信息情況、數(shù)據(jù)重復(fù)率等因素，都對語言模型性能產(chǎn)生較大影響。語言模型在經(jīng)過清洗的高質(zhì)量數(shù)據(jù)上訓(xùn)練數(shù)據(jù)可得到更好的性能。5.3.2數(shù)據(jù)質(zhì)量Gopher語言模型在訓(xùn)練時針對文本質(zhì)量進(jìn)行相關(guān)實驗，具有140億個參數(shù)的模型在OpenWebText、C4及不同版本的MassiveWeb數(shù)據(jù)集上訓(xùn)練得到模型效果對比。他們分別測試了利用不同數(shù)據(jù)訓(xùn)練得到的模型在Wikitext103單詞預(yù)測、CuraticCorpus摘要及Lambada書籍級別的單詞預(yù)測三個下游任務(wù)上的表現(xiàn)。從結(jié)果可以看到，使用經(jīng)過過濾和去重的MassiveWeb數(shù)訓(xùn)練得到的語言模型，在三個任務(wù)上都遠(yuǎn)好于使用未經(jīng)處理的數(shù)據(jù)訓(xùn)練得到的模型。使用經(jīng)過處理的MassiveWeb數(shù)據(jù)訓(xùn)練得到的語言模型在下游任務(wù)上的表現(xiàn)也遠(yuǎn)好于使用OpenWebText和C4數(shù)據(jù)集訓(xùn)練得到的結(jié)果。5.3.2數(shù)據(jù)質(zhì)量構(gòu)建GLaM語言模型時，也對訓(xùn)練數(shù)據(jù)質(zhì)量的影響進(jìn)行了分析。實驗結(jié)果可以看到使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型在自然語言生成和自然語言理解任務(wù)上表現(xiàn)更好。特別是，高質(zhì)量數(shù)據(jù)對自然語言生成任務(wù)的影響大于自然語言理解任務(wù)。這可能是因為自然語言生成任務(wù)通常需要生成高質(zhì)量的語言，過濾預(yù)訓(xùn)練數(shù)據(jù)庫對語言模型的生成能力至關(guān)重要。預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量在下游任務(wù)的性能中也扮演著關(guān)鍵角色。來自不同領(lǐng)域、使用不同語言、應(yīng)用于不同場景的訓(xùn)練數(shù)據(jù)具有不同的語言特征，包含不同語義知識。通過使用不同來源的數(shù)據(jù)進(jìn)行訓(xùn)練，大模型可以獲得廣泛的知識。5.3.2數(shù)據(jù)質(zhì)量PART04典型的開源數(shù)據(jù)集隨著基于統(tǒng)計機器學(xué)習(xí)的自然語言處理算法的發(fā)展，以及信息檢索研究的需求增加，特別是對深度學(xué)習(xí)和預(yù)訓(xùn)練語言模型的研究更深入，研究人員構(gòu)建了多種大規(guī)模開源數(shù)據(jù)集，涵蓋了網(wǎng)頁、圖書、論文、百科等多個領(lǐng)域。在構(gòu)建大模型時，數(shù)據(jù)的質(zhì)量和多樣性對于提高模型的性能至關(guān)重要。同時，為了推動大模型的研究和應(yīng)用，學(xué)術(shù)界和工業(yè)界也開放了多個針對大模型的開源數(shù)據(jù)集。5.4典型的開源數(shù)據(jù)集Pile數(shù)據(jù)集是一個用于大模型訓(xùn)練的多樣性大規(guī)模文本數(shù)據(jù)庫，由22個不同的高質(zhì)量子集構(gòu)成，包括現(xiàn)有的和新構(gòu)建的，主要來自學(xué)術(shù)或?qū)I(yè)領(lǐng)域。這些子集包括Pile-CC（清洗后的CommonCrawl子集）、Wikipedia、OpenWebText2、ArXiv、PubMedCentral等。Pile的特點是包含大量多樣化文本，涵蓋不同領(lǐng)域和主題，從而提高了訓(xùn)練數(shù)據(jù)集的多樣性和豐富性。5.4.1PilePile數(shù)據(jù)集包含825GB英文文本，其數(shù)據(jù)類型組成大體上如圖5-4所示，所占面積大小表示數(shù)據(jù)在整個數(shù)據(jù)集中所占的規(guī)模。

圖5-4Pile數(shù)據(jù)集的主要構(gòu)成5.4.1PilePile數(shù)據(jù)集的部分子集簡單介紹如下。（1）Pile-CCC：通過在WebArchive文件上使用jusText方法提取，比直接使用WET文件產(chǎn)生更高質(zhì)量的輸出。（2）PubMedCentral（PMC）：是由美國國家生物技術(shù)信息中心（NCBI）運營的PubMed生物醫(yī)學(xué)在線資源庫的一個子集，提供對近500萬份出版物的開放全文訪問。5.4.1Pile（3）OpenWebText2（OWT2）：是一個基于WebText1和OpenWobTextCorpts的通用數(shù)據(jù)集，它包括來自多種語言的文本內(nèi)容、網(wǎng)頁文本元數(shù)據(jù)，以及多個開源數(shù)據(jù)集和開源代碼庫。（4）ArXiv：是一個自1991年開始運營的研究論文預(yù)印版本發(fā)布服務(wù)平臺。論文主要集中在數(shù)學(xué)、計算機科學(xué)和物理領(lǐng)域。ArXiv上的論文是用LaTeX編寫的，其中公式、符號、表格等內(nèi)容的表示非常適合語言模型學(xué)習(xí)。5.4.1Pile（5）GitHub：是一個大型的開源代碼庫，對于語言模型完成代碼生成、代碼補全等任務(wù)具有非常重要的作用。（6）FreeLaw：是一個非營利項目，為法律學(xué)術(shù)研究提供訪問和分析工具．CourtListener是FreeLaw項目的一部分，包含美國聯(lián)邦和州法院的數(shù)百萬法律意見，并提供批量下載服務(wù)。5.4.1Pile（7）StackExchange：是一個圍繞用戶提供問題和答案的網(wǎng)站集合，其中StackExchangeDataDump包含了網(wǎng)站集合中所有用戶貢獻(xiàn)的內(nèi)容的匿名數(shù)據(jù)集。它是最大的問題-答案對數(shù)據(jù)集之一，包括編程、園藝、藝術(shù)等主題。（8）USPTO：是美國專利商標(biāo)局授權(quán)專利背景數(shù)據(jù)集，源于其公布的批量檔案。該數(shù)據(jù)集包含大量關(guān)于應(yīng)用主題的技術(shù)內(nèi)容，如任務(wù)背景、技術(shù)領(lǐng)域概述、建立問題空間框架等。5.4.1Pile（9）Wikipedia（English）：是維基百科的英文部分。維基百科旨在提供各種主題的知識，是世界上最大的在線百科全書之一。（10）PubMed：是由PubMed的3000萬份出版物的摘要組成的數(shù)據(jù)集。它是由美國國家醫(yī)學(xué)圖書館運營的生物醫(yī)學(xué)文章在線存儲庫，它還包含1946年至今的生物醫(yī)學(xué)摘要。（11）OpenSubtitles：是由英文電影和電視的字幕組成的數(shù)據(jù)集。字幕是對話的重要來源并且可以增強模型對虛構(gòu)格式的理解，對創(chuàng)造性寫作任務(wù)（如劇本寫作、演講寫作、交式故事講述等）有一定作用。5.4.1Pile（12）DeepMindMathematics：以自然語言提示形式給出，由代數(shù)、算術(shù)、微積分、數(shù)論和概率等一系列數(shù)學(xué)問題組成的數(shù)據(jù)集。大模型在數(shù)學(xué)任務(wù)上的表現(xiàn)較差，這可能是由于訓(xùn)練集中缺乏數(shù)學(xué)問題。因此，Pile數(shù)據(jù)集中專門增加數(shù)學(xué)問題數(shù)據(jù)集，期望增強通過Pile數(shù)據(jù)集訓(xùn)練的語言模型的數(shù)學(xué)能力。（13）PhilPapers：由國際數(shù)據(jù)庫中的哲學(xué)出版物組成，它涵蓋了廣泛的抽象、概念性話語，文本寫作質(zhì)量也非常高。5.4.1Pile（14）NIH：包含1985年至今獲得NIH資助的項目申請摘要，是高質(zhì)量的科學(xué)寫作實例。Pile中不同數(shù)據(jù)子集所占比例及訓(xùn)練時的采樣權(quán)重有很大不同，高質(zhì)量的數(shù)據(jù)會有更高的采樣權(quán)重。例如，Pile-CC數(shù)據(jù)集包含227.12GB數(shù)據(jù)，整個訓(xùn)練周期中采樣1輪，雖然維基百科（英文）數(shù)據(jù)集僅有6.38GB的數(shù)據(jù)，但是整個訓(xùn)練周期中采樣3輪。5.4.1PileROOTS（負(fù)責(zé)任的開放科學(xué)、開放協(xié)作文本源）數(shù)據(jù)集是Big-Science項目在訓(xùn)練具有1760億個參數(shù)的BLOOM大模型時使用的數(shù)據(jù)集，其中包含46種自然語言和13種編程語言，整個數(shù)據(jù)集約1.6TB。5.4.2ROOTSROOTS數(shù)據(jù)主要來源于四個方面：公開數(shù)據(jù)、虛擬抓取、GitHub代碼、網(wǎng)頁數(shù)據(jù)。（1）在公開數(shù)據(jù)方面，目標(biāo)是收集盡可能多的各種類型的數(shù)據(jù)，包括自然語言處理數(shù)據(jù)集和各類型文檔數(shù)據(jù)集。在收集原始數(shù)據(jù)集的基礎(chǔ)上，進(jìn)一步從語言和統(tǒng)一表示方面對收集的文檔進(jìn)行規(guī)范化處理。識別數(shù)據(jù)集所屬語言并分類存儲，將所有數(shù)據(jù)都按照統(tǒng)一的文本和元數(shù)據(jù)結(jié)構(gòu)進(jìn)行表示。5.4.2ROOTS（2）在虛擬抓取方面，由于很多語言的現(xiàn)有公開數(shù)據(jù)集較少，因此這些語言的網(wǎng)頁信息是十分重要的資源補充。在ROOTS數(shù)據(jù)集中，采用網(wǎng)頁鏡像，選取了614個域名，從這些域名下的網(wǎng)頁中提取文本內(nèi)容補充到數(shù)據(jù)集中，以提升語言的多樣性。（3）在GitHub代碼方面，針對程序語言，ROOTS數(shù)據(jù)集從BigQuery公開數(shù)據(jù)集中選取文件長度在100到20萬字符，字母符號占比在15％至65％，最大行數(shù)在20至1000行的代碼。5.4.2ROOTS（4）大模型訓(xùn)練中，網(wǎng)頁數(shù)據(jù)對于數(shù)據(jù)的多樣性和數(shù)據(jù)量支撐都起到重要的作用。ROOTS數(shù)據(jù)集中包含了OSCAR21.09版本，對應(yīng)的是CommonCrawl2021年2月的快照，占整體ROOTS數(shù)據(jù)集規(guī)模的38％。5.4.2ROOTS在數(shù)據(jù)準(zhǔn)備完成后，還要進(jìn)行清洗、過濾、去重及隱私信息刪除等工作，ROOTS數(shù)據(jù)集處理流程如圖5-5所示。整個處理工作采用人工與自動相結(jié)合的方法，針對數(shù)據(jù)中存在的一些非自然語言的文本，例如預(yù)處理錯誤、SEO頁面或垃圾郵件，構(gòu)建ROOTS數(shù)據(jù)集時會進(jìn)行一定的處理。

圖5-5ROOTS數(shù)據(jù)集處理流程5.4.2ROOTSPART05數(shù)據(jù)集面臨的挑戰(zhàn)盡管人工智能大模型之間正“卷”向高潮，但實際上，其應(yīng)用的落地部分仍不明確，需要進(jìn)一步的探索和創(chuàng)新。為了適應(yīng)更多細(xì)分的落地場景，大模型之間的“卷”也逐步帶起一堆小模型之間的競爭。好模型離不開好數(shù)據(jù)，好的數(shù)據(jù)集對模型的成功至關(guān)重要，它能提升模型的精確度，讓模型能更準(zhǔn)確地預(yù)測或分類。同時，好的數(shù)據(jù)集還能增強模型的可解釋性，使人們更容易理解模型的決策過程，也有助于模型更快地收斂到最優(yōu)解。這意味著模型的訓(xùn)練時間將大大縮短，實打?qū)嵉男屎统杀臼呛诵母偁幜Α?.5數(shù)據(jù)集面臨的挑戰(zhàn)由于數(shù)據(jù)來源多樣、類型復(fù)雜，大模型數(shù)據(jù)集存在質(zhì)量參差不齊的問題。高質(zhì)量的數(shù)據(jù)集需要專業(yè)的標(biāo)注和清洗過程，包括對數(shù)據(jù)的詳細(xì)分類、校對和驗證，以確保模型能夠接收準(zhǔn)確、一致和有用的信息。然而，部分?jǐn)?shù)據(jù)集因缺乏嚴(yán)格的標(biāo)注和清洗流程，導(dǎo)致數(shù)據(jù)質(zhì)量不如意，包括標(biāo)注錯誤、數(shù)據(jù)重復(fù)和不平衡的數(shù)據(jù)分布，都可能削弱人工智能大模型的訓(xùn)練效果，從另外一個角度看，這也凸顯了高質(zhì)量數(shù)據(jù)的價值。高質(zhì)量數(shù)據(jù)集不僅能夠提升模型的性能，由于其收集和處理的復(fù)雜性，成本也相對較高。5.5.1數(shù)據(jù)集規(guī)模和質(zhì)量待提升與此同時，數(shù)據(jù)文化有其自身的特色，例如在數(shù)據(jù)集的共享和開放性方面的相對謹(jǐn)慎。由于對數(shù)據(jù)隱私、安全以及商業(yè)競爭的考慮，許多有價值的數(shù)據(jù)庫并沒有公開。從技術(shù)角度看，這種做法可能會限制數(shù)據(jù)集的廣泛應(yīng)用和研究。然而換個角度來看，保持?jǐn)?shù)據(jù)的獨立性和私密性也有其合理性。這種做法有助于保護(hù)敏感信息，防止數(shù)據(jù)被濫用，同時也鼓勵企業(yè)和機構(gòu)投資于數(shù)據(jù)收集和分析，以獲得競爭優(yōu)勢，也體現(xiàn)了對數(shù)據(jù)安全和商業(yè)利益的重視。5.5.1數(shù)據(jù)集規(guī)模和質(zhì)量待提升未來，大模型會呈現(xiàn)出一種增長飛輪效應(yīng)，然而無論模型變得多么龐大，數(shù)據(jù)集的質(zhì)量始終是關(guān)鍵。為了從公開網(wǎng)絡(luò)中獲取高質(zhì)量的數(shù)據(jù)，我們需要尋找那些內(nèi)容質(zhì)量高、規(guī)模大的平臺。相對的，中文數(shù)據(jù)集在人工智能研究中進(jìn)展較慢，部分原因是構(gòu)建中文數(shù)據(jù)集的難度大，且自然語言處理算法的進(jìn)步與中文數(shù)據(jù)集關(guān)聯(lián)性不強。這些因素導(dǎo)致中文的自然語言處理數(shù)據(jù)集在數(shù)量和質(zhì)量上與國外存在明顯差距。5.5.1數(shù)據(jù)集規(guī)模和質(zhì)量待提升為了有效縮小這一差距，同時考慮實際操作、成本效益和時間效率，推動關(guān)鍵行業(yè)應(yīng)用數(shù)據(jù)集的發(fā)展，不僅能加快中文自然語言處理技術(shù)的發(fā)展，還能確保其在實際應(yīng)用中的高效和實用。5.5.1數(shù)據(jù)集規(guī)模和質(zhì)量待提升伴隨著GPT系列大模型的火熱，國內(nèi)的科大訊飛星火認(rèn)知、百度文心一言、商湯商量、智譜AI-ChatGLM、阿里巴巴通義千問，百川智能百川等大模型相繼面市，發(fā)展呈現(xiàn)百花齊放的盛況，與此同時，數(shù)據(jù)的發(fā)展需要跟上這一步伐。5.5.2大模型與數(shù)據(jù)集相輔相成達(dá)摩院院長、湖畔實驗室主任張建鋒建議統(tǒng)籌建設(shè)高質(zhì)量醫(yī)學(xué)影像數(shù)據(jù)集，推動醫(yī)療人工智能技術(shù)的廣泛應(yīng)用，進(jìn)而促進(jìn)醫(yī)療行業(yè)的發(fā)展。在模型和數(shù)據(jù)相互助力方面，達(dá)摩院與全球多家頂級醫(yī)療機構(gòu)合作，創(chuàng)建了一個迄今為止最大的胰腺腫瘤CT影像訓(xùn)練集，并利用它訓(xùn)練出一個具有強大泛化能力的人工智能模型。據(jù)報道，在一個包含2萬多人的回顧性真實病例試驗中，該模型成功發(fā)現(xiàn)了31例之前未被診斷出的臨床病變，其中2例病患已經(jīng)通過手術(shù)治愈。這項研究的成果被發(fā)表在了國際著名的醫(yī)學(xué)期刊《自然·醫(yī)學(xué)》上。5.5.2大模型與數(shù)據(jù)集相輔相成可見，好的人工智能模型和好的數(shù)據(jù)集相輔相成，互相助力。大模型如同大腦，通過深度學(xué)習(xí)與不斷優(yōu)化，實現(xiàn)智能識別、預(yù)測與分析；而數(shù)據(jù)集則如同養(yǎng)料，為大模型提供豐富、準(zhǔn)確的信息來源。只有優(yōu)秀的大模型與高質(zhì)量的數(shù)據(jù)集相結(jié)合，才能充分發(fā)揮人工智能的潛力，為各行各業(yè)帶來顛覆性的變革。5.5.2大模型與數(shù)據(jù)集相輔相成例如，假設(shè)初次見面，我們讓星火認(rèn)知大模型做自我介紹。問題（提示）很簡單，就用“你好，請介紹一下你自己，我該如何向你提問才能得到有效的答案？”看看它的回復(fù)（見圖5-6）。

圖5-6科大訊飛星火認(rèn)知大模型

的“初次相識”回復(fù)5.5.2大模型與數(shù)據(jù)集相輔相成感興趣的讀者可以自行選擇不同的中文大模型產(chǎn)品來體驗，了解不同產(chǎn)品回復(fù)，在信息組織，邏輯性強，傳達(dá)信息的高效和精確等方面，做出自己的評價。5.5.2大模型與數(shù)據(jù)集相輔相成人工智能大模型在眾多領(lǐng)域展現(xiàn)出驚人的成長速度，但大模型所需的數(shù)據(jù)集標(biāo)準(zhǔn)和規(guī)范卻不夠健全，略顯滯后，在一定程度上影響了大模型的訓(xùn)練效果和應(yīng)用范圍?！秶倚乱淮斯ぶ悄軜?biāo)準(zhǔn)體系建設(shè)指南》中提出，要“初步建立人工智能標(biāo)準(zhǔn)體系，重點研制數(shù)據(jù)算法、系統(tǒng)、服務(wù)等重點急需標(biāo)準(zhǔn)，并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點行業(yè)和領(lǐng)域進(jìn)行推進(jìn)。建設(shè)人工智能標(biāo)準(zhǔn)試驗驗證平臺，提供公共服務(wù)能力?！?.5.3數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范需健全國家工業(yè)信息安全發(fā)展研究中心2023年9月14日發(fā)布《AI大模型發(fā)展白皮書》

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第5章 大模型預(yù)訓(xùn)練數(shù)據(jù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

第5章大模型預(yù)訓(xùn)練數(shù)據(jù)