大語言模型基礎(chǔ)微課版課件 第5、6章 大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開發(fā)組織_第1頁
大語言模型基礎(chǔ)微課版課件 第5、6章 大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開發(fā)組織_第2頁
大語言模型基礎(chǔ)微課版課件 第5、6章 大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開發(fā)組織_第3頁
大語言模型基礎(chǔ)微課版課件 第5、6章 大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開發(fā)組織_第4頁
大語言模型基礎(chǔ)微課版課件 第5、6章 大模型預(yù)訓(xùn)練數(shù)據(jù)、大模型開發(fā)組織_第5頁
已閱讀5頁,還剩206頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

浙江省普通本科高?!笆奈濉敝攸c教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ:81505050第5章大模型預(yù)訓(xùn)練數(shù)據(jù)一般情況下,用于預(yù)訓(xùn)練的都是具備復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),眾多參數(shù)量,以及足夠大數(shù)據(jù)集的大模型。在自然語言處理領(lǐng)域,預(yù)訓(xùn)練模型往往是語言模型(見圖5-1),其訓(xùn)練是無監(jiān)督的,可以獲得大規(guī)模語料。同時,語言模型又是許多典型自然語言處理任務(wù)的基礎(chǔ),如機器翻譯、文本生成、閱讀理解等。第5章大模型預(yù)訓(xùn)練數(shù)據(jù)

圖5-1從語言模型嵌入第5章大模型預(yù)訓(xùn)練數(shù)據(jù)(1)在RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))模型中,每一個詞嵌入的輸出要參考前面已經(jīng)輸入過的數(shù)據(jù),所以叫做上下文詞嵌入。(2)除了考慮每個詞嵌入前文,同時還要考慮后文,所以再從句尾向句首訓(xùn)練。(3)使用多層隱藏層后,最終的詞嵌入=該詞所有層的詞嵌入的加權(quán)平均(見右圖)。圖5-2從句子中訓(xùn)練第5章大模型預(yù)訓(xùn)練數(shù)據(jù)訓(xùn)練大模型需要數(shù)萬億各類型數(shù)據(jù)。如何構(gòu)造海量“高質(zhì)量”數(shù)據(jù)對于大模型的訓(xùn)練至關(guān)重要。研究表明,預(yù)訓(xùn)練數(shù)據(jù)是影響大模型效果及樣本泛化能力的關(guān)鍵因素之一。大模型預(yù)訓(xùn)練數(shù)據(jù)要覆蓋盡可能多的領(lǐng)域、語言、文化和視角,通常來自網(wǎng)絡(luò)、圖書、論文、百科和社交媒體等。第5章大模型預(yù)訓(xùn)練數(shù)據(jù)01大模型預(yù)訓(xùn)練數(shù)據(jù)02數(shù)據(jù)處理03數(shù)據(jù)影響分析04典型的開源數(shù)據(jù)集目錄/CONTENTS05訓(xùn)練集、測試集、驗證集的異同06數(shù)據(jù)集面臨的挑戰(zhàn)PART01大模型預(yù)訓(xùn)練數(shù)據(jù)OpenAI訓(xùn)練GPT-3使用的主要數(shù)據(jù)來源,包含經(jīng)過過濾的CommonCravwl、WebText2、Books1、Books2及英文維基百科等數(shù)據(jù)集。其中CommonCrawl的原始數(shù)據(jù)有45TB,過濾后僅保留了570GB的數(shù)據(jù)。通過詞元方式對上述數(shù)據(jù)進(jìn)行切分,大約包含5000億個詞元。為了保證模型使用更多高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,在訓(xùn)練GPT-3時,根據(jù)數(shù)據(jù)來源的不同,設(shè)置不同的采樣權(quán)重。在完成3000億個詞元的訓(xùn)練時,英文維基百科的數(shù)據(jù)平均訓(xùn)練輪數(shù)為3.4次,而CommonCrawl和Books2僅有0.44次和0.43次。5.1數(shù)據(jù)來源另一個例子,由于CommonCrawl數(shù)據(jù)集的過濾過程繁瑣復(fù)雜,Meta公司的研究人員在訓(xùn)練OPT模型時,采用了混合RoBERTa、Pile和PushShift.ioReddit數(shù)據(jù)的方法。由于這些數(shù)據(jù)集中包含的絕大部分?jǐn)?shù)據(jù)都是英文數(shù)據(jù),因此OPT也從CommonCrawl數(shù)據(jù)集中抽取了部分非英文數(shù)據(jù)加入訓(xùn)練數(shù)據(jù)。大模型預(yù)訓(xùn)練所需的數(shù)據(jù)來源大體上分為通用數(shù)據(jù)和專業(yè)數(shù)據(jù)兩大類。5.1數(shù)據(jù)來源通用數(shù)據(jù)在大模型訓(xùn)練數(shù)據(jù)中占比非常高,主要包括網(wǎng)頁、圖書、新聞、對話文本等不同類型的數(shù)據(jù),具有規(guī)模大、多樣性和易獲取等特點,因此支持大模型的語言建模和泛化能力。5.1.1通用數(shù)據(jù)網(wǎng)頁是通用數(shù)據(jù)中數(shù)量最多的一類。隨著互聯(lián)網(wǎng)的日益普及,人們通過網(wǎng)站、論壇、博客、App創(chuàng)造了海量的數(shù)據(jù)。網(wǎng)頁數(shù)據(jù)使語言模型能夠獲得多樣化的語言知識并增強其泛化能力。爬取和處理海量網(wǎng)頁內(nèi)容并不是一件容易的事情,因此一些研究人員構(gòu)建了ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等開源網(wǎng)頁數(shù)據(jù)集。雖然這些爬取的網(wǎng)絡(luò)數(shù)據(jù)包含大量高質(zhì)量的文本(如維基百科),但也包含非常多低質(zhì)量的文本(如垃圾郵件等)。因此,過濾并處理網(wǎng)頁數(shù)據(jù)以提高數(shù)據(jù)質(zhì)量對大模型訓(xùn)練非常重要。5.1.1通用數(shù)據(jù)圖書是人類知識的主要積累方式之一,從古代經(jīng)典到現(xiàn)代學(xué)術(shù)著作,承載了豐富多樣的人類思想。圖書通常包含廣泛的詞匯,包括專業(yè)術(shù)語、文學(xué)表達(dá)及各種主題詞匯。利用圖書數(shù)據(jù)進(jìn)行訓(xùn)練,大模型可以接觸多樣化的詞匯,從而提高其對不同領(lǐng)域和主題的理解能力。相較于其他數(shù)據(jù)庫,圖書也是最重要的,甚至是唯一的長文本書面語的數(shù)據(jù)來源。圖書提供了完整的句子和段落,使大模型可以學(xué)習(xí)到上下文之間的聯(lián)系。這對于模型理解句子中的復(fù)雜結(jié)構(gòu)、邏輯關(guān)系和語義連貫性非常重要。5.1.1通用數(shù)據(jù)圖書涵蓋了各種文體和風(fēng)格,包括小說、科學(xué)著作、歷史記錄等等。用圖書數(shù)據(jù)訓(xùn)練大模型,可以使模型學(xué)習(xí)到不同的寫作風(fēng)格和表達(dá)方式,提高大模型在各種文本類型上的能力。受限于版權(quán)因素,開源圖書數(shù)據(jù)集很少,現(xiàn)有的開源大模型研究通常采用Pile數(shù)據(jù)集中提供的Books3和BookCorpus2數(shù)據(jù)集。5.1.1通用數(shù)據(jù)對話文本是指有兩個或更多參與者交流的文本內(nèi)容。對話文本包含書面形式的對話、聊天記錄、論壇帖子、社交媒體評論等。研究表明,對話文本可以有效增強大模型的對話能力,并潛在地提高大模型在多種問答任務(wù)上的表現(xiàn)。對話文本可以通過收集、清洗、歸并等過程從社會媒體、論壇、郵件組等處構(gòu)建。相較于網(wǎng)頁數(shù)據(jù),對話文本數(shù)據(jù)的收集和處理會困難一些,數(shù)據(jù)量也少很多。常見的對話文本數(shù)據(jù)集包括PushShift.ioReddit、UbuntuDialogueCorpus、DoubanConversationCorpus、ChromiumConversationsCorpus等。此外,還提出了使用大模型自動生成對話文本數(shù)據(jù)的UltraChat方法。5.1.1通用數(shù)據(jù)專業(yè)數(shù)據(jù)包括多語言數(shù)據(jù)、科學(xué)文本數(shù)據(jù)、代碼及領(lǐng)域特有資料等。雖然專業(yè)數(shù)據(jù)在大模型中所占比例通常較低,但是其對改進(jìn)大模型在下游任務(wù)上的特定解決能力有著非常重要的作用。專業(yè)數(shù)據(jù)種類非常多,大模型使用的專業(yè)數(shù)據(jù)主要有三類。5.1.2專業(yè)數(shù)據(jù)多語言數(shù)據(jù)對于增強大模型的語言理解和生成多語言能力具有至關(guān)重要的作用。當(dāng)前的大模型訓(xùn)練除了需要目標(biāo)語言中的文本,通常還要整合多語言數(shù)據(jù)庫。例如,BLOOM的預(yù)訓(xùn)練數(shù)據(jù)中包含46種語言的數(shù)據(jù),PaLM的預(yù)訓(xùn)練數(shù)據(jù)中甚至包含高達(dá)122種語言的數(shù)據(jù)。研究發(fā)現(xiàn),通過多語言數(shù)據(jù)混合訓(xùn)練,預(yù)訓(xùn)練模型可以在一定程度上自動構(gòu)建多語言之間的語義關(guān)聯(lián)。因此,多語言數(shù)據(jù)混合訓(xùn)練可以有效提升翻譯、多語言摘要和多語言問答等任務(wù)能力。此外,由于不同語言中不同類型的知識獲取難度不同,多語言數(shù)據(jù)還可以有效地增加數(shù)據(jù)的多樣性和知識的豐富性。5.1.2專業(yè)數(shù)據(jù)科學(xué)文本數(shù)據(jù)包括教材、論文、百科及其他相關(guān)資源。這些數(shù)據(jù)對于提升大模型在理解科學(xué)知識方面的能力具有重要作用。科學(xué)文本數(shù)據(jù)的來源主要包括arXiv論文、PubMed論文、教材、課件和教學(xué)網(wǎng)頁等。由于科學(xué)領(lǐng)域涉及眾多專業(yè)領(lǐng)域且數(shù)據(jù)形式復(fù)雜,通常還需要對公式、化學(xué)式、蛋白質(zhì)序列等采用特定的符號標(biāo)記并進(jìn)行預(yù)處理。例如,公式可以用LaTeX語法表示,化學(xué)結(jié)構(gòu)可以用SMILES(簡化的分子輸入管路輸入系統(tǒng))表示,蛋白質(zhì)序列可以用單字母代碼或三字母代碼表示。這樣可以將不同格式的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的形式,使大模型更好地處理和分析科學(xué)文本數(shù)據(jù)。5.1.2專業(yè)數(shù)據(jù)代碼是進(jìn)行程序生成任務(wù)所必需的訓(xùn)練數(shù)據(jù)。研究表明,通過在大量代碼上進(jìn)行預(yù)訓(xùn)練,大模型可以有效提升代碼生成的效果。程序代碼除本身之外,還包含大量的注釋信息。與自然語言文本不同,代碼是一種格式化語言,對應(yīng)著長程依賴和準(zhǔn)確的執(zhí)行邏輯。代碼的語法結(jié)構(gòu)、關(guān)鍵字和特定的編程范式都對其含義和功能起著重要作用。代碼的主要來源是編程問答社區(qū)和公共軟件倉庫。編程問答社區(qū)中的數(shù)據(jù)包含了開發(fā)者提出的問題、其他開發(fā)者的回答及相關(guān)代碼示例。這些數(shù)據(jù)提供了豐富的語境和真實世界中的代碼使用場景。5.1.2專業(yè)數(shù)據(jù)公共軟件倉庫中的數(shù)據(jù)包含了大量的開源代碼,涵蓋多種編程語言和不同領(lǐng)域。這些代碼庫中的很多代碼經(jīng)過了嚴(yán)格的代碼評審和實際的使用測試,因此具有一定的可靠性。5.1.2專業(yè)數(shù)據(jù)PART02數(shù)據(jù)處理由于數(shù)據(jù)質(zhì)量對于大模型的影響非常大。因此,在收集各種類型的數(shù)據(jù)之后,需要對數(shù)據(jù)進(jìn)行處理,去除低質(zhì)量數(shù)據(jù)、重復(fù)數(shù)據(jù)、有害信息、個人隱私等內(nèi)容和進(jìn)行詞元切分。5.2數(shù)據(jù)處理互聯(lián)網(wǎng)上的數(shù)據(jù)質(zhì)量參差不齊,因此,從收集到的數(shù)據(jù)中刪除過濾掉低質(zhì)量數(shù)據(jù)是大模型訓(xùn)練中的重要步驟,其方法大致分為兩類;基于分類器的方法和基于啟發(fā)式的方法。5.2.1質(zhì)量過濾(1)基于分類器的方法。目標(biāo)是訓(xùn)練文本質(zhì)量判斷模型,利用該模型識別并過濾低質(zhì)量數(shù)據(jù)。GPT-3、PaLM和GLaM模型在訓(xùn)練數(shù)據(jù)構(gòu)造時都使用了基于分類器的方法。例如,基于特征哈希的線性分類器,可以非常高效地完成文本質(zhì)量判斷。該分類器使用一組精選文本(維基百科、書籍和一些選定的網(wǎng)站)進(jìn)行訓(xùn)練,目標(biāo)是給與訓(xùn)練數(shù)據(jù)類似的網(wǎng)頁較高分?jǐn)?shù)。利用這個分類器可以評估網(wǎng)頁的內(nèi)容質(zhì)量。在實際應(yīng)用中,還可以通過使用Pareto分布對網(wǎng)頁進(jìn)行采樣,根據(jù)其得分選擇合適的閾值,從而選定合適的數(shù)據(jù)集。然而,一些研究發(fā)現(xiàn),基于分類器的方法可能會刪除包含方言或者口語的高質(zhì)量文本,從而損失一定的多樣性。5.2.1質(zhì)量過濾(2)基于啟發(fā)式的方法。通過一組精心設(shè)計的規(guī)則來消除低質(zhì)量文本,BLOOM和Gopher采用了基于啟發(fā)式的方法。一些啟發(fā)式規(guī)則如下?!ふZ言過濾:如果一個大模型僅關(guān)注一種或者幾種語言,則可以大幅過濾數(shù)據(jù)中其他語言的文本?!ぶ笜?biāo)過濾:利用評測指標(biāo)也可以過濾低質(zhì)量文本。例如,可以使用語言模型對給定文本的困惑度進(jìn)行計算,利用該值過濾非自然的句子?!そy(tǒng)計特征過濾:針對文本內(nèi)容可以計算包括標(biāo)點符號分布、符號字比、句子長度在內(nèi)的統(tǒng)計特征,利用這些特征過濾低質(zhì)量數(shù)據(jù)?!りP(guān)鍵詞過濾:根據(jù)特定的關(guān)鍵詞集,可以識別并刪除文本中的噪聲或無用元素。例如,HTML標(biāo)簽、超鏈接及冒犯性詞語等。5.2.1質(zhì)量過濾在大模型出現(xiàn)之前,在自然語言處理領(lǐng)域已經(jīng)開展了很多文章質(zhì)量判斷相關(guān)的研究,主要應(yīng)用于搜索引擎、社會媒體、推薦系統(tǒng)、廣告排序及作文評分等任務(wù)中。在搜索和推薦系統(tǒng)中,內(nèi)容結(jié)果的質(zhì)量是影響用戶體驗的重要因素之一,因此,此前很多工作都是針對用戶生成內(nèi)容的質(zhì)量進(jìn)行判斷的。自動作文評分也是文章質(zhì)量判斷領(lǐng)域的一個重要子任務(wù),自1998年提出使用貝葉斯分類器進(jìn)行作文評分預(yù)測以來,基于SVM、CNN-RNN、BERT等方法的作文評分算法相繼被提出,并取得了較大的進(jìn)展。這些方法都可以應(yīng)用于大模型預(yù)訓(xùn)練數(shù)據(jù)過濾。5.2.1質(zhì)量過濾由于預(yù)訓(xùn)練數(shù)據(jù)量非常大,并且對質(zhì)量判斷的準(zhǔn)確率要求并不很高,因此一些基于深度學(xué)習(xí)和預(yù)訓(xùn)練的方法還沒有應(yīng)用于低質(zhì)過濾中。5.2.1質(zhì)量過濾研究表明,大模型訓(xùn)練數(shù)據(jù)庫中的重復(fù)數(shù)據(jù)會降低大模型的多樣性,并可能導(dǎo)致訓(xùn)練過程不穩(wěn)定,從而影響模型性能。因此,需要對預(yù)訓(xùn)練數(shù)據(jù)庫中的重復(fù)數(shù)據(jù)進(jìn)行處理,去除其中的冗余部分。文本冗余發(fā)現(xiàn)也被稱為文本重復(fù)檢測,是自然語言處理和信息檢索中的基礎(chǔ)任務(wù)之一,其目標(biāo)是發(fā)現(xiàn)不同粒度上的文本重復(fù),包括句子、段落、文檔、數(shù)據(jù)集等不同級別。在實際產(chǎn)生預(yù)訓(xùn)練數(shù)據(jù)時,冗余去除需要從不同粒度著手,這對改善語言模型的訓(xùn)練效果具有重要作用。5.2.2冗余去除在句子級別上,包含重復(fù)單詞或短語的句子很可能造成語言建模中引入重復(fù)的模式。這對語言模型來說會產(chǎn)生非常嚴(yán)重的影響,使模型在預(yù)測時容易陷入重復(fù)循環(huán)。重復(fù)循環(huán)對語言模型生成的文本質(zhì)量的影響非常大,因此在預(yù)訓(xùn)練數(shù)據(jù)中需要刪除這些包含大量重復(fù)單詞或者短語的句子。5.2.2冗余去除在文檔級別上,大部分大模型依靠文檔之間的表面特征相似度(例如n-gram重疊比例)進(jìn)行檢測并刪除重復(fù)文檔。LLaMA采用CCNet處理模式,先將文檔拆分為段落,并把所有字符轉(zhuǎn)換為小寫字符、將數(shù)字替換為占位符,刪除所有Unicode標(biāo)點符號和重音符號,對每個段落進(jìn)行規(guī)范化處理。然后,使用SHA-1方法為每個段落計算一個哈希碼,并使用前64位數(shù)字作為鍵。最后,利用每個段落的鍵進(jìn)行重復(fù)判斷。RefinedWeb先去除頁面中的菜單、標(biāo)題、頁腳、廣告等內(nèi)容,僅抽取頁面中的主要內(nèi)容。在此基礎(chǔ)上,在文檔級別進(jìn)行過濾,使用n-gram重復(fù)程度來衡量句子、段落及文檔的相似度。如果超過預(yù)先設(shè)定的閾值,則會過濾重復(fù)段落或文檔。5.2.2冗余去除此外,數(shù)據(jù)集級別上也可能存在一定數(shù)量的重復(fù)情況,比如很多大模型預(yù)訓(xùn)練數(shù)據(jù)集都會包含GitHub、維基百科、C4等。需要特別注意預(yù)訓(xùn)練數(shù)據(jù)中混入測試數(shù)據(jù),造成數(shù)據(jù)集污染的情況。5.2.2冗余去除由于絕大多數(shù)預(yù)訓(xùn)練數(shù)據(jù)源于互聯(lián)網(wǎng),因此不可避免地會包含涉及敏感或個人信息的用戶生成內(nèi)容,這可能會增加隱私泄露的風(fēng)險。因此,有必要從預(yù)訓(xùn)練數(shù)據(jù)庫中刪除包含個人身份信息的內(nèi)容。刪除隱私數(shù)據(jù)最直接的方法是采用基于規(guī)則的算法,BigScienceROOTSCorpus在構(gòu)建過程中就采用了基于命名實體識別的方法,利用算法檢測姓名、地址、電話號碼等個人信息內(nèi)容并進(jìn)行刪除或者替換。該方法被集成在muliwai類庫中,使用了基于Transformer的模型,并結(jié)合機器翻譯技術(shù),可以處理超過100種語言的文本,消除其中的隱私信息。5.2.3隱私消除傳統(tǒng)的自然語言處理通常以單詞為基本處理單元,模型都依賴預(yù)先確定的詞表,在編碼輸入詞序列時,這些詞表示模型只能處理詞表中存在的詞。因此,使用時如果遇到不在詞表中的未登錄詞,模型無法為其生成對應(yīng)的表示,只能給予這些未登錄詞一個默認(rèn)的通用表示。5.2.4詞元切分在深度學(xué)習(xí)模型中,詞表示模型會預(yù)先在詞表中加入一個默認(rèn)的“[UNK]”標(biāo)識表示未知詞,并在訓(xùn)練的過程中將[UNK]的向量作為詞表示矩陣的一部分一起訓(xùn)練,通過引入相應(yīng)機制來更新[UNK]向量的參數(shù)。使用時,對全部未登錄詞使用[UNK]向量作為表示向量。此外,基于固定詞表的詞表示模型對詞表大小的選擇比較敏感。當(dāng)詞表過小時,未登錄詞的比例較高,影響模型性能;當(dāng)詞表大小過大時,大量低頻詞出現(xiàn)在詞表中,這些詞的詞向量很難得到充分學(xué)習(xí)。理想模式下,詞表示模型應(yīng)能覆蓋絕大部分輸入詞,并避免詞表過大造成的數(shù)據(jù)稀疏問題。5.2.4詞元切分為了緩解未登錄詞問題,一些工作通過利用亞詞級別的信息構(gòu)造詞表示向量。一種直接的解決思路是為輸入建立字符級別表示,并通過字符向量的組合獲得每個單詞的表示,以解決數(shù)據(jù)稀疏問題。然而,單詞中的詞根、詞綴等構(gòu)詞模式往往跨越多個字符,基于字符表示的方法很難學(xué)習(xí)跨度較大的模式。為了充分學(xué)習(xí)這些構(gòu)詞模式,研究人員提出了子詞元化方法,以緩解未登錄詞問題。詞元表示模型會維護(hù)一個詞元詞表,其中既存在完整的單詞,也存在形如“c”“re”“ing”等單詞的部分信息,稱為子詞。5.2.4詞元切分詞元表示模型對詞表中的每個詞元計算一個定長向量表示,供下游模型使用。對于輸入的詞序列,詞元表示模型將每個詞拆分為詞表內(nèi)的詞元。例如,將單詞“reborn”拆分為“re”和“born”。模型隨后查詢每個詞元的表示,將輸入重新組成詞元表示序列。當(dāng)下游模型需要計算一個單詞或詞組的表示時,可以將對應(yīng)范圍內(nèi)的詞元表示合成需要的表示。因此,詞元表示模型能夠較好地解決自然語言處理系統(tǒng)中未登錄詞的問題。詞元分析是將原始文本分割成詞元序列的過程。詞元切分也是數(shù)據(jù)預(yù)處理中至關(guān)重要的一步。5.2.4詞元切分字節(jié)對編碼是一種常見的子詞詞元算法。該算法采用的詞表包含最常見的單詞及高頻出現(xiàn)的子詞。使用時,常見詞通常位于字節(jié)對編碼詞表中,而罕見詞通常能被分解為若干個包含在字節(jié)對編碼詞表中的詞元,從而大幅減小未登錄詞的比例。字節(jié)對編碼算法包括以下兩個部分。(1)詞元詞表的確定。(2)全詞切分為詞元及詞元合并為全詞的方法。5.2.4詞元切分PART03數(shù)據(jù)影響分析過去自然語言處理是一個任務(wù)用標(biāo)注數(shù)據(jù)訓(xùn)練一個模型,而現(xiàn)在可以在大量無標(biāo)注的語料上預(yù)訓(xùn)練出一個在少量有監(jiān)督數(shù)據(jù)上微調(diào)就能做很多任務(wù)的模型。這其實就比較接近人類學(xué)習(xí)語言的過程。例如參加某個考試測試英文能力的好壞,里面有聽說讀寫等各式各樣的任務(wù),有填空和選擇等很多題型。但我們學(xué)習(xí)英文的方法并不是去做大量的選擇題,而是背大量的英文單詞,理解它的詞性、意思,閱讀大量的英文文章、掌握它在段落中的用法,你只需做少量的選擇題,就可以通過某個語言能力的測試。這便是自然語言處理領(lǐng)域所追求的目標(biāo)。5.3數(shù)據(jù)影響分析我們期待可以訓(xùn)練一個模型,它真的了解人類的語言,在需要解決各式各樣的任務(wù)的時候,只需要稍微微調(diào)一下,它就知道怎么做了。圖5-3在預(yù)訓(xùn)練基礎(chǔ)上微調(diào)5.3數(shù)據(jù)影響分析大模型訓(xùn)練需要大量計算資源,通常不可能進(jìn)行多次。有千億級參數(shù)量的大模型進(jìn)行一次預(yù)訓(xùn)練就需要花費數(shù)百萬元的計算成本。因此,在訓(xùn)練大模型之前,構(gòu)建一個準(zhǔn)備充分的預(yù)訓(xùn)練數(shù)據(jù)庫尤為重要。5.3數(shù)據(jù)影響分析隨著大模型參數(shù)規(guī)模的增加,為了有效地訓(xùn)練模型,需要收集足夠數(shù)量的高質(zhì)量數(shù)據(jù)。在針對模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)量及總計算量與模型效果之間關(guān)系的研究被提出之前,大部分大模型訓(xùn)練所采用的訓(xùn)練數(shù)據(jù)量相較于LLaMA等新的大模型都少很多。5.3.1數(shù)據(jù)規(guī)模DeepMind的研究人員描述了他們訓(xùn)練400多個語言模型后得出的分析結(jié)果(模型的參數(shù)量從7000萬個到160億個,訓(xùn)練數(shù)據(jù)量從5億個詞元到5000億個詞元)。研究發(fā)現(xiàn),如果希望模型訓(xùn)練達(dá)到計算最優(yōu),則模型大小和訓(xùn)練詞元數(shù)量應(yīng)該等比例縮放,即模型大小加倍,則訓(xùn)練詞元數(shù)量也應(yīng)該加倍。為了驗證該分析結(jié)果,他們使用與Gopher語言模型訓(xùn)練相同的計算資源,根據(jù)上述理論預(yù)測了Chinchilla語言模型的最優(yōu)參數(shù)量與詞元量組合。最終確定Chinchilla語言模型具有700億個參數(shù),使用了1.4萬億個詞元進(jìn)行訓(xùn)練。通過實驗發(fā)現(xiàn),Chinchilla在很多下游評估任務(wù)中都顯著地優(yōu)于Gopher(280B)、GPT-3(175BJurassic-1(178B)及Megatron-TuringNLG(530B)。5.3.1數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量是影響大模型訓(xùn)練效果的關(guān)鍵因素之一。大量重復(fù)的低質(zhì)量數(shù)據(jù)會導(dǎo)致訓(xùn)練過程不穩(wěn)定,模型訓(xùn)練不收斂。研究表明,訓(xùn)練數(shù)據(jù)的構(gòu)建時間、噪聲或有害信息、數(shù)據(jù)重復(fù)率等因素,都對語言模型性能產(chǎn)生較大影響,在經(jīng)過清洗的高質(zhì)量數(shù)據(jù)上訓(xùn)練數(shù)據(jù)可得到更好的性能。5.3.2數(shù)據(jù)質(zhì)量Gopher語言模型在訓(xùn)練時針對文本質(zhì)量進(jìn)行相關(guān)實驗,具有140億個參數(shù)的模型在OpenWebText、C4及不同版本的MassiveWeb數(shù)據(jù)集上訓(xùn)練得到模型效果對比。他們分別測試了利用不同數(shù)據(jù)訓(xùn)練得到的模型在Wikitext103單詞預(yù)測、CuraticCorpus摘要及Lambada書籍級別的單詞預(yù)測三個下游任務(wù)上的表現(xiàn)。從結(jié)果可以看到,使用經(jīng)過過濾和去重的MassiveWeb數(shù)訓(xùn)練得到的語言模型,在三個任務(wù)上都遠(yuǎn)好于使用未經(jīng)處理的數(shù)據(jù)訓(xùn)練所得到的模型。使用經(jīng)過處理的MassiveWeb數(shù)據(jù)訓(xùn)練得到的語言模型在下游任務(wù)上的表現(xiàn)也遠(yuǎn)好于使用OpenWebText和C4數(shù)據(jù)集訓(xùn)練得到的結(jié)果。5.3.2數(shù)據(jù)質(zhì)量構(gòu)建GLaM語言模型時,也對訓(xùn)練數(shù)據(jù)質(zhì)量的影響進(jìn)行了分析。實驗結(jié)果可以看到使用高質(zhì)量數(shù)據(jù)訓(xùn)練的模型在自然語言生成和理解任務(wù)上表現(xiàn)更好。特別是,高質(zhì)量數(shù)據(jù)對自然語言生成任務(wù)的影響大于自然語言理解任務(wù)。這可能是因為自然語言生成任務(wù)通常需要生成高質(zhì)量的語言,過濾預(yù)訓(xùn)練數(shù)據(jù)庫對語言模型的生成能力至關(guān)重要。預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量在下游任務(wù)的性能中也扮演著關(guān)鍵角色。5.3.2數(shù)據(jù)質(zhì)量來自不同領(lǐng)域、使用不同語言、應(yīng)用于不同場景的訓(xùn)練數(shù)據(jù)具有不同的語言特征,包含不同語義知識。通過使用不同來源的數(shù)據(jù)進(jìn)行訓(xùn)練,大模型可以獲得廣泛的知識。5.3.2數(shù)據(jù)質(zhì)量PART04典型的開源數(shù)據(jù)集隨著基于統(tǒng)計機器學(xué)習(xí)的自然語言處理算法的發(fā)展,以及信息檢索研究的需求增加,特別是對深度學(xué)習(xí)和預(yù)訓(xùn)練語言模型研究的深入,研究人員構(gòu)建了多種大規(guī)模開源數(shù)據(jù)集,涵蓋網(wǎng)頁、圖書、論文、百科等多個領(lǐng)域。在構(gòu)建大模型時,數(shù)據(jù)的質(zhì)量和多樣性對于提高模型性能至關(guān)重要。為了推動大模型研究和應(yīng)用,學(xué)術(shù)界和工業(yè)界也開放了多個針對大模型的開源數(shù)據(jù)集。5.4典型的開源數(shù)據(jù)集Pile數(shù)據(jù)集是一個用于大模型訓(xùn)練的多樣性大規(guī)模文本數(shù)據(jù)庫,由22個不同的高質(zhì)量子集構(gòu)成,包括現(xiàn)有的和新構(gòu)建的,主要來自學(xué)術(shù)或?qū)I(yè)領(lǐng)域。這些子集包括Pile-CC(清洗后的CommonCrawl子集)、Wikipedia、OpenWebText2、ArXiv、PubMedCentral等。Pile的特點是包含大量多樣化文本,涵蓋不同領(lǐng)域和主題,從而提高了訓(xùn)練數(shù)據(jù)集的多樣性和豐富性。Pile數(shù)據(jù)集包含825GB英文文本,其數(shù)據(jù)類型組成大體上如圖5-4所示,所占面積大小表示數(shù)據(jù)在整個數(shù)據(jù)集中所占的規(guī)模。5.4.1Pile

圖5-4Pile數(shù)據(jù)集的主要構(gòu)成5.4.1PilePile數(shù)據(jù)集的部分子集簡單介紹如下。(1)Pile-CCC:通過在WebArchive文件上使用jusText方法提取,比直接使用WET文件產(chǎn)生更高質(zhì)量的輸出。(2)PubMedCentral(PMC):是由美國國家生物技術(shù)信息中心(NCBI)運營的PubMed生物醫(yī)學(xué)在線資源庫的一個子集,提供對近500萬份出版物的開放全文訪問。5.4.1Pile(3)OpenWebText2(OWT2):是一個基于WebText1和OpenWebTextCorpts的通用數(shù)據(jù)集,它包括來自多種語言的文本內(nèi)容、網(wǎng)頁文本元數(shù)據(jù),以及多個開源數(shù)據(jù)集和開源代碼庫。(4)ArXiv:是一個自1991年開始運營的研究論文預(yù)印版本發(fā)布服務(wù)平臺。論文主要集中在數(shù)學(xué)、計算機科學(xué)和物理領(lǐng)域。ArXiv上的論文是用LaTeX編寫的,其中公式、符號、表格等內(nèi)容的表示非常適合語言模型學(xué)習(xí)。5.4.1Pile(5)GitHub:是一個大型的開源代碼庫,對于語言模型完成代碼生成、代碼補全等任務(wù)具有非常重要的作用。(6)FreeLaw:是一個非營利項目,為法律學(xué)術(shù)研究提供訪問和分析工具.CourtListener是FreeLaw項目的一部分,包含美國聯(lián)邦和州法院的數(shù)百萬法律意見,并提供批量下載服務(wù)。5.4.1Pile(7)StackExchange:是一個圍繞用戶提供問題和答案的網(wǎng)站集合,其中StackExchangeDataDump包含了網(wǎng)站集合中所有用戶貢獻(xiàn)的內(nèi)容的匿名數(shù)據(jù)集。它是最大的問題—答案對數(shù)據(jù)集之一,包括編程、園藝、藝術(shù)等主題。(8)USPTO:是美國專利商標(biāo)局授權(quán)專利背景數(shù)據(jù)集,源于其公布的批量檔案。該數(shù)據(jù)集包含大量關(guān)于應(yīng)用主題的技術(shù)內(nèi)容,如任務(wù)背景、技術(shù)領(lǐng)域概述、建立問題空間框架等。5.4.1Pile(9)Wikipedia(英文版):是維基百科的英文部分。維基百科旨在提供各種主題的知識,是世界上最大的在線百科全書之一。(10)PubMed:是由PubMed的3000萬份出版物的摘要組成的數(shù)據(jù)集。它是由美國國家醫(yī)學(xué)圖書館運營的生物醫(yī)學(xué)文章在線存儲庫,它還包含1946年至今的生物醫(yī)學(xué)摘要。(11)OpenSubtitles:是由英文電影和電視的字幕組成的數(shù)據(jù)集。字幕是對話的重要來源并且可以增強模型對虛構(gòu)格式的理解,對創(chuàng)造性寫作任務(wù)(如劇本寫作、演講寫作、交互式故事講述等)有一定作用。5.4.1Pile(12)DeepMindMathematics:以自然語言提示形式給出,由代數(shù)、算術(shù)、微積分、數(shù)論和概率等一系列數(shù)學(xué)問題組成的數(shù)據(jù)集。大模型在數(shù)學(xué)任務(wù)上的表現(xiàn)較差,這可能是由于訓(xùn)練集中缺乏數(shù)學(xué)問題。因此,Pile數(shù)據(jù)集中專門增加數(shù)學(xué)問題數(shù)據(jù)集,期望增強通過Pile數(shù)據(jù)集訓(xùn)練的語言模型的數(shù)學(xué)能力。(13)PhilPapers:由國際數(shù)據(jù)庫中的哲學(xué)出版物組成,它涵蓋了廣泛的抽象、概念性話語,文本寫作質(zhì)量也非常高。5.4.1Pile(14)NIH:包含1985年至今獲得NIH資助的項目申請摘要,是高質(zhì)量的科學(xué)寫作實例。Pile中不同數(shù)據(jù)子集所占比例及訓(xùn)練時的采樣權(quán)重有很大不同,高質(zhì)量的數(shù)據(jù)會有更高的采樣權(quán)重。例如,Pile-CC數(shù)據(jù)集包含227.12GB數(shù)據(jù),整個訓(xùn)練周期中采樣1輪,雖然維基百科(英文)數(shù)據(jù)集僅有6.38GB的數(shù)據(jù),但是整個訓(xùn)練周期中采樣3輪。5.4.1PileROOTS(負(fù)責(zé)任的開放科學(xué)、開放協(xié)作文本源)數(shù)據(jù)集是Big-Science項目在訓(xùn)練具有1760億個參數(shù)的BLOOM大模型時使用的數(shù)據(jù)集,其中包含46種自然語言和13種編程語言,整個數(shù)據(jù)集約1.6TB。5.4.2ROOTSROOTS數(shù)據(jù)主要來源于四個方面:公開數(shù)據(jù)、虛擬抓取、GitHub代碼、網(wǎng)頁數(shù)據(jù)。(1)在公開數(shù)據(jù)方面,目標(biāo)是收集盡可能多的各種類型的數(shù)據(jù),包括自然語言處理數(shù)據(jù)集和各類型文檔數(shù)據(jù)集。在收集原始數(shù)據(jù)集的基礎(chǔ)上,進(jìn)一步從語言和統(tǒng)一表示方面對收集的文檔進(jìn)行規(guī)范化處理。識別數(shù)據(jù)集所屬語言并分類存儲,將所有數(shù)據(jù)都按照統(tǒng)一的文本和元數(shù)據(jù)結(jié)構(gòu)進(jìn)行表示。5.4.2ROOTS(2)在虛擬抓取方面,由于很多語言的現(xiàn)有公開數(shù)據(jù)集較少,因此這些語言的網(wǎng)頁信息是十分重要的資源補充。在ROOTS數(shù)據(jù)集中,采用網(wǎng)頁鏡像,選取了614個域名,從這些域名下的網(wǎng)頁中提取文本內(nèi)容補充到數(shù)據(jù)集中,以提升語言的多樣性。(3)在GitHub代碼方面,針對程序語言,ROOTS數(shù)據(jù)集從BigQuery公開數(shù)據(jù)集中選取文件長度在100到20萬字符,字母符號占比在15%至65%,最大行數(shù)在20至1000行的代碼。5.4.2ROOTS(4)大模型訓(xùn)練中,網(wǎng)頁數(shù)據(jù)對于數(shù)據(jù)的多樣性和數(shù)據(jù)量支撐都起到重要的作用。ROOTS數(shù)據(jù)集中包含了OSCAR21.09版本,對應(yīng)的是CommonCrawl2021年2月的快照,占整體ROOTS數(shù)據(jù)集規(guī)模的38%。5.4.2ROOTS在數(shù)據(jù)準(zhǔn)備完成后,還要進(jìn)行清洗、過濾、去重及隱私信息刪除等工作,ROOTS數(shù)據(jù)集處理流程如右圖所示。整個處理工作采用人工與自動相結(jié)合的方法,針對數(shù)據(jù)中存在的一些非自然語言的文本,例如預(yù)處理錯誤、SEO頁面或垃圾郵件,構(gòu)建ROOTS數(shù)據(jù)集時會進(jìn)行一定的處理。

圖5-5ROOTS數(shù)據(jù)集處理流程5.4.2ROOTSPART05訓(xùn)練集、測試集、驗證集的異同訓(xùn)練集、測試集、驗證集三者在數(shù)據(jù)目的與功能、數(shù)據(jù)交互頻率上、數(shù)據(jù)劃分與比例以及使用時機等方面均有不同之處。另一方面,它們在數(shù)據(jù)來源、預(yù)處理、目標(biāo)、獨立性以及數(shù)據(jù)質(zhì)量和代表性方面又有著相似之處。5.5訓(xùn)練集、測試集、驗證集的異同(1)目的與功能不同。訓(xùn)練集、測試集、驗證集這三者的目的和功能不同。訓(xùn)練集主要用于訓(xùn)練模型,驗證集主要用于在訓(xùn)練過程中選擇模型和調(diào)整超參數(shù),測試集則用來最終評估模型的性能。訓(xùn)練集用于模型訓(xùn)練,幫助模型確定權(quán)重和偏置等參數(shù),模型通過深入學(xué)習(xí)和理解訓(xùn)練集中的數(shù)據(jù),逐漸學(xué)會識別其中的模式和規(guī)律,并逐步優(yōu)化其預(yù)測能力。沒有良好的訓(xùn)練集,模型就像是失去了根基的大樹,無法穩(wěn)固地生長和擴(kuò)展。因此,需要精心準(zhǔn)備和挑選訓(xùn)練集,確保它具有代表性和高質(zhì)量,這樣模型才能更好地理解和適應(yīng)真實世界的變化。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處驗證集用于模型選擇和超參數(shù)調(diào)整。它不參與學(xué)習(xí)參數(shù)的確定,主要幫助在眾多可能性中,找到那些能夠使模型性能達(dá)到巔峰的超參數(shù),如網(wǎng)絡(luò)層數(shù)、網(wǎng)絡(luò)節(jié)點數(shù)、迭代次數(shù)、學(xué)習(xí)率等,為挑選最優(yōu)模型超參數(shù)提供優(yōu)質(zhì)的咨詢和建議。驗證集的作用是能夠在實戰(zhàn)之前就預(yù)知模型的性能,從而做出最佳的選擇。這種前瞻性的策略,不僅能夠提高模型的效率,更能夠節(jié)省寶貴的時間和資源。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處測試集用于評估模型的最終性能,是考驗?zāi)P偷淖詈笠魂P(guān)。它不參與模型的學(xué)習(xí)參數(shù)過程,也不介入超參數(shù)的選擇,就是為了對模型的最終性能(即泛化能力)做出公正的評價。一個人工智能模型只有通過了測試集的考驗,才能真正稱得上是具備良好泛化能力的模型。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處(2)數(shù)據(jù)交互頻率不同。訓(xùn)練集、測試集、驗證集這三者和模型的數(shù)據(jù)交互頻率不同。訓(xùn)練集會不斷交互,驗證集是定期交互,而測試集只交互一次。使用訓(xùn)練集時,模型在訓(xùn)練階段不斷與訓(xùn)練集交互,通過多次地學(xué)習(xí)、調(diào)整和迭代來提高性能。它在訓(xùn)練集的多次反饋中完成優(yōu)化。在訓(xùn)練集中,模型通過一次次的迭代優(yōu)化,逐步提升自己的工藝水平。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處驗證集在訓(xùn)練過程中的不同時間點交互,幫助開發(fā)人員調(diào)整模型參數(shù)和決定訓(xùn)練的結(jié)束點。它在訓(xùn)練過程中的每一個關(guān)鍵時刻出現(xiàn),為開發(fā)人員提供寶貴的反饋和指引,幫助開發(fā)人員調(diào)整模型的超參數(shù)。所以,和訓(xùn)練集中的情況不一樣,模型不會在驗證集中反復(fù)訓(xùn)練,只會定期和驗證集進(jìn)行數(shù)據(jù)交互。驗證集的每一次反饋,都是對模型的一次重要檢驗,所獲得的數(shù)據(jù)評估指標(biāo),也是優(yōu)化人工智能性能的重要依據(jù)。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處測試集僅在整個訓(xùn)練過程完成后交互一次,用于模型的最終評估,這個活動只有在整個訓(xùn)練過程圓滿完成后才會出現(xiàn)。測試集是模型的最后一道關(guān)卡,通過了,模型就可以接受真實世界的考驗了。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處(3)數(shù)據(jù)劃分與比例不同。通常情況下,數(shù)據(jù)集會通過隨機抽樣、分層抽樣、時間序列抽樣等方式,按照不同比例劃分為訓(xùn)練集、驗證集和測試集,三者之間不能有交集。訓(xùn)練集作為模型學(xué)習(xí)的主要來源占據(jù)較大的比例,一般約為60%~80%,以確保模型有足夠的數(shù)據(jù)來捕捉到數(shù)據(jù)中的模式和規(guī)律。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處一般來說,占比規(guī)模約為10%~20%的驗證集已經(jīng)足夠提供模型性能的合理估計,能提供有關(guān)模型泛化能力的有用信息就行,不用過多。如果驗證集太大,每次評估的時間成本會顯著增加,這會拖慢整個實驗的進(jìn)度。因為測試集在模型訓(xùn)練完成后只評估一次,所以只要足夠用于評估模型最終性能就行,一般約10%~20%。如果測試集太大,評估過程會消耗大量計算資源和時間。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處在數(shù)據(jù)劃分上,訓(xùn)練集、測試集、驗證集的具體比例取決于實際任務(wù)的需求和數(shù)據(jù)量的大小,不同的機器學(xué)習(xí)問題可能有不同的數(shù)據(jù)劃分需求。例如,對于數(shù)據(jù)量非常龐大的情況,可能只需要很小的驗證集和測試集;而對于數(shù)據(jù)量本身就很小的情況,可能需要采用交叉驗證等方法來充分利用數(shù)據(jù)。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處(4)使用時機不同。訓(xùn)練集、驗證集和測試集在模型的整個訓(xùn)練過程的不同階段發(fā)揮作用,所以開發(fā)人員使用它們的時機是不同的。訓(xùn)練集用在模型的初始訓(xùn)練階段。模型剛剛搭建起來的時候,需要耐心地用訓(xùn)練集進(jìn)行大量的訓(xùn)練,直到它掌握了所有的知識為止,這是初始必經(jīng)過程。在模型訓(xùn)練過程中定期使用驗證集。因為驗證集用于監(jiān)控模型的性能和調(diào)整超參數(shù),所以在模型通過初始階段的訓(xùn)練后,需要在過程中可以監(jiān)督到模型的學(xué)習(xí)效果。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處在模型的訓(xùn)練過程中,直到結(jié)束訓(xùn)練前的這個階段,一般會用驗證集給模型來幾場“摸底考試”,若是發(fā)現(xiàn)不對的地方可以及時調(diào)整,以確保模型在訓(xùn)練過程中具備良好的性能。測試集在模型訓(xùn)練完成后使用,以最終評估模型性能。所以,在訓(xùn)練集和驗證集階段都不會用到測試集的數(shù)據(jù),并且也需要保證測試集的數(shù)據(jù)是模型之前未見過的數(shù)據(jù)。對模型學(xué)習(xí)成果來一次最終的全面檢驗是測試集存在的價值之一,這也是為什么測試集會被放在模型訓(xùn)練的最后階段。5.5.1訓(xùn)練、測試與驗證數(shù)據(jù)集的不同之處訓(xùn)練集、測試集和驗證集在數(shù)據(jù)來源、預(yù)處理、目標(biāo)、獨立性以及數(shù)據(jù)質(zhì)量和代表性方面都有著相似之處,這些相似性是確保模型完成有效訓(xùn)練和評估的基礎(chǔ)。(1)數(shù)據(jù)來源一致。訓(xùn)練集、驗證集和測試集通常來自同一數(shù)據(jù)源或具有相同的數(shù)據(jù)分布。這意味著它們共享相同的數(shù)據(jù)特征和屬性,確保模型在不同階段處理的數(shù)據(jù)具有一致性。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處(2)相似的數(shù)據(jù)預(yù)處理。在模型訓(xùn)練之前,訓(xùn)練集、驗證集和測試集都需要進(jìn)行相似的數(shù)據(jù)預(yù)處理步驟,如歸一化、標(biāo)準(zhǔn)化、缺失值處理等。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處歸一化就像是給數(shù)據(jù)量體裁衣,讓每個數(shù)據(jù)點都在合適的范圍內(nèi)。數(shù)據(jù)歸一化是將數(shù)據(jù)縮放到一個特定的范圍,通常是在0和1之間。這樣做的目的是讓數(shù)據(jù)在相同的尺度上,以便模型能夠更好地學(xué)習(xí)和識別其中的模式。例如,如果數(shù)據(jù)集中的某些特征值非常大,而另一些特征值非常小,那么在訓(xùn)練過程中,較大的值可能會對模型的學(xué)習(xí)產(chǎn)生更大的影響。通過歸一化,我們可以減少這種影響,使得每個特征對模型的貢獻(xiàn)更加均衡。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處標(biāo)準(zhǔn)化則是調(diào)整數(shù)據(jù)的尺碼,讓它們能夠站在同一條起跑線上。標(biāo)準(zhǔn)化的方法,是將數(shù)據(jù)特征的均值設(shè)置為0,標(biāo)準(zhǔn)差設(shè)置為1。這通常通過減去特征的均值然后除以其標(biāo)準(zhǔn)差來實現(xiàn)。公式為:z=(x?μ)/σ其中:x是數(shù)據(jù)點的原始值,μ是該特征的均值,σ是該特征的標(biāo)準(zhǔn)差。通過將每個數(shù)據(jù)點減去其特征的均值,然后除以其標(biāo)準(zhǔn)差,可以將數(shù)據(jù)特征縮放到一個標(biāo)準(zhǔn)單位,使其具有零均值和單位方差。這個過程有助于算法(如線性回歸)的訓(xùn)練和預(yù)測過程更加穩(wěn)定。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處缺失值的處理像是填補數(shù)據(jù)中的空白,讓整個數(shù)據(jù)集更加完整。在數(shù)據(jù)集中,可能會有一些數(shù)據(jù)點由于各種原因(如測量錯誤、數(shù)據(jù)錄入錯誤等)而丟失。處理這些缺失值的方法有多種,包括刪除含有缺失值的樣本、填充缺失值(如使用平均值、中位數(shù)或眾數(shù)填充)、或者使用模型預(yù)測缺失值等。處理缺失值的關(guān)鍵是確保不會引入偏差,同時保留盡可能多的有效信息。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處(3)目標(biāo)一致又各具獨立性。訓(xùn)練、驗證和測試三個數(shù)據(jù)集在模型開發(fā)的不同階段使用,但它們的目標(biāo)是一致的,即都是為了構(gòu)建一個泛化能力強、能夠準(zhǔn)確預(yù)測新數(shù)據(jù)的模型。為了保證模型評估的公正性,三個數(shù)據(jù)集中的樣本必須保持相互獨立。這意味著,每個集合中的數(shù)據(jù)是獨一無二的,不會與其他集合的數(shù)據(jù)交叉重疊,讓模型在評估過程中的表現(xiàn)不會受到其他集合數(shù)據(jù)的影響。這種獨立性確保了評估結(jié)果的真實性和有效性。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處(4)保證數(shù)據(jù)質(zhì)量和代表性。為了確保模型在不同階段的學(xué)習(xí)和評估過程中能夠獲得準(zhǔn)確和可靠的結(jié)果,訓(xùn)練集、驗證集和測試集都需要能夠代表原始數(shù)據(jù)的整體特性,同時還需保證數(shù)據(jù)質(zhì)量。這意味著它們都應(yīng)該包含所有可能的數(shù)據(jù)特征和類別,以便模型能夠在不同的數(shù)據(jù)集上都能學(xué)習(xí)到有效的模式,提高其泛化能力。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處從訓(xùn)練集、驗證集和測試集的不同與相似中可以發(fā)現(xiàn),它們在機器學(xué)習(xí)的模型訓(xùn)練中是緊密相連的,它們各司其職,共同保障了模型的有效學(xué)習(xí)結(jié)果和泛化能力。5.5.2訓(xùn)練、測試與驗證數(shù)據(jù)集的相似之處PART06數(shù)據(jù)集面臨的挑戰(zhàn)AI大模型發(fā)展方興未艾,實際上其應(yīng)用的落地部分還需要進(jìn)一步的探索和創(chuàng)新。為了適應(yīng)更多細(xì)分的落地場景,大模型之間的“卷”也逐步帶起一堆小模型之間的競爭。好模型離不開好數(shù)據(jù),好的數(shù)據(jù)集對模型的成功至關(guān)重要,它能提升模型的精確度,讓模型能更準(zhǔn)確地預(yù)測或分類。同時,好的數(shù)據(jù)集還能增強模型的可解釋性,使人們更容易理解模型的決策過程,也有助于模型更快地收斂到最優(yōu)解。這意味著模型的訓(xùn)練時間將大大縮短,實打?qū)嵉男屎统杀臼呛诵母偁幜Α?.6數(shù)據(jù)集面臨的挑戰(zhàn)由于數(shù)據(jù)來源多樣、類型復(fù)雜,大模型數(shù)據(jù)集存在質(zhì)量參差不齊的問題。高質(zhì)量的數(shù)據(jù)集需要專業(yè)的標(biāo)注和清洗過程,包括對數(shù)據(jù)的詳細(xì)分類、校對和驗證,以確保模型能夠接收準(zhǔn)確、一致和有用的信息。然而,部分?jǐn)?shù)據(jù)集因缺乏嚴(yán)格的標(biāo)注和清洗流程,導(dǎo)致數(shù)據(jù)質(zhì)量不如意,包括標(biāo)注錯誤、數(shù)據(jù)重復(fù)和不平衡的數(shù)據(jù)分布,都可能削弱人工智能大模型的訓(xùn)練效果,從另外一個角度看,這也凸顯了高質(zhì)量數(shù)據(jù)的價值。高質(zhì)量數(shù)據(jù)集不僅能夠提升模型的性能,由于其收集和處理的復(fù)雜性,成本也相對較高。5.6.1規(guī)模和質(zhì)量待提升與此同時,數(shù)據(jù)文化有其自身的特色,例如在數(shù)據(jù)集的共享和開放性方面的相對謹(jǐn)慎。由于對數(shù)據(jù)隱私、安全以及商業(yè)競爭的考慮,許多有價值的數(shù)據(jù)庫并沒有公開。從技術(shù)角度看,這種做法可能會限制數(shù)據(jù)集的廣泛應(yīng)用和研究。然而換個角度來看,保持?jǐn)?shù)據(jù)的獨立性和私密性也有其合理性。這種做法有助于保護(hù)敏感信息,防止數(shù)據(jù)被濫用,同時也鼓勵企業(yè)和機構(gòu)投資于數(shù)據(jù)收集和分析,以獲得競爭優(yōu)勢,體現(xiàn)了對數(shù)據(jù)安全和商業(yè)利益的重視。未來,無論模型變得多么龐大,數(shù)據(jù)集的質(zhì)量始終是關(guān)鍵。為了從公開網(wǎng)絡(luò)中獲取高質(zhì)量的數(shù)據(jù),需要尋找那些內(nèi)容質(zhì)量高、規(guī)模大的平臺。5.6.1規(guī)模和質(zhì)量待提升AI模型和數(shù)據(jù)集相輔相成,互相助力。大模型如同大腦,通過深度學(xué)習(xí)與不斷優(yōu)化,實現(xiàn)智能識別、預(yù)測分析;而數(shù)據(jù)集如同養(yǎng)料,為大模型提供豐富、準(zhǔn)確的信息來源。只有優(yōu)秀的大模型與高質(zhì)量的數(shù)據(jù)集相結(jié)合,才能充分發(fā)揮人工智能的潛力,為各行各業(yè)帶來顛覆性的變革。5.6.2大模型與數(shù)據(jù)集相輔相成例如,假設(shè)初次見面,我們讓星火認(rèn)知大模型做自我介紹。問題(提示)很簡單,就用“你好,請介紹一下你自己,我該如何向你提問才能得到有效的答案?”看看它的回復(fù)。

圖5-6科大訊飛星火認(rèn)知大模型的“初次相識”回復(fù)5.6.2大模型與數(shù)據(jù)集相輔相成感興趣的讀者可以自行選擇不同的中文大模型產(chǎn)品來體驗,了解不同產(chǎn)品回復(fù),在信息組織,邏輯性強弱,傳達(dá)信息的高效和精確等方面,做出自己的評價。5.6.2大模型與數(shù)據(jù)集相輔相成大模型所需的數(shù)據(jù)集標(biāo)準(zhǔn)和規(guī)范卻不夠健全,略顯滯后,在一定程度上影響了大模型的訓(xùn)練效果和應(yīng)用范圍?!秶倚乱淮斯ぶ悄軜?biāo)準(zhǔn)體系建設(shè)指南》中提出,要“初步建立人工智能標(biāo)準(zhǔn)體系,重點研制數(shù)據(jù)算法、系統(tǒng)、服務(wù)等重點急需標(biāo)準(zhǔn),并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點行業(yè)和領(lǐng)域進(jìn)行推進(jìn)。建設(shè)人工智能標(biāo)準(zhǔn)試驗驗證平臺,提供公共服務(wù)能力?!?.6.3標(biāo)準(zhǔn)規(guī)范需健全國家工業(yè)信息安全發(fā)展研究中心2023年9月14日發(fā)布《AI大模型發(fā)展白皮書》,其中也提到,在基礎(chǔ)支撐方面,AI大模型訓(xùn)練數(shù)據(jù)需求激增,高質(zhì)量數(shù)據(jù)集成為AI大模型進(jìn)化的關(guān)鍵支撐,并建議全面夯實算法、算力、數(shù)據(jù)等高質(zhì)量發(fā)展根基。與此同時,由國家多個部門共同發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中,明確了生成式AI服務(wù)提供者在數(shù)據(jù)處理活動中應(yīng)遵循的規(guī)定,包括使用合法來源的數(shù)據(jù)和基礎(chǔ)模型,提高訓(xùn)練數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性和多樣性等。5.6.3標(biāo)準(zhǔn)規(guī)范需健全無論是從政策文件還是從實際應(yīng)用出發(fā),大模型數(shù)據(jù)集標(biāo)準(zhǔn)規(guī)范對于我國AI產(chǎn)業(yè)發(fā)展具有重要意義。面對挑戰(zhàn),我們期待能看到更完善的政策法規(guī)體系,建立有效的數(shù)據(jù)集質(zhì)量評估體系,推動數(shù)據(jù)集共享與開放,加強國際合作與交流,從而在全球競爭中立于不敗之地。5.6.3標(biāo)準(zhǔn)規(guī)范需健全AI技術(shù)的快速進(jìn)步推動了AI數(shù)據(jù)集的急劇擴(kuò)張和復(fù)雜化。大型數(shù)據(jù)集不僅包含海量的數(shù)據(jù),而且還包括大量的文本、圖片、音頻和視頻等不同類型的數(shù)據(jù)。這就要求存儲系統(tǒng)必須擁有更大的存儲空間和更快的讀寫速度,才能滿足這些不斷增長的數(shù)據(jù)需求。在人工智能的整個工作流程中,從數(shù)據(jù)收集、預(yù)處理、模型訓(xùn)練與評估,再到模型的部署和應(yīng)用,每個環(huán)節(jié)都離不開對海量數(shù)據(jù)的存儲和快速訪問。5.6.4存儲性能待提高然而,目前主流的存儲架構(gòu),如共享存儲結(jié)合本地SSD硬盤,還有一些IT系統(tǒng)大多采用煙囪式的建設(shè)模式,導(dǎo)致數(shù)據(jù)在不同存儲集群之間需要頻繁遷移。這種數(shù)據(jù)遷移不僅增加了復(fù)雜性,還降低了大模型處理數(shù)據(jù)的效率,已然是當(dāng)前AI數(shù)據(jù)集發(fā)展中面臨的一個挑戰(zhàn)。所以,為了提高AI數(shù)據(jù)集的存儲性能,需要對存儲架構(gòu)進(jìn)行優(yōu)化??梢钥紤]采用分布式存儲系統(tǒng),將數(shù)據(jù)分散存儲在多個節(jié)點上,提高數(shù)據(jù)的訪問速度和可靠性。也可以采用數(shù)據(jù)壓縮和去重技術(shù),減少數(shù)據(jù)存儲的空間需求,提高存儲效率。5.6.4存儲性能待提高除了數(shù)量規(guī)模和數(shù)據(jù)架構(gòu),大模型參數(shù)的頻繁優(yōu)化和訓(xùn)練平臺的不穩(wěn)定性也會增加對高性能存儲的需求。可以采用數(shù)據(jù)分片和索引技術(shù),提高數(shù)據(jù)的查詢和訪問速度。也可以采用數(shù)據(jù)預(yù)處理和特征提取技術(shù),減少訓(xùn)練數(shù)據(jù)的大小和復(fù)雜度,提高訓(xùn)練效率。伴隨著大模型發(fā)展的大趨勢,參數(shù)量指數(shù)增長、多模態(tài)和全模態(tài)的發(fā)展、以及對算力需求的增長,都會帶來數(shù)據(jù)存儲架構(gòu)的挑戰(zhàn),如存儲容量、數(shù)據(jù)遷移效率、系統(tǒng)故障間隔時間等。5.6.4存儲性能待提高因此,一個滿足大模型發(fā)展的存儲架構(gòu)需要具備高性能和大容量,并能進(jìn)行數(shù)據(jù)全生命周期管理,能支持人工智能全流程業(yè)務(wù),兼容多種協(xié)議,支持?jǐn)?shù)據(jù)高效流轉(zhuǎn)的同時又能滿足數(shù)千節(jié)點的橫向擴(kuò)展。要達(dá)到這個標(biāo)準(zhǔn),著實不容易。5.6.4存儲性能待提高01大模型預(yù)訓(xùn)練數(shù)據(jù)02數(shù)據(jù)處理03數(shù)據(jù)影響分析04典型的開源數(shù)據(jù)集目錄/CONTENTS05訓(xùn)練集、測試集、驗證集的異同06數(shù)據(jù)集面臨的挑戰(zhàn)大語言模型基礎(chǔ)第5章大模型預(yù)訓(xùn)練數(shù)據(jù)浙江省普通本科高?!笆奈濉敝攸c教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ:81505050第6章大模型開發(fā)組織人工智能正在成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。其中,深度學(xué)習(xí)模型尤其引人注目,而大語言模型更是當(dāng)下的熱門話題。所謂大模型開發(fā),是指建設(shè)以大模型為功能核心、通過其強大的理解能力和生成能力、結(jié)合特殊的數(shù)據(jù)或業(yè)務(wù)邏輯來提供獨特功能的應(yīng)用。開發(fā)大模型相關(guān)應(yīng)用,其技術(shù)核心雖然在大模型上,但一般通過調(diào)用API或開源模型來達(dá)成理解與生成,通過提示工程來實現(xiàn)大模型控制,因此,大模型是深度學(xué)習(xí)領(lǐng)域的集大成之作,大模型開發(fā)卻更多的是一個工程問題。圖6-1大模型開發(fā)要素第6章大模型開發(fā)組織大模型具有一些重要的特點:(1)高準(zhǔn)確性:隨著模型參數(shù)的增加,模型通常能更好地學(xué)習(xí)和適應(yīng)各種數(shù)據(jù),從而提高其預(yù)測和生成的準(zhǔn)確性。(2)多功能性:大模型通常更為通用,能夠處理更多種類的任務(wù),而不僅限于特定領(lǐng)域。(3)持續(xù)學(xué)習(xí):大模型的巨大容量使其更適合從持續(xù)的數(shù)據(jù)流中學(xué)習(xí)和適應(yīng)新知識。第6章大模型開發(fā)組織01大模型開發(fā)流程02大模型的數(shù)據(jù)組織03分而治之的思想04分布式訓(xùn)練與策略目錄/CONTENTSPART01大模型開發(fā)流程在大模型開發(fā)中,我們一般不會去大幅度改動模型,不必將精力聚焦在優(yōu)化模型本身上,而是將大模型作為一個調(diào)用工具,通過提示工程、數(shù)據(jù)工程、業(yè)務(wù)邏輯分解等手段來充分發(fā)揮大模型能力,適配應(yīng)用任務(wù)。因此,大模型開發(fā)的初學(xué)者并不需要深入研究大模型內(nèi)部原理,而更需要掌握使用大模型的實踐技巧。6.1大模型開發(fā)流程以調(diào)用、發(fā)揮大模型作用為核心的大模型開發(fā)與傳統(tǒng)的人工智能開發(fā)在整體思路上有著較大的不同。大模型的兩個核心能力:指令理解與文本生成提供了復(fù)雜業(yè)務(wù)邏輯的簡單平替方案。在傳統(tǒng)的人工智能開發(fā)中,首先需要將復(fù)雜的業(yè)務(wù)邏輯進(jìn)行拆解,對于每一個子業(yè)務(wù)構(gòu)造訓(xùn)練數(shù)據(jù)與驗證數(shù)據(jù),對于每一個子業(yè)務(wù)訓(xùn)練優(yōu)化模型,最后形成完整的模型鏈路來解決整個業(yè)務(wù)邏輯。然而,在大模型開發(fā)中,嘗試用提示工程來替代子模型的訓(xùn)練調(diào)優(yōu),通過提示鏈路組合來實現(xiàn)業(yè)務(wù)邏輯,用一個通用大模型+若干業(yè)務(wù)提示來完成任務(wù),從而將傳統(tǒng)的模型訓(xùn)練調(diào)優(yōu)轉(zhuǎn)變成了更簡單、輕松、低成本的提示設(shè)計調(diào)優(yōu)。6.1大模型開發(fā)流程在評估思路上,大模型開發(fā)與傳統(tǒng)人工智能開發(fā)有質(zhì)的差異。

傳統(tǒng)AI評估

LLM評估圖6-2大模型開發(fā)與傳統(tǒng)人工智能開發(fā)的不同6.1大模型開發(fā)流程傳統(tǒng)人工智能開發(fā)首先需要構(gòu)造訓(xùn)練集、測試集、驗證集,通過在訓(xùn)練集上訓(xùn)練模型、在測試集上調(diào)優(yōu)模型、在驗證集上最終驗證模型效果來實現(xiàn)性能的評估。然而,大模型開發(fā)更敏捷、靈活,一般不會在初期顯式地確定訓(xùn)練集、驗證集,由于不再需要訓(xùn)練子模型,我們直接從實際業(yè)務(wù)需求出發(fā)構(gòu)造小批量驗證集,設(shè)計合理提示來滿足驗證集效果。然后,不斷從業(yè)務(wù)邏輯中收集提示的壞情況,并將壞情況加入到驗證集中,針對性優(yōu)化提示,最后實現(xiàn)較好的泛化效果。6.1大模型開發(fā)流程通常將大模型開發(fā)分解為以下幾個流程。圖6-3大模型開發(fā)流程6.1大模型開發(fā)流程(1)確定目標(biāo)。開發(fā)目標(biāo)即應(yīng)用場景、目標(biāo)人群、核心價值。對于個體開發(fā)者或小型開發(fā)團(tuán)隊而言,一般應(yīng)先設(shè)定最小化目標(biāo),從構(gòu)建一個最小可行性產(chǎn)品開始,逐步進(jìn)行完善和優(yōu)化。6.1大模型開發(fā)流程(2)設(shè)計功能。確定目標(biāo)后,需要設(shè)計應(yīng)用所要提供的功能,以及每一個功能的大體實現(xiàn)邏輯。雖然通過使用大模型簡化了業(yè)務(wù)邏輯的拆解,但是越清晰、深入的業(yè)務(wù)邏輯理解往往能帶來更好的提示效果。同樣,對于個體開發(fā)者或小型開發(fā)團(tuán)隊來說,先確定應(yīng)用的核心功能,然后延展設(shè)計核心功能的上下游功能;例如,我們想打造一款個人知識庫助手,那么核心功能就是結(jié)合個人知識庫內(nèi)容進(jìn)行問題的回答,其上游功能的用戶上傳知識庫、下游功能的用戶手動糾正模型回答就是必須要設(shè)計實現(xiàn)的子功能。6.1大模型開發(fā)流程(3)搭建整體架構(gòu)。目前,絕大部分大模型應(yīng)用都是采用特定數(shù)據(jù)庫+提示+通用大模型的架構(gòu)。需要針對所設(shè)計的功能,搭建項目的整體架構(gòu),實現(xiàn)從用戶輸入到應(yīng)用輸出的全流程貫通。一般情況下,推薦基于LangChain框架進(jìn)行開發(fā),這是一款使用大模型構(gòu)建強大應(yīng)用程序的工具,它提供了鏈、工具等架構(gòu)的實現(xiàn),可以基于LangChain進(jìn)行個性化定制,實現(xiàn)從用戶輸入到數(shù)據(jù)庫再到大模型最后輸出的整體架構(gòu)連接。6.1大模型開發(fā)流程(4)搭建數(shù)據(jù)庫。個性化大模型應(yīng)用需要有個性化的數(shù)據(jù)庫來支撐。由于大模型應(yīng)用需要進(jìn)行向量語義檢索,一般使用諸如Chroma向量數(shù)據(jù)庫。在該步驟中,需要收集數(shù)據(jù)并進(jìn)行預(yù)處理,再向量化存儲到數(shù)據(jù)庫中。數(shù)據(jù)預(yù)處理一般包括從多種格式向純文本的轉(zhuǎn)化,例如PDF、HTML、音視頻等,以及對錯誤數(shù)據(jù)、異常數(shù)據(jù)、臟數(shù)據(jù)進(jìn)行清洗。完成預(yù)處理后,需要進(jìn)行切片、向量化構(gòu)建出個性化數(shù)據(jù)庫。6.1大模型開發(fā)流程向量數(shù)據(jù)庫最早應(yīng)用于傳統(tǒng)人工智能和機器學(xué)習(xí)場景。大模型興起后,由于受大模型詞元數(shù)的限制,很多開發(fā)者傾向于將數(shù)據(jù)量龐大的知識、新聞、文獻(xiàn)、語料等先通過嵌入算法轉(zhuǎn)變?yōu)橄蛄繑?shù)據(jù),然后存儲在Chroma等向量數(shù)據(jù)庫中。當(dāng)用戶在大模型輸入問題后,將問題本身也嵌入轉(zhuǎn)化為向量,在向量數(shù)據(jù)庫中查找與之最匹配的相關(guān)知識,組成大模型的上下文,將其輸入給大模型,最終返回大模型處理后的文本給用戶,這種方式不僅降低大模型的計算量,提高響應(yīng)速度,也降低成本,并避免了大模型的詞元限制,是一種簡單高效的處理手段。此外,向量數(shù)據(jù)庫還在大模型記憶存儲等領(lǐng)域發(fā)揮其不可替代的作用。6.1大模型開發(fā)流程(5)提示工程。優(yōu)質(zhì)的提示對大模型能力具有極大影響,需要逐步迭代構(gòu)建優(yōu)質(zhì)的提示工程來提升應(yīng)用性能。在該步驟中,首先應(yīng)該明確提示設(shè)計的一般原則及技巧,構(gòu)建出一個源于實際業(yè)務(wù)的小型驗證集,以此來滿足基本要求、具備基本能力的提示。6.1大模型開發(fā)流程(6)驗證迭代。這在大模型開發(fā)中是極其重要的一步,一般指通過不斷發(fā)現(xiàn)壞的情況并針對性改進(jìn)提示工程來提升系統(tǒng)效果、應(yīng)對邊界情況。在完成上一步的初始化提示設(shè)計后,應(yīng)該進(jìn)行實際業(yè)務(wù)測試,探討邊界情況,找到壞的情況,并針對性分析提示存在的問題,從而不斷迭代優(yōu)化,直到達(dá)到一個較為穩(wěn)定、可以基本實現(xiàn)目標(biāo)的提示版本。6.1大模型開發(fā)流程(7)前后端搭建。完成提示工程及其迭代優(yōu)化之后,就完成了應(yīng)用的核心功能,可以充分發(fā)揮大模型的強大能力。接下來,需要搭建前后端,設(shè)計產(chǎn)品頁面,讓應(yīng)用能夠上線成為產(chǎn)品。前后端開發(fā)是非常經(jīng)典且成熟的領(lǐng)域,有兩種快速開發(fā)演示的框架:Gradio和Streamlit,可以幫助個體開發(fā)者迅速搭建可視化頁面實現(xiàn)演示上線。(8)體驗優(yōu)化。完成前后端搭建后,應(yīng)用就可以上線體驗了。接下來需要進(jìn)行長期的用戶體驗跟蹤,記錄壞情況,與用戶負(fù)反饋,再針對性進(jìn)行優(yōu)化即可。6.1大模型開發(fā)流程PART02大模型的數(shù)據(jù)組織在設(shè)計、研發(fā)、運行的過程中,大模型面臨的主要挑戰(zhàn)如下。(1)計算資源:訓(xùn)練和運行大模型需要大量的計算資源,這可能限制了許多機構(gòu)和研究者使用它的能力。(2)環(huán)境影響:大規(guī)模模型的訓(xùn)練對能源的需求是巨大的,可能會對環(huán)境造成負(fù)面影響。(3)偏見和公正性:由于大模型通常從大量的互聯(lián)網(wǎng)文本中學(xué)習(xí),它們可能會吸收并再現(xiàn)存在于這些數(shù)據(jù)中的偏見。6.2大模型的數(shù)據(jù)組織盡管存在挑戰(zhàn),但研究者仍在積極尋找解決方法。例如,通過更高效的訓(xùn)練方法、結(jié)構(gòu)優(yōu)化等技術(shù)來降低能源消耗;或者通過更公正的數(shù)據(jù)收集和處理方法來減少模型偏見。大模型的研發(fā)流程涵蓋了從數(shù)據(jù)采集到模型訓(xùn)練的多個步驟。6.2大模型的數(shù)據(jù)組織數(shù)據(jù)采集是大模型項目的起點,根據(jù)大模型訓(xùn)練的需求收集大量數(shù)據(jù)。這些數(shù)據(jù)可以有多種來源,如公開的數(shù)據(jù)集、公司內(nèi)部的數(shù)據(jù)庫、用戶生成的數(shù)據(jù)、傳感器數(shù)據(jù)等。數(shù)據(jù)的類型可以多樣,包括圖像、文本、聲音、視頻等。定義數(shù)據(jù)需求:確定需要收集什么樣的數(shù)據(jù)。這應(yīng)該基于問題陳述和項目目標(biāo)。需要理解你的問題是什么,然后決定哪種類型的數(shù)據(jù)(例如數(shù)字、類別、文本、圖像等)和哪些特定的特征可能對解決問題有幫助。找到數(shù)據(jù)源:確定數(shù)據(jù)來源。這可能包括公開的數(shù)據(jù)庫、在線資源,或者可以從公司內(nèi)部數(shù)據(jù)庫或系統(tǒng)中收集數(shù)據(jù)。在某些情況下,可能需要通過調(diào)查或?qū)嶒炇占碌臄?shù)據(jù)。6.2.1數(shù)據(jù)采集數(shù)據(jù)收集:從選擇的數(shù)據(jù)源中收集數(shù)據(jù)。這涉及到從數(shù)據(jù)庫中導(dǎo)出數(shù)據(jù),使用API來收集在線數(shù)據(jù),或者使用特殊的數(shù)據(jù)采集設(shè)備(例如物聯(lián)網(wǎng))。數(shù)據(jù)存儲:將收集到的數(shù)據(jù)存儲在合適的地方,以便進(jìn)一步處理和分析。這可能涉及到設(shè)置數(shù)據(jù)庫或使用文件系統(tǒng)。檢查數(shù)據(jù)質(zhì)量:查看收集的數(shù)據(jù),確保其質(zhì)量滿足需求。需要檢查數(shù)據(jù)是否完整,是否有錯誤,是否有重復(fù)的數(shù)據(jù)等。6.2.1數(shù)據(jù)采集數(shù)據(jù)整理:如果數(shù)據(jù)來自多個來源,或者在一個大的數(shù)據(jù)集中,可能需要整理數(shù)據(jù),使其在一定的上下文中有意義。這包括對數(shù)據(jù)排序,或者將數(shù)據(jù)分組,或者將數(shù)據(jù)從多個源合并。數(shù)據(jù)采集是一個持續(xù)的過程,特別是對需要實時更新或處理新信息的項目。在整個數(shù)據(jù)采集過程中,需要關(guān)注數(shù)據(jù)的質(zhì)量和一致性,同時也要注意遵守數(shù)據(jù)隱私和安全的相關(guān)規(guī)定。6.2.1數(shù)據(jù)采集收集到的原始數(shù)據(jù)可能含有噪聲、缺失值、錯誤數(shù)據(jù)等,所以要對數(shù)據(jù)進(jìn)行清洗。清洗后的數(shù)據(jù)要進(jìn)行一系列預(yù)處理操作,如歸一化、編碼轉(zhuǎn)換等,使其適合輸入到模型中。數(shù)據(jù)清洗和預(yù)處理是數(shù)據(jù)科學(xué)項目的重要步驟,它們有助于提高模型的性能并減少可能的錯誤。數(shù)據(jù)質(zhì)量檢查:這是數(shù)據(jù)清洗的第一步,其中涉及識別和處理數(shù)據(jù)集中的錯誤、重復(fù)值、缺失值和異常值。需要驗證數(shù)據(jù)的完整性、一致性和準(zhǔn)確性,確保所有的記錄都是準(zhǔn)確的,與實際情況相符。6.2.2數(shù)據(jù)清洗和預(yù)處理處理缺失值:有多種方法可以處理數(shù)據(jù)集中的缺失值。這些方法包括:刪除包含缺失值的記錄;用特定值(如列的平均值、中位數(shù)或眾數(shù))填充缺失值;使用預(yù)測模型(如KNN近鄰分類或回歸)預(yù)測缺失值;或者使用一種標(biāo)記值來表示缺失值。處理重復(fù)值:如果數(shù)據(jù)集中存在重復(fù)的記錄,那么可能需要刪除這些重復(fù)的記錄。在一些情況下,重復(fù)的記錄可能是數(shù)據(jù)收集過程中的錯誤,但在其他情況下,重復(fù)的記錄可能是有意義的,所以需要根據(jù)具體情況來判斷。6.2.2數(shù)據(jù)清洗和預(yù)處理處理異常值:異常值是那些遠(yuǎn)離其他觀察值的值,這些值可能由測量錯誤或其他原因產(chǎn)生。處理異常值的方法包括:刪除異常值;使用統(tǒng)計方法(如四分位數(shù)間距法)將異常值替換為更合理的值;或者使用機器學(xué)習(xí)算法對其進(jìn)行預(yù)測。6.2.2數(shù)據(jù)清洗和預(yù)處理數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為適合進(jìn)行分析或建模的形式。這可能包括以下幾種形式。(1)規(guī)范化或標(biāo)準(zhǔn)化:將數(shù)值特征縮放到同一范圍內(nèi),如0到1,或者轉(zhuǎn)換為具有零均值和單位方差的值。(2)分類變量編碼:例如將分類變量轉(zhuǎn)換為獨熱編碼或標(biāo)簽編碼。(3)特征工程:創(chuàng)建新的特征,使之可能更好地表達(dá)數(shù)據(jù)的某些方面或者提高模型的性能。6.2.2數(shù)據(jù)清洗和預(yù)處理根據(jù)具體的項目和數(shù)據(jù)集,這個流程可能會有所不同。在進(jìn)行數(shù)據(jù)清洗和預(yù)處理時,需要對數(shù)據(jù)有深入的理解,以便做出最好的決策。6.2.2數(shù)據(jù)清洗和預(yù)處理數(shù)據(jù)標(biāo)注,也叫數(shù)據(jù)標(biāo)記,是一項為原始數(shù)據(jù)添加元信息的工作,以幫助大模型更好地理解和學(xué)習(xí)數(shù)據(jù)。對于監(jiān)督學(xué)習(xí)任務(wù),模型需要有標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)標(biāo)注的目標(biāo)就是為數(shù)據(jù)提供這些標(biāo)簽,這個過程可能需要專門的標(biāo)注團(tuán)隊。對于非監(jiān)督學(xué)習(xí)任務(wù),如聚類或生成模型,這一步則不需要。理解任務(wù)需求:首先需要理解要解決的問題以及數(shù)據(jù)標(biāo)注應(yīng)該如何進(jìn)行。例如,如果進(jìn)行圖像分類任務(wù),可能需要給每個圖像一個分類標(biāo)簽;如果在進(jìn)行物體檢測任務(wù),可能需要在圖像中的每個目標(biāo)物體周圍畫一個邊界框,并給出這個物體的分類標(biāo)簽。6.2.3數(shù)據(jù)標(biāo)注制定標(biāo)注規(guī)范:規(guī)范是一個詳細(xì)解釋如何進(jìn)行數(shù)據(jù)標(biāo)注的指南,它解釋哪些數(shù)據(jù)應(yīng)該被標(biāo)記,應(yīng)該如何標(biāo)記,以及如何處理可能出現(xiàn)的問題或歧義。清晰、詳細(xì)的標(biāo)注規(guī)范可以幫助保持標(biāo)注的一致性,并提高標(biāo)注的質(zhì)量。選擇或開發(fā)標(biāo)注工具:有許多數(shù)據(jù)標(biāo)注工具,可以用于各種類型的數(shù)據(jù)標(biāo)注任務(wù)。應(yīng)該選擇或開發(fā)一個適合自己任務(wù)的標(biāo)注工具,它應(yīng)該方便使用,提高標(biāo)注效率,并盡可能減少錯誤。6.2.3數(shù)據(jù)標(biāo)注進(jìn)行數(shù)據(jù)標(biāo)注:按照標(biāo)注規(guī)范,使用標(biāo)注工具進(jìn)行數(shù)據(jù)標(biāo)注。這可能是一個時間和人力密集型的過程,尤其是當(dāng)有大量數(shù)據(jù)需要標(biāo)注時。質(zhì)量檢查:檢查標(biāo)注的數(shù)據(jù),確保標(biāo)注的質(zhì)量。這涉及到隨機抽查一部分?jǐn)?shù)據(jù),并檢查它們是否被正確和一致地標(biāo)注。反饋和修正:根據(jù)質(zhì)量檢查的結(jié)果,如果發(fā)現(xiàn)任何問題或不一致,需要反饋給標(biāo)注團(tuán)隊,并修正錯誤的標(biāo)注。6.2.3數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注是一個重要但往往被忽視的步驟。高質(zhì)量標(biāo)注數(shù)據(jù)對訓(xùn)練出高性能的機器學(xué)習(xí)模型至關(guān)重要。因此,盡管這是一個復(fù)雜和耗時的過程,但投入在這個過程中的努力會得到回報。6.2.3數(shù)據(jù)標(biāo)注數(shù)據(jù)通常被劃分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集用于模型訓(xùn)練,驗證集用于超參數(shù)調(diào)整和模型選擇,測試集用于最后的模型性能評估。數(shù)據(jù)集劃分是大模型項目中的一個重要步驟,它可以幫助我們更好地理解模型在未見過的數(shù)據(jù)上的性能。確定劃分策略:確定數(shù)據(jù)集劃分的策略主要取決于數(shù)據(jù)集的大小和特性。一般的策略是將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集。在大多數(shù)情況下,數(shù)據(jù)被劃分為80%的訓(xùn)練集,10%的驗證集和10%的測試集,但這并不是硬性規(guī)定,具體的劃分比例需要根據(jù)實際情況來確定。6.2.4數(shù)據(jù)集劃分隨機劃分:為了確保每個劃分的數(shù)據(jù)分布與原始數(shù)據(jù)集相似,通常需要對數(shù)據(jù)進(jìn)行隨機劃分。這可以通過洗牌數(shù)據(jù)索引來實現(xiàn)。分層抽樣:在某些情況下,可能需要確保每個劃分中各類別的數(shù)據(jù)比例與整個數(shù)據(jù)集相同。這稱為分層抽樣。例如,如果數(shù)據(jù)集是一個二分類問題,可能希望訓(xùn)練集、驗證集和測試集中正負(fù)樣本的比例都與整個數(shù)據(jù)集中的比例相同。6.2.4數(shù)據(jù)集劃分時間序列數(shù)據(jù)的劃分:對于時間序列數(shù)據(jù),數(shù)據(jù)劃分的策略可能會不同。通常不能隨機劃分,而是基于時間來劃分?jǐn)?shù)據(jù)。例如,我們可能會使用前80%的數(shù)據(jù)作為訓(xùn)練集,然后使用接下來10%的數(shù)據(jù)作為驗證集,最后10%的數(shù)據(jù)作為測試集。分割數(shù)據(jù):按照所選擇的策略,使用編程語言或者數(shù)據(jù)處理工具來劃分?jǐn)?shù)據(jù)。保存數(shù)據(jù):保存劃分后的數(shù)據(jù)集,以便后續(xù)的訓(xùn)練和測試。確保訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù)被正確地保存,并且可以方便地加載。6.2.4數(shù)據(jù)集劃分這個流程可能根據(jù)數(shù)據(jù)的類型和任務(wù)的需求有所不同。無論如何,正確的數(shù)據(jù)劃分策略對于避免過擬合,以及準(zhǔn)確評估模型的性能至關(guān)重要。6.2.4數(shù)據(jù)集劃分模型設(shè)計是大模型項目的關(guān)鍵環(huán)節(jié),需要結(jié)合項目目標(biāo)、數(shù)據(jù)特性以及算法理論選擇或設(shè)計適合任務(wù)的模型架構(gòu)。可能會使用復(fù)雜的深度學(xué)習(xí)架構(gòu),如Transformer、BERT、ResNet等。圖6-4案例:文心大模型全景圖6.2.5模型設(shè)計理解問題:首先,需要理解你要解決的問題,并根據(jù)問題類型(例如,分類、回歸、聚類、生成模型等)決定采用何種類型的模型。選擇算法:根據(jù)要解決的問題選擇合適的機器學(xué)習(xí)算法。這可能包括決策樹、線性回歸、邏輯回歸、支持向量機、神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)等。在選擇算法時,需要考慮各種因素,如問題的復(fù)雜性、數(shù)據(jù)的大小和維度、計算資源等。設(shè)計模型架構(gòu):這主要涉及到深度學(xué)習(xí)模型。需要設(shè)計模型的架構(gòu),例如神經(jīng)網(wǎng)絡(luò)的層數(shù)、每層的節(jié)點數(shù)、激活函數(shù)的選擇等。此步驟可能需要根據(jù)經(jīng)驗和實驗結(jié)果進(jìn)行調(diào)整。6.2.5模型設(shè)計設(shè)置超參數(shù):超參數(shù)是在開始學(xué)習(xí)過程之前設(shè)置的參數(shù),而不是通過訓(xùn)練得到的參數(shù)。例如,學(xué)習(xí)率、批量大小、迭代次數(shù)等。超參數(shù)的選擇可能需要通過經(jīng)驗或者系統(tǒng)的搜索(例如網(wǎng)格搜索、隨機搜索或貝葉斯優(yōu)化)來確定。正則化和優(yōu)化策略:為了防止過擬合并提高模型的泛化能力,可能需要使用一些正則化策略,如L1/L2正則化、dropout(輟學(xué))、earlystopping(提早停止)等。同時,還需要選擇合適的優(yōu)化算法(例如,SGD、Adam、RMSprop等)以及可能的學(xué)習(xí)率調(diào)整策略。6.2.5模型設(shè)計定義評估指標(biāo):需要定義合適的評估指標(biāo)來衡量模型的性能。選擇的評估指標(biāo)應(yīng)與業(yè)務(wù)目標(biāo)和模型目標(biāo)相一致。常見的評估指標(biāo)包括精度、召回率、F1分?jǐn)?shù)、AUC、均方誤差等。需要根據(jù)具體項目和需求進(jìn)行迭代。模型設(shè)計是一個需要技術(shù)、經(jīng)驗以及實驗驗證的過程,設(shè)計時需要保持對模型復(fù)雜性和泛化能力之間平衡的認(rèn)識,并始終以實現(xiàn)業(yè)務(wù)目標(biāo)為導(dǎo)向。6.2.5模型設(shè)計模型初始化是大模型項目中的重要步驟。訓(xùn)練開始前需要初始化模型參數(shù),這一般通過隨機方式進(jìn)行。正確的初始化策略可以幫助模型更快地收斂,并減少訓(xùn)練過程中可能出現(xiàn)的問題。選擇初始化策略:有許多不同的初始化策略可以選擇,例如零初始化、隨機初始化、He初始化、Xavier初始化等。需要根據(jù)模型和激活函數(shù)來選擇合適的初始化策略。例如,如果模型使用ReLU激活函數(shù),He初始化可能是一個好的選擇;如果模型使用tanh或sigmoid激活函數(shù),Xavier初始化可能是一個好的選擇。6.2.6模型初始化初始化權(quán)重:使用選擇的策略來初始化模型的權(quán)重。對每一層都需要初始化其權(quán)重。在大多數(shù)情況下,權(quán)重應(yīng)該被初始化為小的隨機數(shù),以打破對稱性并保證不同神經(jīng)元學(xué)到不同的特征。初始化偏置:初始化模型的偏置。在許多情況下,偏置可以被初始化為零。但是,對于某些類型的層(如批量歸一化層),偏置的初始化可能需要更復(fù)雜的策略。6.2.6模型初始化設(shè)置初始化參數(shù):某些初始化策略可能需要額外的參數(shù)。例如,隨機初始化可能需要一個范圍或者一個標(biāo)準(zhǔn)差,你需要設(shè)置這些參數(shù)。執(zhí)行初始化:在模型代碼中執(zhí)行初始化操作。大多數(shù)深度學(xué)習(xí)框架(如TensorFlow和PyTorch)都提供了內(nèi)置的方法來執(zhí)行初始化。模型初始化是一個比較技術(shù)性的主題,正確的初始化策略可能對模型的訓(xùn)練速度和性能有很大的影響。應(yīng)該了解不同的初始化策略,以便根據(jù)模型選擇最適合的策略。6.2.6模型初始化模型訓(xùn)練是大模型項目中的關(guān)鍵步驟,其中包含了多個環(huán)節(jié)。設(shè)置訓(xùn)練參數(shù):首先,需要設(shè)置訓(xùn)練參數(shù),如學(xué)習(xí)率、訓(xùn)練迭代次數(shù)、批次大小等。準(zhǔn)備訓(xùn)練數(shù)據(jù):需要將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集。通常,大部分?jǐn)?shù)據(jù)用于訓(xùn)練,一部分用于驗證模型性能和調(diào)整超參數(shù),剩余的一部分用于測試。6.2.7模型訓(xùn)練前向傳播:在前向傳播階段,模型接收輸入數(shù)據(jù),并通過網(wǎng)絡(luò)層傳遞,直到輸出層。這個過程中會生成一個預(yù)測輸出。計算損失:根據(jù)預(yù)測輸出和實際標(biāo)簽,使用損失函數(shù)(如均方誤差、交叉熵等)計算損失。損失反映了模型預(yù)測的準(zhǔn)確程度。反向傳播:在這個階段,算法計算損失函數(shù)關(guān)于模型參數(shù)的梯度,并根據(jù)這些梯度來更新模型參數(shù)。這個過程通常使用優(yōu)化算法(如梯度下降、隨機梯度下降、Adam等)來進(jìn)行。6.2.7模型訓(xùn)練驗證和調(diào)整:在每個迭代結(jié)束后,使用驗證集評估模型性能。如果模型在驗證集上的性能沒有提高,或者開始下降,這意味著模型可能過擬合了,需要調(diào)整模型的超參數(shù),或者使用一些正則化技術(shù)(如dropout、L1/L2正則化、早停法等)。重復(fù)前向傳播、計算損失、反向傳播和驗證步驟,直到模型性能達(dá)到滿意,或者達(dá)到預(yù)設(shè)的訓(xùn)練迭代次數(shù)。6.2.7模型訓(xùn)練模型測試:當(dāng)模型訓(xùn)練完成后,使用測試集進(jìn)行最終的性能評估。這能夠提供模型在未見過的數(shù)據(jù)上的性能表現(xiàn)。實際操作中可能需要根據(jù)特定任務(wù)或特定模型進(jìn)行相應(yīng)的調(diào)整。6.2.7模型訓(xùn)練模型驗證是大模型項目中非常關(guān)鍵的一步,目的是在訓(xùn)練過程中,評估模型的性能,定期在驗證集上測試模型的性能,監(jiān)控過擬合,根據(jù)測試和監(jiān)控結(jié)果調(diào)整模型的超參數(shù)。準(zhǔn)備驗證集:在數(shù)據(jù)集劃分階段,應(yīng)該保留一部分?jǐn)?shù)據(jù)作為驗證集。這部分?jǐn)?shù)據(jù)不參與模型訓(xùn)練,僅用于模型驗證。進(jìn)行模型預(yù)測:使用訓(xùn)練好的模型對驗證集進(jìn)行預(yù)測。通常,在每一輪迭代訓(xùn)練結(jié)束后進(jìn)行一次驗證。6.2.8模型驗證計算評估指標(biāo):根據(jù)模型在驗證集上的預(yù)測結(jié)果和真實標(biāo)簽,計算相應(yīng)的評估指標(biāo)。評估指標(biāo)的選擇取決于任務(wù)類型。例如:對于分類任務(wù),常見的評估指標(biāo)有準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)等;對于回歸任務(wù),常見的評估指標(biāo)有均方誤差(MSE)、平均絕對誤差(MAE)等。比較性能:將這一輪的驗證性能與前一輪進(jìn)行比較。如果性能提高,則可以繼續(xù)進(jìn)行下一輪訓(xùn)練;如果性能下降,則可能需要調(diào)整學(xué)習(xí)率、增加正則化等措施。6.2.8模型驗證早停法:如果在連續(xù)多輪訓(xùn)練后,驗證性能沒有顯著提高,可以使用早停法來提前結(jié)束訓(xùn)練,以避免過擬合。調(diào)整超參數(shù):如果模型在驗證集上的性能不佳,可能需要調(diào)整模型的超參數(shù),如學(xué)習(xí)率、批次大小、正則化參數(shù)等。常用的方法是使用網(wǎng)格搜索或隨機搜索等方式來自動搜索最優(yōu)的超參數(shù)組合。驗證集應(yīng)保持獨立,不能用于訓(xùn)練模型,否則就可能導(dǎo)致模型的性能評估不準(zhǔn)確,無法真實反映模型在未見過的數(shù)據(jù)上的性能。6.2.8模型驗證模型保存是大模型項目的重要一步,讓我們能夠?qū)⒂?xùn)練好的模型存儲起來,以便于后續(xù)的測試、部署或進(jìn)一步訓(xùn)練或分享。選擇保存格式:需要選擇一個合適的模型保存格式。常用的模型保存格式包括:Python的pickle文件、joblib文件,或者某些深度學(xué)習(xí)框架的專有格式,如TensorFlow的SavedModel格式和PyTorch的pth格式。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論