大模型訓(xùn)練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓(xùn)課件_第1頁
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓(xùn)課件_第2頁
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓(xùn)課件_第3頁
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓(xùn)課件_第4頁
大模型訓(xùn)練數(shù)據(jù)行業(yè)市場前景及投資研究報告:培訓(xùn)課件_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大模型訓(xùn)練數(shù)據(jù)白皮書目錄CONTENTS01..........................................................................

02訓(xùn)練數(shù)據(jù)對大模型發(fā)展的重要性02.....................................................................................

03模型訓(xùn)練所需的數(shù)據(jù)類型2.1訓(xùn)練大語言模型的數(shù)據(jù)

..................................................................................

032.2訓(xùn)練多模態(tài)模型的數(shù)據(jù)

..................................................................................

042.3訓(xùn)練數(shù)據(jù)的常見疑問和誤解

...........................................................................

042.3.1大模型訓(xùn)練并不依賴用戶個人信息

......................................................

042.3.2中文語料短缺不是制約我國大模型發(fā)展的重要因素

.............................

0503......................................................................

06科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用3.1高質(zhì)量數(shù)據(jù)的重要性

......................................................................................

063.2高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)

..........................................................................................

073.2.1高質(zhì)量數(shù)據(jù)類型的三重不確定性

..........................................................

073.2.2同類數(shù)據(jù)的評估標(biāo)準(zhǔn)并不完全一致

......................................................

0804....................................................

09合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.1訓(xùn)練數(shù)據(jù)供給不足帶來的思考

........................................................................

094.2合成數(shù)據(jù)的定義

.............................................................................................

104.3合成數(shù)據(jù)的必要性

..........................................................................................

104.4合成數(shù)據(jù)的生成方法及分類

...........................................................................

114.5合成數(shù)據(jù)在模型訓(xùn)練中的作用

........................................................................

124.5.1預(yù)訓(xùn)練語料的新物種

............................................................................

124.5.2提升對齊語料獲取效率的..........................................................

134.6解決訓(xùn)練數(shù)據(jù)供給不足的新方案

....................................................................

144.7在發(fā)展中治理的合成數(shù)據(jù)

...............................................................................

160506..............................................................................

17對大模型訓(xùn)練數(shù)據(jù)治理的思考5.1大模型對訓(xùn)練數(shù)據(jù)的使用特點(diǎn)

........................................................................

175.2大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智

....................................................................

18...................................................................

19政府與社會力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)6.1美國的現(xiàn)狀

....................................................................................................

196.2中國的現(xiàn)狀

....................................................................................................

210708...................................................................

23阿里巴巴集團(tuán)在大模型訓(xùn)練與應(yīng)用的探索.................................................

24以更開放和務(wù)實(shí)的方式解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給自《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》發(fā)布以來,我國數(shù)據(jù)要素建設(shè)不斷深入,在國家數(shù)據(jù)局等

17

部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素

×”

三年行動計劃(2024-2026

年)》進(jìn)一步明確

“建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開展人工智能大模型開發(fā)和訓(xùn)練”。通過數(shù)據(jù)要素建設(shè)推動人工智能大模型發(fā)展,可以有效解決我國人工智能,特別是大模型研發(fā)所面臨的數(shù)據(jù)瓶頸,進(jìn)一步發(fā)揮大模型對于世界知識數(shù)據(jù)的匯集和處理能力,創(chuàng)造更大的生產(chǎn)力,助力我國從數(shù)據(jù)經(jīng)濟(jì)走向智能經(jīng)濟(jì)新發(fā)展模式。大模型是數(shù)據(jù)要素價值釋放的最短路徑,通過理解其訓(xùn)練所使用的數(shù)據(jù)類型,可以更好理解大模型發(fā)揮價值的內(nèi)在機(jī)制,破解對訓(xùn)練數(shù)據(jù)常見的迷思和誤解。而促進(jìn)高質(zhì)量訓(xùn)練數(shù)據(jù)的建設(shè),需要理解人工智能對數(shù)據(jù)的實(shí)際需求,科學(xué)評價數(shù)據(jù)的規(guī)模和質(zhì)量;需要綜合利用政府、企業(yè)、社會等各方資源,構(gòu)建共享、共創(chuàng)、共贏的合作生態(tài),以更務(wù)實(shí)、多元、開放的方式解決供給不足的問題;還需要為技術(shù)發(fā)展預(yù)留空間,構(gòu)建更順應(yīng)模型發(fā)展的數(shù)據(jù)治理體系,相信隨著技術(shù)的日益成熟,相應(yīng)的商業(yè)模式和制度設(shè)計也都會逐步完善。01大模型訓(xùn)練數(shù)據(jù)白皮書01訓(xùn)練數(shù)據(jù)對大模型發(fā)展的重要性業(yè)界認(rèn)為,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以

GPT

為例的生成式人工智能大模型成功的驅(qū)動力。GPT

模型架構(gòu)從第

1

代到第

4

代均較為相似,而用來訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)量卻有很大的不同。GPT-1

是由

4.8G

未過濾原始數(shù)據(jù)訓(xùn)練,GPT-2

是由經(jīng)人類過濾后的

40G

數(shù)據(jù)訓(xùn)練,GPT-3是由從

45T

原始數(shù)據(jù)中過濾的

570G

數(shù)據(jù)訓(xùn)練,而

chatGPT/GPT-4

則是在該基礎(chǔ)上又加入了高質(zhì)量人類標(biāo)注。以吳恩達(dá)(AndrewNg)為代表的學(xué)者觀點(diǎn)認(rèn)為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心。“有標(biāo)注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會更快”。0202模型訓(xùn)練所需的數(shù)據(jù)類型數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ),它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個性化推薦等所需的大量用戶行為和偏好數(shù)據(jù),隨著技術(shù)的演進(jìn),大模型所需的數(shù)據(jù)是對知識性內(nèi)容有強(qiáng)需求,是一種新的類型。2.1?訓(xùn)練大語言模型的數(shù)據(jù)大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練的階段有所不同。以

ChatGPT

為代表的大語言模型(LLM)為例,其訓(xùn)練過程分為預(yù)訓(xùn)練(Pre-training)、監(jiān)督微調(diào)(SFT)、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)三個階段,后兩部分又統(tǒng)稱為03大模型訓(xùn)練數(shù)據(jù)白皮書“對齊”(Alignment)階段。第一階段預(yù)訓(xùn)練所需的語料是各種類型的世界知識,包括網(wǎng)頁、書籍、新聞、論文期刊、對話文本、代碼等形式,通過大量學(xué)習(xí)世界知識,構(gòu)建模型的基礎(chǔ)能力,理解客觀世界的規(guī)律,該階段的語料特征可以概括為

“廣”。第二階段

SFT,通過標(biāo)注人員設(shè)計問答,編寫正確答案,將例題投喂給模型,并希望模型在沒有見過的任務(wù)中“舉一反三”,提升泛化能力。第三階段

RLHF,訓(xùn)練目標(biāo)是讓模型的價值觀與人類對齊,需要人類對模型的回答進(jìn)行打分、排序,讓模型知道

"

怎么說更好

"。第二和第三階段的數(shù)據(jù)質(zhì)量要求較高,需要來自人類的高質(zhì)量反饋,語料特征可以概括為

“齊”。如果將模型微調(diào)后部署應(yīng)用于特定的場景形成行業(yè)大模型(如工業(yè)、金融、醫(yī)療等),則需要滿足該場景專業(yè)需求的特定領(lǐng)域知識做預(yù)訓(xùn)練和對齊,需要具備一定專業(yè)深度,如行業(yè)數(shù)據(jù)庫、專業(yè)文檔、專業(yè)網(wǎng)站等,這部分的語料特征是

“?!薄?.2?訓(xùn)練多模態(tài)模型的數(shù)據(jù)大語言模型迅速發(fā)展的同時,Transformer

開始遷移到圖像、視頻和語音等其他模態(tài)數(shù)據(jù)領(lǐng)域,并與大語言模型融合,形成多模態(tài)大模型。多模態(tài)模型模擬人類大腦處理信息的方式,把各種感知模態(tài)結(jié)合起來,以更全面、綜合的方式理解和生成信息,最終實(shí)現(xiàn)更豐富的任務(wù)和應(yīng)用。從以

Mid-journey

Sora

為例的多模態(tài)大模型看,在訓(xùn)練階段需要大量圖像

-

文本對、視頻

-

文本對等有標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。圖像

-

文本對是包含一張圖像和一段描述該圖像內(nèi)容的文本的數(shù)據(jù),讓模型學(xué)習(xí)組成圖像的像素之間、文字與圖像的關(guān)聯(lián)。視頻

-

文本對包括一個短視頻和一段描述視頻中發(fā)生事件的文本,讓模型不僅學(xué)習(xí)單個畫面,還需要理解視頻中的時間序列和動態(tài)變化。2.3?訓(xùn)練數(shù)據(jù)的常見疑問和誤解2.3.1?大模型訓(xùn)練并不依賴用戶個人信息人工智能經(jīng)歷了從有監(jiān)督學(xué)習(xí)到無監(jiān)督學(xué)習(xí)的發(fā)展階段,神經(jīng)網(wǎng)絡(luò)等技術(shù)推動了數(shù)據(jù)驅(qū)動的應(yīng)用模式。傳統(tǒng)的決策類人工智能在需求側(cè)通過學(xué)習(xí)和分析海量的用戶行為數(shù)據(jù),判斷用戶的偏好和需求。在供給側(cè)通過學(xué)習(xí)內(nèi)容的特征,借助推薦、排序等機(jī)制實(shí)現(xiàn)需求和內(nèi)容的匹配,并根據(jù)用戶的行為反饋進(jìn)行優(yōu)化,提高算法的準(zhǔn)確性。以個性化搜索為例,以大量的用戶使用記錄、用戶畫像、內(nèi)容畫像等原始數(shù)據(jù)為基礎(chǔ),提煉出客群和內(nèi)容標(biāo)簽等不同維04度的信息,進(jìn)而抽象出特征向量,用向量的空間距離計算用戶和內(nèi)容的相似度,通過匹配與排名進(jìn)行個性化的搜索結(jié)果召回。基于上述特點(diǎn),此類決策式人工智能技術(shù)在需求側(cè)需要更多用戶數(shù)據(jù),在供給側(cè)依賴更為全面的內(nèi)容特征。與以前的決策類人工智能相比,以大模型為代表的生成式人工智能的技術(shù)特征有明顯差異。大模型是模擬人類的思維活動方式生成人類可以理解和使用的內(nèi)容,而訓(xùn)練數(shù)據(jù)也是基于世界知識,對語料庫等知識性內(nèi)容有強(qiáng)烈需求,因此大模型訓(xùn)練階段不依賴個人信息等原始數(shù)據(jù)。此外,為保證生成內(nèi)容與人類價值觀對齊,業(yè)界往往利用強(qiáng)化學(xué)習(xí),通過納入人工標(biāo)注等機(jī)制優(yōu)化表達(dá),使模型生成內(nèi)容更接近于人類認(rèn)知。因此大模型對于用戶數(shù)據(jù)并不依賴,而對專業(yè)化、高質(zhì)量語料的知識性內(nèi)容依賴大。由此看出,隨著技術(shù)的演進(jìn),對訓(xùn)練數(shù)據(jù)的需求類型也有所不同。然而,有很多人對此仍存在誤解。根據(jù)第三方專業(yè)機(jī)構(gòu)測評顯示,超過

60%

的受訪者誤選了

“盜取、泄露個人隱私數(shù)據(jù)的安全風(fēng)險”

作為大模型的最主要風(fēng)險點(diǎn)。與一般看法相反,過量的個人數(shù)據(jù)會負(fù)面影響大模型的能力,而過于個性化的應(yīng)用也將增加大模型的運(yùn)算負(fù)擔(dān)。對此,OpenAI

負(fù)責(zé)人

SamAltman

表示,ChatGPT

不需要用戶的個人數(shù)據(jù),用戶可以選擇刪除其與

ChatGPT

的交互歷史;類似的,我國目前主流大模型在提供用戶隱私保護(hù)的基礎(chǔ)上,并不過度收集和使用用戶個人信息,并允許用戶控制和刪除其與大模型交互的對話和提供的內(nèi)容。當(dāng)然,在大模型的推理階段,如果用戶惡意誘導(dǎo),盡管有相應(yīng)的模型安全機(jī)制,仍不能完全避免個人信息泄露的問題。但可以明確的是,大模型在訓(xùn)練階段并不依賴個人信息。2.3.2?中文語料短缺不是制約我國大模型發(fā)展的重要因素談到中文大模型,一個普遍關(guān)注的問題是,中文語料和英文語料在互聯(lián)網(wǎng)中的占比存在顯著差異:在全球網(wǎng)站中,英文占

59.8%,而中文僅占

1.3%,那中文語料供給短缺是否是制約我國大模型發(fā)展的關(guān)鍵要素呢?在實(shí)踐中發(fā)現(xiàn),規(guī)模并不是決定性影響因素。一是世界知識的積累有的屬于客觀事實(shí),用英文或中文表達(dá),其原理是一致的?;蛘哒f,在機(jī)器翻譯質(zhì)量有保障的前提下,可以彌補(bǔ)這部分中文語料的缺少。二是在訓(xùn)練技術(shù)上引入新方法也可以彌補(bǔ)語料供給不足的問題。例如通過合理安排不同語言類型的訓(xùn)練順序,也能讓模型學(xué)習(xí)到供給相對較少語言的豐富特征。然而有一種類型的中文語料是極為重要且存在短缺的

-

中式價值觀類語料。因?yàn)槟P蜑榱烁玫乩斫饪陀^世界和掌握規(guī)律,需要學(xué)習(xí)大量來自知識和價值觀層的數(shù)據(jù),它們更多受到人類主觀意志的影響。而大模型是概率分布模型,其使用的數(shù)據(jù)分布將使得模型具備與之相似的人類意志。所以,訓(xùn)練中加入更多代表中式價值觀的語料,有助于大模型更好地理解和反映中文使用者的文化背景和價值取向,從而在全球化的背景下保持文化的多樣性和獨(dú)特性。而且此類語料短缺的問題也沒有辦法通過機(jī)器翻譯彌補(bǔ),因?yàn)榧词狗g質(zhì)量有保障,仍會引入源語言的偏見,體現(xiàn)的仍是源語言的價值觀??傮w來看,文言文、古漢語、電子書籍等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容,以及主流媒體發(fā)布的能反映本土價值觀的內(nèi)容,都可視為高質(zhì)量具有中式價值觀的語料。但目前看,與語料相關(guān)的各環(huán)節(jié):05大模型訓(xùn)練數(shù)據(jù)白皮書從積累機(jī)制、數(shù)字化(比如我國古籍?dāng)?shù)字化率不到

30%),到開放共享與開發(fā)利用,及訓(xùn)練過程中機(jī)器算法與編碼系統(tǒng)的建設(shè),都仍需大量持續(xù)投入精力。可見,中文語料

“量”

的短缺尚可有解決方案,但中式價值觀類的語料短缺,則會成為制約我國大模型發(fā)展的短板。03科學(xué)理解高質(zhì)量數(shù)據(jù)的含義與作用在生成式人工智能時代,模型訓(xùn)練的成功與否與所依賴的數(shù)據(jù)質(zhì)量息息相關(guān)。模型的能力很大程度上可以反映出其訓(xùn)練數(shù)據(jù)的質(zhì)量,這也無疑凸顯了高質(zhì)量數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用中不可替代的重要性。3.1?高質(zhì)量數(shù)據(jù)的重要性由于高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看,通常用損失函數(shù)來量化模型預(yù)測輸出與實(shí)際目標(biāo)之間的不匹配程度。能更好模擬客觀世界的高質(zhì)量數(shù)據(jù),可以使模型預(yù)測的概率分布盡可能逼近實(shí)際數(shù)據(jù)的真實(shí)分布,通過優(yōu)化算法調(diào)整模型參數(shù),讓模型在訓(xùn)練集上的損失函數(shù)最小。從模型能力表現(xiàn)看,一是高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性。首先,這些數(shù)據(jù)通常包含更準(zhǔn)確和豐富的信息,有助于模型更好地理解數(shù)據(jù)的內(nèi)在結(jié)構(gòu),掌握世界規(guī)律,提升產(chǎn)出的精準(zhǔn)性。其次,數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的重要環(huán)節(jié),包括去重、刪除個信隱私內(nèi)容、糾正錯誤、填補(bǔ)缺失值等,經(jīng)過清洗的數(shù)據(jù)可以提升訓(xùn)練階段的穩(wěn)定性。二是高質(zhì)量數(shù)據(jù)具有多樣性,可以降低模型對特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力。一方面高質(zhì)量數(shù)據(jù)通過對現(xiàn)有不同的數(shù)據(jù)加以混合,調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力。另一方面可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性,即通過對現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充,如旋轉(zhuǎn)、縮放、亮度調(diào)整等,生成更多的訓(xùn)練樣本,增加訓(xùn)練數(shù)據(jù)代表性和多樣性。然而,即使在訓(xùn)練各階段中的語料都滿足高質(zhì)量,能做到

“真實(shí)性”、“準(zhǔn)確性”、“客觀性”、“多樣性”

的要求,仍不能完全避免模型結(jié)果產(chǎn)生幻覺,即

“一本正經(jīng)胡說八道”。因?yàn)榇竽P捅举|(zhì)是概率模型,是基于前文預(yù)測06下一個詞出現(xiàn)的概率,“詞語接龍”

出現(xiàn)的下一個詞并不是

100%

有確定性的。所以高質(zhì)量的語料,可以大幅降低模型結(jié)果產(chǎn)生幻覺的概率,但并不能完全避免。但如果在訓(xùn)練中使用了較多錯誤、有毒、重復(fù)的低質(zhì)量數(shù)據(jù),則會對模型能力產(chǎn)生破壞性影響,也就是人們常說的

“GarbageInGarbageOut”,比如沒有經(jīng)過嚴(yán)格質(zhì)量篩選的大量社交媒體對話、用戶生成的內(nèi)容等。在對模型能力的損害上,使用錯誤的數(shù)據(jù)進(jìn)行訓(xùn)練,會導(dǎo)致模型記憶有偏差信息,發(fā)生事實(shí)性錯誤;使用有重復(fù)的語料,則可能會導(dǎo)致模型在訓(xùn)練過程中對特定類型的示例產(chǎn)生偏見,降低生成結(jié)果的多樣性,造成模型能力的顯著下降。由于高質(zhì)量數(shù)據(jù)如此重要,會引發(fā)對一系列問題的思考,比如我們能否前置制定統(tǒng)一的標(biāo)準(zhǔn)體系,把高質(zhì)量訓(xùn)練數(shù)據(jù)先識別出來?數(shù)據(jù)質(zhì)量與模型的能力有什么聯(lián)系?3.2?高質(zhì)量數(shù)據(jù)的標(biāo)準(zhǔn)3.2.1?高質(zhì)量數(shù)據(jù)類型的三重不確定性第一重不確定性來自于所需的語料種類,其類型是由人類對模型能力需求決定的,而能力需求又是根據(jù)需要模型所完成的任務(wù)而不斷演變。回溯基礎(chǔ)大模型的發(fā)展歷程,在

2020

年左右,基于

Transformer

架構(gòu)的

GoogleMeena,其目的是讓模型具有生成連貫且有意義內(nèi)容的對話能力,因此對話文本被視為最重要的高質(zhì)量數(shù)據(jù)。而隨著技術(shù)路線的演進(jìn),人們發(fā)現(xiàn)更通用的上下文理解是重點(diǎn),因此書籍和科研論文等又被視為高質(zhì)量數(shù)據(jù)。通過提升其在訓(xùn)練語料中的占比,可以增強(qiáng)模型從文本中捕捉長距離依賴的能力。隨著人們對通用人工智能的向往,對提升通用性能的北極星指標(biāo)

-

推理能力有幫助的語料,又更加被重視。一種是代碼數(shù)據(jù),因?yàn)槔锩嫔婕按罅縄f-Then-Else

等條件控制信息;另一種是教材,因?yàn)樯婕傲吮容^詳細(xì)的數(shù)學(xué)推理過程,和邏輯鏈高度相關(guān)。如果再拓展到行業(yè)模型,根據(jù)對模型能力的不同需求,語料類型更難以一一列舉。比如,經(jīng)人類標(biāo)注的,由視覺相似性圖片構(gòu)成的匹配對數(shù)據(jù)庫,可以作為高質(zhì)量數(shù)據(jù)用于大模型在廣告領(lǐng)域的訓(xùn)練,通過更好預(yù)測用戶需求實(shí)現(xiàn)對素材點(diǎn)擊率的優(yōu)化。而通過收集人類駕駛員對稀有事件(比如駕駛過程中遇到的復(fù)雜路況、極端天氣、異常行為的人或車輛等場景)的應(yīng)對數(shù)據(jù),則可以更好訓(xùn)練完全自動駕駛(FSD)模型在不同場景中的處理能力。由此看出,由于生成式

AI

在技術(shù)演進(jìn)和應(yīng)用場景拓展中具有不確定性,模型對所需要語料類型也在發(fā)生變化,“高質(zhì)量語料”

的類型和范圍也在不斷拓展。第二重不確定性來自于語料形態(tài)的演化,高質(zhì)量數(shù)據(jù)的形態(tài)會不斷增強(qiáng),以強(qiáng)化該類型語料的能力。一方面隨著合成數(shù)據(jù)和數(shù)據(jù)增強(qiáng)技術(shù)的提升,大模型正在不斷拓展對數(shù)據(jù)利用的可能性。如領(lǐng)域知識生成,對于大模型難以直接使用的原始數(shù)據(jù),通過加工、改造和泛化可以形成模型訓(xùn)練可用的知識類數(shù)據(jù)。另外,在自動駕駛等領(lǐng)域,通過仿真數(shù)據(jù)生成更多樣化、不同視角的物理世界用于模型訓(xùn)練,可以提升針對特定場景的數(shù)據(jù)收集效率,彌補(bǔ)真實(shí)07大模型訓(xùn)練數(shù)據(jù)白皮書世界中對稀有事件觀測不足的問題。另一方面,隨著模型長上下文建模能力的增強(qiáng),對代碼和教材的需求又有了質(zhì)的變化。例如,訓(xùn)練用的代碼數(shù)據(jù)從執(zhí)行單一任務(wù)到倉庫級,讓模型推理能力從掌握單任務(wù)模塊進(jìn)化到學(xué)習(xí)整體架構(gòu);訓(xùn)練用的教材從中小學(xué)級別知識拓展到大學(xué),進(jìn)一步增強(qiáng)了復(fù)雜場景下的推理能力。第三重不確定性來自于不同數(shù)據(jù)類型之間的有效搭配,數(shù)據(jù)調(diào)度對模型能力起到重要作用。該環(huán)節(jié)強(qiáng)調(diào)對不同的數(shù)據(jù)加以混合,以提升數(shù)據(jù)集的多樣性。因?yàn)椴煌愋偷臄?shù)據(jù)對模型能力提升的側(cè)重點(diǎn)不同,各個數(shù)據(jù)的配比不同,也會影響模型的泛化能力以及在下游任務(wù)的表現(xiàn),其中包含兩個重要環(huán)節(jié):一是調(diào)整不同配比(數(shù)據(jù)混合),二是不同

數(shù)據(jù)用于訓(xùn)練的順序(數(shù)據(jù)課程)。數(shù)據(jù)的數(shù)據(jù)混合環(huán)節(jié)可以在訓(xùn)練的不同階段設(shè)定配比,在實(shí)踐中不斷嘗試出最優(yōu)的組合。例如在監(jiān)督微調(diào)階段,有研究者從

StackExchange、Reddit等網(wǎng)站中精選高贊語料,配合手工整理的問答對,得到共計

1000條高質(zhì)量微調(diào)數(shù)據(jù),以

“少而精”

的數(shù)據(jù)在模型對齊能力上取得了很好的效果。數(shù)據(jù)混合在實(shí)踐中會采取不同策略,一是增加數(shù)據(jù)源的多樣性,這對大模型在下游任務(wù)能力的提升十分關(guān)鍵;二是可以根據(jù)大模型執(zhí)行的目標(biāo)任務(wù),選擇對任務(wù)性能產(chǎn)生積極影響的數(shù)據(jù)。數(shù)據(jù)課程環(huán)節(jié)是為了讓大模型更好地學(xué)習(xí)某項技能,對語料學(xué)習(xí)順序進(jìn)行探索。一般來說,按照技能集合的順序組織預(yù)訓(xùn)練語料(從基礎(chǔ)技能到目標(biāo)技能),比直接從專注于目標(biāo)技能的語料庫中學(xué)習(xí)更為有效,如從通用或簡單的例子開始,逐步引入更具專業(yè)化或復(fù)雜度的數(shù)據(jù)。3.2.2?同類數(shù)據(jù)的評估標(biāo)準(zhǔn)并不完全一致對同類語料的質(zhì)量評估,往往從質(zhì)量、規(guī)模、多樣性三個維度出發(fā)。在質(zhì)量上,被視為

“高質(zhì)量”

通常是因?yàn)槠湫畔⒁呀?jīng)通過了有用性或質(zhì)量篩選,這些大多可以從中做判斷。例如,在語言模型訓(xùn)練中,新聞、科研論文或開源代碼項目中的內(nèi)容會受到專業(yè)標(biāo)準(zhǔn)(如同行評審)的篩選;常識性內(nèi)容中,維基百科則經(jīng)受了一群專注編輯者的篩選;而經(jīng)過篩選的對話內(nèi)容則是基于用戶的積極互動(如在

Reddit

上獲得的點(diǎn)贊數(shù)量);在多模態(tài)模型訓(xùn)練中,以視覺中國為例,其網(wǎng)站有經(jīng)過專業(yè)設(shè)計師篩選的大量圖片和視頻素材,并有對圖像的光照、構(gòu)圖、藝術(shù)性、美觀性等專業(yè)性標(biāo)注,形成了高質(zhì)量的圖像

/

視頻

-

文本對。其次,對于無法從信息直接判斷數(shù)據(jù)質(zhì)量的語料,人們會嘗試用評估模型進(jìn)行打分。例如對大量公開的網(wǎng)頁,通過先對少量樣本人工評價得到可讀性、幫助性、安全性等指標(biāo),通過這些具有代表性的樣本訓(xùn)練評估模型,將人工定義的評價標(biāo)準(zhǔn)轉(zhuǎn)化為機(jī)器可識別的特征和模式,在此基礎(chǔ)上評價語料中所有網(wǎng)頁信息的質(zhì)量。然而,即使有了前兩種方法,針對部分語料仍無法前置判斷其質(zhì)量。如用于領(lǐng)域模型訓(xùn)練的語料,涉及到不同行業(yè)的專業(yè)知識,缺少統(tǒng)一的判斷標(biāo)準(zhǔn),往往是在模型訓(xùn)練中不斷檢驗(yàn)其質(zhì)量的高低。從規(guī)??矗占銐蛞?guī)模的高質(zhì)量語料也非常重要。根據(jù)大模型

“伸縮法則”,當(dāng)模型的參數(shù)或計算量按比例擴(kuò)大時,模型性能也與之成比例提升。而隨著參數(shù)規(guī)模的增加,也需要更多數(shù)據(jù)來訓(xùn)練模型,即模型參數(shù)與訓(xùn)練語料之間也存在類似的比例關(guān)系。需要指出的是,并不是語料規(guī)模越大越好,而是高信息密度的語料規(guī)模越大越好:以

CC(CommonCrawl)和

C4

數(shù)據(jù)集的對比為例,CC

是一個有

400TB

的公共網(wǎng)絡(luò)抓取數(shù)據(jù)集,包含了互聯(lián)08網(wǎng)上數(shù)十億網(wǎng)頁,內(nèi)容非常廣泛但未經(jīng)清洗。而

C4

則是對

CC

進(jìn)行了過濾噪聲、重復(fù)內(nèi)容等清洗后的

305GB

數(shù)據(jù)集。經(jīng)評估發(fā)現(xiàn)基于

C4

訓(xùn)練的模型性能優(yōu)于

CC,這既說明了數(shù)據(jù)清洗的重要性,也說明了語料規(guī)模不能一味追求大。此外,同類型語料中的多樣性也是值得關(guān)注的問題。首先,會涉及到數(shù)據(jù)集的公平性,從網(wǎng)絡(luò)采集的信息存在對于弱勢群體(如種族、性別、職業(yè)、年齡等)不平衡的問題,可能會加劇現(xiàn)有偏見或系統(tǒng)性不平等。在技術(shù)層面上,通過對訓(xùn)練數(shù)據(jù)集進(jìn)行仔細(xì)地審查和篩選,確保其分布的廣度和均衡性,可以緩解公平性問題。另外,同類語料的多樣性也會影響模型能力,特別是在安全能力建設(shè)方面。真實(shí)世界中潛在隱患的出現(xiàn)往往是偶然事件,相較于對這些

“不良信息”

的一概刪除,對這些樣本采用打安全標(biāo)簽的方式,反而有助于提升模型對安全風(fēng)險的識別,增強(qiáng)安全防護(hù)能力。針對不同類型的高質(zhì)量語料,意味著其在語料類型、語料形態(tài)以及語料搭配使用三個層面存在不確定性。而針對同類型的語料,又涉及到從質(zhì)量、規(guī)模、多樣性三方面的綜合考量,對高質(zhì)量并沒有統(tǒng)一的評估標(biāo)準(zhǔn)。就像生成式人工智能技術(shù)的發(fā)展路徑充滿不確定性一樣,對高質(zhì)量數(shù)據(jù)的判斷,也同樣沒有人擁有

“上帝視角”,可以精準(zhǔn)前置預(yù)知高質(zhì)量的標(biāo)準(zhǔn),來決定哪些是未來的高質(zhì)量數(shù)據(jù)。因此,在對高質(zhì)量數(shù)據(jù)的理解上,應(yīng)認(rèn)識到對高質(zhì)量并不適合被前置的客觀標(biāo)準(zhǔn)定義?!案哔|(zhì)量”

更多是一種主觀判斷,它的標(biāo)準(zhǔn)取決于模型的應(yīng)用目的,數(shù)據(jù)類型會根據(jù)模型的發(fā)展階段

“因時而動”、根據(jù)技術(shù)人員的理解判斷

“因人而異”、根據(jù)模型的訓(xùn)練效果

“因效而定”。因此,所謂

“高質(zhì)量標(biāo)準(zhǔn)”

的制定,至多也只是對同類型數(shù)據(jù)在質(zhì)量維度評估提供一種參考,對模型訓(xùn)練的價值有限。04合成數(shù)據(jù)作為解決訓(xùn)練數(shù)據(jù)供給不足的新方案4.1?訓(xùn)練數(shù)據(jù)供給不足帶來的思考在生成式人工智能技術(shù)不斷發(fā)展的趨勢下,訓(xùn)練數(shù)據(jù)是人們最關(guān)心的問題之一。上節(jié)以政府和社會力量的視角展開。本節(jié)以已經(jīng)使用的數(shù)據(jù)源和正在探索的新數(shù)據(jù)源視角展開。在已經(jīng)使用的訓(xùn)練語料中,有用于語言大模09大模型訓(xùn)練數(shù)據(jù)白皮書型訓(xùn)練的文本數(shù)據(jù),包括網(wǎng)頁信息、書籍、科研論文、知識百科、專業(yè)問答、代碼以及領(lǐng)域知識,也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)

EpochAI

的估算,書籍、科研論文等高質(zhì)量語言數(shù)據(jù)集可能會在2024

年前耗盡。人們正在積極探索新數(shù)據(jù)源,以緩解訓(xùn)練語料可能面臨不足的問題。一種思路是將未數(shù)字化的知識數(shù)字化,如在最新發(fā)布的

Claude3

中,提到了將大量未數(shù)字化的書籍和資料做數(shù)字化處理,成為模型可讀取的訓(xùn)練語料。還可利用機(jī)器感知數(shù)據(jù),比如將無人車、無人機(jī)、其他智能硬件設(shè)備等生成的大量物理世界數(shù)據(jù)用于訓(xùn)練。另一種思路是利用模型或算法,批量生成新數(shù)據(jù),比如合成數(shù)據(jù),然后利用它們訓(xùn)練模型。近期,合成數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用的話題引起了廣泛關(guān)注。一方面,高質(zhì)量的合成數(shù)據(jù)可以作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代,模擬現(xiàn)實(shí)世界的復(fù)雜性和多樣性,被視為擴(kuò)展模型學(xué)習(xí)范圍與能力的重要手段。另一方面,合成數(shù)據(jù)的生成過程可能存在偏差或噪聲,導(dǎo)致其質(zhì)量和真實(shí)性無法完全模擬客觀世界。由此引出一系列值得深入討論的問題:對于合成數(shù)據(jù)的價值,它能否拓展大模型能力的邊界?又是否能替代真實(shí)數(shù)據(jù),緩解優(yōu)質(zhì)數(shù)據(jù)供給不足的問題?此外,合成數(shù)據(jù)能否通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對數(shù)據(jù)利用的可能性?而對于合成數(shù)據(jù)的風(fēng)險,人們也會擔(dān)憂是否會出現(xiàn)

“大模型自己產(chǎn)生數(shù)據(jù)進(jìn)行自我訓(xùn)練”

的循環(huán),導(dǎo)致初始偏差被不斷放大,最終使模型失控?這種新數(shù)據(jù)源還會帶來哪些新風(fēng)險?4.2?合成數(shù)據(jù)的定義合成數(shù)據(jù)是通過算法和數(shù)學(xué)模型創(chuàng)建的。首先建模真實(shí)數(shù)據(jù)的分布,然后在該分布上進(jìn)行采樣,創(chuàng)建出新數(shù)據(jù)集,模擬真實(shí)數(shù)據(jù)中的統(tǒng)計模式和關(guān)系。合成數(shù)據(jù)類似于數(shù)據(jù)的

“替身演員”,發(fā)揮補(bǔ)充或替代真實(shí)數(shù)據(jù)的作用。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,合成數(shù)據(jù)可以為模型提供訓(xùn)練材料,幫助它們學(xué)習(xí)、理解和預(yù)測。需要注意的是,如果生成過程設(shè)計不當(dāng),合成數(shù)據(jù)也可能缺乏保真度,對客觀世界的模擬出現(xiàn)偏差。4.3?合成數(shù)據(jù)的必要性什么情況下會用到合成數(shù)據(jù)?本質(zhì)原因是真實(shí)世界中獲取數(shù)據(jù)遇到困難。一是真實(shí)世界中難以觀測,如罕見病或極端天氣等。利用合成數(shù)據(jù)可以設(shè)計比真實(shí)數(shù)據(jù)集更廣泛的情況,對

CornerCase

進(jìn)行模擬,提升訓(xùn)練數(shù)據(jù)集的全面性和多樣性,確保在處理邊緣案例時也有良好性能,提升模型泛化能力。二是真實(shí)世界中數(shù)據(jù)獲取的成本高,如大模型對齊訓(xùn)練中需要人類大量的高質(zhì)量反饋。利用合成數(shù)據(jù)可以實(shí)現(xiàn)對齊流程自動化,幾乎不需人類標(biāo)注,大幅節(jié)省成本,提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實(shí)世界中的個信甚至敏感信息,特別是醫(yī)療健康10和金融領(lǐng)域。合成數(shù)據(jù)可以利用差分隱私對個體信息

“加噪聲”

等方法,模擬真實(shí)數(shù)據(jù)集的分布,而不模擬其中的真實(shí)個人信息,實(shí)現(xiàn)對個信去標(biāo)識化。由此歸納出,合成數(shù)據(jù)具有全面性和多樣性、經(jīng)濟(jì)高效、有利于隱私保護(hù)等優(yōu)點(diǎn)。4.4?合成數(shù)據(jù)的生成方法及分類根據(jù)是否基于實(shí)際數(shù)據(jù)集生成,合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實(shí)數(shù)據(jù)集構(gòu)建的:人們會建立模型以捕獲真實(shí)數(shù)據(jù)的分布特性和結(jié)構(gòu)特征,刻畫數(shù)據(jù)中的多變量關(guān)系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實(shí)數(shù)據(jù),那么合成數(shù)據(jù)將具有與真實(shí)數(shù)據(jù)相似的統(tǒng)計特性。以

ChatGPT

為例,它深入研究了人類寫的數(shù)十億例文本,分析了詞語之間的關(guān)系,并構(gòu)建了一個模型來理解它們是如何組合在一起的。在生成文本時,每一個單詞的選擇也都取決于它前一個單詞出現(xiàn)的統(tǒng)計概率。第二種生成方法并不于真實(shí)數(shù)據(jù),而是通過使用現(xiàn)有模型或者人類專業(yè)背景知識來創(chuàng)建?,F(xiàn)有的模型可以是某個過程的統(tǒng)計模型,也可以是模擬模型。模擬可以通過游戲引擎等方法創(chuàng)建,如最近火爆的

Sora

文生視頻模型,里面用到了由游戲引擎11大模型訓(xùn)練數(shù)據(jù)白皮書(Unity、UnrealEngine5

等)合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。根據(jù)用于訓(xùn)練的

AI

類型,可以將合成數(shù)據(jù)分為應(yīng)用于生成式

AI

和判別式

AI

訓(xùn)練兩類。應(yīng)用于生成式

AI

訓(xùn)練的通常有媒體合成數(shù)據(jù),即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù),即在自然語言處理中由模型生成的文本。而判別式

AI

訓(xùn)練(分類或回歸)所需的通常是表格合成數(shù)據(jù),類似真實(shí)生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。4.5?合成數(shù)據(jù)在模型訓(xùn)練中的作用基礎(chǔ)大模型訓(xùn)練所需的數(shù)據(jù)類型包含兩大類,一是用于預(yù)訓(xùn)練的世界知識,二是用于對齊的數(shù)據(jù)。合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的一種替代,現(xiàn)階段雖然在預(yù)訓(xùn)練占比不高,但未來發(fā)展?jié)摿薮?,可作為一個

“新物種”

密切關(guān)注;目前合成數(shù)據(jù)多應(yīng)用于提升對齊階段的數(shù)據(jù)獲取效率,增強(qiáng)模型安全和可靠性。4.5.1?預(yù)訓(xùn)練語料的新物種模型預(yù)訓(xùn)練階段是通過大量無監(jiān)督學(xué)習(xí)構(gòu)建基礎(chǔ)能力,掌握世界的規(guī)律。大語言模型需要各類世界知識,包括網(wǎng)頁、書籍、新聞、代碼等;而多模態(tài)又需要視頻、圖片、音頻等語料。那么合成數(shù)據(jù)作為新物種,能對模型的訓(xùn)練語料起到哪些補(bǔ)充作用呢?首先,合成數(shù)據(jù)可應(yīng)用于多模態(tài)數(shù)據(jù)的生成。最近火爆的

Sora

文生視頻大模型,里面用到了大量由游戲引擎合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。此外,利用模擬器生成的多模態(tài)場景數(shù)據(jù)還廣泛應(yīng)用于具身智能機(jī)器人、自動駕駛、AIforScience

等場景的訓(xùn)練。利用模擬模型生成多模態(tài)數(shù)據(jù)可以更好滿足模型對訓(xùn)練數(shù)據(jù)差異化的需求,例如通過有效

“過采樣”(隨機(jī)復(fù)制少數(shù)樣例以增大它們的規(guī)模)罕見事件或?yàn)?zāi)難性事件,以確保模型能夠針對更廣泛的輸入保持魯棒性。而伴隨生成式人工智能走向更通用,模型訓(xùn)練將不僅從文字中學(xué)習(xí),也會從聲音、圖片和視頻中學(xué)習(xí),就更需要多模態(tài)的訓(xùn)練數(shù)據(jù)。因此,我們判斷通過合成的多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練的需求還會持續(xù)且大幅增加。其次,合成數(shù)據(jù)還可應(yīng)用于高價值領(lǐng)域知識的生成。核心是合成數(shù)據(jù)能通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對數(shù)據(jù)利用的可能性。例如工業(yè)制造領(lǐng)域,利用合成數(shù)據(jù),可以把生產(chǎn)、制造等工藝流程相關(guān)的原始數(shù)據(jù),結(jié)合行業(yè)知識圖譜,轉(zhuǎn)化為可供大模型學(xué)習(xí)的工業(yè)語料,以緩解行業(yè)語料短缺的問題。該過程分為三步:一是將原始數(shù)據(jù)(Data)轉(zhuǎn)變?yōu)樾畔ⅲ↖nformation):即將非自然語言描述的內(nèi)容(如工藝生產(chǎn)中的操作行為或時序數(shù)據(jù))轉(zhuǎn)化為大模型可讀的結(jié)構(gòu)化信息(操作記錄)。二是將信息提煉為知識(Knowledge):僅有操作記錄并不能直接提供有效知識,但將多條結(jié)構(gòu)化信息與行業(yè)的知識圖譜、專家經(jīng)驗(yàn)相結(jié)12合,可以產(chǎn)出有價值的行業(yè)知識(如在什么溫度下應(yīng)該如何操作,好處是什么)。三是將得到的知識泛化:利用大模型的推理能力,將相對單一的知識進(jìn)行多樣性拓展,積累更豐富的行業(yè)語料。由此看出,大模型可以利用原始數(shù)據(jù)、信息、知識等不同層次的內(nèi)容,打通數(shù)據(jù)利用的模式。我們判斷,通過合成數(shù)據(jù)拓展對數(shù)據(jù)利用的可能性,生成領(lǐng)域知識的趨勢是

“精”,即對語料質(zhì)量要求高,且是不可或缺的。因?yàn)榇竽P椭挥性陬A(yù)訓(xùn)練中學(xué)習(xí)過領(lǐng)域知識,才能在后期利用行業(yè)語料進(jìn)行

SFT

訓(xùn)練時激發(fā)出更好的效果,更容易應(yīng)用于垂直領(lǐng)域。綜上,我們認(rèn)為合成數(shù)據(jù)作為預(yù)訓(xùn)練語料的新物種,發(fā)展?jié)摿薮?,特別是在多模態(tài)數(shù)據(jù)和領(lǐng)域知識生成方面值得密切關(guān)注。4.5.2?提升對齊語料獲取效率的對齊數(shù)據(jù)以人類高質(zhì)量反饋為主,包含監(jiān)督微調(diào)階段和基于人類反饋的強(qiáng)化學(xué)習(xí)。此方法主要在以下幾方面遇到問題:一是數(shù)據(jù)獲取的成本更高,二是人類評估的準(zhǔn)確性和一致性,三是模型通常選擇避免回答敏感和有爭議的問題,降低模型的整體效用。如果引入合成數(shù)據(jù)作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代,能否緩解這些問題呢?合成數(shù)據(jù)最大的優(yōu)勢是可以大幅提升對齊數(shù)據(jù)的獲取效率,“如果掌握了合成數(shù)據(jù)技術(shù),對齊的成本可能會降低好幾個數(shù)量級,或用一樣的投入產(chǎn)生更大數(shù)量級的數(shù)據(jù),競爭格局就會發(fā)生變化”。這種對合成數(shù)據(jù)的應(yīng)用是13大模型訓(xùn)練數(shù)據(jù)白皮書“從人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLAIF)”。通常是用一個較大規(guī)模模型產(chǎn)出合成數(shù)據(jù),生成指令及輸入和輸出樣本,過濾掉無效或重復(fù)信息,自動化微調(diào)出性能較好的小模型,全過程中幾乎無需人類標(biāo)注。這不僅大幅降低了標(biāo)注成本,也能緩解人工對齊導(dǎo)致模型對敏感問題拒答的情況。例如斯坦福大學(xué)發(fā)布的

70

億參數(shù)對話大模型Alpaca,正是采用此類自我指導(dǎo)(Self-instruct)方法,用

OpenAI

API

自動生成指令數(shù)據(jù)進(jìn)行微調(diào)。還有一種基于

RLAIF新思路探索,希望在不引入外部模型的前提下實(shí)現(xiàn)自動化微調(diào)。例如自我對局(Self-play),在滿足一定條件時,利用合成數(shù)據(jù)進(jìn)行自我對抗微調(diào)(t+1

代的模型嘗試將

t

代模型的輸出與真人的輸出區(qū)分開),得到了比

RLHF更好的效果。再如

Claude3用到的憲法式

AI,讓

AI系統(tǒng)在遵循預(yù)先設(shè)定的原則下,使用模型自身生成的反饋和修正意見來進(jìn)行自我改進(jìn),得到一個既能生成無害內(nèi)容,又不規(guī)避有害問題的模型。同時另一種對合成數(shù)據(jù)的應(yīng)用是

“從人類和人工智能反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHAIF)”,該方法整合了人類和

AI

元素以提供監(jiān)督。有研究表明,在利用

AI

協(xié)助人類評估模型有效性時,模型生成的批評有助于人類發(fā)現(xiàn)可能錯過的缺陷,提高人類評估的準(zhǔn)確性。4.6?解決訓(xùn)練數(shù)據(jù)供給不足的新方案高質(zhì)量數(shù)據(jù)是大模型技術(shù)發(fā)展的主要瓶頸之一,可供大模型學(xué)習(xí)的數(shù)據(jù)類型較多,但能夠進(jìn)一步拓展大模型知識邊界、推動大模型推理、泛化等關(guān)鍵能力提升的數(shù)據(jù)更多偏向于視頻、圖片等多模態(tài)數(shù)據(jù),以及特定行業(yè)中的領(lǐng)域知識數(shù)據(jù)。此類數(shù)據(jù)主要來自于人類的創(chuàng)造、制作和經(jīng)驗(yàn)積累,其規(guī)模、類型和質(zhì)量因客觀條件的不同存在較大差異。在大模型強(qiáng)大的無監(jiān)督數(shù)據(jù)學(xué)習(xí)能力面前,大模型的數(shù)據(jù)需求快速經(jīng)歷了從量到質(zhì)的轉(zhuǎn)換,能夠被大模型更為直接地利用、可以進(jìn)一步提升大模型關(guān)鍵能力、幫助大模型生成內(nèi)容更符合人類習(xí)慣和要求的高質(zhì)量數(shù)據(jù),成為了最為關(guān)鍵的數(shù)據(jù)類型。對于提高此類高質(zhì)量訓(xùn)練數(shù)據(jù)的供給,現(xiàn)行的主要方案側(cè)重于構(gòu)建更為開放、包容的高質(zhì)量數(shù)據(jù)源,包括建立具有公共或準(zhǔn)公共屬性的高質(zhì)量數(shù)據(jù)集,鼓勵行業(yè)數(shù)據(jù)的進(jìn)一步共享,放寬對于訓(xùn)練數(shù)據(jù)的權(quán)屬保護(hù)規(guī)則等。而合成數(shù)據(jù)為模型數(shù)據(jù)供給提供了新的技術(shù)方案,將合成數(shù)據(jù)應(yīng)用于大模型訓(xùn)練數(shù)據(jù)中,可以從以下三個方面幫助解決高質(zhì)量訓(xùn)練數(shù)據(jù)供給不足的問題。其一,合成數(shù)據(jù)解決了部分類型的真實(shí)世界數(shù)據(jù)難以觀測的問題,拓展了訓(xùn)練數(shù)據(jù)的多樣性。傳統(tǒng)上看,通過生成

“邊緣情況”(如極端天氣、罕見?。┗蛘哒鎸?shí)世界中的

“潛在隱患”(如金融詐騙等安全風(fēng)險),可以彌補(bǔ)因?yàn)闃颖痉植疾痪鈱?dǎo)致的客觀限制。在輸入端糾正數(shù)據(jù)在采集和處理過程中引入的偏誤,提高數(shù)據(jù)分布的合理性和客觀性。面向未來,利用合成數(shù)據(jù)技術(shù)生成的仿真數(shù)據(jù)(如游戲引擎生成的視頻),以及對于大模型難以直接使用數(shù)據(jù)的加工和改造形成的新型數(shù)據(jù)(如領(lǐng)域知識),可以提升模型對數(shù)據(jù)利用的可能性,對于推理、泛化等大模型核心能力的突破將起到更為顯著的作用。其二,合成數(shù)據(jù)和真實(shí)世界的配合使用提高了模型的安全性和可靠性。在

LLM

中,合成數(shù)據(jù)將更為廣泛地應(yīng)14用于模型對齊階段,可以提升模型對齊能力,解決基于人類反饋的強(qiáng)化學(xué)習(xí)過程中人類回答標(biāo)準(zhǔn)不統(tǒng)一,因知識欠缺造成問答準(zhǔn)確性不足,以及人類提供反饋成本較高的問題。以高性能模型生成得到的高質(zhì)量合成數(shù)據(jù),以知識蒸餾的方式幫助輕量級模型進(jìn)一步的監(jiān)督學(xué)習(xí),并為下游開發(fā)提供準(zhǔn)確、高效的對齊數(shù)據(jù),從整體上提高各種規(guī)模尺寸模型的性能,促進(jìn)模型安全。在圖像領(lǐng)域,合成數(shù)據(jù)可以彌補(bǔ)對抗樣本稀疏的缺陷,將合成圖像數(shù)據(jù)和普通圖像數(shù)據(jù)按照一定比例進(jìn)行混合,可以提高視覺模型對圖片的識別和判斷能力,即使在普通數(shù)據(jù)樣本完全缺失的情況下,使用合成數(shù)據(jù)進(jìn)行圖像識別訓(xùn)練,也可以得到接近普通數(shù)據(jù)樣本訓(xùn)練的效果,從而提升圖像識別的魯棒性。其三,合成數(shù)據(jù)可以替代個人特征數(shù)據(jù),有助于用戶隱私保護(hù),解決數(shù)據(jù)獲取合規(guī)性的問題。例如,當(dāng)合成數(shù)據(jù)用于推薦系統(tǒng),可以降低后者對個人信息的依賴。傳統(tǒng)的直接利用個人行為特征數(shù)據(jù)進(jìn)行推薦,模型并不能從文義角度理解用戶的需求,為了提升

“猜你喜歡”

的準(zhǔn)確度則需要獲取和分析大量的用戶行為特征信息。在推薦系統(tǒng)等涉及個人隱私信息的判別式模型中,通過與大模型的結(jié)合可以有效緩解該問題。首先,利用生成器自動產(chǎn)出個性化提示詞(即合成數(shù)據(jù))用于模型優(yōu)化;然后,發(fā)揮大模型對文義的推理能力,可以更好地預(yù)測用戶的實(shí)際需求。用戶和大模型進(jìn)行簡單溝通后,由大模型代為執(zhí)行推薦,在提升推薦匹配度的同時還可以降低推薦模型對個人特征數(shù)據(jù)的依賴。推薦模型不再高度依賴個人特征信息,也為隱私增強(qiáng)技術(shù)的加入提供了操作空間,在合成數(shù)據(jù)的生成過程可以加入差分隱私等去標(biāo)識技術(shù),推薦系統(tǒng)在不識別特定用戶的情況下也能良好判斷用戶的實(shí)際需求,進(jìn)行針對用戶實(shí)際需求而非臆測性、推斷性的推薦。15大模型訓(xùn)練數(shù)據(jù)白皮書4.7?在發(fā)展中治理的合成數(shù)據(jù)其一,相比于對合成數(shù)據(jù)量的擴(kuò)增,在應(yīng)用中要更重視質(zhì)的提升。首先,在語料中使用占比更高的仍然是來自真實(shí)世界的數(shù)據(jù)集,合成數(shù)據(jù)未被用于大規(guī)模替代真實(shí)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。相反,如果此階段過多引入合成數(shù)據(jù),可能會影響訓(xùn)練數(shù)據(jù)分布,從而導(dǎo)致模型對世界知識的理解產(chǎn)生偏差。其次,合成數(shù)據(jù)的總體規(guī)模也會受到模型生成能力和生成速度的限制(例如按照當(dāng)前的合成圖像數(shù)據(jù)生成速度,在

A100GPU

上每個圖像生成時間大約為

0.8s;啟用

xformer

時,在

V100GPU

上每個圖像的生成時間約為

2

秒)。因此,更重要的是關(guān)注生成合成數(shù)據(jù)對客觀世界模擬的準(zhǔn)確性,更好滿足模型對訓(xùn)練數(shù)據(jù)差異化的需求,以及拓展模型對訓(xùn)練數(shù)據(jù)利用的可能性。較為通用的方案是按照一定比例將合成數(shù)據(jù)與真實(shí)世界的數(shù)據(jù)進(jìn)行混合,用于模型優(yōu)化,提升模型準(zhǔn)確性、魯棒性和安全性。其二,合成數(shù)據(jù)本身具備良好的安全性,在后續(xù)使用中較為可靠。用于模型優(yōu)化訓(xùn)練的合成數(shù)據(jù)目的在于替代普通優(yōu)化數(shù)據(jù)提高模型的對齊能力和垂類應(yīng)用效果,要達(dá)到此目的,合成數(shù)據(jù)安全性和真實(shí)性不低于真實(shí)世界的數(shù)據(jù),否則使用合成數(shù)據(jù)并不能更好地提升模型性能

——如果合成數(shù)據(jù)的質(zhì)量低于真實(shí)數(shù)據(jù)的數(shù)據(jù),則可能造成模型性能不升反降,使用合成數(shù)據(jù)的價值也將大打折扣。現(xiàn)實(shí)情況來看,合成數(shù)據(jù)往往也是通過高性能模型生成而得來的,此類模型具有良好的安全防護(hù)機(jī)制,能夠有效控制生成內(nèi)容的安全性,因此產(chǎn)生的合成數(shù)據(jù)在下游利用中可靠性良好,不會帶來

“數(shù)據(jù)

-

模型自我循環(huán)”

導(dǎo)致的模型失控問題。其三,對合成數(shù)據(jù)仍需設(shè)置相應(yīng)的安全管控策略,確保模型整體的安全性不會因?yàn)楹铣蓴?shù)據(jù)的使用而受到影響。一是加強(qiáng)對合成數(shù)據(jù)質(zhì)量的評估檢測。合成數(shù)據(jù)和其他類型的訓(xùn)練數(shù)據(jù)一樣,需要不斷提高準(zhǔn)確性和可靠性,而為了保證合成數(shù)據(jù)具有可用性價值,其準(zhǔn)確性和可靠性要高于普通的真實(shí)世界數(shù)據(jù)。二是為合成數(shù)據(jù)設(shè)置備用數(shù)據(jù)集。合成數(shù)據(jù)在模型訓(xùn)練中的使用還處于探索階段,需要更為審慎地觀察不同類型、模態(tài)和配比合成數(shù)據(jù)對模型性能帶來的影響,并為合成數(shù)據(jù)準(zhǔn)備備用的真實(shí)世界數(shù)據(jù)集,當(dāng)模型能力和安全性評測、紅隊測試等監(jiān)控指標(biāo)出現(xiàn)異常時,及時介入并采用備份的數(shù)據(jù)集繼續(xù)模型訓(xùn)練和應(yīng)用,保證模型的穩(wěn)定性。三是建議對用于模型優(yōu)化、對齊的合成數(shù)據(jù)在適當(dāng)環(huán)節(jié)引入人類參與。例如,對用于對齊階段生成的問答對和其他媒體格式內(nèi)容,在進(jìn)行模型優(yōu)化前進(jìn)行人工抽檢,確保后續(xù)模型調(diào)優(yōu)和對齊的質(zhì)量。1605對大模型訓(xùn)練數(shù)據(jù)治理的思考5.1?大模型對訓(xùn)練數(shù)據(jù)的使用特點(diǎn)首先,在個人信息方面,模型訓(xùn)練階段不依賴個人信息,對公開個信的使用屬于合理使用。人工智能技術(shù)從依賴個人信息的決策模型轉(zhuǎn)向以大模型為代表的生成式

AI,反映出數(shù)據(jù)需求的深刻變革。具體而言,大模型的技術(shù)核心在于模擬人類思維進(jìn)行內(nèi)容創(chuàng)造,輸入端的訓(xùn)練數(shù)據(jù)側(cè)重全球知識和高質(zhì)量語料,而非個人信息,即便在前端降低個人信息在訓(xùn)練數(shù)據(jù)中的含量和真實(shí)性,均不會對模型最后所展現(xiàn)的性能產(chǎn)生較大影響。其次,即便大模型訓(xùn)練語料中涵蓋個人信息,大模型研發(fā)者已按照相關(guān)安全要求,采取技術(shù)手段進(jìn)行數(shù)據(jù)清洗、去標(biāo)識化、匿名化等操作,對其中所涵蓋的個人信息進(jìn)行了最大化的去除。而剩余的通過爬蟲等技術(shù)獲取的位于公共領(lǐng)域的個人數(shù)據(jù),大模型對于此部分?jǐn)?shù)據(jù)的使用應(yīng)構(gòu)成合理使用的范疇。其次,大模型對類訓(xùn)練語料的使用是轉(zhuǎn)換性使用,屬于合理使用或法定許可。大模型對于作品的使用,并不是以欣賞作品原有價值為目的而進(jìn)行利用,或?qū)υ凶髌穬?nèi)容進(jìn)行復(fù)制和傳播從而替代原有作品,而是為了掌握客觀規(guī)律并培養(yǎng)模型的基礎(chǔ)能力,就如給人類進(jìn)行教育需要對其進(jìn)行廣泛的知識授予一般。有鑒于此,用類數(shù)據(jù)對模型進(jìn)行訓(xùn)練,不應(yīng)被視為

“復(fù)制式拷貝”

的侵權(quán)行為,而應(yīng)屬于轉(zhuǎn)換性使用的范疇,并應(yīng)構(gòu)成作品方面做出突破,如歐盟《單一數(shù)字市場“合理使用”

“法定許可”。目前,已有法律實(shí)踐在模型訓(xùn)練使用指令》為符合條件的

“文本和數(shù)據(jù)挖掘”

設(shè)置了豁免例外,日本對《著作權(quán)法》的修訂將

“不以欣賞作品原有價值為目的”

的大模型數(shù)據(jù)訓(xùn)練納入到合理使用的范疇等。17大模型訓(xùn)練數(shù)據(jù)白皮書此外,模型訓(xùn)練已經(jīng)盡可能地采取了相關(guān)合規(guī)方案,來減少生成式人工智能造成知識產(chǎn)權(quán)侵權(quán)的風(fēng)險,具體包括:(1)從真實(shí)權(quán)利人處購買具有知識產(chǎn)權(quán)權(quán)利的數(shù)據(jù)庫;(2)使用有合法授權(quán)的開源數(shù)據(jù)集;(3)避免跨越技術(shù)措施的爬取。5.2?大模型訓(xùn)練數(shù)據(jù)合規(guī)的治理之智基于大模型對訓(xùn)練數(shù)據(jù)的使用特點(diǎn),應(yīng)構(gòu)建順應(yīng)模型發(fā)展的新時代的數(shù)據(jù)治理制度。一是重視數(shù)據(jù)的可及性,從輸入端的前置使用限制,替換為輸出端的管控和事后救濟(jì)。《生成式人工智能服務(wù)管理暫行辦法》從

2023

4

月征求意見至

7

月正式公布期間,充分考慮了我國大模型發(fā)展的實(shí)際需要,在訓(xùn)練數(shù)據(jù)合規(guī)方面也適當(dāng)放寬了要求,如刪去訓(xùn)練數(shù)據(jù)

“不含有侵犯知識產(chǎn)權(quán)”

的表述,調(diào)整為在訓(xùn)練過程中

“不得侵害他人依法享有的知識產(chǎn)權(quán)”。我們看到目前新制度的創(chuàng)新嘗試和舊有制度的延續(xù)使用,仍在大模型訓(xùn)練前端的數(shù)據(jù)獲取和使用方面對模型研發(fā)者施加了較為嚴(yán)苛的前置性合規(guī)要求,如訓(xùn)練數(shù)據(jù)需記錄所有個人信息并取得個人知情同意,以及識別訓(xùn)練數(shù)據(jù)中的知識產(chǎn)權(quán)侵權(quán)風(fēng)險語料并進(jìn)行刪除等。此外,訓(xùn)練數(shù)據(jù)的供給不足一定程度上限制了我國大模型尤其是基礎(chǔ)模型的趕超式發(fā)展,對于訓(xùn)練數(shù)據(jù)的使用管住輸出端的事后風(fēng)險、放寬輸入端的事前限制是務(wù)實(shí)的政策選擇。二是提升模型安全訓(xùn)練數(shù)據(jù)的供給,鼓勵安全類數(shù)據(jù)集的開放共享。大模型的能力和表現(xiàn)非常依賴于前端數(shù)據(jù)的輸入,而安全數(shù)據(jù)集作為高質(zhì)量模型訓(xùn)練數(shù)據(jù)之一,具有正外部性,將有助于大模型的人類價值對齊,并對什么是安全和不安全的內(nèi)容,以及怎樣正向地回答這些問題進(jìn)行系統(tǒng)性的了解和學(xué)習(xí)。因此,覆蓋全類別、橫跨多領(lǐng)域的安全數(shù)據(jù)集的開放共享,將顯著提升人類價值觀對齊在性別、職業(yè)、種族、無障礙領(lǐng)域,并有助于提升大模型后端內(nèi)容生成和輸出的無毒性、安全性和可靠性,幫助大模型更加得體和正面地應(yīng)對更廣泛的問題。三是應(yīng)用新技術(shù)以提升訓(xùn)練數(shù)據(jù)的合規(guī)性和安全性,比如合成數(shù)據(jù)的使用可以增強(qiáng)對個信的保護(hù)。一方面合成數(shù)據(jù)的應(yīng)用可以減少對具有可識別性的個人特征數(shù)據(jù)的依賴,另一方面合成數(shù)據(jù)通過差分隱私

“加噪聲”

的技術(shù),可以有效實(shí)現(xiàn)去標(biāo)識化,從而有助于增強(qiáng)對個信的保護(hù),更好解決數(shù)據(jù)獲取合規(guī)性的問題。1806政府與社會力量協(xié)同的訓(xùn)練數(shù)據(jù)生態(tài)本節(jié)從政府和社會力量兩方面討論大模型訓(xùn)練數(shù)據(jù)的。通過中美對比的現(xiàn)狀,分析兩者的差異性,以及對我國人工智能領(lǐng)域數(shù)據(jù)要素發(fā)展的借鑒作用。從政府視角看,哪些公共數(shù)據(jù)可以支持大模型訓(xùn)練?我們梳理了以下幾種:一是,經(jīng)過權(quán)威認(rèn)證或凝聚共識的知識,如專利文檔、上市公司財報、法院判例

/

裁判文書、醫(yī)療診斷記錄、政策文本等,除了可用于預(yù)訓(xùn)練語料,還可應(yīng)用于行業(yè)大模型監(jiān)督微調(diào)或外掛語料庫建設(shè)。二是,具有科研屬性的數(shù)據(jù),主要特征有長周期、大規(guī)模、多模態(tài)、清晰、描述詳細(xì)、可使用,如天氣、醫(yī)療、地球科學(xué)、基礎(chǔ)科學(xué)領(lǐng)域等,用于

AIforScience,讓模型提升從復(fù)雜數(shù)據(jù)中提煉規(guī)律,提升精準(zhǔn)預(yù)測的能力,同時拓展

AI

大模型在更多領(lǐng)域中應(yīng)用。三是,科研期刊論文,用于提升模型上下文的理解能力和邏輯推理能力。而社會力量整合政府開放數(shù)據(jù)與網(wǎng)絡(luò)公開數(shù)據(jù),在拓展廣度的同時,提升精細(xì)度和專業(yè)性。“廣”

的層面,社會力量將公共數(shù)據(jù)與網(wǎng)絡(luò)公開數(shù)據(jù)融合后做進(jìn)一步清洗和加工,形成具有多樣性、大規(guī)模、高質(zhì)量特點(diǎn)的預(yù)訓(xùn)練數(shù)據(jù)集。此外,社會力量還可以通過合成數(shù)據(jù)等技術(shù)手段,拓展模型對數(shù)據(jù)使用的可能性?!褒R”

的層面,社會力量通過大量高質(zhì)量反饋?zhàn)鰯?shù)據(jù)標(biāo)注,將模型產(chǎn)出與人類價值觀對齊?!皩!?/p>

的層面,也會整合領(lǐng)域知識和經(jīng)驗(yàn),促進(jìn)語料的流通和共享,提供行業(yè)大模型所需的高質(zhì)量、專業(yè)性的數(shù)據(jù)供給。由此可見社會力量在大模型訓(xùn)練語料中所起到的主導(dǎo)作用。那么,美國與中國在獲取大模型數(shù)據(jù)方面的做法有哪些不同呢?6.1?美國的現(xiàn)狀美國聯(lián)邦政府在公共數(shù)據(jù)中承擔(dān)了

“應(yīng)開盡開”

的職責(zé),由社會力量來探索數(shù)據(jù)的應(yīng)用。政府開發(fā)了專門針對AI

訓(xùn)練數(shù)據(jù)的開放平臺,并針對公共數(shù)據(jù)和科研數(shù)據(jù)進(jìn)行質(zhì)量維護(hù)和運(yùn)營管理,在保證數(shù)據(jù)可用性的同時降低公眾使用門檻。公共數(shù)據(jù)開放的范圍限定在政府?dāng)?shù)據(jù),包括各級政府及政府資助的大學(xué)和研究機(jī)構(gòu)。在開放共享階段,聯(lián)邦政府會對與

AI

相關(guān)的數(shù)據(jù)做標(biāo)識、在數(shù)據(jù)量大時做

“上云”

處理、定期更新、分類、清洗、標(biāo)注、結(jié)構(gòu)化、并確定分級開放權(quán)限。在開發(fā)利用階段,政府會提供便捷的用戶檢索服務(wù)、提供數(shù)據(jù)接口19大模型訓(xùn)練數(shù)據(jù)白皮書(API)。在科研論文方面,設(shè)立

PubMed論文檢索系統(tǒng),整合國家醫(yī)學(xué)圖書館下屬的

3

個論文數(shù)據(jù)庫資源,記錄了3600

+

條生物醫(yī)學(xué)文獻(xiàn)的引用和摘要,并提供原文鏈接。在科研屬性公共數(shù)據(jù)方面,國家氣象和海洋局(NOAA)從衛(wèi)星、、船舶等每天新產(chǎn)生數(shù)十

TB數(shù)據(jù),按季度更新

150個數(shù)據(jù)集,因數(shù)據(jù)量龐大存儲在云端。為方便公眾開發(fā)利用,提供了數(shù)據(jù)集

API

接口。在權(quán)威認(rèn)證的知識方面,如法院的裁判文書是很好的結(jié)構(gòu)化數(shù)據(jù),對于訓(xùn)練法律大模型價值很高。美國遵循

“公開是原則,不公開是例外”

的理念,除了隱去涉及國家秘密和個人隱私的信息,聯(lián)邦和地方法院都實(shí)現(xiàn)了公開,并提供了

API

接口供調(diào)用。在醫(yī)療領(lǐng)域,含有醫(yī)

-

-

藥信息的診療記錄、CT

圖片及結(jié)果標(biāo)注構(gòu)成的醫(yī)學(xué)影像數(shù)據(jù)、基因組與疾病篩查數(shù)據(jù)等對于醫(yī)療大模型訓(xùn)練有較高價值,以國立衛(wèi)生研究院(NIH)為主的機(jī)構(gòu)在確保隱私保護(hù)的前提下對公眾實(shí)現(xiàn)分級分類開放(139

個醫(yī)療健康數(shù)據(jù)庫,包含

9

個醫(yī)療影像數(shù)據(jù)庫,擁有超過

30

萬張

CT

圖像及標(biāo)注對、20

個基因組數(shù)據(jù)庫),供社會力量使用。美國的社會力量整合政府的開放數(shù)據(jù)與網(wǎng)絡(luò)的公開數(shù)據(jù),提升數(shù)據(jù)精細(xì)度和專業(yè)性,形成以開源為主的高質(zhì)量訓(xùn)練語料。社會力量主要有開源

/

非盈利組織、互聯(lián)網(wǎng)公司研究部門、學(xué)界、多類型機(jī)構(gòu)合作組成。數(shù)據(jù)集以開源為主,站在前人的肩膀上不斷迭代。以在大模型中被廣泛應(yīng)用的,由開源組織

EleutherAI開發(fā)的

825GB高質(zhì)量英文語料庫

ThePile

為例,在

22

個子數(shù)據(jù)集中,于政府公共數(shù)據(jù)的有

4

個(PubMed

數(shù)據(jù)庫、商標(biāo)專利數(shù)據(jù)庫、衛(wèi)生研究院數(shù)據(jù)等),這也體現(xiàn)了語料中不同類型數(shù)據(jù)有效搭配的重要性。在行業(yè)大模型中,社會力量對領(lǐng)域數(shù)據(jù)集的專業(yè)性也起到了重要貢獻(xiàn)。以把大模型當(dāng)做大腦來輔助運(yùn)行的具身智能機(jī)器人為例,GoogleDeepMind20聯(lián)合

33

家學(xué)術(shù)實(shí)驗(yàn)室,匯集了來自

22種不同機(jī)器人類型數(shù)據(jù),涵蓋

100

多萬條片段,展示機(jī)器人在

15

萬項任務(wù)上的表現(xiàn),創(chuàng)建

OpenX-Embodiment開源數(shù)據(jù)集。基于該數(shù)據(jù)集訓(xùn)練的具身智能模型,解決了機(jī)器人在特定任務(wù)專業(yè)而通用能力差的難題,成功率提高

50%,技能表現(xiàn)提高

2

倍。此外,在合成數(shù)據(jù)領(lǐng)域,美國的發(fā)展也顯示出積極的趨勢和廣泛的應(yīng)用前景,比如微軟在其投資組合中就包含了諸如

hazy、Unstructured-IO

等合成數(shù)據(jù)公司。在政府與社會力量協(xié)同的方面,美國聯(lián)邦政府發(fā)揮了

AI

訓(xùn)練數(shù)據(jù)

“匯聚融合”

的角色。為鞏固美國在

AI

領(lǐng)域的競爭優(yōu)勢,由政府主導(dǎo)推動為期

6

年的國家人工智能研究資源

NAIRR計劃,讓

AI

研究者獲得更多算力和數(shù)據(jù)資源。計劃的原則是尊重社會力量的專業(yè)性,作為經(jīng)營主體的指導(dǎo)委員會中有多位來自

AI

業(yè)界和學(xué)界的資深人士。NAIRR

在數(shù)據(jù)資源整合中發(fā)揮的作用體現(xiàn)在,聯(lián)邦政府通過建立數(shù)據(jù)資源服務(wù)平臺,匯聚政府與社會力量的開源數(shù)據(jù)資源。通過建立統(tǒng)一的數(shù)據(jù)匯聚標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)描述格式,促進(jìn)多方數(shù)據(jù)融合。倡導(dǎo)

AI-Friendly

的數(shù)據(jù)兼容性,將數(shù)據(jù)集整理和格式化成易于

AI

算法處理和學(xué)習(xí)的形式,如文檔的電子化程度、版面編排以及相關(guān)數(shù)據(jù)的完整性。同時推動多方協(xié)作的數(shù)據(jù)資源開發(fā)利用,如運(yùn)營數(shù)據(jù)集社區(qū)、提供數(shù)據(jù)搜索服務(wù)等。6.2?中國的現(xiàn)狀我國的公共數(shù)據(jù)采用主體性質(zhì)界分,包含各級行政機(jī)關(guān)在履行公共管理職能中獲取的數(shù)據(jù),覆蓋范圍比美國更廣,但在開放共享和開發(fā)利用程度上仍有不足。如天氣數(shù)據(jù)的開放,在中國氣象數(shù)據(jù)網(wǎng)查詢地面逐小時觀測資料時,個人用戶需注冊,且可選范圍被限定在

7

天以內(nèi);而對比

NOAA,無需注冊即可下載,且以地表溫度為例,數(shù)據(jù)最早可追溯到

1951

年。在開發(fā)利用中,我國也僅對個別數(shù)據(jù)集提供了

API

接口。再如法律領(lǐng)域,最高人民法院設(shè)立了裁判文書網(wǎng),除例外情況外統(tǒng)一公布各級人民法院的生效判決書。但近年公開的數(shù)量有明顯下降趨勢,2020

年上網(wǎng)文書

2300

多萬,而

2023

年截至

12

月僅公開

300

萬。另

2024

1

月將啟用

“全國法院裁判文書庫”,僅法院人士在內(nèi)網(wǎng)可查詢。在醫(yī)療領(lǐng)域,對于模型訓(xùn)練價值較高的醫(yī)療影像、基因組數(shù)據(jù)開放程度非常有限,社會力量的探索呈現(xiàn)

“散點(diǎn)狀”。我國的社會力量主要是結(jié)合海外優(yōu)質(zhì)開源數(shù)據(jù)集及中文語料,產(chǎn)出訓(xùn)練數(shù)據(jù)集。以阿里巴巴的

“通義千問”

大模型為例,訓(xùn)練數(shù)據(jù)來自公開的混合數(shù)據(jù),以中文和英文為主。而中文語料主要來自知乎、百度百科、百度知道等公開網(wǎng)絡(luò)數(shù)據(jù),

于政府的公共數(shù)據(jù)非常少。從總體看,中文語料庫的開源情況不如英文普遍,據(jù)

AI

應(yīng)用開放社區(qū)

HuggingFace

數(shù)據(jù)統(tǒng)計,中文開源數(shù)據(jù)集數(shù)量僅占英文開源的

11%。在行業(yè)大模型中,社會力量對行業(yè)數(shù)據(jù)集專業(yè)性有一定貢獻(xiàn),推動了在交通、政務(wù)、醫(yī)療等領(lǐng)域的應(yīng)用。整體看,用領(lǐng)域知識訓(xùn)練大模型仍面臨困難,第一是領(lǐng)域知識積累的專業(yè)門檻高、時間周期長。第二是企業(yè)出于商業(yè)利益和知識產(chǎn)權(quán)考慮,對領(lǐng)域知識共享意愿度低。第三是因?yàn)槲覈矓?shù)據(jù)開放不足,導(dǎo)致部分行業(yè)缺少優(yōu)質(zhì)的數(shù)據(jù)供給。在這種情況下,如果還要試圖縮小已經(jīng)開放的公共數(shù)據(jù)范圍,那么高質(zhì)量語料短缺的問題將更為突顯。21大模型訓(xùn)練數(shù)據(jù)白皮書我國尚未形成對大模型提供有效供給的數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論