![科技行業(yè):AI大模型需要什么樣的數據-華泰證券-2023.5.11_第1頁](http://file4.renrendoc.com/view/90704cf5e5b750fcd0882981de871f1a/90704cf5e5b750fcd0882981de871f1a1.gif)
![科技行業(yè):AI大模型需要什么樣的數據-華泰證券-2023.5.11_第2頁](http://file4.renrendoc.com/view/90704cf5e5b750fcd0882981de871f1a/90704cf5e5b750fcd0882981de871f1a2.gif)
![科技行業(yè):AI大模型需要什么樣的數據-華泰證券-2023.5.11_第3頁](http://file4.renrendoc.com/view/90704cf5e5b750fcd0882981de871f1a/90704cf5e5b750fcd0882981de871f1a3.gif)
![科技行業(yè):AI大模型需要什么樣的數據-華泰證券-2023.5.11_第4頁](http://file4.renrendoc.com/view/90704cf5e5b750fcd0882981de871f1a/90704cf5e5b750fcd0882981de871f1a4.gif)
![科技行業(yè):AI大模型需要什么樣的數據-華泰證券-2023.5.11_第5頁](http://file4.renrendoc.com/view/90704cf5e5b750fcd0882981de871f1a/90704cf5e5b750fcd0882981de871f1a5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
證券研究報告科技AI
大模型需要什么樣的數據華泰研究電子通信研究員增持
(維持)增持
(維持)2023
年
5
月
11
日│中國內地專題研究黃樂平,PhD數據是大模型競爭關鍵要素之一,關注中國
AI
大模型數據發(fā)展SACNo.S0570521050001
leping.huang@SFCNo.
AUZ066+(852)36586000AI
的突破得益于高質量數據,我們認為數據是大模型競爭關鍵要素之一:1)訓練大模型需要高質量、大規(guī)模、多樣性的數據集;2)優(yōu)質中文數據集稀缺,數字中國戰(zhàn)略將促進數據要素市場完善,助力數據集發(fā)展。近期歐洲議會議員《人工智能法案》提案、網信辦《生成式人工智能服務管理辦法(征求意見稿)》對大模型訓練數據的版權披露、合法性提出要求,對于數據產業(yè)鏈的投資機會,我們認為:1)數據資產儲備公司的商業(yè)化進程值得關注;2)行業(yè)數據價值高,具有優(yōu)質數據和一定大模型能力的公司或通過行業(yè)大模型賦能業(yè)務;3)關注卡位優(yōu)質客戶、技術降低人力成本的數據服務企業(yè)。研究員余熠yuyi@+(86)75582492388SACNo.S0570520090002SFCNo.BNC535聯系人權鶴陽quanheyang@+(86)2128972228SACNo.S0570122070045聯系人王珂SACNo.S0570122080148
wangke020520@+(86)2128972228海外開源數據集積累豐富,合成數據或將緩解高質量數據耗盡隱憂我們梳理了海外主要的開源語言和多模態(tài)數據集,主要的發(fā)布方包括高校、互聯網巨頭研究部門、非盈利研究組織以及政府機構。我們認為海外積累豐富的開源高質量數據集得益于:1)相對較好的開源互聯網生態(tài);2)免費線上書籍、期刊的長期資源積累;3)學術界、互聯網巨頭研究部門、非盈利研究組織及其背后的贊助基金形成了開放數據集、發(fā)表論文-被引用的開源氛圍。然而,高質量語言數據或于
2026
年耗盡,AI
合成數據有望緩解數據耗盡的隱憂,Gartner
預測
2030
年大模型使用的絕大部分數據或由
AI
合成。行業(yè)走勢圖電子通信(%)57滬深3004022中文開源數據集數量少、規(guī)模小,看好數字中國戰(zhàn)略激活數據要素產業(yè)鏈與國外類似,國內大模型的訓練數據包括互聯網爬取數據、書籍期刊、公司自有數據以及開源數據集等。就開源數據集而言,國內外的發(fā)布方都涵蓋高校、互聯網巨頭、非盈利機構等組織。但國內開源數據集數量少、規(guī)模小,因此國內大模型訓練往往使用多個海外開源數據集。國內缺乏高質量數據集的原因在于:1)高質量數據集需要高資金投入;2)相關公司開源意識較低;3)學術領域中文數據集受重視程度低??春脭底种袊鴳?zhàn)略助力國內數據集發(fā)展:1)各地數據交易所設立運營提升數據資源流通;2)數據服務商鏈接數據要素產業(yè)鏈上下游,激活數據交易流通市場,提供更多樣化的數據產品。5(13)May-22Sep-22Jan-23May-23資料來源:Wind,華泰研究數據產業(yè)鏈投資機會:關注數據生產與處理環(huán)節(jié)數據產業(yè)鏈包括生產、處理等環(huán)節(jié)。我們認為數據生產可以分為通用數據和行業(yè)數據:1)海外主要數據集的通用數據來自維基、書籍期刊、高質量論壇,國內相關公司包括文本領域的百度百科、中文在線、中國科傳、知乎等,以及視覺領域的視覺中國等。2)數據是垂直行業(yè)企業(yè)的護城河之一,相關公司包括城市治理和
ToB
行業(yè)應用領域的中國電信、中國移動、中國聯通,CV
領域的???、大華等。數據處理環(huán)節(jié),模型研發(fā)企業(yè)的外包需求強烈,利好卡位優(yōu)質客戶、技術賦能降低人力成本的數據服務企業(yè),如
Appen、Telus
International、Scale
AI。隱私保護:監(jiān)管與技術手段并舉個人數據的采集、存儲和處理引發(fā)了對于
AI
時代數據隱私保護的關注。隱私保護可從監(jiān)管、技術角度著手:1)監(jiān)管:全球各地區(qū)出臺相關法律法規(guī),例如《中華人民共和國個人信息保護法》、歐盟《通用數據保護條例》等。2)技術:隱私保護計算在不泄露原始數據的前提下,對數據進行處理和使用。風險提示:AI
及技術落地不及預期;本研報中涉及到未上市公司或未覆蓋個股內容,均系對其客觀公開信息的整理,并不代表本研究團隊對該公司、該股票的推薦或覆蓋。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。1科技正文目錄AI
大模型需要什么樣的數據集......................................................................................................................................5數據將是未來
AI
大模型競爭的關鍵要素...............................................................................................................5數據集如何產生.....................................................................................................................................................7他山之石#1:海外主要大語言模型數據集
............................................................................................................9數據集#1:維基百科
.....................................................................................................................................9數據集#2:書籍
..........................................................................................................................................10數據集#3:期刊
..........................................................................................................................................10數據集#4:WebText(來自
鏈接)..................................................................................................11數據集#5:Commoncrawl/C4....................................................................................................................13其他數據集
..................................................................................................................................................13他山之石#2:海外主要多模態(tài)數據集..................................................................................................................14類別#1:語音+文本.....................................................................................................................................14類別#2:圖像+文本.....................................................................................................................................15類別#3:視頻+圖像+文本
...........................................................................................................................16類別#4:圖像+語音+文本
...........................................................................................................................17類別#5:視頻+語音+文本
...........................................................................................................................17他山之石#3:海外主要大模型數據集由何方發(fā)布................................................................................................18高質量語言數據和圖像數據或將耗盡,合成數據有望生成大模型數據
...............................................................19數字中國戰(zhàn)略助力中國
AI
大模型數據基礎發(fā)展
.........................................................................................................22中國
AI
大模型數據集從哪里來
...........................................................................................................................22中國大模型如何構建數據集#1:LLM..........................................................................................................24中國大模型如何構建數據集#2:多模態(tài)大模型
...........................................................................................25中國開源數據集#1:大語言模型數據集
......................................................................................................26中國開源數據集#2:多模態(tài)模型數據集
......................................................................................................30國內數據要素市場建設逐步完善,助力優(yōu)質數據集生產流通..............................................................................32數據交易環(huán)節(jié):數據交易所發(fā)展進入新階段,緩解中文數據集數量不足問題.............................................34數據加工環(huán)節(jié):數據服務產業(yè)加速發(fā)展,助力中文數據集質量提升
...........................................................35AI
時代數據的監(jiān)管與隱私保護問題
............................................................................................................................37數據產業(yè)鏈投資機會...................................................................................................................................................39數據生產環(huán)節(jié)
......................................................................................................................................................39數據處理環(huán)節(jié)
......................................................................................................................................................40風險提示..............................................................................................................................................................40免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。2科技圖表目錄圖表
1:
更高質量、更豐富的訓練數據是
GPT模型成功的驅動力;而除模型權重變化之外,模型架構保持相似.....5圖表
2:
以數據為中心的
AI:模型不變,通過改進數據集質量提升模型效果
............................................................5圖表
3:
以數據為中心的
AI:工作流拆解...................................................................................................................6圖表
4:
數據標注基本流程
.........................................................................................................................................7圖表
5:
數據采集三種常見方式..................................................................................................................................7圖表
6:
缺失數據的處理方法
.....................................................................................................................................8圖表
7:
三大類數據標注.............................................................................................................................................8圖表
8:
各數據標注質量評估算法對比.......................................................................................................................9圖表
9:
大語言模型數據集綜合分析...........................................................................................................................9圖表
10:
英文維基百科數據集分類
..........................................................................................................................10圖表
11:
BookCorpus
分類
......................................................................................................................................10圖表
12:
ArVix
官網
.................................................................................................................................................11圖表
13:
美國國家衛(wèi)生研究院官網
..........................................................................................................................11圖表
14:
WebText
前
50
個域
..................................................................................................................................12圖表
15:
C4
前
23
個域名(不包括維基百科)........................................................................................................13圖表
16:
按有效尺寸劃分的
The
Pile
組成樹狀圖....................................................................................................13圖表
17:
其他常見
NLP
數據集................................................................................................................................14圖表
18:
多模態(tài)大模型數據集介紹
..........................................................................................................................14圖表
19:
SEMAINE——四個
SAL
角色化身
............................................................................................................15圖表
20:
LAION-400M
搜索“藍眼睛的貓”得出的結果示例
..................................................................................16圖表
21:
LAION-5B
搜索“法國貓”得出的結果示例..............................................................................................16圖表
22:
OpenViDial——兩個簡短對話中的視覺環(huán)境
.............................................................................................16圖表
23:
YFCC100M
數據集中
100
萬張照片樣本的全球覆蓋................................................................................17圖表
24:
CH-SIMS
與其他數據集之間注釋差異的示例............................................................................................17圖表
25:
IEMOCAP——有
8
個攝像頭的
VICON
運動捕捉系統(tǒng)..............................................................................18圖表
26:
MELD
數據集——對話中和對話前說話人情緒變化對比...........................................................................18圖表
27:
常見大模型數據集發(fā)布方總結...................................................................................................................19圖表
28:
低質量語言數據集數據或將于
2030
年耗盡
..............................................................................................20圖表
29:
高質量語言數據集數據或將于
2026
年耗盡
..............................................................................................20圖表
30:
圖像數據存量為
8.11e12
~2.3e13...............................................................................................................20圖表
31:
圖像數據集數據趨勢或將于
2030~2060
年耗盡........................................................................................20圖表
32:
GPT-4
技術報告中對合成數據應用的探討
................................................................................................20圖表
33:
到
2030
年
AI
模型中的合成數據將完全蓋過真實數據
..............................................................................21圖表
34:
NVIDIA
Omniverse——用戶可使用
Python
為自動駕駛車輛生成合成數據
..............................................21圖表
35:
2021-2026
中國數據量規(guī)模
CAGR
達到
24.9%,位居全球第一
..............................................................22圖表
36:
國內各行業(yè)數據量分布及增長預測............................................................................................................22圖表
37:
數據集分布及發(fā)展趨勢..............................................................................................................................23圖表
38:
國內缺乏高質量數據集的主要原因............................................................................................................23圖表
39:
國內科技互聯網廠商訓練大模型基于的數據基礎......................................................................................24免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。3科技圖表
40:
中國大語言模型數據集構成.......................................................................................................................24圖表
41:
華為盤古大模型
1.1TB
中文文本語料庫數據組成
.....................................................................................25圖表
42:
WeLM
大模型訓練語料庫統(tǒng)計...................................................................................................................25圖表
43:
中國多模態(tài)模型數據集構成.......................................................................................................................25圖表
44:
M6
預訓練數據集構成
...............................................................................................................................26圖表
45:
InternVideo
預訓練過程中使用的數據集統(tǒng)計............................................................................................26圖表
46:
DuReader
漢語六種題型示例(附英文注釋)...............................................................................................26圖表
47:
WuDaoCorpora
示例.................................................................................................................................27圖表
48:
CAIL2018
示例..........................................................................................................................................27圖表
49:
Math23K
和其他幾個公開數據集對比
.......................................................................................................28圖表
50:
Ape210K
與現有數學應用題數據集的比較................................................................................................28圖表
51:
DRCD
的問題類型.....................................................................................................................................28圖表
52:
不同漢語語法糾錯語料庫的對比
...............................................................................................................29圖表
53:
E-KAR
與以往類比基準的比較..................................................................................................................29圖表
54:
豆瓣會話語料庫統(tǒng)計
.................................................................................................................................29圖表
55:
ODSQA、DRCD-TTS、DRCD-backtrans
的數據統(tǒng)計.............................................................................29圖表
56:
MATINF
中問題、描述和答案的平均字符數和單詞數
...............................................................................30圖表
57:
MUGE
數據集——多模態(tài)數據示例...........................................................................................................30圖表
58:
WuDaoMM
數據集——強相關性圖像-文本對示例....................................................................................30圖表
59:
Noah-Wukong
數據集——模型概述
.........................................................................................................31圖表
60:
Zero
數據集——示例
................................................................................................................................31圖表
61:
COCO-CN
數據集——示例
......................................................................................................................31圖表
62:
Flickr30k-CN
數據集——跨語言圖像字幕示例..........................................................................................31圖表
63:
Product1M
數據集——多模態(tài)實例級檢索.................................................................................................32圖表
64:
AIChallenger
數據集——示例..................................................................................................................32圖表
65:
數據要素是數字中國發(fā)展框架中的重要環(huán)節(jié)之一......................................................................................32圖表
66:
我國數據要素相關政策..............................................................................................................................33圖表
67:
我國數據要素市場規(guī)模及預測...................................................................................................................33圖表
68:
數據要素流通產業(yè)鏈
.................................................................................................................................34圖表
69:
國內大數據交易所建設歷程.......................................................................................................................34圖表
70:
GPT3
訓練中各國語言占比
.......................................................................................................................35圖表
71:
數據服務商在數據要素市場中的角色
........................................................................................................35圖表
72:
國內各類型數據服務商企業(yè)統(tǒng)計樣本數及占比..........................................................................................36圖表
73:
大模型數據隱私問題實例
..........................................................................................................................37圖表
74:
各地區(qū)數據隱私相關法律
..........................................................................................................................38圖表
75:
隱私保護計算的五大關鍵技術...................................................................................................................38圖表
76:
國內外數據處理相關公司
..........................................................................................................................40圖表
77:
全文提及公司列表
.....................................................................................................................................41免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。4科技AI
大模型需要什么樣的數據集數據將是未來
AI
大模型競爭的關鍵要素人工智能發(fā)展的突破得益于高質量數據的發(fā)展。例如,大型語言模型的最新進展依賴于更高質量、更豐富的訓練數據集:與
GPT-2
相比,GPT-3
對模型架構只進行了微小的修改,但花費精力收集更大的高質量數據集進行訓練。ChatGPT與
GPT-3
的模型架構類似,并使用
RLHF(來自人工反饋過程的強化學習)來生成用于微調的高質量標記數據。圖表1:
更高質量、更豐富的訓練數據是
GPT
模型成功的驅動力;而除模型權重變化之外,模型架構保持相似4.8GB(未過濾)數據XXX.YYY.ZZZ在一句話中解釋上述內容40GB人類過濾數據類似的模型結構15*67+6是多少?570GB過濾數據,來自45TB原始數據“飲料做好了”是中性、負面還是正面?“飲料做好了”是中性人工示范和標注數據規(guī)?!鼣祿|量↑模型固定資料來源:DaochenZhaetal.”Data-centricArtificialIntelligence:ASurvey”2023,華泰研究基于此,人工智能領域的權威學者吳承恩發(fā)起了“以數據為中心的
AI”運動,即在模型相對固定的前提下,通過提升數據的質量和數量來提升整個模型的訓練效果。提升數據集質量的方法主要有:添加數據標記、清洗和轉換數據、數據縮減、增加數據多樣性、持續(xù)監(jiān)測和維護數據等。因此,我們認為未來數據成本在大模型開發(fā)中的成本占比或將提升,主要包括數據采集,清洗,標注等成本。圖表2:
以數據為中心的
AI:模型不變,通過改進數據集質量提升模型效果資料來源:DaochenZhaetal."Data-centricArtificialIntelligence:ASurvey"
2023,華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。5科技圖表3:
以數據為中心的
AI:工作流拆解資料來源:DaochenZhaetal."Data-centricArtificialIntelligence:ASurvey"
2023,華泰研究我們認為
AI
大模型需要高質量、大規(guī)模、多樣性的數據集。1)高質量:高質量數據集能夠提高模型精度與可解釋性,并且減少收斂到最優(yōu)解的時間,即減少訓練時長。2)大規(guī)模:OpenAI
在《ScalingLawsforNeuralLanguageModels》中提出
LLM
模型所遵循的“伸縮法則”(scaling
law),即獨立增加訓練數據量、模型參數規(guī)?;蛘哐娱L模型訓練時間,預訓練模型的效果會越來越好。3)豐富性:數據豐富性能夠提高模型泛化能力,過于單一的數據會非常容易讓模型過于擬合訓練數據。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。6科技數據集如何產生建立數據集的流程主要分為
1)數據采集;2)數據清洗:由于采集到的數據可能存在缺失值、噪聲數據、重復數據等質量問題;3)數據標注:最重要的一個環(huán)節(jié);4)模型訓練:模型訓練人員會利用標注好的數據訓練出需要的算法模型;5)模型測試:審核員進行模型測試并將測試結果反饋給模型訓練人員,而模型訓練人員通過不斷地調整參數,以便獲得性能更好的算法模型;6)產品評估:產品評估人員使用并進行上線前的最后評估。圖表4:
數據標注基本流程資料來源:蔡莉等《數據標注研究綜述》2020,華泰研究流程#1:數據采集。采集的對象包括視頻、圖片、音頻和文本等多種類型和多種格式的數據。數據采集目前常用的有三種方式,分別為:1)系統(tǒng)日志采集方法;2)網絡數據采集方法;3)ETL。圖表5:
數據采集三種常見方式數據采集三種常見方式系統(tǒng)日志采集方法網絡數據采集ETL????構建應用系統(tǒng)和分析系統(tǒng)的橋梁,并將它們之間的關聯解耦;??即Extract-Transform-Load,描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程;??通過網絡爬蟲或網站公開API方式獲取大數據信息;網絡爬蟲工具包括
python爬蟲、分布式網絡爬蟲工具、Java網絡爬蟲工具、非Java網絡爬蟲工具。分布式網絡爬蟲工具,如Nutch。支持近實時的在線分析系統(tǒng)和分布式并發(fā)的離線分析系統(tǒng);具有高可擴展性,也就是說,當數據量增加時,可以通過增加節(jié)點進行水平擴展;它是一個數據集成過程,將來自多個數據源的數據組合到一個單一的、一致的數據存儲中,該數據存儲被加載到數據倉庫或其他目標系統(tǒng)中。目前為止,運用較為廣泛的有Flume、Chukwa、Scrible和Kafka。資料來源:CSDN,Apache,Scrible,Python,GitHub,Scrapy,IBM,搜狗百科,華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。7科技流程#2:數據清洗是提高數據質量的有效方法。由于采集到的數據可能存在缺失值、噪聲數據、重復數據等質量問題,故需要執(zhí)行數據清洗任務,數據清洗作為數據預處理中至關重要的環(huán)節(jié),清洗后數據的質量很大程度上決定了
AI
算法的有效性。圖表6:
缺失數據的處理方法資料來源:鄧建新等《缺失數據的處理方法及其發(fā)展趨勢》2019,華泰研究流程#3:數據標注是流程中最重要的一個環(huán)節(jié)。管理員會根據不同的標注需求,將待標注的數據劃分為不同的標注任務。每一個標注任務都有不同的規(guī)范和標注點要求,一個標注任務將會分配給多個標注員完成。圖表7:
三大類數據標注文本標注語音標注圖像標注文本分類情感標注OCR轉寫實體標注語義標注發(fā)音校對韻腳標注語音清洗音素標注語音切割情緒判定矩形框標注3D立體框實例分割標注意圖標注線段標注?目標跟蹤標注NLP標注資料來源:DevolShah“AStep-by-StepGuidetoTextAnnotation”2022,CSDN,景聯文科技,華泰研究流程#4:最終通過產品評估環(huán)節(jié)的數據才算是真正過關。產品評估人員需要反復驗證模型的標注效果,并對模型是否滿足上線目標進行評估。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。8科技圖表8:
各數據標注質量評估算法對比分類算法名稱優(yōu)點缺點圖像標注質量評估算法MV
算法簡單易用,常用作其他眾包質量控制算法的基準算法沒有考慮到每個標注任務、
標注者的不同可靠性EM
算法在一定意義下可以收斂到局部最大化將分類器與
Ground-truth
結合起來進行學習方便、快速、結果有參考價值數據缺失比例較大時,收斂速度比較緩慢需要對標注專家的特異性和敏感性強加先驗測評精度易受常用詞干擾RY
算法文本標注質量評估算法BLEU
算法ROUGE
算法參考標注越多,待評估數據的相關性就越高無法評價標注數據的流暢度METEOR
算法
評估時考慮了同義詞匹配,
提高了評估的準確率長度懲罰,當被評估的數據量小時,測量精度較高CIDEr
算法SPICE
算法從文本標注質量評估的相關性上升到質量評估的相似性進從圖的語義層面對圖像標注進行評估對所有匹配上的詞都同等對待會導致部分詞的重要性被削弱圖的語義解析方面還有待進一步完善ZenCrowd算將算法匹配和人工匹配結合,在一定程度上實現了標注質量
無法自動為定實體選擇最佳數據集和效率的共同提高法語音標注質量評估算法WER
算法SER
算法可以分數字、英文、中文等情況分別來看當數據量大時,性能會特別差對句子的整體性評估要優(yōu)于
WER
算法句錯誤率較高,一般是詞錯誤率的
2
倍~3
倍資料來源:蔡莉等《數據標注研究綜述》2020,華泰研究他山之石#1:海外主要大語言模型數據集參數量和數據量是判斷大模型的重要參數。2018
年以來,大語言模型訓練使用的數據集規(guī)模持續(xù)增長。2018
年的
GPT-1
數據集約
4.6GB,2020
年的
GPT-3
數據集達到了
753GB,而到了
2021
年的
Gopher,數據集規(guī)模已經達到了
10,550GB??偨Y來說,從
GPT-1
到LLaMA
的大語言模型數據集主要包含六類:維基百科、書籍、期刊、Reddit
鏈接、CommonCrawl
和其他數據集。圖表9:
大語言模型數據集綜合分析大模型GPT-1維基百科書籍4.6期刊Reddit鏈接
Common
Crawl其他合計4.6GPT-24040GPT-311.4611.46.412.583211184.61182100851012445063386357022710798334504162.27538251611374105504828.2ThePile
v1Megatron-11BMT-NLGGopher16777164.4921274823406LLaMA注:以
GB為單位,公開的數據以粗體表示,僅原始訓練數據集大小資料來源:AlanD.Thompson“What’sinMyAI”2023,HugoTouvronet
al.“LLaMA:OpenandEfficientFoundationLanguageModels”2023,華泰研究數據集#1:維基百科維基百科是一個免費的多語言協(xié)作在線百科全書。維基百科致力于打造包含全世界所有語言的自由的百科全書,由超三十萬名志愿者組成的社區(qū)編寫和維護。截至
2023
年
3
月
,維基百科擁有
332
種語言版本,總計
60,814,920
條目。其中,英文版維基百科中有超過
664萬篇文章,擁有超
4,533
萬個用戶。維基百科中的文本很有價值,因為它被嚴格引用,以說明性文字形式寫成,并且跨越多種語言和領域。一般來說,重點研究實驗室會首先選取它的純英文過濾版作為數據集。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。9科技圖表10:
英文維基百科數據集分類排名1類別占比27.80%17.70%15.80%9.90%7.80%6.50%4.80%4.40%3.50%1.80%100%大?。℅B)3.1Tokens(百萬)生物834531474297234195144132105542地理1.93文化和藝術歷史1.741.15生物、健康和醫(yī)學體育0.960.77商業(yè)0.58其他社會科學
&數學教育0.590.410總計0.211.43000資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究數據集#2:書籍書籍主要用于訓練模型的故事講述能力和反應能力,包括小說和非小說兩大類。數據集包括
Project
Gutenberg
和
Smashwords
(Toronto
BookCorpus/BookCorpus)等。ProjectGutenberg
是一個擁有
7
萬多本免費電子書的圖書館,包括世界上最偉大的文學作品,尤其是美國版權已經過期的老作品。BookCorpus
以作家未出版的免費書籍為基礎,這些書籍來自于世界上最大的獨立電子書分銷商之一的
Smashwords。圖表11:
BookCorpus
分類序號1類別書籍數量28801502823占比(書籍數量
/11038)26.10%13.60%7.50%浪漫2幻想3科技小說新成人年輕成人驚悚47666.90%57486.80%66465.90%7神秘6215.60%8吸血鬼恐怖6005.40%94484.10%10111213141516總計青少年冒險4303.90%3903.50%其他3603.30%文學3303.00%幽默2652.40%歷史1781.60%主題510.50%11038100.0%資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究數據集#3:期刊期刊可以從
ArXiv
和美國國家衛(wèi)生研究院等官網獲取。預印本和已發(fā)表期刊中的論文為數據集提供了堅實而嚴謹的基礎,因為學術寫作通常來說更有條理、理性和細致。ArXiv
是一個免費的分發(fā)服務和開放獲取的檔案,包含物理、數學、計算機科學、定量生物學、定量金融學、統(tǒng)計學、電氣工程和系統(tǒng)科學以及經濟學等領域的
2,235,447
篇學術文章。美國國家衛(wèi)生研究院是美國政府負責生物醫(yī)學和公共衛(wèi)生研究的主要機構,支持各種生物醫(yī)學和行為研究領域的研究,從其官網的“研究&培訓”板塊能夠獲取最新的醫(yī)學研究論文。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。10科技圖表12:
ArVix
官網圖表13:
美國國家衛(wèi)生研究院官網資料來源:AriVix,華泰研究資料來源:美國國家衛(wèi)生研究院官網,華泰研究數據集#4:WebText(來自
鏈接)Reddit
鏈接代表流行內容的風向標。Reddit
是一個娛樂、社交及新聞網站,注冊用戶可以將文字或鏈接在網站上發(fā)布,使它成為了一個電子布告欄系統(tǒng)。WebText
是一個大型數據集,它的數據是從社交媒體平臺
所有出站鏈接網絡中爬取的,每個鏈接至少有三個贊,代表了流行內容的風向標,對輸出優(yōu)質鏈接和后續(xù)文本數據具有指導作用。Reddit
宣布收取數據使用費。2023
年
4
月,Reddit
宣布將向使用其
API
訓練
AI
聊天機器人的公司收取數據使用費,其中便包含微軟、谷歌、OpenAI
等,目前具體收費標準暫未公布,但可能會根據不同使用者劃分不同等級收費標準。許多公司已經意識到數據的價值,如圖片托管服務商
Shutterstock
已把圖像數據出售給
OpenAI,推特計劃針對
API
使用收取幾萬到幾十萬美元不等的費用。免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。11科技圖表14:
WebText
前
50
個域排名1域鏈接(百萬個)1.540.600.460.410.330.320.320.310.310.100.090.090.090.080.080.080.080.080.080.080.080.080.080.070.070.070.070.070.070.070.070.06占比3.4%1.3%1.0%0.9%0.7%0.7%0.7%0.7%0.7%0.5%0.5%0.5%0.4%0.4%0.4%0.4%0.4%0.4%0.4%0.3%0.3%0.3%0.3%0.3%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.2%0.1%0.1%0.1%0.1%20.7%Tokens(百萬)Google51419915213811110710510410482707066656262616154474543424036353533313130282727262626262626252424242323222222222ArchiveBlogspotGitHub345TheNY
TimesWordPressWashingtonPostWikia6789BBC1011121314151617181920212223242526272829303132333435363738394041424344454647484950總計TheGuardianeBayPastebinCNNYahooHuffingtonPostGoReutersIMDbGooNIHCBCAppleMediumDailyMailSteamPoweredIndependentEtsyCraigslistBusinessInsiderTelegraphWizardsUSAtodayTheHillNHLFoxNews淘寶BloombergNPRMLBLATimesMegalodonESPNKickStarterBreitBartABCNewEggWWEMyAnimeListMicrosoftBuzzfeed9.3資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。12科技數據集#5:Commoncrawl/C4Common
crawl
是
2008
年至今的一個網站抓取的大型數據集。Common
Crawl
是一家非盈利組織,致力于為互聯網研究人員、公司和個人免費提供互聯網副本,用于研究和分析,它的數據包含原始網頁、元數據和文本提取,文本包含
40
多種語言和不同領域。重點研究實驗室一般會首先選取它的純英文過濾版(C4)作為數據集。圖表15:
C4
前
23
個域名(不包括維基百科)排名1域Token(百萬)占比0.48%0.06%0.06%0.06%0.06%0.05%0.05%0.05%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.04%0.03%0.03%0.03%0.03%1.42%GooglePatentsTheNY
TimesLosAngelesTimesTheGuardianPLoS75010090234905906Forbes807HuffingtonPostPScribd758719701011121314151617181920212223WashingtonPostTheMotley
FoolIPFS656160Frontiers
MediaBusiness
InsiderChicagoTribuneBTheAtlanticSpringerLinkAlJazeera60605958575655Kickstarter54FindLawCaselawNCBI5353NPR52總計2219資料來源:AlanD.
Thompson“What’sinMy
AI”2023,華泰研究其他數據集The
Pile
數據集:一個
825.18
GB
的英語文本數據集,用于訓練大規(guī)模語言模型。The
Pile由上文提到的
ArXiv、WebText、Wikipedia
等在內的
22
個不同的高質量數據集組成,包括已經建立的自然語言處理數據集和幾個新引入的數據集。除了訓練大型語言模型外,ThePile
還可以作為語言模型跨領域知識和泛化能力的廣泛覆蓋基準。圖表16:
按有效尺寸劃分的
ThePile
組成樹狀圖資料來源:LeoGao
et
al.
“ThePile:An800GBDatasetofDiverseTextforLanguageModeling”2020,華泰研究免責聲明和披露以及分析師聲明是報告的一部分,請務必一起閱讀。13科技其他數據集包含了
GitHub
等代碼數據集、StackExchange
等對話論壇和視頻字幕數據集等。圖表17:
其他常見
NLP
數據集數據集分類代碼數據集數據集簡介一個大型的開源代碼庫,在多年以前的預訓練語言模型例如
BER
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度國有企業(yè)股權轉讓居間代理合同
- 2025年度住宅小區(qū)公共區(qū)域維修合同范本
- 2025年度公路工程建設項目招投標代理服務合同范本
- 2025年度建筑工程增量補充協(xié)議合同范本
- 2025年度大宗商品現貨購銷合同范本剖析
- 2025年度新能源設備采購合同樣本
- 2025年度房屋裝修工程造價咨詢服務合同
- 2025年度文化產業(yè)股票質押業(yè)務合同模板
- 2025年度房地產企業(yè)公對公物業(yè)租賃合同
- 2025年度公積金貸款購房合同修訂版解讀
- 深圳市物業(yè)專項維修資金管理系統(tǒng)操作手冊(電子票據)
- 2023年鐵嶺衛(wèi)生職業(yè)學院高職單招(數學)試題庫含答案解析
- 電力安全工作規(guī)程(電網建設部分)2023年
- 呆死帳的發(fā)生與預防課件
- 10000中國普通人名大全
- 起重機械安裝吊裝危險源辨識、風險評價表
- 華北理工兒童口腔醫(yī)學教案06兒童咬合誘導
- 中國建筑項目管理表格
- 高一3班第一次月考總結班會課件
- 公共政策分析導論教學課件匯總完整版電子教案
- 我國油菜生產機械化技術(-119)
評論
0/150
提交評論