版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AI
時(shí)代的數(shù)據(jù)處理技術(shù)陳文光清華大學(xué)
/
螞蟻技術(shù)研究院大數(shù)據(jù):數(shù)據(jù)量,數(shù)據(jù)生成的速度和多模態(tài)數(shù)據(jù)量(Volume)
和數(shù)據(jù)生成速度(Velocity)圖片,文檔,圖,時(shí)序,交易物聯(lián)網(wǎng)、邊緣設(shè)備和用戶行為產(chǎn)生大量數(shù)據(jù)多模態(tài)數(shù)據(jù)
(Variety)(in
zettabytes)Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista
2021https:///statistics/871513/worldwide-data-created/數(shù)據(jù)處理的深度也在增加/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引領(lǐng)大數(shù)據(jù)新需求高質(zhì)量訓(xùn)練數(shù)據(jù)是進(jìn)一步提升基礎(chǔ)模型性能的關(guān)鍵模型發(fā)布時(shí)間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6?1.17億約5
GBGPT-22019年2?15億40
GBGPT-32020年5?1750億45
TBGPT-3.5(ChatGPT)2022年11?千億級(jí)百
TB
級(jí)?GPT-42023年3?萬億級(jí)(估)未披露大模型需要大數(shù)據(jù)如何獲得更多數(shù)據(jù)?如何提升數(shù)據(jù)質(zhì)量?如何高效處理海量數(shù)據(jù)?80%
Data20%
Model+ =Better
AI吳恩達(dá)(Andrew
Ng.)吳恩達(dá)的“二八定律”:深度學(xué)習(xí)應(yīng)當(dāng)從
Model-centric
向
Data-centric
轉(zhuǎn)變向量數(shù)據(jù)庫是提升模型服務(wù)能力的核心技術(shù)搜索增強(qiáng)的內(nèi)容生成:RAGVector
databaseQuestion?PromptNearest
neighborsAnswerUser大模型崛起引領(lǐng)大數(shù)據(jù)新趨勢(shì)在線離線一體化向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫一體化數(shù)據(jù)處理與AI計(jì)算一體化趨勢(shì)一:在線離線一體化AppsDatabase(MySQL)Queue(Kafka)RealTime
ETL(Flink,SPARK)OLTP(Hbase,
KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts實(shí)時(shí)鏈路離線鏈路Online
ModelUpdate(PyTorch,TF)Model
Serving(PyTorch,TF)Batch
Training/Test(PyTorch,TF)問
題在線模型(策略)表現(xiàn)與離線不一致數(shù)據(jù)不一致模型效果不一致2-in-1
Architecture:
TP
&
AP
一體化HTAP引擎(TP
+AP)SQL優(yōu)化器并行執(zhí)行存儲(chǔ)過程用于事務(wù)和分析工作負(fù)載的一份數(shù)據(jù)副本雙計(jì)算引擎原生多租戶架構(gòu)Oracle
兼容性MySQL
兼容性與多租戶高度兼容,實(shí)現(xiàn)資源隔離兼容
MySQL
和
Oracle單機(jī)分布式一體化架構(gòu)分布式存儲(chǔ)分布式事務(wù)分布式調(diào)度可以獨(dú)立部署,也可以分布式部署架構(gòu)創(chuàng)新Zhifeng
Yang,
Quanqing
Xu,
Shanyan
Gao,
Chuanhui
Yang,
Guoping
Wang,
Yuzhong
Zhao,
Fanyu
Kong,
Hao
Liu,
Wanhong
Wang,
Jinliang
Xiao.
OceanBase
Paetica:
A
Hybrid
Shared-nothing/Shared-everythingDatabase
for
Supporting
Single
Machine
and
Distributed
Cluster.
PVLDB,
16(12):
3728
-
3740,
2023.OceanBase
:
分布式
HTAP
數(shù)據(jù)庫實(shí)時(shí)數(shù)據(jù)分析和決策對(duì)于企業(yè)來說非常重要:OceanBase
采用分布式架構(gòu),具有優(yōu)異的
TP
性能,同時(shí)支持分析和批處理(AP)復(fù)雜查詢優(yōu)化自動(dòng)計(jì)劃不斷演變線性化實(shí)時(shí)
OLAP
處理能力水平可擴(kuò)展性(數(shù)百億條數(shù)據(jù)記錄)和低延遲(秒)TP
&
AP同一套引擎同時(shí)處理TP和AP查詢集群級(jí)別的并發(fā)控制優(yōu)化資源分配和流量控制的靈活策略,混合負(fù)載Traditional
processingHTAP
processingStep2
OLAPrequestsOceanBaseclusterOLTP+OLAPrequestsStep1
OLTPrequestsTP&
AP
同一套引擎HTAP+
DBaaS:
成本優(yōu)化和簡(jiǎn)化維護(hù)HTAP
引擎成本優(yōu)化,維護(hù)方便OLTP
workloadOLTP
systemOLAP
systemOLAP
workload圖風(fēng)控方案中的在線離線一體化:?jiǎn)栴}分布式圖數(shù)據(jù)庫,支持自定義圖查詢語言
GQueryTuGraph
DB流圖計(jì)算系統(tǒng),支持
GremlinTuGraph
Dataflow在線近線數(shù)據(jù)不一致模型效果不一致TuGraphDBMessage
QueueTuGraphDataflowTuGraphDataflowDecision
EngineStreamingWriteRule
basedServingDataServingDecision
MakingHistoricalPlaybackApplication以在線數(shù)據(jù)庫內(nèi)容為準(zhǔn),同步到近線系統(tǒng)保證在線近線數(shù)據(jù)一致避免不同語言語義的不一致性很多細(xì)節(jié),比如
Nodelimit在線近線系統(tǒng)使用同樣的查詢語言TuGraph
DB
:分布式圖數(shù)據(jù)庫,支持國際標(biāo)準(zhǔn)圖查詢語言ISO-GQLTuGraph
Dataflow:
流圖計(jì)算系統(tǒng),支持國際標(biāo)準(zhǔn)圖查詢語言
ISO-GQLTuGraphDBMessage
QueueTuGraphDataflowTuGraphDataflowDecision
EngineStreamingWriteRule
basedServingDataServingDecision
MakingHistoricalPlaybackApplication圖風(fēng)控方案中的在線離線一體化:解決方案趨勢(shì)二:向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫一體化存儲(chǔ)引擎事務(wù)引擎SQL引擎向量索引向量搜索引擎向量存儲(chǔ)SQL查詢向量查詢OceanBase螞蟻VSAG庫查詢處理器查詢請(qǐng)求應(yīng)用場(chǎng)景一體化的優(yōu)點(diǎn)OceanBase
以插件形式實(shí)現(xiàn)向量數(shù)據(jù)庫指將向量數(shù)據(jù)處理能力和關(guān)系型數(shù)據(jù)管理能力結(jié)合在一起的技術(shù)策略螞蟻
VSAG提供通用向量檢索和構(gòu)建接口(與
Faiss
形式類似)Add
/
Build:增量/批量
構(gòu)建向量索引KnnSearch/RangeSearch:向量檢索(返回行號(hào)和距離)Serialize
/
Deserialize:向量索引
序列化/反序列化VSAG
是面向螞蟻的通用向量索引庫提供最佳實(shí)現(xiàn)的HNSW生產(chǎn)可用的DiskANN支持
INT8
類型向量檢索(非SQ/PQ)PQ(進(jìn)行中)包含目前主流的向量索引實(shí)現(xiàn)自適應(yīng)指令集加速(SIMD
指令集加速)索引分區(qū)Top1/TopK
召回優(yōu)化向量間距離計(jì)算優(yōu)化針對(duì)場(chǎng)景的優(yōu)化VSAG
與
Faiss
的區(qū)別VSAGFAISS提供最佳實(shí)現(xiàn)的
HNSW提供生產(chǎn)可用的
DiskANN支持
INT8
類型向量檢索(非
SQ/PQ)提供
x86、ARM
平臺(tái)編譯和
SIMD
運(yùn)行提供大量
low
level
的算法,可自由組合(IVF、PQ、SQ、Refine)提供最佳實(shí)現(xiàn)的
GPU
支持提供
Binary
向量索引算法IVF
算法對(duì)于批量搜索有很大加速低門檻使用,無需算法專業(yè)知識(shí),不需要算法選型,直接通過簡(jiǎn)單接入,可以快速獲得向量檢索能力,擁有內(nèi)存和磁盤兩個(gè)場(chǎng)景下極致解決方案的索引庫向量檢索工具箱,可以深度定制向量檢索算法,對(duì)于特定的場(chǎng)景/workload
可以有更好的性能,需要用戶對(duì)于檢索算法/參數(shù)非常了解,有最好的
GPU
算法實(shí)現(xiàn),面對(duì)高寫入/高
QPS
場(chǎng)景有巨大優(yōu)勢(shì)在
OceanBase
中集成
VSAGOceanBase
提供模塊化機(jī)制引入
VSAGVector
Search
RequestVSAG
LibOceanBase
NodeExtensionsVSAG
LibOceanBase
NodeExtensionsVSAG
LibOceanBase
NodeExtensionsOOcOeceaeananBnBaBasasesePePrPororxoxyxy檢索過程與分析型索引類似針對(duì)所有
OceanBase
節(jié)點(diǎn)進(jìn)行檢索對(duì)所有節(jié)點(diǎn)結(jié)果進(jìn)行合并OceanBase
新增向量二級(jí)索引與
OceanBase
中的本地二級(jí)索引類似趨勢(shì)三:
數(shù)據(jù)處理與AI
計(jì)算一體化大數(shù)據(jù)流程AI
流程CCNet流程大模型訓(xùn)練數(shù)據(jù)處理——Data+AI
典型場(chǎng)景Common
Crawl
是一個(gè)海量的、非結(jié)構(gòu)化的、多語言的網(wǎng)頁數(shù)據(jù)集,包含近
10
年的隨機(jī)網(wǎng)絡(luò)數(shù)據(jù),PB級(jí)規(guī)模,可從
Amazon
S3
上免費(fèi)獲取。GPT-3
訓(xùn)練數(shù)據(jù)的
60%來自
Common
Crawl。CCNet
是
發(fā)布的數(shù)據(jù)清洗流程,希望從Common
Crawl
中能夠提取出高質(zhì)量的文本數(shù)據(jù)集。刪冗以正則化后的文檔哈希值為鍵,保留首次出現(xiàn)的文檔分詞基于
SentencePiece
分詞器,支持48種語言質(zhì)量評(píng)估使用
KenLM
庫中的一個(gè)文本質(zhì)量模型評(píng)估perplexity過濾分桶根據(jù)用戶提供的語言白名單、黑名單過濾,根據(jù)質(zhì)量分桶語言分類基于
fastText
的預(yù)訓(xùn)練語言分類模型(126MB)解析從
WARC
中分離
HTML請(qǐng)求與響應(yīng)頭、HTML
內(nèi)容。Common
Crawl原始數(shù)據(jù)清洗后高質(zhì)量文本數(shù)據(jù)AI
和大數(shù)據(jù)處理在硬件層面也有很大差別數(shù)據(jù)處理與
AI
融合問題處理器網(wǎng)絡(luò)主要編程語言編程框架NVLink
+
IB/100Gbps+10Gbps
–25Gbps-PythonJava
/
ScalaPythonPyTorch,Tensorflow,PaddlePaddleSQL,Spark,DataFramePandas,NumpySciPy,NotepadAIGPU
或
AI
加速器大數(shù)據(jù)處理通用
CPU小數(shù)據(jù)處理CPUAI
計(jì)算在數(shù)據(jù)中心的比例將持續(xù)顯著增加,主要是Python生態(tài)分布式大數(shù)據(jù)處理主要是
Java
生態(tài)“小數(shù)據(jù)”處理主要是
Python
生態(tài)數(shù)據(jù)與
AI
獨(dú)立生態(tài)的問題SparkTF/PyTorchSpark預(yù)處理神經(jīng)網(wǎng)絡(luò)后處理1.
兩類軟硬件生態(tài)的開發(fā)、調(diào)試、部署和維護(hù)都更加復(fù)雜2.
系統(tǒng)間數(shù)據(jù)傳輸開銷降低性能3.
需要招聘兩類程序員,或精通兩者的程序員問
題只支持
CPU,不支持
GPU
和異構(gòu)加速器重新開發(fā)深度學(xué)習(xí)模塊,不能復(fù)用
TF
中的功能Spark
本身性能有缺陷一種嘗試:BigDL
*
深度學(xué)習(xí)的
Java
化*Dai,
J.
J.,
Wang,
Y.,
Qiu,
X.,
Ding,
D.,
Zhang,
Y.,
Wang,
Y.,
...
&
Wang,
J.
(2019,
November).
Bigdl:
A
distributed
deep
learning
framework
for
big
data.
SoCC
2019另一種嘗試:Spark
的
Python
化Koalas
EvolutionLaunched
at
Spark+Al
Summit
2019Now~3
million
PyPI
downloadspermont
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024高考化學(xué)一輪復(fù)習(xí)專練14鐵銅及其化合物含解析新人教版
- 2024高考化學(xué)一輪復(fù)習(xí)第一部分考點(diǎn)13化學(xué)與可持續(xù)發(fā)展強(qiáng)化訓(xùn)練含解析
- 2024高考化學(xué)一輪復(fù)習(xí)第四章非金屬及其化合物第二講富集在海水中的元素-氯規(guī)范演練含解析新人教版
- 2024高考?xì)v史一輪復(fù)習(xí)模塊四選修部分第1講歷史上重大改革回眸學(xué)案含解析人民版
- 學(xué)校視頻監(jiān)控配置情況匯報(bào)
- 鋼結(jié)構(gòu)廠房工程施工要點(diǎn)
- 2024年湖北三峽職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 平安福產(chǎn)說會(huì)修正版
- 八年級(jí)物理下冊(cè)121杠桿課件新版新人教版
- 二零二五年度高校畢業(yè)生就業(yè)見習(xí)實(shí)習(xí)實(shí)訓(xùn)基地安全管理合同3篇
- 資質(zhì)模型與測(cè)評(píng)技術(shù)(中國人民大學(xué)勞動(dòng)人事學(xué)院 孫健敏)
- SMW工法型鋼拔除專項(xiàng)施工方案
- 大健康商業(yè)招商計(jì)劃書
- 高一上半學(xué)期總結(jié)教學(xué)課件
- 高速公路初步設(shè)計(jì)匯報(bào)課件
- 申根簽證申請(qǐng)表模板
- 企業(yè)會(huì)計(jì)準(zhǔn)則、應(yīng)用指南及附錄2023年8月
- 2022年浙江省事業(yè)編制招聘考試《計(jì)算機(jī)專業(yè)基礎(chǔ)知識(shí)》真題試卷【1000題】
- 認(rèn)養(yǎng)一頭牛IPO上市招股書
- GB/T 3767-2016聲學(xué)聲壓法測(cè)定噪聲源聲功率級(jí)和聲能量級(jí)反射面上方近似自由場(chǎng)的工程法
- GB/T 23574-2009金屬切削機(jī)床油霧濃度的測(cè)量方法
評(píng)論
0/150
提交評(píng)論