AI時(shí)代的數(shù)據(jù)處理技術(shù)_第1頁
AI時(shí)代的數(shù)據(jù)處理技術(shù)_第2頁
AI時(shí)代的數(shù)據(jù)處理技術(shù)_第3頁
AI時(shí)代的數(shù)據(jù)處理技術(shù)_第4頁
AI時(shí)代的數(shù)據(jù)處理技術(shù)_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI

時(shí)代的數(shù)據(jù)處理技術(shù)陳文光清華大學(xué)

/

螞蟻技術(shù)研究院大數(shù)據(jù):數(shù)據(jù)量,數(shù)據(jù)生成的速度和多模態(tài)數(shù)據(jù)量(Volume)

和數(shù)據(jù)生成速度(Velocity)圖片,文檔,圖,時(shí)序,交易物聯(lián)網(wǎng)、邊緣設(shè)備和用戶行為產(chǎn)生大量數(shù)據(jù)多模態(tài)數(shù)據(jù)

(Variety)(in

zettabytes)Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista

2021https:///statistics/871513/worldwide-data-created/數(shù)據(jù)處理的深度也在增加/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引領(lǐng)大數(shù)據(jù)新需求高質(zhì)量訓(xùn)練數(shù)據(jù)是進(jìn)一步提升基礎(chǔ)模型性能的關(guān)鍵模型發(fā)布時(shí)間參數(shù)量預(yù)訓(xùn)練數(shù)據(jù)量GPT-12018年6?1.17億約5

GBGPT-22019年2?15億40

GBGPT-32020年5?1750億45

TBGPT-3.5(ChatGPT)2022年11?千億級(jí)百

TB

級(jí)?GPT-42023年3?萬億級(jí)(估)未披露大模型需要大數(shù)據(jù)如何獲得更多數(shù)據(jù)?如何提升數(shù)據(jù)質(zhì)量?如何高效處理海量數(shù)據(jù)?80%

Data20%

Model+ =Better

AI吳恩達(dá)(Andrew

Ng.)吳恩達(dá)的“二八定律”:深度學(xué)習(xí)應(yīng)當(dāng)從

Model-centric

Data-centric

轉(zhuǎn)變向量數(shù)據(jù)庫是提升模型服務(wù)能力的核心技術(shù)搜索增強(qiáng)的內(nèi)容生成:RAGVector

databaseQuestion?PromptNearest

neighborsAnswerUser大模型崛起引領(lǐng)大數(shù)據(jù)新趨勢(shì)在線離線一體化向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫一體化數(shù)據(jù)處理與AI計(jì)算一體化趨勢(shì)一:在線離線一體化AppsDatabase(MySQL)Queue(Kafka)RealTime

ETL(Flink,SPARK)OLTP(Hbase,

KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,CK)Analysts實(shí)時(shí)鏈路離線鏈路Online

ModelUpdate(PyTorch,TF)Model

Serving(PyTorch,TF)Batch

Training/Test(PyTorch,TF)問

題在線模型(策略)表現(xiàn)與離線不一致數(shù)據(jù)不一致模型效果不一致2-in-1

Architecture:

TP

&

AP

一體化HTAP引擎(TP

+AP)SQL優(yōu)化器并行執(zhí)行存儲(chǔ)過程用于事務(wù)和分析工作負(fù)載的一份數(shù)據(jù)副本雙計(jì)算引擎原生多租戶架構(gòu)Oracle

兼容性MySQL

兼容性與多租戶高度兼容,實(shí)現(xiàn)資源隔離兼容

MySQL

Oracle單機(jī)分布式一體化架構(gòu)分布式存儲(chǔ)分布式事務(wù)分布式調(diào)度可以獨(dú)立部署,也可以分布式部署架構(gòu)創(chuàng)新Zhifeng

Yang,

Quanqing

Xu,

Shanyan

Gao,

Chuanhui

Yang,

Guoping

Wang,

Yuzhong

Zhao,

Fanyu

Kong,

Hao

Liu,

Wanhong

Wang,

Jinliang

Xiao.

OceanBase

Paetica:

A

Hybrid

Shared-nothing/Shared-everythingDatabase

for

Supporting

Single

Machine

and

Distributed

Cluster.

PVLDB,

16(12):

3728

-

3740,

2023.OceanBase

:

分布式

HTAP

數(shù)據(jù)庫實(shí)時(shí)數(shù)據(jù)分析和決策對(duì)于企業(yè)來說非常重要:OceanBase

采用分布式架構(gòu),具有優(yōu)異的

TP

性能,同時(shí)支持分析和批處理(AP)復(fù)雜查詢優(yōu)化自動(dòng)計(jì)劃不斷演變線性化實(shí)時(shí)

OLAP

處理能力水平可擴(kuò)展性(數(shù)百億條數(shù)據(jù)記錄)和低延遲(秒)TP

&

AP同一套引擎同時(shí)處理TP和AP查詢集群級(jí)別的并發(fā)控制優(yōu)化資源分配和流量控制的靈活策略,混合負(fù)載Traditional

processingHTAP

processingStep2

OLAPrequestsOceanBaseclusterOLTP+OLAPrequestsStep1

OLTPrequestsTP&

AP

同一套引擎HTAP+

DBaaS:

成本優(yōu)化和簡(jiǎn)化維護(hù)HTAP

引擎成本優(yōu)化,維護(hù)方便OLTP

workloadOLTP

systemOLAP

systemOLAP

workload圖風(fēng)控方案中的在線離線一體化:?jiǎn)栴}分布式圖數(shù)據(jù)庫,支持自定義圖查詢語言

GQueryTuGraph

DB流圖計(jì)算系統(tǒng),支持

GremlinTuGraph

Dataflow在線近線數(shù)據(jù)不一致模型效果不一致TuGraphDBMessage

QueueTuGraphDataflowTuGraphDataflowDecision

EngineStreamingWriteRule

basedServingDataServingDecision

MakingHistoricalPlaybackApplication以在線數(shù)據(jù)庫內(nèi)容為準(zhǔn),同步到近線系統(tǒng)保證在線近線數(shù)據(jù)一致避免不同語言語義的不一致性很多細(xì)節(jié),比如

Nodelimit在線近線系統(tǒng)使用同樣的查詢語言TuGraph

DB

:分布式圖數(shù)據(jù)庫,支持國際標(biāo)準(zhǔn)圖查詢語言ISO-GQLTuGraph

Dataflow:

流圖計(jì)算系統(tǒng),支持國際標(biāo)準(zhǔn)圖查詢語言

ISO-GQLTuGraphDBMessage

QueueTuGraphDataflowTuGraphDataflowDecision

EngineStreamingWriteRule

basedServingDataServingDecision

MakingHistoricalPlaybackApplication圖風(fēng)控方案中的在線離線一體化:解決方案趨勢(shì)二:向量數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫一體化存儲(chǔ)引擎事務(wù)引擎SQL引擎向量索引向量搜索引擎向量存儲(chǔ)SQL查詢向量查詢OceanBase螞蟻VSAG庫查詢處理器查詢請(qǐng)求應(yīng)用場(chǎng)景一體化的優(yōu)點(diǎn)OceanBase

以插件形式實(shí)現(xiàn)向量數(shù)據(jù)庫指將向量數(shù)據(jù)處理能力和關(guān)系型數(shù)據(jù)管理能力結(jié)合在一起的技術(shù)策略螞蟻

VSAG提供通用向量檢索和構(gòu)建接口(與

Faiss

形式類似)Add

/

Build:增量/批量

構(gòu)建向量索引KnnSearch/RangeSearch:向量檢索(返回行號(hào)和距離)Serialize

/

Deserialize:向量索引

序列化/反序列化VSAG

是面向螞蟻的通用向量索引庫提供最佳實(shí)現(xiàn)的HNSW生產(chǎn)可用的DiskANN支持

INT8

類型向量檢索(非SQ/PQ)PQ(進(jìn)行中)包含目前主流的向量索引實(shí)現(xiàn)自適應(yīng)指令集加速(SIMD

指令集加速)索引分區(qū)Top1/TopK

召回優(yōu)化向量間距離計(jì)算優(yōu)化針對(duì)場(chǎng)景的優(yōu)化VSAG

Faiss

的區(qū)別VSAGFAISS提供最佳實(shí)現(xiàn)的

HNSW提供生產(chǎn)可用的

DiskANN支持

INT8

類型向量檢索(非

SQ/PQ)提供

x86、ARM

平臺(tái)編譯和

SIMD

運(yùn)行提供大量

low

level

的算法,可自由組合(IVF、PQ、SQ、Refine)提供最佳實(shí)現(xiàn)的

GPU

支持提供

Binary

向量索引算法IVF

算法對(duì)于批量搜索有很大加速低門檻使用,無需算法專業(yè)知識(shí),不需要算法選型,直接通過簡(jiǎn)單接入,可以快速獲得向量檢索能力,擁有內(nèi)存和磁盤兩個(gè)場(chǎng)景下極致解決方案的索引庫向量檢索工具箱,可以深度定制向量檢索算法,對(duì)于特定的場(chǎng)景/workload

可以有更好的性能,需要用戶對(duì)于檢索算法/參數(shù)非常了解,有最好的

GPU

算法實(shí)現(xiàn),面對(duì)高寫入/高

QPS

場(chǎng)景有巨大優(yōu)勢(shì)在

OceanBase

中集成

VSAGOceanBase

提供模塊化機(jī)制引入

VSAGVector

Search

RequestVSAG

LibOceanBase

NodeExtensionsVSAG

LibOceanBase

NodeExtensionsVSAG

LibOceanBase

NodeExtensionsOOcOeceaeananBnBaBasasesePePrPororxoxyxy檢索過程與分析型索引類似針對(duì)所有

OceanBase

節(jié)點(diǎn)進(jìn)行檢索對(duì)所有節(jié)點(diǎn)結(jié)果進(jìn)行合并OceanBase

新增向量二級(jí)索引與

OceanBase

中的本地二級(jí)索引類似趨勢(shì)三:

數(shù)據(jù)處理與AI

計(jì)算一體化大數(shù)據(jù)流程AI

流程CCNet流程大模型訓(xùn)練數(shù)據(jù)處理——Data+AI

典型場(chǎng)景Common

Crawl

是一個(gè)海量的、非結(jié)構(gòu)化的、多語言的網(wǎng)頁數(shù)據(jù)集,包含近

10

年的隨機(jī)網(wǎng)絡(luò)數(shù)據(jù),PB級(jí)規(guī)模,可從

Amazon

S3

上免費(fèi)獲取。GPT-3

訓(xùn)練數(shù)據(jù)的

60%來自

Common

Crawl。CCNet

Facebook

發(fā)布的數(shù)據(jù)清洗流程,希望從Common

Crawl

中能夠提取出高質(zhì)量的文本數(shù)據(jù)集。刪冗以正則化后的文檔哈希值為鍵,保留首次出現(xiàn)的文檔分詞基于

SentencePiece

分詞器,支持48種語言質(zhì)量評(píng)估使用

KenLM

庫中的一個(gè)文本質(zhì)量模型評(píng)估perplexity過濾分桶根據(jù)用戶提供的語言白名單、黑名單過濾,根據(jù)質(zhì)量分桶語言分類基于

fastText

的預(yù)訓(xùn)練語言分類模型(126MB)解析從

WARC

中分離

HTML請(qǐng)求與響應(yīng)頭、HTML

內(nèi)容。Common

Crawl原始數(shù)據(jù)清洗后高質(zhì)量文本數(shù)據(jù)AI

和大數(shù)據(jù)處理在硬件層面也有很大差別數(shù)據(jù)處理與

AI

融合問題處理器網(wǎng)絡(luò)主要編程語言編程框架NVLink

+

IB/100Gbps+10Gbps

–25Gbps-PythonJava

/

ScalaPythonPyTorch,Tensorflow,PaddlePaddleSQL,Spark,DataFramePandas,NumpySciPy,NotepadAIGPU

AI

加速器大數(shù)據(jù)處理通用

CPU小數(shù)據(jù)處理CPUAI

計(jì)算在數(shù)據(jù)中心的比例將持續(xù)顯著增加,主要是Python生態(tài)分布式大數(shù)據(jù)處理主要是

Java

生態(tài)“小數(shù)據(jù)”處理主要是

Python

生態(tài)數(shù)據(jù)與

AI

獨(dú)立生態(tài)的問題SparkTF/PyTorchSpark預(yù)處理神經(jīng)網(wǎng)絡(luò)后處理1.

兩類軟硬件生態(tài)的開發(fā)、調(diào)試、部署和維護(hù)都更加復(fù)雜2.

系統(tǒng)間數(shù)據(jù)傳輸開銷降低性能3.

需要招聘兩類程序員,或精通兩者的程序員問

題只支持

CPU,不支持

GPU

和異構(gòu)加速器重新開發(fā)深度學(xué)習(xí)模塊,不能復(fù)用

TF

中的功能Spark

本身性能有缺陷一種嘗試:BigDL

*

深度學(xué)習(xí)的

Java

化*Dai,

J.

J.,

Wang,

Y.,

Qiu,

X.,

Ding,

D.,

Zhang,

Y.,

Wang,

Y.,

...

&

Wang,

J.

(2019,

November).

Bigdl:

A

distributed

deep

learning

framework

for

big

data.

SoCC

2019另一種嘗試:Spark

Python

化Koalas

EvolutionLaunched

at

Spark+Al

Summit

2019Now~3

million

PyPI

downloadspermont

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論