AI時(shí)代的湖倉(cāng)數(shù)據(jù)體系建設(shè)-劉巖_第1頁(yè)
AI時(shí)代的湖倉(cāng)數(shù)據(jù)體系建設(shè)-劉巖_第2頁(yè)
AI時(shí)代的湖倉(cāng)數(shù)據(jù)體系建設(shè)-劉巖_第3頁(yè)
AI時(shí)代的湖倉(cāng)數(shù)據(jù)體系建設(shè)-劉巖_第4頁(yè)
AI時(shí)代的湖倉(cāng)數(shù)據(jù)體系建設(shè)-劉巖_第5頁(yè)
已閱讀5頁(yè),還剩42頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

騰訊游戲數(shù)據(jù)工程的挑戰(zhàn)基于多智能體的需求構(gòu)造AI驅(qū)動(dòng)的湖倉(cāng)資產(chǎn)體系可持續(xù)優(yōu)化的工程平臺(tái)系統(tǒng)演示游戲業(yè)務(wù)發(fā)展數(shù)據(jù)平臺(tái)演進(jìn)游戲業(yè)務(wù)發(fā)展數(shù)據(jù)平臺(tái)演進(jìn)騰訊游戲以休閑品類進(jìn)入市場(chǎng)2003~2007外部大廠紛紛投身網(wǎng)游,騰訊游戲基于繞道休閑品外部大廠紛紛投身網(wǎng)游,騰訊游戲基于繞道休閑品類打造QQ系列游戲,深耕社交流量數(shù)據(jù)應(yīng)用數(shù)據(jù)應(yīng)用G,數(shù)據(jù)分散在從零起步表數(shù)據(jù)治理1.0基礎(chǔ)功能完善階段一2008~20142015Now以“代理+自研”后來(lái)居上2008~20142015Now打造全品類矩陣,扶持游戲廠商,建立全球打造全品類矩陣,扶持游戲廠商,建立全球化發(fā)行平臺(tái),全面出海,推動(dòng)電競(jìng)職業(yè)化、游戲IP化等重啟游戲代理,同步自主研發(fā)率先完成“端改手”移動(dòng)化,全面升級(jí)自研體系2.02.0平臺(tái)構(gòu)建階段數(shù)據(jù)應(yīng)用數(shù)據(jù)治理架構(gòu)升級(jí)倉(cāng)庫(kù),完成數(shù)據(jù)3.0技術(shù)驅(qū)動(dòng)創(chuàng)新對(duì)于數(shù)據(jù)資產(chǎn)集中管理的進(jìn)一步加強(qiáng),河圖數(shù)據(jù)治理平臺(tái)全面升級(jí)標(biāo)準(zhǔn)數(shù)據(jù)治理體系建設(shè):以業(yè)務(wù)應(yīng)用為導(dǎo)向,數(shù)據(jù)管理規(guī)范3.0發(fā)布逐步開始接入實(shí)時(shí)技術(shù):datamore投入應(yīng)用,決策對(duì)于數(shù)據(jù)時(shí)效性提出較高要求現(xiàn)存游戲業(yè)務(wù)的數(shù)據(jù)挖掘/提取類需求數(shù)萬(wàn)個(gè)/年,數(shù)據(jù)挖掘是問(wèn)題歸因、分析決策、干預(yù)經(jīng)營(yíng)分析經(jīng)營(yíng)分析1%的數(shù)據(jù)表資產(chǎn)離線計(jì)算+數(shù)倉(cāng)數(shù)百個(gè)看板數(shù)百個(gè)看板精精細(xì)化運(yùn)營(yíng)數(shù)萬(wàn)個(gè)/年數(shù)據(jù)提取服務(wù)基于明細(xì)數(shù)據(jù)動(dòng)態(tài)分層流式計(jì)算+湖倉(cāng)一體特征和畫像標(biāo)簽湖倉(cāng)一體特征和畫像標(biāo)簽湖倉(cāng)一體數(shù)十個(gè)算法服務(wù)輔助決策輔助決策數(shù)十個(gè)實(shí)時(shí)線上服務(wù)特征和畫像標(biāo)簽流式計(jì)算+數(shù)十個(gè)實(shí)時(shí)線上服務(wù)特征和畫像標(biāo)簽流式計(jì)算+實(shí)時(shí)計(jì)算驅(qū)動(dòng)業(yè)務(wù)確定數(shù)據(jù)分層AI要解決的問(wèn)題不是僅僅是寫SQL,而是從業(yè)務(wù)需求到數(shù)據(jù)結(jié)果的各個(gè)確定數(shù)據(jù)分層廠結(jié)果發(fā)送提交任務(wù)資產(chǎn)探查、廠結(jié)果發(fā)送提交任務(wù)資產(chǎn)探查、業(yè)務(wù)需求數(shù)據(jù)結(jié)果1243SQL代碼實(shí)現(xiàn)SQL驗(yàn)證《ThePromptReport:ASystematicSurveyofPromptingTechniques》https:/2.2基于“需求標(biāo)準(zhǔn)”的人與AI需求對(duì)齊需求標(biāo)準(zhǔn)一個(gè)完備的SQL需求標(biāo)準(zhǔn)一個(gè)完備的SQL需求包括:“篩選”、“問(wèn)題”、“結(jié)果”三段式提問(wèn),及“行業(yè)知識(shí)”2024.1.1-2024.2.2期間XX條件的玩家統(tǒng)計(jì)周、周活躍天數(shù)、玩家數(shù)」]玩家數(shù)需求對(duì)齊通過(guò)需求需求對(duì)齊通過(guò)需求Agent,匹配需求案例和行業(yè)知識(shí),對(duì)進(jìn)行需求整理與改寫,改寫成標(biāo)準(zhǔn)的需求格式2.3根據(jù)復(fù)雜度進(jìn)行需求分解 是是是是 1.需求復(fù)雜度小于等于4準(zhǔn)確率>90%,5至7準(zhǔn)確率>60%,大于等于8準(zhǔn)確率<25%,復(fù)雜度大于等于15時(shí)正確率趨近于03.1LLM在SQL生成的能力瓶頸表。/t庫(kù),總大小為33.4GB。它還涵蓋了區(qū)塊鏈、曲棍球、醫(yī)療保https://bird-bench.github.io/3.2如何提高SQL準(zhǔn)確率?參與率排名+次日留存排名+七日留存排名算一個(gè)總七留的數(shù)值,先需要按照這三個(gè)數(shù)值排名,然后按SQLSQLBIRD數(shù)據(jù)集的挑戰(zhàn)3.3從經(jīng)典數(shù)據(jù)中臺(tái)到AI+湖倉(cāng)中臺(tái)++經(jīng)典數(shù)據(jù)中臺(tái)分層加工資產(chǎn)自助交付資產(chǎn)自助交付滿足率40%應(yīng)用數(shù)據(jù)層應(yīng)用數(shù)據(jù)層ADS匯總數(shù)據(jù)層DWS明細(xì)數(shù)據(jù)層DWD操作數(shù)據(jù)層ODS數(shù)據(jù)工程拆解指標(biāo)、維度至特征拆解指標(biāo)、維拆解指標(biāo)、維度至特征拆解指標(biāo)、維度至特征匹配已有指標(biāo)資產(chǎn)治理補(bǔ)充業(yè)務(wù)信息生成特征根據(jù)特征生成補(bǔ)充業(yè)務(wù)信息生成特征根據(jù)特征生成指標(biāo)、維度推薦已有看板根據(jù)特征生成新指標(biāo)、維度生成新看板生成新看板根據(jù)特征生成新指標(biāo)、維度生成新看板生成新看板資產(chǎn)覆蓋率存在天花板資產(chǎn)建設(shè)滯后于業(yè)務(wù)需求數(shù)據(jù)治理體系復(fù)雜邊際收益低非結(jié)構(gòu)化資產(chǎn)標(biāo)準(zhǔn)缺失語(yǔ)義資產(chǎn)語(yǔ)義層建模規(guī)范語(yǔ)義層建模規(guī)范按來(lái)源識(shí)別最小粒度按最小粒度建邏輯視圖按熱度進(jìn)行物化&按來(lái)源識(shí)別最小粒度按最小粒度建邏輯視圖按熱度進(jìn)行物化&冷熱策略資產(chǎn)成本運(yùn)行效率++按特征識(shí)別指標(biāo)維度唯一按維度組合建按特征識(shí)別指標(biāo)維度唯一按維度組合建邏輯視圖按速度進(jìn)行物化&冷熱策略3.4構(gòu)建“人和AI”都能理解的資產(chǎn)SQL開放式問(wèn)答框架初始化特征初始化玩法域活躍域戶標(biāo)簽熱度分析特征聚類事前事后收斂群助手定期曝光資產(chǎn)治理AI用資產(chǎn)通過(guò)大模型,結(jié)合SQL本身復(fù)雜度,自動(dòng)識(shí)別出通用特征框架初始化特征初始化玩法域活躍域戶標(biāo)簽熱度分析特征聚類事前事后收斂群助手定期曝光資產(chǎn)治理AI用資產(chǎn)通過(guò)大模型,結(jié)合SQL本身復(fù)雜度,自動(dòng)識(shí)別出通用特征日志表ROI資產(chǎn)認(rèn)證!資產(chǎn)運(yùn)營(yíng)&效率工具資產(chǎn)知識(shí)圖譜特征資產(chǎn)化沉淀公共特征自動(dòng)識(shí)別和轉(zhuǎn)化治理建議數(shù)據(jù)資產(chǎn)治理:資產(chǎn)下架(邏輯刪除、物理刪除…)、資產(chǎn)結(jié)構(gòu)優(yōu)化(指標(biāo)新增、邏輯調(diào)整…)、資產(chǎn)質(zhì)量提升(計(jì)算效率、穩(wěn)定性、異?;謴?fù)…)數(shù)據(jù)數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn):開發(fā)標(biāo)準(zhǔn)(命名、字根、邏輯…)、管理標(biāo)準(zhǔn)(唯一性、標(biāo)簽…)、運(yùn)營(yíng)標(biāo)準(zhǔn)(熱度、復(fù)用率、成本…)3.5領(lǐng)域模型技術(shù)架構(gòu)智能提數(shù)MysqlESFaissPytorchDeepSpeedvLLM微服務(wù)Neo4j預(yù)處理Query分詞Query歸一SFT模型蒸餾模型部署Query智能提數(shù)MysqlESFaissPytorchDeepSpeedvLLM微服務(wù)Neo4j預(yù)處理Query分詞Query歸一SFT模型蒸餾模型部署Query分域Term分析意圖解析樣本生成預(yù)訓(xùn)練推理加速文本索引語(yǔ)義索引知識(shí)圖譜資產(chǎn)熱度業(yè)務(wù)邏輯標(biāo)簽索引改寫詞庫(kù)Server接口數(shù)據(jù)庫(kù)表邏輯資產(chǎn)搜索日志反饋日志數(shù)據(jù)看板分析SOP監(jiān)控告警Query理解 L0粗排L1精排 文本召回圖譜召回語(yǔ)義召回iData報(bào)表iData報(bào)表DADA看板/探索分析實(shí)時(shí)表MySQL實(shí)時(shí)表MySQL倉(cāng)(BE)資產(chǎn)表湖(CN)DruidDruid注冊(cè)、活躍、流水結(jié)果表對(duì)局、組活動(dòng)、社交、行注冊(cè)、活躍、流水結(jié)果表對(duì)局、組活動(dòng)、社交、行道具、渠賽季、模式...資產(chǎn)實(shí)時(shí)化時(shí)間修復(fù)維度提取傾斜打散動(dòng)態(tài)分發(fā)監(jiān)控對(duì)賬自動(dòng)修復(fù)TGArk預(yù)處理框架減少原有開發(fā)過(guò)程中的數(shù)據(jù)重跑檢驗(yàn)離線數(shù)據(jù)倉(cāng)庫(kù)TDWStormTGlog日志采集TDBankStormTGlog日志采集TGlogTGlog日志采集3.7基于StarRocks構(gòu)建湖倉(cāng)一體解決方案建模與開發(fā)基于大模型的智能應(yīng)用建模與開發(fā)基于大模型的智能應(yīng)用騰訊云對(duì)象存儲(chǔ)(COS)虛擬數(shù)倉(cāng)虛擬數(shù)倉(cāng)冷熱分層冷熱分層API服API服務(wù)粒度目錄管理 粒度目錄管理 粒度重復(fù)判斷 創(chuàng)建物化視圖驗(yàn)證物化視圖物化視圖動(dòng)態(tài)變更 優(yōu)化策略制定 創(chuàng)建物化視圖驗(yàn)證物化視圖物化視圖動(dòng)態(tài)變更 優(yōu)化策略制定 視圖加速統(tǒng)計(jì)資產(chǎn)粒度3.9智能動(dòng)態(tài)加速-StarRocks物化視圖資產(chǎn)粒度AI自助式交付ADSADS資產(chǎn)資產(chǎn)熱度DWD(規(guī)范化的明細(xì)數(shù)據(jù)表)f查詢改寫4.1多智能體架構(gòu),人與AI高度協(xié)同工作),), 業(yè)務(wù)需求資 業(yè)務(wù)需求資產(chǎn)運(yùn)營(yíng)拆分邏輯通過(guò)特征資產(chǎn)優(yōu)化匹配準(zhǔn)確率?特征資產(chǎn)的增刪改查;特殊邏輯說(shuō)明;舉值、派生維度的計(jì)算規(guī)則;特征匹配需求運(yùn)營(yíng)通過(guò)庫(kù)表資產(chǎn)優(yōu)化計(jì)算效率括數(shù)據(jù)標(biāo)準(zhǔn)化、分層、打標(biāo)、表/字段描述;平臺(tái)運(yùn)營(yíng)功能平臺(tái)運(yùn)營(yíng)功能降低Al生成難度,通控的交付質(zhì)量降低Al生成難度,通控的交付質(zhì)量。確保穩(wěn)定可建立從業(yè)務(wù)需求、建立從業(yè)務(wù)需求、行業(yè)知識(shí)、確保資產(chǎn)能被Al理解和使用?;谫Y產(chǎn)熱度、執(zhí)行速度基于資產(chǎn)熱度、執(zhí)行速度、數(shù)優(yōu)化加速的資產(chǎn),通過(guò)資產(chǎn)整合、物化視圖等方式確保數(shù)據(jù)的高效獲取。覆蓋從業(yè)務(wù)需求到數(shù)據(jù)交付的全鏈路覆蓋從業(yè)務(wù)需求到數(shù)據(jù)交付的全鏈路,各節(jié)點(diǎn)Agent可與用戶行干預(yù)和修正,確保系統(tǒng)的可持續(xù)優(yōu)化。系統(tǒng)演示DemoUdata產(chǎn)品演示系統(tǒng)演示D

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論