中國(guó)數(shù)據(jù)資產(chǎn)管理峰會(huì)-唯品會(huì)大數(shù)據(jù)_第1頁(yè)
中國(guó)數(shù)據(jù)資產(chǎn)管理峰會(huì)-唯品會(huì)大數(shù)據(jù)_第2頁(yè)
中國(guó)數(shù)據(jù)資產(chǎn)管理峰會(huì)-唯品會(huì)大數(shù)據(jù)_第3頁(yè)
中國(guó)數(shù)據(jù)資產(chǎn)管理峰會(huì)-唯品會(huì)大數(shù)據(jù)_第4頁(yè)
中國(guó)數(shù)據(jù)資產(chǎn)管理峰會(huì)-唯品會(huì)大數(shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)數(shù)據(jù)資產(chǎn)管理峰會(huì)-唯品會(huì)大數(shù)據(jù)第一頁(yè),共38頁(yè)。CONTENT目錄關(guān)于唯品會(huì)01數(shù)據(jù)平臺(tái)建設(shè)02大數(shù)據(jù)應(yīng)用建設(shè)03一些想法04第二頁(yè),共38頁(yè)。數(shù)據(jù)平臺(tái)實(shí)踐離線計(jì)算分析平臺(tái)演化實(shí)時(shí)計(jì)算平臺(tái)演化一些技術(shù)選型和經(jīng)驗(yàn)數(shù)據(jù)應(yīng)用實(shí)踐系統(tǒng)開(kāi)發(fā)和運(yùn)營(yíng)業(yè)務(wù)和產(chǎn)品運(yùn)營(yíng)惡意用戶識(shí)別/風(fēng)控系統(tǒng)商品品牌推薦個(gè)性化排序第三頁(yè),共38頁(yè)。|產(chǎn)品|系統(tǒng)|算法數(shù)據(jù)儀表盤(pán)、數(shù)據(jù)魔方、比價(jià)系統(tǒng)、地圖服務(wù)等精準(zhǔn)推薦基礎(chǔ)算法庫(kù)選品、分倉(cāng)與預(yù)調(diào)撥數(shù)據(jù)實(shí)時(shí)接入離線計(jì)算平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)VRC資源管理平臺(tái)運(yùn)維監(jiān)控測(cè)試|數(shù)據(jù)細(xì)分人群用戶Lookalike唯品會(huì)用戶畫(huà)像唯品會(huì)大數(shù)據(jù)VIPBigData整體規(guī)劃第四頁(yè),共38頁(yè)。平臺(tái)服務(wù)數(shù)據(jù)服務(wù)數(shù)坊分析師平臺(tái)對(duì)外服務(wù)VRC開(kāi)發(fā)者平臺(tái)畫(huà)像計(jì)算VRESqoop/VDP/Flume/KafkaJob調(diào)度/Yarn調(diào)度運(yùn)維監(jiān)控測(cè)試數(shù)據(jù)產(chǎn)品HIVEPrestoSPARKRHbaseDruidHDFSRedisClusterVRE實(shí)時(shí)算法預(yù)測(cè)MLLib實(shí)時(shí)訓(xùn)練分析統(tǒng)計(jì)任務(wù)GPStorm自助報(bào)表平臺(tái)應(yīng)用產(chǎn)品服務(wù)接入計(jì)算存儲(chǔ)調(diào)度

系統(tǒng)-大數(shù)據(jù)基礎(chǔ)平臺(tái)規(guī)劃自助取數(shù)平臺(tái)第五頁(yè),共38頁(yè)。數(shù)據(jù)平臺(tái)的建設(shè)離線計(jì)算分析平臺(tái)選建設(shè)混合平臺(tái):Hadoop+Greenplum遷移策略和計(jì)劃dailyjob,hourlyjob,

min

job

擴(kuò)容,擴(kuò)容,擴(kuò)容離線和實(shí)時(shí)的混合開(kāi)放平臺(tái)實(shí)時(shí)計(jì)算平臺(tái)的建設(shè)Binlog2KafkaVDPMySQL2KafkaSparkvsStormRedisChallenge穩(wěn)定性挑戰(zhàn)開(kāi)放平臺(tái)碰到的問(wèn)題第六頁(yè),共38頁(yè)。離線平臺(tái)的演化-12012年底:CDC調(diào)度+GP10節(jié)點(diǎn)系統(tǒng)穩(wěn)定2013Q1:CDC調(diào)度+ETLGp+QueryGp,Tuning2013Q2:自有調(diào)度平臺(tái)開(kāi)發(fā)+自有抽取系統(tǒng)+Hadoop流量開(kāi)始遷移+GP交易數(shù)據(jù)+QueryGP2013Q3:自有調(diào)度平臺(tái)+抽取遷移Hadoop流量遷移結(jié)束(70),交易數(shù)據(jù)遷移開(kāi)始GP交易數(shù)據(jù)+QueryGP核心數(shù)據(jù)小時(shí)級(jí)ETL2013Q4元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量工具ETLGp完整遷移開(kāi)始QueryGP擴(kuò)容40節(jié)點(diǎn)2014

Q1 全部ETL@Hadoop

~200

nodes

cluster

+

40

Ad-Hoc

EDW

Hybrid

node

configuration

第七頁(yè),共38頁(yè)。離線混合平臺(tái)-2Referene:Netflex,LinkedIn,eBayGreenPlum

+

Hadoop保護(hù)現(xiàn)有投資Hadoop海量數(shù)據(jù)分析ETL復(fù)雜計(jì)算權(quán)限打通Greenplum:GP擅長(zhǎng)adhoc

query速度快,分析師適應(yīng)不足夠scalable長(zhǎng)期成本Hadoop

Massive

scalable,但是單個(gè)查詢慢海量ETL計(jì)算Web查詢第八頁(yè),共38頁(yè)。離線開(kāi)放平臺(tái)-3開(kāi)放平臺(tái)自助ETL開(kāi)發(fā)自助報(bào)表開(kāi)發(fā)和展現(xiàn)自助取數(shù)分析成本breakdown,changeback性能,實(shí)時(shí),擴(kuò)展性,成本PrestoDruid第九頁(yè),共38頁(yè)。實(shí)時(shí)計(jì)算系統(tǒng)架構(gòu)采集推薦建模

打點(diǎn)日志binlog消息數(shù)據(jù)實(shí)時(shí)增量抽取計(jì)算模型訓(xùn)練效果反饋Render&RouterLayerCandidateScanLayerCalculateLayerVRC模型訓(xùn)練平臺(tái)Flume/VDP/VMSVRE應(yīng)用開(kāi)發(fā):任務(wù)配置可視化編程EsperEPL平臺(tái)組件:輸入組件輸出組件UDFVRCPortal:任務(wù)發(fā)布日志查看監(jiān)控告警RuleLayer第十頁(yè),共38頁(yè)。Hbase

vs

Redis背景:個(gè)性化user

profile,

high

QPS,

very

time

sensitive

用戶信用體系user

profile

,low

QPS,

non-critical

用戶實(shí)時(shí)瀏覽,訂單歷史,high

tps,

high

qps

都是海量數(shù)據(jù)看上去Hbase更加合適,但是不放心選擇:Critical的RedisNon-critical的Hbase積累經(jīng)驗(yàn),逐漸往Hbase

dual

write

其實(shí)Hbase也不便宜,就是scale不動(dòng)系統(tǒng)Redis某種程度上也可以實(shí)現(xiàn)2023/4/1711第十一頁(yè),共38頁(yè)。RedisStorm計(jì)算用redis保存中間和結(jié)果數(shù)據(jù)流量一直增加大促流量狂漲計(jì)算復(fù)雜度一直增加不停拆分。。。每次改代碼怎么辦?逐個(gè)模塊拆分一開(kāi)始就按模塊寫(xiě)不同instance一開(kāi)始就Shard

Twemproxy優(yōu)化數(shù)據(jù)結(jié)構(gòu)Pipeline/Batch不求100%準(zhǔn)確hll

logRedisCluster2023/4/1712第十二頁(yè),共38頁(yè)。Challange實(shí)時(shí)計(jì)算作為平臺(tái)離線和實(shí)時(shí)的融合離線向?qū)崟r(shí)的遷移成本第十三頁(yè),共38頁(yè)。應(yīng)用實(shí)踐業(yè)務(wù)應(yīng)用運(yùn)營(yíng)分析幫助公司買(mǎi)幫助公司賣(mài)技術(shù)開(kāi)發(fā)和運(yùn)營(yíng)Telescope業(yè)務(wù)監(jiān)控(storm)Logview/Titan服務(wù)監(jiān)控(spark)Application

logging(Spark)CDN日志分析(Hive)Sitespeed分析(storm)安全審計(jì)分析(impala/storm)第十四頁(yè),共38頁(yè)。大數(shù)據(jù)對(duì)于技術(shù)運(yùn)營(yíng)2023/4/1715第十五頁(yè),共38頁(yè)。實(shí)時(shí)業(yè)務(wù)監(jiān)控7現(xiàn)有平臺(tái)訪問(wèn)地址:商品展示登錄注冊(cè)訂單信息代金券信息支付模塊商品展示購(gòu)物車(chē)登錄注冊(cè)訂單信息代金券信息支付模塊FDS探索號(hào)CDNNginx域B2C移動(dòng)端用戶增加數(shù)移動(dòng)端下單數(shù)整體下單數(shù)訂單總金額購(gòu)物車(chē)增加數(shù)購(gòu)物車(chē)內(nèi)貨品數(shù)量業(yè)務(wù)集合域流量集合登錄熱力地圖注冊(cè)熱力地圖訂單熱力地圖購(gòu)物車(chē)訪問(wèn)熱力地圖日志數(shù)據(jù)WTWHeatMap大屏幕2023/4/1716第十六頁(yè),共38頁(yè)。實(shí)時(shí)頁(yè)面加載時(shí)間監(jiān)控第十七頁(yè),共38頁(yè)。實(shí)時(shí)PV分布監(jiān)控第十八頁(yè),共38頁(yè)。商業(yè)CDN質(zhì)量分析第十九頁(yè),共38頁(yè)。AppServiceQualitySparkStreaming,30secmini-batch進(jìn)去可以看到每個(gè)pool,每個(gè)服務(wù)器,每個(gè)url的請(qǐng)求次數(shù),響應(yīng)時(shí)間,錯(cuò)誤率,在過(guò)去兩周的各個(gè)維度的統(tǒng)計(jì)數(shù)據(jù)和曲線;可以看到pool之間的互相調(diào)用關(guān)系,調(diào)用量…全無(wú)入侵,應(yīng)用上線即插即用;第二十頁(yè),共38頁(yè)。DataServiceQuality第二十一頁(yè),共38頁(yè)。大數(shù)據(jù)在唯品會(huì)特賣(mài)模式的業(yè)務(wù)價(jià)值第二十二頁(yè),共38頁(yè)。大數(shù)據(jù)對(duì)于數(shù)據(jù)化運(yùn)營(yíng)第二十三頁(yè),共38頁(yè)。應(yīng)用于唯品會(huì)全面客戶關(guān)系管理2023/4/1724第二十四頁(yè),共38頁(yè)。數(shù)據(jù)化運(yùn)營(yíng)-數(shù)據(jù)產(chǎn)品對(duì)外:供應(yīng)商:數(shù)據(jù)魔方對(duì)內(nèi):高管:手機(jī)數(shù)據(jù)儀表盤(pán),經(jīng)營(yíng)分析商務(wù):選品,比價(jià)物流:分倉(cāng),預(yù)調(diào)撥產(chǎn)品/運(yùn)營(yíng):指導(dǎo)產(chǎn)品分析和決策,經(jīng)營(yíng)分析,效果評(píng)估,產(chǎn)品優(yōu)化金融:供應(yīng)商貸款,消費(fèi)者:個(gè)性化推薦,唯品白條營(yíng)銷(xiāo):個(gè)性化EDM,個(gè)性化Push,CRM業(yè)務(wù)安全:風(fēng)控第二十五頁(yè),共38頁(yè)。打法一:數(shù)據(jù)從按天更新向?qū)崟r(shí)化轉(zhuǎn)變豐富數(shù)據(jù)可視化交互方式數(shù)據(jù)儀表盤(pán)打法二:合規(guī)前提下,開(kāi)放更多數(shù)據(jù)給供應(yīng)商豐富數(shù)據(jù)接口格式及實(shí)時(shí)性數(shù)據(jù)魔方打法三:實(shí)時(shí)比價(jià)與價(jià)高告警比價(jià)數(shù)據(jù)與銷(xiāo)售轉(zhuǎn)化率數(shù)據(jù)關(guān)聯(lián)分析比價(jià)系統(tǒng)數(shù)據(jù)儀表盤(pán)數(shù)據(jù)魔方比價(jià)系統(tǒng)產(chǎn)品-數(shù)據(jù)產(chǎn)品及服務(wù)第二十六頁(yè),共38頁(yè)。PC用戶移動(dòng)用戶AdapterAdapter算法模型1算法模型2算法模型3算法模型4stockdbmsdFlume->kafkaBinlog->kafkaStorm/C++ProItemredisTrainingDataBusinessRuleEPDebugPlatformhadoop系統(tǒng)架構(gòu)2023/4/1727第二十七頁(yè),共38頁(yè)。挑戰(zhàn)用戶數(shù)據(jù)稀疏,有效反饋少長(zhǎng)尾嚴(yán)重用戶體驗(yàn),50ms返回ITEM冷啟動(dòng)特征難抽取,比如圖片素材場(chǎng)景缺少上下文沒(méi)有明顯意圖,不同于“搜索”28第二十八頁(yè),共38頁(yè)。底層數(shù)據(jù)品牌歷史和實(shí)時(shí)銷(xiāo)售數(shù)據(jù)價(jià)格,品類(lèi),顏色尺碼風(fēng)格,季節(jié)品牌相似性商品商品profile的長(zhǎng)期開(kāi)發(fā)歷史和實(shí)時(shí)商品信息(庫(kù)存,銷(xiāo)售,轉(zhuǎn)化)用戶用戶點(diǎn)擊瀏覽,購(gòu)物車(chē),購(gòu)買(mǎi),收藏行為按品類(lèi),風(fēng)格,價(jià)位,性別,尺碼用戶實(shí)時(shí)行為路徑2023/4/1729第二十九頁(yè),共38頁(yè)。我們走過(guò)的路2013Q4-2014Q1:基于人群分組和人工排序的個(gè)性化運(yùn)營(yíng)嘗試人群劃分首頁(yè)人工排序列表頁(yè)人工規(guī)則自動(dòng)排序無(wú)效果。。。2014Q2:開(kāi)始有機(jī)會(huì)在小流量新版首頁(yè)嘗試技術(shù)主導(dǎo)機(jī)器學(xué)習(xí)+業(yè)務(wù)規(guī)則首頁(yè)動(dòng)態(tài)生成個(gè)性化推薦模塊首頁(yè)動(dòng)態(tài)生成個(gè)性化排序頁(yè)面提高了首頁(yè)到列表頁(yè)轉(zhuǎn)化率,降低了跳出率,提高了銷(xiāo)售2023/4/1730第三十頁(yè),共38頁(yè)。我們走過(guò)的路2014

Q3-Now:首頁(yè)和列表頁(yè)的個(gè)性化排序機(jī)器學(xué)習(xí)train

model

Hadoop生成user

pro

profileStorm計(jì)算實(shí)時(shí)轉(zhuǎn)化銷(xiāo)售數(shù)據(jù),用戶實(shí)時(shí)行為和意圖實(shí)時(shí)排序首頁(yè)和列表頁(yè)下一步更多引入個(gè)性化因子(feature)細(xì)化user/brand

profile

,更多數(shù)據(jù)引入更多其他算法,做到算法可以靈活替代不但個(gè)性化排序和推薦,還可以有更多2023/4/1731第三十一頁(yè),共38頁(yè)。個(gè)性化推薦下一個(gè)階段實(shí)時(shí),實(shí)時(shí),再實(shí)時(shí)實(shí)時(shí)計(jì)算商品品牌信息,用戶profile實(shí)時(shí)推薦實(shí)時(shí)算法迭代更新實(shí)時(shí)Abtestverify個(gè)性化,個(gè)性化,個(gè)性化移動(dòng)天然是個(gè)個(gè)性化的好場(chǎng)所更多的個(gè)性化因子更加全面的數(shù)據(jù):用戶畫(huà)像建設(shè),曝光數(shù)據(jù)的收集…第三十二頁(yè),共38頁(yè)。個(gè)性化階段性成果PC端推薦:10%~12%PC銷(xiāo)售占比首頁(yè)個(gè)性化排序~4%銷(xiāo)售金額提升移動(dòng)端(2014/12)首頁(yè)個(gè)性化排序~4%銷(xiāo)售金額提升列表頁(yè)排序優(yōu)化~15%銷(xiāo)售金額提升Overall:~17%2023/4/1733第三十三頁(yè),共38頁(yè)。推薦關(guān)鍵點(diǎn)34第三十四頁(yè),共38頁(yè)。解決之道35第三十五頁(yè),共38頁(yè)。一些小結(jié)技術(shù)選型:業(yè)界標(biāo)準(zhǔn)bestpractice

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論