




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大規(guī)模機器學習在螞蟻+阿里的應(yīng)用主要內(nèi)容1設(shè)計理念2應(yīng)用場景3展望未來Big Data Era每天30億query, 300億served廣告,30萬億indexed網(wǎng)頁全球超過14億用戶,每天分享43億內(nèi)容每天產(chǎn)生4.3億Tweets每天App下載量1億一年產(chǎn)生86億包裹,每天2356萬個2015年雙十一當天共產(chǎn)生7.1億筆支付Big Data Erahow to use data?用戶在不同場景下有不同的相應(yīng),結(jié)合這些數(shù)據(jù),通過機器學習得到 模型,然后進行智能決策(個性化推薦、搜索個性化等)Big Data Big Model訓練數(shù)據(jù):1T1P特征:百億千億級別樣本:百億千億級別Sibyl
2、: A System for Large Scale Machine Learning at GoogleBig Model Distributed Learning System在大數(shù)據(jù)上,利用機器學習從中學習到知識,是人工智能取得突破的 主要手段,也是系統(tǒng)架構(gòu)師面臨的重要挑戰(zhàn)之一許多模型和抽象先后用于這一任務(wù):早期的MPI,后來的MapReduce,當前使用較多的Graph 、Spark等Distributed Learning SystemCombine the complexities of machine learning with system designDistributed
3、Learning System(Cont.)MapReduce:迭代式計算低效,節(jié)點之間通信效率不高MPI:無法支撐大數(shù)據(jù),任意節(jié)點掛掉,任務(wù)就失敗Graph:用圖來做抽象,類似深度學習無法高效求解,只能同步,不 支持異步Spark:通用框架,高維度 + 稀疏數(shù)據(jù)支持不夠綜合考慮Fault Tolerance、Straggler等因素,性價比高的選擇 Parameter Server大規(guī)模機器學習框架Parameter Server(參數(shù)服務(wù)器)機器學習的核心競爭力和技術(shù)壁壘之一使用大數(shù)據(jù)(1T1P),快速訓練,迭代優(yōu)化需要考慮failover、通信/計算效率、收斂速度等多個特性原有的MPI系
4、統(tǒng)(存在穩(wěn)定性、成功率等問題)當超過1000 Worker instances,成功率 千億級別樣本)、聚類算法等通用SDK,降低門檻,便于開發(fā)各類算法主要內(nèi)容1設(shè)計理念2應(yīng)用場景3展望未來典型應(yīng)用支付寶錢包刮刮卡螞蟻會員在:支付寶客戶端內(nèi)轉(zhuǎn)賬到卡、繳費、余額寶轉(zhuǎn)入、信 用卡還款、手機充值以及外部商家支付寶付款等場景下,使用支 付寶支付,都能獲得一次刮獎機會(每天三次封頂)通過 協(xié)同過濾 + 監(jiān)督學習 + 特征迭代優(yōu)化 滿足用戶個性化需 求,提升用戶體驗手機充值更多應(yīng)用支付寶錢包(Cont.)典型應(yīng)用阿里媽媽直通車搜索廣告計算廣告學核心問題:給定的環(huán)境下,用戶與廣告的最佳匹配方法: 依賴機器學
5、習和歷史數(shù)據(jù),做精準CTR預估通過加大特征+樣本規(guī)模、算法+系統(tǒng)優(yōu)化、特征優(yōu)化等, 基于 大規(guī)模機器學習平臺,提升CTR典型應(yīng)用阿里媽媽直通車搜索廣告(Cont.)典型應(yīng)用2015年雙11在雙11主會場、雙11人群會 場、雙11行業(yè)會場等場景,使用在線學習,與業(yè)務(wù)方合力,UV點擊率大幅提升主要內(nèi)容1設(shè)計理念2應(yīng)用場景3展望未來未來展望不論是人工智能還是其他前沿技術(shù),都離不開高質(zhì)量的數(shù)據(jù)、強大的 計算平臺和高效的算法平臺,需要三者協(xié)同提升支持更多通用模式:Graph?正確率跟效率的折衷:采樣?異步?簡化算法?更加通用化的DataFlow,支持多種軟硬件平臺,降低大規(guī)模機器學 習的門檻:Tenso
6、rflow?參考文獻魯肅:人工智能驅(qū)動的金融生活 at Strata + Hadoop 2016Sibyl: A System for Large Scale Machine Learning at Google/learn/data-never-sleeps-2icml14_sysml :emerging systems for large-scale machine learningJeff Dean, et. al, “Large Scale Distributed Neural Networks,” (DistBelief), NIPS2012 (Downpouring ASGD an
7、d SoundBlaster LBFGS, model parallelism)Alex Smola and Shravan Narayanamurthy, “An Architecture for Parallel Topic Models,” VLDB2010 (Synchronous Worker-Server structure, no Coordinator)Mu Li, ODSI2014 and NIPS2014 Workshop papers (Sparse LR model, block based proximal, bounded delay asynchronous communication, KKT filter/significantly modified fi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程建設(shè)項目用工合同模板
- 紅木家具采購合同樣本
- 國際牛肉市場分銷合同
- 外匯資金代操作理財合同協(xié)議
- Module 1 Wonders of the world Unit 2 Reading and vocabulary 教學設(shè)計 -2024-2025學年外研版英語九年級上冊
- 2 土壤-動植物的樂園 教學設(shè)計 2024-2025學年科學二年級上冊教科版
- 2023-2024學年人教版九年級化學下冊同步教學設(shè)計第九單元《溶液》
- 8《匆匆》(教學設(shè)計)2023-2024學年統(tǒng)編版語文六年級下冊
- Module 10 The weather Unit 3 Language practice (1)教學設(shè)計2024-2025學年外研版英語八年級上冊
- 春節(jié)照看協(xié)議合同范本
- 全面介紹現(xiàn)貨中遠期交易
- 公安系防暴安全03安檢
- 四年級下冊音樂課件第一課時-感知音樂中的旋律三
- 教科版 二年級下冊科學教學計劃
- 部編版六年級道德與法治下冊《學會反思》教案
- 人教版體育與健康四年級-《障礙跑》教學設(shè)計
- DB32-T 2860-2015散裝液體化學品槽車裝卸安全作業(yè)規(guī)范-(高清現(xiàn)行)
- 部編版四年級下冊語文教案(完整)
- T∕CIS 71001-2021 化工安全儀表系統(tǒng)安全要求規(guī)格書編制導則
- 福利院裝修改造工程施工組織設(shè)計(225頁)
- 環(huán)境空氣中臭氧的測定
評論
0/150
提交評論