版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習在美團用戶畫像中的應用付晴川fuqingchuan@2015-11-213W什么是用戶畫像?為什么要做用戶畫像?如何做用戶畫像?什么是用戶畫像?什么是用戶畫像?什么是用戶畫像?數(shù)據(jù)簽化為什么需要用戶畫像?為什么需要用戶畫像?用戶用戶體驗商戶營收提升工程師自動化美團運營效率在對的時間獲取對的服務!獲取更多的潛在優(yōu)質客戶!更精準高效的活動策略制定!數(shù)據(jù)應用接口標準化/通用化!如何來做用戶畫像?架構算法特征模型實踐問題架構–系統(tǒng)概覽架構——細節(jié)解讀MT
dmspa項目統(tǒng)一特征提取框架動機1.多工程師/多個模型“自給自足”,特征分散。2.存在人力/計算資源冗余。實現(xiàn)1.特征統(tǒng)一提取/集中存儲——大一統(tǒng)特征庫。2.支持no-coding/配置化提特征。效果1.建模周期:
3~4周下降到1~2周。2.人力/計算冗余減少2倍(估算值)架構——細節(jié)解讀MT
utvs系列項目用戶畫像統(tǒng)一接口多系統(tǒng)項目動機
1.數(shù)據(jù)挖掘成果需要友好統(tǒng)一的輸出接口:
可視化+API實現(xiàn)
1.用戶標簽體系WEB可視化
2.用戶標簽索引/實時查詢3.報表自動化效果1.成果推廣加速/溝通成本降低
2.傳統(tǒng)用戶問卷調查報報告周期1個月,utvs系統(tǒng)10分鐘!算法法–用戶戶特特征征需要要做做橫橫跨跨多多個個產(chǎn)產(chǎn)品品線線的的特特征征提提取?。?!算法法–用戶戶特特征征體體系系用戶特征體系一級/業(yè)務基本團購外賣酒店電影上門……
二級/行為注冊登陸瀏覽下單搜索收藏評論消費分享LBS……三級/時間年月日周早中晚周末工作日節(jié)假日……+每+最近自由級/可選品類品牌詞條…MxNxKxL=?特征征膨脹算法法–用戶戶特特征征算法法–用戶戶特特征征算法法–特征征與與效效果果實實例例用戶戶職職業(yè)業(yè)標標簽簽:學生生身身份份識識別別算法法-問題題及及常常用用模模型型實踐踐-問題題及及常常用用模模型型---實實例例模型實例一項目有車一族標簽挖掘需求
1.汽車服務推廣活動需要精準圈定有車人群降低營銷成本。實現(xiàn)
1.樣本:問卷調查正樣本+隨機負樣本
2.特征:信息增益特征離散化+卡方/信息增益/互信息等特征選擇
3.模型:
try
SVM/MaxEnt/LR
=>
SVM效果1.離線評測:P93%,R85%
2.線上對比:推送打開率提升3倍,下單率提升5倍!實踐踐-問題題及及常常用用模模型型---實實例例模型實例一項目常住地標簽挖掘需求
1.決策支持:酒店需要分析用戶下單與地域關系,決定是否上異地推薦模塊。實現(xiàn)
1.樣本:問卷調查
2.模型:
try
LR/SVM/RF/GBDT=>
LR3.多個LR模型組合效果1.離線評測:P96%,R73%
2.線上對比:新上異地模塊點擊率超越歷史最佳“名店搶購”1個百分點!實踐踐-關于于算算法法工工程程師師的的段段子子………理想中的算法工程師提出假設->收集數(shù)據(jù)->訓練模型->解釋結果實際中的算法工程師提出假設->收集數(shù)據(jù)->預處理->預處理->訓練模型->調試->調試->重新收集數(shù)據(jù)->預處理->收集更多數(shù)據(jù)->調試->調試->調試->…>放棄實踐踐-分享享::那那些些年年踩踩過過的的坑坑………目標效果現(xiàn)實效果分享一數(shù)據(jù)挖掘的天花板實數(shù)據(jù)本身!ToDo:努力逼近這個效果而不是較勁!實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享二實際應用中特征作用遠大于模型!ToDo:在深度優(yōu)化模型之前,先榨干數(shù)據(jù)特征的增益吧!特征至少帶來80%+的收益。模型LR
SVM特征瀏覽次數(shù)消費頻次下單品類搜索分詞實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享三關于樣本:樣本少/不均衡!ToDo:1)
SVM或TSVM,
2)
under
sampling/over
sampling/SMOTE。不均衡?實在無樣本:可以考慮隨機+規(guī)則過濾方法挑樣本!Smote要用到KNN,高維不靠譜!收集樣本才是王道!實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享四訓練集特征分布和自然待測數(shù)據(jù)不一致。ToDo:特征如果跟Label有直接關聯(lián)就不要用了。建模訓/測效果好的離譜自然結果一塌糊涂實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享五不要有把錘子,就把所有的問題當釘子。ToDo:多了解模型的優(yōu)缺點,選擇合適的模型!考察點分類/回歸/…樣本大小異常點敏感度效果/性能tradeoff容易過擬合?線性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度房地產(chǎn)開發(fā)精美合同協(xié)議范本(品質保障版)3篇
- 2024版幼兒娛樂場所承包合同條款匯編版
- 二零二五版租賃住房合同糾紛調解規(guī)范3篇
- 2024版汽車租賃委托付款協(xié)議書
- 2025年度版權監(jiān)測合同標的:盜版監(jiān)測與維權3篇
- 二零二五版勞動合同主體變更與員工培訓補貼協(xié)議3篇
- 2024年科技成果轉化與合作合同
- 二零二五年度跨境電商金融合同履行與跨境支付服務3篇
- 二零二五年度生態(tài)環(huán)保庫房租賃合同3篇
- 二零二五年度房地產(chǎn)項目招投標及合同簽訂協(xié)議3篇
- 服裝新店開業(yè)活動促銷方案
- 小學美術課堂案例分析
- 企業(yè)管理干股入股合作協(xié)議書
- 2024年社區(qū)工作者考試必背1000題題庫【含答案】
- AIOT智能物聯(lián)產(chǎn)業(yè)學院建設方案
- 2024年全國高考物理電學實驗真題(附答案)
- 護士培訓課件:醫(yī)療護士法律法規(guī)應知應會
- 《陶瓷裝飾?彩繪》課程標準
- 三年級上冊口算練習1000道三附答案
- T-902 千分尺內校報告
- 強奸罪起訴狀
評論
0/150
提交評論