SDCC機器學習在美團用戶畫像中的應用付晴川V三_第1頁
SDCC機器學習在美團用戶畫像中的應用付晴川V三_第2頁
SDCC機器學習在美團用戶畫像中的應用付晴川V三_第3頁
SDCC機器學習在美團用戶畫像中的應用付晴川V三_第4頁
SDCC機器學習在美團用戶畫像中的應用付晴川V三_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器學習在美團用戶畫像中的應用付晴川fuqingchuan@2015-11-213W什么是用戶畫像?為什么要做用戶畫像?如何做用戶畫像?什么是用戶畫像?什么是用戶畫像?什么是用戶畫像?數(shù)據(jù)簽化為什么需要用戶畫像?為什么需要用戶畫像?用戶用戶體驗商戶營收提升工程師自動化美團運營效率在對的時間獲取對的服務!獲取更多的潛在優(yōu)質客戶!更精準高效的活動策略制定!數(shù)據(jù)應用接口標準化/通用化!如何來做用戶畫像?架構算法特征模型實踐問題架構–系統(tǒng)概覽架構——細節(jié)解讀MT

dmspa項目統(tǒng)一特征提取框架動機1.多工程師/多個模型“自給自足”,特征分散。2.存在人力/計算資源冗余。實現(xiàn)1.特征統(tǒng)一提取/集中存儲——大一統(tǒng)特征庫。2.支持no-coding/配置化提特征。效果1.建模周期:

3~4周下降到1~2周。2.人力/計算冗余減少2倍(估算值)架構——細節(jié)解讀MT

utvs系列項目用戶畫像統(tǒng)一接口多系統(tǒng)項目動機

1.數(shù)據(jù)挖掘成果需要友好統(tǒng)一的輸出接口:

可視化+API實現(xiàn)

1.用戶標簽體系WEB可視化

2.用戶標簽索引/實時查詢3.報表自動化效果1.成果推廣加速/溝通成本降低

2.傳統(tǒng)用戶問卷調查報報告周期1個月,utvs系統(tǒng)10分鐘!算法法–用戶戶特特征征需要要做做橫橫跨跨多多個個產(chǎn)產(chǎn)品品線線的的特特征征提提取?。?!算法法–用戶戶特特征征體體系系用戶特征體系一級/業(yè)務基本團購外賣酒店電影上門……

二級/行為注冊登陸瀏覽下單搜索收藏評論消費分享LBS……三級/時間年月日周早中晚周末工作日節(jié)假日……+每+最近自由級/可選品類品牌詞條…MxNxKxL=?特征征膨脹算法法–用戶戶特特征征算法法–用戶戶特特征征算法法–特征征與與效效果果實實例例用戶戶職職業(yè)業(yè)標標簽簽:學生生身身份份識識別別算法法-問題題及及常常用用模模型型實踐踐-問題題及及常常用用模模型型---實實例例模型實例一項目有車一族標簽挖掘需求

1.汽車服務推廣活動需要精準圈定有車人群降低營銷成本。實現(xiàn)

1.樣本:問卷調查正樣本+隨機負樣本

2.特征:信息增益特征離散化+卡方/信息增益/互信息等特征選擇

3.模型:

try

SVM/MaxEnt/LR

=>

SVM效果1.離線評測:P93%,R85%

2.線上對比:推送打開率提升3倍,下單率提升5倍!實踐踐-問題題及及常常用用模模型型---實實例例模型實例一項目常住地標簽挖掘需求

1.決策支持:酒店需要分析用戶下單與地域關系,決定是否上異地推薦模塊。實現(xiàn)

1.樣本:問卷調查

2.模型:

try

LR/SVM/RF/GBDT=>

LR3.多個LR模型組合效果1.離線評測:P96%,R73%

2.線上對比:新上異地模塊點擊率超越歷史最佳“名店搶購”1個百分點!實踐踐-關于于算算法法工工程程師師的的段段子子………理想中的算法工程師提出假設->收集數(shù)據(jù)->訓練模型->解釋結果實際中的算法工程師提出假設->收集數(shù)據(jù)->預處理->預處理->訓練模型->調試->調試->重新收集數(shù)據(jù)->預處理->收集更多數(shù)據(jù)->調試->調試->調試->…>放棄實踐踐-分享享::那那些些年年踩踩過過的的坑坑………目標效果現(xiàn)實效果分享一數(shù)據(jù)挖掘的天花板實數(shù)據(jù)本身!ToDo:努力逼近這個效果而不是較勁!實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享二實際應用中特征作用遠大于模型!ToDo:在深度優(yōu)化模型之前,先榨干數(shù)據(jù)特征的增益吧!特征至少帶來80%+的收益。模型LR

SVM特征瀏覽次數(shù)消費頻次下單品類搜索分詞實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享三關于樣本:樣本少/不均衡!ToDo:1)

SVM或TSVM,

2)

under

sampling/over

sampling/SMOTE。不均衡?實在無樣本:可以考慮隨機+規(guī)則過濾方法挑樣本!Smote要用到KNN,高維不靠譜!收集樣本才是王道!實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享四訓練集特征分布和自然待測數(shù)據(jù)不一致。ToDo:特征如果跟Label有直接關聯(lián)就不要用了。建模訓/測效果好的離譜自然結果一塌糊涂實踐踐-分享享::那那些些年年踩踩過過的的坑坑………分享五不要有把錘子,就把所有的問題當釘子。ToDo:多了解模型的優(yōu)缺點,選擇合適的模型!考察點分類/回歸/…樣本大小異常點敏感度效果/性能tradeoff容易過擬合?線性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論