停不下來的推薦實(shí)踐-課件_第1頁
停不下來的推薦實(shí)踐-課件_第2頁
停不下來的推薦實(shí)踐-課件_第3頁
停不下來的推薦實(shí)踐-課件_第4頁
停不下來的推薦實(shí)踐-課件_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分享人:陳開江停不下來的推薦移動(dòng)互聯(lián)網(wǎng)下的推薦實(shí)踐分享什么“停不下來”?終端數(shù)據(jù)我們以前,我們?cè)赑C上如何耕耘?提取核心詞相似排序檢索推薦展示48小時(shí)內(nèi)的高質(zhì)量原創(chuàng)微博保證多樣性微博正文相關(guān)推薦初始IDF+Entropy提取核心詞獲取推薦候選預(yù)估ctr推薦展示48小時(shí)內(nèi)的高質(zhì)量原創(chuàng)微博歷史優(yōu)質(zhì)微博內(nèi)容庫百萬級(jí)特征10億級(jí)樣本并行訓(xùn)練特征管理模型評(píng)估AB-test統(tǒng)一樣式,吸引用戶保證多樣性詞關(guān)聯(lián)擴(kuò)展Word2vec改造微博正文相關(guān)推薦演化后TextRank+IDF+Entropy+ctr演化后的效果同樣的技術(shù)架構(gòu),復(fù)用到客戶端之后?PC和移動(dòng)推薦的對(duì)比(微博正文)微博推薦客戶端實(shí)例哪些不同?長

2、相血液角色找不同拜拜,PC。車載移動(dòng)電臺(tái)好節(jié)目平臺(tái)個(gè)性化電臺(tái)考拉FM個(gè)性化移動(dòng)網(wǎng)絡(luò)電臺(tái)這是個(gè)什么生物?不間斷的語音流陪伴式收聽產(chǎn)品介紹獨(dú)家秘制電臺(tái)節(jié)目我真的是電臺(tái),而不是打著FM旗號(hào)的網(wǎng)絡(luò)音樂播放器。整合傳統(tǒng)電臺(tái)節(jié)目億萬個(gè)各不相同的FM頻率優(yōu)化目標(biāo)和約束延長用戶收聽時(shí)長提高用戶與節(jié)目的互動(dòng)提高用戶在平臺(tái)上的活躍度發(fā)現(xiàn)用戶新興趣,指導(dǎo)內(nèi)容生產(chǎn)推送用戶最感興趣的節(jié)目優(yōu)化目標(biāo)可用的數(shù)據(jù)考拉FM中的用戶行為頂、踩、跳過(一期節(jié)目)訂閱(一檔節(jié)目)收藏(一期節(jié)目)點(diǎn)播(一期節(jié)目)分享(一期節(jié)目)移動(dòng)設(shè)備上的傳感數(shù)據(jù)其他實(shí)踐一:招待新客人新用戶新節(jié)目冷啟動(dòng)熱門榜不要過度依賴熱門榜登錄微博抓取微博信息用戶分

3、類興趣分類相似用戶第三方數(shù)據(jù)CUR預(yù)估CUR預(yù)估頂?還是不頂?這是個(gè)二分類問題莎士比亞CUR預(yù)估User feature:標(biāo)簽,性別,地域,分類,Item feature:標(biāo)簽,類別,內(nèi)容關(guān)鍵詞,主持人,風(fēng)格,所播音樂的歌手,音樂節(jié)奏Context feature:時(shí)間,狀態(tài)(靜止,移動(dòng)),GPS數(shù)據(jù),本地天氣,周邊路況,動(dòng)態(tài)特征CUR預(yù)估特征CUR預(yù)估樣本顯然,正樣本是“頂”過的數(shù)據(jù)。那么,負(fù)樣本就是“踩”過的數(shù)據(jù)嗎?踩過的數(shù)據(jù)太少,需要從踩+無表達(dá)數(shù)據(jù)中隨機(jī)抽取。CUR預(yù)估樣本1、特征值需要?dú)w一化或者離散成binary特征;LR模型訓(xùn)練備忘2、特征組合值得一試;3、樣本質(zhì)量很重要。4、樣本

4、保證時(shí)間順序:有利于淘汰或衰減舊樣本,方便用新樣本測(cè)試、更新模型專家標(biāo)注傅里葉變換節(jié)目類型、主持人、標(biāo)簽等音頻分析節(jié)目稿件內(nèi)容關(guān)鍵詞新節(jié)目實(shí)踐二:不忘老客人協(xié)同過濾(S1)CUR預(yù)估(S2)熱門榜(S3)w1*s1+w2*s2+w3*s3伺候老用戶改造1:針對(duì)節(jié)目檔和期分別構(gòu)造協(xié)同矩陣分片協(xié)同過濾改造2:針對(duì)各種用戶反饋分別構(gòu)造協(xié)同矩陣改造3:針對(duì)用戶收聽百分比構(gòu)造評(píng)分矩陣加權(quán)融合協(xié)同過濾的快速實(shí)驗(yàn)GraphChi單機(jī)神器圖計(jì)算GraphLab家族協(xié)同過濾的快速實(shí)驗(yàn)百萬用戶,萬級(jí)節(jié)目,近億級(jí)邊的二部圖Graphchi做矩陣分解只需要34min小公司的救星值得頒錦旗多模型融合w1*s1+w2*s

5、2+w3*s3如何科學(xué)地確定權(quán)重?用三項(xiàng)模型預(yù)測(cè)結(jié)果,最小二乘法擬合用戶收聽時(shí)長百分比加入微博登錄信息多模型融合收聽百分比實(shí)踐三:隨叫隨到的服務(wù)即時(shí)推薦相似節(jié)目推薦相關(guān)節(jié)目推薦即時(shí)推薦內(nèi)容分類(形式分類(節(jié)目調(diào)性(節(jié)目風(fēng)格(主持人姓名主持人個(gè)數(shù)主持人性別主持人聲音類型標(biāo)簽/關(guān)鍵詞向量空間模型余弦相似度相似節(jié)目節(jié)目稿件內(nèi)容節(jié)目排重節(jié)目排重背景:同一新聞,不同節(jié)目在播報(bào)數(shù)據(jù):短文本需求:對(duì)高度重合的主題快速聚類節(jié)目排重后綴樹聚類(suffix tree cluster)在線增量構(gòu)造后綴樹:Ukkonen算法秒級(jí)快速聚類:排重,尋找同主題節(jié)目詞數(shù)最大類數(shù)實(shí)際類數(shù)時(shí)間(秒)預(yù)處理(秒)178,6372

6、501855.993.95178,6371201205.964.02內(nèi)容相似計(jì)算倒排索引離線計(jì)算內(nèi)容向量長度離線計(jì)算用戶頂過的節(jié)目之間相似度WAND算法:剪枝5ms節(jié)目的協(xié)同效應(yīng)頂過這個(gè)節(jié)目的用戶還頂過哪些節(jié)目相關(guān)節(jié)目推薦相關(guān)節(jié)目推薦量化平均用戶收聽時(shí)長加入微博信息,解決冷啟動(dòng)多模型融合即時(shí)推薦實(shí)踐四:論清洗的重要性數(shù)據(jù)質(zhì)量的重要性網(wǎng)絡(luò)環(huán)境復(fù)雜不穩(wěn)定;程序本身的bug;用戶移動(dòng)設(shè)備的錯(cuò)誤。數(shù)據(jù)初期嚴(yán)重不一致、不完整;數(shù)據(jù)邏輯錯(cuò)誤;數(shù)據(jù)違背常識(shí)逐!出!山!門!數(shù)據(jù)質(zhì)量的重要性去掉不一致的,錯(cuò)誤的數(shù)據(jù)特征組合實(shí)踐五:客人要打包帶走用戶脫離視野無法及時(shí)推送最新節(jié)目,獲取用戶最及時(shí)反饋;服務(wù)端無法為用戶離線節(jié)目構(gòu)建與環(huán)境變化契合的編排;用戶脫離視野為用戶時(shí)刻提供貼心服務(wù)固然重要,但一定不能讓用戶設(shè)備耗電太快,設(shè)備太慢。愛因斯坦目前的我們上線四個(gè)月,用戶百萬量級(jí),節(jié)目萬級(jí)重點(diǎn)是我們還在不斷試錯(cuò),總結(jié),改進(jìn)到此,總結(jié)一下總結(jié)UI/UE:40%data:30% knowledge:20% algorithm:10%推薦系統(tǒng)處方:熬制方法:不停發(fā)現(xiàn)問題,解決問題On the way沙龍組委會(huì)同學(xué):淘寶的百壽,天貓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論