基于lfm混合推薦算法_第1頁
基于lfm混合推薦算法_第2頁
基于lfm混合推薦算法_第3頁
基于lfm混合推薦算法_第4頁
基于lfm混合推薦算法_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、作者: 莊程旭清華大學電子工程系基于鄰域,LDA和FM的混合推薦系統(tǒng)設計百度電影推薦問題描述訓練數(shù)據(jù):1,262,741測試數(shù)據(jù): 314,679電影總數(shù): 8,369用戶總數(shù): 143,670標簽總數(shù): 1,129平均關注數(shù): 6.91用戶觀看電影記錄: 9,871,737基礎模型模型建立實證研究比賽之后文獻綜述Factorization machinesBasicModelsRandomForest1. LibFM2. SVD+RBMkNNBasic Features模型建立實證研究比賽之后文獻綜述模型建立實證研究比賽之后文獻綜述Basic Features實證研究比賽之后文獻綜述模型建立

2、Advanced Features基本思路:參考kNN的思想,參考相鄰的人的打分來得出最后的打分模型建立實證研究比賽之后文獻綜述初步實驗每一套模型均采用以下4種參數(shù)和程序運行方式:LibFM:采用MCMC學習,初始值選取參數(shù)0.1,特征維數(shù)20維,迭代100輪SVD+_2:采用SGD學習,迭代200輪,特征維數(shù)50維,前100輪步長0.01,后100輪步長0.001,參數(shù)懲罰0.0001,用sigmoid化。SVD+_1:采用SGD學習,迭代200輪,特征維數(shù)50維,前100輪步長0.01,后100輪步長0.001,參數(shù)懲罰0.1。SVD+_3:采用SGD學習,迭代400輪,特征維數(shù)50維,前

3、200輪步長0.01,后200輪步長0.001,參數(shù)懲罰0.0001,用sigmoid化。模型建立實證研究比賽之后文獻綜述初步實驗模型模型LibFMSVD+_1SVD+_2SVD+_3Tag0.61980.63820.6242 0.6435GoodTag0.61860.63900.62620.6451Tag+diff0.62000.63480.62830.6592Sns0.62070.63880.62970.6426Sns+thread0.62080.63890.63250.6527Sns500.62270.63750.62430.6510Snsall0.62340.63750.6259 0.

4、6440Movieall0.61480.63040.61680.6365模型建立實證研究比賽之后文獻綜述初步分析Tag和sns之間的對比1. Tag比起sns來說更加密集2. 這是個很不成熟的Sns系統(tǒng):3. 一部電影至少1個tag,大部分電影有10個tag一部電影平均有12.93個tag一個人平均只有6.91個關注(并且大部分人關注一個從未有打分記錄的官方賬號)總共143,670個人,有98733個人只有3個或者以下被關注數(shù)目,有40715個人根本沒有人關注1. user數(shù)據(jù)的分散性模型建立實證研究比賽之后文獻綜述根據(jù)數(shù)據(jù)分析020000004000000600000080000001000

5、00001200000016011917823729635541447353259165070976882788694510041063112211811240129913580200000040000006000000800000010000000120000001621231842453063674284895506116727337948559169771038109911601221128213432. movie數(shù)據(jù)的集中性含義:相似的人太相似;user的相似對里有54.2%的相似度超過0.5,甚至有30.1%的相似度超過0.7。而movie的相似對里面只有9.1%的相似度超過了0.

6、5。而相似的電影能夠很好的擴大數(shù)據(jù)量通過相似的電影,能夠看到更多的潛在的打分用戶本質考慮:本質考慮:在人和電影的二分圖之間引在人和電影的二分圖之間引入隱層來增強兩兩之間的聯(lián)系,從入隱層來增強兩兩之間的聯(lián)系,從而相當于擴大了訓練數(shù)據(jù)量而相當于擴大了訓練數(shù)據(jù)量模型建立實證研究比賽之后文獻綜述深入分析現(xiàn)象:人的打分記錄的分散。電影打分記錄的集中?!皩ΨQ性破缺”啟發(fā):movie的feature效果更好。因為movie需要更多的自由度!來應對更多的user。模型建立實證研究比賽之后文獻綜述深入分析深入思考:對于不同數(shù)據(jù)量的電影,給予不同的重視,用較多的feature的數(shù)量來滿足其適應data的需求。對于

7、較少的數(shù)據(jù)量的電影,用較少的feature來防止過擬合。模型建立實證研究比賽之后文獻綜述修改之前的模型1. 用聚類來使user更集中:1.用LDA的方法來做user的聚類,之后添加最相似的30個類作為user feature。2.直接選取觀看電影數(shù)超過100的人作為相似分析的全集。3.只選取打過分的人作為相似分析的全集(只有9873個人打過分)2. 將相似電影和其他feature混合:movie + tagmovie + snsallmovie50模型建立實證研究比賽之后文獻綜述新模型測試模型模型LibFMSVD+_1SVD+_2SVD+_3Movie+tag0.61380.63090.615

8、90.6390Movie500.61480.63200.61800.6421Movie+snsall0.61460.62790.61890.6526Snsallchange0.62070.63810.62610.6417Snsallthread0.62190.63810.62620.6432Sns_topic0.62250.64030.63090.6373Snsall0.62340.63750.6259 0.6440Movieall0.61480.63040.61680.6365模型建立實證研究比賽之后文獻綜述在比賽中實踐比賽中共設計了30套以上的模型:Tag+average,user_mov

9、ieSum+average,movie_userSns+actor,movietagallMovie+topic,sns+tag+movie技巧:切分訓練數(shù)據(jù),重新訓練模型后混合結果;對于訓練數(shù)據(jù),做后抹零處理用最優(yōu)線性混合對于所有的模型進行混合模型建立實證研究比賽之后文獻綜述深入思考如何利用不成熟的sns信息?長尾數(shù)據(jù)的利用一直是機器學習的難題。如何良好的聚類user信息?這個主要的思路在于找到很好的相似人。品味相似,而且能夠擴充數(shù)據(jù)。模型建立實證研究比賽之后文獻綜述深入思考更好的尋找“相似”?現(xiàn)在尋找相似的方法忽略了二階相似之間的聯(lián)系。因此可以采用隨機游走的方法,關在在于多游走幾次。問題在于時間效率。模型建立實證研究比賽之后文獻綜述對于推薦系統(tǒng)實踐的建議相似人相似電影Tag和標簽模型建立實證研究比賽之后文獻綜述比賽之后對于訓練集的重新拷問為什么和第一名差這么多?數(shù)據(jù)泄露。模型建立實證研究比賽之后文獻綜述比賽之后對于訓練集的重新拷問對于user history的順序問題:亂序?時間順序!模型建立實證研究比賽之后文獻綜述比賽之后對于訓練集的重新拷問前k打分,后k打分:vali上的rmse為0.6173Movie_t

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論