![基于lfm混合推薦算法_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/40b323a1-a9ee-4b6d-bc23-80c1e605a4a6/40b323a1-a9ee-4b6d-bc23-80c1e605a4a61.gif)
![基于lfm混合推薦算法_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/40b323a1-a9ee-4b6d-bc23-80c1e605a4a6/40b323a1-a9ee-4b6d-bc23-80c1e605a4a62.gif)
![基于lfm混合推薦算法_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/40b323a1-a9ee-4b6d-bc23-80c1e605a4a6/40b323a1-a9ee-4b6d-bc23-80c1e605a4a63.gif)
![基于lfm混合推薦算法_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/40b323a1-a9ee-4b6d-bc23-80c1e605a4a6/40b323a1-a9ee-4b6d-bc23-80c1e605a4a64.gif)
![基于lfm混合推薦算法_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/18/40b323a1-a9ee-4b6d-bc23-80c1e605a4a6/40b323a1-a9ee-4b6d-bc23-80c1e605a4a65.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、作者: 莊程旭清華大學(xué)電子工程系基于鄰域,LDA和FM的混合推薦系統(tǒng)設(shè)計(jì)百度電影推薦問題描述訓(xùn)練數(shù)據(jù):1,262,741測(cè)試數(shù)據(jù): 314,679電影總數(shù): 8,369用戶總數(shù): 143,670標(biāo)簽總數(shù): 1,129平均關(guān)注數(shù): 6.91用戶觀看電影記錄: 9,871,737基礎(chǔ)模型模型建立實(shí)證研究比賽之后文獻(xiàn)綜述Factorization machinesBasicModelsRandomForest1. LibFM2. SVD+RBMkNNBasic Features模型建立實(shí)證研究比賽之后文獻(xiàn)綜述模型建立實(shí)證研究比賽之后文獻(xiàn)綜述Basic Features實(shí)證研究比賽之后文獻(xiàn)綜述模型建立
2、Advanced Features基本思路:參考kNN的思想,參考相鄰的人的打分來得出最后的打分模型建立實(shí)證研究比賽之后文獻(xiàn)綜述初步實(shí)驗(yàn)每一套模型均采用以下4種參數(shù)和程序運(yùn)行方式:LibFM:采用MCMC學(xué)習(xí),初始值選取參數(shù)0.1,特征維數(shù)20維,迭代100輪SVD+_2:采用SGD學(xué)習(xí),迭代200輪,特征維數(shù)50維,前100輪步長0.01,后100輪步長0.001,參數(shù)懲罰0.0001,用sigmoid化。SVD+_1:采用SGD學(xué)習(xí),迭代200輪,特征維數(shù)50維,前100輪步長0.01,后100輪步長0.001,參數(shù)懲罰0.1。SVD+_3:采用SGD學(xué)習(xí),迭代400輪,特征維數(shù)50維,前
3、200輪步長0.01,后200輪步長0.001,參數(shù)懲罰0.0001,用sigmoid化。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述初步實(shí)驗(yàn)?zāi)P湍P蚅ibFMSVD+_1SVD+_2SVD+_3Tag0.61980.63820.6242 0.6435GoodTag0.61860.63900.62620.6451Tag+diff0.62000.63480.62830.6592Sns0.62070.63880.62970.6426Sns+thread0.62080.63890.63250.6527Sns500.62270.63750.62430.6510Snsall0.62340.63750.6259 0.
4、6440Movieall0.61480.63040.61680.6365模型建立實(shí)證研究比賽之后文獻(xiàn)綜述初步分析Tag和sns之間的對(duì)比1. Tag比起sns來說更加密集2. 這是個(gè)很不成熟的Sns系統(tǒng):3. 一部電影至少1個(gè)tag,大部分電影有10個(gè)tag一部電影平均有12.93個(gè)tag一個(gè)人平均只有6.91個(gè)關(guān)注(并且大部分人關(guān)注一個(gè)從未有打分記錄的官方賬號(hào))總共143,670個(gè)人,有98733個(gè)人只有3個(gè)或者以下被關(guān)注數(shù)目,有40715個(gè)人根本沒有人關(guān)注1. user數(shù)據(jù)的分散性模型建立實(shí)證研究比賽之后文獻(xiàn)綜述根據(jù)數(shù)據(jù)分析020000004000000600000080000001000
5、00001200000016011917823729635541447353259165070976882788694510041063112211811240129913580200000040000006000000800000010000000120000001621231842453063674284895506116727337948559169771038109911601221128213432. movie數(shù)據(jù)的集中性含義:相似的人太相似;user的相似對(duì)里有54.2%的相似度超過0.5,甚至有30.1%的相似度超過0.7。而movie的相似對(duì)里面只有9.1%的相似度超過了0.
6、5。而相似的電影能夠很好的擴(kuò)大數(shù)據(jù)量通過相似的電影,能夠看到更多的潛在的打分用戶本質(zhì)考慮:本質(zhì)考慮:在人和電影的二分圖之間引在人和電影的二分圖之間引入隱層來增強(qiáng)兩兩之間的聯(lián)系,從入隱層來增強(qiáng)兩兩之間的聯(lián)系,從而相當(dāng)于擴(kuò)大了訓(xùn)練數(shù)據(jù)量而相當(dāng)于擴(kuò)大了訓(xùn)練數(shù)據(jù)量模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入分析現(xiàn)象:人的打分記錄的分散。電影打分記錄的集中?!皩?duì)稱性破缺”啟發(fā):movie的feature效果更好。因?yàn)閙ovie需要更多的自由度!來應(yīng)對(duì)更多的user。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入分析深入思考:對(duì)于不同數(shù)據(jù)量的電影,給予不同的重視,用較多的feature的數(shù)量來滿足其適應(yīng)data的需求。對(duì)于
7、較少的數(shù)據(jù)量的電影,用較少的feature來防止過擬合。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述修改之前的模型1. 用聚類來使user更集中:1.用LDA的方法來做user的聚類,之后添加最相似的30個(gè)類作為user feature。2.直接選取觀看電影數(shù)超過100的人作為相似分析的全集。3.只選取打過分的人作為相似分析的全集(只有9873個(gè)人打過分)2. 將相似電影和其他feature混合:movie + tagmovie + snsallmovie50模型建立實(shí)證研究比賽之后文獻(xiàn)綜述新模型測(cè)試模型模型LibFMSVD+_1SVD+_2SVD+_3Movie+tag0.61380.63090.615
8、90.6390Movie500.61480.63200.61800.6421Movie+snsall0.61460.62790.61890.6526Snsallchange0.62070.63810.62610.6417Snsallthread0.62190.63810.62620.6432Sns_topic0.62250.64030.63090.6373Snsall0.62340.63750.6259 0.6440Movieall0.61480.63040.61680.6365模型建立實(shí)證研究比賽之后文獻(xiàn)綜述在比賽中實(shí)踐比賽中共設(shè)計(jì)了30套以上的模型:Tag+average,user_mov
9、ieSum+average,movie_userSns+actor,movietagallMovie+topic,sns+tag+movie技巧:切分訓(xùn)練數(shù)據(jù),重新訓(xùn)練模型后混合結(jié)果;對(duì)于訓(xùn)練數(shù)據(jù),做后抹零處理用最優(yōu)線性混合對(duì)于所有的模型進(jìn)行混合模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入思考如何利用不成熟的sns信息?長尾數(shù)據(jù)的利用一直是機(jī)器學(xué)習(xí)的難題。如何良好的聚類user信息?這個(gè)主要的思路在于找到很好的相似人。品味相似,而且能夠擴(kuò)充數(shù)據(jù)。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述深入思考更好的尋找“相似”?現(xiàn)在尋找相似的方法忽略了二階相似之間的聯(lián)系。因此可以采用隨機(jī)游走的方法,關(guān)在在于多游走幾次。問題在于時(shí)間效率。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述對(duì)于推薦系統(tǒng)實(shí)踐的建議相似人相似電影Tag和標(biāo)簽?zāi)P徒?shí)證研究比賽之后文獻(xiàn)綜述比賽之后對(duì)于訓(xùn)練集的重新拷問為什么和第一名差這么多?數(shù)據(jù)泄露。模型建立實(shí)證研究比賽之后文獻(xiàn)綜述比賽之后對(duì)于訓(xùn)練集的重新拷問對(duì)于user history的順序問題:亂序?時(shí)間順序!模型建立實(shí)證研究比賽之后文獻(xiàn)綜述比賽之后對(duì)于訓(xùn)練集的重新拷問前k打分,后k打分:vali上的rmse為0.6173Movie_t
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 茶文化教育在小學(xué)商業(yè)素養(yǎng)培養(yǎng)中的作用
- 董海霞二年級(jí)語文《葡萄溝》教學(xué)設(shè)計(jì)新
- DB4415T 48-2025茶角胸葉甲綜合防控技術(shù)規(guī)程
- LED廣告屏幕安裝與維護(hù)合同模板
- 個(gè)人消費(fèi)貸款合同范例
- 二手住宅買賣合同正規(guī)范本
- 二手房分期付款合同書
- 不履行購銷合同糾紛案解析
- 專利權(quán)轉(zhuǎn)讓及合作協(xié)議合同書
- 專項(xiàng)企業(yè)產(chǎn)(股)權(quán)托管合同文本
- 老客戶維護(hù)方案
- 高處作業(yè)安全教育培訓(xùn)講義課件
- dk膠原蛋白培訓(xùn)課件
- 萬科物業(yè)管理公司全套制度(2016版)
- 動(dòng)物檢疫技術(shù)-動(dòng)物檢疫處理(動(dòng)物防疫與檢疫技術(shù))
- 英語經(jīng)典口語1000句
- 進(jìn)模模具設(shè)計(jì)
- 2021年高考化學(xué)真題和模擬題分類匯編專題20工業(yè)流程題含解析
- 2023年北京市高考作文評(píng)分標(biāo)準(zhǔn)及優(yōu)秀、滿分作文
- 2023年大唐尿素投標(biāo)文件
- 縮窄性心包炎課件
評(píng)論
0/150
提交評(píng)論