基于隱反饋的協(xié)同過濾推薦模型

上傳人：I*** IP屬地：上海上傳時(shí)間：2022-08-27 格式：PPTX 頁數(shù)：40 大?。?.99MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩35頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于隱反饋的協(xié)同過濾推薦模型技術(shù)創(chuàng)新，變革未來智慧IT目錄010203模型簡介模型結(jié)構(gòu)模型運(yùn)行模型總結(jié)04一. WR-MF（ Weighted Regularized Matrix Factorization ）模型顯反饋與隱反饋協(xié)同過濾是指在預(yù)測一個(gè)用戶對(duì)物品的喜好程度時(shí)，不僅僅依賴于該用戶的歷史記錄，同時(shí)也要考慮其他用戶的歷史記錄。其基本假設(shè)是興趣相投、擁有共同經(jīng)驗(yàn)的群體未來會(huì)喜歡相似的物品。協(xié)同過濾建模主要使用用戶對(duì)物品的歷史交互數(shù)據(jù)，也稱為反饋數(shù)據(jù)。根據(jù)交互行為是否反映用戶對(duì)物品的喜好程度可以把反饋數(shù)據(jù)分為兩類：顯式反饋，通常是指評(píng)分，直接反映用戶對(duì)物品的喜好程度，例如豆瓣網(wǎng)提供用

2、戶對(duì)電影15的評(píng)分；隱式反饋，例如點(diǎn)擊、購買、看視頻、聽音樂等行為，其不能直接揭示用戶是否喜歡一個(gè)物品，但能側(cè)面反映出用戶對(duì)物品的興趣。 1.模型簡介相比于顯式反饋，互聯(lián)網(wǎng)內(nèi)容提供商更容易獲得隱式反饋，例如電商/視頻網(wǎng)站可以從服務(wù)器日志中直接獲得用戶的點(diǎn)擊/觀看歷史。由于不需要用戶顯式提供打分，隱式反饋中的選擇偏差較小，而且其規(guī)模相對(duì)較大。因此隱反饋推薦的應(yīng)用更為廣泛。與顯式反饋類似，可以將隱式反饋數(shù)據(jù)描述為一個(gè)二維矩陣Y；不同的是這里Y中的每一個(gè)元素不是一個(gè)具體的打分，而是代表用戶是否選擇了某一物品：1代表選擇，0代表沒有選擇。因此，建模隱式反饋更像是一個(gè)二分類問題預(yù)測用戶選擇一個(gè)物品的概率

3、。 1.模型簡介隱反饋推薦算法 1.模型簡介背景介紹一般而言，用戶基于物品的顯性反饋是可以出顯示出用戶對(duì)物品的喜好程度的。但是現(xiàn)實(shí)生活中其實(shí)還存在著很多的隱性反饋（比如購買記錄、瀏覽記錄，搜索記錄等），這一類數(shù)據(jù)普遍都存在一個(gè)缺陷，即它們是很難有證據(jù)顯示出用戶對(duì)該物品的不喜歡程度畢竟用戶的打分才是最直接表示喜好的一種行為。所以如何處理隱性數(shù)據(jù)，以及如何顯示出用戶對(duì)物品的喜好程度，成為了隱反饋推薦中亟待解決的問題。 1.模型簡介模型選型大多數(shù)推薦系統(tǒng)主要關(guān)注用戶的顯示反饋行為，如評(píng)分等，忽略用戶的隱式反饋信息，如瀏覽記錄等。但是，顯示反饋信息并不總是容易得到，在很多情況下，隱反饋則很容易進(jìn)行

4、收集。傳統(tǒng)的基于顯示反饋的方法僅僅考慮了評(píng)分項(xiàng)，忽略了隱反饋中的大量缺失項(xiàng)目，明顯不適用于隱反饋的推薦中。為此，Hu等人在論文Collaborative Filtering for Implicit Feedback Datasets (ICDM ,2008)中提出WR-MF（Weighted Regularized Matrix Factorization）模型1。WR-MF模型引入了用戶的喜好程度和置信程度來建模隱反饋數(shù)據(jù)，同時(shí)設(shè)計(jì)了交替最小二乘法（ alternating least squares ，ALS）優(yōu)化算法求解模型，效果取得到明顯的提升1 Hu Y, Koren Y, Vo

5、linsky C. Collaborative Filtering for Implicit Feedback DatasetsC/ICDM. 2008, 8: 263-272. 1.模型簡介模型選型WR-MF模型解決了隱反饋中對(duì)負(fù)反饋數(shù)據(jù)建模的問題，將隱反饋中的正樣本和負(fù)樣本統(tǒng)一建模，為隱反饋推薦算法的發(fā)展打下了重要基礎(chǔ)。由于在實(shí)際應(yīng)用中，用戶和物品的數(shù)據(jù)量是十分巨大的。為此，作者對(duì)于模型的優(yōu)化并沒有采用隨機(jī)梯度下降等算法進(jìn)行優(yōu)化，而是設(shè)計(jì)了線性時(shí)間復(fù)雜度的ALS優(yōu)化算法，使得其對(duì)于大型稀疏數(shù)據(jù)仍然能保持較好的預(yù)測性能，加快了模型的收斂速度，在工業(yè)界和大規(guī)模數(shù)據(jù)中也得到了廣泛的應(yīng)用。目前，

6、在Apacha Mahout和Spark中均提供了ALS算法和并行計(jì)算的支持，通過Hadoop(/users/recommender/intro-als-hadoop.html ）平臺(tái)的支持，我們可以很容易的實(shí)現(xiàn)工業(yè)級(jí)別下的個(gè)性化推薦系統(tǒng)的搭建， 1.模型簡介參數(shù)解釋符號(hào)解釋評(píng)分?jǐn)?shù)據(jù)|或者次數(shù)的數(shù)據(jù)用戶u對(duì)物品i的喜好程度m用戶數(shù)量n物品數(shù)量X用戶特征向量的矩陣（每一行代表用戶， m* f ,f是潛在特征向量的大?。℡物品特征向量的矩陣（每一列代表物品，n* f） 2.模型結(jié)構(gòu)模型框架由于隱性反饋數(shù)據(jù)是不能顯示用戶的喜好程度的，畢竟用戶的打分才是最直接表示喜好的一種行為。所以如何處理隱性數(shù)

7、據(jù)，以及如何顯示出用戶對(duì)item的喜好程度，成為了隱反饋推薦要研究的重要問題。 WR-MF模型把隱性反饋數(shù)據(jù)轉(zhuǎn)換成了兩個(gè)維度，一個(gè)是喜好程度(preference),代表用戶是否喜好該物品，另一個(gè)是置信程度(confidence),表示用戶對(duì)物品喜好的置信程度。以此，得出最后的分?jǐn)?shù)。 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu)更新過程 2.模型結(jié)構(gòu) 然后，令導(dǎo)數(shù)為0可得：把x和y帶入損失函數(shù)，使得損失函數(shù)最小。重復(fù)上面2和3步驟，直到達(dá)到自己想要的損失函數(shù)的最低值或者達(dá)到更新多少次的要求。 2.模型結(jié)構(gòu)數(shù)據(jù)集劃分根據(jù)用戶的交互時(shí)間排序，采取leave one out策略，對(duì)于每一

8、位用戶，我們將其交互記錄中最新的一條作為測試集，剩下的數(shù)據(jù)作為訓(xùn)練集。 3.模型運(yùn)行數(shù)據(jù)集我們使用Movielens-100k來評(píng)價(jià)模型的表現(xiàn) 。MovieLens-100k 是一份被廣泛使用于驗(yàn)證 CF 算法表現(xiàn)效果的電影評(píng)分?jǐn)?shù)據(jù)集。MovieLens 具有多個(gè)版本，在ALS實(shí)驗(yàn)中我們選擇。在這個(gè)版本的 MovieLens 數(shù)據(jù)集中，包含943個(gè)用戶對(duì)于1682部電影，擁有100000次評(píng)分記錄。數(shù)據(jù)集地址：/datasets/movielens/。對(duì)于其中的評(píng)分項(xiàng)，我們將其分?jǐn)?shù)全部置1，僅代表用戶與該物品發(fā)生過交互。 3.模型運(yùn)行判斷對(duì)用戶更新還是對(duì)物品進(jìn)行更新代碼實(shí)踐-離線PyCharm

9、環(huán)境根據(jù)ALS推導(dǎo)進(jìn)行更新 3.模型運(yùn)行運(yùn)行結(jié)果單組參數(shù)下，迭代20次后，模型的HR和NDCG的結(jié)果 3.模型運(yùn)行正則化參數(shù) alpha超參數(shù)迭代次數(shù)潛在特征向量維度代碼調(diào)優(yōu) 3.模型運(yùn)行正則化參數(shù)正則化參數(shù)用來防止網(wǎng)絡(luò)的過擬合情況，從上圖可以發(fā)現(xiàn)：正則化參數(shù)為0.01時(shí)，網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運(yùn)行alpha超參數(shù)alpha參數(shù)用來控制模型的置信程度，從上圖可以發(fā)現(xiàn)：alpha參數(shù)為4時(shí)，網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運(yùn)行迭代次數(shù) 迭代次數(shù) 迭代次數(shù)迭代次數(shù)控制著網(wǎng)絡(luò)的收斂程度，一般隨著攜帶次數(shù)的增加，網(wǎng)絡(luò)表現(xiàn)也會(huì)變好。 3.模型運(yùn)行潛在特征向量維度潛在特征向量維度控制著模型的表現(xiàn)力，隨著維度的增

10、加，模型的效果也便也會(huì)隨之變好，同時(shí)，模型的復(fù)雜度也會(huì)提高，過擬合情況也會(huì)越發(fā)嚴(yán)重。超過一定值時(shí)，甚至?xí)?dǎo)致模型效果變差。從上圖可以發(fā)現(xiàn)：特征向量維度為30時(shí)，網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運(yùn)行 WR-MF研究了隱式反饋數(shù)據(jù)集下的協(xié)同過濾推薦，這是一種非常常見的情況。我們的主要發(fā)現(xiàn)之一是隱式用戶觀察應(yīng)該轉(zhuǎn)換為兩個(gè)成對(duì)的量級(jí)：偏好和置信水平。換句話說，對(duì)于每個(gè)用戶 - 項(xiàng)目對(duì)，我們從輸入數(shù)據(jù)推導(dǎo)出估計(jì)用戶是否喜歡或不喜歡該項(xiàng)目（“偏好”）并將此估計(jì)與置信水平相結(jié)合。這種偏好置信區(qū)分在廣泛使用的顯式反饋數(shù)據(jù)集中沒有被納入考慮中，但在分析隱式反饋方面推薦起著關(guān)鍵作用。 4.模型總結(jié)目錄010203模型

11、簡介模型結(jié)構(gòu)模型運(yùn)行模型總結(jié)04二.eALS（element-wise ALS ）模型模型選型 WR-MF模型雖然在隱反饋推薦中取得了較好的表現(xiàn)，然而，其模型也存在著以下不足：對(duì)于隱反饋中的負(fù)反饋數(shù)據(jù)，WR-MF模型采用給與相同的置信度（權(quán)重）進(jìn)行建模，然而，真實(shí)情況中，用戶對(duì)于負(fù)反饋的偏好肯定是不一樣的，統(tǒng)一權(quán)重的建模方式在某種程度上限制了模型的表現(xiàn)。 WR-MF模型采用ALS算法進(jìn)行優(yōu)化，只適用于離線情況下的推薦。對(duì)于在線推薦，我們需要重新訓(xùn)練整個(gè)模型，限制了模型的適用范圍考慮到以上問題，He等人在WR-MF模型的基礎(chǔ)上，提出了eALS（element-wise ALS ）模型1,解決了

12、以上不足，進(jìn)一步發(fā)展了隱反饋推薦。1 He X, Zhang H, Kan M Y, et al. Fast matrix factorization for online recommendation with implicit feedbackC/Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2016: 549-558. 1.模型簡介eALS介紹eALS模型解決了WR-MF模型上述的兩個(gè)不足。eALS模

13、型根據(jù)物品流行度對(duì)缺失數(shù)據(jù)（負(fù)反饋）進(jìn)行加權(quán)，這比統(tǒng)一權(quán)重假設(shè)更有效和靈活。然而，這種不均勻的加權(quán)在學(xué)習(xí)模型時(shí)提出了效率挑戰(zhàn)。為了解決這個(gè)問題，我們專門設(shè)計(jì)了一種基于元素交替最小二乘（eALS）的新學(xué)習(xí)算法。優(yōu)化具有可變加權(quán)缺失數(shù)據(jù)的MF模型。我們利用這種高效優(yōu)化算法，然后無縫地設(shè)計(jì)增量更新策略，在給定新反饋的情況下立即更新模型，使得其可以同時(shí)應(yīng)用于在線和離線環(huán)境中，是目前基于矩陣分解方法中的最優(yōu)模型。 1.模型簡介模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu)流行度加權(quán)許多Web 2.0系統(tǒng)的在其推薦界面傾向于展示其網(wǎng)站的熱門項(xiàng)目。在所有其他因素相同的情況下，一般來說，用戶更容易了解其熱門項(xiàng)目，因此我

14、們可以合理地認(rèn)為用戶對(duì)熱門項(xiàng)目的錯(cuò)過更可能代表用戶對(duì)于該物品沒有興趣。為了解釋這種現(xiàn)象，我們根據(jù)物品的受歡迎程度對(duì)ci進(jìn)行參數(shù)化計(jì)算： 2.模型結(jié)構(gòu)更新過程 2.模型結(jié)構(gòu)在線更新當(dāng)離線訓(xùn)練好的模型部署到實(shí)際環(huán)境中，會(huì)不斷的出現(xiàn)新的用戶、物品以及交互。eALS提出了一種增量更新的策略，即在原有模型的基礎(chǔ)上，對(duì)于新的信息進(jìn)行單獨(dú)的更新 2.模型結(jié)構(gòu)數(shù)據(jù)集我們?cè)赮elp和Amazon數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Yelp是美國最大點(diǎn)評(píng)網(wǎng)站。我們使用其在2015年舉辦的Yelp Challenge比賽中公開的數(shù)據(jù)集（/dataset challenge）。Amazon則是美國最大的在線購物網(wǎng)站，我們使用的是其電

15、影觀看記錄數(shù)據(jù)集（/data/web-Amazon-links.html）。對(duì)于其中的評(píng)分項(xiàng)，我們將其分?jǐn)?shù)全部置1，代表用戶與該物品發(fā)生過交互。其數(shù)據(jù)集統(tǒng)計(jì)信息如下：DatesetReviewItemUserSparsityYelp731,67125,81525,67799.89%Amazon5,020,70575,389117,17699.94% 3.模型運(yùn)行更新模型的緩存矩陣更新代碼（/hexiangnan/sigir16-eals）更新用戶和物品矩陣 3.模型運(yùn)行結(jié)果分析：作者在Amazon和Yelp數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。從上圖可以發(fā)現(xiàn)，隨著模型迭代次數(shù)的增加，模型的效果野越來越好，其中eALS模型的效果在二份數(shù)據(jù)集上一直優(yōu)于其他模型。 3.模型運(yùn)行從上圖可以發(fā)現(xiàn)，隨著潛在特征向量維度的增加，模型的

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計(jì)算機(jī)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于隱反饋的協(xié)同過濾推薦模型

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于隱反饋的協(xié)同過濾推薦模型

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔