版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于隱反饋的協(xié)同過(guò)濾推薦模型技術(shù)創(chuàng)新,變革未來(lái)智慧IT目 錄010203模型簡(jiǎn)介模型結(jié)構(gòu)模型運(yùn)行模型總結(jié)04一. WR-MF( Weighted Regularized Matrix Factorization )模型顯反饋與隱反饋 協(xié)同過(guò)濾是指在預(yù)測(cè)一個(gè)用戶(hù)對(duì)物品的喜好程度時(shí),不僅僅依賴(lài)于該用戶(hù)的歷史記錄,同時(shí)也要考慮其他用戶(hù)的歷史記錄。其基本假設(shè)是興趣相投、擁有共同經(jīng)驗(yàn)的群體未來(lái)會(huì)喜歡相似的物品。協(xié)同過(guò)濾建模主要使用用戶(hù)對(duì)物品的歷史交互數(shù)據(jù),也稱(chēng)為反饋數(shù)據(jù)。根據(jù)交互行為是否反映用戶(hù)對(duì)物品的喜好程度可以把反饋數(shù)據(jù)分為兩類(lèi):顯式反饋,通常是指評(píng)分,直接反映用戶(hù)對(duì)物品的喜好程度,例如豆瓣網(wǎng)提供用
2、戶(hù)對(duì)電影15的評(píng)分;隱式反饋,例如點(diǎn)擊、購(gòu)買(mǎi)、看視頻、聽(tīng)音樂(lè)等行為,其不能直接揭示用戶(hù)是否喜歡一個(gè)物品,但能側(cè)面反映出用戶(hù)對(duì)物品的興趣。 1.模型簡(jiǎn)介相比于顯式反饋,互聯(lián)網(wǎng)內(nèi)容提供商更容易獲得隱式反饋,例如電商/視頻網(wǎng)站可以從服務(wù)器日志中直接獲得用戶(hù)的點(diǎn)擊/觀看歷史。由于不需要用戶(hù)顯式提供打分,隱式反饋中的選擇偏差較小,而且其規(guī)模相對(duì)較大。因此隱反饋推薦的應(yīng)用更為廣泛。與顯式反饋類(lèi)似,可以將隱式反饋數(shù)據(jù)描述為一個(gè)二維矩陣Y;不同的是這里Y中的每一個(gè)元素不是一個(gè)具體的打分,而是代表用戶(hù)是否選擇了某一物品:1代表選擇,0代表沒(méi)有選擇。因此,建模隱式反饋更像是一個(gè)二分類(lèi)問(wèn)題預(yù)測(cè)用戶(hù)選擇一個(gè)物品的概率
3、。 1.模型簡(jiǎn)介隱反饋推薦算法 1.模型簡(jiǎn)介背景介紹一般而言,用戶(hù)基于物品的顯性反饋是可以出顯示出用戶(hù)對(duì)物品的喜好程度的。但是現(xiàn)實(shí)生活中其實(shí)還存在著很多的隱性反饋(比如購(gòu)買(mǎi)記錄、瀏覽記錄,搜索記錄等),這一類(lèi)數(shù)據(jù)普遍都存在一個(gè)缺陷,即它們是很難有證據(jù)顯示出用戶(hù)對(duì)該物品的不喜歡程度畢竟用戶(hù)的打分才是最直接表示喜好的一種行為。所以如何處理隱性數(shù)據(jù),以及如何顯示出用戶(hù)對(duì)物品的喜好程度,成為了隱反饋推薦中亟待解決的問(wèn)題。 1.模型簡(jiǎn)介模型選型 大多數(shù)推薦系統(tǒng)主要關(guān)注用戶(hù)的顯示反饋行為,如評(píng)分等,忽略用戶(hù)的隱式反饋信息,如瀏覽記錄等。 但是,顯示反饋信息并不總是容易得到,在很多情況下,隱反饋則很容易進(jìn)行
4、收集。傳統(tǒng)的基于顯示反饋的方法僅僅考慮了評(píng)分項(xiàng),忽略了隱反饋中的大量缺失項(xiàng)目,明顯不適用于隱反饋的推薦中。 為此,Hu等人在論文Collaborative Filtering for Implicit Feedback Datasets (ICDM ,2008)中提出WR-MF(Weighted Regularized Matrix Factorization)模型1。WR-MF模型引入了用戶(hù)的喜好程度和置信程度來(lái)建模隱反饋數(shù)據(jù),同時(shí)設(shè)計(jì)了交替最小二乘法( alternating least squares ,ALS)優(yōu)化算法求解模型,效果取得到明顯的提升1 Hu Y, Koren Y, Vo
5、linsky C. Collaborative Filtering for Implicit Feedback DatasetsC/ICDM. 2008, 8: 263-272. 1.模型簡(jiǎn)介模型選型WR-MF模型解決了隱反饋中對(duì)負(fù)反饋數(shù)據(jù)建模的問(wèn)題,將隱反饋中的正樣本和負(fù)樣本統(tǒng)一建模,為隱反饋推薦算法的發(fā)展打下了重要基礎(chǔ)。 由于在實(shí)際應(yīng)用中,用戶(hù)和物品的數(shù)據(jù)量是十分巨大的。為此,作者對(duì)于模型的優(yōu)化并沒(méi)有采用隨機(jī)梯度下降等算法進(jìn)行優(yōu)化,而是設(shè)計(jì)了線性時(shí)間復(fù)雜度的ALS優(yōu)化算法,使得其對(duì)于大型稀疏數(shù)據(jù)仍然能保持較好的預(yù)測(cè)性能,加快了模型的收斂速度,在工業(yè)界和大規(guī)模數(shù)據(jù)中也得到了廣泛的應(yīng)用。目前,
6、在Apacha Mahout和Spark中均提供了ALS算法和并行計(jì)算的支持,通過(guò)Hadoop(/users/recommender/intro-als-hadoop.html )平臺(tái)的支持,我們可以很容易的實(shí)現(xiàn)工業(yè)級(jí)別下的個(gè)性化推薦系統(tǒng)的搭建, 1.模型簡(jiǎn)介參數(shù)解釋 符號(hào)解釋評(píng)分?jǐn)?shù)據(jù)|或者次數(shù)的數(shù)據(jù)用戶(hù)u對(duì)物品i的喜好程度m用戶(hù)數(shù)量n物品數(shù)量X用戶(hù)特征向量的矩陣(每一行代表用戶(hù), m* f ,f是潛在特征向量的大?。℡物品特征向量的矩陣(每一列代表物品,n* f) 2.模型結(jié)構(gòu)模型框架 由于隱性反饋數(shù)據(jù)是不能顯示用戶(hù)的喜好程度的,畢竟用戶(hù)的打分才是最直接表示喜好的一種行為。所以如何處理隱性數(shù)
7、據(jù),以及如何顯示出用戶(hù)對(duì)item的喜好程度,成為了隱反饋推薦要研究的重要問(wèn)題。 WR-MF模型把隱性反饋數(shù)據(jù)轉(zhuǎn)換成了兩個(gè)維度,一個(gè)是喜好程度(preference),代表用戶(hù)是否喜好該物品,另一個(gè)是置信程度(confidence),表示用戶(hù)對(duì)物品喜好的置信程度。以此,得出最后的分?jǐn)?shù)。 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu)更新過(guò)程 2.模型結(jié)構(gòu) 然后,令導(dǎo)數(shù)為0可得: 把x和y帶入損失函數(shù),使得損失函數(shù)最小。重復(fù)上面2和3步驟,直到達(dá)到自己想要的損失函數(shù)的最低值或者達(dá)到更新多少次的要求。 2.模型結(jié)構(gòu)數(shù)據(jù)集劃分根據(jù)用戶(hù)的交互時(shí)間排序,采取leave one out策略,對(duì)于每一
8、位用戶(hù),我們將其交互記錄中最新的一條作為測(cè)試集,剩下的數(shù)據(jù)作為訓(xùn)練集。 3.模型運(yùn)行數(shù)據(jù)集我們使用Movielens-100k來(lái)評(píng)價(jià)模型的表現(xiàn) 。MovieLens-100k 是一份被廣泛使用于驗(yàn)證 CF 算法表現(xiàn)效果的電影評(píng)分?jǐn)?shù)據(jù)集。MovieLens 具有多個(gè)版本,在ALS實(shí)驗(yàn)中我們選擇。在這個(gè)版本的 MovieLens 數(shù)據(jù)集中,包含943個(gè)用戶(hù)對(duì)于1682部電影,擁有100000次評(píng)分記錄。數(shù)據(jù)集地址:/datasets/movielens/。對(duì)于其中的評(píng)分項(xiàng),我們將其分?jǐn)?shù)全部置1,僅代表用戶(hù)與該物品發(fā)生過(guò)交互。 3.模型運(yùn)行判斷對(duì)用戶(hù)更新還是對(duì)物品進(jìn)行更新代碼實(shí)踐-離線PyCharm
9、環(huán)境根據(jù)ALS推導(dǎo)進(jìn)行更新 3.模型運(yùn)行運(yùn)行結(jié)果單組參數(shù)下,迭代20次后,模型的HR和NDCG的結(jié)果 3.模型運(yùn)行正則化參數(shù) alpha超參數(shù)迭代次數(shù)潛在特征向量維度代碼調(diào)優(yōu) 3.模型運(yùn)行正則化參數(shù)正則化參數(shù)用來(lái)防止網(wǎng)絡(luò)的過(guò)擬合情況,從上圖可以發(fā)現(xiàn):正則化參數(shù)為0.01時(shí),網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運(yùn)行alpha超參數(shù)alpha參數(shù)用來(lái)控制模型的置信程度,從上圖可以發(fā)現(xiàn):alpha參數(shù)為4時(shí),網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運(yùn)行迭代次數(shù) 迭代次數(shù) 迭代次數(shù)迭代次數(shù)控制著網(wǎng)絡(luò)的收斂程度,一般隨著攜帶次數(shù)的增加,網(wǎng)絡(luò)表現(xiàn)也會(huì)變好。 3.模型運(yùn)行潛在特征向量維度潛在特征向量維度控制著模型的表現(xiàn)力,隨著維度的增
10、加,模型的效果也便也會(huì)隨之變好,同時(shí),模型的復(fù)雜度也會(huì)提高,過(guò)擬合情況也會(huì)越發(fā)嚴(yán)重。超過(guò)一定值時(shí),甚至?xí)?dǎo)致模型效果變差。從上圖可以發(fā)現(xiàn):特征向量維度為30時(shí),網(wǎng)絡(luò)表現(xiàn)較好。 3.模型運(yùn)行 WR-MF研究了隱式反饋數(shù)據(jù)集下的協(xié)同過(guò)濾推薦,這是一種非常常見(jiàn)的情況。我們的主要發(fā)現(xiàn)之一是隱式用戶(hù)觀察應(yīng)該轉(zhuǎn)換為兩個(gè)成對(duì)的量級(jí):偏好和置信水平。 換句話(huà)說(shuō),對(duì)于每個(gè)用戶(hù) - 項(xiàng)目對(duì),我們從輸入數(shù)據(jù)推導(dǎo)出估計(jì)用戶(hù)是否喜歡或不喜歡該項(xiàng)目(“偏好”)并將此估計(jì)與置信水平相結(jié)合。這種偏好置信區(qū)分在廣泛使用的顯式反饋數(shù)據(jù)集中沒(méi)有被納入考慮中,但在分析隱式反饋方面推薦起著關(guān)鍵作用。 4.模型總結(jié)目 錄010203模型
11、簡(jiǎn)介模型結(jié)構(gòu)模型運(yùn)行模型總結(jié)04二.eALS(element-wise ALS )模型模型選型 WR-MF模型雖然在隱反饋推薦中取得了較好的表現(xiàn),然而,其模型也存在著以下不足: 對(duì)于隱反饋中的負(fù)反饋數(shù)據(jù),WR-MF模型采用給與相同的置信度(權(quán)重)進(jìn)行建模,然而,真實(shí)情況中,用戶(hù)對(duì)于負(fù)反饋的偏好肯定是不一樣的,統(tǒng)一權(quán)重的建模方式在某種程度上限制了模型的表現(xiàn)。 WR-MF模型采用ALS算法進(jìn)行優(yōu)化,只適用于離線情況下的推薦。對(duì)于在線推薦,我們需要重新訓(xùn)練整個(gè)模型,限制了模型的適用范圍考慮到以上問(wèn)題,He等人在WR-MF模型的基礎(chǔ)上,提出了eALS(element-wise ALS )模型1,解決了
12、以上不足,進(jìn)一步發(fā)展了隱反饋推薦。1 He X, Zhang H, Kan M Y, et al. Fast matrix factorization for online recommendation with implicit feedbackC/Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2016: 549-558. 1.模型簡(jiǎn)介eALS介紹eALS模型解決了WR-MF模型上述的兩個(gè)不足。eALS模
13、型根據(jù)物品流行度對(duì)缺失數(shù)據(jù)(負(fù)反饋)進(jìn)行加權(quán),這比統(tǒng)一權(quán)重假設(shè)更有效和靈活。然而,這種不均勻的加權(quán)在學(xué)習(xí)模型時(shí)提出了效率挑戰(zhàn)。為了解決這個(gè)問(wèn)題,我們專(zhuān)門(mén)設(shè)計(jì)了一種基于元素交替最小二乘(eALS)的新學(xué)習(xí)算法。優(yōu)化具有可變加權(quán)缺失數(shù)據(jù)的MF模型。我們利用這種高效優(yōu)化算法,然后無(wú)縫地設(shè)計(jì)增量更新策略,在給定新反饋的情況下立即更新模型,使得其可以同時(shí)應(yīng)用于在線和離線環(huán)境中,是目前基于矩陣分解方法中的最優(yōu)模型。 1.模型簡(jiǎn)介模型結(jié)構(gòu) 2.模型結(jié)構(gòu) 2.模型結(jié)構(gòu)流行度加權(quán)許多Web 2.0系統(tǒng)的在其推薦界面傾向于展示其網(wǎng)站的熱門(mén)項(xiàng)目。在所有其他因素相同的情況下,一般來(lái)說(shuō),用戶(hù)更容易了解其熱門(mén)項(xiàng)目,因此我
14、們可以合理地認(rèn)為用戶(hù)對(duì)熱門(mén)項(xiàng)目的錯(cuò)過(guò)更可能代表用戶(hù)對(duì)于該物品沒(méi)有興趣。為了解釋這種現(xiàn)象,我們根據(jù)物品的受歡迎程度對(duì)ci進(jìn)行參數(shù)化計(jì)算: 2.模型結(jié)構(gòu)更新過(guò)程 2.模型結(jié)構(gòu)在線更新當(dāng)離線訓(xùn)練好的模型部署到實(shí)際環(huán)境中,會(huì)不斷的出現(xiàn)新的用戶(hù)、物品以及交互。eALS提出了一種增量更新的策略,即在原有模型的基礎(chǔ)上,對(duì)于新的信息進(jìn)行單獨(dú)的更新 2.模型結(jié)構(gòu)數(shù)據(jù)集我們?cè)赮elp和Amazon數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。Yelp是美國(guó)最大點(diǎn)評(píng)網(wǎng)站。我們使用其在2015年舉辦的Yelp Challenge比賽中公開(kāi)的數(shù)據(jù)集(/dataset challenge)。Amazon則是美國(guó)最大的在線購(gòu)物網(wǎng)站,我們使用的是其電
15、影觀看記錄數(shù)據(jù)集(/data/web-Amazon-links.html)。對(duì)于其中的評(píng)分項(xiàng),我們將其分?jǐn)?shù)全部置1,代表用戶(hù)與該物品發(fā)生過(guò)交互。其數(shù)據(jù)集統(tǒng)計(jì)信息如下:DatesetReviewItemUserSparsityYelp731,67125,81525,67799.89%Amazon5,020,70575,389117,17699.94% 3.模型運(yùn)行更新模型的緩存矩陣更新代碼(/hexiangnan/sigir16-eals)更新用戶(hù)和物品矩陣 3.模型運(yùn)行結(jié)果分析:作者在Amazon和Yelp數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。從上圖可以發(fā)現(xiàn),隨著模型迭代次數(shù)的增加,模型的效果野越來(lái)越好,其中eALS模型的效果在二份數(shù)據(jù)集上一直優(yōu)于其他模型。 3.模型運(yùn)行從上圖可以發(fā)現(xiàn),隨著潛在特征向量維度的增加,模型的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 線上課程設(shè)計(jì) 動(dòng)畫(huà)
- 藥學(xué)課程設(shè)計(jì)指南
- 機(jī)設(shè)課程設(shè)計(jì)的模板
- 網(wǎng)絡(luò)服務(wù)器配置課程設(shè)計(jì)
- 捅馬蜂窩課程設(shè)計(jì)
- 智能可穿戴手表課程設(shè)計(jì)
- 2024年職業(yè)生涯規(guī)劃教案篇
- 藥品檢驗(yàn)類(lèi)課程設(shè)計(jì)論文
- 2024年移動(dòng)智慧家庭工程師(高級(jí))資格認(rèn)證考試題庫(kù)-上(選擇題)
- 物流運(yùn)輸行業(yè)營(yíng)銷(xiāo)工作總結(jié)
- 2024年度陶瓷產(chǎn)品代理銷(xiāo)售與品牌戰(zhàn)略合作協(xié)議3篇
- 中國(guó)農(nóng)業(yè)銀行信用借款合同
- ISO 56001-2024《創(chuàng)新管理體系-要求》專(zhuān)業(yè)解讀與應(yīng)用實(shí)踐指導(dǎo)材料之9:“5領(lǐng)導(dǎo)作用-5.3創(chuàng)新戰(zhàn)略”(雷澤佳編制-2025B0)
- 2024版旅游景區(qū)旅游巴士租賃合同3篇
- LINUX網(wǎng)絡(luò)操作系統(tǒng)知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋湖北交通職業(yè)技術(shù)學(xué)院
- 河北省邯鄲市2023-2024學(xué)年高一上學(xué)期期末質(zhì)量檢測(cè)地理試題 附答案
- 醫(yī)療機(jī)構(gòu)競(jìng)業(yè)限制協(xié)議
- 2024年度物業(yè)管理公司員工獎(jiǎng)懲制度3篇
- 2024年7月國(guó)家開(kāi)放大學(xué)法學(xué)本科《知識(shí)產(chǎn)權(quán)法》期末考試試題及答案
- 2024年河南省公務(wù)員錄用考試《行測(cè)》試題及答案解析
- (2024年)剪映入門(mén)教程課件
評(píng)論
0/150
提交評(píng)論