版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
精品文檔-下載后可編輯上下文信息社會網(wǎng)絡(luò)論文1、相關(guān)工作
比如,即使一個用戶和其朋友的品味極其相似,她對一部電影的評價可能還受其他因素影響(比如,她在看電影時候的情緒和陪她看電影的人)。因此近期的研究開始關(guān)注社交網(wǎng)絡(luò)中的上下文信息。文獻(xiàn)[8]提出了將用戶和項目進(jìn)行群組的方法,在協(xié)同過濾算法中利用了這些子群信息(一種上下文信息)來提高用推薦系統(tǒng)的質(zhì)量。Liu等人[9]利用推薦對象的屬性上下文信息來對它們之間的關(guān)聯(lián)關(guān)系進(jìn)行度量,并通過估計出的關(guān)聯(lián)關(guān)系信息來改善推薦的效果。文獻(xiàn)[10]提出了將社會網(wǎng)絡(luò)上下文信息(個人表現(xiàn)和交際影響)整合到一個矩陣分解模型中。但是,這樣的上下文信息僅僅與社交關(guān)系有關(guān),大量的非社交的上下文信息卻被忽視了。相反,本文提出的CS算法運用機(jī)器學(xué)習(xí)技術(shù)和矩陣分解技術(shù),不僅包含了大量的上下文信息,而且對上下文信息沒有限定信息類型:上下文信息被顯式地應(yīng)用到矩陣劃分中;基于信任度的皮爾遜相關(guān)系數(shù)提高了計算用戶相似度的準(zhǔn)確性。
2、CS推薦系統(tǒng)
2.1預(yù)備知識
2.1.1相關(guān)概念傳統(tǒng)的推薦系統(tǒng)通常只考慮用戶-項目評分矩陣來進(jìn)行推薦。然而,在許多系統(tǒng)中,可以通過豐富的上下文信息來為推薦系統(tǒng)提供了新的信息維度。本文把上下文信息分為兩類:(1)靜態(tài)上下文,它描述用戶的特性,例如年齡、性別、會員身份,角色等;或者是一種商品、種類、價錢、物理特性等;(2)動態(tài)上下文,是一種與等級相關(guān)的即時信息(例如當(dāng)一個用戶評價一個產(chǎn)品時,他的心情和位置信息)。另一方面,在線社交網(wǎng)絡(luò)也帶來一些其他資源,通過分析這些資源一個用戶的喜好可以由與他有相同品味的朋友推斷出。因此,本文試圖系統(tǒng)地融合上下文信息和社交網(wǎng)絡(luò)信息來改善推薦性能。用{U1,U2,...,Um}u表示用戶集合,{V1,V2,...,Vn}v表示項目集合。所有用戶可以根據(jù)自己的喜好為項目評分。假設(shè)分值為離散變量,范圍為12{,,...}mLLLL。比如,許多推薦系統(tǒng)(如MovieLens)使用五分制進(jìn)行評分(例如[1,2,3,4,5])。用戶uU對項目vV的評分表示為u,vR,所有的評分集合,{,v}uvuvR=RUuV構(gòu)成一個用戶-項目評分矩陣(如圖1(a))。正如上面提到的,假設(shè)對用戶的每一個評分級iR都存在與其相關(guān)的上下文信息集合,用12{,,...}iCcc來表示。我們對每種類型的上下文信息的值域沒有限制,也就是說,離散值和連續(xù)值都是合法的。在社會網(wǎng)絡(luò)中將用戶信息及用戶之間的關(guān)系可以抽象表示為有向帶權(quán)值的社會網(wǎng)絡(luò)圖的形式:G(V,E,C)。其中,V表示節(jié)點集合,每個節(jié)點代表網(wǎng)絡(luò)中的用戶個體;E表示邊的集合,表示兩個個體之間存在的關(guān)系;{}uvCc表示邊的權(quán)重值,此值越大表示信任程度越大,本文將其定義為用戶間的信任度。由于信任關(guān)系不是對稱的,所以圖中的邊是有向的,網(wǎng)絡(luò)圖為有向圖。2.1.2矩陣因式分解以上的矩陣,使得將矩陣因子相乘后可以重構(gòu)或者近似原始矩陣。在推薦問題中,一個矩陣因式分解模型是將用戶-項目評分矩陣R,mnRR(m是用戶數(shù)量,n是項目數(shù)量)分解成一個用戶特征矩陣U,mlUR和一個項目特征矩陣V,lnVR。TRUV(1)其中l(wèi)是一個潛在特征向量的維度,它標(biāo)志著一個用戶或者一個項目的特征。對于一個用戶a來說,的元素(即aU)衡量了用戶對項目的興趣度;對于項目b,的元素(即bV)衡量了和相應(yīng)的潛在特征的相關(guān)程度。因此,TabUV表示用戶和項目之間的關(guān)聯(lián)度,即考慮了所有潛在特征后用戶對項目的偏好度。為了計算,考慮到用戶-項目評分矩陣的稀疏性,定義了以下的目標(biāo)函數(shù),即使預(yù)測評分與用戶實際評分的誤差最小化:T2i,j,,11argmin()mnijijjkIUVRUV(2)其中i,jI為一個指示變量,即如果用戶i對商品j進(jìn)行了打分,則為1,否則為0。另外,為了避免過度擬合,在公式中加入了規(guī)范化系數(shù),即T222i,j,,11argmin()(||||||||)mnijijFFjkIUVRUVUV(3)其中2FA(A是XY的矩陣)是Frobenius范數(shù),是通過2xyxyXYA計算得到。參數(shù)控制規(guī)范化的范圍。公式3可以通過兩種方式解得:(1)隨機(jī)梯度算法(SGD),通過迭代更新潛在用戶特征因子和潛在項目特征因子。(2)交替最小二乘算法(ALS),通過修正矩陣(或者)以優(yōu)化(或者),并且輪轉(zhuǎn)迭代。
2.2上下文感知的推薦模型
本節(jié)首先介紹一下如何結(jié)合上下文信息來提高推薦系統(tǒng)的推薦準(zhǔn)確度,在此先暫不考慮社會關(guān)系。為了有效結(jié)合不同的上下文信息,我們使用一種具有較高學(xué)習(xí)精度的隨機(jī)決策樹算法。該算法的目標(biāo)是對原始即用戶-項目評分矩陣使用隨機(jī)劃分策略將相似用戶或相似項目的評分劃分到樹的同一結(jié)點中,即將具有相似上下文的評分劃分在一個組內(nèi)。由于是在相似的上下文中產(chǎn)生,因此在相同組里的評分將會比在原始評分矩陣中的評分具有更高的相關(guān)性,有助于提高推測缺失值的準(zhǔn)確性。對每個決策樹中的每一個結(jié)點,利用公式(2)對評分矩陣進(jìn)行基本的矩陣因式分解。經(jīng)過分解之后,分別得到用戶潛在特征向量與項目潛在特征向量(如圖1(b))。用戶特征因子表明了用戶在一些潛在主題上的興趣分布,而項目特征因子代表了與這些主題相關(guān)的項目成員。為了劃分評分矩陣,我們選擇了一個潛在特征(如圖1(b)的第二列)和隨機(jī)選取了一個分割值(本例中假設(shè)選擇的分割值為0.4)。設(shè)定之后,則當(dāng)前的評分矩陣被劃分為兩部分,如圖1(c)所示。在本例中,根據(jù)中第二個潛在特征向量和隨機(jī)選定的分割值,評分矩陣被從第二行和第三行之間分割成了兩部分。由于第一個和第二個用戶的潛在特征值比較相似,因此他們給出的評分被決策樹劃分到同一個結(jié)點中。在為每個上下文信息構(gòu)建決策樹時,在樹的每一層,算法都會從上下文信息集合C中隨機(jī)選擇一個上下文信息rc來劃分評分矩陣(見圖2)。具體來說,評分矩陣是根據(jù)的值進(jìn)行劃分的。例如,如果我們假設(shè)上下文信息是一周時間,則評分矩陣可以根據(jù)每一天(即從周日到周六,工作日或者周末)來進(jìn)行有意義的劃分。另一方面,如果的值沒有任何語義信息,則我們首先要對每一個評分進(jìn)行標(biāo)準(zhǔn)化到某一特定區(qū)間(如[0,1]),然后選擇一個隨機(jī)的閾值(如∈[0,1])來劃分評分。一旦在樹中的某一層上完成了評分劃分,則隨機(jī)選取的上下文信息rc就會從上下文信息集合中被刪除:rCC/c,從而保證了一個上下文信息在一條路徑上只作一次。盡管朋友能夠提供有用的信息來幫助推薦系統(tǒng)為用戶做出高質(zhì)量的推薦,但現(xiàn)有的研究大部分都是在利用社會網(wǎng)絡(luò)中所有的可用信息進(jìn)行推薦,沒有對這些信息進(jìn)行細(xì)致的過濾;或者并沒有深入的調(diào)查怎樣精確計算用戶之間的品味相似性。為了解決這些問題,本文引進(jìn)一個新的社會規(guī)范化系數(shù)來對用戶和他朋友之間的品味差異進(jìn)行約束。在真實生活中,一個用戶可能會有成百上千個朋友,因此同等對待朋友(或者朋友所給出的推薦信息)是沒有意義的,因為其中的一些朋友可能與用戶具有非常相似的品味,而與另一些朋友可能擁有完全不同的品味。在社會網(wǎng)絡(luò)中,每一個用戶u都會有鄰居集合uN,用uvt表示節(jié)點對節(jié)點v的社會信任度,其取值范圍在[0,1]之間。值為0表示完成不信任,值為1表示完成信任。在社會網(wǎng)絡(luò)中,的值可以解釋為用戶u對用戶的了解與信任程度。但由于該權(quán)值包含一些噪音數(shù)據(jù),不能體現(xiàn)社會網(wǎng)絡(luò)中的整體結(jié)構(gòu)信息,這就類似于在網(wǎng)頁分析中的忽略了網(wǎng)頁的鏈接結(jié)構(gòu)信息。但其實在一個信任網(wǎng)絡(luò)中,如果某個用戶信任大部分的用戶,則其信任度應(yīng)當(dāng)被降低;反之,如果某個用戶被大部分用戶所信任,則其信任度應(yīng)該被增強。
3、實驗評估
3.1實驗方法
3.1.1數(shù)據(jù)集豆瓣網(wǎng)()是中國最大的社交平臺之一,許多人在這里分享對書、電影、音樂的評價。每個用戶可以對書、電影、音樂進(jìn)行評級(從一星到五星),表達(dá)他們對這些產(chǎn)品的喜好。在社交網(wǎng)絡(luò)中如果某用戶的評論被認(rèn)為是有趣且有用的,則他就可能被其他用戶所跟隨。表1列出了數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。我們選擇豆瓣的數(shù)據(jù)因為它不僅包含了相關(guān)的時間/數(shù)據(jù)和其它可推斷的上下文信息,而且還包含了社會網(wǎng)絡(luò)信息,因此非常適合用于評估應(yīng)用了多種類型信息的CS算法的性能。從豆瓣數(shù)據(jù)集中,隨機(jī)選擇80%的評價來訓(xùn)練推薦模型,使用剩下的20%比較它們的性能。3.1.2比較對象本文將CS推薦系統(tǒng)和目前主流的幾種推薦方法進(jìn)行了對比實驗:傳統(tǒng)的基于上下文感知推薦系統(tǒng)RPMF[14],基于社會網(wǎng)絡(luò)的推薦系統(tǒng)SoReg[11];應(yīng)用基本的矩陣分解模型構(gòu)建的推薦系統(tǒng)BMF[12]。與所有的上下文推薦系統(tǒng)相似,我們從數(shù)據(jù)集中可獲得的上下文化信息中選取了五種類型的上下文信息:(1)小時信息,即用戶給出評分的時刻;(2)日期信息,即用戶給出評分的日期;(3)當(dāng)一個評價被給出的時候,對目標(biāo)商品產(chǎn)生“期待”的數(shù)量;(4)當(dāng)目標(biāo)用戶評價一個特定商品時,其所給出評分的平均值;(5)目標(biāo)商品所屬的類別。3.1.3度量標(biāo)準(zhǔn)實驗選取在推薦系統(tǒng)評價中經(jīng)常使用的兩個度量標(biāo)準(zhǔn)來比較不同推薦模型的性能:平均絕對誤差(MAE)和均方根誤差(RMSE)。公式14和15分別給出兩者的定義:
3.2實驗結(jié)論
首先使用豆瓣網(wǎng)數(shù)據(jù)集來說明CS算法中不同參數(shù)值的選取對推薦性能的影響。經(jīng)過交叉驗證之后得到規(guī)則化常量=0.1。圖3給出了當(dāng)數(shù)據(jù)集的不同子集(如書數(shù)據(jù),電影數(shù)據(jù),音樂數(shù)據(jù))被應(yīng)用時,CS推薦模型的性能如何隨著參數(shù)值的變化而變化,參數(shù)決定了有多少社會網(wǎng)絡(luò)信息量被整合進(jìn)CS推薦模型中(見公式11)。實驗中設(shè)置在求解矩陣因式分解模型中潛在特征向量的維數(shù)為10,迭代求解次數(shù)為20。后續(xù)實驗會給出這些變量的變化如何影響基于矩陣因式分解的推薦模型的性能。從圖3可以看出隨著值的增大,MAE和RMSE的值首先減少,接下來當(dāng)?shù)竭_(dá)一定閾值時(大約在=0.1處)其值變得相對穩(wěn)定(只是輕微下降)。因此可能得出社交網(wǎng)絡(luò)信息可以有效改善推薦質(zhì)量的結(jié)論,并且=0.001是一個合適的閾值來很好地平衡用戶-項目評分矩陣和社交網(wǎng)絡(luò)信息。接下來,驗證上下文信息數(shù)量對推薦性能的影響。這一點可以通過控制決策樹的高度來實現(xiàn)。也就是說,如果設(shè)樹的高度為1,則只有一種類型的上下文信息在樹的劃分時被使用;如果設(shè)樹的高度為4,表示所有的上下文信息都被應(yīng)用到推薦系統(tǒng)中來。圖4給出了不同數(shù)量上下文信息的實驗結(jié)果。從圖4中可以看出在所有情況下,上下文信息越多則會產(chǎn)生越高的推薦精度,即MAE和RMSE的值越小。實驗結(jié)果表明上下文信息很大程度上改善了推薦系統(tǒng)的性能,另一方面,從實驗結(jié)果中可以看出本文所選取的上下文信息是非常有用的。最后,將CS推薦系統(tǒng)和其他推薦系統(tǒng)的性能在豆瓣網(wǎng)數(shù)據(jù)集上做對比實驗。在做對比實驗之前,需要決定兩個重要的參數(shù)的取值,即潛在特征向量的維度和基于矩陣因式分解模型的迭代次數(shù)。首先固定迭代次數(shù)為10,觀察潛在特征向量在不同維度下的MAE取值,如表1所示。發(fā)現(xiàn)隨著維度的增加MAE的值在減少,這意味著隨著維度的增加將會產(chǎn)生更高的推薦。但是當(dāng)維度增加到大約10時,推薦質(zhì)量的改進(jìn)甚小。因此在實驗中,為推薦算法的潛在特征向量維度設(shè)置為10。同理,本文為所有基于矩陣因式分解模型的迭代次數(shù)設(shè)置為20,因為更多的迭代次數(shù)并沒有降低MAE的值,反而會產(chǎn)生更高的開銷。參數(shù)一量確定,下面就分別使用書數(shù)據(jù)、電影數(shù)據(jù)、音樂數(shù)據(jù)和整個豆瓣網(wǎng)數(shù)據(jù)來比較不同推薦模型的推薦性能。表2給出了對比結(jié)果。從圖5可以看出,本文提出的CS推薦模型所有的實驗數(shù)據(jù)中都比其他推薦模型更加精確。所有基于矩陣因式分解的推薦模型都明顯優(yōu)于傳統(tǒng)的基于項目和基于用戶的協(xié)同過濾算法,這表明了矩陣因式分解技術(shù)在推薦領(lǐng)域的優(yōu)勢。實驗結(jié)果也表明綜合考慮上下文信息和社會網(wǎng)絡(luò)信息比只考慮某一種信息類型的推薦模型(如SoReg和RPMF)具有更高的推薦質(zhì)量。
4、結(jié)論
本文提出的CS算法是一個將上下文信息和社交網(wǎng)絡(luò)信息相結(jié)合推薦算法,大大提高了推薦質(zhì)量。該算法首先使用隨機(jī)決策樹算法基于不同的上下文信息對原始用戶評分矩陣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版小學(xué)四年級數(shù)學(xué)上期教案
- 2024高中地理第六章人類與地理環(huán)境的協(xié)調(diào)發(fā)展第1節(jié)人地關(guān)系思想的練習(xí)含解析新人教版必修2
- 2024高中生物第2章動物和人體生命活動的調(diào)節(jié)第3節(jié)神經(jīng)調(diào)節(jié)與體液調(diào)節(jié)的關(guān)系課堂演練含解析新人教版必修3
- 2024高中語文第二單元古代記敘散文第5課荊軻刺秦王學(xué)案新人教版必修1
- 2024高考地理一輪復(fù)習(xí)第五部分選修地理-重在遷移第43講環(huán)境保護(hù)課時作業(yè)含解析新人教版
- 2024高考地理一輪復(fù)習(xí)第一部分自然地理-重在理解第一章行星地球第3講地球的宇宙環(huán)境及地球的圈層結(jié)構(gòu)學(xué)案新人教版
- 誤解以后心健教案
- (4篇)2024年幼兒園教師年度個人總結(jié)
- 施工測量控制措施
- 2024年渤海船舶職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 2024年京東商家入駐協(xié)議模板
- 義務(wù)教育(音樂)課程標(biāo)準(zhǔn)(2022年版)解讀
- 智慧農(nóng)業(yè)行業(yè)營銷策略方案
- 市場部整體運營概況
- 數(shù)字廣告數(shù)據(jù)要素流通保障技術(shù)研究報告(2023年)
- JJF(蘇) 283-2024 暫態(tài)地電壓法局部放電檢測儀校準(zhǔn)規(guī)范
- 某27層高層住宅樓施工組織設(shè)計方案
- 2025年中考語文備考之名著導(dǎo)讀:《水滸傳》主要人物梳理
- 小學(xué)科學(xué)學(xué)情分析報告總結(jié)
- 健康中國產(chǎn)業(yè)園規(guī)劃方案
- (2024年)二年級上冊音樂
評論
0/150
提交評論