大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用——協(xié)同過濾_第1頁
大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用——協(xié)同過濾_第2頁
大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用——協(xié)同過濾_第3頁
大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用——協(xié)同過濾_第4頁
大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用——協(xié)同過濾_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用協(xié)同過濾2 本文來自:大數(shù)據(jù)技術(shù)原理與應(yīng)用概念、存儲、處理、分析與應(yīng)用 作 者:林子雨 出版社:人民郵電出版社 版權(quán)說明 若作者對本資料使用持有異議,請及時聯(lián)系本網(wǎng)站,我們將在第一時間妥善處理。23協(xié)同過濾 推薦技術(shù)從被提出到現(xiàn)在已有十余年,在多年的發(fā)展歷程中誕生了很多新的推薦算法。協(xié)同過濾作為最早、最知名的推薦算法,不僅在學(xué)術(shù)界得到了深入研究,而且至今在業(yè)界仍有廣泛的應(yīng)用 協(xié)同過濾可分為基于用戶的協(xié)同過濾和基于物品的協(xié)同過濾41. 基于用戶的協(xié)同過濾(UserCF) 算法思想 基于用戶的協(xié)同過濾算法(簡稱UserCF算法)在1992年被提出,是推薦系統(tǒng)中最古老的算法

2、UserCF算法符合人們對于“趣味相投”的認(rèn)知,即興趣相似的用戶往往有相同的物品喜好:當(dāng)目標(biāo)用戶需要個性化推薦時,可以先找到和目標(biāo)用戶有相似興趣的用戶群體,然后將這個用戶群體喜歡的、而目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶 基于用戶的協(xié)同過濾算法51. 基于用戶的協(xié)同過濾(UserCF) 算法思想 UserCF算法的實現(xiàn)主要包括兩個步驟: 第一步:找到和目標(biāo)用戶興趣相似的用戶集合 第二步:找到該集合中的用戶所喜歡的、且目標(biāo)用戶沒有聽說過的物品推薦給目標(biāo)用戶基于用戶的協(xié)同過濾(User CF)61. 基于用戶的協(xié)同過濾(UserCF) 計算用戶相似度 實現(xiàn)UserCF算法的關(guān)鍵步驟是計算用戶與用

3、戶之間的興趣相似度。目前較多使用的相似度算法有: 泊松相關(guān)系數(shù)(Person Correlation Coefficient) 余弦相似度(Cosine-based Similarity) 調(diào)整余弦相似度(Adjusted Cosine Similarity) 給定用戶u和用戶v,令N(u)表示用戶u感興趣的物品集合,令N(v)為用戶v感興趣的物品集合,則使用余弦相似度進(jìn)行計算用戶相似度的公式為:71. 基于用戶的協(xié)同過濾(UserCF) 計算用戶相似度 由于很多用戶相互之間并沒有對同樣的物品產(chǎn)生過行為,因此其相似度公式的分子為0,相似度也為0 我們可以利用物品到用戶的倒排表(每個物品所對應(yīng)的

4、、對該物品感興趣的用戶列表),僅對有對相同物品產(chǎn)生交互行為的用戶進(jìn)行計算81. 基于用戶的協(xié)同過濾(UserCF) 計算用戶相似度物品到用戶倒排表及用戶相似度矩陣用戶物品Wac和Wca都加1Wuv用戶相似度 Wuv91. 基于用戶的協(xié)同過濾(UserCF) 計算用戶相似度 得到用戶間的相似度后,再使用如下公式來度量用戶u對物品i的興趣程度Pui:其中,S(u, K)是和用戶u興趣最接近的K個用戶的集合,N(i)是喜歡物品i的用戶集合,Wuv是用戶u和用戶v的相似度,rvi是隱反饋信息,代表用戶v對物品i的感興趣程度,為簡化計算可令rvi=1對所有物品計算Pui后,可以對Pui進(jìn)行降序處理,取前

5、N個物品作為推薦結(jié)果展示給用戶u(稱為Top-N推薦)102. 基于物品的協(xié)同過濾(ItemCF) 算法思想 基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法。無論是亞馬遜還是Netflix,其推薦系統(tǒng)的基礎(chǔ)都是ItemCF算法 ItemCF算法是給目標(biāo)用戶推薦那些和他們之前喜歡的物品相似的物品。ItemCF算法主要通過分析用戶的行為記錄來計算物品之間的相似度 該算法基于的假設(shè)是:物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大多也喜歡物品B。例如,該算法會因為你購買過數(shù)據(jù)挖掘?qū)д摱o你推薦機(jī)器學(xué)習(xí)實戰(zhàn),因為買過數(shù)據(jù)挖掘?qū)д摰挠脩舳鄶?shù)也購買了機(jī)器學(xué)習(xí)實戰(zhàn)112. 基

6、于物品的協(xié)同過濾(ItemCF) 算法思想 ItemCF算法與UserCF算法類似,計算也分為兩步: 第一步:計算物品之間的相似度; 第二步:根據(jù)物品的相似度和用戶的歷史行為,給用戶生成推薦列表。122. 基于物品的協(xié)同過濾(ItemCF)基于物品的協(xié)同過濾(Item CF)132. 基于物品的協(xié)同過濾(ItemCF) 計算物品相似度 ItemCF算法通過建立用戶到物品倒排表(每個用戶喜歡的物品的列表)來計算物品相似度用戶到物品倒排表及物品相似度矩陣142. 基于物品的協(xié)同過濾(ItemCF)用戶到物品倒排表及物品相似度矩陣用戶物品 計算物品相似度MaAC和MaCA都加1Rij152. 基于物

7、品的協(xié)同過濾(ItemCF) 計算物品相似度 ItemCF計算的是物品相似度,再使用如下公式來度量用戶u對物品j的興趣程度Puj(與UserCF類似):163. UserCF算法和ItemCF算法的對比 UserCF算法和ItemCF算法的思想、計算過程都相似 兩者最主要的區(qū)別: UserCF算法推薦的是那些和目標(biāo)用戶有共同興趣愛好的其他用戶所喜歡的物品 ItemCF算法推薦的是那些和目標(biāo)用戶之前喜歡的物品類似的其他物品 UserCF算法的推薦更偏向社會化,而ItemCF算法的推薦更偏向于個性化173. UserCF算法和ItemCF算法的對比 UserCF算法的推薦更偏向社會化:適合應(yīng)用于新聞推薦、微博話題推薦等應(yīng)用場景,其推薦結(jié)果在新穎性方面有一定的優(yōu)勢 UserCF缺點:隨著用戶數(shù)目的增大,用戶相似度計算復(fù)雜度越來越高。而且UserCF推薦結(jié)果相關(guān)性較弱,難以對推薦結(jié)果作出解釋,容易受大眾影響而推薦熱門物品 ItemCF算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論