推薦系統(tǒng)最基礎(chǔ)的簡介_第1頁
推薦系統(tǒng)最基礎(chǔ)的簡介_第2頁
推薦系統(tǒng)最基礎(chǔ)的簡介_第3頁
推薦系統(tǒng)最基礎(chǔ)的簡介_第4頁
推薦系統(tǒng)最基礎(chǔ)的簡介_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主要內(nèi)容什么是推薦系統(tǒng)(背景等)?推薦系統(tǒng)目前主要有哪些方法?推薦系統(tǒng)在進行推薦的時候每一步是怎么進行的?推薦系統(tǒng)的評價指標有哪些?推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第1頁!推薦系統(tǒng)概要

互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展→信息爆炸→信息超載(信息利用率降低)什么是推薦系統(tǒng)?

通過建立用戶與信息產(chǎn)品之間二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個用戶潛在感興趣的對象,進而進行個性化推薦,其本質(zhì)就是信息過濾。一個完整的推薦系統(tǒng)由3個部分組成:收集用戶信息的行為記錄模塊,分析用戶喜好的模型分析模塊和推薦算法模塊。推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第2頁!根據(jù)推薦算法的不同,推薦系統(tǒng)可以分為以下幾類:

·協(xié)同過濾(collaborativefiltering)系統(tǒng);

·基于內(nèi)容(content-based)的推薦系統(tǒng);

·基于網(wǎng)絡(luò)結(jié)構(gòu)(network-based)的推薦系統(tǒng);

·混合(hybrid)推薦系統(tǒng);推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第3頁!基于記憶的算法計算用戶評分:

設(shè)C=為用戶集合,S=為所有的產(chǎn)品集合。

設(shè)為用戶c對產(chǎn)品s的打分(在協(xié)同過濾算法中,用戶c對產(chǎn)品s的打分通過其他用戶對s的打分計算而得到。)

設(shè)為與用戶c相似度比高的用戶集種:直接計算鄰居打分的平均值

第二種:加權(quán)平均

(用戶之間越相似,則用于預(yù)測的權(quán)重越大)

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第4頁!基于記憶的算法·用戶之間相似度的計算:·用戶x與y之間的Pearson相關(guān)性:

用戶x和y共同打過分的產(chǎn)品集合為:·夾角余弦(用戶x與y都用m維向量表示)

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第5頁!基于內(nèi)容的推薦系統(tǒng)核心思想:

分別對用戶和產(chǎn)品建立配置文件,通過分析已經(jīng)購買(或瀏覽)過的內(nèi)容,建立或更新用戶的配置文件。系統(tǒng)可以比較用戶與產(chǎn)品配置文件的相似度,并直接向用戶推薦與其配置文件最相似的產(chǎn)品?;趦?nèi)容的推薦算法的根本在于信息獲取和信息過濾。(用戶的配置文件構(gòu)建與更新是最為核心的部分之一)推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第6頁!設(shè)Content(s)為產(chǎn)品s的配置文件,UserProfile(c)為用戶c的配置文件,UserProfile(c)可以用向量表示,其中每個分量表示關(guān)鍵詞對用戶c的重要性在基于內(nèi)容的系統(tǒng)中,被定義為:

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第7頁!基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦系統(tǒng)核心思想:

不考慮用戶和產(chǎn)品的內(nèi)容特性,而僅僅把他們看作抽象的節(jié)點,所有算法利用的信息都隱藏在用戶和產(chǎn)品的選擇關(guān)系之中??紤]一個由m個用戶和n個產(chǎn)品構(gòu)成的推薦系統(tǒng),其中如果用戶i選擇過產(chǎn)品j,就在i和j之間連接一條邊、.由此,這個系統(tǒng)可以用一個具有m+n個節(jié)點的二部分圖表示.推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第8頁!最終的資源分配矢量為一個n維的0/1矢量,給定的目標用戶選擇過的產(chǎn)品上的初始資源設(shè)為1,其他設(shè)為0;W為n*n階的矩陣。

按照中對應(yīng)元素的大小進行排序,值越大說明用戶越喜歡該商品。

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第9頁!準確度評價指標預(yù)測準確度分類準確度排序準確度預(yù)測打分關(guān)聯(lián)距離標準化指標半衰期效用指標推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第10頁!預(yù)測準確度與平均絕對誤差相關(guān)的其他指標有平均平方誤差(MSE)和標準平均絕對誤差(NMAE)。其中

為系統(tǒng)中用戶-產(chǎn)品對(i,a)的個數(shù)標準平均絕對誤差定義為其中和分別為用戶打分區(qū)間的最小值和最大值推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第11頁!分類準確度相應(yīng)的,和分別為未被推薦產(chǎn)品中用戶喜歡和不喜歡的產(chǎn)品數(shù)。而為未被推薦的產(chǎn)品數(shù)。顯然,準確率定義為系統(tǒng)的推薦列表中用戶喜歡的產(chǎn)品和所有被推薦產(chǎn)品的比率:召回率定義為推薦列表中用戶喜歡的產(chǎn)品與系統(tǒng)中用戶喜歡的所有產(chǎn)品的比率:推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第12頁!排序準確度排序準確度用于度量推薦算法產(chǎn)生的列表符合用戶對產(chǎn)品排序的程度??梢杂闷骄判蚍侄攘客扑]系統(tǒng)的排序準確度,定義如下:其中N為訓(xùn)練集中用戶為選擇的產(chǎn)品個數(shù),Li預(yù)測集中待預(yù)測產(chǎn)品i在推薦列表中的位置推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第13頁!距離標準化指標距離標準化指標,簡稱為NDPM,在推薦系統(tǒng)中,NDPM的核心思想為:對比系統(tǒng)預(yù)測打分排名與用戶實際排名的偏好關(guān)系,對基于偏好關(guān)系的度量進行標準化,具體定義如下:其中為系統(tǒng)排序與用戶排序相沖突的個數(shù)推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第14頁!準確度之外的評價指標1.推薦列表的流行性和多樣性一個產(chǎn)品的流行性可以用它的平均度來度量,產(chǎn)品度越大,說明越流行。推薦列表的多樣性可以用平均海明距離來度量,用戶i和j推薦列表的海明距離被定義如下:其中L為推薦列表的長度,為系統(tǒng)推薦給用戶i和j的兩個推薦列表中相同產(chǎn)品的個數(shù)推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第15頁!協(xié)同過濾系統(tǒng)·核心思想:

1.利用用戶的歷史信息計算用戶之間的相似性;2.利用與目標用戶相似性較高的鄰居對其他產(chǎn)品的評價來預(yù)測目標用戶對特定產(chǎn)品的喜好程度。系統(tǒng)根據(jù)這一喜好程度來對目標用戶進行推薦·分類:·基于記憶(memory-based)的算法·基于模型(model-based)的算法

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第16頁!基于記憶的算法

第三種:考慮用戶評判的尺度不同

k=1/,sim(i,j)表示用戶之間的相似度。

用戶c的平均打分定義為

表示該用戶打過的所有分的平均值。

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第17頁!優(yōu)缺點·優(yōu)點1.具有推薦新信息的能力,可以發(fā)現(xiàn)用戶潛在但自己尚未察覺的興趣愛好。2.能夠推薦藝術(shù)品、音樂、電影等難以進行內(nèi)容分析的產(chǎn)品?!栴}1.冷啟動問題(新產(chǎn)品、新用戶)2.打分稀疏性問題3.算法可擴展性

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第18頁!基于內(nèi)容的算法信息獲?。═F-IDF):

與這個關(guān)鍵詞在文件中出現(xiàn)數(shù)的逆定義為

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第19頁!優(yōu)缺點優(yōu)點:1.可以處理冷啟動問題;2.不受打分稀疏性問題的約束;3.能推薦新出現(xiàn)的產(chǎn)品和非流行的產(chǎn)品;·問題:1.受到信息獲取技術(shù)的約束;2.難以從根本上解決冷啟動問題。

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第20頁!基于二部分圖資源分配的推薦算法對于任意目標用戶i,推薦算法的目的是把所有i沒有選擇過的產(chǎn)品按照i喜歡的程度進行排序,并且把排名靠前的那些產(chǎn)品推薦給i。對于有m個用戶和n個產(chǎn)品的一般的推薦系統(tǒng),如果用表示產(chǎn)品j愿意分配給i的資源配額,可得到其一般表達式:

其中kj表示產(chǎn)品j的度(被多少用戶選擇過),kl表示用戶l的度(該用戶選擇過多少商品)

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第21頁!推薦系統(tǒng)的評價指標準確度(被絕大多數(shù)推薦系統(tǒng)采用)推薦列表的流行性和多樣性覆蓋率新鮮性和意外性用戶的滿意度推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第22頁!預(yù)測準確度預(yù)測準確度的一個經(jīng)典度量方法就是度量系統(tǒng)的預(yù)測打分和用戶的實際打分的平均絕對誤差MAE其中c為系統(tǒng)中用戶i打分產(chǎn)品的個數(shù),為用戶實際打分,為系統(tǒng)的預(yù)測打分推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第23頁!分類準確度分類準確度定義為推薦算法對一個產(chǎn)品用戶是否喜歡判定正確的比例廣泛使用的分類準確度指標:準確率,召回率以及相關(guān)的指標其中,和分別為被推薦產(chǎn)品中用戶喜歡和不喜歡的產(chǎn)品數(shù)推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第24頁!分類準確度另一個度量系統(tǒng)分類準確度的重要指標就是ROC曲線1)確定用戶對每個產(chǎn)品感興趣與否。2)根據(jù)預(yù)測結(jié)果為用戶提供一個推薦列表,從圖的原點開始,如果預(yù)測的產(chǎn)品符合用戶喜好,畫一個豎線;如果預(yù)測的產(chǎn)品不符合實際,畫一個橫線;如果預(yù)測產(chǎn)品還沒有被打分,那么拋棄這個產(chǎn)品,并不影響曲線。一個最好的預(yù)測系統(tǒng)產(chǎn)生一個豎的ROC線,隨機預(yù)測產(chǎn)生從原點到右上角的直線。

推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第25頁!預(yù)測打分關(guān)聯(lián)預(yù)測打分關(guān)聯(lián)不考慮預(yù)測打分與用戶打分各單項的偏差,而是考慮兩者之間整體的相關(guān)程度,推薦系統(tǒng)中,3個常用的相關(guān)性描述有Pearson關(guān)聯(lián),Speaman關(guān)聯(lián)和Kendall’sTau。Tau越大表示系統(tǒng)預(yù)測結(jié)果越好C為系統(tǒng)預(yù)測正確的喜好偏序數(shù),D為預(yù)測錯誤的喜好偏序數(shù),TR為用戶打分相同的產(chǎn)品數(shù),TP為具有相同預(yù)測值的產(chǎn)品數(shù)推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第26頁!半衰期效用指標在網(wǎng)絡(luò)中用戶愿意瀏覽推薦列表的函數(shù)呈指數(shù)衰減。用戶i的期望用定義如下:其中為用戶i對推薦列表中排名第j的產(chǎn)品打分,d為默認打分,h為半衰期推薦系統(tǒng)最基礎(chǔ)的簡介共28頁,您現(xiàn)在瀏覽的是第27頁!2.覆蓋率

覆蓋率定義為可以預(yù)測打分的產(chǎn)品占所有產(chǎn)品的比例。3.新鮮性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論