推薦系統(tǒng)之協(xié)同過濾算法_第1頁(yè)
推薦系統(tǒng)之協(xié)同過濾算法_第2頁(yè)
推薦系統(tǒng)之協(xié)同過濾算法_第3頁(yè)
推薦系統(tǒng)之協(xié)同過濾算法_第4頁(yè)
推薦系統(tǒng)之協(xié)同過濾算法_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、推薦系統(tǒng)之協(xié)同過濾算法演講人:張博第1頁(yè)目錄CONTENT一、什么是協(xié)同過濾二、協(xié)同過濾實(shí)現(xiàn)步驟三、協(xié)同過濾特點(diǎn)第2頁(yè)1、什么是協(xié)同過濾? 協(xié)同過濾推薦作為個(gè)性化推薦中至關(guān)主要一個(gè)技術(shù),得到了廣泛應(yīng)用。協(xié)同過濾分為兩種:基于用戶協(xié)同過濾(User CF)和基于商品協(xié)同過濾(Item CF)。基于用戶協(xié)同過濾,首先找到用戶鄰居,也就是尋找用戶所在小區(qū),把小區(qū)組員所關(guān)注喜歡,而用戶不曾關(guān)注過商品推薦給他?;谏唐穮f(xié)同過濾,依據(jù)評(píng)分?jǐn)?shù)據(jù)找到該物品相同物品,當(dāng)用戶關(guān)注某個(gè)物品后能夠直接把該物品相同物品推薦給用戶,基于商品協(xié)同過濾能夠動(dòng)態(tài)實(shí)時(shí)為用戶推薦,或者在一段時(shí)間內(nèi),計(jì)算出用戶所關(guān)注物品和相同物品,

2、把權(quán)值較高而用戶未曾關(guān)注物品推薦給用戶。 第3頁(yè)2、協(xié)同過濾實(shí)現(xiàn)步驟搜集用戶偏好找到相同用戶或物品進(jìn)行推薦第4頁(yè)2.1 搜集用戶偏好 要從用戶行為和偏好中發(fā)覺規(guī)律,并基于此給予推薦,怎樣搜集用戶偏好信息成為系統(tǒng)推薦效果最基礎(chǔ)決定原因。用戶有很多方式向系統(tǒng)提供自己偏好信息,下面舉例進(jìn)行介紹:第5頁(yè)2.1 搜集用戶偏好用戶行為類型特征作用評(píng)分顯式整數(shù)量化偏好,可能取值是 0, n;n 普通取值為 5 或者是 10經(jīng)過用戶對(duì)物品評(píng)分,能夠準(zhǔn)確得到用戶偏好投票顯式布爾量化偏好,取值是 0 或 1經(jīng)過用戶對(duì)物品投票,能夠較準(zhǔn)確得到用戶偏好轉(zhuǎn)發(fā)顯式布爾量化偏好,取值是 0 或 1經(jīng)過用戶對(duì)物品投票,能夠準(zhǔn)

3、確得到用戶偏好。保留書簽顯示布爾量化偏好,取值是 0 或 1經(jīng)過用戶對(duì)物品投票,能夠準(zhǔn)確得到用戶偏好。標(biāo)識(shí)標(biāo)簽 顯示一些單詞,需要對(duì)單詞進(jìn)行分析,得到偏好經(jīng)過分析用戶標(biāo)簽,能夠得到用戶對(duì)項(xiàng)目標(biāo)了解,同時(shí)能夠分析出用戶情感:喜歡還是討厭評(píng)論顯示一段文字,需要進(jìn)行文本分析,得到偏好經(jīng)過分析用戶評(píng)論,能夠得到用戶情感:喜歡還是討厭點(diǎn)擊流 隱式一組用戶點(diǎn)擊,用戶對(duì)物品感興趣,需要進(jìn)行分析,得到偏好用戶點(diǎn)擊一定程度上反應(yīng)了用戶注意力,所以它也能夠從一定程度上反應(yīng)用戶喜好。頁(yè)面停留時(shí)間隱式一組時(shí)間信息,噪音大,需要進(jìn)行去噪,分析,得到偏好用戶頁(yè)面停留時(shí)間一定程度上反應(yīng)了用戶注意力和喜好,但噪音偏大,不好利

4、用。購(gòu)置隱式布爾量化偏好,取值是 0 或 1用戶購(gòu)置是很明確說明這個(gè)項(xiàng)目它感興趣。第6頁(yè)2.1 搜集用戶偏好 不一樣行為普通能夠分為“查看”和“購(gòu)置”等,然后基于不一樣行為,計(jì)算相同度。類似于當(dāng)當(dāng)網(wǎng)、淘寶給出“購(gòu)置了該圖書人還購(gòu)置了 .”,“查看了圖書人還查看了 .”依據(jù)不一樣行為反應(yīng)用戶喜好程度將它們進(jìn)行加權(quán),得到用戶對(duì)于物品總體喜好。第7頁(yè)2.2 尋找相同用戶 (User CF)我們模擬了5個(gè)用戶對(duì)兩件商品評(píng)分,來說明怎樣經(jīng)過用戶對(duì)不一樣商品態(tài)度和偏好尋找相同用戶。在示例中,5個(gè)用戶分別對(duì)兩件商品進(jìn)行了評(píng)分。這里分值可能表示真實(shí)購(gòu)置,也能夠是用戶對(duì)商品不一樣行為量化指標(biāo)。比如,瀏覽商品次數(shù)

5、,向朋友推薦商品,收藏,分享,或評(píng)論等等。這些行為都能夠表示用戶對(duì)商品態(tài)度和偏好程度。第8頁(yè)2.2 尋找相同用戶第9頁(yè)相同度計(jì)算方法一:歐幾里德距離公式 方法二:皮爾遜系數(shù)2.2 尋找相同用戶第10頁(yè)歐幾里德距離能夠發(fā)覺,用戶A&C用戶A&D和用戶C&D距離較近。同時(shí)用戶B&E距離也較為靠近。與我們前面在散點(diǎn)圖中看到情況一致。2.2 尋找相同用戶 (User CF)第11頁(yè)皮爾遜相關(guān)度評(píng)價(jià)我們選擇使用皮爾遜相關(guān)度評(píng)價(jià)來計(jì)算多用戶與多商品關(guān)系計(jì)算。下面是5個(gè)用戶對(duì)5件商品評(píng)分表。我們經(jīng)過這些評(píng)分計(jì)算出商品間相關(guān)度。2.2 尋找相同用戶第12頁(yè)經(jīng)過計(jì)算5個(gè)用戶對(duì)5件商品評(píng)分我們?nèi)〉昧擞脩糸g相同度數(shù)

6、據(jù)。這里能夠看到用戶A&B,C&D,C&E和D&E之間相同度較高。下一步,我們能夠依攝影同度對(duì)用戶進(jìn)行商品推薦。2.2 尋找相同用戶第13頁(yè) 當(dāng)我們需要對(duì)用戶C推薦商品時(shí),首先我們檢驗(yàn)之前相同度列表,發(fā)覺用戶C、D、E相同度較高。換句話說這三個(gè)用戶是一個(gè)群體,擁有相同偏好。所以,我們能夠?qū)τ脩鬋推薦D和E商品。但我們不能直接推薦前面商品1-商品5商品。因?yàn)檫@些商品用戶C以及瀏覽或者購(gòu)置過了。不能重復(fù)推薦。所以我們要推薦用戶C還沒有瀏覽或購(gòu)置過商品。2.3 為相同用戶推薦物品用戶商品6商品7商品8商品9商品10用戶D用戶E用戶C推薦第14頁(yè)2.3 為相同用戶推薦物品用戶商品6商品7商品8商品9商

7、品10用戶D用戶E用戶C推薦 提取了用戶D和用戶E評(píng)價(jià)過另外5件商品A商品F商品。并對(duì)不一樣商品評(píng)分進(jìn)行相同度加權(quán)。按加權(quán)后結(jié)果對(duì)5件商品進(jìn)行排序,然后推薦給用戶C。這么,用戶C就取得了與他偏好相同用戶D和E評(píng)價(jià)商品。第15頁(yè)2.4 尋找相同商品(Item CF)表格中是兩個(gè)用戶對(duì)5件商品評(píng)分,經(jīng)過兩個(gè)用戶評(píng)分來取得5件商品之間相同度情況。第16頁(yè)2.4 尋找相同商品在散點(diǎn)圖中,我們能夠發(fā)覺,商品1,3,4在用戶A和B中有著近似評(píng)分,說明這三件商品相關(guān)度較高。而商品5和2則在另一個(gè)群體中。第17頁(yè)2.4 尋找相同商品經(jīng)過歐幾里德系數(shù)能夠發(fā)覺,商品間距離和關(guān)系與前面散點(diǎn)圖中表現(xiàn)一致,商品1, 3

8、 , 4距離較近,商品2,5距離較近。第18頁(yè)2.4 進(jìn)行推薦跟上述基于用戶協(xié)同過濾算法類似,但它從物品本身,而不是用戶角度。比如喜歡物品1用戶都喜歡物品3,那么能夠知道物品1與物品3相關(guān)度很高,而用戶D喜歡物品1,那么能夠推斷出用戶D也可能喜歡物品3。以下列圖用戶商品1商品2商品3商品4商品5用戶A用戶B用戶C用戶D推薦第19頁(yè)P(yáng)ART THREE三、算法特點(diǎn)第20頁(yè)1、使用場(chǎng)景 對(duì)于電商網(wǎng)站,用戶數(shù)量往往超出物品數(shù)量,同時(shí)物品數(shù)據(jù)相對(duì)穩(wěn)定,所以計(jì)算物品相同度不但計(jì)算量小,同時(shí)無須頻繁更新。不過這種情況只適合用于電子商務(wù)類型網(wǎng)站,像新聞?lì)?,博客等這類網(wǎng)站系統(tǒng)推薦,情況往往是相反,物品數(shù)量是海

9、量,而且頻繁更新。所以從算法復(fù)雜度角度來說,兩種算法各有優(yōu)勢(shì)。第21頁(yè)計(jì)算復(fù)雜度 Item CF 和 User CF 是基于協(xié)同過濾推薦兩個(gè)最基本算法,User CF 是很早以前就提出來了,Item CF 是從 Amazon 論文和專利發(fā)表之后( 年左右)開始流行,大家都以為 Item CF 從性能和復(fù)雜度上比 User CF 更優(yōu),其中一個(gè)主要原因就是對(duì)于一個(gè)在線網(wǎng)站,用戶數(shù)量往往大大超出物品數(shù)量,同時(shí)物品數(shù)據(jù)相對(duì)穩(wěn)定,所以計(jì)算物品相同度不但計(jì)算量較小,同時(shí)也無須頻繁更新。但我們往往忽略了這種情況只適應(yīng)于提供商品電子商務(wù)網(wǎng)站,對(duì)于新聞,博客或者微內(nèi)容推薦系統(tǒng),情況往往是相反,物品數(shù)量是海量,

10、同時(shí)也是更新頻繁,所以單從復(fù)雜度角度,這兩個(gè)算法在不一樣系統(tǒng)中各有優(yōu)勢(shì),推薦引擎設(shè)計(jì)者需要依據(jù)自己應(yīng)用特點(diǎn)選擇愈加適當(dāng)算法。第22頁(yè)2、優(yōu)缺點(diǎn)對(duì)比 UserCFItemCF性能適適用于用戶較少場(chǎng)所,假如用戶很多,計(jì)算用戶相同度矩陣代價(jià)很大。適適用于物品數(shù)顯著小于用戶數(shù)場(chǎng)所,假如物品很多(網(wǎng)頁(yè)),計(jì)算物品相同度矩陣代價(jià)很大。領(lǐng)域時(shí)效性較強(qiáng),用戶個(gè)性化興趣不太顯著領(lǐng)域。長(zhǎng)尾物品豐富,用戶個(gè)性化需求強(qiáng)烈領(lǐng)域?qū)崟r(shí)性用戶有新行為,不一定造成推薦結(jié)果馬上改變。用戶有新行為,一定會(huì)造成推薦結(jié)果實(shí)時(shí)改變。冷開啟在新用戶對(duì)極少物品產(chǎn)生行為后,不能馬上對(duì)他進(jìn)行個(gè)性化推薦,因?yàn)橛脩粝嗤缺硎敲扛粢欢螘r(shí)間離線計(jì)算。新物品上線后一段時(shí)間,一旦有用戶對(duì)物品產(chǎn)生行為,就能夠?qū)⑿?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論