版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第12章推薦算法目錄CONTENTS12.1推薦系統(tǒng)簡介12.2基于最近鄰的協(xié)同過濾推
薦算法原理與實(shí)現(xiàn)12.3基于隱語義分析的推薦模型12.4基于標(biāo)簽的推薦算法12.5本章小結(jié)12.1推薦系統(tǒng)簡介學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認(rèn)知能力信息素養(yǎng)高搜索引擎在一定程度上緩解了信息過載帶來的問題,但在海量的信息中想要找到用戶滿意的內(nèi)容也是非常耗時(shí)的。此外,搜索引擎是根據(jù)用戶提供的關(guān)鍵詞或關(guān)鍵短語被動(dòng)地為用戶提供檢索結(jié)果,不同用戶提供的關(guān)鍵詞或關(guān)鍵短語相同,檢索結(jié)果也會(huì)相同,未體現(xiàn)出用戶的個(gè)性化需要。推薦系統(tǒng)根據(jù)用戶偏好特點(diǎn),主動(dòng)為用戶提供符合個(gè)性化需求的信息內(nèi)容,而不需要用戶提供關(guān)鍵詞或關(guān)鍵短語。有報(bào)告顯示,2019年我國數(shù)據(jù)產(chǎn)量總規(guī)模為3.9ZB,相當(dāng)于3.9萬億GB,同比增加29.3%。按容量算,這些數(shù)據(jù)可填滿1245億個(gè)32GB的iPad。人均數(shù)據(jù)產(chǎn)量為3TB,相當(dāng)于每人每天產(chǎn)生超8個(gè)GB的數(shù)據(jù),同比增加25%。12.1推薦系統(tǒng)簡介基于物品的協(xié)同過濾、基于內(nèi)容的推薦、基于矩陣分解的協(xié)同過濾、基于社交關(guān)系的推薦、基于深度學(xué)習(xí)等一些代表性的推薦算法被提出,推薦系統(tǒng)的發(fā)展歷程如圖12-1所示。12.1推薦系統(tǒng)簡介一個(gè)完整的推薦系統(tǒng)由三部分組成:用戶、推薦方法和項(xiàng)目資源,如圖12-2所示。12.1推薦系統(tǒng)簡介協(xié)同過濾是目前應(yīng)用最為廣泛、最為成功的推薦技術(shù)之一。按照實(shí)現(xiàn)策略,協(xié)同過濾推薦算法分為兩類:基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾。由于基于模型的推薦算法主要計(jì)算代價(jià)是在離線階段完成,在線計(jì)算工作量較少,可在很短的時(shí)間內(nèi)完成推薦,因此可應(yīng)用于大規(guī)模數(shù)據(jù)集上。按照推薦策略和數(shù)據(jù)來源,推薦算法可分為以下幾類:協(xié)同過濾推薦、基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于知識(shí)的推薦和基于社交網(wǎng)絡(luò)的推薦。各類推薦算法的優(yōu)勢及局限性如表12-1所示。12.1推薦系統(tǒng)簡介12.1推薦系統(tǒng)簡介12.1.4推薦系統(tǒng)的評(píng)估方法1.數(shù)據(jù)集目前,網(wǎng)絡(luò)上存在很多用于推薦系統(tǒng)研究的公開數(shù)據(jù)集,如Movielens、Epinions、Tencent、Douban、Flixster、Bookcrossing、Ciao、FilmTrust等。按照是否包含社交關(guān)系信息,這些數(shù)據(jù)可分為兩類:具有直接社交關(guān)系的數(shù)據(jù)集和不具有直接社交關(guān)系的數(shù)據(jù)集。Epinions、Tencent、Douban等包含有社交關(guān)系,Movielens不包含社交關(guān)系信息。12.1推薦系統(tǒng)簡介2.評(píng)測方法平均絕對(duì)誤差和均方根誤差是最常用的衡量推薦準(zhǔn)確率好壞的方法,通過計(jì)算預(yù)測評(píng)分與真實(shí)評(píng)分的偏離程度衡量預(yù)測結(jié)果是否準(zhǔn)確。平均絕對(duì)誤差計(jì)算公式如下:precision@N(P@N)和recall@N(R@N也是常用來評(píng)估推薦系統(tǒng)準(zhǔn)確率的評(píng)價(jià)指標(biāo)。12.1推薦系統(tǒng)簡介準(zhǔn)確率和召回率的評(píng)估方法描述如下:多樣性定義12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)基于近鄰用戶的協(xié)同過濾推薦的主要思想就是利用近鄰用戶的觀點(diǎn)進(jìn)行推薦,其可以描述為:當(dāng)需要為一個(gè)用戶A進(jìn)行個(gè)性化推薦時(shí),可先找到和用戶A有相似興趣的其他用戶,然后把那些用戶喜歡的、而用戶A沒有的物品推薦給A。12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)2.Top-N推薦Top-N推薦的數(shù)據(jù)來源一般是隱式的交互行為,這些隱式的行為也可以量化為具體的用戶對(duì)物品的偏好程度。兩個(gè)用戶對(duì)各個(gè)項(xiàng)目的評(píng)分可分別用u和v表示,他們的余弦相似性可通過夾角余弦值度量:12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)(2)獲取候選項(xiàng)目集合在確定了近鄰用戶集合后,可根據(jù)近鄰用戶集合中每個(gè)用戶喜歡的物品與目標(biāo)用戶喜歡的物品進(jìn)行對(duì)比,將目標(biāo)用戶沒有發(fā)現(xiàn)過的物品作為候選項(xiàng)目集合。(3)計(jì)算目標(biāo)用戶對(duì)項(xiàng)目的興趣度12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)3.評(píng)分預(yù)測對(duì)于顯式的用戶評(píng)分,在推薦過程中,通常先利用用戶的近鄰關(guān)系來為目標(biāo)用戶對(duì)未知項(xiàng)目進(jìn)行評(píng)分預(yù)測,再根據(jù)預(yù)測評(píng)分大小產(chǎn)生推薦列表。與Top-N推薦的主要區(qū)別體現(xiàn)在計(jì)算用戶之間的相似性方法與預(yù)測評(píng)分的方法上。12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)【例12-1】根據(jù)下面的用戶對(duì)電影的評(píng)分?jǐn)?shù)據(jù),利用基于用戶的協(xié)同過濾推薦算法為用戶“馮小寧”推薦可能喜歡的影片。評(píng)分?jǐn)?shù)據(jù)用Python字典表示如下:{'劉娜':{'馬迭爾旅館的槍聲':2.5,'長津湖':3.5,'集結(jié)號(hào)':3.0,'今年這個(gè)夏天有異性':3.5,'東京愛情攻略':2.5,'熊出沒':3.0},'吳林':{'馬迭爾旅館的槍聲':3.0,'長津湖':3.5,'集結(jié)號(hào)':1.5,'今年這個(gè)夏天有異性':5.0,'熊出沒':3.0,'東京愛情攻略':3.5},'馮小寧':{'馬迭爾旅館的槍聲':2.5,'長津湖':4.0,'今年這個(gè)夏天有異性':3.5,'熊出沒':4.0},12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)defrecomand2(self,user,n=1):item={}ave=dict()w_uv={}fornear_u,sindict(self.get_nearst_user(user,n)).items():#最相近的N個(gè)用戶
print("推薦的用戶:",(near_u,s))print(self.data[near_u],len(near_u))pre_rating=0.0form,ratingsinself.data[near_u].items():#推薦的用戶的電影列表
ifmnotinself.data[user].keys():#當(dāng)前user沒有看過
ifmnotinitem.keys():item[m]={}item[m][near_u]=ratingsave[near_u]=float(sum(self.data[near_u].values()))/len(near_u)w_uv[near_u]=self.pearson(self.data[user],self.data[near_u])12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)12.2.2基于近鄰項(xiàng)目的協(xié)同過濾推薦12.2基于最近鄰的協(xié)同過濾推薦算法原理與實(shí)現(xiàn)余弦相似性計(jì)算兩個(gè)項(xiàng)目的相似度。用戶對(duì)項(xiàng)目的感興趣程度:余弦相似度:12.3基于隱語義分析的推薦模型假設(shè)用戶-項(xiàng)目評(píng)分矩陣為R,用戶潛在因子矩陣為P,項(xiàng)目潛在特征因子矩陣為Q,則有:R為已知矩陣,P和Q是需要我們所要求解的矩陣。為了得到最優(yōu)的P和Q,采用最小二乘法,使真實(shí)值R與預(yù)測值的誤差最小即:
利用梯度下降法訓(xùn)練參數(shù):12.3基于隱語義分析的推薦模型defrecommend(pre_list,k):#pre_list為排好序的項(xiàng)目列表,k為推薦的項(xiàng)目數(shù)量
recommend_list=[]#推薦列表
len=len(pre_list)ifk>=len:recommend_list=pre_listelse:foriinrange(k):recommend_list.append(pre_list[i])returnrecommend_list12.3基于隱語義分析的推薦模型迭代次數(shù):0損失值:13.561690756251004迭代次數(shù):4000損失值:0.11730824185649366推薦[(4,4.138192050686209),(2,3.5157664788522753)]預(yù)測的評(píng)分矩陣[[4.968252033.106006483.515766482.891672354.13819205][3.043441043.323938763.063317572.060513014.88266383][3.999693451.956655413.950659952.668899063.03512292][3.93402342.970954922.287813712.121575873.65345007][4.193748553.911016582.954715912.350897885.0648346]]12.4基于標(biāo)簽的推薦算法一個(gè)最簡單的標(biāo)簽推薦系統(tǒng)就是利用用戶給物品標(biāo)注的情況,預(yù)測用戶對(duì)物品感興趣的程度:基于TF-IDF對(duì)以上用戶對(duì)物品感興趣的情況進(jìn)行改進(jìn),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版班班通設(shè)備與物聯(lián)網(wǎng)結(jié)合合同2篇
- 二零二五年綠色生態(tài)住宅小區(qū)消防工程設(shè)計(jì)與施工合同3篇
- 二零二五版股份制企業(yè)股份自愿轉(zhuǎn)讓與投資者關(guān)系維護(hù)合同3篇
- 二零二五年度監(jiān)理合同延期補(bǔ)充協(xié)議-責(zé)任劃分與風(fēng)險(xiǎn)承擔(dān)3篇
- 二零二五版中央空調(diào)清洗保養(yǎng)及能耗管理服務(wù)合同3篇
- 二零二五年度國有資產(chǎn)管理委托服務(wù)合同2篇
- 二零二五版股票質(zhì)押擔(dān)保合同范本編制與解析3篇
- 二零二五年度風(fēng)力發(fā)電項(xiàng)目融資合同2篇
- 二零二五年美發(fā)師國際交流聘用合同2篇
- 二零二五年度酒店地毯翻新與維護(hù)服務(wù)合同范本3篇
- 五年級(jí)上冊(cè)小數(shù)乘除豎式計(jì)算題200道及答案
- 2024年東南亞工業(yè)氣瓶市場深度研究及預(yù)測報(bào)告
- 棉花良種選育與遺傳育種
- 簡易勞務(wù)承包合同范本
- SH/T 3078-2024 立式圓筒形料倉工程設(shè)計(jì)規(guī)范(正式版)
- 快遞驛站承包協(xié)議書
- 基于視覺果蔬識(shí)別的稱重系統(tǒng)設(shè)計(jì)
- 體育初中學(xué)生學(xué)情分析總結(jié)報(bào)告
- 部編版語文中考必背文言文7-9年級(jí)
- 農(nóng)藥合成研發(fā)項(xiàng)目流程
- 國家職業(yè)技術(shù)技能標(biāo)準(zhǔn) 4-04-04-02 網(wǎng)絡(luò)與信息安全管理員(數(shù)據(jù)安全管理員)S 2024年版
評(píng)論
0/150
提交評(píng)論