




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
協(xié)同過濾推薦算法的相關理論分析綜述目錄TOC\o"1-2"\h\u2931協(xié)同過濾推薦算法的相關理論分析綜述 3277571.1協(xié)同過濾推薦 3116351.2協(xié)同過濾算法 3104171.1.1基于用戶的協(xié)同過濾 4321161.1.2基于項目的協(xié)同過濾 7264721.1.3相似度計算 8321941.3基于用戶的協(xié)同過濾與基于項目的協(xié)同過濾比較 9223421.性能對比 9269932.領域對比 9147103.實時性對比 9199131.4存在的問題 9317091.4.1數(shù)據(jù)稀疏問題 920211.4.2冷啟動問題 91.1協(xié)同過濾推薦協(xié)同過濾算法的思想大體由兩部分組成:協(xié)同和過濾。對于推薦系統(tǒng)來說,協(xié)同就認為相同特征的用戶可以通過其他用戶的行為,使得推薦給目標用戶的效果得到提高。而過濾就來自于近鄰用戶所得到的方案集合中,并利用相應的規(guī)則將使用者感興趣的東西介紹給使用者。協(xié)同過濾算法的推薦步驟如圖1.1所示:圖1.1協(xié)同過濾流程圖1.2協(xié)同過濾算法CF算法(協(xié)同過濾算法)分類如圖1.2所示,分為基于用戶,基于項目和基于模型三種推薦算法。圖1.2協(xié)同過濾算法分類1.1.1基于用戶的協(xié)同過濾 基于用戶的CF算法,是以用戶為主要考察對象,通過目標用戶搜索與目標用戶的近鄰匹配用戶組合,進而對在近鄰的匹配用戶組合進行預估喜好程度,最后將選擇并預測的前N個喜好程度大物品數(shù)推送給目標用戶其原理如圖1.3所示圖1.3基于用戶的協(xié)同過濾圖如圖1.3所示,共有5個物品A,B,C,D,E和3個用戶U1,U2,U3。目標用戶為U2,U2用戶最喜歡物品A和C,U1用戶喜歡物品A,物品B和物品C。U3用戶喜歡物品D和物品E,可以通過對用戶U1和用戶U2喜歡的物品進行分析可得,用戶U1是用戶U2最近鄰用戶。由于用戶U1喜歡物品B,所以預測用戶U2可能也對物品B感興趣,把物品B推薦給用戶U2。基于用戶的協(xié)同過濾算法的主要流程由三部分組成:建立評分矩陣,尋找目標用戶近鄰用戶集,產(chǎn)生推薦結果。其步驟如圖1.4所示:圖1.4推薦流程圖建立評分矩陣建立用戶評價矩陣主要是指通過獲取用戶數(shù)據(jù)集U和項目數(shù)據(jù)集I,把用戶數(shù)據(jù)集和項目數(shù)據(jù)集合建立為m×n階評價矩陣Rm×n。定義用戶集合U={U1,U2,U3,…,Um},項目集合集合I={I1,I2,I3,..,In},評分矩陣Rm×n:R尋找目標用戶近鄰用戶集查找用戶近鄰用戶集是協(xié)同過濾算法中的核心部分,主要是通過計算戶之間相似度得出用戶的近鄰集合。算法的相似程度的準確性,直接影響著推薦結果的優(yōu)劣。當前主要統(tǒng)計相似性的方式有::余弦相似性、Pearson相關性和Jaccard相關性。 產(chǎn)生推薦結果推薦結果經(jīng)過選取與目標用戶項目最為相近的N個目標用戶,得到目標項目集合I,再篩選掉I集中所有目標用戶已有的項目,形成最終項目集推送給目標用戶。1.1.2基于項目的協(xié)同過濾基于用戶的CF算法,當用戶過多時面臨著計算用戶相似率耗時較長的缺點,針對這樣的場景提出了基于項目的CF算法。這種方法是根據(jù)項目間的相似程度,并按照相似程度來進行選擇的。如圖1.5所示圖1.5基于項目的協(xié)同過濾圖有三個用戶A,B,C和三個物品I1,I2,I3。目標用戶B感興趣的物品為I2,對物品I2感興趣的用戶有A,B,C,對物品I1感興趣的用戶為A,C,對物品I3感覺興趣的用戶為A。根據(jù)計算物品I2與物品I3相似,把物品I3推薦給用戶B?;陧椖康膮f(xié)同過濾算法在項目數(shù)量較為穩(wěn)定時,項目之間的相似性也比較穩(wěn)定。主要流程由三部分組成:建立評分矩陣,尋找近鄰項目集,產(chǎn)生推薦結果。1.1.3相似度計算 相似度就是比較兩個事物的相似性。將事物的特征映射到一個二維或多維的空間上,通過距離公式計算距離,距離近的相似度越高,距離遠的相似度越低。此外,相似度計算直接對推薦結果產(chǎn)生影響,相似度越準確,推薦效果越精準。本文主要采用以下三種方式進行相似度的計算。1.余弦相似度余弦相似度量法是將項目的特征以矢量的方法反映二維空間,并度量兩向量間的夾角。當角度越靠近0°時,相關性就越強。當角度約為180°時,呈現(xiàn)負相關。余弦相似度只顧及到了矢量的方向,而忽略了矢量長短對相似度的影響,當兩個矢量方向相似但長短差異很大時,導致相似度計算不準確。計算公式(1.1)如下:sim(a,b)1.皮爾遜相關性數(shù)Pearson皮爾遜相關關系數(shù)是對余弦相似度計算的改進。Pearson在余弦相似度的基礎上對數(shù)據(jù)進行歸一化,即對每個數(shù)據(jù)減去整體數(shù)據(jù)的均值。得到的新數(shù)據(jù)在計算協(xié)方差和標準差的商。計算公式(1.2)如下:corra,b=irai皮爾遜相似度計算結果在-1,1之間,-1表示負相關,1表示正相關。且度量的時兩個變量的變化趨勢是非一致,因此不適合計算布爾值向量之間的相似度。3.杰卡德相似度JaccardJaccard計算相似度系數(shù)主要是通過集合的方式,適合計算布爾型數(shù)據(jù)或符號度量的數(shù)據(jù)。因此該相似度計算無法衡量數(shù)據(jù)之間具體的差異,只能得到數(shù)據(jù)的相同性,所以Jaccard系數(shù)關心的是樣本是否具有共同的特征。公式(1.3)如下:JA,B=公式中的A和B代表不同的集合,Jaccard相似度系數(shù)就是把A和B的交集除以A和B的并集。如定義A={1,2,3,4,5},B={2,4,6,7}。A集合與B集合的交集A∩B={2,4},A集合與B集合的并集為A∪B={1,2,3,4,5,6,7}。通過計算得到的相似度JA,B1.3基于用戶的協(xié)同過濾與基于項目的協(xié)同過濾比較基于用戶的協(xié)同過濾和基于項目的協(xié)同過濾算法在不同的場景下推薦的效果和推薦結果生成的數(shù)據(jù)存在很大差異。本文在推薦的性能,推薦的領域,實時性,這三個方面比較差別。1.性能對比基于用戶的方法,在計算相似度時需要對用戶項目評分矩陣中的所有用戶計算相似性當用戶數(shù)遠遠大于項目數(shù)時,計算矩陣相似度的代價大。此外用戶矩陣還存在噪聲影響,即矩陣存在大量空值,在處理空值時同樣需要花費大量的時間。在用戶數(shù)變化較少時或用戶群體的規(guī)模變動不大時,根據(jù)用戶群體的協(xié)同過濾算法通常性能較高?;陧椖康姆椒?適用于項目較少或項目數(shù)量較穩(wěn)定的場景。同樣如果項目的數(shù)量過大,計算矩陣相似度的代價大的問題。領域對比基于目標用戶的協(xié)同過濾時效性較強,適合于對用戶個性興趣比較模糊的應用領域?;陧椖康膮f(xié)同過濾,存在長尾物品豐富,適用于具有較強偏好特征的用戶。3.實時性對比用戶有新行為時基于用戶的協(xié)同過濾算法,推薦結果不一定會馬上變化,基于項目的協(xié)同過濾算法會使推薦結果馬上發(fā)生變化。1.4存在的問題1.4.1數(shù)據(jù)稀疏問題單一用戶不可能對系統(tǒng)中的所有項目都有訪問記錄同時隨著用戶和項目的數(shù)量增加,矩陣變得越來越稀疏。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)種植合同范本
- 辦事傭金合同范例
- 分店加盟簡易合同范例
- 作品維修合同范例
- 冷鏈裝卸合同范例
- 企業(yè)分紅合同范例
- 新疆兵團第五師八十八團學校高中信息技術下冊《第11課時 聲音的編輯與加工》教學實錄
- 產(chǎn)業(yè)基金合同范例
- 合同范例企業(yè)員工
- 單位聘請保潔合同范例
- 船舶制造基地可行性研究報告
- 腫瘤生物靶向治療護理課件
- 紅樓夢人物關系圖譜可A4打印版
- 第一屆全國中學生地球科學競賽初賽試題試題含答案
- 石化公司建設項目竣工文件整理歸檔規(guī)范
- A4線纜標簽數(shù)據(jù)模板
- 加油站電器火災應急預案演練記錄
- 沖壓件,汽車表面零件缺陷及原因分析
- 電熔旁通鞍型
- 2022八年級下冊道德與法治全冊知識點梳理
- 工程數(shù)學線性代數(shù)第一章同濟第五版ppt課件
評論
0/150
提交評論