模糊聚類的混合推薦算法研究_第1頁
模糊聚類的混合推薦算法研究_第2頁
模糊聚類的混合推薦算法研究_第3頁
模糊聚類的混合推薦算法研究_第4頁
模糊聚類的混合推薦算法研究_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分類號tp312密級udc 碩士學(xué)位論文模糊聚類的混合推薦算法研究張愷學(xué)科專業(yè)_計算機(jī)軟件與理論指導(dǎo)教師秦亮曦教授 一論文答辯日期2010年05月29日 學(xué)位授予日期 答辯委員會主席顧平教授-論文評閱人李肯立教授覃海且_教授廣西大學(xué)學(xué)位論文原創(chuàng)性聲明和學(xué)位論文使用授權(quán)說明學(xué)位論文原創(chuàng)性聲明本人聲明:所呈交的學(xué)位論文是在導(dǎo)師指導(dǎo)下完成的,研究工作所取得的成果和相 關(guān)知識產(chǎn)權(quán)屬廣西大學(xué)所有。除已注明部分外,論文中不包含其他人已經(jīng)發(fā)表過的研究 成果,也不包含本人為獲得其它學(xué)位而使用過的內(nèi)容。對本文的研究工作提供過重要幫 助的個人和集體,均已在論文中明確說明并致謝。論文作者簽名:敎彳妝嚴(yán)卜年/月&qu

2、ot;日學(xué)位論文使用授權(quán)說明本人完全了解廣西大學(xué)關(guān)于收集、保存.使用學(xué)位論文的規(guī)定,即:本人保證不以其它單位為第一署名單位發(fā)表或使用本論文的研究內(nèi)容;按照學(xué)校要求提交學(xué)位論文的印刷本和電子版本;學(xué)校有權(quán)保存學(xué)位論文的印刷本和電子版,并提供目錄檢索與閱覽服務(wù); 學(xué)校可以采用彩印、縮印、數(shù)字化或其它復(fù)制手段保存論文; 學(xué)校可以公布論文的部分或全部內(nèi)容。請選擇發(fā)布時間:區(qū)卩時發(fā)布解密后發(fā)布(保密論文需注明,并在解密后遵守此規(guī)定)模糊聚類的混合推薦算法研究在20世紀(jì)90年代提出推薦系統(tǒng)的概念之后,經(jīng)過十多年的發(fā)展,推 薦系統(tǒng)已經(jīng)被應(yīng)用到了許多大型電子商務(wù)系統(tǒng)中。在對推薦系統(tǒng)的研究中, 如何對現(xiàn)有系統(tǒng)中

3、的推薦算法進(jìn)行改進(jìn),以及提出新的推薦算法是其中的 研究熱點,其中混合策略的推薦算法是研究的主要內(nèi)容,而如何避免推薦 系統(tǒng)中過擬合問題帶來的興趣缺失和系統(tǒng)的冷啟動帶來的評價障礙更是算 法設(shè)計與研究的難點。本文完成的主要工作如下:(1) 在對現(xiàn)存的推薦算法進(jìn)行分析的基礎(chǔ)上,指出了這些算法的優(yōu)點和局限性。認(rèn)為釆用混合策略推薦策略是解決現(xiàn)存推薦系統(tǒng)中缺陷的較好途徑, 因此設(shè)計了一個基于協(xié)同過濾和項目聚類的混合策略推薦算法(hybrid recommendation algorithm based on collaborative filtering and item clustering, hrci)

4、o該算法經(jīng)過項目聚類降低用戶向量的維度,簡化用戶相似度計算。在對項目進(jìn)行評價估計時,結(jié)合了 user-based和itembased協(xié)同過濾算法結(jié)果作為推薦結(jié)果。實驗結(jié)果表明,該算法在推薦性能上有很好的改善, 但是在評分估計方面還存在進(jìn)一步改進(jìn)的空間。(2) 將隸屬度函數(shù)應(yīng)用到數(shù)據(jù)聚類中,提出了一種用戶聚類效果的度量方 法。并且在迭代思想和fcm算法(fuzzy cmeans)基礎(chǔ)上,設(shè)計了基于層 次的隸屬度矩陣迭代的imc聚類算法(iteration membership degree matrix clustering) o實驗證明,該算法便于確定最佳的用戶簇的數(shù)目,并且對簇的 邊界的劃分

5、更為恰當(dāng)。(3) 將imc聚類算法的思想融合到hrci推薦算法中,提出了一種新的模糊聚類的混合推薦算法(hybrid recommendation based on fuzzy cluster,hrfc)o并提出了一種初始隸屬度矩陣的構(gòu)造方法,以及基于模糊聚類的項目評分估計方法。實驗結(jié)果表明,hrfc算法比原有算法提高了項目評分 估計的準(zhǔn)確度,從而使得算法的推薦性能進(jìn)一步提高,并且在不同稀疏程 度的情況下算法性能穩(wěn)定,具有較高的實際應(yīng)用價值。關(guān)鍵詞:推薦系統(tǒng)相似度混合策略模糊聚類research of hybrid recommendationalgorithm based on fuzzy

6、clusteringabstractafter the concept of recommender system proposed in 1990s, with decade of development, recommender system has been applied to large electronic commerce system. among the research of recommender system, how to improve the existing recommendation algorithms and proposing new recommen

7、dation algorithms have been hotspots. however, the research of hybrid recommendation algorithms is an major part. what's more, to avoid lost interests resulting from users overspecialization of recommender system and difficulties arisen from cold-start are the most difficult task in the design a

8、nd research recommendation algorithmsthe main research work of this paper are listed as follows:(1) on the basis of analysis of existing recommendation algorithms, it indicated the advantages and defects, and suggested that it is the better way to adopt hybrid recommendation algorithms to overcome t

9、he problems existing in the recommender systems. therefore, a hybrid recommendation based on collaborative filtering and item clustering(hrci) has been designed accordingly. it reduced the dimensions of user vector and simplified the calculation of similarity between users by item clustering. in eva

10、luation estimate of items, it combined result of the user-based and item-based collaborative filtering as the recommending result. as is shown in the experimental result, this algorithm improved the performances of recommendations in a good way, but more work should be done on the evaluation estimat

11、e of items(2) it applies grade of membership function into clustering, introduces ainsuitable method on measuring the effect of the clustering based on the iteration idea and fcm algorithm, an imc clustering algorithm based on hierarchical cluster and grade of membership matrix iteration has been de

12、signed. proved by experiment, this algorithm is convenient on confirming the numbers of the best user cluster, besides, it is more appropriate on the partitioning of the boundary of the clusters (3) merging imc clustering algorithm with hrci recommendation algorithms, it introduces a new algorithm o

13、f hrfc(hybrid recommendation based on fuzzy cluster) a constructional method of initializing grade of membership matrix is also introduced, as well as the item evaluation method based on fuzzy cluster. as is shown in the experimental result, hrfc improved the precision of evaluation estimate of item

14、s, therefore, it makes the recommendation performances upgraded, and the algorithm is stable in situations of different sparse levels, and with higher values of practical use.key words: recommender system; similarity; hybrid strategy; fuzzy cluster摘要iabstractill第一章緒論11.1研究背景11.2研究現(xiàn)狀及存在的問題21.3研究內(nèi)容 31

15、.4論文結(jié)構(gòu)4第二章數(shù)據(jù)挖掘與個性化推薦算法62.1推薦問題的提出和基本概念62.2基于關(guān)聯(lián)規(guī)則的推薦算法82.3基于內(nèi)容的推薦算法92.4協(xié)同過濾算法102.4.1基于用戶的協(xié)同過濾102.4.2基于項的協(xié)同過濾112.5常見推薦算法的比較112.5.1基于內(nèi)容的推薦算法的優(yōu)劣112.5.2協(xié)同過濾算法的優(yōu)劣122.6推薦系統(tǒng)的工作流程132.7本章小結(jié)14第三章混合策略的推薦算法163.1概述163.2算法的設(shè)計思路173.2.1目前采用的方法173.2.2算法的提出173.3 hrci算法的具體實現(xiàn)183.3.1項目聚類183.3.2相似度計算213.3.3做出推薦223.3.4兩種推薦

16、的實驗比較253.4實驗比較263.5本章小結(jié)31第四章隸屬度矩陣迭代的模糊聚類算法324.1模糊聚類的基本思想324.2基礎(chǔ)知識32421關(guān)系32422模糊數(shù)學(xué)中的關(guān)系33423模糊關(guān)系33424模糊矩陣344.2.5模糊等價關(guān)系3443模糊聚類的一般過程344.3.1數(shù)據(jù)標(biāo)準(zhǔn)化344.3.2找出模糊關(guān)系344.3.3模糊聚類354.4模糊c均值(fcm)算法364.5迭代隸屬度矩陣的模糊聚類算法374.5.1判斷標(biāo)準(zhǔn)374.5.2算法流程384.6實驗與比較384.7本章小結(jié)40第五章模糊聚類的混合策略推薦算法415.1算法的改進(jìn)415.1.1隸屬度矩陣的建立415.1.2基于項的模糊聚類

17、425.1.3基于隸屬度矩陣的評分估計435.2 一種新的模糊聚類混合策略推薦算法445.3對比實驗465.3.1實驗準(zhǔn)備465.3.2實驗結(jié)果與分析475.4稀疏性處理實驗與結(jié)果分析485.4.1數(shù)據(jù)準(zhǔn)備485.4.2實驗結(jié)果與分析485.5本章小結(jié)50第六章結(jié)束語516.1全文總結(jié)516.2工作展望51參考文獻(xiàn) 53致 謝57攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄58第一章緒論1.1研究背景推薦系統(tǒng)的概念產(chǎn)生于上世紀(jì)末,是隨著信息科技和互聯(lián)網(wǎng)的迅速發(fā)展帶來的信息 過載產(chǎn)生的。搜索引擎技術(shù)的出現(xiàn)在一定程度上緩解了信息過載帶來的問題,但是還有 許多不足之處。一方面用戶需要提出信息主題,限定了潛在興

18、趣的發(fā)掘;另一方面系統(tǒng) 缺乏個性化的主動推薦。推薦系統(tǒng)是在認(rèn)知科學(xué)、近似理論、信息檢索和預(yù)測學(xué)的理論 基礎(chǔ)上產(chǎn)生的。它最初應(yīng)用于電子商務(wù)領(lǐng)域,人們所認(rèn)同的推薦系統(tǒng)是以電子商務(wù)網(wǎng)站 為依托,通過提供商品的屬性和評價,對用戶的購買行為起到積極的建議作用。推薦 系統(tǒng)的工作原理,是通過分析用戶的行為表現(xiàn)出來的個性化特征,結(jié)合特定的推薦算法, 分析系統(tǒng)本身采集到的數(shù)據(jù)庫信息,得岀推薦項返回給用戶。協(xié)同過濾算法是量早應(yīng)用于實際的推薦算法,通過計算用戶之間興趣愛好的相似 度,估計出未知評分,從而做出推薦。tapestry系統(tǒng)是最早的協(xié)同過濾算法的實現(xiàn)。 b. sarwar等提出一種基于項的協(xié)同過濾算法【叫是

19、對傳統(tǒng)協(xié)同過濾算法的一種改進(jìn)?;趦?nèi)容的推薦則是一種自動提取項目屬性并根據(jù)相似度進(jìn)行推薦的算法,主要適用于文 本屬性的項目對象。此外,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,推薦算法有了更多的選擇。通過分析行為項之間的關(guān)聯(lián)關(guān)系,可以為用戶提供更多有用的推薦。對用戶建模的研究, 可以收集到更多有用的用戶信息,建立更精確的用戶模型。合理的用戶模型還可以 發(fā)現(xiàn)更多潛在的用戶興趣【2習(xí)。目前數(shù)據(jù)存儲的最大載體是web,結(jié)合web數(shù)據(jù)挖掘, 獲取用戶的訪問記錄和關(guān)聯(lián)關(guān)系,是構(gòu)造用戶模型的重要途徑均。圖論、貝葉斯網(wǎng) 絡(luò)、分類、聚類分析和人工神經(jīng)網(wǎng)絡(luò)【9】,也從不同角度提高了推薦效率。文獻(xiàn)10提出了一種基于項目評分預(yù)

20、測的協(xié)同過濾算法,改進(jìn)了傳統(tǒng)的協(xié)同過濾算 法,是對推薦系統(tǒng)中存在的稀疏矩陣問題的一種很好的解決方案,即通過釆用計算項目 之間的相似度,并引入修正余弦度量和稀疏等級的概念,從而用固定值或者平均值來填 充目標(biāo)用戶的評分,在一定程度上彌補(bǔ)了評分矩陣的缺失。pazzani等人山則從另一個 角度來解決稀疏矩陣的問題,利用統(tǒng)計學(xué)領(lǐng)域知識,獲取了更多的用戶個人信息,作為 用戶相似度的計算標(biāo)準(zhǔn)。利用神經(jīng)網(wǎng)絡(luò)的方法來計算缺失的稀疏矩陣,在填充效果上 要更加精確一些,有一定的噪聲處理能力,但同時,時間效率上比前兩種方法要差一些。目前,推薦系統(tǒng)主要應(yīng)用于各個電子商務(wù)領(lǐng)域,為用戶提供個性化服務(wù),有利于提 高用戶的滿意

21、度和防止客戶流失。在電子商務(wù)領(lǐng)域,amazon和ebay主要釆用了協(xié)同過 濾的推薦算法;網(wǎng)頁推薦領(lǐng)域,主要有斯坦福大學(xué)的fab和采用實體知識庫的foxtrot 論文主題推薦系統(tǒng);在電影推薦領(lǐng)域,netfilx和明尼蘇達(dá)大學(xué)的movielens公開自己的 實驗數(shù)據(jù)集,已經(jīng)成為推薦系統(tǒng)領(lǐng)域常用的實驗測試數(shù)據(jù);在新聞過濾方面,有 grouplens, phoaks等。在學(xué)術(shù)研究領(lǐng)域,推薦系統(tǒng)作為一個交叉學(xué)科也受到各類相 關(guān)會議越來越多的重視,數(shù)學(xué)、統(tǒng)計學(xué)、計算機(jī)科學(xué)和管理學(xué)的國際會議上,相關(guān)論文 的發(fā)表也越來越多。acm于2007年開始舉辦第一屆推薦系統(tǒng)年會,另外在ieee和acm 在機(jī)器學(xué)習(xí)和人工

22、智能領(lǐng)域的會議,推薦系統(tǒng)的研究文章占據(jù)了一定的比重。mit、明 尼蘇達(dá)大學(xué).卡內(nèi)基梅隆大學(xué)都有專門的推薦系統(tǒng)研究小組。google等搜索引擎公 司已將個性化推薦作為研發(fā)下一代搜索引擎的主要工作。因此,個性化推薦技術(shù)具有很 廣闊的應(yīng)用前景。1.2研究現(xiàn)狀及存在的問題推薦系統(tǒng)的問題研究,主要包括以下方面:用戶建模,推薦算法的選擇,信息的反 饋。早期的用戶建模只獲取用戶少量的固定信息。隨著數(shù)據(jù)挖掘技術(shù)的完善,這樣的用 戶建模已經(jīng)不能滿足系統(tǒng)的需要,考慮到用戶的興趣廣泛和興趣轉(zhuǎn)移等問題,對于用戶 信息,一般采用交互式采集方式,采集的客戶信息如果過多,就推薦效果而言是最好的, 但是可能會降低客戶滿意度,

23、同時還存在推薦系統(tǒng)可信度的問題,用戶因為擔(dān)心系統(tǒng)的 安全性而不敢把真實的數(shù)據(jù)提供給系統(tǒng);而釆集的信息過少,在建立用戶模型的時候會 出現(xiàn)信息缺乏,導(dǎo)致建模不準(zhǔn)確??傊脩艚5膬?yōu)劣,很大程度上決定了推薦系統(tǒng) 性能和準(zhǔn)確率。對于推薦算法,常用的算法有協(xié)同過濾、基于內(nèi)容和基于網(wǎng)格的推薦算法。也可分 為基于個人歷史、基于社會活動和基于產(chǎn)品的推薦。無論哪種推薦算法,均是由用戶的 興趣出發(fā),經(jīng)過不同的算法策略,最終對用戶未來的興趣做出預(yù)測。協(xié)同過濾算法是最早提出的推薦算法。主要分為基于用戶的協(xié)同過濾、基于項的 協(xié)同過濾和基于模型的協(xié)同過濾算法。它的思想就是收集相關(guān)項(用戶)信息,然后搜 索最近鄰居,根據(jù)

24、鄰居的相關(guān)性做出推薦?;谶^去具有相同偏好的用戶(項)會具有 相似關(guān)聯(lián)的假設(shè),將已知用戶的興趣推薦給未知用戶?;趦?nèi)容的推薦算法,是傳統(tǒng)信息檢索技術(shù)的一種演化算法。通過尋找某一用戶 偏好的項,從而尋找跟這一項相關(guān)度最高的項作為推薦項。這一推薦算法主要應(yīng)用于推 薦項包含很多文本信息的應(yīng)用當(dāng)中,由于可以從文本中提取特征,并且對用戶的描述過 程中也包含了對用戶興趣和偏好的描述,因此可以在用戶建模的過程中通過收集用戶信 息,用來詳細(xì)的估計出用戶的興趣?;趦?nèi)容的推薦算法經(jīng)常用于新聞、網(wǎng)頁和文檔的 推薦。兩種常用的推薦算法都涉及到一個相似度度量的問題,無論是用戶之間的相似度, 還是項之間的相似度,對于推

25、薦系統(tǒng)都是至關(guān)重要的。對于用戶之間的相似度,可以通 過用戶個人信息或者用戶對項的評分來計算,主要計量方式都是釆用向量余弦距離及其 變式、pearson相關(guān)系數(shù)等。在基于用戶的協(xié)同過濾算法中,隨著系統(tǒng)用戶的增多,在海量用戶中搜索最近鄰居 項成為制約系統(tǒng)的瓶頸。在這方面,基于項的協(xié)同過濾則是利用項之間的相似關(guān)系,降 低了計算量,很好的提高了系統(tǒng)的可擴(kuò)展性和穩(wěn)定性。協(xié)同過濾算法的系統(tǒng)冷啟動【卿, 即對新加入用戶和項很難做出推薦,特別是在新用戶加入,釆集信息過少時尤其如此。 而新的項加入數(shù)據(jù)庫之后,則需要更長的時間才能獲得用戶評分,這種情況則需要考慮 應(yīng)用組合推薦策略。隨著系統(tǒng)數(shù)據(jù)庫規(guī)模的增長,效率會

26、急劇衰減。通過維度簡化和矩 陣分解技術(shù),可提高協(xié)同過濾算法的精確度和推薦速度劉。稀疏矩陣問題,在推薦系統(tǒng) 數(shù)據(jù)庫當(dāng)中不可避免存在大量未被用戶評分的項,這種情況應(yīng)當(dāng)超過整個評價矩陣一半 以上的空間,這是因為用戶之間興趣的差異性造成的,稀疏矩陣的解決也是推薦系統(tǒng)研 究中的熱點問題。此外,推薦的精確度和多樣性之間的平衡問題【,也是目前推薦系統(tǒng)的熱點問題。 在文獻(xiàn)20中,作者提岀使用一種對分網(wǎng)絡(luò)的數(shù)學(xué)模型對用戶興趣進(jìn)行預(yù)測,該算法基 于協(xié)同過濾的原理,通過對復(fù)雜網(wǎng)絡(luò)的研究,利用網(wǎng)絡(luò)動力學(xué)原理對用戶的共同興趣進(jìn) 行劃分【別,得到了比協(xié)同過濾算法更高的精確度。開源項目中也有許多關(guān)于推薦系統(tǒng)的資源:tast

27、e是一個基于java ee平臺的開源 的推薦引擎,定義了完整的推薦模型包和實現(xiàn)了常見的推薦算法,已經(jīng)成為一個推薦器 的集合,并加入了 apache mahout開源項目。duine是一個推薦框架,改進(jìn)了用戶模型, 反饋和解釋模塊利模塊間的交互。grouplens是明尼蘇達(dá)大學(xué)計算機(jī)科學(xué)工程學(xué)院的研 究小組,該小組采集了多種應(yīng)用領(lǐng)域的不同規(guī)模的數(shù)據(jù),是目前推薦實驗的常用數(shù)據(jù)集。13研究內(nèi)容推薦系統(tǒng)是一門新型課題。經(jīng)過十多年的研究,雖然取得了一些進(jìn)展,但仍然存在 很多有待解決的問題。本文首先在總結(jié)傳統(tǒng)推薦算法和前人研究成果的基礎(chǔ)上,設(shè)計出 一種基于項目聚類的混合策略的推薦算法,提高了推薦精度,在一

28、定程度上解決了系數(shù) 矩陣問題。此外為了提高評價估計的精度和準(zhǔn)確度,本文提出了一種聚類效果判別方式, 并采用模糊聚類和構(gòu)造隸屬度矩陣方法對項目聚類,達(dá)到更好的聚類效果,提高評分估 計精度。通過對比實驗,本文提出的基于模糊聚類的混合推薦算法提高了推薦精度和評 價估計。通過對五組不同稀疏程度的數(shù)據(jù)集進(jìn)行實驗表明,這種推薦效率和評價估計的 提髙是穩(wěn)定的。1.4論文結(jié)構(gòu)本文的主要研究內(nèi)容是希望提出一種混合策略的推薦算法,該算法能在整體上提高 推薦的準(zhǔn)確度,同時很好的處理原始數(shù)據(jù)中的離群點?;谝陨夏康模谝酝芯康幕?礎(chǔ)上,本文針對提高推薦系統(tǒng)的精度,以及推薦精確度和多樣性之間的平衡,提出了一 種基于模

29、糊聚類的混合推薦算法。本文各個章節(jié)的組織結(jié)構(gòu)如下:第一章緒論,介紹了推薦系統(tǒng)的產(chǎn)生和及相關(guān)研究背景,簡要概述了推薦系統(tǒng)的不 同推薦方法、研究現(xiàn)狀和存在的問題第二章將介紹傳統(tǒng)的個性化推薦算法,以及加入數(shù)據(jù)挖掘領(lǐng)域知識的新的推薦算 法,通過對算法性能的分析,比較這些傳統(tǒng)算法的優(yōu)點和局限。第三章將介紹提出的一個混合策略的推薦算法hrci (hybrid recommendation algorithm based on collaborative filtering and item clustering)o 該算法結(jié)合了項目聚類和 協(xié)同過濾算法,即通過項目聚類降低用戶向量的維度,簡化用戶相似度計算

30、。并且利用 同類對象之間的相關(guān)度,對目標(biāo)項的評分進(jìn)行估計。最后從基于用戶和基于項兩種方式 的結(jié)合,得出推薦列表。第四章從fcm模糊聚類算法出發(fā),將隸屬度函數(shù)應(yīng)用到數(shù)據(jù)聚類中,提岀了一種 適用于用戶聚類的效果度量方法。介紹了基于迭代思想的fcm算法,基于fcm算法的 迭代思想,設(shè)計了基于層次的隸屬度矩陣迭代的imc聚類算法(iteration membership degree matrix clustering)o實驗證明,該算法便于發(fā)現(xiàn)用戶的簇的數(shù)目,并且對邊界數(shù)據(jù) 的處理方式恰當(dāng),適合項目聚類的要求,為改進(jìn)hrci算法提供了條件。第五章將imc聚類算法思想融合到hrci推薦算法中,提出了一

31、種新的hrfc推 薦算法(hybrid recommendation based on fuzzy cluster, hrfc)。并提出 了初始化隸屬 度矩陣的構(gòu)造方法,證明了模糊聚類算法在評分估計中的作用。經(jīng)過驗證,新的推薦算 法提高了原算法的評分估計精確,算法性能穩(wěn)定,具有實際使用價值。最后總結(jié)了論文的工作,為進(jìn)一步研究做岀展望。第二章 數(shù)據(jù)挖掘與個性化推薦算法2.1推薦問題的提出和基本概念推薦系統(tǒng)是融合多個學(xué)科知識相結(jié)合,用以解決信息過載問題的一種工具。在推薦 過程中,用戶不再需要向系統(tǒng)提交自己的索引關(guān)鍵字來查找內(nèi)容,而是將整個過程轉(zhuǎn)變 為系統(tǒng)為主導(dǎo)的主動向用戶做出推薦,不需要用戶向系統(tǒng)

32、描述對象的詳細(xì)特征。目前推 薦系統(tǒng)已經(jīng)在實際應(yīng)用中發(fā)揮著作用,推薦問題的實質(zhì)就是尋找用戶集中的元素與項集 中的元素興趣度關(guān)聯(lián)的關(guān)系問題。比如,對于一個銷售cd的商店來說,推薦系統(tǒng)就的 用途就是根據(jù)銷售的歷史記錄,幫助店主找出目標(biāo)客戶可能喜歡聽的cd是哪些,以便 向客戶進(jìn)行推薦。推薦系統(tǒng)按功能劃分可以分為三個模塊:用戶模塊.項目模塊和推薦模塊圖2-1推薦系統(tǒng)的組成模塊fig. 2-1 the construction of recommender system設(shè)矩陣u = (uy)m%n是用戶特征矩陣,切是用戶i的第/個特征分量;設(shè)矩陣 f 是推薦項目的特征矩陣,是項目的第丿個特征分量;矩陣恥館

33、扁是用 戶的評分矩陣,如圖,其中是第i個用戶對第丿項的打分,q的初始值都為0。利用收 集到的數(shù)據(jù),構(gòu)建評分矩陣r和用戶特征矩陣u,繼而建立用戶模型,并選用適當(dāng)?shù)耐?薦算法,提取用戶模型中隱含的用戶興趣,對目標(biāo)用戶可能會感興趣的項做出預(yù)測。user idlsb»rating1000200501881074322678x5<08052000)11552041t7825c002006107603150700020743226t8x700300009308910761823r =j0000800306718885879440061076031400080020400609140688r

34、00aao5074322678x8d00008丿503807158992600610760317606718885878圖2-2構(gòu)造用戶評價距陣fig. 2*2 building the evaluation matrix of users推薦算法是推薦系統(tǒng)的核心部分。目前推薦算法仍存在以下幾個關(guān)鍵的問題有待解 決:1、數(shù)據(jù)的獲取。推薦系統(tǒng)的數(shù)據(jù),特別是從用戶收集而來的數(shù)據(jù),隱含了大量的 用戶信息。獲取用戶數(shù)據(jù)有兩種手段,即隱式方式和顯式方式。隱式方式是指不需要強(qiáng) 迫用戶通過提交表單或者給項目打分等手段,而是當(dāng)用戶在系統(tǒng)中隨意瀏覽的過程中, 記錄下用戶的操作序列,對不同的操作賦予不同的權(quán)重,比

35、如瀏覽記為1,收藏記為3, 購買記為5,從而從中發(fā)掘用戶興趣;顯式方式是指通過用戶給瀏覽過的數(shù)據(jù)的打分和 評價,用分值構(gòu)造評分矩陣,從中得到的用戶興趣數(shù)據(jù)。兩種方式相比,顯式獲取到的 數(shù)據(jù)更加精確,但是頻繁的讓用戶做出評價可能會導(dǎo)致用戶失去耐心;而隱式的獲取數(shù) 據(jù)具備良好的用戶友好性,但是由于用戶的操作過程誤操作率極大,因此數(shù)據(jù)的精確度 大大降低。2、相似度度量。推薦系統(tǒng)中的每一個用戶和項,都可以表示成空間中的向量,因 而相關(guān)用戶和項之間的相似度,是推薦的重要依據(jù)。后面介紹的推薦算法大多涉及到大 量的相似度的計算。常用的相似度度量標(biāo)準(zhǔn)有向量余弦、歐幾里德距離、皮爾遜相關(guān)系 數(shù)和改進(jìn)的向量余弦。

36、3、用戶的評分估計。評分矩陣r既隱含了大量的用戶興趣信息,又是做出推薦時 的依據(jù),但是這個矩陣在通常情況下是一個稀疏矩陣。由于相對于數(shù)據(jù)庫中眾多的項目, 每一個用戶能夠做出評價的項目數(shù)量是相當(dāng)有限的,因此造成評價矩陣中絕大多數(shù)元素 都保持初始狀態(tài)0,這一現(xiàn)象叫做評價矩陣的稀疏問題。稀疏矩陣是推薦問題不可避免 的問題。對用戶評分進(jìn)行估計,用估計值填充稀疏矩陣是解決這個問題的方法之一,此 外,評分的估計值也可以為推薦項與用戶的關(guān)聯(lián)程度提供一個量化標(biāo)準(zhǔn)。4、冷啟動問題。冷啟動問題是針對新加入系統(tǒng)的用戶和項提出的。一個新加入系 統(tǒng)的用戶,由于沒有歷史記錄,推薦無從入手,因此也無法做出有效推薦。對每一個

37、用 戶,系統(tǒng)也都必須要經(jīng)過一段時間的學(xué)習(xí),才能充分了解用戶的興趣;同理,對于新添 加的項也是如此。系統(tǒng)中的新添加項,由于沒有用戶對其評分,因而算法無法將其加入 推薦列表。個性化推薦技術(shù)經(jīng)過十多年的研究,已經(jīng)取得了許多研究成果,也提出了一些相關(guān) 的推薦算法,下面介紹幾種常用的推薦算法。2.2基于關(guān)聯(lián)規(guī)則的推薦算法關(guān)聯(lián)規(guī)則反映的是事務(wù)之間的聯(lián)系。關(guān)聯(lián)規(guī)則的主要任務(wù)就是根據(jù)最小支持度找出 頻繁項集,然后根據(jù)頻繁項集導(dǎo)出規(guī)則。設(shè)片和是項集中的兩項,如果集合億,滿 足最小支持度閾值,那么仁囲就是頻繁項集,s.nsb就是強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)關(guān)聯(lián)規(guī) 則的這種特性,我們可以認(rèn)為,如果珞和具有強(qiáng)關(guān)聯(lián)關(guān)系,對陷感興趣

38、的用戶很可能 對感興趣。對于關(guān)聯(lián)規(guī)則算法,最核心的問題就是尋找頻繁項集。而在算法實現(xiàn)上,最重要的 問題是減少掃描數(shù)據(jù)集的次數(shù)。因為候選的項集數(shù)據(jù)很大,重復(fù)掃描會造成很大的系統(tǒng) 負(fù)載,系統(tǒng)的穩(wěn)定性很難保證。另外,生成的候選項集的數(shù)量會更大,加重了存儲負(fù)擔(dān)。 因此在算法實現(xiàn)上應(yīng)該盡量避免重復(fù)掃描數(shù)據(jù)集和產(chǎn)生盡可能少的候選項集。apriori 算法是種快速挖掘頻繁項集的算法【,它利用apriori性質(zhì)對產(chǎn)生的候選項集進(jìn)行剪 枝,即g是頻繁項集,它的所有非空子集也都是頻繁項集;反之,如果c-是非頻繁項 集,那么它的任意超集g必然不是頻繁項集。因此,包含非頻繁項集ci的超集不需要 再進(jìn)行掃描和計算,即可

39、認(rèn)定不是頻繁項集,利用這一性質(zhì),減少了存儲候選項集的空 間,但是由于仍需要重復(fù)掃描數(shù)據(jù)集,時間上沒有顯著提高。fp增長算法利用遞歸的 策略,通過構(gòu)造fp樹的方法來存儲頻繁項集。由于不需要頻繁的掃描數(shù)據(jù)集,而且不 產(chǎn)生候選項集,fp樹算法【在時間和穩(wěn)定性上都有很好的優(yōu)化,但是由于采用遞歸的 策略,因此當(dāng)處理數(shù)據(jù)集很大的時候,fp算法不能很有效的產(chǎn)生規(guī)則。eclat算法 采用的是與前兩種不同的垂直數(shù)據(jù)格式,并利用apriori算法挖掘事務(wù)項集。由此可知,關(guān)聯(lián)規(guī)則推薦算法不同于傳統(tǒng)的推薦算法,除了評分矩陣r = (q)襯外,它還要記錄用戶每一次與系統(tǒng)交互的操作序列。由于不需要對項目屬性進(jìn)行具體分 析

40、,不需要相關(guān)的領(lǐng)域知識對數(shù)據(jù)項進(jìn)行分類,而只是依靠事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)關(guān)系, 因此關(guān)聯(lián)規(guī)則很容易發(fā)現(xiàn)用戶的隱藏興趣;但同時,關(guān)聯(lián)規(guī)則算法在時間和空間上的效 率依賴于候選數(shù)據(jù)集的數(shù)量,在處理大數(shù)據(jù)集的數(shù)據(jù)時產(chǎn)生規(guī)則時間長,效率不高。關(guān) 聯(lián)規(guī)則算法可以在一定程度上解決系統(tǒng)冷啟動問題的制約,但另外對于推薦系統(tǒng)的最大 問題一評價矩陣稀疏性問題,關(guān)聯(lián)規(guī)則很難處理,個性化程度不強(qiáng),目前針對關(guān)聯(lián)規(guī) 則算法的一些改進(jìn),在這方面也沒有明顯改善。2.3基于內(nèi)容的推薦算法基于內(nèi)容的推薦算法,用戶c對項$的效用函數(shù)”(c,$)是依據(jù)項之間的關(guān)聯(lián)來估計 的。當(dāng)系統(tǒng)向用戶推薦某一項s時,會先在數(shù)據(jù)庫中查找用戶的評分記錄,找

41、出評分比 較高的幾項之間的共性,作為用戶的偏好,然后找岀與用戶偏好相似度比較高的項作為 推薦。比如前面提到的fab推薦系統(tǒng),主要功能是向用戶推薦網(wǎng)頁文本,它首先從網(wǎng)絡(luò) 上抓取網(wǎng)頁,使用分詞工具處理文本,從每個網(wǎng)頁提取100個關(guān)鍵詞來表示網(wǎng)頁。并且 每個關(guān)鍵詞依據(jù)不同的標(biāo)準(zhǔn),賦予不同的權(quán)重。常見的計算方法有tf-idf (詞頻/逆向文檔詞頻)】,它假設(shè)關(guān)鍵字的重要性與它 在文件中岀現(xiàn)的次數(shù)成正比,與它在所有文檔庫中出現(xiàn)的頻率成反比。這樣的假設(shè)是為 了防止因文本的長度不同,因為對于同一個關(guān)鍵詞,長文檔比短文檔有更高的出現(xiàn)頻率, 但是它未必是關(guān)鍵詞。珥=亠j(公式21)max,人珥就是關(guān)鍵詞何在文檔

42、勺中的詞頻,厶是心在文檔心中出現(xiàn)的次數(shù),maxz.是 文檔心中出現(xiàn)次數(shù)最多的關(guān)鍵詞心出現(xiàn)的次數(shù)。(公式2-2)但是考慮到如果有一篇并不相關(guān)的文檔,對匕關(guān)鍵詞也有很高的詞頻,說明這個關(guān) 鍵詞在分類效果上就不是很好。所以要引入idf度量。關(guān)鍵詞&的逆向文檔頻率即:idfi =log 一nin是所有文檔的總數(shù),旺是包含關(guān)鍵詞&的文檔總數(shù)。則該關(guān)鍵詞k,的tf-idf權(quán)重w?w嚴(yán) tfgxldfj(公式 23)由此,就可以用tf-idf將一個文檔表示為一個k維向量。在此向量空間使用向量 余弦度量或者pearson度量,衡量文檔之間的相似度2.4協(xié)同過濾算法協(xié)同過濾的基本思想是對一大群人

43、進(jìn)行分析,找出與目標(biāo)用戶品味相近的一小群 人,考察他們的興趣差異,構(gòu)造一個推薦候選集。根據(jù)信息過濾的對象不同,協(xié)同過濾 算法又分為基于用戶的協(xié)同過濾和基于項的協(xié)同過濾刖。1992年,david goldberg設(shè)計 出的tapestry系統(tǒng)【2】,是第一個基于協(xié)同過濾思想的推薦系統(tǒng)。2.4.1基于用戶的協(xié)同過濾基于用戶的協(xié)同過濾算法就是最初傳統(tǒng)的協(xié)同過濾算法,就是計算訓(xùn)練樣本集中與 目標(biāo)用戶的相似度s©,找出相似的k個鄰居,估計目標(biāo)用戶對未評分項的打分,將推 薦項按照估計評分輸出推薦列表。基于用戶的協(xié)同過濾算法的描述1312,:collaborative filtering(r, k

44、, 0); /n:目標(biāo)用戶的鄰居集合l:推薦列表for(all ui,uj eu)sy =sim(ui9uj);endforfor(j=l to k)top®) t n;endforfor(人=1廣1)r廠遼姝t厶;endfor sort(l); end 算法2-1基于用戶的協(xié)咼過濾算壓algorithm】 collaborative filtering based on users最終得到目標(biāo)用戶坷推薦列表l,并根據(jù)對目標(biāo)用戶的有用程度心排序?;谟脩舻膮f(xié)同過濾算法是早期提出的推薦算法,因此該算法存在許多問題。前面 所提到的用戶冷啟動問題,在基于用戶的協(xié)同過濾算法中體現(xiàn)的尤為明顯。

45、對于一個新 用戶,甚至是那些評分項很少的用戶,即使系統(tǒng)中存在與其興趣相似的用戶,算法也很 難通過s"找到相似鄰居,推薦效果也不理想。2.4.2基于項的協(xié)同過濾基于項的協(xié)同過濾算法是對傳統(tǒng)協(xié)同過濾算法的改進(jìn)0】。該算法考慮到項目之間 的相關(guān)性,即假設(shè)能夠引起用戶興趣的項,必然與該用戶做過較高評分的項具有一定的 相關(guān)性。因此可以通過尋找目標(biāo)項的最近鄰居,把相近項的評分的平均值,或者加權(quán)平 均值當(dāng)做目標(biāo)用戶對該項的評分,將評分最高的幾項推薦給目標(biāo)用戶。0 0 3、0 0 00 0 98 0 00 2 00 0®以矩陣r為例,通過計算項目之間的相似度,厶與厶具有很高的相似度。如 果

46、旳是目標(biāo)用戶,系統(tǒng)可以挑選厶作為推薦項??缹τ业墓烙嬙u分是依據(jù)厶、厶的評分 和彼此的相似度計算得到。2.5常見推薦算法的比較2.5.1基于內(nèi)容的推薦算法的優(yōu)劣基于內(nèi)容的推薦,對項目變動頻率較低的文本數(shù)據(jù)集的應(yīng)用來說,是最恰當(dāng)?shù)耐扑] 算法,通過自動特征抽取技術(shù),可以很快的提取出文檔的特征屬性,通過特征向量對文 檔對象進(jìn)行度量。由于文檔對象的屬性多種多樣,彼此之前的差異性比較大,因此在文 檔對象的推薦中,基于內(nèi)容推薦算法相對協(xié)同過濾算法有著無可比擬的優(yōu)越性。另外, 在項目的冷啟動問題上,基于內(nèi)容的推薦算法由于使用自動提取特征屬性,因此不會受 到冷啟動的局限,這一點也是協(xié)同過濾算法無法做到的。但是,

47、基于內(nèi)容的推薦算法還有很多局限性。比如在處理多媒體數(shù)據(jù),圖像和聲音、 視頻流,自動特征抽取就很難發(fā)揮作用。即使是文檔對象,兩個不同的文檔有可能使用 同樣的一組特征向量表示,但實際上他們是不同的。即使用關(guān)鍵字表示文檔,推薦系統(tǒng) 依然很難區(qū)分兩篇長度和關(guān)鍵字一樣,但內(nèi)容千差萬別的文章。此外,數(shù)據(jù)的過擬合問題。推薦系統(tǒng)只會推薦那些對用戶的效用函數(shù)較髙的項。也 就是說,推薦系統(tǒng)對用戶做出的推薦,基本上都是與用戶已經(jīng)瀏覽或者評分的那些項相 類似的,這樣就帶來一種數(shù)據(jù)過擬合問題,如果用戶沒有對數(shù)據(jù)項集中進(jìn)行廣泛的瀏覽, 那么推薦系統(tǒng)就無法對用戶的所有興趣做出推薦,而總是對用戶最初瀏覽的項進(jìn)行類似 的重復(fù)推

48、薦。這是因為系統(tǒng)的數(shù)據(jù)不完備性造成的。這一問題不僅僅存在于基于內(nèi)容的 推薦算法中,但在基于內(nèi)容的推薦算法中顯得尤為突出。因此在一些情況下,如果推薦 結(jié)果中存在與用戶已瀏覽項相似度很高的項,我們就放棄推薦這一項。比如標(biāo)題不同但 是內(nèi)容主題相同的文檔。文獻(xiàn)23提出一種方法,將于用戶興趣相似度較高和較低的項 全部過濾掉??傊扑]系統(tǒng)也應(yīng)該推薦一些用戶不是特別感興趣的可選項。新用戶問題。一個新注冊的用戶,必須對數(shù)據(jù)項進(jìn)行一定量的評分,系統(tǒng)才能真正 理解用戶的興趣,給用戶可靠的推薦。一個新用戶,系統(tǒng)無法準(zhǔn)確掌握用戶的興趣,無 法做出精確的推薦。2.5.2協(xié)同過濾算法的優(yōu)劣協(xié)同過濾推薦算法適用于目前大部

49、分的推薦系統(tǒng),相比基于內(nèi)容的推薦算法更適用 更優(yōu)越。同時因為使用協(xié)同評分的策略,可以對任意項做出推薦,即使是與用戶興趣不 相關(guān)的項。也可以處理文檔對象御。但是協(xié)同過濾算法也有他的局限。與基于內(nèi)容的推薦算法一樣,協(xié)同過濾也存在新 用戶問題。新用戶的系統(tǒng)冷啟動問題,在協(xié)同過濾算法中依然存在。另外,項目的增加 也是協(xié)同過濾算法的一大缺憾。由于協(xié)同過濾算法完全依靠用戶的偏好作為推薦,因此, 對于新產(chǎn)生的項,只有當(dāng)一部分用戶對它進(jìn)行評分,系統(tǒng)才會把它作為推薦。評價矩陣的稀疏性。協(xié)同過濾算法的推薦系統(tǒng),其推薦精度很大程度依賴于用戶對 項的評價數(shù)量。但是目前存在的推薦系統(tǒng),由于項目集規(guī)模龐大,而每一個用戶的

50、興趣又相對集中,因而造成評價數(shù)據(jù)存在大量空缺值,成為一個稀疏矩陣。對于矩陣的稀疏 程度的度量,提出一個矩陣的稀疏度spa(r)的概念,即空缺項占所有矩陣元素的比例。spa(r) = (公式 2-4)mxn早期提出的基于項的協(xié)同過濾算法,就是針對稀疏矩陣問題提出的一種改進(jìn)。解決 稀疏矩陣的推薦精度問題,還可以通過小規(guī)模樣本進(jìn)行有效的預(yù)測。還可以根據(jù)用戶模 型計算用戶間的相似度。當(dāng)兩個用戶對相同的項評分相似,即在人口統(tǒng)計學(xué)上屬于一類, 這時就可以認(rèn)為兩個用戶是相似的。協(xié)同過濾推薦算法中,用戶對項目的評分屬于顯性反饋,這種反饋對用戶來說很不 公平,推薦過程不僅需要用戶提供個人信息,而且需要對許多項目

51、進(jìn)行評價;而基于內(nèi) 容的推薦可以省去繁瑣的評分過程,僅僅通過挖掘用戶的瀏覽行為和點擊等操作,就可 以很好的獲得所需要的信息。2.6推薦系統(tǒng)的工作流程推薦系統(tǒng)的工作一般分為如下幾個步驟:數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,訓(xùn)練分類,接收 用戶輸入,推薦策略的選擇,得出推薦推薦結(jié)果,可視化展示結(jié)果。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理相似度計算推薦策略推薦結(jié)果圖23推薦系統(tǒng)的一般工作流程fig. 2-3 the common flow of work of recommender system數(shù)據(jù)采集做出推薦的基礎(chǔ)就是要采集與用戶興趣相關(guān)的信息,比如用戶的瀏覽記錄、購買記 錄、査看詳情記錄、添加刪除書簽、下載記錄等。用戶的操作包

52、含了用戶的興趣。因此 在一個好的推薦系統(tǒng)中,數(shù)據(jù)釆集的方式和數(shù)量尤為關(guān)鍵。獲取用戶信息一般分為顯式 和隱式的過程。顯式過程獲取方式直接,數(shù)據(jù)精確,但是需要用戶對項和興趣進(jìn)行評價 和描述,有些涉及用戶個人隱私,所以過多的顯式獲取會降低用戶的滿意度;隱式過去 更簡單更直接,用戶進(jìn)入系統(tǒng)的一切操作都可以看做是對用戶興趣的描述,都可以拿來 作為推薦依據(jù),但是隱式獲取的數(shù)據(jù)準(zhǔn)確性大大降低。一般采用顯式和隱式結(jié)合的方式 來采集數(shù)據(jù)。數(shù)據(jù)預(yù)處理采集到的原始數(shù)據(jù)一般需要進(jìn)行預(yù)處理。比如進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,規(guī)范化,離群點 和消除噪聲數(shù)據(jù)的消除等操作。相似度計算相似度計算是找到最近鄰居的重要依據(jù)。目前大部分推薦算法

53、都需要進(jìn)行相似度計 算,而且相似度計算的準(zhǔn)確與否,會影響到推薦的性能。因此相似度是推薦算法的關(guān)鍵 步驟。通常相似度計算方法有如下幾種:歐幾里德距離、余弦相似度、改進(jìn)余弦相似度、 pearson相似系數(shù)等。選用何種相似度度量方式,要根據(jù)數(shù)據(jù)的特性選擇。推薦策略推薦策略是指推薦算法的選擇。如同上節(jié)所分析的,推薦算法有其固有的優(yōu)點和不 足,如何設(shè)計合適的推薦算法應(yīng)用到系統(tǒng)當(dāng)中,應(yīng)當(dāng)確定在設(shè)計系統(tǒng)模型之前。評判推 薦算法的優(yōu)劣,應(yīng)當(dāng)從以下幾個方面考慮:推薦的精確度、多樣性和f-measure221o精 確度(precision)反映了推薦系統(tǒng)的結(jié)果對用戶的有用程度,覆蓋率性(coverage)反映的是

54、 推薦的結(jié)果對用戶興趣的覆蓋率,f-measure則是信息檢索領(lǐng)域的一種度量方法,結(jié)合 了精確度和多樣性二者的度量。設(shè)u是用戶興趣的集合,r是系統(tǒng)推薦的集合【2鐵咖 percision =1(公式2-5)r0ucqn erage(公式2-6)_2x percision x coveragef 一 measure =percision + cov erage(公式2-7)推薦結(jié)果推薦系統(tǒng)的結(jié)果呈現(xiàn),應(yīng)當(dāng)用一些可視化和知識表示的技術(shù),對推薦結(jié)果進(jìn)行可視 化的表示,在不同維度上向用戶形象的展現(xiàn)推薦結(jié)果。2.7本章小結(jié)本章詳細(xì)分析了常見的推薦算法和推薦模型理論,闡述了傳統(tǒng)推薦算法存在的問 題,通過算法

55、的比較,分別指出傳統(tǒng)推薦算法用于推薦技術(shù)時的優(yōu)點和局限性,并簡要介紹了目前彌補(bǔ)這些弊端所采取的措施,為后面章節(jié)推薦算法的改進(jìn)指出了目標(biāo)。最后 介紹了推薦系統(tǒng)模型的工作流程,以及判斷系統(tǒng)優(yōu)劣性的常用評判標(biāo)準(zhǔn)。第三章 混合策略的推薦算法通過以上對傳統(tǒng)推薦算法的介紹可以看出,盡管推薦策略各有不同,但是大多算法 都涉及到相似度計算。因此,相似度的度量是推薦算法的重要步驟。另外,在實際應(yīng)用 中,也應(yīng)根據(jù)實際情況選擇合適的推薦算法。常見的推薦算法各有各的缺陷,單純使用 一種推薦算法已無法滿足實際需要珂。為了彌補(bǔ)傳統(tǒng)算法的缺陷,常用的方法是釆用混 合策略的推薦算法,即采用多種推薦算法相結(jié)合。因此本章擬采用協(xié)

56、同過濾與數(shù)據(jù)挖掘 算法的結(jié)合,設(shè)計一個混合策略的推薦算法。3.1概述混合推薦算法有多種實現(xiàn)途徑。通常主要有以下幾種方法:1、分別實現(xiàn)協(xié)同過濾和基于內(nèi)容,然后將兩種結(jié)果合并起來【創(chuàng)。一個推薦系統(tǒng)可以包含多個獨立的子系統(tǒng),各個子系統(tǒng)分別作出評價,然后匯總起 來,在主推薦系統(tǒng)中,按照一定的規(guī)則或者權(quán)重集成評價數(shù)據(jù)。比如dailyleamer推薦 系統(tǒng),是一種類似元推薦引擎。它同時連接多個推薦系統(tǒng),并統(tǒng)計各個推薦系統(tǒng)的結(jié)果和數(shù)據(jù)統(tǒng)計。對用戶做推薦時,會給置信度較高的子系統(tǒng)和其他子系統(tǒng)返回的評價結(jié)果 分別賦予不同的權(quán)重,將匯總之后的推薦結(jié)果返回給用戶。這樣的結(jié)合,推薦結(jié)果是兩 種算法返回結(jié)果的簡單的匯總,但是算法的應(yīng)用范圍擴(kuò)大了很多。2、在協(xié)同過濾算法中加入一些基于內(nèi)容的特點。斯坦福大學(xué)的fab推薦系統(tǒng)】,嚴(yán)格來說是一個基于內(nèi)容的協(xié)同過濾推薦系統(tǒng)。與 傳統(tǒng)的協(xié)同過濾算法的相比,加入基于內(nèi)容的特點之后不僅對項做出打分,而且還計算 用戶之間的相似度。推薦的結(jié)果既保留了評價矩陣中與用戶興趣相符的髙分項,而且還 加入了與用戶興趣不相符的高分項,這樣有助于幫助用戶找到潛在興趣。和傳統(tǒng)的協(xié)同 過濾算法相比,這樣既保留了協(xié)同過濾的優(yōu)越性,又在一定程度上克服了評價稀疏性的 問題。3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論