




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、分類號(hào)tp312密級(jí)udc 碩士學(xué)位論文模糊聚類的混合推薦算法研究張愷學(xué)科專業(yè)_計(jì)算機(jī)軟件與理論指導(dǎo)教師秦亮曦教授 一論文答辯日期2010年05月29日 學(xué)位授予日期 答辯委員會(huì)主席顧平教授-論文評(píng)閱人李肯立教授覃海且_教授廣西大學(xué)學(xué)位論文原創(chuàng)性聲明和學(xué)位論文使用授權(quán)說(shuō)明學(xué)位論文原創(chuàng)性聲明本人聲明:所呈交的學(xué)位論文是在導(dǎo)師指導(dǎo)下完成的,研究工作所取得的成果和相 關(guān)知識(shí)產(chǎn)權(quán)屬?gòu)V西大學(xué)所有。除已注明部分外,論文中不包含其他人已經(jīng)發(fā)表過的研究 成果,也不包含本人為獲得其它學(xué)位而使用過的內(nèi)容。對(duì)本文的研究工作提供過重要幫 助的個(gè)人和集體,均已在論文中明確說(shuō)明并致謝。論文作者簽名:敎彳妝嚴(yán)卜年/月&qu
2、ot;日學(xué)位論文使用授權(quán)說(shuō)明本人完全了解廣西大學(xué)關(guān)于收集、保存.使用學(xué)位論文的規(guī)定,即:本人保證不以其它單位為第一署名單位發(fā)表或使用本論文的研究?jī)?nèi)容;按照學(xué)校要求提交學(xué)位論文的印刷本和電子版本;學(xué)校有權(quán)保存學(xué)位論文的印刷本和電子版,并提供目錄檢索與閱覽服務(wù); 學(xué)??梢圆捎貌视?、縮印、數(shù)字化或其它復(fù)制手段保存論文; 學(xué)??梢怨颊撐牡牟糠只蛉?jī)?nèi)容。請(qǐng)選擇發(fā)布時(shí)間:區(qū)卩時(shí)發(fā)布解密后發(fā)布(保密論文需注明,并在解密后遵守此規(guī)定)模糊聚類的混合推薦算法研究在20世紀(jì)90年代提出推薦系統(tǒng)的概念之后,經(jīng)過十多年的發(fā)展,推 薦系統(tǒng)已經(jīng)被應(yīng)用到了許多大型電子商務(wù)系統(tǒng)中。在對(duì)推薦系統(tǒng)的研究中, 如何對(duì)現(xiàn)有系統(tǒng)中
3、的推薦算法進(jìn)行改進(jìn),以及提出新的推薦算法是其中的 研究熱點(diǎn),其中混合策略的推薦算法是研究的主要內(nèi)容,而如何避免推薦 系統(tǒng)中過擬合問題帶來(lái)的興趣缺失和系統(tǒng)的冷啟動(dòng)帶來(lái)的評(píng)價(jià)障礙更是算 法設(shè)計(jì)與研究的難點(diǎn)。本文完成的主要工作如下:(1) 在對(duì)現(xiàn)存的推薦算法進(jìn)行分析的基礎(chǔ)上,指出了這些算法的優(yōu)點(diǎn)和局限性。認(rèn)為釆用混合策略推薦策略是解決現(xiàn)存推薦系統(tǒng)中缺陷的較好途徑, 因此設(shè)計(jì)了一個(gè)基于協(xié)同過濾和項(xiàng)目聚類的混合策略推薦算法(hybrid recommendation algorithm based on collaborative filtering and item clustering, hrci)
4、o該算法經(jīng)過項(xiàng)目聚類降低用戶向量的維度,簡(jiǎn)化用戶相似度計(jì)算。在對(duì)項(xiàng)目進(jìn)行評(píng)價(jià)估計(jì)時(shí),結(jié)合了 user-based和itembased協(xié)同過濾算法結(jié)果作為推薦結(jié)果。實(shí)驗(yàn)結(jié)果表明,該算法在推薦性能上有很好的改善, 但是在評(píng)分估計(jì)方面還存在進(jìn)一步改進(jìn)的空間。(2) 將隸屬度函數(shù)應(yīng)用到數(shù)據(jù)聚類中,提出了一種用戶聚類效果的度量方 法。并且在迭代思想和fcm算法(fuzzy cmeans)基礎(chǔ)上,設(shè)計(jì)了基于層 次的隸屬度矩陣迭代的imc聚類算法(iteration membership degree matrix clustering) o實(shí)驗(yàn)證明,該算法便于確定最佳的用戶簇的數(shù)目,并且對(duì)簇的 邊界的劃分
5、更為恰當(dāng)。(3) 將imc聚類算法的思想融合到hrci推薦算法中,提出了一種新的模糊聚類的混合推薦算法(hybrid recommendation based on fuzzy cluster,hrfc)o并提出了一種初始隸屬度矩陣的構(gòu)造方法,以及基于模糊聚類的項(xiàng)目評(píng)分估計(jì)方法。實(shí)驗(yàn)結(jié)果表明,hrfc算法比原有算法提高了項(xiàng)目評(píng)分 估計(jì)的準(zhǔn)確度,從而使得算法的推薦性能進(jìn)一步提高,并且在不同稀疏程 度的情況下算法性能穩(wěn)定,具有較高的實(shí)際應(yīng)用價(jià)值。關(guān)鍵詞:推薦系統(tǒng)相似度混合策略模糊聚類research of hybrid recommendationalgorithm based on fuzzy
6、clusteringabstractafter the concept of recommender system proposed in 1990s, with decade of development, recommender system has been applied to large electronic commerce system. among the research of recommender system, how to improve the existing recommendation algorithms and proposing new recommen
7、dation algorithms have been hotspots. however, the research of hybrid recommendation algorithms is an major part. what's more, to avoid lost interests resulting from users overspecialization of recommender system and difficulties arisen from cold-start are the most difficult task in the design a
8、nd research recommendation algorithmsthe main research work of this paper are listed as follows:(1) on the basis of analysis of existing recommendation algorithms, it indicated the advantages and defects, and suggested that it is the better way to adopt hybrid recommendation algorithms to overcome t
9、he problems existing in the recommender systems. therefore, a hybrid recommendation based on collaborative filtering and item clustering(hrci) has been designed accordingly. it reduced the dimensions of user vector and simplified the calculation of similarity between users by item clustering. in eva
10、luation estimate of items, it combined result of the user-based and item-based collaborative filtering as the recommending result. as is shown in the experimental result, this algorithm improved the performances of recommendations in a good way, but more work should be done on the evaluation estimat
11、e of items(2) it applies grade of membership function into clustering, introduces ainsuitable method on measuring the effect of the clustering based on the iteration idea and fcm algorithm, an imc clustering algorithm based on hierarchical cluster and grade of membership matrix iteration has been de
12、signed. proved by experiment, this algorithm is convenient on confirming the numbers of the best user cluster, besides, it is more appropriate on the partitioning of the boundary of the clusters (3) merging imc clustering algorithm with hrci recommendation algorithms, it introduces a new algorithm o
13、f hrfc(hybrid recommendation based on fuzzy cluster) a constructional method of initializing grade of membership matrix is also introduced, as well as the item evaluation method based on fuzzy cluster. as is shown in the experimental result, hrfc improved the precision of evaluation estimate of item
14、s, therefore, it makes the recommendation performances upgraded, and the algorithm is stable in situations of different sparse levels, and with higher values of practical use.key words: recommender system; similarity; hybrid strategy; fuzzy cluster摘要iabstractill第一章緒論11.1研究背景11.2研究現(xiàn)狀及存在的問題21.3研究?jī)?nèi)容 31
15、.4論文結(jié)構(gòu)4第二章數(shù)據(jù)挖掘與個(gè)性化推薦算法62.1推薦問題的提出和基本概念62.2基于關(guān)聯(lián)規(guī)則的推薦算法82.3基于內(nèi)容的推薦算法92.4協(xié)同過濾算法102.4.1基于用戶的協(xié)同過濾102.4.2基于項(xiàng)的協(xié)同過濾112.5常見推薦算法的比較112.5.1基于內(nèi)容的推薦算法的優(yōu)劣112.5.2協(xié)同過濾算法的優(yōu)劣122.6推薦系統(tǒng)的工作流程132.7本章小結(jié)14第三章混合策略的推薦算法163.1概述163.2算法的設(shè)計(jì)思路173.2.1目前采用的方法173.2.2算法的提出173.3 hrci算法的具體實(shí)現(xiàn)183.3.1項(xiàng)目聚類183.3.2相似度計(jì)算213.3.3做出推薦223.3.4兩種推薦
16、的實(shí)驗(yàn)比較253.4實(shí)驗(yàn)比較263.5本章小結(jié)31第四章隸屬度矩陣迭代的模糊聚類算法324.1模糊聚類的基本思想324.2基礎(chǔ)知識(shí)32421關(guān)系32422模糊數(shù)學(xué)中的關(guān)系33423模糊關(guān)系33424模糊矩陣344.2.5模糊等價(jià)關(guān)系3443模糊聚類的一般過程344.3.1數(shù)據(jù)標(biāo)準(zhǔn)化344.3.2找出模糊關(guān)系344.3.3模糊聚類354.4模糊c均值(fcm)算法364.5迭代隸屬度矩陣的模糊聚類算法374.5.1判斷標(biāo)準(zhǔn)374.5.2算法流程384.6實(shí)驗(yàn)與比較384.7本章小結(jié)40第五章模糊聚類的混合策略推薦算法415.1算法的改進(jìn)415.1.1隸屬度矩陣的建立415.1.2基于項(xiàng)的模糊聚類
17、425.1.3基于隸屬度矩陣的評(píng)分估計(jì)435.2 一種新的模糊聚類混合策略推薦算法445.3對(duì)比實(shí)驗(yàn)465.3.1實(shí)驗(yàn)準(zhǔn)備465.3.2實(shí)驗(yàn)結(jié)果與分析475.4稀疏性處理實(shí)驗(yàn)與結(jié)果分析485.4.1數(shù)據(jù)準(zhǔn)備485.4.2實(shí)驗(yàn)結(jié)果與分析485.5本章小結(jié)50第六章結(jié)束語(yǔ)516.1全文總結(jié)516.2工作展望51參考文獻(xiàn) 53致 謝57攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄58第一章緒論1.1研究背景推薦系統(tǒng)的概念產(chǎn)生于上世紀(jì)末,是隨著信息科技和互聯(lián)網(wǎng)的迅速發(fā)展帶來(lái)的信息 過載產(chǎn)生的。搜索引擎技術(shù)的出現(xiàn)在一定程度上緩解了信息過載帶來(lái)的問題,但是還有 許多不足之處。一方面用戶需要提出信息主題,限定了潛在興
18、趣的發(fā)掘;另一方面系統(tǒng) 缺乏個(gè)性化的主動(dòng)推薦。推薦系統(tǒng)是在認(rèn)知科學(xué)、近似理論、信息檢索和預(yù)測(cè)學(xué)的理論 基礎(chǔ)上產(chǎn)生的。它最初應(yīng)用于電子商務(wù)領(lǐng)域,人們所認(rèn)同的推薦系統(tǒng)是以電子商務(wù)網(wǎng)站 為依托,通過提供商品的屬性和評(píng)價(jià),對(duì)用戶的購(gòu)買行為起到積極的建議作用。推薦 系統(tǒng)的工作原理,是通過分析用戶的行為表現(xiàn)出來(lái)的個(gè)性化特征,結(jié)合特定的推薦算法, 分析系統(tǒng)本身采集到的數(shù)據(jù)庫(kù)信息,得岀推薦項(xiàng)返回給用戶。協(xié)同過濾算法是量早應(yīng)用于實(shí)際的推薦算法,通過計(jì)算用戶之間興趣愛好的相似 度,估計(jì)出未知評(píng)分,從而做出推薦。tapestry系統(tǒng)是最早的協(xié)同過濾算法的實(shí)現(xiàn)。 b. sarwar等提出一種基于項(xiàng)的協(xié)同過濾算法【叫是
19、對(duì)傳統(tǒng)協(xié)同過濾算法的一種改進(jìn)?;趦?nèi)容的推薦則是一種自動(dòng)提取項(xiàng)目屬性并根據(jù)相似度進(jìn)行推薦的算法,主要適用于文 本屬性的項(xiàng)目對(duì)象。此外,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,推薦算法有了更多的選擇。通過分析行為項(xiàng)之間的關(guān)聯(lián)關(guān)系,可以為用戶提供更多有用的推薦。對(duì)用戶建模的研究, 可以收集到更多有用的用戶信息,建立更精確的用戶模型。合理的用戶模型還可以 發(fā)現(xiàn)更多潛在的用戶興趣【2習(xí)。目前數(shù)據(jù)存儲(chǔ)的最大載體是web,結(jié)合web數(shù)據(jù)挖掘, 獲取用戶的訪問記錄和關(guān)聯(lián)關(guān)系,是構(gòu)造用戶模型的重要途徑均。圖論、貝葉斯網(wǎng) 絡(luò)、分類、聚類分析和人工神經(jīng)網(wǎng)絡(luò)【9】,也從不同角度提高了推薦效率。文獻(xiàn)10提出了一種基于項(xiàng)目評(píng)分預(yù)
20、測(cè)的協(xié)同過濾算法,改進(jìn)了傳統(tǒng)的協(xié)同過濾算 法,是對(duì)推薦系統(tǒng)中存在的稀疏矩陣問題的一種很好的解決方案,即通過釆用計(jì)算項(xiàng)目 之間的相似度,并引入修正余弦度量和稀疏等級(jí)的概念,從而用固定值或者平均值來(lái)填 充目標(biāo)用戶的評(píng)分,在一定程度上彌補(bǔ)了評(píng)分矩陣的缺失。pazzani等人山則從另一個(gè) 角度來(lái)解決稀疏矩陣的問題,利用統(tǒng)計(jì)學(xué)領(lǐng)域知識(shí),獲取了更多的用戶個(gè)人信息,作為 用戶相似度的計(jì)算標(biāo)準(zhǔn)。利用神經(jīng)網(wǎng)絡(luò)的方法來(lái)計(jì)算缺失的稀疏矩陣,在填充效果上 要更加精確一些,有一定的噪聲處理能力,但同時(shí),時(shí)間效率上比前兩種方法要差一些。目前,推薦系統(tǒng)主要應(yīng)用于各個(gè)電子商務(wù)領(lǐng)域,為用戶提供個(gè)性化服務(wù),有利于提 高用戶的滿意
21、度和防止客戶流失。在電子商務(wù)領(lǐng)域,amazon和ebay主要釆用了協(xié)同過 濾的推薦算法;網(wǎng)頁(yè)推薦領(lǐng)域,主要有斯坦福大學(xué)的fab和采用實(shí)體知識(shí)庫(kù)的foxtrot 論文主題推薦系統(tǒng);在電影推薦領(lǐng)域,netfilx和明尼蘇達(dá)大學(xué)的movielens公開自己的 實(shí)驗(yàn)數(shù)據(jù)集,已經(jīng)成為推薦系統(tǒng)領(lǐng)域常用的實(shí)驗(yàn)測(cè)試數(shù)據(jù);在新聞過濾方面,有 grouplens, phoaks等。在學(xué)術(shù)研究領(lǐng)域,推薦系統(tǒng)作為一個(gè)交叉學(xué)科也受到各類相 關(guān)會(huì)議越來(lái)越多的重視,數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和管理學(xué)的國(guó)際會(huì)議上,相關(guān)論文 的發(fā)表也越來(lái)越多。acm于2007年開始舉辦第一屆推薦系統(tǒng)年會(huì),另外在ieee和acm 在機(jī)器學(xué)習(xí)和人工
22、智能領(lǐng)域的會(huì)議,推薦系統(tǒng)的研究文章占據(jù)了一定的比重。mit、明 尼蘇達(dá)大學(xué).卡內(nèi)基梅隆大學(xué)都有專門的推薦系統(tǒng)研究小組。google等搜索引擎公 司已將個(gè)性化推薦作為研發(fā)下一代搜索引擎的主要工作。因此,個(gè)性化推薦技術(shù)具有很 廣闊的應(yīng)用前景。1.2研究現(xiàn)狀及存在的問題推薦系統(tǒng)的問題研究,主要包括以下方面:用戶建模,推薦算法的選擇,信息的反 饋。早期的用戶建模只獲取用戶少量的固定信息。隨著數(shù)據(jù)挖掘技術(shù)的完善,這樣的用 戶建模已經(jīng)不能滿足系統(tǒng)的需要,考慮到用戶的興趣廣泛和興趣轉(zhuǎn)移等問題,對(duì)于用戶 信息,一般采用交互式采集方式,采集的客戶信息如果過多,就推薦效果而言是最好的, 但是可能會(huì)降低客戶滿意度,
23、同時(shí)還存在推薦系統(tǒng)可信度的問題,用戶因?yàn)閾?dān)心系統(tǒng)的 安全性而不敢把真實(shí)的數(shù)據(jù)提供給系統(tǒng);而釆集的信息過少,在建立用戶模型的時(shí)候會(huì) 出現(xiàn)信息缺乏,導(dǎo)致建模不準(zhǔn)確??傊?,用戶建模的優(yōu)劣,很大程度上決定了推薦系統(tǒng) 性能和準(zhǔn)確率。對(duì)于推薦算法,常用的算法有協(xié)同過濾、基于內(nèi)容和基于網(wǎng)格的推薦算法。也可分 為基于個(gè)人歷史、基于社會(huì)活動(dòng)和基于產(chǎn)品的推薦。無(wú)論哪種推薦算法,均是由用戶的 興趣出發(fā),經(jīng)過不同的算法策略,最終對(duì)用戶未來(lái)的興趣做出預(yù)測(cè)。協(xié)同過濾算法是最早提出的推薦算法。主要分為基于用戶的協(xié)同過濾、基于項(xiàng)的 協(xié)同過濾和基于模型的協(xié)同過濾算法。它的思想就是收集相關(guān)項(xiàng)(用戶)信息,然后搜 索最近鄰居,根據(jù)
24、鄰居的相關(guān)性做出推薦?;谶^去具有相同偏好的用戶(項(xiàng))會(huì)具有 相似關(guān)聯(lián)的假設(shè),將已知用戶的興趣推薦給未知用戶?;趦?nèi)容的推薦算法,是傳統(tǒng)信息檢索技術(shù)的一種演化算法。通過尋找某一用戶 偏好的項(xiàng),從而尋找跟這一項(xiàng)相關(guān)度最高的項(xiàng)作為推薦項(xiàng)。這一推薦算法主要應(yīng)用于推 薦項(xiàng)包含很多文本信息的應(yīng)用當(dāng)中,由于可以從文本中提取特征,并且對(duì)用戶的描述過 程中也包含了對(duì)用戶興趣和偏好的描述,因此可以在用戶建模的過程中通過收集用戶信 息,用來(lái)詳細(xì)的估計(jì)出用戶的興趣。基于內(nèi)容的推薦算法經(jīng)常用于新聞、網(wǎng)頁(yè)和文檔的 推薦。兩種常用的推薦算法都涉及到一個(gè)相似度度量的問題,無(wú)論是用戶之間的相似度, 還是項(xiàng)之間的相似度,對(duì)于推
25、薦系統(tǒng)都是至關(guān)重要的。對(duì)于用戶之間的相似度,可以通 過用戶個(gè)人信息或者用戶對(duì)項(xiàng)的評(píng)分來(lái)計(jì)算,主要計(jì)量方式都是釆用向量余弦距離及其 變式、pearson相關(guān)系數(shù)等。在基于用戶的協(xié)同過濾算法中,隨著系統(tǒng)用戶的增多,在海量用戶中搜索最近鄰居 項(xiàng)成為制約系統(tǒng)的瓶頸。在這方面,基于項(xiàng)的協(xié)同過濾則是利用項(xiàng)之間的相似關(guān)系,降 低了計(jì)算量,很好的提高了系統(tǒng)的可擴(kuò)展性和穩(wěn)定性。協(xié)同過濾算法的系統(tǒng)冷啟動(dòng)【卿, 即對(duì)新加入用戶和項(xiàng)很難做出推薦,特別是在新用戶加入,釆集信息過少時(shí)尤其如此。 而新的項(xiàng)加入數(shù)據(jù)庫(kù)之后,則需要更長(zhǎng)的時(shí)間才能獲得用戶評(píng)分,這種情況則需要考慮 應(yīng)用組合推薦策略。隨著系統(tǒng)數(shù)據(jù)庫(kù)規(guī)模的增長(zhǎng),效率會(huì)
26、急劇衰減。通過維度簡(jiǎn)化和矩 陣分解技術(shù),可提高協(xié)同過濾算法的精確度和推薦速度劉。稀疏矩陣問題,在推薦系統(tǒng) 數(shù)據(jù)庫(kù)當(dāng)中不可避免存在大量未被用戶評(píng)分的項(xiàng),這種情況應(yīng)當(dāng)超過整個(gè)評(píng)價(jià)矩陣一半 以上的空間,這是因?yàn)橛脩糁g興趣的差異性造成的,稀疏矩陣的解決也是推薦系統(tǒng)研 究中的熱點(diǎn)問題。此外,推薦的精確度和多樣性之間的平衡問題【,也是目前推薦系統(tǒng)的熱點(diǎn)問題。 在文獻(xiàn)20中,作者提岀使用一種對(duì)分網(wǎng)絡(luò)的數(shù)學(xué)模型對(duì)用戶興趣進(jìn)行預(yù)測(cè),該算法基 于協(xié)同過濾的原理,通過對(duì)復(fù)雜網(wǎng)絡(luò)的研究,利用網(wǎng)絡(luò)動(dòng)力學(xué)原理對(duì)用戶的共同興趣進(jìn) 行劃分【別,得到了比協(xié)同過濾算法更高的精確度。開源項(xiàng)目中也有許多關(guān)于推薦系統(tǒng)的資源:tast
27、e是一個(gè)基于java ee平臺(tái)的開源 的推薦引擎,定義了完整的推薦模型包和實(shí)現(xiàn)了常見的推薦算法,已經(jīng)成為一個(gè)推薦器 的集合,并加入了 apache mahout開源項(xiàng)目。duine是一個(gè)推薦框架,改進(jìn)了用戶模型, 反饋和解釋模塊利模塊間的交互。grouplens是明尼蘇達(dá)大學(xué)計(jì)算機(jī)科學(xué)工程學(xué)院的研 究小組,該小組采集了多種應(yīng)用領(lǐng)域的不同規(guī)模的數(shù)據(jù),是目前推薦實(shí)驗(yàn)的常用數(shù)據(jù)集。13研究?jī)?nèi)容推薦系統(tǒng)是一門新型課題。經(jīng)過十多年的研究,雖然取得了一些進(jìn)展,但仍然存在 很多有待解決的問題。本文首先在總結(jié)傳統(tǒng)推薦算法和前人研究成果的基礎(chǔ)上,設(shè)計(jì)出 一種基于項(xiàng)目聚類的混合策略的推薦算法,提高了推薦精度,在一
28、定程度上解決了系數(shù) 矩陣問題。此外為了提高評(píng)價(jià)估計(jì)的精度和準(zhǔn)確度,本文提出了一種聚類效果判別方式, 并采用模糊聚類和構(gòu)造隸屬度矩陣方法對(duì)項(xiàng)目聚類,達(dá)到更好的聚類效果,提高評(píng)分估 計(jì)精度。通過對(duì)比實(shí)驗(yàn),本文提出的基于模糊聚類的混合推薦算法提高了推薦精度和評(píng) 價(jià)估計(jì)。通過對(duì)五組不同稀疏程度的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)表明,這種推薦效率和評(píng)價(jià)估計(jì)的 提髙是穩(wěn)定的。1.4論文結(jié)構(gòu)本文的主要研究?jī)?nèi)容是希望提出一種混合策略的推薦算法,該算法能在整體上提高 推薦的準(zhǔn)確度,同時(shí)很好的處理原始數(shù)據(jù)中的離群點(diǎn)?;谝陨夏康模谝酝芯康幕?礎(chǔ)上,本文針對(duì)提高推薦系統(tǒng)的精度,以及推薦精確度和多樣性之間的平衡,提出了一 種基于模
29、糊聚類的混合推薦算法。本文各個(gè)章節(jié)的組織結(jié)構(gòu)如下:第一章緒論,介紹了推薦系統(tǒng)的產(chǎn)生和及相關(guān)研究背景,簡(jiǎn)要概述了推薦系統(tǒng)的不 同推薦方法、研究現(xiàn)狀和存在的問題第二章將介紹傳統(tǒng)的個(gè)性化推薦算法,以及加入數(shù)據(jù)挖掘領(lǐng)域知識(shí)的新的推薦算 法,通過對(duì)算法性能的分析,比較這些傳統(tǒng)算法的優(yōu)點(diǎn)和局限。第三章將介紹提出的一個(gè)混合策略的推薦算法hrci (hybrid recommendation algorithm based on collaborative filtering and item clustering)o 該算法結(jié)合了項(xiàng)目聚類和 協(xié)同過濾算法,即通過項(xiàng)目聚類降低用戶向量的維度,簡(jiǎn)化用戶相似度計(jì)算
30、。并且利用 同類對(duì)象之間的相關(guān)度,對(duì)目標(biāo)項(xiàng)的評(píng)分進(jìn)行估計(jì)。最后從基于用戶和基于項(xiàng)兩種方式 的結(jié)合,得出推薦列表。第四章從fcm模糊聚類算法出發(fā),將隸屬度函數(shù)應(yīng)用到數(shù)據(jù)聚類中,提岀了一種 適用于用戶聚類的效果度量方法。介紹了基于迭代思想的fcm算法,基于fcm算法的 迭代思想,設(shè)計(jì)了基于層次的隸屬度矩陣迭代的imc聚類算法(iteration membership degree matrix clustering)o實(shí)驗(yàn)證明,該算法便于發(fā)現(xiàn)用戶的簇的數(shù)目,并且對(duì)邊界數(shù)據(jù) 的處理方式恰當(dāng),適合項(xiàng)目聚類的要求,為改進(jìn)hrci算法提供了條件。第五章將imc聚類算法思想融合到hrci推薦算法中,提出了一
31、種新的hrfc推 薦算法(hybrid recommendation based on fuzzy cluster, hrfc)。并提出 了初始化隸屬 度矩陣的構(gòu)造方法,證明了模糊聚類算法在評(píng)分估計(jì)中的作用。經(jīng)過驗(yàn)證,新的推薦算 法提高了原算法的評(píng)分估計(jì)精確,算法性能穩(wěn)定,具有實(shí)際使用價(jià)值。最后總結(jié)了論文的工作,為進(jìn)一步研究做岀展望。第二章 數(shù)據(jù)挖掘與個(gè)性化推薦算法2.1推薦問題的提出和基本概念推薦系統(tǒng)是融合多個(gè)學(xué)科知識(shí)相結(jié)合,用以解決信息過載問題的一種工具。在推薦 過程中,用戶不再需要向系統(tǒng)提交自己的索引關(guān)鍵字來(lái)查找內(nèi)容,而是將整個(gè)過程轉(zhuǎn)變 為系統(tǒng)為主導(dǎo)的主動(dòng)向用戶做出推薦,不需要用戶向系統(tǒng)
32、描述對(duì)象的詳細(xì)特征。目前推 薦系統(tǒng)已經(jīng)在實(shí)際應(yīng)用中發(fā)揮著作用,推薦問題的實(shí)質(zhì)就是尋找用戶集中的元素與項(xiàng)集 中的元素興趣度關(guān)聯(lián)的關(guān)系問題。比如,對(duì)于一個(gè)銷售cd的商店來(lái)說(shuō),推薦系統(tǒng)就的 用途就是根據(jù)銷售的歷史記錄,幫助店主找出目標(biāo)客戶可能喜歡聽的cd是哪些,以便 向客戶進(jìn)行推薦。推薦系統(tǒng)按功能劃分可以分為三個(gè)模塊:用戶模塊.項(xiàng)目模塊和推薦模塊圖2-1推薦系統(tǒng)的組成模塊fig. 2-1 the construction of recommender system設(shè)矩陣u = (uy)m%n是用戶特征矩陣,切是用戶i的第/個(gè)特征分量;設(shè)矩陣 f 是推薦項(xiàng)目的特征矩陣,是項(xiàng)目的第丿個(gè)特征分量;矩陣恥館
33、扁是用 戶的評(píng)分矩陣,如圖,其中是第i個(gè)用戶對(duì)第丿項(xiàng)的打分,q的初始值都為0。利用收 集到的數(shù)據(jù),構(gòu)建評(píng)分矩陣r和用戶特征矩陣u,繼而建立用戶模型,并選用適當(dāng)?shù)耐?薦算法,提取用戶模型中隱含的用戶興趣,對(duì)目標(biāo)用戶可能會(huì)感興趣的項(xiàng)做出預(yù)測(cè)。user idlsb»rating1000200501881074322678x5<08052000)11552041t7825c002006107603150700020743226t8x700300009308910761823r =j0000800306718885879440061076031400080020400609140688r
34、00aao5074322678x8d00008丿503807158992600610760317606718885878圖2-2構(gòu)造用戶評(píng)價(jià)距陣fig. 2*2 building the evaluation matrix of users推薦算法是推薦系統(tǒng)的核心部分。目前推薦算法仍存在以下幾個(gè)關(guān)鍵的問題有待解 決:1、數(shù)據(jù)的獲取。推薦系統(tǒng)的數(shù)據(jù),特別是從用戶收集而來(lái)的數(shù)據(jù),隱含了大量的 用戶信息。獲取用戶數(shù)據(jù)有兩種手段,即隱式方式和顯式方式。隱式方式是指不需要強(qiáng) 迫用戶通過提交表單或者給項(xiàng)目打分等手段,而是當(dāng)用戶在系統(tǒng)中隨意瀏覽的過程中, 記錄下用戶的操作序列,對(duì)不同的操作賦予不同的權(quán)重,比
35、如瀏覽記為1,收藏記為3, 購(gòu)買記為5,從而從中發(fā)掘用戶興趣;顯式方式是指通過用戶給瀏覽過的數(shù)據(jù)的打分和 評(píng)價(jià),用分值構(gòu)造評(píng)分矩陣,從中得到的用戶興趣數(shù)據(jù)。兩種方式相比,顯式獲取到的 數(shù)據(jù)更加精確,但是頻繁的讓用戶做出評(píng)價(jià)可能會(huì)導(dǎo)致用戶失去耐心;而隱式的獲取數(shù) 據(jù)具備良好的用戶友好性,但是由于用戶的操作過程誤操作率極大,因此數(shù)據(jù)的精確度 大大降低。2、相似度度量。推薦系統(tǒng)中的每一個(gè)用戶和項(xiàng),都可以表示成空間中的向量,因 而相關(guān)用戶和項(xiàng)之間的相似度,是推薦的重要依據(jù)。后面介紹的推薦算法大多涉及到大 量的相似度的計(jì)算。常用的相似度度量標(biāo)準(zhǔn)有向量余弦、歐幾里德距離、皮爾遜相關(guān)系 數(shù)和改進(jìn)的向量余弦。
36、3、用戶的評(píng)分估計(jì)。評(píng)分矩陣r既隱含了大量的用戶興趣信息,又是做出推薦時(shí) 的依據(jù),但是這個(gè)矩陣在通常情況下是一個(gè)稀疏矩陣。由于相對(duì)于數(shù)據(jù)庫(kù)中眾多的項(xiàng)目, 每一個(gè)用戶能夠做出評(píng)價(jià)的項(xiàng)目數(shù)量是相當(dāng)有限的,因此造成評(píng)價(jià)矩陣中絕大多數(shù)元素 都保持初始狀態(tài)0,這一現(xiàn)象叫做評(píng)價(jià)矩陣的稀疏問題。稀疏矩陣是推薦問題不可避免 的問題。對(duì)用戶評(píng)分進(jìn)行估計(jì),用估計(jì)值填充稀疏矩陣是解決這個(gè)問題的方法之一,此 外,評(píng)分的估計(jì)值也可以為推薦項(xiàng)與用戶的關(guān)聯(lián)程度提供一個(gè)量化標(biāo)準(zhǔn)。4、冷啟動(dòng)問題。冷啟動(dòng)問題是針對(duì)新加入系統(tǒng)的用戶和項(xiàng)提出的。一個(gè)新加入系 統(tǒng)的用戶,由于沒有歷史記錄,推薦無(wú)從入手,因此也無(wú)法做出有效推薦。對(duì)每一個(gè)
37、用 戶,系統(tǒng)也都必須要經(jīng)過一段時(shí)間的學(xué)習(xí),才能充分了解用戶的興趣;同理,對(duì)于新添 加的項(xiàng)也是如此。系統(tǒng)中的新添加項(xiàng),由于沒有用戶對(duì)其評(píng)分,因而算法無(wú)法將其加入 推薦列表。個(gè)性化推薦技術(shù)經(jīng)過十多年的研究,已經(jīng)取得了許多研究成果,也提出了一些相關(guān) 的推薦算法,下面介紹幾種常用的推薦算法。2.2基于關(guān)聯(lián)規(guī)則的推薦算法關(guān)聯(lián)規(guī)則反映的是事務(wù)之間的聯(lián)系。關(guān)聯(lián)規(guī)則的主要任務(wù)就是根據(jù)最小支持度找出 頻繁項(xiàng)集,然后根據(jù)頻繁項(xiàng)集導(dǎo)出規(guī)則。設(shè)片和是項(xiàng)集中的兩項(xiàng),如果集合億,滿 足最小支持度閾值,那么仁囲就是頻繁項(xiàng)集,s.nsb就是強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)關(guān)聯(lián)規(guī) 則的這種特性,我們可以認(rèn)為,如果珞和具有強(qiáng)關(guān)聯(lián)關(guān)系,對(duì)陷感興趣
38、的用戶很可能 對(duì)感興趣。對(duì)于關(guān)聯(lián)規(guī)則算法,最核心的問題就是尋找頻繁項(xiàng)集。而在算法實(shí)現(xiàn)上,最重要的 問題是減少掃描數(shù)據(jù)集的次數(shù)。因?yàn)楹蜻x的項(xiàng)集數(shù)據(jù)很大,重復(fù)掃描會(huì)造成很大的系統(tǒng) 負(fù)載,系統(tǒng)的穩(wěn)定性很難保證。另外,生成的候選項(xiàng)集的數(shù)量會(huì)更大,加重了存儲(chǔ)負(fù)擔(dān)。 因此在算法實(shí)現(xiàn)上應(yīng)該盡量避免重復(fù)掃描數(shù)據(jù)集和產(chǎn)生盡可能少的候選項(xiàng)集。apriori 算法是種快速挖掘頻繁項(xiàng)集的算法【,它利用apriori性質(zhì)對(duì)產(chǎn)生的候選項(xiàng)集進(jìn)行剪 枝,即g是頻繁項(xiàng)集,它的所有非空子集也都是頻繁項(xiàng)集;反之,如果c-是非頻繁項(xiàng) 集,那么它的任意超集g必然不是頻繁項(xiàng)集。因此,包含非頻繁項(xiàng)集ci的超集不需要 再進(jìn)行掃描和計(jì)算,即可
39、認(rèn)定不是頻繁項(xiàng)集,利用這一性質(zhì),減少了存儲(chǔ)候選項(xiàng)集的空 間,但是由于仍需要重復(fù)掃描數(shù)據(jù)集,時(shí)間上沒有顯著提高。fp增長(zhǎng)算法利用遞歸的 策略,通過構(gòu)造fp樹的方法來(lái)存儲(chǔ)頻繁項(xiàng)集。由于不需要頻繁的掃描數(shù)據(jù)集,而且不 產(chǎn)生候選項(xiàng)集,fp樹算法【在時(shí)間和穩(wěn)定性上都有很好的優(yōu)化,但是由于采用遞歸的 策略,因此當(dāng)處理數(shù)據(jù)集很大的時(shí)候,fp算法不能很有效的產(chǎn)生規(guī)則。eclat算法 采用的是與前兩種不同的垂直數(shù)據(jù)格式,并利用apriori算法挖掘事務(wù)項(xiàng)集。由此可知,關(guān)聯(lián)規(guī)則推薦算法不同于傳統(tǒng)的推薦算法,除了評(píng)分矩陣r = (q)襯外,它還要記錄用戶每一次與系統(tǒng)交互的操作序列。由于不需要對(duì)項(xiàng)目屬性進(jìn)行具體分 析
40、,不需要相關(guān)的領(lǐng)域知識(shí)對(duì)數(shù)據(jù)項(xiàng)進(jìn)行分類,而只是依靠事務(wù)數(shù)據(jù)庫(kù)中的關(guān)聯(lián)關(guān)系, 因此關(guān)聯(lián)規(guī)則很容易發(fā)現(xiàn)用戶的隱藏興趣;但同時(shí),關(guān)聯(lián)規(guī)則算法在時(shí)間和空間上的效 率依賴于候選數(shù)據(jù)集的數(shù)量,在處理大數(shù)據(jù)集的數(shù)據(jù)時(shí)產(chǎn)生規(guī)則時(shí)間長(zhǎng),效率不高。關(guān) 聯(lián)規(guī)則算法可以在一定程度上解決系統(tǒng)冷啟動(dòng)問題的制約,但另外對(duì)于推薦系統(tǒng)的最大 問題一評(píng)價(jià)矩陣稀疏性問題,關(guān)聯(lián)規(guī)則很難處理,個(gè)性化程度不強(qiáng),目前針對(duì)關(guān)聯(lián)規(guī) 則算法的一些改進(jìn),在這方面也沒有明顯改善。2.3基于內(nèi)容的推薦算法基于內(nèi)容的推薦算法,用戶c對(duì)項(xiàng)$的效用函數(shù)”(c,$)是依據(jù)項(xiàng)之間的關(guān)聯(lián)來(lái)估計(jì) 的。當(dāng)系統(tǒng)向用戶推薦某一項(xiàng)s時(shí),會(huì)先在數(shù)據(jù)庫(kù)中查找用戶的評(píng)分記錄,找
41、出評(píng)分比 較高的幾項(xiàng)之間的共性,作為用戶的偏好,然后找岀與用戶偏好相似度比較高的項(xiàng)作為 推薦。比如前面提到的fab推薦系統(tǒng),主要功能是向用戶推薦網(wǎng)頁(yè)文本,它首先從網(wǎng)絡(luò) 上抓取網(wǎng)頁(yè),使用分詞工具處理文本,從每個(gè)網(wǎng)頁(yè)提取100個(gè)關(guān)鍵詞來(lái)表示網(wǎng)頁(yè)。并且 每個(gè)關(guān)鍵詞依據(jù)不同的標(biāo)準(zhǔn),賦予不同的權(quán)重。常見的計(jì)算方法有tf-idf (詞頻/逆向文檔詞頻)】,它假設(shè)關(guān)鍵字的重要性與它 在文件中岀現(xiàn)的次數(shù)成正比,與它在所有文檔庫(kù)中出現(xiàn)的頻率成反比。這樣的假設(shè)是為 了防止因文本的長(zhǎng)度不同,因?yàn)閷?duì)于同一個(gè)關(guān)鍵詞,長(zhǎng)文檔比短文檔有更高的出現(xiàn)頻率, 但是它未必是關(guān)鍵詞。珥=亠j(公式21)max,人珥就是關(guān)鍵詞何在文檔
42、勺中的詞頻,厶是心在文檔心中出現(xiàn)的次數(shù),maxz.是 文檔心中出現(xiàn)次數(shù)最多的關(guān)鍵詞心出現(xiàn)的次數(shù)。(公式2-2)但是考慮到如果有一篇并不相關(guān)的文檔,對(duì)匕關(guān)鍵詞也有很高的詞頻,說(shuō)明這個(gè)關(guān) 鍵詞在分類效果上就不是很好。所以要引入idf度量。關(guān)鍵詞&的逆向文檔頻率即:idfi =log 一nin是所有文檔的總數(shù),旺是包含關(guān)鍵詞&的文檔總數(shù)。則該關(guān)鍵詞k,的tf-idf權(quán)重w?w嚴(yán) tfgxldfj(公式 23)由此,就可以用tf-idf將一個(gè)文檔表示為一個(gè)k維向量。在此向量空間使用向量 余弦度量或者pearson度量,衡量文檔之間的相似度2.4協(xié)同過濾算法協(xié)同過濾的基本思想是對(duì)一大群人
43、進(jìn)行分析,找出與目標(biāo)用戶品味相近的一小群 人,考察他們的興趣差異,構(gòu)造一個(gè)推薦候選集。根據(jù)信息過濾的對(duì)象不同,協(xié)同過濾 算法又分為基于用戶的協(xié)同過濾和基于項(xiàng)的協(xié)同過濾刖。1992年,david goldberg設(shè)計(jì) 出的tapestry系統(tǒng)【2】,是第一個(gè)基于協(xié)同過濾思想的推薦系統(tǒng)。2.4.1基于用戶的協(xié)同過濾基于用戶的協(xié)同過濾算法就是最初傳統(tǒng)的協(xié)同過濾算法,就是計(jì)算訓(xùn)練樣本集中與 目標(biāo)用戶的相似度s©,找出相似的k個(gè)鄰居,估計(jì)目標(biāo)用戶對(duì)未評(píng)分項(xiàng)的打分,將推 薦項(xiàng)按照估計(jì)評(píng)分輸出推薦列表?;谟脩舻膮f(xié)同過濾算法的描述1312,:collaborative filtering(r, k
44、, 0); /n:目標(biāo)用戶的鄰居集合l:推薦列表for(all ui,uj eu)sy =sim(ui9uj);endforfor(j=l to k)top®) t n;endforfor(人=1廣1)r廠遼姝t厶;endfor sort(l); end 算法2-1基于用戶的協(xié)咼過濾算壓algorithm】 collaborative filtering based on users最終得到目標(biāo)用戶坷推薦列表l,并根據(jù)對(duì)目標(biāo)用戶的有用程度心排序?;谟脩舻膮f(xié)同過濾算法是早期提出的推薦算法,因此該算法存在許多問題。前面 所提到的用戶冷啟動(dòng)問題,在基于用戶的協(xié)同過濾算法中體現(xiàn)的尤為明顯。
45、對(duì)于一個(gè)新 用戶,甚至是那些評(píng)分項(xiàng)很少的用戶,即使系統(tǒng)中存在與其興趣相似的用戶,算法也很 難通過s"找到相似鄰居,推薦效果也不理想。2.4.2基于項(xiàng)的協(xié)同過濾基于項(xiàng)的協(xié)同過濾算法是對(duì)傳統(tǒng)協(xié)同過濾算法的改進(jìn)0】。該算法考慮到項(xiàng)目之間 的相關(guān)性,即假設(shè)能夠引起用戶興趣的項(xiàng),必然與該用戶做過較高評(píng)分的項(xiàng)具有一定的 相關(guān)性。因此可以通過尋找目標(biāo)項(xiàng)的最近鄰居,把相近項(xiàng)的評(píng)分的平均值,或者加權(quán)平 均值當(dāng)做目標(biāo)用戶對(duì)該項(xiàng)的評(píng)分,將評(píng)分最高的幾項(xiàng)推薦給目標(biāo)用戶。0 0 3、0 0 00 0 98 0 00 2 00 0®以矩陣r為例,通過計(jì)算項(xiàng)目之間的相似度,厶與厶具有很高的相似度。如 果
46、旳是目標(biāo)用戶,系統(tǒng)可以挑選厶作為推薦項(xiàng)。坷對(duì)右的估計(jì)評(píng)分是依據(jù)厶、厶的評(píng)分 和彼此的相似度計(jì)算得到。2.5常見推薦算法的比較2.5.1基于內(nèi)容的推薦算法的優(yōu)劣基于內(nèi)容的推薦,對(duì)項(xiàng)目變動(dòng)頻率較低的文本數(shù)據(jù)集的應(yīng)用來(lái)說(shuō),是最恰當(dāng)?shù)耐扑] 算法,通過自動(dòng)特征抽取技術(shù),可以很快的提取出文檔的特征屬性,通過特征向量對(duì)文 檔對(duì)象進(jìn)行度量。由于文檔對(duì)象的屬性多種多樣,彼此之前的差異性比較大,因此在文 檔對(duì)象的推薦中,基于內(nèi)容推薦算法相對(duì)協(xié)同過濾算法有著無(wú)可比擬的優(yōu)越性。另外, 在項(xiàng)目的冷啟動(dòng)問題上,基于內(nèi)容的推薦算法由于使用自動(dòng)提取特征屬性,因此不會(huì)受 到冷啟動(dòng)的局限,這一點(diǎn)也是協(xié)同過濾算法無(wú)法做到的。但是,
47、基于內(nèi)容的推薦算法還有很多局限性。比如在處理多媒體數(shù)據(jù),圖像和聲音、 視頻流,自動(dòng)特征抽取就很難發(fā)揮作用。即使是文檔對(duì)象,兩個(gè)不同的文檔有可能使用 同樣的一組特征向量表示,但實(shí)際上他們是不同的。即使用關(guān)鍵字表示文檔,推薦系統(tǒng) 依然很難區(qū)分兩篇長(zhǎng)度和關(guān)鍵字一樣,但內(nèi)容千差萬(wàn)別的文章。此外,數(shù)據(jù)的過擬合問題。推薦系統(tǒng)只會(huì)推薦那些對(duì)用戶的效用函數(shù)較髙的項(xiàng)。也 就是說(shuō),推薦系統(tǒng)對(duì)用戶做出的推薦,基本上都是與用戶已經(jīng)瀏覽或者評(píng)分的那些項(xiàng)相 類似的,這樣就帶來(lái)一種數(shù)據(jù)過擬合問題,如果用戶沒有對(duì)數(shù)據(jù)項(xiàng)集中進(jìn)行廣泛的瀏覽, 那么推薦系統(tǒng)就無(wú)法對(duì)用戶的所有興趣做出推薦,而總是對(duì)用戶最初瀏覽的項(xiàng)進(jìn)行類似 的重復(fù)推
48、薦。這是因?yàn)橄到y(tǒng)的數(shù)據(jù)不完備性造成的。這一問題不僅僅存在于基于內(nèi)容的 推薦算法中,但在基于內(nèi)容的推薦算法中顯得尤為突出。因此在一些情況下,如果推薦 結(jié)果中存在與用戶已瀏覽項(xiàng)相似度很高的項(xiàng),我們就放棄推薦這一項(xiàng)。比如標(biāo)題不同但 是內(nèi)容主題相同的文檔。文獻(xiàn)23提出一種方法,將于用戶興趣相似度較高和較低的項(xiàng) 全部過濾掉??傊?,推薦系統(tǒng)也應(yīng)該推薦一些用戶不是特別感興趣的可選項(xiàng)。新用戶問題。一個(gè)新注冊(cè)的用戶,必須對(duì)數(shù)據(jù)項(xiàng)進(jìn)行一定量的評(píng)分,系統(tǒng)才能真正 理解用戶的興趣,給用戶可靠的推薦。一個(gè)新用戶,系統(tǒng)無(wú)法準(zhǔn)確掌握用戶的興趣,無(wú) 法做出精確的推薦。2.5.2協(xié)同過濾算法的優(yōu)劣協(xié)同過濾推薦算法適用于目前大部
49、分的推薦系統(tǒng),相比基于內(nèi)容的推薦算法更適用 更優(yōu)越。同時(shí)因?yàn)槭褂脜f(xié)同評(píng)分的策略,可以對(duì)任意項(xiàng)做出推薦,即使是與用戶興趣不 相關(guān)的項(xiàng)。也可以處理文檔對(duì)象御。但是協(xié)同過濾算法也有他的局限。與基于內(nèi)容的推薦算法一樣,協(xié)同過濾也存在新 用戶問題。新用戶的系統(tǒng)冷啟動(dòng)問題,在協(xié)同過濾算法中依然存在。另外,項(xiàng)目的增加 也是協(xié)同過濾算法的一大缺憾。由于協(xié)同過濾算法完全依靠用戶的偏好作為推薦,因此, 對(duì)于新產(chǎn)生的項(xiàng),只有當(dāng)一部分用戶對(duì)它進(jìn)行評(píng)分,系統(tǒng)才會(huì)把它作為推薦。評(píng)價(jià)矩陣的稀疏性。協(xié)同過濾算法的推薦系統(tǒng),其推薦精度很大程度依賴于用戶對(duì) 項(xiàng)的評(píng)價(jià)數(shù)量。但是目前存在的推薦系統(tǒng),由于項(xiàng)目集規(guī)模龐大,而每一個(gè)用戶的
50、興趣又相對(duì)集中,因而造成評(píng)價(jià)數(shù)據(jù)存在大量空缺值,成為一個(gè)稀疏矩陣。對(duì)于矩陣的稀疏 程度的度量,提出一個(gè)矩陣的稀疏度spa(r)的概念,即空缺項(xiàng)占所有矩陣元素的比例。spa(r) = (公式 2-4)mxn早期提出的基于項(xiàng)的協(xié)同過濾算法,就是針對(duì)稀疏矩陣問題提出的一種改進(jìn)。解決 稀疏矩陣的推薦精度問題,還可以通過小規(guī)模樣本進(jìn)行有效的預(yù)測(cè)。還可以根據(jù)用戶模 型計(jì)算用戶間的相似度。當(dāng)兩個(gè)用戶對(duì)相同的項(xiàng)評(píng)分相似,即在人口統(tǒng)計(jì)學(xué)上屬于一類, 這時(shí)就可以認(rèn)為兩個(gè)用戶是相似的。協(xié)同過濾推薦算法中,用戶對(duì)項(xiàng)目的評(píng)分屬于顯性反饋,這種反饋對(duì)用戶來(lái)說(shuō)很不 公平,推薦過程不僅需要用戶提供個(gè)人信息,而且需要對(duì)許多項(xiàng)目
51、進(jìn)行評(píng)價(jià);而基于內(nèi) 容的推薦可以省去繁瑣的評(píng)分過程,僅僅通過挖掘用戶的瀏覽行為和點(diǎn)擊等操作,就可 以很好的獲得所需要的信息。2.6推薦系統(tǒng)的工作流程推薦系統(tǒng)的工作一般分為如下幾個(gè)步驟:數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,訓(xùn)練分類,接收 用戶輸入,推薦策略的選擇,得出推薦推薦結(jié)果,可視化展示結(jié)果。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理相似度計(jì)算推薦策略推薦結(jié)果圖23推薦系統(tǒng)的一般工作流程fig. 2-3 the common flow of work of recommender system數(shù)據(jù)采集做出推薦的基礎(chǔ)就是要采集與用戶興趣相關(guān)的信息,比如用戶的瀏覽記錄、購(gòu)買記 錄、査看詳情記錄、添加刪除書簽、下載記錄等。用戶的操作包
52、含了用戶的興趣。因此 在一個(gè)好的推薦系統(tǒng)中,數(shù)據(jù)釆集的方式和數(shù)量尤為關(guān)鍵。獲取用戶信息一般分為顯式 和隱式的過程。顯式過程獲取方式直接,數(shù)據(jù)精確,但是需要用戶對(duì)項(xiàng)和興趣進(jìn)行評(píng)價(jià) 和描述,有些涉及用戶個(gè)人隱私,所以過多的顯式獲取會(huì)降低用戶的滿意度;隱式過去 更簡(jiǎn)單更直接,用戶進(jìn)入系統(tǒng)的一切操作都可以看做是對(duì)用戶興趣的描述,都可以拿來(lái) 作為推薦依據(jù),但是隱式獲取的數(shù)據(jù)準(zhǔn)確性大大降低。一般采用顯式和隱式結(jié)合的方式 來(lái)采集數(shù)據(jù)。數(shù)據(jù)預(yù)處理采集到的原始數(shù)據(jù)一般需要進(jìn)行預(yù)處理。比如進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,規(guī)范化,離群點(diǎn) 和消除噪聲數(shù)據(jù)的消除等操作。相似度計(jì)算相似度計(jì)算是找到最近鄰居的重要依據(jù)。目前大部分推薦算法
53、都需要進(jìn)行相似度計(jì) 算,而且相似度計(jì)算的準(zhǔn)確與否,會(huì)影響到推薦的性能。因此相似度是推薦算法的關(guān)鍵 步驟。通常相似度計(jì)算方法有如下幾種:歐幾里德距離、余弦相似度、改進(jìn)余弦相似度、 pearson相似系數(shù)等。選用何種相似度度量方式,要根據(jù)數(shù)據(jù)的特性選擇。推薦策略推薦策略是指推薦算法的選擇。如同上節(jié)所分析的,推薦算法有其固有的優(yōu)點(diǎn)和不 足,如何設(shè)計(jì)合適的推薦算法應(yīng)用到系統(tǒng)當(dāng)中,應(yīng)當(dāng)確定在設(shè)計(jì)系統(tǒng)模型之前。評(píng)判推 薦算法的優(yōu)劣,應(yīng)當(dāng)從以下幾個(gè)方面考慮:推薦的精確度、多樣性和f-measure221o精 確度(precision)反映了推薦系統(tǒng)的結(jié)果對(duì)用戶的有用程度,覆蓋率性(coverage)反映的是
54、 推薦的結(jié)果對(duì)用戶興趣的覆蓋率,f-measure則是信息檢索領(lǐng)域的一種度量方法,結(jié)合 了精確度和多樣性二者的度量。設(shè)u是用戶興趣的集合,r是系統(tǒng)推薦的集合【2鐵咖 percision =1(公式2-5)r0ucqn erage(公式2-6)_2x percision x coveragef 一 measure =percision + cov erage(公式2-7)推薦結(jié)果推薦系統(tǒng)的結(jié)果呈現(xiàn),應(yīng)當(dāng)用一些可視化和知識(shí)表示的技術(shù),對(duì)推薦結(jié)果進(jìn)行可視 化的表示,在不同維度上向用戶形象的展現(xiàn)推薦結(jié)果。2.7本章小結(jié)本章詳細(xì)分析了常見的推薦算法和推薦模型理論,闡述了傳統(tǒng)推薦算法存在的問 題,通過算法
55、的比較,分別指出傳統(tǒng)推薦算法用于推薦技術(shù)時(shí)的優(yōu)點(diǎn)和局限性,并簡(jiǎn)要介紹了目前彌補(bǔ)這些弊端所采取的措施,為后面章節(jié)推薦算法的改進(jìn)指出了目標(biāo)。最后 介紹了推薦系統(tǒng)模型的工作流程,以及判斷系統(tǒng)優(yōu)劣性的常用評(píng)判標(biāo)準(zhǔn)。第三章 混合策略的推薦算法通過以上對(duì)傳統(tǒng)推薦算法的介紹可以看出,盡管推薦策略各有不同,但是大多算法 都涉及到相似度計(jì)算。因此,相似度的度量是推薦算法的重要步驟。另外,在實(shí)際應(yīng)用 中,也應(yīng)根據(jù)實(shí)際情況選擇合適的推薦算法。常見的推薦算法各有各的缺陷,單純使用 一種推薦算法已無(wú)法滿足實(shí)際需要珂。為了彌補(bǔ)傳統(tǒng)算法的缺陷,常用的方法是釆用混 合策略的推薦算法,即采用多種推薦算法相結(jié)合。因此本章擬采用協(xié)
56、同過濾與數(shù)據(jù)挖掘 算法的結(jié)合,設(shè)計(jì)一個(gè)混合策略的推薦算法。3.1概述混合推薦算法有多種實(shí)現(xiàn)途徑。通常主要有以下幾種方法:1、分別實(shí)現(xiàn)協(xié)同過濾和基于內(nèi)容,然后將兩種結(jié)果合并起來(lái)【創(chuàng)。一個(gè)推薦系統(tǒng)可以包含多個(gè)獨(dú)立的子系統(tǒng),各個(gè)子系統(tǒng)分別作出評(píng)價(jià),然后匯總起 來(lái),在主推薦系統(tǒng)中,按照一定的規(guī)則或者權(quán)重集成評(píng)價(jià)數(shù)據(jù)。比如dailyleamer推薦 系統(tǒng),是一種類似元推薦引擎。它同時(shí)連接多個(gè)推薦系統(tǒng),并統(tǒng)計(jì)各個(gè)推薦系統(tǒng)的結(jié)果和數(shù)據(jù)統(tǒng)計(jì)。對(duì)用戶做推薦時(shí),會(huì)給置信度較高的子系統(tǒng)和其他子系統(tǒng)返回的評(píng)價(jià)結(jié)果 分別賦予不同的權(quán)重,將匯總之后的推薦結(jié)果返回給用戶。這樣的結(jié)合,推薦結(jié)果是兩 種算法返回結(jié)果的簡(jiǎn)單的匯總,但是算法的應(yīng)用范圍擴(kuò)大了很多。2、在協(xié)同過濾算法中加入一些基于內(nèi)容的特點(diǎn)。斯坦福大學(xué)的fab推薦系統(tǒng)】,嚴(yán)格來(lái)說(shuō)是一個(gè)基于內(nèi)容的協(xié)同過濾推薦系統(tǒng)。與 傳統(tǒng)的協(xié)同過濾算法的相比,加入基于內(nèi)容的特點(diǎn)之后不僅對(duì)項(xiàng)做出打分,而且還計(jì)算 用戶之間的相似度。推薦的結(jié)果既保留了評(píng)價(jià)矩陣中與用戶興趣相符的髙分項(xiàng),而且還 加入了與用戶興趣不相符的高分項(xiàng),這樣有助于幫助用戶找到潛在興趣。和傳統(tǒng)的協(xié)同 過濾算法相比,這樣既保留了協(xié)同過濾的優(yōu)越性,又在一定程度上克服了評(píng)價(jià)稀疏性的 問題。3
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 連鎖便利店企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 水彩畫紙批發(fā)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 臨時(shí)培訓(xùn)講師合同
- 二零二五年度互聯(lián)網(wǎng)公司試用期員工勞動(dòng)合同規(guī)范
- 2025年度高標(biāo)準(zhǔn)環(huán)保廠房建造委托合同范本
- 二零二五年度解除股權(quán)質(zhì)押擔(dān)保合同
- 2025年度金融衍生品投資協(xié)議合同
- 二零二五年度房屋租賃押金退還及租金減免合同
- 二零二五年度按揭房屋借款合同貸款用途規(guī)范合同
- 二零二五年度股東權(quán)益保障與公司社會(huì)責(zé)任履行協(xié)議
- 部編版人教道德與法治(政治)八上(初二)期末復(fù)習(xí)第一單元走進(jìn)社會(huì)生活教案
- 《新媒體導(dǎo)論》(第二版)課件全套 -第1-9章 理解新媒體:多重屬性的復(fù)合-新媒體文化:流動(dòng)的亞文化
- 安徽高中畢業(yè)生登記表
- 手套完整性測(cè)試儀手套檢漏儀安全操作及保養(yǎng)規(guī)程
- 規(guī)劃建設(shè)工程竣工驗(yàn)收測(cè)量技術(shù)方案(最全)
- 《文化權(quán)力與國(guó)家》讀書筆記概況
- 新概念英語(yǔ)二第60課完整課件
- 蘇教版(2023秋)四年級(jí)科學(xué)下冊(cè)1.2《熱脹冷縮》教學(xué)設(shè)計(jì)
- 人造奶油生產(chǎn)培訓(xùn)基礎(chǔ)知識(shí)優(yōu)秀課件
- 風(fēng)電行業(yè)事故案例及風(fēng)電基礎(chǔ)施工方案
- 夾套管施工工法
評(píng)論
0/150
提交評(píng)論