




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、個性化推薦技術(shù)綜述楊莉云(廣東商學(xué)院華商學(xué)院, 廣州 )摘要: Internet的發(fā)展在給用戶帶來豐富信息資源的同時也給用戶快速找到自己需要的信息帶來了很大的困難,用戶迫切需要一種能夠根據(jù)自身特點組織和調(diào)整信息的服務(wù)模式,個性化服務(wù)應(yīng)運而生。本文根據(jù)推薦原理的不同分別介紹了基于內(nèi)容的推薦技術(shù)、協(xié)同過濾推薦技術(shù)、混合推薦技術(shù)及其它的推薦技術(shù),分析各種技術(shù)的優(yōu)缺點及適用條件,并對今后個性化推薦技術(shù)的研究熱點和發(fā)展方向進行了展望。關(guān)鍵詞:推薦系統(tǒng);基于內(nèi)容的推薦;協(xié)同過濾;關(guān)聯(lián)規(guī)則0 引言信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及使用戶更方便地接觸到更多的信息,但用戶在享受信息技術(shù)帶來的便利的同時,也遇到了信息“
2、過載”的問題,用戶無法從海量的信息中提取自己所需要的信息。一些搜索引擎通過用戶輸入關(guān)鍵字可以檢索出相關(guān)內(nèi)容,但由于缺乏用戶興趣的知識,會把所有與之相關(guān)的信息全部呈現(xiàn)給用戶,不能過濾掉用戶不感興趣的信息。也有一些電子商務(wù)網(wǎng)站會有“熱點推薦”的功能,但是面向所有用戶的非個性化推薦。用戶如何在一個網(wǎng)站上快速而有效地找到自己所需要的項目和信息?個性化推薦系統(tǒng)是解決這一問題的有效途徑。1基于內(nèi)容的推薦基于內(nèi)容的推薦起源于信息檢索領(lǐng)域,它利用資源和用戶興趣的相似性來過濾信息。首先分析項目的內(nèi)容,根據(jù)用戶評價過的項目建立用戶的興趣模型,即用戶描述文件。根據(jù)用戶描述文件的不同又可以分為基于向量空間模型的推薦、
3、基于關(guān)鍵詞分類的推薦、基于領(lǐng)域分類的推薦和基于潛在語義索引的推薦。1.1基于向量空間模型的的推薦基于向量空間模型的推薦是基于內(nèi)容推薦的最常用的方法。該方法將用戶描述文件及項目表示成一個維特征向量。向量的每一維由一個關(guān)鍵詞及其權(quán)重組成。權(quán)重可取布爾型和實數(shù)值,分別表示了用戶是否對某個概念感興趣及感興趣的程度1。關(guān)鍵詞根據(jù)推薦項目的不同可以是項目不同的屬性值,對文本項目來說,關(guān)鍵詞就是從文檔中抽取的單詞,權(quán)重可以通過TF-IDF技術(shù)計算得到。對目標(biāo)用戶進行推薦時,將用戶描述文件看成目標(biāo)項目,可采用多種方式(如歐氏距離、余弦相似性、相關(guān)相似性等)計算其它項目與目標(biāo)項目的相似性,按相似性從大到小的順序
4、將項目輸出給用戶。1.2基于關(guān)鍵詞分類的推薦Mooney提出了基于文檔特征詞分類的預(yù)測思想:將推薦看成是項目分類問題。首先定義一組類(評分),并讓用戶對一組訓(xùn)練項目進行評價,基于這個評價計算每個關(guān)鍵詞屬于某個類的條件概率,從而得出用戶的特征描述。然后根據(jù)這個特征描述計算推薦候選集中各個項目屬于某個類的后驗概率。最后將這個后驗概率作為項目的推薦預(yù)測并將具有最高得分的推薦提交給用戶2。作者簡介:楊莉云,女,1984年生,漢族,河南駐馬店人,講師;主要研究方向:電子商務(wù)、管理信息系統(tǒng)。用戶的興趣也是通過關(guān)鍵詞來表達,與向量空間模型不同,用戶描述文件用特征詞類別矩陣來表示,是特征詞個數(shù),是類別數(shù),每一
5、個元素表示第個特征詞屬于第類的條件概率,項目通過特征詞來表達,沒有項目描述文件。這種方法的假設(shè)條件是,所有的項目都可以通過特征詞集合中的特征詞來表達,每個特征詞出現(xiàn)的概率依賴于項目類別而獨立于其它特征詞。對給定的項目V,每一個類別的后驗概率可以通過如下的貝葉斯規(guī)則進行計算:其中為項目的第個特征詞,是項目中特征詞的數(shù)量。前驗概率可以被忽略,因為對于任何一個給定的項目其是一個常量。其中的參數(shù)按以下方式進行估算:目標(biāo)用戶對每一個訓(xùn)練項目都給予一個評價,于是先驗概率可通過下式計算:其中表示被給予評價的所有項目。設(shè)表示所有訓(xùn)練項目中的所有不同的特征詞,表示訓(xùn)練集中的項目數(shù),對于每一個的類別,表示所有屬于
6、該類的的訓(xùn)練項目中的不同特征詞的總數(shù),對中的每一個特征詞,表示該詞語在所有屬于該類別的訓(xùn)練項目中的次數(shù),則條件概率可以通過下式來計算:這些參數(shù)都通過Laplace估算進行“平滑”以避免對沒有出現(xiàn)在有限訓(xùn)練樣本中的特征詞的零概率估算。文檔分類完成后,根據(jù)后驗概率最高的類目決定項目的預(yù)期評價。岑詠華認為這種評價不科學(xué),預(yù)期評價應(yīng)該是所有類目后驗概率的數(shù)學(xué)期望3。最后,將預(yù)期評價較高的前個項目作為推薦呈現(xiàn)給用戶。1.3基于領(lǐng)域分類的推薦為了更好地區(qū)別用戶興趣之間的差異,曾春等提出了一種基于概率模型的文本推薦方法,把用戶興趣文件表示為用戶對不同領(lǐng)域感興趣的概率,先建立一個領(lǐng)域分類模型,然后計算所有文檔
7、和用戶在這個分類模型上的概率分布,用該概率分布來表達文檔和用戶興趣4。假定領(lǐng)域類型的集合為,其中是領(lǐng)域個數(shù),表示第個領(lǐng)域,用戶描述文件表示為一個條件概率的矢量:,文檔和用戶興趣的表達是一致的:。文檔對領(lǐng)域的后驗概率為其中,假定文檔的所有特征都獨立出現(xiàn),則可以表示為文檔所有特征條件概率的乘積:假定n(cj,t)表示特征在類中出現(xiàn)的次數(shù),為中全部特征出現(xiàn)的次數(shù)之和,表示文檔集中全部不同特征的數(shù)目,根據(jù)Lidstome連續(xù)定律,對一正數(shù),的估計值為:最后計算文檔推薦給用戶的概率:= 這種方法不僅可以體現(xiàn)用戶興趣的多樣性,而且由于用戶感興趣領(lǐng)域的個數(shù)遠小于關(guān)鍵詞的個數(shù),算法的運算速度也得到了提高?;?/p>
8、向量空間模型的推薦和基于領(lǐng)域分類的推薦用戶描述文件都用向量空間來表示,只是每一維的含義不同,計算方法也不同。第二種方法的用戶描述文件用關(guān)鍵詞類別矩陣來表示。方法二和方法三在計算文檔的類別時都用到了樸素貝葉斯規(guī)則。雖然三種方法各不相同,但有一共同點:都直接或間接用關(guān)鍵詞表達用戶興趣,由于同義詞和多義詞的存在,用關(guān)鍵詞表達用戶興趣使得推薦結(jié)果難免有些偏頗。潛在主義索引(Latent Semantic Indexing,LSI)是基于向量空間模型的補充和擴展,最初應(yīng)用于文本信息檢索領(lǐng)域,有效地解決了同義詞和多義詞的問題5。1.4潛在語義索引潛在語義索引(LSI)是一種概念檢索方法,通過分析大量的文本
9、集,自動生成關(guān)鍵字概念,文檔概念之間的映射規(guī)則。該方法試圖解決單純詞形匹配方法中的同義詞和多義詞問題,應(yīng)用該方法對英文文獻進行檢索的查準(zhǔn)率比傳統(tǒng)的詞形匹配算法高出10%30%6。LSI方法對索引項文檔矩陣進行奇異值分解(Singular Value Decomposition,即SVD),降維后的矩陣表達了索引項與文檔之間的潛在主義關(guān)系。在LSI模型中,索引項和文檔的關(guān)系由索引項文檔矩陣來表示.其中矩陣的行向量(維)表示個不同的索引項,列微量(維)表示文檔集中個不同的文檔。矩陣中非0元素表示索引項在文檔中出現(xiàn)的次數(shù),通常用索引項加權(quán)的方法來表示。對任意索引項文檔矩陣都有。其中由的左奇異向量構(gòu)成
10、,由的右奇異向量構(gòu)成,,且1 2d0,為矩陣的奇異值。取降維因子,令滿足貢獻率不等式:,為包含原始信息的閾值。貢獻率不等式是參考因子分析的相應(yīng)概念提出的用于衡量維空間因子對于整個空間的表示程度7。值過小會使一些有用的信息丟失,過大則會使運算量加大,根據(jù)不同的文本集和處理要求,最佳的值也不盡相同。SVD降維后的表示為。是階矩陣,其個行向量分別對應(yīng)個索引向量,將索引向量由維降為維;是階矩陣,其個行向量分別對應(yīng)個文檔向量,將文檔向量由維降為維。維中的每一維對應(yīng)一個偽概念。根據(jù)矩陣,我們可以計算不同文檔向量之間的相似性,找出目標(biāo)文檔的前個鄰居列表,然后根據(jù)該列表中各用戶感興趣的比例確定該文檔的接收對象
11、?;趦?nèi)容的推薦優(yōu)點是直接、簡單,推薦結(jié)果易于解釋。但也有一定的局限:僅適用于產(chǎn)品特征容易抽取的領(lǐng)域,在另外一些領(lǐng)域如電影、音樂、餐廳等項目特征不易被一組關(guān)鍵詞來清晰描述時,基于內(nèi)容的推薦就顯得無能為力,即便是在文檔領(lǐng)域,關(guān)鍵詞也僅反映了文檔內(nèi)容的一部分,一般情況下還會有其它一些因素影響用戶的評價,如文檔的質(zhì)量,下載所需時間,視覺效果(有無圖像等)。所以不能從用戶的評價中準(zhǔn)確得到用戶的興趣信息。只能推薦與用戶已有偏好相似的項目,不能為用戶發(fā)現(xiàn)新的感興趣項目。2.協(xié)同過濾推薦目前研究最多也是應(yīng)用最成熟的個性化推薦技術(shù),是與基于內(nèi)容的推薦完全不同的一種推薦方法,不是推薦與用戶過去偏好相似的項目,而
12、是根據(jù)其他用戶的偏好信息產(chǎn)生推薦。通過分析用戶評價信息(評分)把有相似需求或品味的用戶聯(lián)系起來,用戶之間共享對項目的觀點和評價,這樣就可以更好地做出選擇。Typestry是最早提出來的協(xié)同過濾推薦系統(tǒng),用于過濾電子郵件,推薦電子新聞,由于其要求用戶手工輸入查詢條件,不牽涉到用戶間的相似性計算,嚴(yán)格來講,它只是一個信息檢索系統(tǒng),只是對檢索結(jié)果根據(jù)其它用戶的反饋進行篩選8。其它的協(xié)同過濾推薦系統(tǒng)有GroupLens/NetPerceptions,Ringo/Firefly等。根據(jù)算法運行期間所用到的數(shù)據(jù)不同,協(xié)同過濾推薦可以分為兩大類:基于內(nèi)存的協(xié)同過濾(memory-based collativ
13、e filtering)和基于模型的協(xié)同過濾(model-based collative filtering)。2.1基于內(nèi)存的協(xié)同過濾基于內(nèi)存的算法運行期間需要將整個用戶數(shù)據(jù)庫調(diào)入內(nèi)存,它包括基于用戶的協(xié)同過濾和基于項目的協(xié)同過濾?;谟脩舻膮f(xié)同過濾是推薦系統(tǒng)最早采用的一種方之一9,它基于這樣一個假設(shè):如果用戶對一些項目的評分比較相似,則他們對其它項的評分也比較相似。系統(tǒng)根據(jù)用戶對不同項目的評分來計算用戶之間的相似性(余弦相似性、修正的余弦相似性、相關(guān)相似性等),取相似系數(shù)最大的前N個作為目標(biāo)用戶的鄰居,并根據(jù)鄰居用戶的對項目的評價產(chǎn)生推薦。B Sarwar把算法分為三個主要的階段:表示階段
14、、鄰居形成階段、推薦產(chǎn)生10,表示階段用階客戶-項目評價矩陣表示,由于一個客戶所評價/購買的項目只占了所有項目的一小部分,通常不到1%,這就產(chǎn)生了數(shù)據(jù)稀疏性問題,依此得出的相似系數(shù)會很不準(zhǔn)確,對鄰居形成階段的相似性計算造成了障礙,由于確定目標(biāo)用戶的鄰居用戶是協(xié)同過濾的關(guān)鍵問題,許多學(xué)者對此進行了改進。奇異值分解技術(shù)(Singular Value Decomposition)對原始矩陣進行降維處理11,這與基于內(nèi)容的推薦的潛在語義索引用到的方法是一樣的,都減少了相應(yīng)的列數(shù),增加了數(shù)據(jù)的稠密性。文獻12提出了基于項目的協(xié)同推薦,并其證明比基于用戶的推薦效果好。首先計算目標(biāo)項目與其它項目之間的相似性
15、,根據(jù)用戶已評分項目來預(yù)測用戶對目標(biāo)項目的評分,把評分最高的前個項目作為推薦結(jié)果輸出。二者在算法上并無本質(zhì)區(qū)別,一個是計算用戶間的相似性,一個是計算項目間的相似性,一個對客戶-項目評價矩陣的行向量進行操作,一個對客戶-項目評價矩陣的列向量進行操作。K Goldberg用主成分分析法進行了改進,從原始評分矩陣Rn*m中選出沒有空值的k列形成標(biāo)準(zhǔn)矩陣An*k,再對An*k進行主成分分析,把K維降為2維,將n個用戶的偏好信息映射到一個二維的特征平面上。在此平面上對用戶聚類,預(yù)測除k個項目以外的其它項的得分,降序排列后輸出給用戶13。文獻14使用形式符號來表示用戶文件(Modal Symbolic U
16、ser Profile),計算用戶每一個評分等級上其它用戶的評分分布,最終的用戶文件采用一個的矩陣來表示,其中表示共有多少個評分等級。第一行表示用戶評分是1的項目其它人的評價是1,2的比例各是多少,每一行的數(shù)值相加等于1。這種方法計算簡單但結(jié)果難以解釋。S Kuwata提出“一步到位協(xié)同過濾”( one-shot collaborative filtering)15。與傳統(tǒng)協(xié)同過濾方法不同,傳統(tǒng)方法各自獨立地預(yù)測未評分項的得分,一步到位協(xié)同過濾通過最小化已知評分分布和未知的評分分布的KL散度(Kullback-Leibler divergence)來同時預(yù)測所有未評分項的得分,并且各項的得分相
17、互關(guān)聯(lián)。2.2基于模型的協(xié)同過濾基于模型的算法首先構(gòu)造一個用戶評分的數(shù)據(jù)模型,運行期間將建立的模型調(diào)入內(nèi)存。由Breese等人于1998年提出,從概率角度看待協(xié)同過濾問題,提出了兩種基于模型的協(xié)同過濾方法:Bayesian聚類技術(shù)(Clustering)和Bayesian網(wǎng)絡(luò)技術(shù)16。Bayesian聚類技術(shù)的基本思想是將相同或相似偏好的用戶分為一組,給定用戶的分組,用戶對各項目的偏好相互獨立,用戶所屬類別和用戶對各項目評分的聯(lián)合概率分布通過貝葉斯公式來計算。LH Ungar在此基礎(chǔ)上進行了改進,比較用不同算法(E-M算法、K-Means算法、Gibbs采樣算法)來估計模型參數(shù),得出結(jié)論Gib
18、bs采樣算法要優(yōu)于其它兩種算法并更有利于模型的擴展,但是計算量卻很大17。Bayesian網(wǎng)絡(luò)技術(shù):Bayesian網(wǎng)絡(luò)中的節(jié)點代表項目,每個節(jié)點的狀態(tài)代表其可能的得分,最終得出的模型是一棵決策樹,每一個項目都由其父節(jié)點預(yù)測其得分?;趦?nèi)存的協(xié)同過濾可利用最新的用戶數(shù)據(jù)產(chǎn)生推薦,但隨著系統(tǒng)中項目的不斷增多,用戶數(shù)據(jù)庫將變得非常龐大,利用整個用戶數(shù)據(jù)庫產(chǎn)生推薦非常耗時,從而使得系統(tǒng)的實時性難以保證,這也是基于內(nèi)存的推薦算法面臨的主要挑戰(zhàn)。在基于模型的推薦算法中,模型的建立可以離線進行,因此能有效地緩解推薦算法的實時性問題。但模型相對于原始用戶數(shù)據(jù)而言具有滯后性,為了保證模型的有效性必須對模型定期
19、更新18。實際中也可以將兩種技術(shù)相結(jié)合,DM Pennock把用戶評分看成由其真實喜好加上一系列高斯噪聲得到19。根據(jù)目標(biāo)用戶屬于不同個性類型的概率及各個性類型對目標(biāo)項目的評分預(yù)測用戶對目標(biāo)項目評分的概率分布。另外也可以把基于模型的協(xié)同過濾推薦和基于內(nèi)容的推薦結(jié)合起來,以充分利用系統(tǒng)中的數(shù)據(jù)(用戶評分和項目特征)解決冷啟動問題,提高推薦效果20。與基于內(nèi)容的推薦相比協(xié)同過濾有以下優(yōu)點:對內(nèi)容信息不容易抽取的項目能產(chǎn)生完全自動化的推薦。能根據(jù)項目的質(zhì)量和用戶的品味產(chǎn)生推薦。能為用戶發(fā)現(xiàn)新的興趣。但也存在一些缺陷:數(shù)據(jù)稀疏性問題:如前所述,大多數(shù)用戶只是對一小部分項目進行了評分,原始的用戶-評分矩
20、陣非常稀疏,因此找到真正相似的用戶是很難的,系統(tǒng)使用初期這個問題更加突出??蓴U展性:隨著系統(tǒng)中項目和用戶數(shù)量的增多數(shù)據(jù)庫將變得非常龐大,為用戶產(chǎn)生推薦的精度和實時性都因此而降低。冷開始問題:如果沒有人對某件項目評分,這件項目將永遠得不到推薦。3其它推薦技術(shù)3.1關(guān)聯(lián)規(guī)則推薦關(guān)聯(lián)規(guī)則由R Agrawal最先提出,它在大的顧客交易數(shù)據(jù)集上找出項集之間的關(guān)聯(lián)性。分析顧客放入其購物籃中的項目,了解哪些項目同時頻繁地被顧客同時購買,進而形成這些項目之間的相關(guān)推薦 21。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個重要分支。關(guān)聯(lián)規(guī)則就是在一個交易數(shù)據(jù)庫中統(tǒng)計購買了項目集X的交易中有多大比例的交易同時購買了項目集Y,得
21、到的關(guān)聯(lián)規(guī)則表示為:X=Ys%,c%。其中s表示關(guān)聯(lián)規(guī)則的支持度,c表示關(guān)聯(lián)規(guī)則的置信度。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法找出所有滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則R。發(fā)現(xiàn)所有的有充分支持度和置信度的關(guān)聯(lián)規(guī)則可以分為以下兩個子問題22:尋找那些事務(wù)的支持度超過最小支持度的項目的所有組合,把這些組合稱為大的項目集,而其他組合稱為小項目集.解決此問題的算法有Apriori和AprioriTid等。用大項目集產(chǎn)生需要的規(guī)則。一般的想法是,如果ABCD和AB是大項目集,通過計算比率r支持數(shù)(ABCD)/支持數(shù)(AB),從而確定是否有規(guī)則。僅當(dāng)r大于或等于最小置信度時此規(guī)則才成立。找出所有滿足最小支持度和置信度的
22、關(guān)聯(lián)規(guī)則集R后,根據(jù)關(guān)聯(lián)規(guī)則向顧客產(chǎn)生推薦又可分為以下幾步:找出R中所有被目標(biāo)客戶支持的關(guān)聯(lián)規(guī)則R1,即關(guān)聯(lián)規(guī)則左邊的所有項目都被客戶購買。找出被關(guān)聯(lián)規(guī)則R1所預(yù)測并且沒有被目標(biāo)客戶所購買的所有項目P。根據(jù)P中項目在關(guān)聯(lián)規(guī)則R1中的置信度排序,如果某項目被多個規(guī)則預(yù)測,則取置信度最大者作為排序依據(jù),挑選前N個項目作為算法輸出。 其中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)是算法的瓶頸,可以離線進行。該算法的優(yōu)點是可以為用戶發(fā)現(xiàn)新的興趣。缺點是隨著事務(wù)的增多,規(guī)則的發(fā)現(xiàn)將非常耗時,并且規(guī)則難以解釋。3.2基于知識的推薦基于知識的推薦系統(tǒng)根據(jù)用戶的偏好信息通過推斷什么產(chǎn)品能滿足用戶的需求來產(chǎn)生推薦?;谥R的推薦特點是它要
23、有功能知識:知道一項目如何滿足一特定用戶的需要,并能在用戶的需要和所推薦的項目之間建立關(guān)聯(lián)。例如:PesonalLogichttp:/www.personallogic. com 推薦系統(tǒng)通過對話的方式使用戶對產(chǎn)品的所有特征偏好作出描述,另外一些系統(tǒng)使用大量的決策支持或基于案例的推理工具來產(chǎn)生推薦。與協(xié)同過濾推薦系統(tǒng)相比,基于知識的推薦系統(tǒng)有以下優(yōu)點:由于所產(chǎn)生的推薦不依賴于用戶對項目的評價,所以基于知識的推薦不需要用到用戶數(shù)據(jù)庫。由于所產(chǎn)生的推薦不依賴于用戶興趣文件,所以基于知識的推薦不會有“冷開始”問題。由于所產(chǎn)生的推薦與用戶以往的偏好沒有關(guān)系,基于知識的推薦能根據(jù)用戶的興趣變化快速作出調(diào)
24、整。基于知識的推薦在汽車、房產(chǎn)、職業(yè)、學(xué)校等產(chǎn)品特征對用戶來說作用重大而又易于比較的的產(chǎn)品領(lǐng)域能取得良好的推薦效果。雖然基于知識的推薦系統(tǒng)有諸多優(yōu)點,但是,也存在著一些不足:要想取得良好的推薦效果,系統(tǒng)必須對產(chǎn)品領(lǐng)域有深刻的理解,用戶關(guān)心產(chǎn)品的哪些屬性,這些屬性如何滿足用戶的需求,并且把這些知識以易于推理的方式存儲于知識庫中。因此,知識庫的設(shè)計是系統(tǒng)實現(xiàn)的瓶頸。3.3基于效用的推薦根據(jù)計算項目對用戶的效用值來產(chǎn)生推薦。這種方法的特點是要求建立包括所有可能對用戶效用產(chǎn)生影響的項目特征的效用函數(shù),這樣做的好處是它能綜合體現(xiàn)產(chǎn)品價值的多方面因素,如交貨時間、賣家的可靠性等。這一靈活性同時也是它的缺點
25、:必須建立包含所有特征的用戶偏好函數(shù),為每一特征賦相應(yīng)的權(quán)值,這樣就會加重人機交互的負擔(dān),并且有時難以做到。3.4 基于人口統(tǒng)計信息的推薦人口信息用來識別喜歡某類項目的用戶特征。人口特征可以包括年齡、性別、教育程度等。通過用戶對項目的評價來識別具有相同偏好的用戶群。用戶統(tǒng)計信息的獲取一般比較困難,一般采用人機對話的方式獲取,也可以通過用戶的個人主頁信息來獲取23。優(yōu)點:沒有新用戶問題,不需要領(lǐng)域知識。缺點:用戶的人口統(tǒng)計信息難以得到3.5 基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦基于網(wǎng)絡(luò)的推薦技術(shù)不考慮項目的屬性,也不考慮用戶的特征,而是把用戶和項目都看成抽象的點。其中比較有代表性的是基于二部分圖資源分配的推薦算法
26、24。算法假設(shè)用戶選擇過的每一個項目都有向用戶推薦其它項目的能力,擁有資源的項目會把更多的資源交給自己青睞的項目。如果用戶選擇了某項目,則這兩點之間就用1表示,否則用0表示。項目愿意分配給項目的資源配額可以表示為其中表示系統(tǒng)中的用戶數(shù)量,表示項目的度(被多少用戶選擇過),表示用戶的度(該用戶選擇過多少項目),表示用戶是否選擇過項目,若選擇過項目,則否則,。如此,根據(jù)用戶選擇過的項目就可以放出所有未被選擇的項目的資源分配,按照資源分配從大到小的順序排列,產(chǎn)生推薦結(jié)果。4混合推薦由于各種推薦技術(shù)各有優(yōu)缺點,于是人們綜合兩種或兩種以上的推薦技術(shù)來取得更好的推薦效果?;趦?nèi)容的推薦和協(xié)同過濾是目前研究
27、和應(yīng)用最多的組合推薦方法,結(jié)合這兩種過濾技術(shù)可以克服各自的一些缺點。為了克服協(xié)同過濾的稀疏性問題,可以利用用戶瀏覽過的資源內(nèi)容預(yù)期用戶對其他資源的評價,這樣可以增加資源評價的密度,利用這些評價再進行協(xié)同過濾,從而提高協(xié)同過濾的性能25。Fab是最早的混合推薦系統(tǒng)。推薦過程分為兩個階段:收集網(wǎng)頁以形成一個可管理的數(shù)據(jù)庫或索引,隨后將這些網(wǎng)頁分發(fā)給特定的用戶。用戶描述文件通過分析用戶評價過的網(wǎng)頁的內(nèi)容得到,在推薦時與其它用戶的描述文件進行比較以找到相似用戶。系統(tǒng)會向用戶推薦基于自身描述文件得分較高的網(wǎng)頁及相似用戶評分較高的網(wǎng)頁26。BM Sarwar提出過濾器的概念27,每一個過濾器被看作是一個獨
28、立的用戶,使用不同的算法分析文章并為文章打分,打分后的文章被送到Grouplens推薦引擎,系統(tǒng)會根據(jù)用戶評分和過濾器評分計算兩者之間的相似性,從而為用戶選擇不同的過濾器,每個過濾器被賦予不同的權(quán)重。這樣就可以預(yù)測用戶對所有未評分項的評分,在此基礎(chǔ)上進行協(xié)同過濾。N Good驗證了把用過濾器得到的評分和協(xié)同過濾等到的評分結(jié)合起來得到的推薦結(jié)果要比單獨根據(jù)過濾器或協(xié)同過濾方法得到的推薦結(jié)果好28。M Claypool把基于內(nèi)容的推薦和協(xié)同過濾推薦用于在線報紙推薦29,把兩種方法的預(yù)測結(jié)果加權(quán)平均:初始賦予協(xié)同過濾推薦和基于內(nèi)容推薦相同的權(quán)重,隨著用戶評分數(shù)據(jù)的增多,計算每種預(yù)測結(jié)果的絕對誤差,并
29、調(diào)整權(quán)值以使誤差最小。權(quán)值與用戶評分數(shù)據(jù)相關(guān),所以對于不同的用戶可有不同的權(quán)值。P Melville用基于內(nèi)容的預(yù)測計算用戶對未評分項的評分,以解決評分矩陣的稀疏性問題30,把基于內(nèi)容的評分和協(xié)同過濾的評分加權(quán)平均,權(quán)重由目標(biāo)用戶評價過的項目的個數(shù)及目標(biāo)用戶與其它用戶共同評價過的項目的個數(shù)決定。與以上兩種方法的基本思想類似,Q Li等也是把基于內(nèi)容的推薦與協(xié)同過濾推薦加權(quán)平均31 32。所不同的是并不直接依賴項目的內(nèi)容計算目標(biāo)用戶對項目的評分,而是計算用戶對不同屬性值的偏好程度(選評分大于3的項作為用戶偏好的項目),據(jù)此對用戶進行聚類,計算每個用戶屬于不同類的概率,再以此概率計算用戶之間的相似
30、性。最后把此相似系數(shù)與傳統(tǒng)的依據(jù)原始評分矩陣得到的相似系數(shù)加權(quán)平均,權(quán)值通過最小化平均絕對誤差(MAE)動態(tài)來調(diào)節(jié)。M Garden同時用協(xié)同過濾和基于內(nèi)容的過濾進行推薦33。與一般基于內(nèi)容的推薦不同,它利用用戶對語義特征的偏好進行預(yù)測。允許用戶自定義項目的特征并給出該特征的重要性及對項目得分的影響進行評價,根據(jù)對不同特征的態(tài)度來區(qū)分用戶。項目也根據(jù)所有用戶評價過的不同特征出現(xiàn)的次數(shù)來表示。最后根據(jù)用戶和項目所擁有的共同特征及用戶對該特征的評分計算項目的最后得分。文獻34將項目屬性值引入?yún)f(xié)同過濾算法,把用戶對項目的評分轉(zhuǎn)化成對項目屬性值的評分分布,從而得到用戶描述文件,由用戶描述文件計算用戶之
31、間的相似度。由于項目屬性數(shù)遠遠小于項目數(shù)量,用這種方法可以有效地解決協(xié)同過濾算法中的數(shù)據(jù)稀疏性問題,同時提高系統(tǒng)的實時性。另外一種混合思路是從機器學(xué)習(xí)的觀點看待預(yù)測問題,把預(yù)測問題看作是標(biāo)準(zhǔn)的分類問題,典型的有C Basu提出的電影推薦,協(xié)同特征表示成集合的形式,這些特征混合了一些典型的內(nèi)容特征。把這些數(shù)據(jù)輸入到Ripper中以學(xué)習(xí)得到一個二進制分類器,區(qū)別用戶喜歡和不喜歡的電影35。D Billsus將用戶評價過的項作為訓(xùn)練樣本,每一個樣本表示成一個特征向量,每一分量為其它用戶對該項的評價,目標(biāo)用戶的評價作為類標(biāo)簽。根據(jù)學(xué)習(xí)得到的分類規(guī)則來預(yù)測用戶對未評分項的評分36。R Burke 提出基
32、于知識的推薦與協(xié)同過濾相結(jié)合的系統(tǒng),系統(tǒng)設(shè)置了一系列參數(shù),根據(jù)參數(shù)取值決定采用何種推薦技術(shù)37。例如,在用戶使用系統(tǒng)初期,使用基于知識的推薦,當(dāng)各參數(shù)都滿足閥值要求時再采用協(xié)同過濾推薦。 在組合方式上,T Tran提出了七種組合思路38:加權(quán)平均(weight):加權(quán)多個推薦方法的推薦結(jié)果。轉(zhuǎn)換(switch):根據(jù)具體情形在幾個推薦方法之間轉(zhuǎn)換?;旌希╩ixed):同時采用多種推薦技術(shù)給出多種推薦結(jié)果供用戶參考。特征組合(feature combination):組合來自不同推薦數(shù)據(jù)源的特征被另一種推薦算法所用。瀑布(cascade):后一種推薦方法優(yōu)化前一種推薦結(jié)果。特征擴充(featur
33、e augmentation):后一個推薦方法的輸入包含了前一個推薦方法的輸出。元層次模型(meta-level):前一個推薦方法所得出的模型作為后一個推薦方法的輸入。5.研究展望個性化推薦對電子商務(wù)發(fā)展有著重要作用,雖然已取得了一些成果,但其應(yīng)用范圍還很狹窄,大部分網(wǎng)站還不具備個性化推薦功能,有推薦系統(tǒng)本身的問題,如數(shù)據(jù)稀疏性、可擴展性、實時性、冷開始等,也有用戶與系統(tǒng)之間的溝通問題,如用戶對系統(tǒng)不信任,不愿透露個人信息,或者用戶不愿意提供更多的項目評價信息等。個性化推薦技術(shù)要想在實際應(yīng)用中達到理想的效果就必須對以上問題加以解決。未來電子商務(wù)推薦研究的熱點與方向有:對推薦算法的進一步改進。提
34、高推薦算法的推薦精度及實時性,使推薦系統(tǒng)能夠產(chǎn)生更精確、實時的推薦。目前各種推薦算法存在一些缺點,如何對算法進一步改進使之產(chǎn)生更精確的推薦是個性化推薦研究的熱點也是重點。將Web使用挖掘應(yīng)用到個性化推薦中。數(shù)據(jù)收集是個性化推薦的基礎(chǔ),其收集數(shù)據(jù)的數(shù)量和質(zhì)量直接影響推薦的效果。傳統(tǒng)的推薦系統(tǒng)要求用戶顯式輸入對項目的評分,不但增加了用戶的操作,而且數(shù)據(jù)單一,不足以描述人們對項目的復(fù)雜感知和反應(yīng)。Web使用挖掘是由系統(tǒng)隱性獲取,不需要用戶的參與,在不打擾用戶正?;顒拥那闆r下自動完成,得到的數(shù)據(jù)種類也比較多。用戶隱私保護研究。獲得用戶興趣的最好方式是獲得盡可能多的用戶個人信息,這在基于用戶統(tǒng)計信息的推
35、薦和基于知識的推薦中尤為重要,考慮到系統(tǒng)安全和隱私問題,這些信息往往是用戶所不愿意提供的。因此采取適當(dāng)?shù)挠脩綦[私保護機制并提高數(shù)據(jù)收集過程的透明性,讓用戶了解推薦過程及用戶個人信息的使用情況,從而提高對推薦的信任度和接受度具有重要作用。參考文獻:1、吳麗花,劉魯.個性化推薦系統(tǒng)用戶建模技術(shù)綜述J,情報學(xué)報,2006,25:55-622、 RJ Mooney, L Roy. Content-Based Book Recommending Using Learning for Text CategorizationC, Proceedings of the fifth ACM conference
36、 on Digital libraries, 20003、岑詠華,甘利人,丁晟春.基于內(nèi)容的Web個性化推薦技術(shù)研究J,圖書情報工作2003.08.4、曾春,邢春曉,周立柱.基于內(nèi)容過濾的個性化搜索算法J,軟件學(xué)報,2003,14(5):999-1004.5、S Deerwester,et al. Indexing by Latent Semantic AnalysisJ. Journal of the American Society for Information Science,1990,41(6):391-407.6、MW Berry, ST Dumais, GW OBrien. Us
37、ing linear algebra for intelligent information retrievalJ.SIAM Review,1995,37:573-595.7、Lin Hongfei,et al Text Browsing Based on Latent Semantic IndexingJ. Joural of Chinese Information Processing, 2000, 14(5):241-245. 8、D Goldberg;D Nichols,et al. Using collaborative filtering to weave an informati
38、on tapestryJ.communications of the ACM, 1992,35(12), 61-709、P Resnick, N Iacovou, et al.Grouplens:An open architecture for collaborative filtering of netnewsC. In proceedings of CSCW,1994:175-18610、B Sarwar, G Karypis, J Konstan, J Riedl. analysis of recommendation algorithms for e-commerceR. Procee
39、dings of the 2nd ACM conference on Electronic commerce, 2000:158-16711、M Badrul. Sarwar,et al. Application of dimensionality reduction in recommender systemA case study C. In Proc of the WebKDD 2000 Workshop at the ACM GKDD2000,Boston,2000: 829012、B Sarwar , G Karypis , J Konstan , JRiedl. Item-base
40、d collaborative filtering recommendation algorighmsC,In Proc.of WWW,2001: 285-29513、K Goldberg, T Roeder, D Gupta, C Perkins. Eigentaste: A Constant Time Collaborative Filtering AlgorithmJ. Information Retrieval. 2001,4(2):133-15114、B Leite ,et al. C2:A Collaborative Recommendation System Based on M
41、odal Symbolic User Profile C. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence. 2006: 673-67915、S Kuwata, N Ueda. one-shot collaborative filteringJ. Computational Intelligence and Data Mining, 2007 16、JS Breese, D Heckerman, C Kadie. Empirical Analysis of Predictive
42、Algorithms for Collaborative Filtering, Inproceedings of Fourteenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann,1998:43-5217、LH Ungar, DP Foster.Clustering methods for collaborative filtering.Proe Recommender Systems,Papers from 1998 Workshop,Technical Report WS-98-08,Menlo
43、 Park,1998:84-8818、潘紅艷,個性化信息服務(wù)的研究與實現(xiàn)D,2005.0319、DM Pennock, et al. collaborative filtering by personality diagnosis:a hybrid memory-and model-based approach C, Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence.200020、MK Condli , et al. Bayesian Mixed-Effects Models for Rec
44、ommender SystemsC, Proceedings of the SIGIR-99 Workshop on Recommender Systems. 199921、R Agrawal, T Imieliski, A Swami. Mining Association Rules between Sets of Items in Large DatabasesC, In Proc 1993ACM-SKMOD Int Conf Management of Data, 1993,207-216. 22、丁振國,陳靜. 基于關(guān)聯(lián)規(guī)則的個性化推薦系統(tǒng)J,計算機集成制造系統(tǒng),2003,09(10
45、):891-893.23、MJ PAZZANI , A Framework for Collaborative, Content-Based and Demographic FilteringJ, Artificial Intelligence Review,1999,13 (5-6):393-40824、劉建國,周濤,汪秉宏,個性化推薦系統(tǒng)的研究進展J,自然科學(xué)進展,2009.0125、曾春等 .個性化服務(wù)技術(shù)綜述. 軟件學(xué)報,2002,13(10):1952-196126、M Balabanovic, Y Shoham. Fab:content-based, collaborative r
46、ecommendationJ. Communications of the ACM.1997,40(3): 66 -7227、B Sarwar, J Konstan, Borchers, A Herlocker, J Miller and J Riedl, Using filtering agents to improve production quality in the GroupLens research collaborative filtering systemC. Proceedings of the 1998 ACM conference on Computer supporte
47、d cooperative work. Nov.1998: 345 - 35428、N Good J. B Schafer, J A Konstan, A Borchers, B Sarwar, J Herlocker, and J Riedl. combining collaborative filtering with personal agents for better recommendations C. Proceedings of AAAI, 1999: 439 44629、M Claypool, A Gokhale, T Miranda. combining content-ba
48、sed and collaborative filters in an online newspaperJ.ACM SIGIR Workshop on Recommender Systems, 199930、P Melville, RJ Mooney, R Nagarajan. content-boosted collaborative filtering for improved recommendations C. Eighteenth national conference on Artificial intelligence, 2001: 187 19231、BM Kim, Q Li,
49、 et al. A new approach for combining content-based and collaborative filtersJ. Journal of Intelligent Information Systems.2006,27: 79-9132、Q Li, BM Kim. An Approach for Combining Content-based and Collaborative FiltersC, Proceedings of the Sixth International Workshop on Information, Retrieval with Asian Languages, 2003:17-24 33、M Garden, G Dudek. mixed collaborative and content-based
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 老舊房屋改造項目背景與意義
- 南京中國科學(xué)院南京土壤研究所在職財務(wù)人員招聘筆試歷年參考題庫附帶答案詳解
- 瓷器供貨合同范本
- 電子汽車合同范本
- 知識產(chǎn)權(quán)管理企業(yè)持續(xù)發(fā)展的關(guān)鍵因素
- Ro26-4550-TFA-生命科學(xué)試劑-MCE
- Phenylpiperazine-hydrochloride-Piperazine-1-phenyl-dihydrochloride-生命科學(xué)試劑-MCE
- 自媒體股份合同范本
- Mcl-1-inhibitor-21-生命科學(xué)試劑-MCE
- Ephenidine-hydrochloride-生命科學(xué)試劑-MCE
- 鐵路安全應(yīng)急預(yù)案
- 物業(yè)防恐防暴演練課件
- 古詩詞誦讀《李憑箜篌引》 公開課一等獎創(chuàng)新教案統(tǒng)編版高中語文選擇性必修中冊
- DB12-T 3034-2023 建筑消防設(shè)施檢測服務(wù)規(guī)范
- 銷售人員崗位職責(zé)培訓(xùn)
- 小學(xué)生日常行為規(guī)范實施方案
- 2024-2025學(xué)年九年級化學(xué)人教版上冊檢測試卷(1-4單元)
- 2024年遼寧省鞍山岫巖滿族自治縣事業(yè)單位招聘(150人)歷年高頻難、易錯點500題模擬試題附帶答案詳解
- DBJ46-070-2024 海南省民用建筑外門窗工程技術(shù)標(biāo)準(zhǔn)
- 金屬冶煉安全生產(chǎn)實務(wù)注冊安全工程師考試(初級)試題與參考答案
- 2024年高職高考語文必背古詩
評論
0/150
提交評論