基于聚類的增量圖書推薦系統(tǒng)的研究與實現(xiàn).doc_第1頁
基于聚類的增量圖書推薦系統(tǒng)的研究與實現(xiàn).doc_第2頁
基于聚類的增量圖書推薦系統(tǒng)的研究與實現(xiàn).doc_第3頁
基于聚類的增量圖書推薦系統(tǒng)的研究與實現(xiàn).doc_第4頁
基于聚類的增量圖書推薦系統(tǒng)的研究與實現(xiàn).doc_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

浙江大學研究生學位論文獨創(chuàng)性聲明簽字日期:月學位論文版權使用授權書 浙江大學碩士學位論文有相當?shù)臏蚀_度和可解釋性。 浙江大學碩士學位論文 第孿喙匱芯孔凼觥諛偷男恕增量式學習雋渴窖霸諦酥械撓謾璴第祿誥劾嗟腦雋渴酵萍鏊惴沒硎盡惴芴褰峁埂劾嗖問笆萁峁埂 浙江大學碩士學位論文 圖圖圖圖圖算法的命中率比較圖缸對命中率的影響圖 大學數(shù)字圖書館國際合作計劃稱是浙江大學聯(lián)合國內(nèi)外的高等院校、科研機構共同承擔的教育部“學科研【。 提出的推薦算法應用在上面。最后,設計并完成了實驗及用戶測試,展現(xiàn)了算法 浙江大學碩士學位論文目,這使得算法更加高效。有相當?shù)臏蚀_度和可解釋性。 浙江大學碩士學位論文關于“十五”期間加強“ 浙江大學碩士學位論文平臺。這些平臺立足其特色資源,面向不同興趣和需求的用戶。雖然與其他數(shù)字信息技術的快速發(fā)展,用戶群體的行為也產(chǎn)生了巨大變化,傳統(tǒng)的被動服務模式不再適應潮流,海量數(shù)字資源、用戶資源的挖掘有待深化,通過主動將合適的圖書推送給用戶,個性化推薦技術將給為用戶帶來更好的體驗,發(fā)現(xiàn)用戶的愛好,甚至發(fā)掘并發(fā)展用戶新的興趣。除此以外面對海量的數(shù)字資源,高效可擴展的推薦方法無論是對數(shù)字圖書館本身而言,還是對用戶體驗都是很有益處的。但是,效率和可擴展性也提出了更高的要求。隨著信息技術的迅猛發(fā)展和普及,信息量也前所未有地快速增長著。從過去 浙江大學碩士學位論文薦系統(tǒng)有其重要的理論研究意義和實際應用價值。自從年代關于協(xié)同過濾的第一批文章出現(xiàn)起,推薦系統(tǒng)統(tǒng)為提供了的商品銷售額。根據(jù)統(tǒng)計,具有推薦系統(tǒng)根據(jù)使用算法的不同,個性化推薦系統(tǒng)基本可以分為:協(xié)同過濾 浙江大學碩士學位論文協(xié)同過濾兩種。常見的協(xié)同過濾推薦算法分類如圖所示:網(wǎng)絡 浙江大學碩士學位論文在基于內(nèi)存的協(xié)同過濾中,相似度如何進行計算是很重要的一步。余弦相似是目前最常用的相似度計算方法。蘼 浙江大學碩士學位論文、主成分分析 浙江大學碩士學位論文集的技術,具體來說,它主要是將協(xié)方差矩陣進行特征分解,然后得出特征向量和特征值,分別對應于數(shù)據(jù)的主成分及其權值,根據(jù)需要保留對方差貢獻較大的協(xié)同過濾推薦算法之所以能得到廣泛而成功的應用,主要是受益于以下幾個 浙江大學碩士學位論文剮問題。提高推薦系統(tǒng)的效率,設計了一種對基于項目的協(xié)同過濾算法進行增量更新的策生一系列的假設甴使得僅取決于和當前訓練樣本,則該學習算 浙江大學碩士學位論文增量式學習有以下幾個主要特點:學習算法更加有適應性、擴展性和魯棒性。增量學習已經(jīng)成功的被應用于解決許多實際問題。一般說來,增量式學習特別適合于解決以下三類應用: 浙江大學碩士學位論文 浙江大學碩士學位論文了推薦準確率,也仍然保持了推薦系統(tǒng)的擴展性。套圖增量學習的學習曲線在本章中,首先概述了大學數(shù)字圖書館國際合作計劃其所要解決的問題和現(xiàn)實意義,然后介紹了推薦系統(tǒng)的分類,重點介紹了推薦系 浙江大學碩士學位論文 浙江大學碩士學位論文在傳統(tǒng)的協(xié)同過濾算法中,通常的數(shù)據(jù)有兩種形式。一種是如、是某個范圍里的數(shù),比如在分之間,分值大小表示用戶的喜好程度,一般說來高分表示很感興趣或者喜歡,低分表示不感興趣或者厭惡。與此同時,這種評分信息不僅可以代表用戶對項目整體上的感覺,也可以是對于項目的某一個特性的感覺,比如對電影,用戶可以分別針對導演、演員、特效、劇情等多方面給電影作品打分。這種評分信息需要很多用戶來提供,且用戶重復訪問一個項目的情況比較少見,同時用戶也很可能查看了某個項目卻不愿意主動提供任何評分信息,此時就較難判斷用戶對這個項目的評價,通常這樣的訪問信息也容易被忽略。此外,評分信息在很大程度上會受到用戶個人評分習慣的影響,有的用戶傾向于給高分,而有些用戶傾向于給接近于中值的分數(shù),相同的分值對不同用戶的意義往往不盡相同。 浙江大學碩士學位論文公式戶的預測評分。雖然關于評分預測是否真的是推薦任務仍存在一些討論,然而推 浙江大學碩士學位論文結果是項目的一個集合,而不是列表,所以在結果中項目的次序是沒有影響的。 浙江大學碩士學位論文所評分的次數(shù)。其中珥以及蠆分別代表用戶陀沒謀硎鞠蛄浚琁公式 浙江大學碩士學位論文贏,公式面一一 零維所指向的維度數(shù)組鏈接到到用戶所屬的簇上。該聚類算法在時間和空間上都是高效的,因為不像傳統(tǒng)的基于內(nèi)存的協(xié)同過濾算法,它不需要查找整個數(shù)據(jù)集,也不需要在每次推薦時計算每一個用戶對的相似度。該算法增量地產(chǎn)生簇,因此不需要在內(nèi)存中存儲整個數(shù)據(jù)集,也更適用于實時環(huán)境。不僅如此,它只需要計算用戶和簇之間的相似度,這比起計算每一個用戶對的相似度是更高效的,因為簇的數(shù)目是小于用戶數(shù)目的。最后,由于該算法增量地學習用戶偏好,且簇的數(shù)目是由算法自動決定而不是固定的,該算法也是可擴展的。 掛?。壕剩簽榱四軌虍a(chǎn)生推薦,我們首先用一些數(shù)據(jù)來訓練模型,獲得一些初始的簇。這個過程通常是離線執(zhí)行的。在我們訓練了模型并得到一些簇有了聚類結果后,使用模型來為用戶產(chǎn)生推薦結果。在產(chǎn)生推薦結果的過程中,模型被不斷地增量更新來保持與數(shù)據(jù)相符,也就意味著不需要再一次離線更新模型了,這是高效且適用于實時環(huán)境的。項目基于某種標準進行排序后,向這個簇中的用戶推薦排序高的項目作為推薦結雖然排序可以用很多方式進行,在本算法中根據(jù)該簇中心的值來排序該簇鏈 第翪流式處理架構設計將提高用戶體驗,增加用戶粘性。 第翪流式處理架構設計夠一翌習酒羅匐前儲。庠喜,名數(shù);圖這是一個容錯衫溝姆植際絞凳奔撲閬低場笪頤鞘褂肧將用戶行為 第翪流式處理架構設計信息并且對推薦結構進行反饋的過程。首先,用戶通過瀏覽器登陸系統(tǒng),系統(tǒng)將在魘醬砑芄怪校頤鞘褂肒進行日志收集。在站點對各自的網(wǎng)站情況進行報表統(tǒng)計時,活動流數(shù)據(jù)是最經(jīng)常要使用到的周期性地統(tǒng)計及分析。運營數(shù)據(jù)是指服務器的性能數(shù)據(jù)包括服務日志、請求時間 浙江大學碩士學位論文第翪流式處理架構設計圖 浙江大學碩士學位論文息巒。磁盤上收到相對應的消息,會在笮锏姐兄凳貝唇碌膕來存儲數(shù)據(jù)。 浙江大學碩士學位論文第翪流式處理架構設計圖存儲策略簡單且可靠。丫恍磯喙例如俁取嘔應用到其業(yè) 第翪流式處理架構設計浙江大學碩士學位論文容錯性,工作進程及節(jié)點故障都可以被監(jiān)控和管理。全局只有一個,主要進行代碼發(fā)送,工作分配以及狀態(tài)監(jiān)控。會對被分配的工作進行監(jiān)視,并根據(jù)需求對工作進程進行調(diào)整。所有的消息處理邏輯,它的功能主要有訂閱駼齙腡,然后處 浙江大學碩士學位論文第翪流式處理架構設計其中的來執(zhí)行任務。每個執(zhí)行中一個子集,多個節(jié)點上 浙江大學碩士學位論文第翪流式處理架構設計在魘醬砑芄怪?,S主要用來完成用戶行為數(shù)據(jù)收集之后的處理工作,并在數(shù)據(jù)到達一定的閾值之后啟動中推薦數(shù)據(jù)的計算模塊對推薦數(shù)據(jù)進行更新。推薦數(shù)據(jù)的計算模塊主要使用基于聚類的增量式推薦算法對用戶進行推薦信息的計算。當收到來自耐V螅媚?槭紫紉5紺數(shù)據(jù)庫中將需要的數(shù)據(jù)獲取出來,然后按照一定的方法進行指定用戶推薦信息的果進行接收,并提供給用戶。 第翪流式處理架構設計浙江大學碩士學位論文圖魑狢流式處理架構中數(shù)據(jù)持久化的數(shù)據(jù)庫,主要記錄了部分用戶行為數(shù)據(jù)、針對不同用戶的推薦信息以及用戶聚類之后得到的一些信息。獲取。 浙江大學碩士學位論文第翪流式處理架構設計了第三章提出的基于聚類的增量式算法將如何運行在這個流式處理架構上。 浙江大學碩士學位論文在本章中,針對提出的基于聚類的增量式推薦算法設計實驗,實驗從推薦準紹了集成到個性化服務平臺后推薦系統(tǒng)的用戶界面。所示的預處理。對每一條評分,我們用煥幢硎綧數(shù)據(jù)集的原始評分,。否則。 浙江大學碩士學位論文 濾算法的預測時間。比較算法的命中率和加速比。島 浙江大學碩士學位論文比起基于用戶的協(xié)同過濾算法,基于聚類的增量式方法不需要在每次推薦時都查看整個數(shù)據(jù)集和計算每個用戶對的相似度,而只需要計算用戶和少量簇之間的相似度,并增量產(chǎn)生推薦。因此,基于聚類的增量式方法其效率在理論上就比基于用戶的協(xié)同過濾要高。如表所示,實驗結果證明了我們提出的算法要比基于用戶的協(xié)同過濾高效。隨著進行推薦的用戶數(shù)目的增長,基于聚類算法的訓練時間是秒沒有變化,因為訓練數(shù)據(jù)并沒有變化,只是預測數(shù)據(jù)變化了。隨著用戶數(shù)目增長而增長的是兩個算法做出推薦的時間,即預測時間,而加速比則是,基本保持不變。可以看到,基于聚類的增量式算法的預測時間總是比基于用戶的協(xié)同過濾要少很多,當需要推薦的用戶數(shù)目大于協(xié)同過濾要少不少。隨著數(shù)據(jù)的規(guī)模進一步增加,用戶數(shù)目和簇數(shù)目間的差值也 浙江大學碩士學位論文;慕圖由于合并簇的條件變得更加寬松,簇的數(shù)目減少了,因此計算每個用戶和簇的相似度的 浙江大學碩士學位論文論。如何減小,第一個方面的影響也是有極限的。在實際使用中,我們需要調(diào)節(jié)。圖 浙江大學碩士學位論文注。如圖所示,評注完成以后,在用戶個人主頁的“我的評注”頁面上,用筮:。一一皇盔連于原始日志有很多噪音,我們暫時通過調(diào)查鏈接到簇上的書籍來做用戶測試。在 浙江大學碩士學位論文臨時需要,如果看過這本書的用戶不是很多,由于推薦的排序函數(shù)是基于書籍被多少個用戶瀏覽而定的,那么這本書就會在排序中排得比較靠后,而不會被推薦。因此很好理解的是,這個簇中被推薦給用戶的書籍仍然是關于政治和經(jīng)濟的居多。注意到,簇是關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論