版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Game-onlineRecommendation鄧鵬鵬:10648204郭文嘉:10648206蔡竹華:10648200劉強:106482632006年12月24日網(wǎng)絡金融第2小組組項目背景對于廣大的游戲玩家來說,要準確的獲取大量互聯(lián)網(wǎng)上的游戲信息是很難通過手工來做到,需要一種信息收集工具來獲取必要的信息。目前互聯(lián)網(wǎng)上游戲種類眾多,游戲玩家面對此現(xiàn)狀,往往難于選擇,故亟需一種這樣的系統(tǒng):能根據(jù)玩家的輸入,返回玩家可能感興趣的游戲列表。
2網(wǎng)絡金融第2小組組項目開發(fā)示意圖Crawling文本提取模塊IEURL列表游戲數(shù)據(jù)庫游戲推薦系統(tǒng)游戲相關屬性3網(wǎng)絡金融第2小組組項目開發(fā)主要模塊網(wǎng)頁抓取模塊Crawler:從url列表中取出項以string形式傳給Crawler,抓取網(wǎng)站的html文檔,存入文件系統(tǒng)中,該模塊采取多線程實現(xiàn);文本提取模塊IE:將文件系統(tǒng)中的html文檔作為輸入,經(jīng)相應的詞法語法分析,提取出需要的屬性存入數(shù)據(jù)庫;游戲推薦模塊;友好簡潔的查詢功能。4網(wǎng)絡金融第2小組組關鍵技術與算法(1)前臺顯示模塊的關鍵技術:采用基于J2EE平臺的MVC框架;Crawling:將網(wǎng)絡爬蟲的搜索范圍限制在某幾個網(wǎng)站之內(nèi),并且專門提取屬于游戲的超鏈接,并下載相應得網(wǎng)頁;從html文件中提取興趣特性:根據(jù)html文件特點,設置正則文法,對html文件進行語法分析,從而提取游戲相關內(nèi)容;技術難點:因為不同的html頁面有不同的組織結構,不能用統(tǒng)一的規(guī)則去處理,并且對于游戲?qū)傩缘汝P鍵字的提取涉及到自然語言處理;5網(wǎng)絡金融第2小組組關鍵技術與算法(2)數(shù)據(jù)庫連接池;多線程抓取;6網(wǎng)絡金融第2小組組Crawler的實現(xiàn)基于課程第一次作業(yè)提供的底層模塊:CHTTP,CHTMLREF,CREF,CURL等
多線程技術:調(diào)用C++中pthread_t類提供的pthread_create()和pthread_join()方法創(chuàng)建和銷毀線程,難點在于主線程和子線程間傳遞多個不同類型的參數(shù)以及線程間的互斥訪問。通常的解決辦法是設置同步和互斥變量進行線程間的通信和訪問控制,考慮到本例中線程之間并沒有數(shù)據(jù)上的依賴關系,因此簡化了設計,通過為每一主線程設置全局數(shù)組變量,為每一子線程劃分爬取任務及訪問區(qū)間,避免了線程間的訪問沖突,也減少了線程間的傳遞的參數(shù)類型。同時,采取了出錯重爬機制,提高了爬取的成功率。
7網(wǎng)絡金融第2小組組信息提取模塊的實現(xiàn)使用SimpleTemplateExtraction技術,從固定格式的網(wǎng)頁中順序提取信息,對于每個信息槽(slot),判斷槽的起始位置以及結束位置,然后提取信息到數(shù)據(jù)庫。借鑒ExecHLRT(wrapper<h,t,l1
,
r1
,l2
,r2,…h(huán)…>,Pagep)算法的思想。
8網(wǎng)絡金融第2小組組RecommendationSystem(1)
RecommendValue=+Content-basedFilteringGroupLensCollaborativeFiltering(1-u)u9網(wǎng)絡金融第2小組組
RecommendationSystem(2)
--Content-basedFiltering
通過wrapper和正則表達式匹配,取出系列和類型等屬性。不同的屬性分配不同的權重值系列和類型的權重應比較大參與推薦的屬性:系列,類型,時間,廠商,總評價時間:2005年2月28日總評分:75系列:模擬人生類型:模擬養(yǎng)成廠商:Maxis10網(wǎng)絡金融第2小組組
RecommendationSystem(3)
--Content-basedFiltering
在游戲名中通過正則表達式//[0-9]+$/來判斷游戲是否有系列名稱,但對于像名為“地球2160”的游戲,不能認為它是“地球”系列游戲的第2160款作品處理時有歧義,對于結果沒有影響不能處理以羅馬數(shù)字表示的系列,如“忍者神龜III:變種格斗”增加對游戲名的分析,作更多的條件判斷仍然會遇到許多個別的不規(guī)范,不匹配的格式做一些人工的修正,盡量規(guī)范數(shù)據(jù)庫中信息的格式;或者有針對的增加特別的處理問題和解決辦法11網(wǎng)絡金融第2小組組
RecommendationSystem(4)
--GrouplensCollaborativeFiltering
Aij
表示用戶i對游戲j的評分(0~100)GameIdUserId聯(lián)合過濾矩陣12網(wǎng)絡金融第2小組組RecommendationSystem(5)
--GrouplensCollaborativeFiltering
Predictionforactiveuseraonitemq聯(lián)合過濾矩陣A13網(wǎng)絡金融第2小組組RecommendationSystem(6)
--GrouplensCollaborativeFilteringActiveUser是誰?虛擬了一個ActiveUser的數(shù)據(jù)的取值是多少?取值使得和最大的值相當如何分配Content-basedValue和GrouplensCollaborativeValue的重要度?權重因子u對Content-basedValue和CollaborativeValue分別進行歸一化RecommendValue=u*Content-basedValue+(1-u)*CollaborativeValue問題和解決辦法14網(wǎng)絡金融第2小組組查詢界面分類檢索根據(jù)用戶選擇的類別,例如廠商和游戲類別,列出屬于該類的所有游戲信息以及推薦的游戲列表。關鍵字檢索根據(jù)用戶輸入的關鍵字,返回與之匹配的游戲信息。15網(wǎng)絡金融第2小組組
16網(wǎng)絡金融第2小組組
17網(wǎng)絡金融第2小組組分類檢索詳細查詢頁提供了三個類別的檢索,如名稱、廠商、游戲類別。
18網(wǎng)絡金融第2小組組
19網(wǎng)絡金融第2小組組
20網(wǎng)絡金融第2小組組總結開發(fā)項目本身是個學習的過程,學習并利用到Crawler的一些算法,熟悉了J2EE架構;在項目的進行中,項目組成員積極主動,互相協(xié)作,嚴格按照項目開發(fā)流程進行,保證了項目的最終
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年離婚快速和解合同指南版B版
- 自控課程設計0型系統(tǒng)
- 私教體態(tài)調(diào)整課程設計
- 2025年高中生禁毒教案二
- 2024招聘計劃書(32篇)
- 2024年用電客戶受理員(二級技術師)理論考試題庫(B卷)
- 網(wǎng)上購物系統(tǒng)web課程設計
- 舞蹈新鞋子課程設計
- 市場行業(yè)助理職責概述
- 三年高考地理(全國乙卷21-23)真題知識點-工業(yè)及其區(qū)位因素
- 社會消防安全教育培訓題庫及答案
- 部編人教版語文八年級上冊文言文課下注釋
- 蘇教版譯林三年級上下冊單詞表
- 腫瘤病例隨訪調(diào)查表
- 游樂園、滑雪場、冰雪樂園建設合作協(xié)議
- 粉末涂料有限公司檢維修作業(yè)安全風險分級清單
- 【蘇教版】2022-2023學年六年級數(shù)學上冊期末試卷(及答案)
- 2023-2024學年連云港市灌云縣四年級數(shù)學第一學期期末學業(yè)水平測試模擬試題含答案
- 湖南省懷化市鶴城區(qū)2023年數(shù)學三下期末監(jiān)測試題含解析
- 項目工程安全管理責任區(qū)域劃分表
- 2023年學校食堂審計發(fā)現(xiàn)問題整改報告3篇
評論
0/150
提交評論