個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、尊孝投*學(xué)本科畢業(yè)論文題 目個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)姓 名學(xué) 號(hào)專 業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師職 稱講師中國(guó)武漢華中農(nóng)業(yè)大學(xué)本科畢業(yè)論文個(gè)性化搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)Design and Implementation of Personal Search Engine學(xué)生姓名:學(xué)生學(xué)號(hào):學(xué)生專業(yè):指導(dǎo)教師:華中農(nóng)業(yè)大學(xué)理學(xué)院 TOC o 1-5 h z 摘要IV HYPERLINK l bookmark10 o Current Document 關(guān)鍵詞IV HYPERLINK l bookmark16 o Current Document ABSTRACTV HYPERLINK l bookma

2、rk19 o Current Document KEY WORDSV1前言1 HYPERLINK l bookmark28 o Current Document 1.1研究背景1 HYPERLINK l bookmark31 o Current Document 1.2個(gè)性化搜索引擎的意義1 HYPERLINK l bookmark37 o Current Document 1.3個(gè)性化搜索引擎主要的研究問(wèn)題1 HYPERLINK l bookmark43 o Current Document 2搜索引擎概述2 HYPERLINK l bookmark46 o Current Document

3、 2.1個(gè)性化搜索引擎2 HYPERLINK l bookmark51 o Current Document 2.2搜索引擎工作原理2 HYPERLINK l bookmark72 o Current Document 2.3個(gè)性化搜索引擎系統(tǒng)模型3 HYPERLINK l bookmark99 o Current Document 2.4未來(lái)搜索引擎的發(fā)展趨勢(shì)4 HYPERLINK l bookmark102 o Current Document 3個(gè)性化搜索引擎相關(guān)技術(shù)5 HYPERLINK l bookmark105 o Current Document 3.1信息抽取技術(shù)5 HYPER

4、LINK l bookmark108 o Current Document 3.2 Lucene 檢索工具包5 HYPERLINK l bookmark114 o Current Document 3.3中文分詞技術(shù)6 HYPERLINK l bookmark117 o Current Document 3.4自動(dòng)聚類技術(shù)6 HYPERLINK l bookmark125 o Current Document 3.5用戶行為分析7 HYPERLINK l bookmark136 o Current Document 4個(gè)性化搜索引擎的總體設(shè)計(jì)7 HYPERLINK l bookmark139

5、o Current Document 4.1系統(tǒng)需求分析及總體設(shè)計(jì)7 HYPERLINK l bookmark143 o Current Document 4.2系統(tǒng)功能及架構(gòu)設(shè)計(jì)8 HYPERLINK l bookmark149 o Current Document 4.3系統(tǒng)流程設(shè)計(jì)8 HYPERLINK l bookmark154 o Current Document 4.4系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)12 HYPERLINK l bookmark157 o Current Document 5個(gè)性化搜索引擎的具體實(shí)現(xiàn)135.1模塊設(shè)計(jì)13 HYPERLINK l bookmark163 o Curr

6、ent Document 5.2用戶界面模塊14 HYPERLINK l bookmark166 o Current Document 5.3搜索模塊16 HYPERLINK l bookmark211 o Current Document 5.4搜索結(jié)果優(yōu)化模塊19 HYPERLINK l bookmark238 o Current Document 5.5系統(tǒng)運(yùn)行結(jié)果及示例21 HYPERLINK l bookmark241 o Current Document 6總結(jié)22 HYPERLINK l bookmark244 o Current Document 參考文獻(xiàn):22致謝.23個(gè)性化

7、搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)隨著I nternet技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)提供給人們的信息量越來(lái)越大。搜索引擎作為人們WW 上查找、獲取信息的重要手段之一,在各個(gè)領(lǐng)域都已得到了廣泛的應(yīng)用。為了給用戶提供個(gè)性化的 查詢服務(wù),個(gè)性化搜索引擎孕育而生。經(jīng)過(guò)眾多研究者的不懈努力,個(gè)性化搜索引擎技術(shù)已取得了 一些進(jìn)展。本文針對(duì)目前搜索引擎存在的不足以及當(dāng)前用戶個(gè)性化查詢的要求,在深入研究搜索引 擎及相關(guān)技術(shù)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于用戶興趣挖掘的個(gè)性化搜索引擎模型。本文的主要工作是:(1)個(gè)性化模型的研究與實(shí)現(xiàn)本文深入分析了個(gè)性化搜索的特點(diǎn),研究了搜索引擎及相關(guān)技術(shù), 設(shè)計(jì)了一個(gè)基于用戶興趣挖掘的個(gè)性化模型。該模型從

8、用戶的歷史訪問(wèn)頁(yè)面中提取用戶的興趣特征, 將興趣相同的頁(yè)面進(jìn)行歸類,并將用戶興趣按類管理;本文構(gòu)建了用戶興趣樹來(lái)動(dòng)態(tài)地存儲(chǔ)用戶興 趣,并通過(guò)短期興趣和長(zhǎng)期興趣相結(jié)合的方式來(lái)描述用戶興趣特征;為了及時(shí)地反映用戶的興趣變 化,本文采用了基于遺忘機(jī)制的興趣更新算法。(2)個(gè)性化搜索引擎(除個(gè)性化模型外)其他模塊的研究與實(shí)現(xiàn)本文還研究了與個(gè)性化搜索引 擎相關(guān)的其他模塊,包括:中文分詞、查詢擴(kuò)展、網(wǎng)絡(luò)蜘蛛、索引建立與更新以及結(jié)果排序。在綜 合考慮了技術(shù)的實(shí)現(xiàn)難度和用戶個(gè)性化查詢要求的基礎(chǔ)上,本文給出了以上各模塊的實(shí)現(xiàn)算法。(3)通過(guò)實(shí)驗(yàn)證明了本文設(shè)計(jì)的個(gè)性化搜索引擎的有效性。實(shí)驗(yàn)內(nèi)容包括兩方面:個(gè)性化模

9、型 的建立和個(gè)性化的搜索。關(guān)鍵詞個(gè)性化模型,用戶興趣挖掘,用戶興趣樹Design and Implementation of Personal Search EngineAbstractWith the rapid development of Internet technology,the network can providepeople more and more information.Search engine has been widely used in manyfields,which is treated as a tool that people can get infor

10、mation on World Wide Web.In order to provide personalized search service for users,personalized search enginecomes forth.Because of many researchers contribution,people have made greatprogress in personalized search engine.This paper points out the shortage of currentsearch engine and users requirem

11、ents of personalized search,does some research onsearch engine and its technology,and designs a personalized search engine model thatis based on users interests mining. The main tasks of the paper are as follows:Firstly,this paper researches and implements the personal model.This paper analyzes the

12、characters of personalized search,researches the searchengine and its technology,and designs a model that is based on users interests mining.The model gets users interests from the pages that he has visited before,classifies thepages according to the same interest,and manages the users interests acc

13、ording to theinterest types.As to the storage of users interests,this paper consults the ODP catalogstructure,establishes user interest tree to store the users interests,and uses the shortinterest and long interest to describe the users interest characters.In order to reflectuser s interests changin

14、g in time,this paper updates users interests using thealgorithm based on forgetting mechanism.Secondly,this paper researches and implements other modules of personalizedsearch engine besides the personal model.The modules include Chinese segmenting,search extending,network spider,index establishment

15、 and update and result ranking.This paper takes the implementing difficulty of related technology and usersrequirements of personalized search into account,and brings forward the algorithmsof the modules above.At last,experiments are conducted to verity the efficacy of the personalizedsearch engine

16、designed above.The contents of the experiment include two parts:the establishment of personal model and the personalized search.Key wordspersonal model; users interests mining; userinterest tree。1前言1.1研究背景隨著internet的迅速發(fā)展,如何在浩瀚的網(wǎng)絡(luò)信息資源中查詢自己想要的信息變得越來(lái)越重要。 為此,出現(xiàn)了專門提供網(wǎng)絡(luò)搜索服務(wù)的網(wǎng)站,比如Google、Baidu、Yahoo、搜狐、北大天網(wǎng)

17、等。然 而隨著網(wǎng)絡(luò)信息的更新與擴(kuò)充,傳統(tǒng)的單一搜索引擎存在著覆蓋率有限,查準(zhǔn)率低,用戶相關(guān)性差 的缺點(diǎn),使得為解決上述不足的元搜索引擎開始成為研究的熱點(diǎn)。元搜索引擎是指在統(tǒng)一的用戶接口與信息反饋下,通過(guò)調(diào)用多個(gè)獨(dú)立的搜索引擎享有多個(gè)資源 庫(kù)為用戶提供信息服務(wù)的系統(tǒng)。早期的元搜索引擎,雖然大大增加了傳統(tǒng)搜索引擎的覆蓋率,但在 某些方面仍舊和傳統(tǒng)的搜索引擎一樣,對(duì)每個(gè)用戶的檢索要求都給出相同的檢索結(jié)果,并沒(méi)有考慮 用戶個(gè)性化的需求對(duì)檢索予以重組、過(guò)濾。如何能夠更有效、更準(zhǔn)確地找到自己感興趣的信息,濾 除與自己的需求無(wú)關(guān)的信息,真正做到“各取所需”,成為基于I nterne t的網(wǎng)絡(luò)信息檢索的熱點(diǎn)問(wèn)

18、題。 隨著用戶行為分析、自動(dòng)聚類、事例推理、互動(dòng)學(xué)習(xí)等技術(shù)的引入,搜索引擎開始走向個(gè)性化、智 能化、專業(yè)化。1.2個(gè)性化搜索引擎的意義根據(jù)第24次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,截至2009年6月底,中國(guó)網(wǎng)民規(guī)模達(dá)到3.38億人,搜 索引擎的應(yīng)用是用戶獲取信息的主要渠道之一,使用率達(dá)到73.2%(美國(guó)達(dá)到92%)1,并有上升的趨 勢(shì)。搜索引擎的發(fā)展經(jīng)歷了目錄海量搜索、海量搜索、剔出垃圾網(wǎng)頁(yè)、專業(yè)、定向、高準(zhǔn)確性和匹 配性等幾個(gè)階段,但搜索引擎的框架結(jié)構(gòu)和基本技術(shù)并沒(méi)有實(shí)質(zhì)性的突破。而搜索引擎缺乏個(gè)性化 的局限性卻日益突出,具體表現(xiàn)在2:網(wǎng)絡(luò)信息覆蓋面廣,形式各異,而傳統(tǒng)搜索引擎對(duì)所有用戶提供相同的

19、界面和服務(wù),并且檢 索的結(jié)果成千上萬(wàn)、良芳不齊,用戶為找到真正感興趣的信息,往往要耗費(fèi)大量的時(shí)間和精力。人們由于年齡、性別、職業(yè)、愛好等不同,各自感興趣的領(lǐng)域也隨之不同,各自對(duì)詞義的理 解也不盡相同,不同的用戶對(duì)同一檢索請(qǐng)求得到的檢索結(jié)果常常有不同的評(píng)價(jià)。用戶在不同時(shí)期或階段對(duì)同一檢索請(qǐng)求,所得到的仍是完全相同的檢索結(jié)果,對(duì)用戶不具有 自適應(yīng)能力。用戶使用搜索引擎時(shí)帶有一定的目的性,但由于領(lǐng)域知識(shí)的不足和搜索引擎的查詢接口的局 限性而無(wú)法明確表達(dá)自己的搜索意圖1.3個(gè)性化搜索引擎主要的研究問(wèn)題本課題通過(guò)學(xué)習(xí)用戶滿意度反饋信息,挖掘用戶隱藏興趣,開發(fā)并實(shí)現(xiàn)了一個(gè)基于用戶反饋的 個(gè)性化搜索引擎系統(tǒng)

20、,并提出在此搜索引擎中引入自動(dòng)聚類技術(shù)的改進(jìn)方案,提高搜索效率。本文的主要研究?jī)?nèi)容:搜索引擎源數(shù)據(jù)的獲取即如何獲取獨(dú)立搜索引擎返回的搜索結(jié)果。設(shè)計(jì)一套合理的學(xué)習(xí)用戶反饋信息的方法即通過(guò)學(xué)習(xí)用戶反饋信息,把隱藏在用戶操作之下的信息,如用戶的興趣愛好,用戶的搜索傾 向等進(jìn)行歸納總結(jié),借助學(xué)習(xí)算法,生成用戶興趣模式。基于用戶反饋的個(gè)性化搜索引擎系統(tǒng)的實(shí)現(xiàn)即設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于用戶反饋的個(gè)性化搜索引擎系統(tǒng)。此系統(tǒng)的最大特點(diǎn)是引入評(píng)分制度獲 取用戶反饋信息,學(xué)習(xí)用戶反饋,挖掘用戶興趣,依據(jù)用戶興趣優(yōu)化搜索結(jié)果,優(yōu)先返回特定用戶 感興趣的網(wǎng)頁(yè)內(nèi)容并向用戶推薦其他用戶的興趣模式,使搜索結(jié)果“面向用戶具有特定性

21、和針對(duì) 性,提高檢索效率。個(gè)性化搜索引擎系統(tǒng)中引入自動(dòng)聚類即如何將學(xué)習(xí)用戶反饋信息、信息檢索與數(shù)據(jù)挖掘中的 自動(dòng)聚類技術(shù)相結(jié)合,通過(guò)對(duì)用戶和搜索結(jié)果的聚類處理,使用戶能更加快捷的找到所需網(wǎng)頁(yè)。2搜索引擎概述2.1個(gè)性化搜索引擎?zhèn)€性化搜索引擎指的是搜索引擎根據(jù)用戶搜索的歷史記錄,來(lái)返回更適合這個(gè)用戶的搜索結(jié)果。 這些搜索歷史記錄包括用戶所搜索的關(guān)鍵詞,在搜索結(jié)果中的點(diǎn)擊情況,在各個(gè)網(wǎng)站的訪問(wèn)情況, 書簽情況等。搜索引擎掌握了這些用戶資料后進(jìn)行分析,在用戶搜索新的關(guān)鍵詞時(shí),能返回更有針 對(duì)性的搜索結(jié)果,從而提高用戶體驗(yàn)。而搜索引擎3,它就是以一定的技術(shù)和策略在互聯(lián)網(wǎng)中搜集、 發(fā)現(xiàn)信息,并對(duì)信息進(jìn)行

22、理解、提取和處理,為用戶提供Web搜索的服務(wù).搜索引擎有各種不同的分類方法。按照信息內(nèi)容劃分,搜索引擎可分為綜合型搜索引擎、專業(yè) 型搜索引擎和特殊型搜索引擎;按照搜索工具的數(shù)量劃分,搜索引擎可分為獨(dú)立搜索引擎、元搜索引 擎和集成搜索引擎;按照信息的組織方式劃分,搜索引擎可分為目錄式搜索引擎、全文搜索引擎和混 合型搜索引擎。以下是按信息的組織方式劃分的三類搜索引擎:目錄式搜索引擎5,或稱按主題查詢型搜索引擎,是將信息分門別類,按照傳統(tǒng)的分類方式 分為各級(jí)目錄。它的特點(diǎn)是質(zhì)量和匹配精度較高,不足之處是搜索范圍較小,查全率較低。全文搜索引擎5,或稱按關(guān)鍵字查詢型搜索引擎,對(duì)各網(wǎng)站的每個(gè)頁(yè)面中的每個(gè)詞

23、進(jìn)行搜索。 它的特點(diǎn)是信息量很大,查全率較高。不足的是它提供的信息太多,反而降低了查準(zhǔn)率。混合型搜索引擎5是針對(duì)全文和目錄搜索引擎的缺點(diǎn)而設(shè)計(jì)的。使用戶在分類目錄中瀏覽, 保證了一定的查準(zhǔn)率,又可以使用戶進(jìn)行全文檢索,查找特定資源。2.2搜索引擎工作原理如圖2.1所示,一個(gè)完整的搜索引擎系統(tǒng)一般由網(wǎng)絡(luò)爬蟲、索引器、檢索器和用戶接口四個(gè)部分 組成,不同搜索引擎具體的模塊可能會(huì)有不同,但都是建立在這四個(gè)基本模塊的基礎(chǔ)之上。用戶接口網(wǎng)絡(luò)爬蟲4(WebCrawler)網(wǎng)絡(luò)爬蟲,又稱網(wǎng)絡(luò)機(jī)器人,它不停的從網(wǎng)絡(luò)上下載文檔并抽取出新的鏈接,循環(huán)的實(shí)現(xiàn)對(duì)萬(wàn) 維網(wǎng)的遍歷。它在一個(gè)完整的運(yùn)行周期內(nèi)(比如半個(gè)月可以

24、下載超過(guò)千萬(wàn)的網(wǎng)頁(yè),并將這些文檔保存 在本地文本數(shù)據(jù)庫(kù),最后由索引器負(fù)責(zé)完成頁(yè)面內(nèi)容的全文索引。索引器(Indexer)索引器對(duì)收集回來(lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息、(包括網(wǎng)頁(yè)所在uRL、編碼類型、頁(yè)面內(nèi) 容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算 法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)(針對(duì)頁(yè)面內(nèi)容)及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性), 然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。查詢器4(Seareher)從使用者角度來(lái)看,查詢算法是決定一個(gè)搜索引擎檢索質(zhì)量最重要的因素。搜索引擎的查詢器 就是利用索引數(shù)據(jù)庫(kù)提供的各類基本數(shù)據(jù)庫(kù),如頁(yè)面全文索引庫(kù)

25、、HTML標(biāo)簽庫(kù)、超鏈接分析庫(kù)、 查詢歷史庫(kù)等多個(gè)數(shù)據(jù)源,實(shí)現(xiàn)對(duì)用戶輸入關(guān)鍵字的準(zhǔn)確、快速的匹配。用戶接口 4(User)用戶接口提供一系列的查詢選項(xiàng)以滿足不同的查詢要求。一般的搜索引擎系統(tǒng)都支持布爾表達(dá) 式操作、搜索域名范圍限制、查詢網(wǎng)頁(yè)的語(yǔ)種,甚至可以選擇文檔的類別。合理的設(shè)置查詢選項(xiàng)可 以大大的減少搜索結(jié)果中的無(wú)效內(nèi)容,提高查詢效率。元搜索引擎6將現(xiàn)有的多個(gè)搜索引擎看成一個(gè)整體,為用戶提供一個(gè)統(tǒng)一的查詢界面,用戶的 查詢請(qǐng)求由元搜索引擎根據(jù)知識(shí)庫(kù)中的信息,轉(zhuǎn)換為多個(gè)搜索引擎所能識(shí)別的格式,然后分別發(fā)送 給調(diào)用的各獨(dú)立搜索引擎,由這些搜索引擎完成實(shí)際的信息檢索,最后元搜索引擎再把各搜索引擎

26、 返回的結(jié)果收集起來(lái),進(jìn)行比較分析,剔除冗余信息,以一定的格式返回給用戶元搜索引擎是指在統(tǒng)一的用戶查詢接口與信息反饋形式下,共享多個(gè)搜索引擎的資源庫(kù)為用戶 提供信息服務(wù)的系統(tǒng)。圖2.2為元搜索引擎體系結(jié)構(gòu)圖7:圖2.2元搜索引擎體系結(jié)構(gòu)圖元搜索引擎系統(tǒng)各模塊分別介紹如下:用戶接口模塊7 該模塊負(fù)責(zé)接收用戶的查詢請(qǐng)求并顯示查詢結(jié)果。調(diào)度模塊7其決定主要的搜索策略,根據(jù)用戶的輸入必須決定查詢哪一個(gè)成員搜索引擎, 以及按照不同成員搜索引擎的要求修改用戶輸入的查詢請(qǐng)求。調(diào)度模塊為元搜索引擎系統(tǒng)結(jié)果處理模塊7元搜索引擎的結(jié)果處理模塊從成員搜索引擎中獲取網(wǎng)頁(yè)結(jié)果,并根據(jù)返回網(wǎng) 頁(yè)的不同格式提取元搜索引擎需

27、要的內(nèi)容,并對(duì)結(jié)果進(jìn)行去重、合并、輸出處理等。2.3個(gè)性化搜索引擎系統(tǒng)模型隨著網(wǎng)絡(luò)信息爆炸似的增長(zhǎng),人們通過(guò)搜索引擎檢索到的信息不是太少,而是太多了,且大多 數(shù)都是與查詢請(qǐng)求無(wú)關(guān)的信息。傳統(tǒng)搜索引擎及一般的元搜索引擎系統(tǒng)已經(jīng)越來(lái)越不能滿足人們的 需求,因而個(gè)性化技術(shù)日益成為檢索領(lǐng)域研究的熱點(diǎn)問(wèn)題。個(gè)性化搜索引擎將個(gè)性化信息服務(wù)的概念引入到搜索引擎中,使其能夠更好的適應(yīng)于網(wǎng)絡(luò)信息 的發(fā)展。個(gè)性化搜索引擎的目的在于能夠根據(jù)用戶的背景、興趣愛好、研究方向、檢索目的等,向 用戶提供相應(yīng)的需求信息。個(gè)性化Web元搜索引擎系統(tǒng)模型如圖2.33 所示:其中個(gè)性化搜索引擎中各模塊功能如下:用戶接口 3該模塊為

28、用戶提供可視化的查詢輸入和結(jié)果輸出界面。在查詢輸入界面中用戶可輸入一系列關(guān) 鍵詞、一系列布爾操作符;在輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個(gè)線性的文檔列表。用戶描述文件庫(kù)3該庫(kù)根據(jù)一定的用戶興趣模型,存放用戶興趣知識(shí)。好的用戶興趣模型不僅要求客觀、全面表 達(dá)用戶興趣知識(shí),而且還要具備良好的后期興趣評(píng)估可操作性。查詢分析器3根據(jù)用戶興趣庫(kù)知識(shí)對(duì)用戶查詢請(qǐng)求進(jìn)行概念、語(yǔ)義分析,并在此基礎(chǔ)上對(duì)查詢輸入進(jìn)行擴(kuò)展 形成新的更長(zhǎng)、更準(zhǔn)確的查詢,這樣可以幫助搜索引擎弄清用戶確切所指。Web處理接口 3Web處理接口通過(guò)并行的方式調(diào)用多個(gè)搜索引擎,把所有的結(jié)果集中到一起。結(jié)果預(yù)處理3對(duì)來(lái)自不同搜索引擎的結(jié)果

29、進(jìn)行整合,如剔除重復(fù)、統(tǒng)一格式、檢驗(yàn)鏈接有效性和分類等。查詢過(guò)濾器3對(duì)返回的結(jié)果進(jìn)行個(gè)性化處理,比如根據(jù)用戶興趣權(quán)值等重要性尺度重新進(jìn)行相關(guān)度排序,并 將結(jié)果提交給用戶。此模塊是信息過(guò)濾系統(tǒng)的核心部分。2.4未來(lái)搜索引擎的發(fā)展趨勢(shì)當(dāng)前的萬(wàn)維網(wǎng)檢索結(jié)果幾乎都是以列表形式表現(xiàn),查詢質(zhì)量良養(yǎng)不齊、組織結(jié)構(gòu)也不合理,但 是由于該項(xiàng)技術(shù)高效、成熟的特點(diǎn),在未來(lái)的一段時(shí)間內(nèi),這項(xiàng)技術(shù)還將在搜索領(lǐng)域占據(jù)絕對(duì)重要 的位置。為了進(jìn)一步改善檢索質(zhì)量,未來(lái)的搜索引擎應(yīng)該在以下幾方面有所突破10:.個(gè)性化在輸入方面,使用自然語(yǔ)言輸入,更加方便用戶的使用,更易于用戶與搜索引擎的交互,更能 貼近地表達(dá)用戶的查詢需求,從而

30、有利于提高查詢的精度。在返回結(jié)果方面,應(yīng)該充分發(fā)揮預(yù)處理 和搜索結(jié)果集成方面的能力,考慮人的性別、年齡、地域等方面的差別給出個(gè)性的搜索結(jié)果。.智能化一方面,元搜索引擎通過(guò)不斷學(xué)習(xí)來(lái)掌握用戶的喜好,通過(guò)對(duì)用戶搜索習(xí)慣和興趣的挖掘,達(dá) 到自動(dòng)選擇合適的成員搜索引擎的目的,從而進(jìn)行搜索。另一方面,可對(duì)用戶其它方式的輸入查詢 如聲音、圖像、視頻等,實(shí)現(xiàn)智能的查詢轉(zhuǎn)換功能,從而得到預(yù)想的結(jié)果。.專業(yè)化專業(yè)化元搜索引擎是個(gè)很好的概念,不但網(wǎng)絡(luò)資源可以比普通元搜索引擎挖得更深更多,搜索負(fù)擔(dān)還小得多,應(yīng)該是很符合網(wǎng)絡(luò)發(fā)展方向的。3個(gè)性化搜索引擎相關(guān)技術(shù)3.1信息抽取技術(shù)信息抽取技術(shù)11,簡(jiǎn)稱IE技術(shù),是通過(guò)抽

31、取、過(guò)濾無(wú)關(guān)信息,使文本信息以用戶關(guān)心的形式得 以再組織,實(shí)現(xiàn)高效重組。信息抽取原來(lái)的目標(biāo)是從自然語(yǔ)言文檔中找到特定的信息,是自然語(yǔ)言 處理領(lǐng)域特別的一個(gè)子領(lǐng)域。信息抽取利用語(yǔ)言學(xué)的知識(shí),主要是詞語(yǔ)知識(shí)和篇章結(jié)構(gòu)的知識(shí),從 文中抽取出特定的內(nèi)容,從而避免對(duì)全文進(jìn)行深入的理解。信息抽取主要有兩大方法一是知識(shí)工程 方法,二是自動(dòng)訓(xùn)練方法。知識(shí)工程方法主要靠手工編制規(guī)則使系統(tǒng)能處理特定知識(shí)領(lǐng)域的信息抽 取問(wèn)題。這種方法要求編制規(guī)則的知識(shí)工程師對(duì)該知識(shí)領(lǐng)域有深入的了解。自動(dòng)訓(xùn)練方法11不一定 需要如此專業(yè)的知識(shí)工程師。系統(tǒng)主要通過(guò)學(xué)習(xí)己經(jīng)標(biāo)記好的語(yǔ)料庫(kù)獲取規(guī)則。任何對(duì)該知識(shí)領(lǐng)域 比較熟悉的人都可以根據(jù)

32、事先約定的規(guī)范標(biāo)記語(yǔ)料庫(kù)。經(jīng)訓(xùn)練后的系統(tǒng)能處理沒(méi)有見過(guò)的新文本。 這種方法要比知識(shí)工程方法快,但需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證其處理質(zhì)量。IE技術(shù)所要抽取的文本可分為:自由式文本、結(jié)構(gòu)化文本和半結(jié)構(gòu)化文本。自由式文本11:信息 抽取最初的目的是開發(fā)實(shí)用系統(tǒng),從自由文本中析取有限的主要信息。需要經(jīng)過(guò)的處理步驟包括句 法分析、語(yǔ)義標(biāo)注、專有對(duì)象的識(shí)別:如人物、公司)和抽取規(guī)則。結(jié)構(gòu)化文本11:此種文本是一種數(shù) 據(jù)庫(kù)里的文本信息,或者是根據(jù)事先規(guī)定的嚴(yán)格格式生成的文本。從這樣的文本中抽取信息是非常 容易的,準(zhǔn)確度也高,通過(guò)描述其格式即可達(dá)到目的。半結(jié)構(gòu)化文本11這是一種界于自由文本和結(jié) 構(gòu)化文本之

33、間的數(shù)據(jù),通常缺少語(yǔ)法,也沒(méi)有嚴(yán)格的格式,對(duì)于半結(jié)構(gòu)化文本不能使用傳統(tǒng)的田技 巧,而用來(lái)處理結(jié)構(gòu)化文本的簡(jiǎn)單的規(guī)則處理方法也不能奏效。3.2 Lucene檢索工具包Lucen e是一個(gè)高性能的,可擴(kuò)展的全文索引工具包,是一個(gè)細(xì)ava實(shí)現(xiàn)的成熟、自由、開源的 軟件項(xiàng)目。它不是一個(gè)完整的全文索引應(yīng)用,而是一個(gè)用Java寫的全文索引工具包。它可以方便的 嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引和檢索功能。Lucene的系統(tǒng)結(jié)構(gòu)與源代碼結(jié)構(gòu):Lucene由于具有開放源代碼、功能強(qiáng)大、可以跨平臺(tái)使用等各種優(yōu)點(diǎn),近年來(lái)在世界各地被廣 泛使用。Lucene的系統(tǒng)結(jié)構(gòu)圖5如下:索引文件查詢語(yǔ)句查詢結(jié)果索引文件對(duì)

34、外接口 基礎(chǔ)結(jié)構(gòu)封裝圖3.1 Lucene的系統(tǒng)結(jié)構(gòu)由圖3.1可以看到,Lucene的系統(tǒng)由基礎(chǔ)結(jié)構(gòu)封裝、索引核心、接口三大部分組成,其中直接操 作索引文件的索引核心又是系統(tǒng)的重點(diǎn)。是一個(gè)完全使用JZSE實(shí)現(xiàn)的全文檢索引擎工具包。3.3中文分詞技術(shù)英文是由空格和標(biāo)點(diǎn)符號(hào)隔開的單詞組成的,每一個(gè)單詞都有意義。因此對(duì)于英文文檔的處理, 標(biāo)準(zhǔn)分析模塊可以先將每個(gè)字母轉(zhuǎn)換成小寫后暫存在緩存中,遇到一個(gè)空格或標(biāo)點(diǎn)符號(hào)后返回以前 的所有字母,然后與停止詞表對(duì)比,發(fā)現(xiàn)有停止詞,立即忽略掉這個(gè)詞。如果不是停止詞則可存入 倒排索引文件中。但中文句子沒(méi)有空格作為分隔,所以這種分詞方法對(duì)于中文來(lái)說(shuō)是不適用的12。

35、從20世紀(jì)70年代開始,我國(guó)一直有大量學(xué)者致力于中文自動(dòng)分詞的研究,至今己獲得許多可喜的成 果,一些分詞標(biāo)引和檢索技術(shù)已投入使用12。但是,分詞技術(shù)作為中文信息檢索的瓶頸,仍然具有 很多有待克服的問(wèn)題,如專有名詞以及復(fù)合詞的切分、同形異義字的區(qū)分等。目前最常用的中文分 詞技術(shù)主要分為字表法、二分法和詞庫(kù)分詞三大類:.字表法(單漢字切分方法)字表法12是對(duì)每個(gè)單字的出現(xiàn)位置進(jìn)行索引,并依據(jù)單字的位置信息進(jìn)行檢索的方法。由于漢 語(yǔ)是由獨(dú)立的漢字組成的,因而可以和處理英文單詞一樣處理每一個(gè)漢字,這樣可以避開分詞歧義 等難點(diǎn)問(wèn)題。.二分法(二元切分方法)二分分詞法12是對(duì)單漢字索引法的一種演進(jìn),這種方

36、法是將每?jī)蓚€(gè)字進(jìn)行一次切分。例如對(duì)詞 組“中華人民共和國(guó)”進(jìn)行二分法切分,則結(jié)果如下:中華/華人/人民/民共/共和/和國(guó)這種切分方法完 全不考慮詞義、語(yǔ)境,機(jī)械地對(duì)語(yǔ)句進(jìn)行處理。按這種分詞方式建立起來(lái)的索引會(huì)存有大量的無(wú)實(shí) 際意義或無(wú)檢索意義的垃圾詞匯,因此,它也不是一種最好的分詞方法。. 詞庫(kù)分詞詞庫(kù)分詞13是將能表達(dá)一定意義的詞作為基本檢索單位,并根據(jù)詞的出現(xiàn)位置進(jìn)行索引和檢索 的中文分詞方法。詞庫(kù)分詞包括最大匹配法、最佳匹配法等,這類算法分詞的正確性很大程度上取 決于所建立的詞庫(kù)。通常的做法是先構(gòu)造一個(gè)最小完備詞庫(kù),然后在其基礎(chǔ)上進(jìn)行擴(kuò)展,建立一個(gè) 較完全的詞庫(kù)。3.4自動(dòng)聚類技術(shù)聚類,

37、就是將一個(gè)數(shù)據(jù)單位的集合分割成幾個(gè)稱為簇或類別的子集,每個(gè)類中的數(shù)據(jù)都有相似 性。聚類分析依據(jù)的原則是使同一聚簇中的對(duì)象具有盡可能大的相似性,而不同聚簇中的對(duì)象具有 盡可能大的相異性。聚類分析稱為無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)不依靠事先確定的數(shù)據(jù)類別及標(biāo)有數(shù)據(jù) 類別的學(xué)習(xí)訓(xùn)練樣本集合,需要由聚類學(xué)習(xí)算法自動(dòng)計(jì)算,不需要人工干預(yù)。聚類技術(shù)通過(guò)比較數(shù) 據(jù)的相似性和差異性,能發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在特征及分布規(guī)律,從而獲得對(duì)數(shù)據(jù)更深刻的認(rèn)識(shí)和理解。目前,聚類分析的方法主要有五類:劃分聚類方法、層次聚類方法、度聚類方法、基于網(wǎng)格聚類 方法和基于模型聚類方法。劃分方法15:首先創(chuàng)建!彳劃分,k為要?jiǎng)?chuàng)建的對(duì)象劃分個(gè)數(shù);然后

38、利用一個(gè)循環(huán)定位技術(shù)通過(guò) 將對(duì)象從一個(gè)劃分移到另一個(gè)劃分來(lái)幫助改善劃分質(zhì)量。層次方法日15:創(chuàng)建一個(gè)層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下 而上(合并)兩種操作方式。為彌補(bǔ)分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循 環(huán)定位。基于密度方法15:根據(jù)密度完成對(duì)象的聚類。它根據(jù)對(duì)象周圍的密度不斷增長(zhǎng)聚類?;诰W(wǎng)格方法15:首先將對(duì)象空間劃分為有限個(gè)單元以構(gòu)成網(wǎng)格結(jié)構(gòu),然后利用網(wǎng)格結(jié)構(gòu)完 成聚類。STING(Statistica1 Information Grid)就是一個(gè)利用網(wǎng)格單元保存的統(tǒng)計(jì)信息進(jìn)行基于網(wǎng)格聚類 的方法?;谀P头椒?5:它假設(shè)每個(gè)聚類的模型并

39、發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的基于模型方法 包括:統(tǒng)計(jì)方法C OBWEB:是一個(gè)常用的且簡(jiǎn)單的增量式概念聚類方法。它們都不適合對(duì)大數(shù)據(jù)庫(kù)進(jìn) 行聚類處理。3.5用戶行為分析用戶既是搜索引擎的直接使用者,也是服務(wù)質(zhì)量好壞的最終評(píng)判者。對(duì)用戶使用搜索引擎行為 的調(diào)查是搜索引擎優(yōu)化尤為需要的,而搜索引擎為用戶找尋信息提供了指南。但搜索引擎給網(wǎng)絡(luò)用 戶帶來(lái)巨大便捷的同時(shí)也暴露出了不少問(wèn)題,若要及時(shí)地解決這些問(wèn)題,對(duì)搜索引擎進(jìn)行優(yōu)化,那 么則需要大量的用戶信息。尤其要關(guān)注用戶在使用搜索引擎時(shí)滿意和不滿意的方面,并通過(guò)相關(guān)的 軟件技術(shù)對(duì)用戶使用搜索引擎的行為進(jìn)行跟蹤,制定出優(yōu)化搜索引擎的措施。下面是通過(guò)用戶

40、行為分析反映出的一般特征:用戶瀏覽的選擇性15用戶每次搜索時(shí),搜索引擎都會(huì)返回成百上千個(gè)查詢結(jié)果如果用戶點(diǎn)擊一個(gè)查詢結(jié)果,就可認(rèn) 為用戶視此查詢結(jié)果質(zhì)量較高;被用戶點(diǎn)擊瀏覽的頁(yè)面無(wú)疑就是用戶認(rèn)為質(zhì)量較高的頁(yè)面。用戶瀏覽的局部性15北大天網(wǎng)搜索引擎的統(tǒng)計(jì)數(shù)據(jù)顯示,用戶點(diǎn)擊的URL相當(dāng)集中。大部分用戶點(diǎn)擊都落在前面幾 頁(yè),像第一頁(yè)的用戶點(diǎn)擊率占總點(diǎn)擊的47%,而前面5頁(yè)的點(diǎn)擊率占總點(diǎn)擊的75%以上。不到總量1/3 的頁(yè)面的點(diǎn)擊次數(shù)占到總點(diǎn)擊次數(shù)的2/314.15。這表明用戶點(diǎn)擊URL具有很強(qiáng)的局部性。用戶點(diǎn)擊率15由于網(wǎng)頁(yè)存在的時(shí)間越長(zhǎng),累計(jì)下來(lái)的訪問(wèn)次數(shù)可能越多,故網(wǎng)頁(yè)被訪問(wèn)的次數(shù)不能很好地反

41、映一個(gè)網(wǎng)頁(yè)內(nèi)容的質(zhì)量。所以,應(yīng)使用網(wǎng)頁(yè)的用戶點(diǎn)擊率來(lái)反映頁(yè)面的質(zhì)量。用戶點(diǎn)擊率是頁(yè)面被 訪問(wèn)次數(shù)/頁(yè)面被搜索次數(shù)。雖然每次用戶點(diǎn)擊都是在某查詢項(xiàng)下的點(diǎn)擊,但研究結(jié)果表明,在大部 分的查詢項(xiàng)下,URL的點(diǎn)擊頻率和在所有查詢項(xiàng)URL的點(diǎn)擊頻率基本一致。因此,在計(jì)算用戶點(diǎn)擊 率時(shí)就不必考慮該點(diǎn)擊次數(shù)是在什么項(xiàng)目下的點(diǎn)擊次數(shù)。4個(gè)性化搜索引擎的總體設(shè)計(jì)4.1系統(tǒng)需求分析及總體設(shè)計(jì)本課題以傳統(tǒng)搜索引擎和元搜索引擎為背景,在搜索引擎技術(shù)中融入用戶反饋信息的采集,首 先開發(fā)一個(gè)基于用戶反饋的個(gè)性化搜索引擎系統(tǒng)。該系統(tǒng)能個(gè)性化的完成用戶的搜索行為通過(guò)學(xué)習(xí) 用戶滿意度反饋,生成用戶興趣模式優(yōu)化搜索結(jié)果,優(yōu)先返回

42、用戶感興趣的網(wǎng)頁(yè)內(nèi)容并向用戶推薦 其他用戶的興趣模式。總體來(lái)說(shuō)此系統(tǒng)的設(shè)計(jì)至少應(yīng)一該滿足以下幾點(diǎn)功能要求.用戶注冊(cè)登陸.用戶提交搜索請(qǐng)求,得到搜索返回結(jié)果.根據(jù)用戶提交的反饋信息,生成特定用戶興趣模式,優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感興趣的網(wǎng) 頁(yè)內(nèi)容并向用戶推薦其他用戶的興趣模式,提高檢索效率Java EE技術(shù)是近幾年來(lái)研究與應(yīng)用的熱點(diǎn),Java EE平臺(tái)最大的改變是對(duì)Web服務(wù)的全面支持。 瀏覽器端向用戶提供友好的訪問(wèn)操作界面,服務(wù)器端完成搜索引擎系統(tǒng)的業(yè)務(wù)邏輯,接收瀏覽器端 的輸入,處理瀏覽器端的搜索請(qǐng)求,并將搜索返回結(jié)果輸出給瀏覽器端。本文在設(shè)計(jì)過(guò)程中,服務(wù) 器端采用Java EE系統(tǒng)架構(gòu)。

43、采用這種方式,可保證開發(fā)的企業(yè)應(yīng)用可以部署到任何一個(gè)lava EE 的應(yīng)用服務(wù)器上。服務(wù)器端使用Windows Server2003操作系統(tǒng)、jdk-1.5.0_13、Apache Tomcat5.5.25。 數(shù)據(jù)庫(kù)系統(tǒng)負(fù)責(zé)存儲(chǔ)系統(tǒng)邏輯處理所需的數(shù)據(jù),本系統(tǒng)中使用MYSQL數(shù)據(jù)庫(kù)。作為一款開源軟件, MYSQL適應(yīng)于所有平臺(tái)。同時(shí),它還具有使用簡(jiǎn)便、管理方便、運(yùn)行速度快等優(yōu)點(diǎn),完全滿足本系 統(tǒng)的開發(fā)應(yīng)用。在集成開發(fā)環(huán)境(IDE)方面,本系統(tǒng)采用開源的Eclipseo Eclipse是IBM提出的下一代 IDE開發(fā)環(huán)境,它目標(biāo)不僅僅是成為專門開發(fā)Java程序的IDE環(huán)境,根據(jù)Eclipse的體系

44、結(jié)構(gòu),通過(guò)開 發(fā)插件,它還能擴(kuò)展到任何語(yǔ)言的開發(fā),甚至能成為圖片繪制的工具。個(gè)性化搜索引擎系統(tǒng)開發(fā)過(guò)程中需解決的關(guān)鍵問(wèn)題如下:基于用戶反饋的個(gè)性化搜索引擎系統(tǒng)的實(shí)現(xiàn),其中包括四個(gè)關(guān)鍵問(wèn)題.如何獲得搜索引擎源數(shù)據(jù).獲取用戶滿意度反饋信息的方式.基于用戶滿意度反饋信息,生成用戶興趣模式的學(xué)習(xí)算法.基于用戶興趣模式的搜索結(jié)果優(yōu)化算法基于用戶反饋的個(gè)性化搜索引擎系統(tǒng)中引入自動(dòng)聚類技術(shù)的改進(jìn)方案用戶聚類的簡(jiǎn)單設(shè)計(jì)思 想搜索結(jié)果聚類的設(shè)計(jì)思想4.2系統(tǒng)功能及架構(gòu)設(shè)計(jì)本課題通過(guò)學(xué)習(xí)用戶滿意度反饋,挖掘隱形信息,生成用戶興趣模式,對(duì)搜索引擎返回的搜索 結(jié)果進(jìn)行加工處理,開發(fā)出實(shí)用的基于用戶反饋的個(gè)性化搜索引擎

45、系統(tǒng),并在此基礎(chǔ)上提出引入自 動(dòng)聚類的改進(jìn)方案,從而使用戶能享受高效的個(gè)性化查詢,提高用戶的搜索效率。本系統(tǒng)的主要功能包括:友好的系統(tǒng)界面使得用戶可以方便的實(shí)現(xiàn)注冊(cè)、登陸、檢索、評(píng)價(jià)等。 完成用戶的搜索請(qǐng)求本系統(tǒng)能根據(jù)用戶輸入的搜索關(guān)鍵詞,及時(shí)返回搜索結(jié)果。學(xué)習(xí)用戶反饋信息, 向用戶返回針對(duì)性的搜索結(jié)果,開發(fā)出基于用戶反饋的個(gè)性化搜索引擎,用戶對(duì)本搜索引擎的返回 結(jié)果進(jìn)行滿意度評(píng)價(jià)后,系統(tǒng)會(huì)對(duì)用戶的滿意度反饋信息進(jìn)行學(xué)習(xí)分析,提高檢索效率。本文將系統(tǒng)結(jié)構(gòu)模型劃分為三層,分別是表示層、業(yè)務(wù)邏輯層和數(shù)據(jù)持久層。利用三層模式, 可以保證用戶訪問(wèn)不直接接觸后臺(tái)應(yīng)用以及數(shù)據(jù)資源,而是通過(guò)訪問(wèn)中間層,來(lái)獲

46、取后臺(tái)的數(shù)據(jù)資 源,這樣即可以保證后臺(tái)數(shù)據(jù)的安全性,又可以保證處理的一致性。下面是本課題的系統(tǒng)結(jié)構(gòu)圖表示層Web瀏覽器HTTP協(xié)議圖4.1系統(tǒng)結(jié)構(gòu)圖基于語(yǔ)義Web搜索引擎的系統(tǒng)框架:搜索引擎工作的基本思想是:使用Robot來(lái)遍歷Web,#Web 上分布的信息下載到本地文檔庫(kù);然后對(duì)檔內(nèi)容進(jìn)行自動(dòng)分析并建立索引,添加到倒排索引庫(kù):對(duì)于用 戶提出的檢索請(qǐng)求,搜索引擎通過(guò)檢查索引庫(kù)找出匹配的文檔,返回用戶。而基于語(yǔ)義Web的搜索 引擎所有的工作都是建立在語(yǔ)義Web基礎(chǔ)之上的,特別是在建立索引和檢索過(guò)程中。4.3系統(tǒng)流程設(shè)計(jì)本系統(tǒng)接收來(lái)自瀏覽器端的用戶搜索請(qǐng)求,調(diào)用相應(yīng)的業(yè)務(wù)方法,訪問(wèn)數(shù)據(jù)持久層的數(shù)據(jù)

47、資源, 并將所需要的數(shù)據(jù)返回瀏覽器端,即響應(yīng)用戶的請(qǐng)求。同時(shí),本搜索引擎系統(tǒng)的最大特點(diǎn)就是,根 據(jù)用戶提交的滿意度反饋信息,調(diào)用相應(yīng)的業(yè)務(wù)方法生成用戶興趣優(yōu)化搜索結(jié)果,優(yōu)先返回用戶感 興趣的網(wǎng)頁(yè)內(nèi)容。本系統(tǒng)實(shí)現(xiàn)過(guò)程中,主要由四個(gè)步驟組成:(1)用戶注冊(cè)、登陸;(2 )用戶提交搜索關(guān) 鍵詞,實(shí)現(xiàn)搜索得到返回結(jié)果;(3)根據(jù)用戶對(duì)搜索結(jié)果的滿意度反饋信息,生成用戶興趣規(guī)則;(4 )根 據(jù)用戶興趣規(guī)則優(yōu)化搜索結(jié)果,及時(shí)將用戶感興趣的網(wǎng)頁(yè)返回給用戶。以下是這四個(gè)步驟的流程圖用戶注冊(cè)、登陸以一下是用戶注冊(cè)、登陸的流程圖。訪問(wèn)本搜索引擎的用戶可以以訪客,已注冊(cè)用戶身份來(lái)完成搜 索功能,并且本系統(tǒng)調(diào)用MDS

48、加密技術(shù),對(duì)已注冊(cè)用戶的密碼進(jìn)行加密,保證了用戶信息的安全性。(2)用戶搜索以下是用戶搜索的流程圖。用戶提交關(guān)鍵詞后,系統(tǒng)實(shí)現(xiàn)搜索功能,得到返回的搜索結(jié)果并且 這些搜索結(jié)果會(huì)依據(jù)用戶興趣規(guī)則及用戶反饋信息(用戶滿意度評(píng)價(jià))及時(shí)優(yōu)化處理,爭(zhēng)取達(dá)到優(yōu)先返 回用戶感興趣的網(wǎng)頁(yè)內(nèi)容的效果。圖4.3用戶搜索流程圖生成用戶興趣規(guī)則以下是根據(jù)用戶滿意度反饋信息生成用戶興趣規(guī)則的流程圖。通過(guò)本文自定義的一套學(xué)習(xí)用戶 反饋信息的方法,生成特定用戶對(duì)特定搜索關(guān)鍵詞的興趣規(guī)則。圖4.4生成用戶興趣規(guī)則流程圖優(yōu)化搜索結(jié)果以下是依據(jù)用戶興趣規(guī)則對(duì)待返回的搜索結(jié)果進(jìn)行優(yōu)化的流程圖。通過(guò)計(jì)算待返回的搜索結(jié)果 與用戶興趣規(guī)則

49、的相似度,對(duì)返回結(jié)果降序排序,優(yōu)先返回用戶感興趣的網(wǎng)頁(yè)內(nèi)容。圖4.5優(yōu)化搜索結(jié)果流程圖4.4系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)本課題開發(fā)一個(gè)基于用戶反饋的個(gè)性化搜索引擎系統(tǒng),服務(wù)器端主要設(shè)計(jì)了如下幾個(gè)數(shù)據(jù)庫(kù)表 user_info用戶基本信息表:用來(lái)存儲(chǔ)已注冊(cè)用戶的基本信息。search_record搜索記錄表:用來(lái)存儲(chǔ)歷史搜索記錄。storerecord搜索結(jié)果存儲(chǔ)表:用來(lái)存儲(chǔ)返回的搜索結(jié)果。rule_record用戶興趣規(guī)則表:用來(lái)存儲(chǔ)生成的用戶興趣規(guī)則。user_rule用戶與規(guī)則關(guān)聯(lián)表:用來(lái)關(guān)聯(lián)特定用戶與特定興趣規(guī)則。rule_result搜索結(jié)果分值表:用來(lái)存儲(chǔ)搜索結(jié)果與用戶興趣規(guī)則的相似度。表4.1用戶

50、基本信息表字段名稱字段類型字段說(shuō)明UserlgidVarchar(50)用戶名PasswordVarchar(50)用戶密碼EmailVarchar(50)郵箱MobileVarchar(15)手機(jī)號(hào)碼loginipVarchar(15)最后一次登陸IPRegtimeDatetime注冊(cè)時(shí)間LogintimeDatetime最后一次登陸時(shí)間MemoVarchar(50)備注useridIng(10)用戶序號(hào)表4.2搜索記錄表字段名稱字段類型字段說(shuō)明SearchedInt(10)搜索序號(hào)UseridInt(10)用戶序號(hào)KeywordsVarchar(200)搜索關(guān)鍵詞resultsInt(10

51、)搜索結(jié)果數(shù)searchtimedatetime搜索時(shí)間表4.3搜索結(jié)果存儲(chǔ)表字段名稱字段類型字段說(shuō)明StoriedBigint(19)搜索結(jié)果序號(hào)KeywordsVarchar(50)搜索關(guān)鍵詞urlMediumtext搜索結(jié)果鏈接地址TitleMediumtext搜索結(jié)果標(biāo)題ContestMediumtext搜索結(jié)果摘要PagesizeVarchar(20)搜索結(jié)果網(wǎng)頁(yè)頁(yè)面大小PagedateVarchar(20)搜索結(jié)果更新日期SegmenterMediumtext搜索結(jié)果分詞集合flagInt(10)標(biāo)志位DowntimeDatetime搜索結(jié)果存儲(chǔ)時(shí)間pageidInt(10)頁(yè)面號(hào)

52、表4.4用戶興趣規(guī)則表字段名稱字段類型字段說(shuō)明IdBigint(19)規(guī)則序號(hào)KeywordsVarchar(20)規(guī)則關(guān)鍵詞PageidInt(10)產(chǎn)生規(guī)則的頁(yè)號(hào)AdddateDatetime規(guī)則生成時(shí)間Segmentermediumtext興趣規(guī)則分詞及權(quán)重RulevalueInt(10)規(guī)則的權(quán)重countsInt(10)規(guī)則的使用次數(shù)表4.5用戶與規(guī)則關(guān)聯(lián)表字段名稱字段類型字段說(shuō)明IdBigint(19)序號(hào)UseridDecimal用戶序號(hào)ruleidDecimal規(guī)則序號(hào)表4.6搜索結(jié)果分值表字段名稱字段類型字段說(shuō)明IdBigint(19)序號(hào)ResultedDecimal搜索結(jié)

53、果序號(hào)Ruleiddecimal規(guī)則序號(hào)PagenumInt(10)搜索結(jié)果所在頁(yè)號(hào)HitsInt(10)搜索結(jié)果點(diǎn)擊數(shù)MarkInt(10)搜索結(jié)果評(píng)分WeightInt(10)搜索結(jié)果權(quán)重resultvalueInt(10)搜索結(jié)果與興趣規(guī)則相似度5個(gè)性化搜索引擎的具體實(shí)現(xiàn)5.1模塊設(shè)計(jì)基于上一章的功能分析和總體設(shè)計(jì),本搜索引擎系統(tǒng)可分為四個(gè)模塊來(lái)實(shí)現(xiàn)。它們分別是用戶 界面模塊、搜索模塊、學(xué)習(xí)用戶反饋模塊、搜索結(jié)果優(yōu)化處理模塊。下面是本系統(tǒng)的功能模塊圖用戶界面模塊:用戶與搜索引擎系統(tǒng)交互的界面。用戶界面的主要功能有用戶注冊(cè)、登陸、提 交搜索關(guān)鍵詞、顯示搜索結(jié)果、提交反饋信息等。搜索模塊:根

54、據(jù)用戶輸入的搜索關(guān)鍵詞,獲得搜索結(jié)果并經(jīng)過(guò)相關(guān)預(yù)處理后存入搜索結(jié)果數(shù)據(jù) 庫(kù)。學(xué)習(xí)用戶反饋模塊:根據(jù)用戶提交的滿意度反饋信息,挖掘隱藏信息,結(jié)合學(xué)習(xí)算法,生成用 戶興趣規(guī)則并存入用戶興趣規(guī)則數(shù)據(jù)庫(kù)。搜索結(jié)果優(yōu)化模塊:根據(jù)用戶的興趣規(guī)則,計(jì)算搜索結(jié)果與用戶興趣規(guī)則的相似度,將待返回 搜索結(jié)果按相似度降序排列,優(yōu)先返回用戶感興趣的網(wǎng)頁(yè)內(nèi)容。下面分章節(jié)詳細(xì)闡述這四個(gè)模塊的 實(shí)現(xiàn)方法及核心代碼:5.2用戶界面模塊所有來(lái)訪用戶均可通過(guò)本搜索引擎系統(tǒng)完成搜索功能。其中,未注冊(cè)用戶以訪客身份登陸實(shí)現(xiàn) 搜索,新用戶可填寫注冊(cè)信息實(shí)現(xiàn)注冊(cè),已注冊(cè)用戶通過(guò)提交正確的用戶名和密碼登陸后可進(jìn)行搜 索。用戶登陸后再搜索的

55、益處在于,可以有針對(duì)性的采集用戶的反饋信息一主要是用戶的滿意度評(píng) 價(jià)信息,有助于生成用戶興趣規(guī)則,優(yōu)化搜索結(jié)果,從而優(yōu)先向用戶返回其感興趣的網(wǎng)頁(yè)內(nèi)容。也 就是說(shuō),對(duì)于不同用戶輸入相同搜索關(guān)鍵詞時(shí),本搜索引擎可以根據(jù)用戶的興趣模式向特定用戶返 回有針對(duì)性的搜索結(jié)果。同時(shí),本系統(tǒng)在實(shí)現(xiàn)過(guò)程中,調(diào)用MDS加密技術(shù),對(duì)用戶密碼進(jìn)行加密, 保證了用戶信息的安全性。下面是用戶界面模塊的幾個(gè)組成部分圖5.2用戶界面模塊組成圖由上圖可知,用戶界面模塊主要由:用戶注冊(cè)界面、用戶登陸界面、搜索提交界面、搜索結(jié)果返 回界面組成。下面給出了用戶注冊(cè)、用戶登陸功能的核心代碼而搜索提交與搜索結(jié)果返回界面的相 關(guān)功能代碼將

56、在后續(xù)相應(yīng)章節(jié)中給出。用戶注冊(cè)功能核心代碼Datedate=newDate():TimestamPregtime=newTimestamP(date.getTime() if(request.getParameter(Submit”)!=null)if(request.getParameteruid)!=null)uid=newString(request.getParalneter(uid”).getBytes(iso-8859-1”), ”gb2312”);if(request.getParameter(email)!=null) email=newString(request.getPa

57、rameter(“email).getBytes(iso-8859-l), ” gb2312”);if(request.getParameter(Password)!null)Password=newString(request.getParameter(Password”).getBytes(iso-8859-l”),” gb2312”): if(request.getParameter(mobile”)!=null)mobile=newString(request.getParameter(mobile”).getBytes(iso-8859-l”),”gb2312”):striP=new

58、String(request.getRemoteAddr().getBytes(“iso-8859-l”),” gb2312”):MDSEneodestrMDS=newMDSEncode():UserlnfBeanuinfobean=newUserlnfBean();if(!uinfobean.ifexist-userlgid(uid)Userlnfuinfo=newUserInf():uinfo.setuserlgid(uid);uinfo.setemail(email); uinfo.setname(uid);uinfo.setPassword(strMD5.getMD5ofStr(Pas

59、sword):uinfo.setlogintime(regtime);uinfo-setregtime(regtime);uinfo-setmobile(mobile): uinfo.setloginip(strip);uinfo.setmemo(”):uinfobean.add-userinfo(uinfo):elseUid=“注冊(cè)未成功。對(duì)不起,該用戶名已經(jīng)注冊(cè)了,請(qǐng)重新取名注冊(cè)!” ;(2)用戶登陸功能核心代碼:if(request.getParameter(Submi”)!=null)if(request.getParameter(uid”)!=null)uid=newString(r

60、equest.getParameter”uid”).getBytes(iso-8859-T), ”gh2312”):if(request.getParameter(Password”)!null)Password=newStril1g(request.getParametefPassword”).getBytes(iso-8859-l”),”gb2312”):MDSEneedestrMDS=newMDSEneode();UserlnfBeanuinfobean=newUserlnfBean();Userlnfuinfo=newUserInf();uinfo=uinfobean.getUseri

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論