基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計

上傳人：賓*** IP屬地：江蘇上傳時間：2023-03-21 格式：DOC 頁數(shù)：41 大小：3.10MB 積分：30 舉報 版權(quán)申訴

基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計_第2頁

基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計_第3頁

基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計_第4頁

基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計_第5頁

已閱讀5頁，還剩36頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

仰恩大學(xué)畢業(yè)設(shè)計(論文)仰恩大學(xué)畢業(yè)設(shè)計(論文)I基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計摘要網(wǎng)絡(luò)中的資源非常豐富，但是如何有效的搜索信息卻是一件困難的事情。建立搜索引擎就是解決這個問題的最好方法。本文首先詳細介紹了基于英特網(wǎng)的搜索引擎的系統(tǒng)結(jié)構(gòu)，然后從網(wǎng)絡(luò)機器人、索引引擎、Web服務(wù)器三個方面進行詳細的說明。為了更加深刻的理解這種技術(shù)，本人還親自實現(xiàn)了一個自己的搜索引擎——新聞搜索引擎。新聞搜索引擎是從指定的Web頁面中按照超連接進行解析、搜索，并把搜索到的每條新聞進行索引后加入數(shù)據(jù)庫。然后通過Web服務(wù)器接受客戶端請求后從索引數(shù)據(jù)庫中搜索出所匹配的新聞。本人在介紹搜索引擎的章節(jié)中除了詳細的闡述技術(shù)核心外還結(jié)合了新聞搜索引擎的實現(xiàn)代碼來說明，圖文并茂、易于理解。關(guān)鍵詞：搜索引擎；網(wǎng)絡(luò)蜘蛛；搜索策略

AbstractTheresourcesintheinternetareabundant,butitisadifficultjobtosearchusefulinformation.Soasearchengineisthebestmethodtosolvethisproblem.Tharticlefintroducesthesystems structureofsearchenginebasedontheinternetindetail,thengivesaminuteexplanationformSpidersearch,engineandwebserver.Iordertounderstandthetechnologymoredeeply,Ihaveprogrammedanewssearchenginebymyself.Thenewssearchengineisexplainedandsearchedaccordingtohyperlinkfromaappointedwebpage,thenindexeseverysearchedinformationandaddsittotheindexdatabase.Thenafterreceivingthecustomers'requestsfromthewebserver,itsoonsearchestherightnewsformtheindexengine,Inthechapterofintroducingsearchengine,itisnotonlyelaboratethecoretechnology,butalsocombinewiththemoderncode,picturesincluded,easytounderstand.KeyWords：Searchengine；Webspider；Searchstrategy目錄TOC\o"1-1"\h\z\u\h摘要 I\hAbstract III引言1搜索引擎的結(jié)構(gòu)21.1搜索引擎系統(tǒng)概述21.2搜索引擎的構(gòu)成21.2.1網(wǎng)絡(luò)蜘蛛21.2.2索引與搜索21.2.3Web服務(wù)器31.3搜索引擎的主要指標及分析3網(wǎng)絡(luò)機器人42.1什么是網(wǎng)絡(luò)機器人42.2網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析42.2.2Spider程序結(jié)構(gòu)42.2.3如何構(gòu)造Spider程序52.2.4如何提高程序性能72.2.5網(wǎng)絡(luò)機器人的代碼分析7基于lucene的索引與搜索、tomcat服務(wù)器103.1什么是LUCENE全文檢索10LUCENE的原理分析103.2.1客戶端設(shè)計103.2.2全文檢索的實現(xiàn)機制11Lucene的索引效率11中文切分詞機制133.2.5服務(wù)端設(shè)計14LUCENE與SPIDER的結(jié)合143.3.1如何解析HTML16基于TOMCAT的WEB服務(wù)器193.5在TOMCAT上部署項目19搜索引擎策略214.1簡介214.2面向主題的搜索策略214.2.1導(dǎo)向詞214.2.2網(wǎng)頁評級214.2.3權(quán)威網(wǎng)頁和中心網(wǎng)頁22結(jié)論23參考文獻24致謝25引言面對浩瀚的網(wǎng)絡(luò)資源，搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口，毫不夸張的說，所有的用戶都可以從搜索出發(fā)到達自己想去的網(wǎng)上任何一個地方。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務(wù)。搜索引擎技術(shù)伴隨著WWW的發(fā)展是引人注目的。搜索引擎大約經(jīng)歷了三代的更新發(fā)展：第一代搜索引擎出現(xiàn)于1994年前后。以Altavista，Yahoo和Infoseek為代表，注重反饋結(jié)果的數(shù)量，主要特征是“求全”。它主要依靠人工分揀的分類目錄搜索，通常由網(wǎng)頁制作人自行建立網(wǎng)站名稱、網(wǎng)站內(nèi)容的文字摘要，并將其加入到搜索引擎的資料庫中。搜索引擎根據(jù)用戶鍵入的信息，根據(jù)預(yù)先設(shè)定的規(guī)則進行簡單的匹配、排序和顯示。這種方法只能進行簡單的字符串匹配，無法進行全文搜索。研究表明，搜索引擎性能并沒有想象中的那么優(yōu)秀，在全球11個主要的搜索引擎中，搜索引擎僅能搜索到國際互聯(lián)網(wǎng)上全部頁面的16%，甚至更低，造成這種情況的原因，主要是這些搜索引擎沒有及時更新資料。第二代搜索引擎，利用超鏈接分析為基礎(chǔ)的機器抓取技術(shù)，由搜索引擎使用一個程序在網(wǎng)絡(luò)上擷取資料，并自動將得到的結(jié)果存入索引庫中。搜索引擎根據(jù)用戶鍵入的信息進行匹配、排序和顯示。這些引擎的主要特點是提高了查準率，可以用“求精”來描述它的優(yōu)點，即不需要網(wǎng)站制作人單獨鍵入供搜索的信息，并且從理論上講，可將任意網(wǎng)站的所有網(wǎng)頁加入到它的資料庫中。第二代搜索引擎的大多數(shù)查詢都會返回成千上萬條信息，查詢結(jié)果中無關(guān)信息太多，而且查詢結(jié)果顯示比較混亂，使用者仍然難以找到真正想要的資料。第三代搜索引擎是對第二代搜索引擎的改進，相對于前兩代，其更注重智能化和用戶使用的個性化，主要增加了互動性和個性化等高級的技術(shù)，采用了中文自動分類、自動聚類等人工智能技術(shù)，而且使用了中文內(nèi)容分析技術(shù)以及區(qū)域智能識別技術(shù)，增強了搜索引擎的查詢能力。同時，搜索技術(shù)將更加智能化，可搜索資源將更加廣泛，搜索方式也將更加便捷有效，為用戶使用搜索引擎獲取信息獲得更好的體驗。在美國搜索引擎通常指的是基于因特網(wǎng)的搜索引擎，他們通過網(wǎng)絡(luò)機器人程序收集上千萬到幾億個網(wǎng)頁，并且每一個詞都被搜索引擎索引，也就是我們說的全文檢索。著名的因特網(wǎng)搜索引擎包括FirstSearch、Google、HotBot等。本人這里研究的就是基于因特網(wǎng)的搜索技術(shù)。1搜索引擎的結(jié)構(gòu)1.1搜索引擎系統(tǒng)概述搜索引擎是根據(jù)用戶的查詢請求，按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。為了保證用戶查找信息的精度和新鮮度，搜索引擎需要建立并維護一個龐大的索引數(shù)據(jù)庫。一般的搜索引擎由網(wǎng)絡(luò)機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。WWWWWW文檔網(wǎng)絡(luò)機器人程序建立Lucene索引從數(shù)據(jù)庫中搜索信息Tomcat服務(wù)器Lucene索引數(shù)據(jù)庫WWW瀏覽器WWW瀏覽器JSP網(wǎng)絡(luò)機器人程序系統(tǒng)結(jié)構(gòu)圖1.2搜索引擎的構(gòu)成1.2.1網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛也稱為“網(wǎng)絡(luò)機器人”(Spider)，是一個功能很強的WEB掃描程序。它可以在掃描WEB頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。因為WEB中廣泛使用超鏈接，所以一個Spider程序理論上可以訪問整個WEB頁面。為了保證網(wǎng)絡(luò)機器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。1.2.2索引與搜索網(wǎng)絡(luò)機器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中，如果通過SQL直接查詢信息速度將會難以忍受。為了提高檢索效率，需要建立索引，按照倒排文件的格式存放。如果索引不及時跟新的話，用戶用搜索引擎也不能檢索到。用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進行分級排列并且返回給用戶。1.2.3Web服務(wù)器客戶一般通過瀏覽器進行查詢，這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進行連接?？蛻粼跒g覽器中輸入查詢條件，Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。1.3搜索引擎的主要指標及分析搜索引擎的主要指標有響應(yīng)時間、召回率、準確率、相關(guān)度等。這些指標決定了搜索引擎的技術(shù)指標。搜索引擎的技術(shù)指標決定了搜索引擎的評價指標。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準確率的，當然這些都需要搜索引擎技術(shù)指標來保障。召回率：一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比。準確率：一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比。相關(guān)度：用戶查詢與搜索結(jié)果之間相似度的一種度量。精確度：對搜索結(jié)果的排序分級能力和對垃圾網(wǎng)頁的抗干擾能力。2網(wǎng)絡(luò)機器人2.1什么是網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人又稱為Spider程序，是一種專業(yè)的Bot程序。用于查找大量的Web頁面。它從一個簡單的Web頁面上開始執(zhí)行，然后通過其超鏈接在訪問其他頁面，如此反復(fù)理論上可以掃描互聯(lián)網(wǎng)上的所有頁面?；谝蛱鼐W(wǎng)的搜索引擎是Spider的最早應(yīng)用。例如搜索巨頭Google公司，就利用網(wǎng)絡(luò)機器人程序來遍歷Web站點，以創(chuàng)建并維護這些大型數(shù)據(jù)庫。網(wǎng)絡(luò)機器人還可以通過掃描Web站點的主頁來得到這個站點的文件清單和層次機構(gòu)。還可以掃描出中斷的超鏈接和拼寫錯誤等。2.2網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析Internet是建立在很多相關(guān)協(xié)議基礎(chǔ)上的，而更復(fù)雜的協(xié)議又建立在系統(tǒng)層協(xié)議之上。Web就是建立在HTTP(HypertextTransferProtocol)協(xié)議基礎(chǔ)上，而HTTP又是建立在TCP/IP(TransmissionControlProtocol/InternetProtocol)協(xié)議之上，它同時也是一種Socket協(xié)議。所以網(wǎng)絡(luò)機器人本質(zhì)上是一種基于Socket的網(wǎng)絡(luò)程序。2.2.2Spider程序結(jié)構(gòu)網(wǎng)絡(luò)機器人必須從一個網(wǎng)頁遷移到另一個網(wǎng)頁，所以必須找到該頁面上的超連接。程序首先解析網(wǎng)頁的HTML代碼，查找該頁面內(nèi)的超連接然后通過遞歸和非遞歸兩種結(jié)構(gòu)來實現(xiàn)Spider程序。遞歸結(jié)構(gòu)：遞歸是在一個方法中調(diào)用自己本身的程序設(shè)計技術(shù)。雖然比較容易實現(xiàn)但耗費內(nèi)存且不能使用多線程技術(shù)，故不適合大型項目。非遞歸結(jié)構(gòu)：這種方法使用隊列的數(shù)據(jù)結(jié)構(gòu)，當Spider程序發(fā)現(xiàn)超連接后并不調(diào)用自己本身而是把超連接加入到等待隊列中。當Spider程序掃描完當前頁面后會根據(jù)制定的策略訪問隊列中的下一個超連接地址。雖然這里只描述了一個隊列，但在實際編程中用到了四個隊列，他們每個隊列都保存著同一處理狀態(tài)的URL。等待隊列：在這個隊列中，URL等待被Spider程序處理。新發(fā)現(xiàn)的URL也被加入到這個隊列中。處理隊列：當Spider程序開始處理時，他們被送到這個隊列中。錯誤隊列：如果在解析網(wǎng)頁時出錯，URL將被送到這里。該隊列中的URL不能被移入其他隊列中。完成隊列：如果解析網(wǎng)頁沒有出錯，URL將被送到這里。該隊列中的URL不能被移入其它隊列中。在同一時間URL只能在一個隊列中，我們把它稱為URL的狀態(tài)。發(fā)現(xiàn)發(fā)現(xiàn)URL等待隊列運行隊列完成隊列錯誤隊列完成URL以上的圖表示了隊列的變化過程，在這個過程中，當一個URL被加入到等待隊列中時Spider程序就會開始運行。只要等待隊列中有一個網(wǎng)頁或Spider程序正在處理一個網(wǎng)頁，程序就會繼續(xù)他的工作。當?shù)却犃袨榭詹⑶耶斍皼]有任何網(wǎng)頁時，Spider程序就會停止它的工作。2.2.3如何構(gòu)造Spider程序在構(gòu)造Spider程序之前我們先了解下程序的各個部分是如何共同工作的。以及如何對這個程序進行擴展。IspiderReportable接口：這是一個必須實現(xiàn)的接口，可以通過回調(diào)函數(shù)接受Spider所遇到的頁面。接口定義了Spider向他的控制者發(fā)送的幾個事件。通過提供對每個事件的處理程序，可以創(chuàng)建各種Spider程序。下面是他的接口聲明：publicpublicinterfaceIspiderReportable{publicbooleanfoundInternalLink(Stringurl);publicbooleanfoundExternalLink(Stringurl);publicbooleanfoundOtherLink(Stringurl);publicvoidprocessPage(HTTPpage);publicvoidcompletePage(HTTPpage,booleanerror);publicbooleangetRemoveQuery();publicvoidSpiderComplete();}程序擴展流程圖如下所示：把URL把URL加入等待隊列Spider程序工作完成等待隊列中是否有URL？否下載從等待隊列中得到的網(wǎng)頁，并將他送入運行隊列中。是這個網(wǎng)頁包含其他超級連接嗎？將這一網(wǎng)頁送入完成隊列并繼續(xù)查看網(wǎng)頁上的下一個超連接是否為指向Web的連接？報告其他類型連接連接是否與網(wǎng)頁所在主機不同且只處理本地連接？報告外部連接報告網(wǎng)頁連接將連接加入等候隊列否是否是否是2.2.4如何提高程序性能Internet中擁有海量的Web頁面，如果開發(fā)出高效的Spider程序是非常重要的。下面就來介紹下幾種提高性能的技術(shù)：(1)Java的多線程技術(shù)線程是通過程序的一條執(zhí)行路線。多線程是一個程序同時運行多個任務(wù)的能力。它是在一個程序的內(nèi)部進行分工合作。優(yōu)化程序的通常方法是確定瓶頸并改進他。瓶頸是一個程序中最慢的部分，他限制了其他任務(wù)的運行。據(jù)個例子說明：一個Spider程序需要下載十個頁面，要完成這一任務(wù)，程序必須向服務(wù)器發(fā)出請求然后接受這些網(wǎng)頁。當程序等待響應(yīng)的時候其他任務(wù)不能執(zhí)行，這就影響了程序的效率。如果用多線程技術(shù)可以讓這些網(wǎng)頁的等待時間合在一起，不用互相影響，這就可以極大的改進程序性能。(2)數(shù)據(jù)庫技術(shù)當Spider程序訪問一個大型Web站點時，必須使用一種有效的方法來存儲站點隊列。這些隊列管理Spider程序必須維護大型網(wǎng)頁的列表。如果把他們放在內(nèi)存中將會是性能下降，所以我們可以把他們放在數(shù)據(jù)庫中減少系統(tǒng)資源的2.2.5網(wǎng)絡(luò)機器人的代碼分析程序結(jié)構(gòu)圖如下：程序代碼實現(xiàn)如下：packagepackagenews;importcom.heaton.bot.HTTP;importcom.heaton.bot.HTTPSocket;importcom.heaton.bot.ISpiderReportable;importcom.heaton.bot.IWorkloadStorable;importcom.heaton.bot.Spider;importcom.heaton.bot.SpiderInternalWorkload;/***構(gòu)造一個Bot程序*/publicclassSearcherimplementsISpiderReportable{publicstaticvoidmain(String[]args)throwsException{IWorkloadStorablewl=newSpiderInternalWorkload();Searcher_searcher=newSearcher();Spider_spider=newSpider(_searcher,"http://localhost:8080/myapp/News.htm",newHTTPSocket(),100,wl);_spider.setMaxBody(100);_spider.start();}//發(fā)現(xiàn)內(nèi)部連接時調(diào)用，url表示程序發(fā)現(xiàn)的URL，若返回true則加入作業(yè)中，否則不加入。publicbooleanfoundInternalLink(Stringurl){returnfalse;}//發(fā)現(xiàn)外部連接時調(diào)用，url表示程序所發(fā)現(xiàn)的URL，若返回true則把加入作業(yè)中，否則不加入。不加入。publicbooleanfoundExternalLink(Stringurl){returnfalse;}//當發(fā)現(xiàn)其他連接時調(diào)用這個方法。其他連接指的是非HTML網(wǎng)頁，可能是E-mail或者FTPpublicbooleanfoundOtherLink(Stringurl){returnfalse;}//用于處理網(wǎng)頁，這是Spider程序要完成的實際工作。publicvoidprocessPage(HTTPhttp){System.out.println("掃描網(wǎng)頁："+http.getURL());newHTMLParse(http).start();}//用來請求一個被處理的網(wǎng)頁。publicvoidcompletePage(HTTPhttp,booleanerror){}//由Spider程序調(diào)用以確定查詢字符串是否應(yīng)刪除。如果隊列中的字符串應(yīng)當刪除，方法返回真。publicbooleangetRemoveQuery(){returntrue;}//當Spider程序沒有剩余的工作時調(diào)用這個方法。publicvoidspiderComplete(){}}3基于lucene的索引與搜索、tomcat服務(wù)器3.1什么是Lucene全文檢索Lucene是JakartaApache的開源項目。它是一個用Java寫的全文索引引擎工具包，可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索引/檢索功能。3.2Lucene的原理分析3.2.1客戶端設(shè)計一個良好的查詢界面非常重要，例如Googl就以她簡潔的查詢界面而聞名。我在設(shè)計的時候也充分考慮了實用性和簡潔性。查詢界面截圖如下：搜索結(jié)果截圖如下：搜索結(jié)果截圖如下：3.2.2全文檢索的實現(xiàn)機制Lucene的API接口設(shè)計的比較通用，輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表==>記錄==>字段，所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫等都可以比較方便的映射到Lucene的存儲結(jié)構(gòu)和接口中?？傮w上看：可以先把Lucene當成一個支持全文索引的數(shù)據(jù)庫系統(tǒng)。索引數(shù)據(jù)源：索引數(shù)據(jù)源：doc(field1,field2...)doc(field1,field2...)\indexer/_____________|LuceneIndex|/searcher\結(jié)果輸出：Hits(doc(field1,field2)doc(field1...))Document：一個需要進行索引的“單元”，一個Document由多個字段組成Field：字段Hits：查詢結(jié)果集，由匹配的Document組成3.2.3Lucene的索引效率通常書籍后面常常附關(guān)鍵詞索引表（比如：北京：12,34頁，上海：3,77頁??），它能夠幫助讀者比較快地找到相關(guān)內(nèi)容的頁碼。而數(shù)據(jù)庫索引能夠大大提高查詢的速度原理也是一樣，想像一下通過書后面的索引查找的速度要比一頁一頁地翻內(nèi)容高多少倍??而索引之所以效率高，另外一個原因是它是排好序的。對于檢索系統(tǒng)來說核心是一個排序問題。由于數(shù)據(jù)庫索引不是為全文索引設(shè)計的，因此，使用like"%keyword%"時，數(shù)據(jù)庫索引是不起作用的，在使用like查詢時，搜索過程又變成類似于一頁頁翻書的遍歷過程了，所以對于含有模糊查詢的數(shù)據(jù)庫服務(wù)來說，LIKE對性能的危害是極大的。如果是需要對多個關(guān)鍵詞進行模糊匹配：like"%keyword1%"andlike"%keyword2%"...其效率也就可想而知了。所以建立一個高效檢索系統(tǒng)的關(guān)鍵是建立一個類似于科技索引一樣的反向索引機制，將數(shù)據(jù)源（比如多篇文章）排序順序存儲的同時，有另外一個排好序的關(guān)鍵詞列表，用于存儲關(guān)鍵詞==>文章映射關(guān)系，利用這樣的映射關(guān)系索引：[關(guān)鍵詞==>出現(xiàn)關(guān)鍵詞的文章編號，出現(xiàn)次數(shù)（甚至包括位置：起始偏移量，結(jié)束偏移量），出現(xiàn)頻率]，檢索過程就是把模糊查詢變成多個可以利用索引的精確查詢的邏輯組合的過程。從而大大提高了多關(guān)鍵詞查詢的效率，所以，全文檢索問題歸結(jié)到最后是一個排序問題。由此可以看出模糊查詢相對數(shù)據(jù)庫的精確查詢是一個非常不確定的問題，這也是大部分數(shù)據(jù)庫對全文檢索支持有限的原因。Lucene最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制，并提供了擴展接口，以方便針對不同應(yīng)用的定制?？梢酝ㄟ^以下表格對比一下數(shù)據(jù)庫的模糊查詢：3.2.4中文切分詞機制對于中文來說，全文索引首先還要解決一個語言分析的問題，對于英文來說，語句中單詞之間是天然通過空格分開的，但亞洲語言的中日韓文語句中的字是一個字挨一個，所有，首先要把語句中按“詞”進行索引的話，這個詞如何切分出來就是一個很大的問題。首先，肯定不能用單個字符作(si-gram)為索引單元，否則查“上?！睍r，不能讓含有“海上”也匹配。但一句話：“北京天安門”，計算機如何按照中文的語言習慣進行切分呢？“北京天安門”還是“北京天安門”？讓計算機能夠按照語言習慣進行切分，往往需要機器有一個比較豐富的詞庫才能夠比較準確的識別出語句中的單詞。另外一個解決的辦法是采用自動切分算法：將單詞按照2元語法(bigram)方式切分出來，比如："北京天安門"==>"北京京天天安安門"。這樣，在查詢的時候，無論是查詢"北京"還是查詢"天安門"，將查詢詞組按同樣的規(guī)則進行切分："北京"，"天安安門"，多個關(guān)鍵詞之間按與"and"的關(guān)系組合，同樣能夠正確地映射到相應(yīng)的索引中。這種方式對于其他亞洲語言：韓文，日文都是通用的?；谧詣忧蟹值淖畲髢?yōu)點是沒有詞表維護成本，實現(xiàn)簡單，缺點是索引效率低，但對于中小型應(yīng)用來說，基于2元語法的切分還是夠用的。基于2元切分后的索引一般大小和源文件差不多，而對于英文，索引文件一般只有原文件的30%-40%不同，自動切分詞表切分實現(xiàn)實現(xiàn)非常簡單實現(xiàn)復(fù)雜查詢增加了查詢分析的復(fù)雜程度，適于實現(xiàn)比較復(fù)雜的查詢語法規(guī)則存儲效率索引冗余大，索引幾乎和原文一樣大索引效率高，為原文大小的30％左右維護成本無詞表維護成本詞表維護成本非常高：中日韓等語言需要分別維護。還需要包括詞頻統(tǒng)計等內(nèi)容適用領(lǐng)域嵌入式系統(tǒng)：運行環(huán)境資源有限分布式系統(tǒng)：無詞表同步問題多語言環(huán)境：無詞表維護成本對查詢和存儲效率要求高的專業(yè)搜索引擎3.2.5服務(wù)端設(shè)計主要利用JavaTMServlet技術(shù)實現(xiàn)，用戶通過GET方法從客戶端向服務(wù)端提交查詢條件，服務(wù)端通過Tomcat的Servlet容器接受并分析提交參數(shù)，再調(diào)用lucene的開發(fā)包進行搜索操作。最后把搜索的結(jié)果以HTTP消息包的形式發(fā)送至客戶端，從而完成一次搜索操作。Servlet是一種獨立于平臺和協(xié)議的服務(wù)器端的Java應(yīng)用程序，可以生成動態(tài)的Web頁面。它擔當Web瀏覽器或其他HTTP客戶程序發(fā)出請求，與HTTP服務(wù)器上的數(shù)據(jù)庫或應(yīng)用程序之間的中間層。Servlet是位于Web服務(wù)器內(nèi)部的服務(wù)器端的Java應(yīng)用程序，與傳統(tǒng)的從命令行啟動的Java應(yīng)用程序不同，Servlet由Web服務(wù)器進行加載，該Web服務(wù)器必須包含支持Servlet的Java虛擬機。服務(wù)端Servlet程序的結(jié)構(gòu)如下：實現(xiàn)的關(guān)鍵代碼如下：publicvoidSearch(Stringqc,PrintWriterout)throwsException{//從索引目錄創(chuàng)建索引IndexSearcher_searcher=newIndexSearcher("c:\\news\\index");//創(chuàng)建標準分析器Analyzeranalyzer=newChineseAnalyzer();//查詢條件Stringline=qc;//Query是一個抽象類Queryquery=QueryParser.parse(line,"title",analyzer);3.3Lucene與Spider的結(jié)合首先構(gòu)造一個Index類用來實現(xiàn)對內(nèi)容進行索引。先在C盤新建一個News文件夾，再在News下面新建一個index子文件夾，這一步是必需要的，因為這個文件夾是用來保存搜索到的結(jié)果。否則當搜索所要的網(wǎng)頁之后，從而導(dǎo)致無法得到結(jié)果。先進入JBuilder9.0的安裝目錄下你所使用的tomcat文件夾，運行文件夾里的startup.bat，這樣就啟動了JBuilder9.0自帶的tomcat服務(wù)器。現(xiàn)在你用JBuilder9.0打開News這個工程運行，運行結(jié)果就會顯示搜索到多少條新聞。如果不運行tomcat服務(wù)器是搜索不到新聞的。網(wǎng)絡(luò)蜘蛛是一種能自動到網(wǎng)上查找信息的一種程序，該程序具有高度的自動性，只要告訴他一個網(wǎng)站，他就可以從這個網(wǎng)站開始依次通過該網(wǎng)站的鏈接自動抓取鏈接內(nèi)容以及網(wǎng)址，然后就順著這些鏈接一直抓下去。代碼分析如下：packagenews;importjava.io.IOException;import.ChineseAnalyzer;importorg.apache.lucene.document.Document;importorg.apache.lucene.document.Field;importorg.apache.lucene.index.IndexWriter;publicclassIndex{IndexWriter_writer=null;Index()throwsException{_writer=newIndexWriter("c:\\News\\index",newChineseAnalyzer(),true);}/**/***把每條新聞加入索引中*@paramurl新聞的url*@paramtitle新聞的標題*@throwsjava.lang.Exception*/voidAddNews(Stringurl,Stringtitle)throwsException{Document_doc=newDocument();_doc.add(Field.Text("title",title));_doc.add(Field.UnIndexed("url",url));_writer.addDocument(_doc);}/***優(yōu)化并且清理資源*@throwsjava.lang.Exception*/voidclose()throwsException{_writer.optimize();_writer.close();}}然后構(gòu)造一個HTML解析類，把通過bot程序收集的新聞內(nèi)容進行索引。3.3.1如何解析HTML因為Web中的信息都是建立在HTML協(xié)議之上的，所以網(wǎng)絡(luò)機器人在檢索網(wǎng)頁時的第一個問題就是如何解析HTML。在解決如何解析之前，先來介紹下HTML中的幾種數(shù)據(jù)。文本：除了腳本和標簽之外的所有數(shù)據(jù)。注釋：程序員留下的說明文字，對用戶是不可見的。簡單標簽：由單個表示的HTML標簽。（4）開始標簽和結(jié)束標簽：用來控制所包含的HTML代碼。我們在進行解析的時候不用關(guān)心所有的標簽，只需要對其中幾種重要的進行解析即可。超連接標簽：超連接定義了WWW通過Internet鏈接文檔的功能。他們的主要目的是使用戶能夠任意遷移到新的頁面，這正是網(wǎng)絡(luò)機器人最關(guān)心的標簽。圖像映射標簽：圖像映射是另一種非常重要的標簽。它可以讓用戶通過點擊圖片來遷移到新的頁面中。表單標簽：表單是Web頁面中可以輸入數(shù)據(jù)的單元。許多站點讓用戶填寫數(shù)據(jù)然后通過點擊按鈕來提交內(nèi)容，這就是表單的典型應(yīng)用。表格標簽：表格是HTML的構(gòu)成部分，通常用來格式化存放、顯示數(shù)據(jù)。我們在具體解析這些HTMl標簽有兩種方法：通過JavaTM中的Swing類來解析或者通過Bot包中的HTMLPage類來解析，本人在實際編程中采用后者。Bot包中的HTMLPage類用來從指定URL中讀取數(shù)據(jù)并檢索出有用的信息。下面給出該類幾種重要的方法。HTMLPageHTMLPage構(gòu)造函數(shù)構(gòu)造對象并指定用于通訊的HTTP對象PublicHTMLPage(HTTPhttp)GetForms方法獲取最后一次調(diào)用Open方法檢索到的表單清單PublicVectorgetForms()GetHTTP方法獲取發(fā)送給構(gòu)造函數(shù)的HTTP對象PublicHTTPgetHTTP()GetImage方法獲取指定頁面的圖片清單PublicVectorgetImage()GetLinks方法獲取指定頁面的連接清單PublicVectorgetLinks()Open方法打開一個頁面并讀入該頁面，若指定了回調(diào)對象則給出所有該對象數(shù)據(jù)Publicvoidopen(Stringurl,HTMLEditorKit.ParserCallbacka)代碼分析如下：packagenews;importjava.util.Iterator;importjava.util.Vector;importcom.heaton.bot.HTMLPage;importcom.heaton.bot.HTTP;importcom.heaton.bot.Link;publicclassHTMLParse{HTTP_http=null;publicHTMLParse(HTTPhttp){_http=http;}/***對Web頁面進行解析后建立索引*/publicvoidstart(){try{HTMLPage_page=newHTMLPage(_http);_page.open(_http.getURL(),null);Vector_links=_page.getLinks();Index_index=newIndex();Iterator_it=_links.iterator();intn=0;while(_it.hasNext()){Link_link=(Link)_it.next();String_herf=input(_link.getHREF().trim());String_title=input(_link.getPrompt().trim());_index.AddNews(_herf,_title);n++;}System.out.println("共掃描到"+n+"條新聞");_index.close();}catch(Exceptionex){System.out.println(ex);}}/***解決java中的中文問題*@paramstr輸入的中文*@return經(jīng)過解碼的中文*/publicstaticStringinput(Stringstr){Stringtemp=null;if(str!=null){try{temp=newString(str.getBytes("ISO8859_1"));}catch(Exceptione){}}returntemp;}}3.4基于Tomcat的Web服務(wù)器Web服務(wù)器是在網(wǎng)絡(luò)中為實現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平臺的服務(wù)器。Web服務(wù)器如何工作：在Web頁面處理中大致可分為三個步驟，第一步，Web瀏覽器向一個特定的服務(wù)器發(fā)出Web頁面請求；第二步，Web服務(wù)器接收到Web頁面請求后，尋找所請求的Web頁面，并將所請求的Web頁面?zhèn)魉徒oWeb瀏覽器；第三步，Web服務(wù)器接收到所請求的Web頁面，并將它顯示出來。Tomcat是一個開放源代碼、運行servlet和JSPWeb應(yīng)用軟件的基于Java的Web應(yīng)用軟件容器。Tomcat由Apache-Jakarta子項目支持并由來自開放性源代碼Java社區(qū)的志愿者進行維護。TomcatServer是根據(jù)servlet和JSP規(guī)范進行執(zhí)行的，因此我們就可以說TomcatServer也實行了Apache-Jakarta規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。3.5在Tomcat上部署項目Tomcat中的應(yīng)用程序是一個WAR（WebArchive）文件。WAR是Sun提出的一種Web應(yīng)用程序格式，與JAR類似，也是許多文件的一個壓縮包。這個包中的文件按一定目錄結(jié)構(gòu)來組織：通常其根目錄下包含有Html和Jsp文件或者包含這兩種文件的目錄，另外還會有一個WEB-INF目錄，這個目錄很重要。通常在WEB-INF目錄下有一個web.xml文件和一個classes目錄，web.xml是這個應(yīng)用的配置文件，而classes目錄下則包含編譯好的Servlet類和Jsp或Servlet所依賴的其它類（如JavaBean）。通常這些所依賴的類也可以打包成JAR放到WEB-INF下的lib目錄下，當然也可以放到系統(tǒng)的CLASSPATH中。在Tomcat中，應(yīng)用程序的部署很簡單，你只需將你的程序放到Tomcat的webapp目錄下，Tomcat會自動檢測到這個文件，并將其解壓。你在瀏覽器中訪問這個應(yīng)用的Jsp時，通常第一次會很慢，因為Tomcat要將Jsp轉(zhuǎn)化為Servlet文件，然后編譯。編譯以后，訪問將會很快。4搜索引擎策略4.1簡介隨著信息多元化的增長，千篇一律的給所有用戶同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時，這樣的通用搜索引擎在目前的硬件條件下，要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況，我們需要一個分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。由于主題搜索運用了人工分類以及特征提取等智能化策略，因此它比上面提到的前三代的搜索引擎將更加有效和準確，我們將這類完善的主題搜索引擎稱為第四代搜索引擎。4.2面向主題的搜索策略4.2.1導(dǎo)向詞導(dǎo)向詞就是一組關(guān)鍵詞，它們會引導(dǎo)搜索器按照一定順序搜索整個網(wǎng)絡(luò)，使得搜索引擎可以在最短的時間里面得到最全面的跟某一個主題相關(guān)的信息。通過設(shè)置導(dǎo)向詞以及它們對應(yīng)的不同權(quán)值，所有標題、作者、正文或超連接文本中含有某一導(dǎo)向詞的網(wǎng)頁都會被賦予較高的權(quán)值，在搜索的時候會優(yōu)先考慮。搜索器在向主控程序獲得URL的時候也是按照權(quán)值由高到低的順序。反之，搜索器在向主控程序提交新的URL和它的權(quán)值的時候，主控程序會按照權(quán)值預(yù)先排序，以便下一次有序的發(fā)給搜索器。4.2.2網(wǎng)頁評級在考慮一個網(wǎng)頁被另一個網(wǎng)頁的引用時候，不是單純的將被引用網(wǎng)頁的HitNumber加一，而是將引用網(wǎng)頁的連接數(shù)作為權(quán)，同時將該引用網(wǎng)頁的重要性也考慮進來（看看上面提到的例子，Yahoo！引用的網(wǎng)頁顯然比個人網(wǎng)站引用的網(wǎng)頁重要，因為Yahoo！本身很重要），就可以得到擴展后的網(wǎng)頁評分。最早提出網(wǎng)頁評分的計算方法是Google。它們提出了一個“隨機沖浪”模型來描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。模型假設(shè)如下：（1）用戶隨機的選擇一個網(wǎng)頁作為上網(wǎng)的起始網(wǎng)頁；（2）看完這個網(wǎng)頁后，從該網(wǎng)頁內(nèi)所含的超鏈內(nèi)隨機的選擇一個頁面繼續(xù)進行瀏覽；（3）沿著超鏈前進了一定數(shù)目的網(wǎng)頁后，用戶對這個主題感到厭倦，重新隨機選擇一個網(wǎng)頁進行瀏覽，并重復(fù)2和3。按照以上的用戶行為模型，每個網(wǎng)頁可能被訪問到的次數(shù)就是該網(wǎng)頁的鏈接權(quán)值。如何計算這個權(quán)值呢？PageRank采用以下公式進行計算：W(1d)dNlWij i,jni1,ij i其中Wj代表第j個網(wǎng)頁的權(quán)值；lij只取0、1值，代表從網(wǎng)頁i到網(wǎng)頁j是否存在鏈接；ni代表網(wǎng)頁i有多少個鏈向其它網(wǎng)頁的鏈接；d代表“隨機沖浪”中沿著鏈接訪問網(wǎng)頁的平均次數(shù)。選擇合適的數(shù)值，遞歸的使用以上公式，即可得到理想的網(wǎng)頁鏈接權(quán)值。該方法能夠大幅度的提高簡單檢索返回結(jié)果的質(zhì)量，同時能夠有效的防止網(wǎng)頁編寫者對搜索引擎的欺騙。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁排序上，對于網(wǎng)頁評分越高的網(wǎng)頁，就排的越前。4.2.3權(quán)威網(wǎng)頁和中心網(wǎng)頁權(quán)威網(wǎng)頁：顧名思義，是給定主題底下的一系列重要的權(quán)威的網(wǎng)頁。其重要性和權(quán)威性主要體現(xiàn)在以下兩點：從單個網(wǎng)頁來看，它的網(wǎng)頁內(nèi)容本身對于這個給定主題來說是重要的；從這個網(wǎng)頁在整個互聯(lián)網(wǎng)重的地位來看，這個網(wǎng)頁是被其他網(wǎng)頁承認為權(quán)威的，這主要體現(xiàn)在跟這個主題相關(guān)的很多網(wǎng)頁都有鏈接指向這個網(wǎng)頁。由此可見，權(quán)威網(wǎng)頁對于主題搜索引擎的實現(xiàn)有很重大的意義。主題搜索引擎一個很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無數(shù)的網(wǎng)頁之中最快最準的找出這些可數(shù)的權(quán)威網(wǎng)頁，并為他們建立索引。這也是有效區(qū)別主題搜索引擎和前三代傳統(tǒng)通用搜索引擎的重要特征。中心網(wǎng)頁：是包含很多指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。最典型中心網(wǎng)頁的一個例子是Yahoo！，它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁，使得它兼任了很多主題的中心網(wǎng)頁。由中心網(wǎng)頁出發(fā)，輕而易舉的就會到達大量的權(quán)威網(wǎng)頁。因此，它對于主題搜索引擎的實現(xiàn)也起了很大的意義。權(quán)威網(wǎng)頁和中心網(wǎng)頁之間是一種互相促進的關(guān)系：一個好的中心網(wǎng)頁必然要有超鏈接指向多個權(quán)威網(wǎng)頁；一個好的權(quán)威網(wǎng)頁反過來也必然被多個中心網(wǎng)頁所鏈接。結(jié)論以上對基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標進行了分析，本人實現(xiàn)了一個簡單的搜索引擎——新聞搜索引擎。首先介紹了網(wǎng)絡(luò)機器人的基本概念，然后具體分析了Spider程序的結(jié)構(gòu)和功能。在最后還結(jié)合具體代碼進行了詳細說明。在進行海量數(shù)據(jù)搜索時，如果使用單純的數(shù)據(jù)庫技術(shù)，那將是非常痛苦的。速度將是極大的瓶頸。所以提出了使用全文搜索引擎Lucene進行索引、搜索。還結(jié)合了具體代碼說明了如何把Lucene全文搜索引擎和Spider程序互相集合來實現(xiàn)新聞搜索的功能。介紹了如何構(gòu)架基于Tomcat的Web服務(wù)器，使得用戶通過瀏覽器進行新聞的搜索，最后還對Tomcat如何部署進行了說明。最后介紹了面向主題的搜索策略，并作了詳細闡述。雖然在新聞搜索中并沒有應(yīng)用到搜索策略，但是對于WWW搜索引擎來說，搜索策略是極其重要的。他直接關(guān)系到搜索的質(zhì)量以及匹配度等性能。參考文獻徐寶文張衛(wèi)豐.搜索引擎與信息獲取技術(shù)[M].北京：清華大學(xué)出版社，2003，04.李曉明閆宏飛王繼民.搜索引擎：原理、技術(shù)與系統(tǒng)[M].北京：科學(xué)出版社，2005，04.盧亮張博文.搜索引擎原理、實踐與應(yīng)用[M].北京：電子工業(yè)出版社，2007，09.羅旭.主題搜索引擎的設(shè)計與實現(xiàn)[M].北京：科學(xué)出版社,2002，03.聶哲.基于WEB的面向主題搜索引擎的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計，2003，02.佘正平.搜索引擎的關(guān)鍵詞分析與處理[J].情報探索，2008，05.車東.基于Java的全文搜索引擎Lucene[M].北京：電子工業(yè)出版社，2000，05.何會民韓東霞.基于Lucene的網(wǎng)絡(luò)新聞搜索引擎研究與實現(xiàn)[J].商場現(xiàn)代化，2008，09.曾偉輝.深層網(wǎng)絡(luò)爬蟲研究綜述[J].計算機系統(tǒng)應(yīng)用，2008，05.房志峰.中文搜索引擎中的分詞技術(shù)研究[J].科學(xué)技術(shù)與工程.2008，09.?？藸栔溃愱基i譯.JAVA編程思想[M].北京：機械工業(yè)出版社，2007，06.致謝在此論文完成之際，我的大學(xué)生活即將結(jié)束。在這三四年的學(xué)習生活中，我不但在學(xué)業(yè)上受益匪淺，而且養(yǎng)成了嚴謹?shù)闹螌W(xué)態(tài)度。首先，要感謝我的導(dǎo)師曾怡老師。本論文從立意選題、觀點的舍取到文章思路的梳理直至觀點的形成，曾老師都嚴格把關(guān)，精心推敲，不斷從內(nèi)容和形式上豐富和完善了我的研究成果。文章初稿完成之后，曾老師又認真審閱、修改，對此我表示深深的敬意和由衷的感謝。其次，還要感謝在大學(xué)期間所有給我上過課的老師，是他們引領(lǐng)我在專業(yè)領(lǐng)域探索前行，廣博地汲取專業(yè)知識和信息。同時，還要感謝所有幫助過我的老師、同學(xué)們和家人，為我在論文寫作中提供了諸多幫助和支持。由于本人的研究水平有限，文中不足之處在所難免，懇請各位老師和同學(xué)們批評指正。

畢業(yè)設(shè)計（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計（論文），是我個人在指導(dǎo)教師的指導(dǎo)下進行的研究工作及取得的成果。盡我所知，除文中特別加以標注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得及其它教育機構(gòu)的學(xué)位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體，均已在文中作了明確的說明并表示了謝意。作者簽名：日期：指導(dǎo)教師簽名：日期：使用授權(quán)說明本人完全了解大學(xué)關(guān)于收集、保存、使用畢業(yè)設(shè)計（論文）的規(guī)定，即：按照學(xué)校要求提交畢業(yè)設(shè)計（論文）的印刷本和電子版本；學(xué)校有權(quán)保存畢業(yè)設(shè)計（論文）的印刷本和電子版，并提供目錄檢索與閱覽服務(wù)；學(xué)?？梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文；在不以贏利為目的前提下，學(xué)?？梢怨颊撐牡牟糠只蛉績?nèi)容。作者簽名：日期：學(xué)位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的內(nèi)容外，本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻的個人和集體，均已在文中以明確方式標明。本人完全意識到本聲明的法律后果由本人承擔。作者簽名：日期：年月日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定，同意學(xué)校保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閱和借閱。本人授權(quán)大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索，可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。涉密論文按學(xué)校規(guī)定處理。作者簽名：日期：年月日導(dǎo)師簽名：日期：年月日指導(dǎo)教師評閱書指導(dǎo)教師評價：一、撰寫（設(shè)計）過程學(xué)生在論文（設(shè)計）過程中的治學(xué)態(tài)度、工作精神□優(yōu)□良□中□及格□不及格學(xué)生掌握專業(yè)知識、技能的扎實程度□優(yōu)□良□中□及格□不及格學(xué)生綜合運用所學(xué)知識和專業(yè)技能分析和解決問題的能力□優(yōu)□良□中□及格□不及格研究方法的科學(xué)性；技術(shù)線路的可行性；設(shè)計方案的合理性□優(yōu)□良□中□及格□不及格完成畢業(yè)論文（設(shè)計）期間的出勤情況□優(yōu)□良□中□及格□不及格二、論文（設(shè)計）質(zhì)量論文（設(shè)計）的整體結(jié)構(gòu)是否符合撰寫規(guī)范？□優(yōu)□良□中□及格□不及格是否完成指定的論文（設(shè)計）任務(wù)（包括裝訂及附件）？□優(yōu)□良□中□及格□不及格三、論文（設(shè)計）水平論文（設(shè)計）的理論意義或?qū)鉀Q實際問題的指導(dǎo)意義□優(yōu)□良□中□及格□不及格論文的觀念是否有新意？設(shè)計是否有創(chuàng)意？□優(yōu)□良□中□及格□不及格論文（設(shè)計說明書）所體現(xiàn)的整體水平□優(yōu)□良□中□及格□不及格建議成績：□優(yōu)□良□中□及格□不及格（在所選等級前的□內(nèi)畫“√”）指導(dǎo)教師：（簽名）單位：（蓋章）年月日評閱教師評閱書評閱教師評價：一、論文（設(shè)計）質(zhì)量1、論文（設(shè)計）的整體結(jié)構(gòu)是否符合撰寫規(guī)范？□優(yōu)□良□中□及格□不及格2、是否完成指定的論文（設(shè)計）任務(wù)（包括裝訂及附件）？□優(yōu)□良□中□及格□不及格二、論文（設(shè)計）水平1、論文（設(shè)計）的理論意義或?qū)鉀Q實際問題的指導(dǎo)意義□優(yōu)□良□中□及格□不及格2、論文的觀念是否有新意？設(shè)計是否有創(chuàng)意？□優(yōu)□良□中□及格□不及格3、論文（設(shè)計說明書）所體現(xiàn)的整體水平□優(yōu)□良□中□及格□不及格建議成績：□優(yōu)□良□中□及格□不及格（在所選等級前的□內(nèi)畫“√”）評閱教師：

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計

文檔簡介

溫馨提示

最新文檔

評論

基于JAVA的搜索引擎的設(shè)計與實現(xiàn)畢業(yè)設(shè)計

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔