搜索引擎軟件使用說明書.doc_第1頁
搜索引擎軟件使用說明書.doc_第2頁
搜索引擎軟件使用說明書.doc_第3頁
搜索引擎軟件使用說明書.doc_第4頁
搜索引擎軟件使用說明書.doc_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

17搜索引擎軟件 V1.0搜索引擎軟件使用說明書1 軟件概述1.1 編寫目的隨著計算機產業(yè)的迅猛發(fā)展,搜索引擎也應運而生。用戶直接獲得自己想要的信息其實是很簡單,但是面對著簡單的搜索框,很多用戶都只是了解大概,要想了解的更徹底關鍵在于學會怎么來用。為了用戶能夠更快更方便的獲得想要的信息,本人針對自己開發(fā)的搜索引擎包特編寫了使用說明書。1.2 搜索引擎介紹1.2.1 搜索引擎定義搜索引擎主要用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織及處理,并且能為用戶提供檢索服務,從而起到信息導航的目的因此,搜索引擎是用來在網(wǎng)上找資料的工具。1.2.2 搜索引擎系統(tǒng)結構圖圖1 系統(tǒng)結構圖1.2.3主要功能本人開發(fā)的搜索引擎主要是進行信息檢索,從而返回檢索結果。搜索引擎將用戶所產生的一些信息列入了排序因素中,具有對各大商城的網(wǎng)站進行抓取、建立索引、搜索比價的功能。它是網(wǎng)絡營銷中最重要的組成部分,是向終端客戶傳遞信息的重要環(huán)節(jié)。搜索界面如下圖:1.2.4 主要特點 快速地為搜索文件建立索引,支持追加,重建,和不同編碼的搜索文件。 搜索引擎支持關鍵字搜索,與或非邏輯搜索,支持按需返回搜索結果。 web服務器能快速連接搜索引擎,支持用戶的多樣化搜索,并展示搜索結果。2 如何編譯fts1. aclocal2. automake -add-missing3. autoconf4. ./configure5. make編譯成功以后,在./src/目錄下,有index.exe, search.exe 和shutdown.exe。2.1 index.exeindex.exe是對網(wǎng)絡爬蟲抓來的網(wǎng)頁建立索引,-D源目錄,-d索引目錄,-R重建索引(只在第一次用),-c 國標或臺灣$ ./index -D /cygdrive/c/tf/src/ -d /cygdrive/c/tf/trg -R -c GB2312Start indexing .Indexing /cygdrive/c/tf/src/Copy of baima.t4i # of Files Processed : 1 # of Files Indexed : 1 Total Data Processed : 136.242 KB. Average Processing Rate : 45.4141 KBps. Total Time Used : 3 seconds.Total Processor Time Used : 2.875 seconds. CPU Usage : 95.8333%2.2 search.exe Search.exe 會在已建立的索引上運行一個socket服務器,可以接收多個搜索請求,默認聽在端口30001。$ ./search -d /cygdrive/c/tf/trg/InfoAcer FTS Search Engine is running on port 30001.搜索請求的格式是:GET3 WITH_HILITE在搜索結果中高亮關鍵詞WITH_RANKING 按照評分的標準WITH_ID_PATH 返回文件路徑或URLWITH_SORT 排序返回結果以TLV來切分多個結果。2.3 shutdown.exeShutdown.exe用來安全關閉search.exe的服務。3 如何使用3.1 搜索引擎準備事項3.1.1 搜索引擎軟件包圖2 搜索引擎軟件包我們要用到以下兩個文件:Index.exe 用來建立索引。Search.exe 用來開啟搜索引擎。3.1.2 t4i文件t4i文件即為*.t4i文件,它是要檢索的內容來源。與該搜索引擎匹配的t4i文件須有如下格式:content1content2content3.紅色部分為詳細內容。比如一手機信息的t4i文件為:圖3現(xiàn)版本搜索引擎僅支持Big5和GB2312編碼,所以t4i文件中應采用以上兩種編碼。為支持全文搜索,強烈建議增加最后一個欄位,添加所有信息。如圖中欄位。3.1.3 文件拷貝通常,把t4i文件拷貝到search/tf/src/目錄下(假定search.exe和index.exe在search/目錄下),如圖4所示:圖4另在tf目錄下新建文件夾trg。(缺少該步驟建索引時會報錯)3.2 建立索引并開啟搜索引擎3.2.1 建索引index.exe是對t4i文件建立索引,-D源目錄,-d索引目錄,-R重建索引(只在第一次用),-c 國標或臺灣 r 遍歷子目錄 可用h 查看幫助。運行命令提示符,轉到搜索引擎目錄。建索引命令格式index.exe D tfsrc d tftrg R -r c GB2312索引建立完畢,結果如下:3.2.2 開啟搜索引擎Search.exe 會在已建立的索引上運行一個socket服務器,可以接收多個搜索請求,默認聽在端口30001。命令如下,執(zhí)行后程序便會在30001端口監(jiān)聽搜索請求。3.3 使用搜索引擎需要發(fā)送兩條TCP包和接受兩條TCP包來完成搜索過程。第一步:與search.exe建立socket連接。第二步:發(fā)送搜索請求。QUERY VECTOR:(keyword)#Num;n其中keyword表示要查詢的關鍵字,Num表示欄位號碼。如想在欄位6中搜索“諾基亞”, 搜索請求命令這樣寫:QUERY VECTOR:(諾基亞)#6;n另外,還支持多欄位搜索,可通過& | !來創(chuàng)建與或非邏輯表達式。如果想搜索太平洋商城的諾基亞,搜索請求命令這樣寫:QUERY VECTOR:(諾基亞)#6&(太平洋)#0;n一般說來,搜索引擎反饋結果為OK 2 ;n 是搜索引擎內部的ID,有多少個ID就有多少個cache搜索結果。是此次搜索共有多少個結果。如OK 2 0 100表示搜索到100個結果。如果接收到FAILED 2 -1 ;n 或其他,表示本次搜索失敗。通常是搜索請求命令有錯。第三步:發(fā)送接收搜索結果命令。GET3 WITH_SORT WITH_HILITE WITH_ID_PATH;n 是從上一個OK回復得來的,同時也知道有多少個命中 表示請求搜索結果的ID??砂阉阉鹘Y果想象一數(shù)組,兩參量表示數(shù)組下標。WITH_HILITE是返回需要高亮的關鍵詞(不一定和用戶輸入結果一致)WITH_SORT 是對結果進行排序WITH_ID_PATH是返回原始文件本地路徑如想得到前兩個結果:GET3 0 1 ITH_SORT WITH_HILITE WITH_ID_PATH;n搜索引擎響應:OK 13 # content是該t4i的內容。此回復會含多個 ,具體數(shù)目是由 決定的。如果不涉及價位區(qū)間搜索,到此就該結束了。如果要做區(qū)間,可參考下面文字(圖5)。圖54 前期處理圖6 前期處理流程圖在網(wǎng)絡爬蟲程序把目標網(wǎng)頁存到本地后,應該用處理程序進行初步處理,根據(jù)不同的字典來進行掃描,將html控制代碼,多余的廣告的無用信息去除,只保存有命中率的頁面并存成純文本格式,這樣會提高索引準確率和效率。這里提到的字典是人工創(chuàng)建的,開發(fā)人員應將不同類別的關鍵詞匯放到字典文件中,由前期處理程序讀取并記錄每個目標頁面關鍵詞的命中率,當所有關鍵詞的命中率為0時,此頁面將被丟棄,否則轉換成文本格式以便建索引。如何建立字典?除了人們日常的詞匯,開發(fā)人員應下載一些不同類別的目標頁面,搜集最新關鍵詞來豐富詞典,從而提高字典的準確性。如果想要不同的分類,比如餐飲,電子和旅游,那么就要有三個字典,分別包含餐飲,電子和旅游的關鍵詞。這樣通過前期處理程序就會有三類文本文件,分別對應餐飲,電子和旅游這三類。也就意味著有三個分類索引,這樣用戶就可選擇不同類別的搜索。這樣用戶可以選擇不同類別來搜索,可以增大命中率。當然也可以選擇所有類別來搜索。5 搜索界面應由java語言寫成,提供不同類別的搜索界面,就像雅虎的分類搜索,列出所有的類別。用戶也可以搜索所有類別,但搜索引擎就會跨越所有類別,速度和準確率都會有所下降。6 Handler環(huán)境搭建與配置Handler是搜索引擎與客戶端的中間環(huán)節(jié),負責向搜索引擎請求搜索數(shù)據(jù),并把返回結果展示給客戶端。該部分是基于Ruby on Rails開發(fā)的,接下來將帶你一步步搭建和配置該環(huán)境,并進行測試。步驟如下: Ruby on Rails的下載與安裝 工程文件導入 開啟搜索引擎 開啟服務器 測試,界面瀏覽6.1 Ruby on Rails的下載與安裝InstantRails最新版本為2.0,下載地址是/frs/?group_id=904&release_id=17517。下載這一個InstantRails是綠色軟件,下載完畢后解壓即可使用。6.2 工程文件導入 Rails工程文件導入將test文件解壓到%railsroot%InstantRails-2.0-winrails_apps下,其中%railsroot%是InstantRails的安裝路徑。下圖為本機上的解壓路徑。 t4i文件導入將t4i文件拷貝到%serchroot%Searchtfsrc下,%serchroot%是搜索引擎search所在目錄。6.3 開啟搜索引擎 建立索引運行命令提示符,進入搜索引擎search所在目錄。輸入命令如下:結果如下: 啟動搜索引擎命令如下,執(zhí)行后程序便會在30001端口監(jiān)聽搜索請求。6.4 開啟服務器在開啟服務器之前,需要針對搭建環(huán)境修改部分代碼。 更改IP如果不是本機測試,即搜索引擎和handler不在同一臺機器上運行,需要修改%railsroot%InstantRails-2.0-winrails_apptestappcontrollersbridge_controller.rb文件,將Line20中“”改為搜索引擎所在主機的IP地址。%railsroot%是InstantRails的安裝路徑。本機運行跳過此步驟。 重定位資源文件目錄打開%railsroot%InstantRails-2.0-winrails_appstestappviewsbridgesearch.html.erb將Line29中的E:javaworkspaceheritrixjobsJingDongShangCheng-20110707095841078mirror替換為抓取的網(wǎng)頁所在目錄。否則瀏覽時不能顯示圖片。 啟動服務器打開%railsroot%InstantRails-2.0-winInstantRails.exe,點擊“工”字形圖標,在彈出網(wǎng)頁中選擇Rails ApplicationsManage Rails Applications.在彈出的Rails Applications頁面下勾選test工程,點擊Configure Startup Mode.可以配置端口,這里我使用的是3003端口。點擊按鈕Start with Mongrel。服務器啟動完畢效果如下:6.5 界面瀏覽測試打開IE,鍵入地址http:/localhost:3003/bridge/index ,結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論