企業(yè)搜索引擎白皮書(shū)_第1頁(yè)
企業(yè)搜索引擎白皮書(shū)_第2頁(yè)
企業(yè)搜索引擎白皮書(shū)_第3頁(yè)
企業(yè)搜索引擎白皮書(shū)_第4頁(yè)
企業(yè)搜索引擎白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Mac-ESearch企業(yè)搜索引擎產(chǎn)品白皮書(shū)全面的全文檢索解決方案。為企業(yè)解決大量、海量數(shù)據(jù)下的全文檢索應(yīng)用,并向用戶(hù)提供高效的、準(zhǔn)確的、安全的、個(gè)性化的搜索體驗(yàn)。該產(chǎn)品不僅可以應(yīng)用在網(wǎng)站的全文檢索上,也可以中間件模式用于應(yīng)用系統(tǒng)中的數(shù)據(jù)檢索與分析。2010/3/16#/10鏈接中選出一個(gè)繼續(xù)前述過(guò)程,直到達(dá)到一定得限制條件后,重返上層選取新的鏈接進(jìn)行爬行。兩種策略如圖2-11所示。圖2-11廣度優(yōu)先與深度優(yōu)先策略對(duì)比圖2-11廣度優(yōu)先與深度優(yōu)先策略對(duì)比由于互聯(lián)網(wǎng)極其龐大,我們不可能抓取到互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè),所以特定的搜索引擎都會(huì)有一定的限制條件來(lái)防止爬蟲(chóng)抓取不必要的文件類(lèi)型和無(wú)休止的抓取。例如,不關(guān)心PDF文檔的爬蟲(chóng)會(huì)首先判斷文件類(lèi)型,并不耗費(fèi)帶寬去抓取PDF文檔;某一大型網(wǎng)站的專(zhuān)用搜索引擎會(huì)限制爬蟲(chóng)只抓取該網(wǎng)站下的網(wǎng)頁(yè)。爬蟲(chóng)的設(shè)計(jì)者和網(wǎng)站開(kāi)發(fā)者之間有一些關(guān)于爬行的協(xié)議。網(wǎng)站開(kāi)發(fā)人員可以在站點(diǎn)的首層目錄下放置一個(gè)Robots.txt文件,指明該站點(diǎn)下那些目錄可以訪(fǎng)問(wèn),哪些目錄不能訪(fǎng)問(wèn)。網(wǎng)站開(kāi)發(fā)人員也可以建立一個(gè)網(wǎng)站地圖(SiteMap)來(lái)列出該站點(diǎn)所有的網(wǎng)頁(yè)鏈接,從而方便爬蟲(chóng)爬行該站點(diǎn),同時(shí)有效地防止漏掉部分鏈接的情況。3.3搜索引擎響應(yīng)速度搜索引擎查詢(xún)結(jié)果的相關(guān)性固然重要,但響應(yīng)速度也是必須要考慮的問(wèn)題,畢竟沒(méi)有人愿意花一天的時(shí)間去等待一個(gè)最佳答案。目前的商用搜索引擎中,Google返回的結(jié)果量和相關(guān)度都高于百度,但百度的響應(yīng)速度高于Google??梢酝ㄟ^(guò)對(duì)查詢(xún)結(jié)果的預(yù)處理來(lái)獲得較高的響應(yīng)速度,我們可以使用緩存技術(shù)將一些經(jīng)常被查詢(xún)的詞的查詢(xún)結(jié)果保存在內(nèi)存中,當(dāng)用戶(hù)輸入包含多個(gè)詞的查詢(xún)請(qǐng)求時(shí),只需要對(duì)這些查詢(xún)請(qǐng)求進(jìn)行合并和重新排序即可。查詢(xún)預(yù)處理技術(shù)如圖2-9所示。除查詢(xún)預(yù)處理技術(shù)外,分布式技術(shù)可將查詢(xún)?nèi)蝿?wù)分擔(dān)到多臺(tái)服務(wù)器去并行進(jìn)行,從而提高響應(yīng)速度。如果將預(yù)處理技術(shù)與分布式技術(shù)結(jié)合起來(lái),效果更佳。3.4系統(tǒng)結(jié)構(gòu)圖章系統(tǒng)硬件4.1硬件環(huán)境運(yùn)行搜索引擎至少需要一個(gè)服務(wù)器用以安裝搜索引擎服務(wù)器,索引服務(wù)器,網(wǎng)絡(luò)爬蟲(chóng)服務(wù)器。以下配置為最小配置,僅供參考用。應(yīng)用服務(wù)器:IBMSystemx3650,2*CPU(2.13GHz,E5506CPU),4G內(nèi)存,雙千兆網(wǎng)卡,SAS146GB*2磁盤(pán)陣列:IBMIBM[1814-20A]:DS5020,300G*8(DS5020300GB/15K4GbpsFCDDM),雙控制器?光纖交換機(jī):IBMIBM[2498-B24]AN24B-4(IBMSystemStorageSAN24B-4Express)8口激活,光纖線(xiàn)*84.2系統(tǒng)軟件環(huán)境平臺(tái)基于Java語(yǔ)言開(kāi)發(fā),管理平臺(tái)為B/S結(jié)構(gòu),開(kāi)發(fā)語(yǔ)言為JAVA,所有平臺(tái)完全自主知識(shí)產(chǎn)權(quán),無(wú)綁定任何第三方產(chǎn)品。?操作系統(tǒng)支持AIX、Solaris、HP/UX、Linux、UnixWare開(kāi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論