TRS企業(yè)搜索引擎白皮書_第1頁
TRS企業(yè)搜索引擎白皮書_第2頁
TRS企業(yè)搜索引擎白皮書_第3頁
TRS企業(yè)搜索引擎白皮書_第4頁
TRS企業(yè)搜索引擎白皮書_第5頁
已閱讀5頁,還剩17頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1 TRS企業(yè)搜索引擎白皮書 據統(tǒng)計, 企業(yè)(企業(yè)級組織機構的統(tǒng)稱)每年的數據增長超過 100%,其中 80%以文件、郵件、圖片等 非結構化數據 形式存放在企業(yè)內計算機系統(tǒng)中的各個角落,而這些數據總量遠遠超過了互聯(lián)網信息的總量。有數字表明,企業(yè) 98%以上的信息存儲在企業(yè)內部,而發(fā)布到互聯(lián)網的信息僅占信息總量的 1%-2%。 自從有了信息,那么“搜索”就會成為人們永遠避不開的宿命。因此,如何方便、快捷、安全地獲取企業(yè)內部的信息,造就了一個新的,但實際上非常傳統(tǒng)的應用 企業(yè)搜索引擎 。 TRS公司推出的企 業(yè)搜索引擎解決方案,利用 TRS公司多年來自主開發(fā)的 TRS Database Server 作為企業(yè)搜索引擎服務的平臺,輔以各種數據索引工具,配套數據內容分發(fā)服務模塊,提供完整的、智能的、安全的、個性豐富的企業(yè)搜索引擎服務。 北京拓爾思信息技術有限公司 Beijing TRS Information Technology Limited 2 目 錄 一、 搜索引擎面面觀 3 二、 企業(yè)搜索引擎不同于互聯(lián)網搜索引擎 5 三、 企業(yè)搜索平臺構建企業(yè)搜索引擎應用 8 四、 TRS 企業(yè)搜索引擎架構 10 五、 TRS 企業(yè)搜索引擎核心優(yōu)勢 15 “安全”的搜索引擎 全息搜索 更高的搜索準確性和智能性 個性化的搜索體驗 實時資源整合搜索 強壯可靠的系統(tǒng)、低成本按需擴展 基于內容的自動分類和聚類技術 優(yōu)異的全文檢索性能 六、 TRS 企業(yè)搜索引擎應用實例 17 政府政府某部搜索引擎系統(tǒng) 政府深圳信息資源決策服務系統(tǒng) 媒體新華社多媒體數據庫搜索引擎服務 企業(yè)廣東移動搜索引擎服務 3 一、搜索引擎面面觀 互聯(lián)網,這個時代的寵兒,注意力的焦點,在出現(xiàn)短短的 10 年來,演繹著 IT 領域的傳奇,在詮釋注意力經濟的同時,互聯(lián)網本身也一直成為這個時代人們的注意力焦點,并且我們也毫不吝嗇地把我們這個時代稱之為“互聯(lián)網時代”。 互聯(lián)網的出現(xiàn),信息的高速膨脹,搜索成為互聯(lián)網上信息獲取的主要手段。自 1994 年YAHOO 推出了 超級目錄索引, 從而 成功地使搜索引擎的概念深入人心。 如今, 搜索引擎進入了高速發(fā)展時期 , 目前互聯(lián)網上的搜索引擎已達數百家,其檢索的信息量也與從前不可同日而語。比如最近風頭正勁的 Google,其數據庫中存放的網頁已達 30 億之巨! “搜索引擎”這個詞也成為流行詞語,媒體、大眾、資本也狂熱得無搜不歡。并且,業(yè)界又大膽地提出“ 互聯(lián)網已經從注意力經濟過渡到搜索力經濟”了。 在互聯(lián)網上搜索引擎服務熱潮一浪高過一浪的同時,我們也注意到另外一個現(xiàn)象,就是組織機構內部信息化浪潮,催生了大量的信息內容。據統(tǒng)計, 企業(yè)數據 每年以 200%的速度增長,其中 80%的數據以文件、郵件、圖片等非結構化數據形式存放在企業(yè)內計算機系統(tǒng)中的各個角落,而這些數據總量遠遠超過了互聯(lián)網信息的總量。有數字表明,企業(yè)發(fā)布到互聯(lián)網的信息只占到信息量的 1%-2%,而 98%以上的信息是存儲在企業(yè)內部的。自從有了信息和內容,那么“搜索”就會成為人們永遠避不開的宿命。由此,如何方便、快捷、安全地獲取企業(yè)內部的信息內容,造就了一個新的,但實際上非常傳統(tǒng)的應用 “企業(yè)搜索引擎”。似乎業(yè)界也看到未來企業(yè)級搜索引擎的龐大技術市場,各大 IT 巨頭都紛紛推出了其相對應的軟件產品和技術。 同樣,因為信息的越來越多,人們使用計算機,使用信息的頻度也越來越高。而在個人電腦中也就積累了大量的個人信息,如郵件、文檔、下載的各種網頁。對于個人桌面的信息搜索訴求,我們把她總結成為“個人搜索引擎”。 我們可以從下表直觀地對搜索引擎有全方位的理解: 4 互聯(lián)網搜索引擎 個人 桌面搜索 引擎 企業(yè)級搜索 引擎 搜索范圍 整個 Internet 網絡。 個人電腦 企業(yè)內部所有的信息資源,以及部分外部資源。 搜索對象 網頁、圖像及 MP3 等部分類型的多媒體文件。 PC 內部的所有文檔信息。 企 業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞 組 等。 如: 網頁、電子郵件、 Office 文件、 PDF文件、圖片、音視頻多媒體文件、圖表、公文、研究報告等。 應用特點 大而全,旨在為用戶提供更豐富的搜索結果。 面向個人文檔管理的智能化搜索工具。 專業(yè)、定向的搜索,注重結果的準確性和高度匹配性 ,并且是一種信息安全的搜索。 從上表可以看到,三類搜索引擎有著截然不同的搜索目標和應用特點。因此,其在實現(xiàn)技術機制和手段上也存在著極大的差異。長期以來,因為傳媒關注的總是熱點,造成市場上混淆了這三者的區(qū)別。一提 到搜索引擎,就自然聯(lián)想到互聯(lián)網搜索引擎,再加上一些廠商刻意的推波助瀾,造成了互聯(lián)網搜索引擎取代所有搜索引擎的概念。而實際上我們可以看到不同搜索引擎之間的差別很大。 5 二、企業(yè)搜索引擎不同于互聯(lián)網搜索引擎 首先,我們所說的 企業(yè)搜索引擎( Enterprise Search Engine,簡稱 ESE) 中的企業(yè) 并非 指單純的 企業(yè) , 政府、教育、科研、媒體、醫(yī)療、軍隊、安全部門都有類似的應用需求 , 這里 的“ 企業(yè) ” 可以理解為 “ 企業(yè)級 ” ,即企業(yè)級搜索引擎。那么, 對于 企業(yè)級搜索,我們 對“搜索”的訴求又是什么呢 ? 和互聯(lián)網搜索引擎 相比,它又有哪些不同呢? 實際上,搜索引擎服務是內容管理技術的一個典型應用。我們不妨從內容管理的框架來看搜索引擎的各個環(huán)節(jié),即從信息內容的采集,加工,管理,到服務,以至到信息內容的“發(fā)現(xiàn)”來比對一下企業(yè)級搜索引擎的不同。 *SEO:搜索引擎優(yōu)化,利用工具或其他手法奪取較好的網絡排名。 1、復雜結構 數據的搜索 互聯(lián)網 上 搜索 的數據一般都是網頁形式的, 盡管這幾年網上豐富起來的圖片、 MP3 等信息形式,但其組織形式仍是基于 HTML 組成的網頁。 而企業(yè)級用戶需要搜索的數據既有互聯(lián)網 站上的,也有內部網站上的 ; 既有網頁形式的,又有各種數據庫形式的,如 SQL Server、Oracle 數據庫等;既有結構化數據, 又更多的是 各種電子文件格式的非結構化 及半結構化 數 6 據,如 Word、 Excel、 Lotus Notes、 PDF、 XML 等;既有文本形式的數據, 又 有多媒體形式的數據;而且,同一機構的數據還可能分布在不同 介質 的 載體上。 然而,不管數據的形式、來源、位置、平臺如何不同,企業(yè)用戶總是希望內外數據能無縫結合,用一個搜索工具和統(tǒng)一的界面,發(fā)出幾個簡單的檢索請求就能對所有資源進行檢索,并很快就能有滿意的結果。 并且,互聯(lián)網 搜索內容對于用戶來說都是未知的 , 而企業(yè)級搜索的對象基本上是已知信息源,其中包括企業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞組等,在對這些信息進行索引時,用戶需要按照內容而不是通過比較源鏈接來進行排列 。 2、 嚴格的安全 搜索 在企業(yè)內部, 安全的問題 是 無法回避 的 。 因為企業(yè)內部的信息不象“人人平等”的互聯(lián)網信息,其信息內 容帶有明顯的“等級”安全特性。所以, 當搜索技術變得無所不能,人們反而開始擔心,如果搜索的結果泄漏了企業(yè)的機密怎么辦?如果企業(yè)原有的安全架構對新的搜索技術失效了怎么辦?這些疑問都讓用戶感到如鯁在喉, 岌岌小心 。 很多業(yè)內人士在談到搜索安全的話題 就 憂心忡忡,他們普遍認為搜索環(huán)境并沒有為企業(yè)級應用做好足夠的準備,未來充滿太多 的 變數。而在一些實際的應用中,我們看到,即便為數據定義了文檔級和數據庫級的雙重安全保障,搜索引擎的 魔爪 還能透過授權的索引文檔來 搜索 它們。 因此,針對 企業(yè)網中不同的用戶對不同的資源,其使用 權限都可能不一樣,需要 企業(yè)搜索引擎能夠 對用戶、資源、權限分級管理和控制,確保系統(tǒng)的安全。 3、高可靠的查全和查準 作為專業(yè)用戶,企業(yè)用戶需要查找的信息專業(yè)性強、概念復雜,而對查詢的 查全 率和 查準率有著非常高的要求 。因此,需要利用各種手段來提高搜索引擎的查準率和 查全率。 從查全率來看,互聯(lián)網搜索引擎無從談起查全率,因為互聯(lián)網上的信息如此泛濫無邊,任何一個搜索引擎服務商都無法窮盡互聯(lián)網上的每個網頁。而在企業(yè)級的某些應用中,是不允許有所遺漏的檢索。必須對企業(yè)內部每個需要提供服務的信息進行索引。在檢索機制上必須保障 效率的前提下達到全面搜索的要求。 7 同樣的道理,在互聯(lián)網上因為信息自由的特點,決定了搜索只能通過“關鍵詞匹配”這種核心檢索手段去實現(xiàn)。而在企業(yè)內部,信息的組織復雜了許多。企業(yè)級搜索引擎有完善的信息分類體系,元數據,對象數據多層邏輯的組織形式,在查詢上滿足基于對象數據內容和元數據標引體系的精確查詢要求。 4、智能化的檢索服務 企業(yè)內部的搜索服務,帶有鮮明的業(yè)務特性,不像互聯(lián)網搜索引擎僅提供信息參考。在企業(yè)內部的搜索結果將直接參與到企業(yè)的運營、決策中。所以,對于搜索的結果處理,搜索過程中采用相關智能技術以達到迅速 、準確、全面定位目標信息非常重要。例如 采用相關度分析技術,使相關度較高的結果排在結果列表的前面,相關度較低的結果排在后面,并屏蔽無用和錯誤的信息 ; 構造強大的語義 規(guī)則庫 ,使系統(tǒng)能夠正確地判斷與檢索詞相關的同義詞、近似詞、上位詞、下位詞,幫助用戶判斷結果的相關度,并進行進一步的查詢 ;支持 完善的 信息 分類體系,對檢索結果自動分類 或者信息聚類;提供智能化的概念擴展查詢等,都將有利于企業(yè)對信息資源的高效利用。 5、 企業(yè)搜索引擎通常都和企業(yè)其他的 IT 應用有機結合 以 內容管理技術為框架, 搜索技術為支撐,企業(yè)搜索引擎通常與數 據管理、內容管理、記錄管理、競爭情報、團隊協(xié)同、過程管理、信息門戶等知識管理的各個環(huán)節(jié)密切結合,構成管理企業(yè)知識資產的完整而又靈活的體系。知識 內容 管理對搜索引擎技術提出了更高的要求,而先進的搜索引擎技術則為知識 內容 管理提供了工具和保障。 在市場上我們也可以看到 ,國內外 企業(yè)級搜索引擎廠商,有許多也是知識 內容 管理解決方案的提供商。 6、實時的信息搜索服務 正如前所敘,企業(yè)內部的搜索服務,具備業(yè)務特性,需要將搜索結果參與企業(yè)的運營和決策。所以通過搜索引擎提供的服務,必須能夠動態(tài)地反應實際情況,即當內部的信息發(fā)生變化 時,必須能夠實時反應。在企業(yè),不允許出現(xiàn)像互聯(lián)網搜索引擎服務那樣信息滯后更新的現(xiàn)象。 8 三、企業(yè)搜索平臺構建企業(yè)搜索引擎應用 綜上所述,企業(yè)搜索引擎和互聯(lián)網搜索引擎有著明顯的差異。而且正因為企業(yè)搜索引擎從應用角度來看,對于技術供應商來說是個更加寬闊的市場。由此,進入 2004 年以來,市場上相繼出現(xiàn)了一些熱點。 搜索廠商們開始 摩拳擦掌 ,準備在這場 企業(yè)搜索 戰(zhàn)役中搶占先機了。最近,越來越多來自于企業(yè)級搜索的消息在我們耳邊圍繞: Google 的專用搜索設備不斷出新,意在 將其在互聯(lián)網搜索引擎霸主地位延續(xù)到企業(yè)搜索引擎市場中 來。 IBM DB2 Information Integrator、 Oracle Files 10g 相繼推出,數據庫廠商領土擴張的雄心顯露無疑;Yahoo 通過合作與并購的方式連連出招; Microsoft 將搜索產品的發(fā)布時鐘與 Longhorn 正式看齊 . 從技術的走向來看, 分兩種流派:一是數據庫廠商在自身的關系型數據庫中增強檢索服務能力,以期多個應用系統(tǒng)都部署各自的搜索服務,而通過一個聯(lián)合搜索的方式實現(xiàn)企業(yè)內的搜索引擎服務。 二是更多的從事傳統(tǒng)的內容管理廠商,在認真分析了企業(yè)搜索引擎服務的特點后,提出了 企業(yè)搜索平臺( Enterprise Search Platform,簡稱 ESP) 的提法。這一“ 技術 流派”的支持者以國內企業(yè)搜索引擎市場第一占有的 TRS 為代表,還有國外的 AUTONOMY、 VERITY等公司。 9 現(xiàn)實情況是, 企業(yè)內部的信息存儲在各個應用系統(tǒng)中,并且采用不同的系統(tǒng)進行管理并提供各自的搜索服務。例如: 一個在內容管理系統(tǒng)中,另一個在 Microsoft Office 環(huán)境中,還有一個在電子郵件程序中 ,采用 ESP 架構需要各個 數據庫中 的數據進行統(tǒng)一的、關聯(lián)的索引。 并且還能在搜索之前對查詢語句進行語法 翻譯,以及拼寫檢查、短語檢測等語言處理。在 執(zhí)行搜索步驟后, ESP 會把從原始 將對應的各個數據庫中內容進行用戶要求的封裝后 返回給用戶。這樣,用戶就可以借助結果頁面中的類別鏈接逐級縮小查詢范圍,提煉出想要的結果了。 10 四、 TRS 企業(yè)搜索引擎架構 國內信息檢索和內容管理軟件的領導廠商 TRS 公司在企業(yè)搜索引擎領域占據著國內企業(yè)級搜索引擎市場的 80%,并且一直是該領域的技術領導者和理念先行者。公司已從成立之初提供基于中文的信息搜索軟件,發(fā)展到今天成為基于內容管理技術提供豐富的全面的企業(yè)搜索引擎產品和解決方案的中國最具實 力的軟件開發(fā)商之一。在實踐中積累了豐富的業(yè)務經驗,在技術、產品和實踐方面具有獨特優(yōu)勢。 TRS 公司推出的企業(yè)搜索引擎解決方案,利用 TRS 公司多年來自主開發(fā)的 TRS Database Server 作為企業(yè)搜索引擎服務的平臺。輔以各種數據索引工具,配套數據內容分發(fā)服務模塊,構建成一個完整的,能夠索引企業(yè)內部全面的信息內容,提供安全分級授權的、個性豐富的檢索體驗的企業(yè)搜索引擎服務。其框架如圖: 從圖中可以看到,要實現(xiàn)一個完整的企業(yè)搜索引擎服務,首先需要將存儲在企業(yè)組織內部的各類信息通過對應的手段索引到企業(yè)搜 索引擎服務平臺服務器中。在 TRS 提供的解決 11 方案中,即將各類信息索引到 TRS Database Server( TRS 企業(yè)搜索引擎基礎平臺),然后通過有效的信息分發(fā)服務模塊實現(xiàn)定制化的企業(yè)搜索引擎服務。 從技術角度來看, TRS 搜索引擎框架中,很好地利用模塊化的軟件解決了企業(yè)搜索引擎應用中的三個核心環(huán)節(jié): 內容實時發(fā)現(xiàn)索引、內容海量安全管理、內容智能個性搜索 。并且 TRS 搜索引擎方案突破了純粹的“搜索”概念,在搜索后處理方面, TRS 出色地解決了 “內容挖掘分析利用” 這個課題。 內容實時發(fā)現(xiàn)索引 在企業(yè)搜索引擎服務中 ,首先需要解決的一個問題就是如何將多種格式、多種介質形態(tài)、多種存儲方式的內容信息,以實時的方式將這些信息進行索引。并且在索引的過程中力求能夠做到準確,并配合以相關智能語言技術做信息的去重、自動標引等能力。 TRS 公司針對各種信息的來源和形態(tài)提供了一系列的輔助處理工具: TRS 網絡信息雷達系統(tǒng)( TRS InfoRadar) 針對企業(yè)搜索引擎服務中,需要對部分互聯(lián)網網站的信息進行收集,并作為企業(yè)搜索引擎的重要內容來源。為滿足此類需求, TRS 提供的網絡信息雷達系統(tǒng),采用高效的網絡搜索技術,監(jiān)控和采集互聯(lián)網信息,支持 智能分類、自動排重和靈活發(fā)布,實現(xiàn)海量網絡信息的高效采集、組織。將采集和分析處理好的數據實時提交到企業(yè)搜索引擎平臺服務器( TRS DATABASE SERVER)中。 TRS 數據檢索網關( TRS Gateway for RDBMS) 在企業(yè)內部,許多信息內容的創(chuàng)建和生產都分散在各個應用系統(tǒng)中,而這些應用系統(tǒng)的數據存儲基本上都是采用關系型數據庫或者 NOTES 系統(tǒng)中。在企業(yè)搜索引擎應用中,一個核心明顯的需求就是,當這些應用系統(tǒng)的數據產生和變化時,希望實時地通過企業(yè)搜索引擎服務迅速查找到。這就需要有相關技術能夠實 時發(fā)現(xiàn)新數據,并在發(fā)現(xiàn)的同時索引到企業(yè)搜索引擎平臺服務器中。 TRS 公司提供了針對系列的主流關系型數據庫和 NOTES 的檢索網關模塊,能夠將應用中的數據實時地反映到企業(yè)搜索引擎平臺服務器中( TRS Database Server)。 TRS 數據處理工具( TRS Data Processor) 12 在實際應用中,企業(yè)搜索引擎還需要面對企業(yè)內部各種類型的數據進行加工、標引、加載到 TRS 數據庫中,通過 TRS Data Processor 可以優(yōu)化后續(xù)的檢索、發(fā)布服務。 TRS Data Processor 對已經進入 TRS 數 據庫中的數據進行深層次的聯(lián)機加工,將信息及時索引到 TRS企業(yè)搜索引擎平臺服務器( TRS Database Server)中。 內容海量安全管理 在企業(yè)搜索引擎應用中,海量信息的管理完全不同于互聯(lián)網搜索引擎。首先在信息總量上,因為企業(yè)搜索引擎應用是分散在各個企業(yè)內部,所以單個的企業(yè)搜索引擎應用的數據量和互聯(lián)網上的信息是不可同日而語的。但是從企業(yè)級應用來看,因為任何一個機構組織在實施其企業(yè)搜索引擎應用時,不可能象互聯(lián)網搜索引擎服務商那樣投資大批的機器設備。所以,在企業(yè)級應用中,單位設備數據量(單位設備數據量 =存儲管理的數據量 機器設備數)則遠遠高過互聯(lián)網搜索引擎服務。如何在單臺或者數臺機器中實現(xiàn)企業(yè)內部海量數據的管理是企業(yè)搜索引擎平臺服務器需要直接響應的問題。 同時,企業(yè)搜索引擎服務中的安全問題,也涉及到多個層面。一是系統(tǒng)的安全,因為企業(yè)搜索引擎的服務結果生產性特質,不允許服務系統(tǒng)出現(xiàn)錯失現(xiàn)象。所以在系統(tǒng)架構上,集群技術的應用、分布式的支持都是企業(yè)搜索引擎平臺服務器需要解決的問題。另一個更為重要的安全問題就是信息本身的安全。企業(yè)搜索引擎服務必須保障信息是按秩序、按組織規(guī)則授權方式的搜索。而不象互聯(lián)網搜索引擎上 的人人搜索。 TRS 企業(yè)搜索引擎平臺服務器( TRS Database Server)則很好地解決了上面提及的各種問題。 TRS 企業(yè)搜索引擎平臺服務器( TRS Database Server)除了采用得到業(yè)界廣泛使用全文檢索的全部功能和性能,針對企業(yè)信息內容搜索引擎服務的管理和資源建設的新需求,發(fā)展了包括 Native XML, 集群, Unicode, 自然語言處理及智能檢索等眾多新功能,結合 TRS領先的結構化和非結構化聯(lián)合查詢技術,從而滿足了用戶對企業(yè)搜索引擎的廣泛需求。更為重要的是, TRS 企業(yè)搜索引擎平臺服 務器提供了多種安全機制的管理,涉及到系統(tǒng)安全和內容安全各個方面。為安全的搜索奠定堅實基礎。 Native XML: 能夠為更精確的檢索提供存儲和檢索手段。 集群:滿足海量信息處理和負載均衡的苛刻需求。 Unicode: 以中文為主,提供多語言支持,實現(xiàn)了國際化。 自然語言及智能檢索:實現(xiàn)更加人性化和達到更好的檢索效果。 13 異構:結構化和非結構化異構信息聯(lián)合查詢。 內容智能個性搜索 企業(yè)搜索引擎在提供搜索服務方面,要滿足高效的同時,更重要的是查全率和查準率,同時需要提供智能化的概念擴展搜索。還有,在企業(yè)搜索引 擎應用中,搜索體驗上的需求和互聯(lián)網搜索也有很大的不同。即搜索的提交和結果的呈現(xiàn)都具有個性化特性。 TRS 企業(yè)搜索引擎平臺服務器熔煉了 TRS 公司多年在中文智能處理方面的研究成果,并結合十多年來的企業(yè)及搜索引擎的應用經驗。多種中文智能處理技術的應用,如智能分詞,字詞索引結合、主題詞表概念擴展等技術的應用,使得查全率和查準率都得到極大的保障。 同時,在 TRS 企業(yè)搜索引擎解決方案中。采用了模塊化的內容分發(fā)服務模塊。讓用戶可以方便地通過頁面設計模板封裝等方式來實現(xiàn)個性化的搜索提交,結果個性呈現(xiàn)。并且系統(tǒng)結合多種信 息分發(fā)機制,將搜索、瀏覽、訂閱等功能有機集成。而對于信息發(fā)現(xiàn)和評估,系統(tǒng)也提供了很好的支持,并可以根據搜索的統(tǒng)計,來評估信息內容的使用情況及信息用戶的搜索習慣。 內容挖掘分析利用 企業(yè)搜索引擎提供搜索服務僅僅是企業(yè)內容利用的開始,以企業(yè)搜索引擎整合的內容基礎為起點,企業(yè)需要進行再組織、再分發(fā),特別是應用智能的知識挖掘技術進行內容的挖掘和分析,從而高效地獲取新的知識發(fā)現(xiàn)和利用價值。企業(yè)搜索引擎將組織中分散管理的信息整合在一起,再在組織層面實現(xiàn)新的增值,并共享給組織相關方面,從而有效實現(xiàn)組織內容利用的最優(yōu)目標 。 TRS CKM 中文知識挖掘基礎件 以信息智能過濾和分析的文本挖掘技術,應用統(tǒng)計學、自然語言處理和人工智能的最新研究成果,實現(xiàn)自動分類、摘要、排重、聚類、敏感詞過濾分析等功能,提供 C+/Java 開發(fā)接口和 SOAP/Web Service 應用集成接口。 14 五、 TRS 企業(yè)搜索引擎核心優(yōu)勢 TRS 企業(yè)搜索引擎產品和技術占有國內市場的 80%,一方面因為 TRS 公司 10 多年來專注此領域,更主要的是通過 10 多年的努力, TRS 企業(yè)搜索引擎已經具備了其核心競爭能力,可以在眾多大型企業(yè)搜索引擎應用項目中和國際巨頭競爭角 逐。 “安全”的搜索引擎 TRS 搜索引擎技術支持內容安全性控制,可以通過域、 IP 段、 URL 等廣域網范圍的控制,實現(xiàn)授權搜索采集,不亂采集。同時, TRS 對查詢內容進行分級控制,特定的人只能搜索和查詢特定的內容。 在 TRS 搜索引擎技術中提供了信息智能過濾和禁用詞典設置,通過這些技術,保障搜索引擎在提供便捷的搜索服務的同時,也保證對不良信息搜索的過濾。 另一方面, TRS 搜索引擎技術在安全模塊設計上提供了對 PKI/PMI 體系支持的開放接口,可以保障將 TRS 搜索引擎集成在企業(yè)內整體的信息安全保障體系之中。 全息搜索 TRS 企業(yè)搜索引擎平臺服務器支持 Native XML 的存儲和搜索。實現(xiàn)了從全文到元數據的多種聯(lián)合搜索,為企業(yè)搜索引擎應用提供了全息檢索機制。 更高的搜索準確性和智能性 TRS 搜索引擎技術支持按詞索引、按字索引、按關鍵詞索引,字詞混合索引,適應不同應用環(huán)境的需求,同時 TRS 搜索引擎內嵌中文自動分詞系統(tǒng) -檢索 “北大 ”,檢索不出 “東北大學 ”。 內嵌歧義處理實例規(guī)則庫,正確識別歧義片斷,提高分詞準確性分詞系統(tǒng)要達到一定的準確率,需要和人一樣不斷積累知識,也就是不斷積累分詞規(guī)則。 TRS 公司從 80 年代末就開始積累 分詞規(guī)則,這些規(guī)則從大量的語料中統(tǒng)計產生,如果語料的數量不夠則產生的規(guī)則往往帶有片面性, TRS 積累了 2030GB 的文本語料,且這些語料能反應現(xiàn)中文語言的特點。如果一個語句切分時有歧義片段,則按適合的規(guī)則切分歧義片段,提高了查準率。 15 在查詢方面, TRS 提供了基于詞典的智能擴展查詢,可以按同義詞、行業(yè)主題詞等詞典進行智能擴展查詢,例如,在查詢“銳器”時,系統(tǒng)將自動將包括“匕首”、“刀”等內容提供給信息搜索人員。 在查詢中,對自動聚類技術進行充分利用,可以實現(xiàn)各類信息自動相關等功能,為內容比對分析提供了有利工具 。 個性化的搜索體驗 TRS 搜索引擎內容分發(fā)服務模塊充分考慮了信息搜索過程中工作繁忙、對信息的時效性要求高等工作特點。提供了任務定制查詢、專欄預設查詢、個性化排序等功能。例如:使用者可以定制查詢任務,比如“專項斗爭”、“專題文件”等單項任務,又如可以定制查詢更新時間,查詢系統(tǒng)將根據定制的任務,定期進行相關信息查詢,定期將查詢結果推送到用戶的工作界面,方便信息需求者。 另外,系統(tǒng)還提供了個人檢索歷史記錄、個性化界面設置等等功能,不同的使用者可以選擇適合自己的工作查詢界面,提升系統(tǒng)的易用性和靈活性。 實時資 源整合搜索 TRS 搜索引擎技術能將各種 RDBMS、文件系統(tǒng)、網頁信息等實時發(fā)現(xiàn),創(chuàng)建索引,為搜索服務提供基本的保障。 標準、開放的系統(tǒng) 標準、開放是一個應用系統(tǒng)得以發(fā)展和壯大的基礎,通過標準開放的模式,可以保證用戶更多地采用先進的技術搭建個性化的應用。 隨著技術的發(fā)展,各個軟件供應商越來越在某一領域具有專利或優(yōu)勢技術,但是用戶的需求是全方位的,因此,最好的解決方案就是采用統(tǒng)一規(guī)范標準的接口進行應用集成,這也是國際化軟件發(fā)展趨勢。 16 TRS 公司設計的搜索引擎解決方案在很多方面為應用集成提供了保證,如支持系統(tǒng)三層體系結構,支持 J2EE 標準中間件,支持 XML 數據交換規(guī)范,提供底層數據庫的各種平臺的完善的開發(fā)接口,提供模塊組件,支持二次開發(fā),開放底層數據存儲格式等。 強壯可靠的系統(tǒng)、低成本按需擴展 TRS 搜索引擎平臺服務器采用了 TRS 集群服務器技術,實現(xiàn)了 TRS 全文檢索數據庫的集群和負載均衡應用,在采集方面利用分布式采集和任務集中控制模式可以進行大規(guī)模采集,在未來可以通過增加硬件的方式,就能提高系統(tǒng)的處理能力。 另外,隨著未來負載和訪問量的增加,可以分步建立鏡像中心,滿足大規(guī)模應用需要。 基于內容的自動分類和聚類 技術 TRS 搜索引擎中嵌入式的內容分類技術和聚類技術,不但可以先按內容、地區(qū)、來源等多種方式快速標引各類信息,而且可以基于內容對信息進行自動、準確的分類,這兩種分類方法有機結合為 TRS 搜索引擎提供全面的、準確的、快速的、智能的分類服務。 優(yōu)異的全文檢索性能 TRS 全文檢索系統(tǒng)在行業(yè)里具有領先的性能,是中文全文檢索的事實上的標準,眾多的全文檢索廠商都以 TRS 的性能指標作為自己軟件評測的標準和系統(tǒng)發(fā)展方向。 目前國內唯一的商用千萬級數據庫 新華社多媒體數據庫就是采用 TRS 作為底層檢索平臺,目前,該系統(tǒng)已有 將近 8T 數據量,檢索(包括簡單檢索和復雜檢索)的平均響應時間是秒級。并且, TRS 的檢索性能隨著數據的增加不會呈線性下降,可以在一個非常廣的數據規(guī)模范圍內保證用戶的實際應用。 17 六、 TRS 企業(yè)搜索引擎應用實例 政府政府某部搜索引擎系統(tǒng) 政府某部搜索引擎系統(tǒng)是垂直信息搜索的典型,該系統(tǒng)依托于中國某部信息網,是電子政務“金”字工程的有機組成部分。 中國某部信息網是某部機關內部管理使用的專網,是全國各級該部機關內部傳播和交流業(yè)務信息、隊伍建設信息、辦公信息的重要渠道。某部信息網上具有豐富的信息資源,網上已建立 了數千個網站,網站上發(fā)布的各類網頁文件已達數百萬個;已建成的全國該業(yè)務應用系統(tǒng)、數據庫都已連入網內,各地該機關的應用系統(tǒng)、數據庫正在逐步連入網內;網上信息涵蓋了該機關各事務的基本情況和動態(tài)。并且隨著發(fā)展,該信息網的網站數量、網頁數量和瀏覽網上信息數量都呈現(xiàn)著迅速上升的發(fā)展趨勢。 在某部信息網中發(fā)布的數據具有資源比較分散的特性,在搜索引擎建設前,工作人員查找信息時需要訪問大量、不同的區(qū)域性站點,甚至有時要訪問到站點很深的層次中尋找信息,另外,很多信息又會被相關職能部門的網站刊登,造成大量重復信息。 基于這樣一 個背景,并且為了充分發(fā)揮某信息網網上信息的作用,通過 TRS 企業(yè)搜索引擎建設的某搜索引擎系統(tǒng)有效提高了信息資源整合組織和利用的效率。該系統(tǒng)針對網頁信息和應用定位提供相關的搜索引擎解決方案,對網頁信息資源共享提供支持與服務,同時,為該部和各地該部部門在該網上查找相關應用系統(tǒng)的定位信息提供服務 某部搜索引擎系統(tǒng)包括了系統(tǒng)數據庫支持平臺,采集、處理、存儲系統(tǒng),信息智能分析和系統(tǒng)管理等多方面應用。 18 深圳信息資源決策服務系統(tǒng) 深圳信息資源決策服務系統(tǒng)是 TRS公司和深圳市政府于 2004年合作建設的重點企業(yè)級搜索引 擎服務系統(tǒng),是深圳市機關電子政務的重要組成部分。決策信息網 主要為市級領導提供信息服務,包括了政務信息、領導個人信息、視頻信息、統(tǒng)計信息、文件法規(guī)等豐富的內容資源。 決策信息網采用“統(tǒng)一平臺、分級授權”的方式進行用戶管理,將權限下放給各個部門,通過這種方式實現(xiàn)對普通工作人員、市管領導、市常委委員不同角色的授權,各部門按統(tǒng)一要求更新各自網站信息。 通過決策信息網,建立連接決策網數據中心和市局單位的網絡傳輸平臺,建立包括圖文信息和視頻信息的數據中心,建立統(tǒng)一安全的管理平臺。 深圳 信息資源決策服務系統(tǒng) 是深圳市 機關電子政務系統(tǒng)的重要組成部分。它利用先進的信息網絡技術,整合政務網和因特網各種信息資源,為市領導決策提供全面、準確、最新的一站式信息服務。 19 媒體新華社多媒體數據庫搜索引擎服務 新華通訊社作為國家通訊社,信息管理應用服務系統(tǒng)擔負著采集、發(fā)布、管理各類文字及圖片信息的重大任務。其采集的信息涉及政治、外交、經濟、文教、科技、法律等各個領域并具有信息量大、權威、準確、及時、豐富等特點。不僅為國內外的新聞機構和企事業(yè)單位提供大量的新聞素材,同時也承擔國家重大活動的新聞報道工作。 新華社多媒體數據庫始建于 1999 年,采用 TRS 全文檢索的核心技術, 2002 年, TRS公司與新華社技術局再次合作實施了新華社多媒體數據庫英文檢索引擎的提速改造,提速后的系統(tǒng)對于多媒體數據庫的全文檢索能夠達到 35 秒左右響應。目前,多媒體數據庫中已經存儲了數千萬條多媒體信息,數據容量接近 8T,內容涵蓋中、英、法、西、阿、俄等 9 大主流語種,以文字信息為主,包含圖片、圖表和音視頻信息。 新華社多媒體數據庫底層采用 TRS 和 Oracle 協(xié)同工作的解決方式,由 TRS 完成千萬級數據的索引檢索服務,由 Oracle 完成 信息制作流程,檢索方式分為本 地聯(lián)機檢索和遠程網絡檢索兩種方式,可進行精確檢索、模糊檢索、全文檢索、對各檢索入口項實行任意聯(lián)合組配檢索;可實現(xiàn)多級檢索,逐級細化檢索條件,直至命中滿意的檢索結果;能夠對檢索結果排序。提供中英文全文檢索功能,中文按詞進行全文檢索,具有智能詞庫機制。對圖片可按分類號、作者、拍攝時間、拍攝地點、照片文字說明等項檢索,其中文字說明項可實現(xiàn)中文 20 按詞全文檢索。支持邏輯庫功能、跨庫檢索,支持文字資料和圖片資料的系統(tǒng)鏈接。 新華社多媒體數據庫作為新華社核心存儲的地位也在不斷加強,從以前分散的存儲逐步向統(tǒng)一存儲、統(tǒng)一管理、 統(tǒng)一服務方向發(fā)展。在這個過程中,新建設的其他應用系統(tǒng)中,TRS 也積極的參與了廣泛的應用研究,并在很多系統(tǒng)中直接集成了 TRS 全文檢索的核心功能,以保證數據的檢索性能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論