全文檢索系統(tǒng)整體方案說(shuō)明_第1頁(yè)
全文檢索系統(tǒng)整體方案說(shuō)明_第2頁(yè)
全文檢索系統(tǒng)整體方案說(shuō)明_第3頁(yè)
全文檢索系統(tǒng)整體方案說(shuō)明_第4頁(yè)
全文檢索系統(tǒng)整體方案說(shuō)明_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料1全文檢索系統(tǒng)方案1.1全文檢索需求系統(tǒng)提供模糊檢索、分類搜索、高級(jí)復(fù)合搜索、全文檢索、圖片內(nèi)容檢索、跨庫(kù)檢索等多種檢索途徑;支持字索引和詞索引;檢索條件具有完整的關(guān)鍵詞布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(hào)(與右括號(hào))作關(guān)鍵詞查詢優(yōu)先級(jí)的設(shè)置;提供用戶多次遞進(jìn)查詢的功能,用戶可根據(jù)上一次查詢關(guān)鍵詞得到的檢索結(jié)果集,增加查詢關(guān)鍵詞與縮小搜索日期范圍,而得到更準(zhǔn)確的查詢結(jié)果集;能夠支持對(duì)以上文件中的中文(簡(jiǎn)體/繁體)、英文、日語(yǔ)、韓語(yǔ)內(nèi)容實(shí)現(xiàn)關(guān)鍵字檢索;支持對(duì)Word、TXT、PDF等多種主流文檔

2、格式全文檢索,并提供開(kāi)發(fā)接口以支持特殊文檔格式的全文檢索;在數(shù)據(jù)源數(shù)據(jù)發(fā)生更新時(shí),能在索引庫(kù)中反映出來(lái),保證搜索的信息為最新,即支持增量索引機(jī)制;用戶可自行設(shè)定時(shí)間,讓系統(tǒng)自動(dòng)定時(shí)進(jìn)行更新索引;對(duì)于百萬(wàn)級(jí)記錄數(shù)的搜索以及結(jié)合模糊搜索等查詢方式,搜索時(shí)間不得超過(guò)10秒;提供跨數(shù)據(jù)源、數(shù)據(jù)格式的搜索;同過(guò)相關(guān)性搜索,能夠把和搜索條件相關(guān)聯(lián)的信息搜索出來(lái);不但能夠?qū)D片的描述信息進(jìn)行搜索,還能對(duì)圖片內(nèi)容的檢索;提供COM與SOAP的搜索接口(Interface)可讓其它應(yīng)用程序或查詢網(wǎng)頁(yè)能夠提供用戶查詢?nèi)肟诤筒樵兘Y(jié)果的呈現(xiàn),用戶可通過(guò)應(yīng)用程序或?yàn)g覽器訪問(wèn)全文檢索服務(wù)器,提交查詢條件,可在瀏覽器中查看

3、檢索結(jié)果;查詢結(jié)果集中應(yīng)包含結(jié)果集總數(shù)、命中的結(jié)果文件的完整路徑,以及符合關(guān)鍵詞出現(xiàn)的內(nèi)容片斷;在搜索結(jié)果集中,關(guān)鍵詞應(yīng)被標(biāo)識(shí)出來(lái),用特殊的字體及顏色和其他文字進(jìn)行區(qū)別,查詢者可在查詢結(jié)果片斷中一目了然的看到關(guān)鍵詞出現(xiàn)的位置;查詢結(jié)果可按照關(guān)鍵詞命中次數(shù),命中結(jié)果文件的修改時(shí)間,大小等條件進(jìn)行排序;可提供用戶對(duì)檢索命中結(jié)果文件在索引庫(kù)中進(jìn)行標(biāo)記,從而再次檢索時(shí),不在標(biāo)記過(guò)的文件中進(jìn)行查詢;全文檢索系統(tǒng)總體方案系統(tǒng)將采用以下全文檢索流程。Folder/ShareFolderwithDocumentsFuzzySearchSynonymPhraseWild-CardMulti-fieldFilte

4、rIRMSTermExtractTermIndexWebSiteRobot/SpiderByURLEntryAIRMS.IndexerAdapterDataSourceComposerFileExtractoraRDBMS(ODBC/OLEDB/JDBC)IndexDatabaseAAplicction(lUsrInterfeceeLotusDominoR5,R6(NSF)FileNET內(nèi)容管理針對(duì)企業(yè)內(nèi)部的信息,包括文件服務(wù)器上的文件、網(wǎng)站網(wǎng)頁(yè)、ERP等系統(tǒng)存放信息的數(shù)據(jù)庫(kù)信息、辦公應(yīng)用中的公文檔案文檔已經(jīng)內(nèi)容管理系統(tǒng)中流轉(zhuǎn)的內(nèi)容,本系統(tǒng)提供了兩種數(shù)據(jù)適配器來(lái)提取其中的正文內(nèi)容和屬性內(nèi)容,形

5、成一個(gè)相對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層;本系統(tǒng)的索引引擎(Indexer)對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層進(jìn)行中文切分詞、文件特征分析和逐步索引,以及其它索引算法,生成索引數(shù)據(jù)庫(kù);使用者(user)在搜索頁(yè)面中輸入查詢字串等搜索條件并提交給本系統(tǒng)后,本系統(tǒng)的全文檢索查詢引擎(Searcher)會(huì)在索引庫(kù)中進(jìn)行搜索,并將符合搜索條件的搜索結(jié)果返回給使用者;使用者(user)可于查詢結(jié)果頁(yè)面,進(jìn)一步鏈接到信息原文查看詳細(xì)內(nèi)容。對(duì)于系統(tǒng)管理,管理員可通過(guò)相應(yīng)web方式的管理程序來(lái)管理整個(gè)系統(tǒng)運(yùn)行環(huán)境及設(shè)置文件;并通過(guò)索引引擎(Indexer.exe)實(shí)時(shí)或定時(shí)創(chuàng)建索引,更新索引數(shù)據(jù)庫(kù)的內(nèi)容,使檢索信息維持在最新?tīng)顟B(tài)。全文

6、檢索系統(tǒng)帶來(lái)的效益高效率的整合搜索,大幅減少組織成員在取得信息時(shí)花費(fèi)的時(shí)間!本系統(tǒng)和其它搜索系統(tǒng)只針對(duì)特定信息源搜索不同,它能對(duì)企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強(qiáng)大的信息整合及快速回應(yīng)能力,讓企業(yè)成員以單一搜索頁(yè)面、簡(jiǎn)易的操作方式,即可在最短時(shí)間內(nèi),完整、準(zhǔn)確、及時(shí)地掌握企業(yè)內(nèi)外所有信息,不必再耗費(fèi)大量時(shí)間的找尋信息!信息過(guò)量不會(huì)造成企業(yè)成員的信息焦慮!通過(guò)本系統(tǒng)強(qiáng)大的索引/搜索能力,大量的信息也可在瞬間過(guò)濾出符合使用者條件的信息,不必?fù)?dān)心迷失在漫漫的信息洪流之中!非結(jié)構(gòu)/非組織的信息,不再是知識(shí)管理的盲點(diǎn)!文件/檔案以及非經(jīng)過(guò)分類管理的信息,因?yàn)楦郊有畔⑾∩伲蔀橹R(shí)利用上難以

7、判斷、分析的信息。本系統(tǒng)直接針對(duì)內(nèi)容全文分析、關(guān)聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用!整合容易,使用簡(jiǎn)易,導(dǎo)入迅速,易于接受!套裝化、模塊化的設(shè)計(jì)及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設(shè)置;操作方式簡(jiǎn)單,企業(yè)成員易于接受,導(dǎo)入方便。以最經(jīng)濟(jì)的時(shí)間、人力及費(fèi)用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識(shí)環(huán)境。全文檢索系統(tǒng)平臺(tái)架構(gòu)本系統(tǒng)基于組件化和松散耦合架構(gòu)和設(shè)計(jì),系統(tǒng)平臺(tái)架構(gòu)示意圖如下:CustomizationDataSynchronizationaAuthorityImport/ExportrMassagingJrConfigurationClassificationElUnst

8、ructuredData7匡園函Semi-StructurecfDataStructuredData整個(gè)系統(tǒng)主要分為信息整合、信息萃取和服務(wù)、應(yīng)用整合三個(gè)部分。信息整合此部分主要作用是將企業(yè)內(nèi)部存儲(chǔ)于不同應(yīng)用系統(tǒng)中的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息通過(guò)本系統(tǒng)提供的兩種數(shù)據(jù)適配器進(jìn)行信息提取,形成一個(gè)相對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層,以備后期信息萃取和服務(wù)。信息萃取和服務(wù)在信息整合層形成的相對(duì)結(jié)構(gòu)化的數(shù)據(jù)虛擬層基礎(chǔ)上,本系統(tǒng)將對(duì)其中的每筆記錄進(jìn)行中文切分詞、索引、文件特征分析、自動(dòng)分類等各種演算算法處理,形成可以提供搜索服務(wù)的索引庫(kù)。用戶利用本系統(tǒng)的搜索引擎處理提供的強(qiáng)大的搜索功能,如中文同音搜索、

9、簡(jiǎn)繁體對(duì)譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準(zhǔn)確、完整、及時(shí)、有效地搜索到符合自己搜索條件的信息。應(yīng)用整合本系統(tǒng)還提供了完整的外部程序整合機(jī)制。所有組件均提供SDK完整開(kāi)發(fā)接口,方便應(yīng)用整合和應(yīng)用擴(kuò)展。1.4.1信息整合此部分主要提供對(duì)企業(yè)內(nèi)外部非結(jié)構(gòu)性數(shù)據(jù)信息源建立自動(dòng)化數(shù)據(jù)匯入功能。根據(jù)用戶實(shí)際需求,用戶可以選擇導(dǎo)入包含Text、MicrosoftOffice、XML、RTF、PDF、HTML、MHT、AutoCAD及E-mail(含附件文件)等格式及文件影音附件(如影片的文件名或摘要、圖片的文件名或摘要、及文字)自動(dòng)化建立索引數(shù)據(jù),建立索引數(shù)據(jù)所處理之文字包括繁體中

10、文、簡(jiǎn)體中文等;同時(shí)用戶可以選擇導(dǎo)入數(shù)據(jù)庫(kù)數(shù)據(jù),如Oracle、InformixSybase、MSSQL等。此外和Notes系統(tǒng)也已經(jīng)有了無(wú)縫整合,可掛載NotesComposer對(duì)nsf庫(kù)中正文及附件信息索引,在做索引的過(guò)程中自動(dòng)把每筆記錄的權(quán)限鍵入索引庫(kù)。本系統(tǒng)提供可掛載的數(shù)據(jù)適配器(DataAdapter),將異質(zhì)的數(shù)據(jù)來(lái)源與數(shù)據(jù)結(jié)構(gòu)進(jìn)行匯整與粹取,亦扮演將非結(jié)構(gòu)的信息結(jié)構(gòu)化,可以很容易地分析特殊檔案格式和管理復(fù)雜的數(shù)據(jù)源結(jié)構(gòu)(如遞歸、巢狀等)的多功能設(shè)計(jì),以方便信息檢索與管理。以e-mail含附件為例,e-mailAdapter可解析e-mail內(nèi)文,而當(dāng)選購(gòu)officeAdapter

11、后,原來(lái)的e-mailAdapter即可解析office相關(guān)的附件文件,可視需求額外購(gòu)買PDF、ZIP、RAR、OCR等不同數(shù)據(jù)適配器,即可交互搭配使用。搭配使用本系統(tǒng)的TXT、MicrosoftOffice、RTF、PDF、HTML、E-mail及FileMeta資料提取器,將可解析TextMicrosoftOffice、XML、RTF、PDFHTML、MHT及E-mail(含附件文件)及文件影音附檔(如影片的文件名或摘要、圖片的文件名或摘要、及文字)等格式,包括繁體中文、簡(jiǎn)體中文、英文Unicode等;使用數(shù)據(jù)庫(kù)數(shù)據(jù)適配器,將可支持?jǐn)?shù)據(jù)庫(kù)數(shù)據(jù)匯入處理如Oracle、Informix、Syb

12、ase、MSSQL等。1.4.2信息萃取和服務(wù)此部分須提供對(duì)數(shù)據(jù)提取的內(nèi)容所包含的信息,進(jìn)行數(shù)據(jù)處理分析,包含:分類模式建立自動(dòng)分類功能。針對(duì)非結(jié)構(gòu)性數(shù)據(jù)建立詞庫(kù),詞庫(kù)須包含同音詞庫(kù)、同義詞庫(kù)、專業(yè)詞庫(kù)。自動(dòng)分類機(jī)制與專業(yè)詞庫(kù)須具備自動(dòng)學(xué)習(xí)與修正之功能以提升數(shù)據(jù)處理準(zhǔn)確度??舍槍?duì)不同使用層級(jí)、項(xiàng)目進(jìn)行非結(jié)構(gòu)性數(shù)據(jù)權(quán)限控管。依照使用者不同等級(jí)提供不同權(quán)限的查詢功能接口。應(yīng)用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群,將匯整的內(nèi)容進(jìn)行斷詞、索引、分類、文件特征等運(yùn)算與處理,以便滿足信息檢索與信息管理的應(yīng)用,提供多功能全面性的數(shù)據(jù)分析能力,可針對(duì)不同情境應(yīng)用加以整合,快速達(dá)到使用者需求。同時(shí),用戶利用本系

13、統(tǒng)的搜索引擎處理提供的強(qiáng)大的搜索功能,如中文同音WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料搜索、簡(jiǎn)繁體對(duì)譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準(zhǔn)確、完整、及時(shí)、有效地搜索到符合自己搜索條件的信息。1.4.3應(yīng)用整合CustomizationB國(guó)DataSynchronizationConfigurationimport/Export完整外部程序整合機(jī)制一所有組件均提供SDK完整開(kāi)發(fā)接口,方便外部整合。另外大量提供XML的方法來(lái)進(jìn)行信息源更新時(shí)的同步以及權(quán)限的導(dǎo)入與檢查工作。1.5全文檢索系統(tǒng)功能特點(diǎn)L5.1基本檢索功能支持査詢結(jié)呆說(shuō)定:索引庫(kù)査詞關(guān)

14、犍詞:全選哇不選廠分孚文件氐巧“廠龍卷鳳廠新聞數(shù)葩庫(kù)(I廠處遼弩理LL心)主階至詢毎口.顯天結(jié)昊救:n廣加廣宜2c5排序1屈頂.TI迄再3特殊功胄搬定:廠英立訶型間忡気換廠口卩丈同音1L卩英乂容錯(cuò)冃卩戈:丈同艾或近G1L二1恁可以在查詢字荷串中虔月邏輯迄算荷弓爰.耳文77用口歹,|表示皿&表為陀!表示NOTr忙英文萬(wàn)用字持廠二題査詢支持跨數(shù)據(jù)源索引與整合搜索。將分散在FileServer上的文件、遠(yuǎn)程網(wǎng)站中的網(wǎng)頁(yè)、群組軟件中的資料,以及數(shù)據(jù)庫(kù)中的文字與非文字紀(jì)錄,在一次搜尋條件下,整合搜尋出來(lái)??梢詫?duì)近線數(shù)據(jù)、在線數(shù)據(jù)和離線數(shù)據(jù)分別建立索引庫(kù),到時(shí)可以通過(guò)索引庫(kù)的選擇來(lái)控制對(duì)哪些性質(zhì)的數(shù)據(jù)進(jìn)行

15、搜索;支持萬(wàn)用字符(*、?)查詢。使用者可查詢部分關(guān)鍵字及*(代表多于一個(gè)字)或?(代表一個(gè)字)的組合。例如:輸入關(guān)鍵詞【Chin*】,會(huì)找到【China】、【Chine】、Chinese】等等。輸入關(guān)鍵詞【Chin?】,會(huì)找到【China】;搜尋條件具有完整的布爾邏輯運(yùn)算AND、OR、NOT能力,支持復(fù)合式布爾邏輯運(yùn)算查詢,并且可以配合多組左括號(hào)(與右括號(hào))作關(guān)鍵詞查詢優(yōu)先級(jí)的設(shè)定,方便查詢者輸入布爾組合之查詢條件;內(nèi)建智能型快速響應(yīng)模式(Smartcache)機(jī)制,可以提供同一種查詢條件之重復(fù)使用率,提高系統(tǒng)資源的效益。Cache儲(chǔ)存目錄記錄了Cache檔案所要放置的地址,經(jīng)查詢過(guò)的資料或

16、畫面,第二次再進(jìn)入時(shí),可重復(fù)使用第一次查詢結(jié)果;支持/多字段/多條件檢索,提高搜索精確度;單一字段內(nèi),支持AND/OR/NOT邏輯條件,且支持括號(hào)方式來(lái)提供條件優(yōu)先權(quán)。多字段條件間,支持AND/OR/NOT邏輯條件;索引庫(kù):全選陛不選查詢關(guān)鍵詞中國(guó)申博1中國(guó)申博曲ZJ廠主題查詢堤兗重設(shè)底可以即書訥字杵串中應(yīng)耳淨(jìng)憩拉篡沖號(hào)應(yīng)英龍丁陽(yáng)二沖:|表示0K&表尋MD.!表示NOT,*/英交方用字捋WFW7型枚小名:類修大頃件吉碼件芒件標(biāo)文作編文最文廠分見(jiàn)工件區(qū)出吃廠疋卷鳳(W也河新聞數(shù)摳片(LE)知識(shí)營(yíng)煜吐明7Lre;eSitr.pliiec(GE2?1j)二h【i;:iLiErLWindm;j二Inu

17、ll-nul訕心丄12?3MB吏詢獵耒設(shè)疋;軒帀忌正結(jié)丟敷:Unicode、UTF-8、EUC-JP、Shift-JIS,并支持以Unicode同時(shí)輸入多國(guó)語(yǔ)系條件進(jìn)行搜尋。-r仔TrMi*“蘭親SKiiiri獰*亍JapaneseTraditionalChineseSimplifiedChineseK.nH!P|軒=?S#-4l?t:TT:i(TflfPIET-可出曰t!牛才LdSSfllXMHAi附皚HEJ3015;*OKI114512巴EhM3E?SEOISWIKDiSJSI斗酉OIWE=WTI+2.2HSt!畑冷TIH跑卅8打巴H自4l禍LlaFEElQl丄EH124鑒0DIS早蟲(chóng)匸卩

18、I目EE基耳1E同個(gè)數(shù)據(jù)表或一條數(shù)據(jù)庫(kù)記錄中可以支持多國(guó)語(yǔ)言混排內(nèi)容;|ITlL甜耐加口f:詹比tlJ(辭dOWtLD申曰由BU-*!:彈晉ng呂卜比7如”空j謂音抄:號(hào)洌nwhS9W42!4n.L+Ftiii-dWORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料一個(gè)索引數(shù)據(jù)庫(kù)可以存在多國(guó)語(yǔ)言的不同數(shù)據(jù);可以輸入多國(guó)語(yǔ)言的檢索條件,并使用AND、0R、NOT邏輯關(guān)系;檢索結(jié)果中可以同時(shí)顯示多國(guó)語(yǔ)言記錄;搭配多國(guó)語(yǔ)言同義詞庫(kù),可以通過(guò)單一語(yǔ)言條件,得到多國(guó)語(yǔ)言檢索結(jié)果;154中英文模糊搜索查詢功能內(nèi)建中英文容錯(cuò)(Fuzzy)查詢功能。中英文容錯(cuò)功能FuzzySearch,基于文

19、字特性,很多專有名詞及詞匯依情況不同,也許衍生出通用的簡(jiǎn)稱,或是文字次序?qū)φ{(diào)。也有可能因?yàn)槟:幻鞔_的意象,使用者希望只需要輸入一個(gè)關(guān)鍵詞,就能一并查詢性質(zhì)類似或相關(guān)之信息。比如:輸入MobileNetwork可查到MobileApplianceNetwork等特定距離的詞句、輸入產(chǎn)業(yè)研究可查到產(chǎn)業(yè)結(jié)構(gòu)研究、產(chǎn)業(yè).研究等,擴(kuò)展搜尋的完整性。1.5.5近似概念詞庫(kù)輔助查詢功能可針對(duì)不同的索引庫(kù)設(shè)定同義詞組。如設(shè)定電腦$Computer$計(jì)算機(jī)為同義詞側(cè)使用者可搜索“電腦”時(shí),可同時(shí)查到含有“Computer”或“計(jì)算機(jī)”的信息。WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料

20、LiH申哮炳局易斤一丫I.壻的中國(guó)-l,去岡尸欝幵爐了二販山“用市:14活:更美奸”的陳述亠在當(dāng)抱時(shí)間任別時(shí)比京時(shí)間19:30眄中國(guó)代奩團(tuán)幵皓進(jìn)行長(zhǎng)度約如吩鐘前件直*屮曰曰一目-弋去13鮎旨言古詼譏為1H曰旺汪國(guó)丁住昊建如醫(yī)涪院刃三筑屮頁(yè)疳E務(wù)交貝云泯,上每千帀喪書記.帀七你工亍”口.曰期作咅:大卜:二幻滬世博會(huì)詵址-方年,走江秀叼變號(hào)沖國(guó)申博)力蘭可訐沖BI才氏消息麻匕弩.凹)日一地處荷工汜片的仲醫(yī)近代兒一一”一一已百電二歷丈蒞江南說(shuō)獄戻寸總可尢一前鑼該國(guó)無(wú)M司員工共巨雙反中甚感及。恨霑m-中國(guó)口井世悻盤戊功后江丙楚船-廠址址將衣大世博園加一奇;n百臨祀遷出運(yùn),t司員工紋幼衣尺芒二匚(工土稱

21、E向吐齊烝示訂嶄斯Eli每刖三阿,也七要四刁ft?上弄斫吟現(xiàn)代化的富于做心競(jìng)爭(zhēng)力的新江亂在今日的腔司超申博戒功丈令上,盤司童事疋F.T,產(chǎn);審工蕨岸共刁空:慶曲時(shí)悵,l.niri-百三十4年厲史抽中國(guó)篦一1肢門,日期.岸杳.丈小.it-X1S-以Web網(wǎng)頁(yè)形式呈現(xiàn)查詢結(jié)果,使用者可指定所欲察看的特定筆數(shù)或分頁(yè)瀏覽。支持二次搜索功能。提供屬性字段權(quán)重排序機(jī)制,管理者可自訂查詢結(jié)果的排序規(guī)則,讓搜尋結(jié)果按搜索者的意圖顯示。提供樹(shù)形分類目錄,提供查詢結(jié)果分類,可以讓使用者進(jìn)一步選取下一層目錄,以縮小查詢范圍。具有標(biāo)示原文關(guān)鍵詞功能,可以直接將原文中有關(guān)使用者輸入得關(guān)鍵詞全數(shù)標(biāo)示出來(lái),同時(shí)系統(tǒng)管理者可

22、以自行設(shè)定關(guān)鍵詞標(biāo)示的顏色、大小、字型.等屬性。docKcy:FTTILE2中國(guó)申博代表團(tuán)開(kāi)始逍行陳述戒帀”為主題區(qū))Tr;:l中國(guó)新聞社TextFAUTHOR:Ti-:i匚新出J月W1電匡乖展比局華:乜貢乂去=|前円斤庫(kù)體號(hào)吏料:洛和格硃亙旦仝議宮皮埃爾E子廳進(jìn)行申博陳也最后-個(gè)上場(chǎng)的中國(guó)代表團(tuán)已經(jīng)開(kāi)始了主題為城讓生活更美好”的陳述。在當(dāng)?shù)貢r(shí)間恪孔時(shí)対諒時(shí)間19別時(shí))中國(guó)代表團(tuán)開(kāi)始迸行長(zhǎng)度釣対孔分智的陳述。中國(guó)申博代議團(tuán)的發(fā)言者像次対;申國(guó)駐法匡人便癸建叨.國(guó)務(wù)院魚(yú)忌芒爺丸詩(shī).匡奔委另貝悅,上塢市市委書記.if忙味艮宇-中M丄垢即心主豐題M我市,i上空活更角二這是七薄仝方史丄年空出現(xiàn)“城市占

23、主題.也是全世界都在熱切關(guān)注的話題。中國(guó)申博慎表因認(rèn)為,隨負(fù)殳賢速啟題K述頭日世=車旳城市病ZE匹為首七畀各也的、Th為了耳起入忙對(duì)云未城市丸韻皓種恵亂中匡遠(yuǎn)擇了T嘩引趕廣吃具嗎的主題.址豈一個(gè)交流的機(jī)會(huì).激起對(duì)諸如如何治理城帀弊病、如何創(chuàng)立更多的就業(yè)機(jī)會(huì)、如何改善城巾三沽亙量尋卜|越展出誼茉A匪討必巨BIT裁巾左展旳先囲:圭劭加生態(tài)亞城市.可特續(xù)城帀.數(shù)字化規(guī)亡爭(zhēng),匸展示現(xiàn)代城市乂叨左城市瓶劃勺查詢結(jié)果可同時(shí)顯示文件抬頭及重要摘要段落或者僅僅顯示文件抬頭以加快使用者的查詢速度。開(kāi)發(fā)搜索接口,用戶可根據(jù)開(kāi)發(fā)的SDK自己開(kāi)發(fā)特定形式和顯示風(fēng)格的搜索結(jié)果頁(yè)面。1.5.8自然語(yǔ)言應(yīng)用組件利用自然語(yǔ)言

24、的形似相關(guān)詞功能,可對(duì)數(shù)據(jù)擷取內(nèi)容進(jìn)行新詞學(xué)習(xí),語(yǔ)意分析等,可自動(dòng)建立新詞,提升數(shù)據(jù)處理準(zhǔn)確度?;谧匀徽Z(yǔ)言應(yīng)用組件,可實(shí)現(xiàn)相關(guān)文章查詢功能、重復(fù)文章查詢功能、自動(dòng)摘要功能、語(yǔ)意查詢功能、形似相關(guān)詞建議功能等。從而能夠通過(guò)關(guān)聯(lián)組織的方式,把不同檔案庫(kù)中的相似、相關(guān)內(nèi)容一次性的搜索出來(lái)。相關(guān)文件查詢Key:214DB-News中國(guó)申博代表團(tuán)開(kāi)始進(jìn)行陳述“城市為主題(圖)中國(guó)新聞社中新網(wǎng)12月汨電國(guó)際展覽局第1充次大會(huì)目前仍在摩洛哥蒙特卡洛的格林馬迪會(huì)議宮皮埃爾王子廳進(jìn)行申博陳述。城市,讓生活更美好。這是世博會(huì)歷史上第一次岀現(xiàn)“城市主題,創(chuàng)造一個(gè)交流的機(jī)會(huì),激起對(duì)諸如如何治理城市弊病、如何創(chuàng)立更多

25、的就業(yè)機(jī)會(huì)、如何改善城市生活質(zhì)量等問(wèn)題展開(kāi)廣泛深入的討論。并展示現(xiàn)代城市文明在城市規(guī)劃與管理、科學(xué)、技術(shù)、文化和生活方式等方面的成果。場(chǎng)地所在及周邊區(qū)域集中反映了幾百年來(lái)上海城市發(fā)展的歷程。在景觀上互相協(xié)調(diào)。世博會(huì)各場(chǎng)館的布局將充分考慮到參觀者到達(dá)的便利性,在這條象征人類前進(jìn)腳歩的神奇橋梁上,No.TitleKelevanceDB:Files|News|Tornado|KMShareTotal:36IIIIIIIIIIIIIIIIIIIII57.73%IIIIIIIIIIIIIIIIIIIII53.76%李嵐清陳良宇吳儀為中國(guó)申辦世博會(huì)的陳述文申辦世界博覽會(huì)成功后上海人最關(guān)注十個(gè)問(wèn)題快訊:上海

26、獲得2010年世博會(huì)主辦權(quán)IIIIIIIIIIIIIIIIIIIII46.39%IIIIIIIIIIIIIIIIIIIII40-10%5.快訊:中國(guó)高官莊嚴(yán)承諾世博主辦權(quán)志在必得IIIIIIIIIIIIIIIIIIIII39-72%&滬世博會(huì)選址-百年老江南“欲變身IIIIIIIIIIIIIIIIIIIII3S-30%4.快訊:中國(guó)高官作出莊嚴(yán)承諾為世博選票最后一搏文章自動(dòng)摘要Key214DB-NewsAhEtmcrinii:中國(guó)申葷弋表團(tuán)尸站起斤臥迂“城方為主題阿畔國(guó)訪聞社中新州吐汨電國(guó)斷展反局削憲既.心=1飾乃亓華略哥篆標(biāo)C洛笛籽林曰:由并展宮皮圧不干子斤卅冇f博煉休-城H.1.1牛污更美

27、軒、込是主書臺(tái)方出上篦一氏出現(xiàn)“城門三題,創(chuàng)適一個(gè)交流筆機(jī)合,驗(yàn)匕燈因厲k何活莊城下逮病、如訐劃立更多的就業(yè)機(jī)含、如何改言城方生活質(zhì)量年巨題展開(kāi)廣泛貳入的討論。打壓示現(xiàn)弋拒卞丈明產(chǎn)城市如劃u管專.科蘭、技久、戈代班?;盍κ襟牧Ρ獾子?場(chǎng)廿所布疋丐溝區(qū)域策屮瓦映丁匚白年米上冉城白發(fā)展的廳程”心景覘上互相協(xié)i月.世博訂各場(chǎng)館的布局馮克分卑慮刃爲(wèi)賓舌劉注的利性,.在這殺茅彳止人交前壬腳步的袒奇忻梁上,Percentage:|UefaULtTSentEncesize:|DpfauJtTCharactersize:|口航1TWeight:|DefaultT1.5.9自動(dòng)分類應(yīng)用組件搭配自動(dòng)分類組件,可

28、對(duì)擷取數(shù)據(jù)進(jìn)行分類,并可輔以導(dǎo)覽式分類組件與搜尋組件進(jìn)行整合,即可逐一依類別篩檢過(guò)濾資料,并顯示類別內(nèi)符合資料。導(dǎo)覽式分類栩關(guān)分霸目錄:栢關(guān)毎須目錄市場(chǎng)昔報(bào)(514)產(chǎn)品(386)客戸(382)-解決方案(373)-TornadoSearchf21-攥勢(shì)(154)-競(jìng)爭(zhēng)者分析(160)-BlRadar(162)-財(cái)政部(66)-產(chǎn)業(yè)消息(114)-IRMS(137)-畫子時(shí)報(bào)(56)more,.more.more.議爭(zhēng)者325)翳徉(320)訐銷資料(170)-Verity陽(yáng)-ISM32、-數(shù)育訓(xùn)純(140)-網(wǎng)擎OpenFind(75)-潔謫(50)-成功案例(14)-Inktomi(490

29、-亞太(50)-令司背員(9)more,.more.more.it區(qū)(70)Case首理(30)部門(26)-國(guó)外(68)-文件格式(26)-PSD(14)-大陸(8)-合約(15)-SMD(120-臺(tái)灣-往來(lái)信件(1)more,.more.Q查詢字串:按索i)共我到1,2第筆豊料,有200可供瀏覽.(此次按尋共花了1亂秒.)文件霸型:國(guó)耐匪文件類型:瞠皙暫箸畀屆艇國(guó)觀勻自動(dòng)分類關(guān)健手查詢:搜索|查詢丨進(jìn)階奩詢厚負(fù)掩祝:惜料陳刊HSAIcirriQcoSEXch:1生-m肌曲丨斶-IF”f17門-F_F:48)Wqmsi-tir:FilW-C33).nfcFe日汁i,22Ca*c菅晝-弍i7b

30、;合約2-件味信件Dmin7教肓訓(xùn)糜1斗昭-H取-蟲(chóng)詞青豆9)6於此搜尋結(jié)呆內(nèi)按尋廣於此廿類下搜尋o搜尋所有分類)亙?cè)冇畲簲R索i)艾戎甄爭(zhēng)宜杜,有酣。查宜枚可炭劉藍(lán).此汶搜尋托芯了1.力秒J文I幡型卜拎匸丈件無(wú)型:繪筍皙四窗唇屆晶孚津越土魚(yú)詢?cè)懝?|I|2|LIIIIINertWt林IT?ttl:2J:甘序:擋案日期工|曲:到小三MKL(0(VT究)r咋咅:H卜網(wǎng)乃丄翁第五章中小企業(yè)市塌廳銷現(xiàn)況(研究,調(diào)查)國(guó)穴育戊中4:的功韮亙耳球門世質(zhì),際r創(chuàng)栄垢苛之惻堆對(duì)亦發(fā)創(chuàng)新也是寺成攜制中延亙要壘-塩,為配合墳?zāi)w鼓助半小主業(yè)淮訂產(chǎn)業(yè)拉丙與窿品刖靳肝沉的吧弟目瞟,備育戒屮心唾才忸助誠(chéng)匸啟趾新覷中屮企

31、釜朋麥新玄用拒魏計(jì)畫CSBIR-IJISS,眇干怎例,右成中1工軸助辛舌申詣上希寺帀篙祎北的計(jì)吉共石須畔,樹(shù)中-卜咋辛出條膽皆的艷尸右S筈旳旳益.311:20C905?r咋若:7t-:9990;1.5.10高效數(shù)據(jù)同步功能(增量索引)以前的全文搜索引擎在面對(duì)大資料量建立索引時(shí),都會(huì)限制數(shù)據(jù)量的多少,而解決這個(gè)問(wèn)題通常都是將資料量分為幾個(gè)部分分開(kāi)建索引。但是這種方法并無(wú)WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料法徹底解決資料同步更新或檢索的需求。本系統(tǒng)提供漸進(jìn)式索引技術(shù),也就是通過(guò)增量索引機(jī)制可以逐步地分別為數(shù)據(jù)庫(kù)建立索引,對(duì)于異動(dòng)的數(shù)據(jù)或索引,進(jìn)行實(shí)時(shí)的更新。1.5.

32、11高可用性備上,讓備用機(jī)共享其索引數(shù)據(jù),使全文檢索服務(wù)可以正常運(yùn)行。1.5.12可擴(kuò)充性:本系統(tǒng)可依不同需求擴(kuò)張,分類,自然語(yǔ)言,數(shù)據(jù)適配器等組件,更可置換其關(guān)鍵性應(yīng)用組件,例如:企業(yè)已使用其它分類組件,透過(guò)本系統(tǒng)提供之SDK,可取代原本之分類應(yīng)用組件,且不會(huì)影響原本服務(wù)機(jī)制。1.6大數(shù)據(jù)量全文檢索解決方案當(dāng)需要建立索引的數(shù)據(jù)量達(dá)到上千萬(wàn)條時(shí)(大概上百個(gè)G),單個(gè)服務(wù)器檢索系統(tǒng)在性能方面是不可能得到保證的,這時(shí)候查詢一條信息所需要的時(shí)間已經(jīng)遠(yuǎn)遠(yuǎn)超出了使用者的容忍范圍,所以為保證全文檢索系統(tǒng)的高性能特點(diǎn),使用多臺(tái)檢索服務(wù)器機(jī)群來(lái)實(shí)施分布式檢索成為當(dāng)務(wù)之急!1.6.1大數(shù)據(jù)量全文檢索構(gòu)架圖如圖所

33、示,應(yīng)用系統(tǒng)的所有資料分散的部署到各個(gè)索引服務(wù)器上建立索引,之后把索引好的數(shù)據(jù)存儲(chǔ)到索引庫(kù)中,用戶發(fā)出一個(gè)搜索請(qǐng)求后,龍卷風(fēng)大數(shù)據(jù)量分布式檢索系統(tǒng)通過(guò)SOAP機(jī)制把搜索請(qǐng)求發(fā)送給索引服務(wù)器,然后接收到搜索請(qǐng)求的服務(wù)器會(huì)去到索引庫(kù)中把搜索者所需資料查找出來(lái)并且把所有查詢結(jié)果合并到一起通過(guò)用戶設(shè)定的排序方式在前端搜索頁(yè)面上顯示出來(lái)。在此期間,用戶發(fā)送搜索請(qǐng)求后,機(jī)群索引調(diào)度服務(wù)會(huì)根據(jù)索引服務(wù)器狀態(tài)表把搜索請(qǐng)求發(fā)給空閑的服務(wù)器,充分利用整個(gè)系統(tǒng)的每一分資源。1.6.2分布式技術(shù)優(yōu)勢(shì)多種數(shù)據(jù)庫(kù)信息統(tǒng)一建立索引,支持對(duì)數(shù)據(jù)庫(kù)的文件附件索引,無(wú)需對(duì)數(shù)據(jù)源進(jìn)行任何改動(dòng);支持T級(jí)總量數(shù)據(jù),每天G級(jí)的增量數(shù)據(jù)實(shí)

34、現(xiàn)秒級(jí)數(shù)據(jù)檢索,并且索引延遲時(shí)間保證在1小時(shí)以內(nèi),即實(shí)現(xiàn)用戶對(duì)每天更新數(shù)據(jù)能夠及時(shí)查詢,還能保證T級(jí)歷史數(shù)據(jù)的快速查詢;整個(gè)系統(tǒng)具有靈活的擴(kuò)展性,在系統(tǒng)應(yīng)用過(guò)程中,隨著用戶需檢索數(shù)據(jù)量的增加,可通過(guò)擴(kuò)展索引服務(wù)器和查詢服務(wù)器集群高性價(jià)比平滑升級(jí),已經(jīng)索引過(guò)的數(shù)據(jù)和原有系統(tǒng)的穩(wěn)定性不受影響;高并發(fā)用戶訪問(wèn)量支持;1.7搜索的權(quán)限控制IRMS提供的信息搜索并非是指人人皆可隨意搜索到任何信息,而是依照組織中的角色,讓搜索者只能搜索自己權(quán)限范圍內(nèi)的信息,而無(wú)權(quán)限訪問(wèn)的記錄是不會(huì)被搜索出來(lái)的。IRMS權(quán)限控制主要實(shí)現(xiàn):保證存取信息的安全性有該文件讀取權(quán)的人或群組,才有可能查詢到此一文件無(wú)該文件讀取權(quán)的人

35、或群組,不會(huì)知道有哪些無(wú)權(quán)讀取的文件存在如果每個(gè)人或群組文件的讀取權(quán)不同,查詢結(jié)果集就會(huì)不同1.7.1搜索系統(tǒng)和應(yīng)用系統(tǒng)權(quán)限整合方法針對(duì)不同的應(yīng)用及特定的權(quán)限規(guī)則,有多種方式可以實(shí)現(xiàn)IRMS搜索系統(tǒng)和應(yīng)用系統(tǒng)的權(quán)限整合。主要方法包括:1、分索引庫(kù)法:此種方法適用于權(quán)限較簡(jiǎn)單,并且權(quán)限可以歸為幾大類的應(yīng)用。如用戶組分為公司領(lǐng)導(dǎo)組、部門經(jīng)理組、普通員工組,每組用戶WORD格式整理版WORD格式整理版專業(yè)學(xué)習(xí)參考資料專業(yè)學(xué)習(xí)參考資料內(nèi)部權(quán)限相同,組之間才有權(quán)限差異。針對(duì)此種應(yīng)用,可以分別針對(duì)不用的用戶組創(chuàng)建不同的索引庫(kù),分別放置于Group_for公司領(lǐng)導(dǎo)、Group_for部門經(jīng)理、Group_f

36、or_普通員工。搜索時(shí),首先判斷用戶所在何用戶組,針對(duì)不同的用戶組再定向到不同的搜索庫(kù)中去全文檢索。2、特殊屬性過(guò)濾法:此種方法適用于信息資料源單一,并且有一特殊屬性字段可以判斷用戶權(quán)限的情況。如數(shù)據(jù)庫(kù)全文搜索時(shí),有一字段值為授權(quán)訪問(wèn)該記錄的所有用戶或組。針對(duì)此種特殊情況,可以選擇使用多字段屬性過(guò)濾的方法,在搜索頁(yè)面提交搜索請(qǐng)求后,使用該特殊屬性字段過(guò)濾最終的搜索結(jié)果。3、搜索結(jié)果過(guò)濾法:用戶提交搜索后,搜索引擎搜索時(shí)并不帶入權(quán)限信息,只是在搜索結(jié)果顯示時(shí),使用應(yīng)用系統(tǒng)的權(quán)限規(guī)則來(lái)過(guò)濾搜索結(jié)果,并將符合該用戶權(quán)限范圍內(nèi)的信息顯示給搜索者。4、內(nèi)建權(quán)限規(guī)則法:搜索系統(tǒng)內(nèi)建權(quán)限規(guī)則,管理員根據(jù)搜索

37、信息來(lái)源的適用環(huán)境優(yōu)點(diǎn)缺點(diǎn)權(quán)限規(guī)則定制搜索系統(tǒng)的權(quán)限規(guī)則,用戶提交的搜索請(qǐng)求搜索系統(tǒng)經(jīng)過(guò)權(quán)限過(guò)濾后再反饋給搜索者。5、導(dǎo)入權(quán)限規(guī)則法:搜索系統(tǒng)不內(nèi)建權(quán)限系統(tǒng),但提供權(quán)限導(dǎo)入機(jī)制。用戶將應(yīng)用系統(tǒng)的權(quán)限規(guī)則標(biāo)準(zhǔn)化后,通過(guò)搜索系統(tǒng)的API導(dǎo)入到搜索系統(tǒng)中。用戶提交搜索請(qǐng)求,搜索系統(tǒng)經(jīng)過(guò)權(quán)限過(guò)濾后再反饋給搜索者。各種方法的比較:分索引庫(kù)法權(quán)限較簡(jiǎn)單,并且權(quán)限可以歸為幾大類的應(yīng)用部署簡(jiǎn)單適用范圍小特殊屬性信息資料源單一,并且部署簡(jiǎn)單適用范圍小過(guò)濾法有一特殊屬性字段可以判斷用戶權(quán)限的情況搜索結(jié)果應(yīng)用系統(tǒng)權(quán)限判斷用時(shí)部署簡(jiǎn)單應(yīng)用系統(tǒng)權(quán)限規(guī)則過(guò)濾法少?gòu)?fù)雜時(shí),搜索結(jié)果權(quán)限判斷將很花時(shí)間,致使搜索結(jié)果顯示速度慢內(nèi)

38、建權(quán)限大部分應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在搜管理員需要為搜索規(guī)則法索系統(tǒng)中,搜索速系統(tǒng)索引庫(kù)中的每度和顯示速度快筆記錄分配權(quán)限,工作復(fù)雜導(dǎo)入權(quán)限大部分應(yīng)用系統(tǒng)權(quán)限系統(tǒng)內(nèi)嵌在搜需要將應(yīng)用系統(tǒng)權(quán)規(guī)則法索系統(tǒng)中,搜索速限規(guī)則導(dǎo)出為特定度和顯示速度快。格式。但一旦確定模支持批量導(dǎo)入機(jī)制式,則可重復(fù)使用按照以上搜索系統(tǒng)權(quán)限整合分析,此次應(yīng)用系統(tǒng)涉及的搜索信息來(lái)源所包括的Documentum、OA及其它應(yīng)用系統(tǒng)都有各自的權(quán)限規(guī)則,應(yīng)采用第四或第五種權(quán)限整合方法。IRMS全文檢索系統(tǒng)支持第五種權(quán)限整合方法,它的主要特點(diǎn)包括:支持實(shí)時(shí)權(quán)限信息導(dǎo)入和定時(shí)權(quán)限信息導(dǎo)入,用戶現(xiàn)有權(quán)限規(guī)則不用做任何改動(dòng);支持使用XMLExp

39、ort與Import的機(jī)制提供信息內(nèi)容權(quán)限控管的整合接口;支持權(quán)限信息導(dǎo)出為XML文件后,再批量XML文件導(dǎo)入的功能;提供權(quán)限組件及SDK,可單獨(dú)操作權(quán)限組件進(jìn)行不同的權(quán)限系統(tǒng)整合;利用XML進(jìn)行權(quán)限整合描述,和其它系統(tǒng)的權(quán)限架構(gòu)做整合。整合后,不同的權(quán)限使用者使用搜尋引擎、自然語(yǔ)言等應(yīng)用組件時(shí),將得到符合各自權(quán)限的數(shù)據(jù);權(quán)限規(guī)則與IRMS可以完全分離,增加可重用性。1.7.2IRMS和Domino權(quán)限整合實(shí)例龍卷風(fēng)公司已經(jīng)開(kāi)發(fā)出成熟的Domino適配器,實(shí)現(xiàn)將Domino中的文檔建立索引,實(shí)現(xiàn)全文檢索。通過(guò)管理界面設(shè)定需要如何連接DominoNSF數(shù)據(jù)庫(kù),同時(shí)設(shè)定索引哪個(gè)View或表及其它信息。IRMSDominoComposer通過(guò)以上配置實(shí)現(xiàn)從Domino中提取文檔內(nèi)容,創(chuàng)建索引。IRMSPlatformNotesComposerSearchIndexDBIndexerIndexDBDisk/Storage1ILAN(DataSource)DominoNSFForm/ViewLotusNotes(Client):LotusNotes;ComponentInterface

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論