




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1.1.1全文檢索系統(tǒng)結(jié)構(gòu)根據(jù)全文檢索技術(shù)和實現(xiàn)方法,結(jié)合需求,檢索系統(tǒng)由以下三個部分組成:TRS全文數(shù)據(jù)庫系統(tǒng)(TRSDatabaseServer)TRS全文檢索網(wǎng)關(guān)(TRSGateway)TRS信息發(fā)布應(yīng)用服務(wù)器系統(tǒng)(TRSWAS)TRS全文數(shù)據(jù)庫系統(tǒng)(TRSDatabaseServe解用TRS具有國際領(lǐng)先水平的信息檢索和中文自然語言處理研究成果,具有傲視群雄的檢索效果和查詢性能,核心功能是對結(jié)構(gòu)化和非結(jié)構(gòu)化信息提供全文檢索功能。主要特點包括:異構(gòu)海量數(shù)據(jù)統(tǒng)一管理,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索NativeXML內(nèi)核, 實現(xiàn)全息檢索智能輔助檢索, 支持知識挖掘精確計算,檢索速度和準確性共達最
2、優(yōu)動態(tài)索引實時更新,面向事務(wù)處理支持Unicode編碼,提供多語種查詢引擎多級機制保障,信息采集和檢索高度安全集群檢索,保證高可靠性,隨需輕松擴展規(guī)模TRS全文數(shù)據(jù)庫系統(tǒng)(TRSDatabaseServe阻過TRS全文檢索網(wǎng)關(guān),可以實現(xiàn)對關(guān)系數(shù)據(jù)庫中文本對象字段的全文檢索。TRS內(nèi)容分發(fā)服務(wù)器系統(tǒng)提供將數(shù)據(jù)庫中的信息動態(tài)發(fā)布到Web服務(wù)器上,以為平臺用戶檢索使用。全文檢索系統(tǒng)架構(gòu)圖如下所示:全文檢索系統(tǒng)架構(gòu)圖1.1.2全文檢索網(wǎng)關(guān)TRS全文檢索系統(tǒng)采用開放的三層體系架構(gòu)設(shè)計,整個系統(tǒng)基于主流的操作系統(tǒng)。數(shù)據(jù)層主要為關(guān)系型數(shù)據(jù)庫和TRS全文數(shù)據(jù)庫,關(guān)系型數(shù)據(jù)庫主要進行存儲和管理,而全文數(shù)據(jù)庫實現(xiàn)
3、檢索, 利用TRSGateway可以將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)在TRS全文數(shù)據(jù)庫中建立全文索引,以實現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全文檢索。TRS全文數(shù)據(jù)庫是TRS公司自主研發(fā)的具有知識產(chǎn)權(quán)的產(chǎn)品,為了能夠更好的提供全文檢索和智能檢索等應(yīng)用功能,它其中包括多種詞典支持:分詞詞典、主題詞典、停用詞典等。應(yīng)用層主要依據(jù)TRS全文數(shù)據(jù)庫提供的全文檢索功能實現(xiàn)平臺所需的檢索需求,并為表現(xiàn)層提供檢索服務(wù)。這層可以根據(jù)具體需求利用TRS提供的豐富開發(fā)接口實現(xiàn)全文檢索應(yīng)用。表現(xiàn)層主要為平臺管理人員和最終用戶提供數(shù)據(jù)庫檢索和網(wǎng)頁檢索等。北京市技術(shù)標準在線服務(wù)平臺的大部分業(yè)務(wù)應(yīng)用都是基于關(guān)系數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫(RDBMS擅
4、長于結(jié)構(gòu)化數(shù)據(jù)的事務(wù)處理和關(guān)系運算,但是對長文本以及非結(jié)構(gòu)化大對象文本缺乏有效的檢索手段,而TRS全文數(shù)據(jù)庫對非結(jié)構(gòu)化文本對象具有出色的管理和檢索功能。為了實現(xiàn)對關(guān)系數(shù)據(jù)庫中信息的高效全面檢索,針對這部分數(shù)據(jù),需要將其進行統(tǒng)一采集和統(tǒng)一的檢索服務(wù)。這種方式的采集不需人工干預(yù),完全采用自動化采集方式。為了真正、全面的實現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化信息的全文檢索,在全文檢索設(shè)計中,采用TRS全文檢索網(wǎng)關(guān)(TRSGateway)實現(xiàn)關(guān)系型數(shù)據(jù)庫數(shù)據(jù)全文檢索功能。TRS全文檢索網(wǎng)關(guān)(TRSGateway)是由北京拓爾思信息技術(shù)有限公司和五大關(guān)系型數(shù)據(jù)庫廠商Oracle、Sybase、舊M、Informix、Mi
5、crosoft鼎力合作,共同推出的實現(xiàn)TRS數(shù)據(jù)與主流關(guān)系型數(shù)據(jù)庫SQLServer、OracleSybase、DB2Informix數(shù)據(jù)之間進行數(shù)據(jù)遷移的工具。該工具實現(xiàn)了RDBMSTTRSr文數(shù)據(jù)庫之間數(shù)據(jù)共享,使用戶在享有RDBMSS越的數(shù)據(jù)處理功能的同時,擁有TRS優(yōu)秀的全文檢索功能。關(guān)系數(shù)據(jù)Web用戶DBCfA口口接口應(yīng)用服務(wù)器,如:TRSWASMicrosoftIISIBMWebsphereBEAWebLoigcOracleiAS等檢索遺輯TRSRDBMSGateway關(guān)系數(shù)據(jù)庫TRSADOTRSJmvabeans接口全文索引系統(tǒng)特點:TRSGateway采用可視化的管理與配置工具
6、使系統(tǒng)簡單易用,輕松實現(xiàn)信息管理。 用戶只需要按步跟隨“任務(wù)創(chuàng)建向?qū)А钡奶崾揪涂梢詣?chuàng)建更新任務(wù),智能化定時運行工具,全面實現(xiàn)工作的無人監(jiān)管:可設(shè)置的定時執(zhí)行任務(wù):對創(chuàng)建好的任務(wù),用戶可以設(shè)置其自動定時執(zhí)行。如:用戶可以設(shè)置一個增量更新任務(wù)每隔30分鐘執(zhí)行一次,意即每隔30分鐘將用戶對RDBMS據(jù)庫表中數(shù)據(jù)的修改向TRS文數(shù)據(jù)庫中進行一次索引的更新。高度自動化的定時執(zhí)行功能使用戶不必手動進行數(shù)據(jù)索引的更新操作,只需啟動TRS*Agent即可自動定時執(zhí)行。實時查看和修改任務(wù)的各種屬性:對任何一個創(chuàng)建好的任務(wù),用戶可以查看應(yīng)用向?qū)渲眠B接關(guān)系數(shù)據(jù)庫及TRSa據(jù)庫1盤對圣話與日棄對量字片的澗異啰翌思審
7、牒據(jù)皤系震耳理己,匹配采用施國的邠苴,如果兩字段不匹則J光標源數(shù)據(jù)庫宇段目標豹據(jù)庫宇段rnJir字段名_J類型出5IUIU字段名J類全11Siid1T2瞿3u_3.niam.v盯ch”4lT353au_fndfriA例&14HphoqiaickurI:T5-5叱事 WWVATcjlAT4lS3TJau_idBI7*T2au2lnwaCK1U1S3T3au-fnamACJUJL飄14phsuftCK1UI箭T5w&ir.備*CKlUiSBcityw列ISCityCHAASTTTtataCKAA宛TOzipCHU制T9cotntractHUHBERTIQrowiJCKU115Tci
8、tAfT0旦日sip5T95mibi11Jd_LL1按目標皿11上一番里”下一步也)”取消I應(yīng)用向?qū)渲迷幢砗湍繕吮硪约白侄螌?yīng)關(guān)系關(guān)系數(shù)據(jù)庫與TRS全文數(shù)據(jù)庫之間的數(shù)據(jù)更新方式支持:完全更新執(zhí)行任務(wù)時,先將指定的目標數(shù)據(jù)庫表中的內(nèi)容清空,然后將源數(shù)據(jù)庫表中所有符合條件的數(shù)據(jù)遷移到目標數(shù)據(jù)庫中。適用第一次遷移數(shù)據(jù)。數(shù)據(jù)追加執(zhí)行任務(wù)時,直接將源數(shù)據(jù)庫表中所有符合條件的數(shù)據(jù)遷移到目標數(shù)據(jù)庫中,并不將目標數(shù)據(jù)庫表中的內(nèi)容清空。適用一段時間向目標數(shù)據(jù)庫追加一批數(shù)據(jù)時。增量更新執(zhí)行任務(wù)時,將所有源數(shù)據(jù)庫表中符合條件的更新了的數(shù)據(jù)(指進行了刪除、添加或修改的數(shù)據(jù))遷移到目標數(shù)據(jù)庫中??梢酝ㄟ^設(shè)定定時方式由
9、系統(tǒng)自動執(zhí)行,適用每天有數(shù)據(jù)更新情況。上 f 年)|下一步如I|HliH砧勖送揮振作對期雷嬲廠視圉速擇期微格庫:新建也反I修好Nurxicl遇置規(guī)圉主表二ICLLxLrilavitLan工其屬性,并可修改屬性。器度裾市話適*有*圉設(shè)對靚果整如siJtsiJtl l對主,作的報應(yīng)駕對作如S S舉血的蓑遽庫和和B11313需r可至定庫尸1.1.3TRSWebApplicationServer(TRSWAS)主要由管理控制臺及應(yīng)用端兩部分組成,它主要有以下特點:完全基于 WebWeb 的管理方式管理控制臺完全基于 Web 方式,使管理更加的靈活,真正實現(xiàn)了遠程管理。應(yīng)用端部分同樣是完全基于 Web
10、方式實現(xiàn)。這種架構(gòu)可以靈活的滿足用戶的需求,特別是 ASP 供應(yīng)商??缙脚_的支持由于 TRSWAS4.0 完全采用了基于 Java 的技術(shù)實現(xiàn),也就完全繼承了 Java 跨平臺的特性,一套代碼可以在多個平臺上運行,省除了跨操作系統(tǒng)平臺可能帶來的代碼移植問題。靈活性及安全性的提高TRSWAS4.0 的開發(fā)是完全基于 TRSTagLib 基礎(chǔ)上的。在開發(fā)的過程中,遵循了業(yè)務(wù)邏輯與顯示風(fēng)格控制分開顯示的原則(CVM 方式),將所有的業(yè)務(wù)邏輯封裝在 Servlet 中,完成請求的處理后,將請求轉(zhuǎn)發(fā)到包含了 TRSTagLib 的 JSP 模板頁面中,由此頁面完成最終內(nèi)容的格式化顯示。這種開發(fā)方式最大的
11、優(yōu)點就是靈活性。在頁面表現(xiàn)方面,最終頁面的表現(xiàn)控制由 TRSTagLib 完成,表現(xiàn)為在 JSP 頁面中插入 TRS 置標,修改起來十分的方便,并且業(yè)務(wù)代碼不包含在其中,只需要美工人員就可以很好的完成,大大的減少了維護工作量;而當業(yè)務(wù)邏輯發(fā)生改變時,只需要對涉及到的 Servlet 進行邏輯代碼的修改,完全屏蔽了顯示層,工作量也大幅度的減少,保證了項目快速靈活的實施。支持對 TRSTRS 數(shù)據(jù)庫記錄的增、刪、改操作TRSWAS4.0 實現(xiàn)了在 Web 上對 TRS 數(shù)據(jù)庫中記錄信息的增、刪、改功能。目前修改 TRS 數(shù)據(jù)庫記錄只適用于非二進制字段,增加及刪除則沒有這方面的限制。支持記錄間相關(guān)性
12、的連接,實現(xiàn)相關(guān)新聞的功能TRSWAS4.0 實現(xiàn)了相關(guān)新聞的功能,通過相關(guān)字段,實現(xiàn)了在細覽記錄時獲得與此記錄相關(guān)聯(lián)的記錄,并顯示這些關(guān)聯(lián)記錄的連接。支持對記錄被閱讀次數(shù)的記錄,實現(xiàn)熱門新聞的功能實現(xiàn)了對記錄閱讀次數(shù)的記錄功能,當記錄被細覽一次時,自動將其的閱讀次數(shù)字段加1,通過對閱讀次數(shù)字段的排序,可以實現(xiàn)當前最熱門記錄的功能。提供 TRSTagLibTRSTagLib 二次開發(fā)接口,保證項目快速靈活的實現(xiàn)提供一套 TRSTagLib 置標,以此為開發(fā)接口,可以很迅速靈活的開發(fā)其他應(yīng)用程序,在開發(fā)過程中,顯示部分由嵌入了 TRSTagLib 的 JSP 模板文件來完成,而業(yè)務(wù)邏輯部分可以單
13、獨進行開發(fā),這樣既減少了開發(fā)的復(fù)雜程度,保證任務(wù)的順利完成,又同時確保了客戶各種靈活性的需求得到了保證,最終的開發(fā)及維護工作量都將得到很好的控制。1.1.4TRS 全文檢索系統(tǒng)特點TRS全文檢索以TRS全文數(shù)據(jù)庫系統(tǒng)(TRSDatabaseServer)為核心, 提供功能全面、智能、高性能的全文檢索服務(wù)保證。在當今信息爆炸時代,正確的決策依賴于及時、準確和有效的信息,TRS全文數(shù)據(jù)庫系統(tǒng)突破了傳統(tǒng)全文檢索和網(wǎng)頁搜索引擎的種種局限,是真正基于知識的智能內(nèi)容檢索系統(tǒng)。TRSr文數(shù)據(jù)庫系統(tǒng)主要特點如下:大型數(shù)據(jù)的存儲和管理功能支持中文(簡、繁體)、英文和中英文混合數(shù)據(jù);支持多種索引策略,包括按詞、按
14、字、按用戶自定義關(guān)鍵詞等索引策略,能夠根據(jù)文檔對象的結(jié)構(gòu)屬性建立不同的索引結(jié)構(gòu)以實現(xiàn)面向不同結(jié)構(gòu)文檔的檢索要求;同時支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),支持多種數(shù)據(jù)類型(如日期、字符串、短語、文檔和二進制多媒體類型);支持常用格式文件的入庫和檢索,如TEXTHTMLRTFMSOffice、PDFS2/PS2/PSMARCISO2709等);支持多媒體數(shù)據(jù)的管理;支持多種形式的數(shù)據(jù)存放方式,如集中存放、分散存放或URL方式存放,并且數(shù)據(jù)還可以存放在其他數(shù)據(jù)庫或應(yīng)用系統(tǒng)中;高效的數(shù)據(jù)和索引壓縮,實現(xiàn)了低空間膨脹率(-0.21.0);支持字段的唯一(Unique)特性;支持數(shù)據(jù)庫紀錄的增刪改操作;不同操作
15、系統(tǒng)平臺之間,庫結(jié)構(gòu)自由拷貝,方便管理員操作;管理員可設(shè)置“定時優(yōu)化”的時間,降低系統(tǒng)管理的成本;修改記錄時,保存記錄號的移動軌跡,能夠使用移動前的記錄號讀取記錄,確保數(shù)據(jù)維護的正確和安全;可以方便地對各種詞典進行管理和維護;在32位系統(tǒng)中使用64位文件系統(tǒng)以支持超大規(guī)模的數(shù)據(jù)庫;方便的數(shù)據(jù)備份和恢復(fù)功能;多種格式的數(shù)據(jù)導(dǎo)出功能,可以導(dǎo)出XMLTR彌數(shù)據(jù)類型文件。體系結(jié)構(gòu)分布式體系結(jié)構(gòu),可以建立多個TRSDatabaseServer的集群結(jié)構(gòu),并在應(yīng)用層實現(xiàn)透明訪問;支持數(shù)據(jù)庫一對多的單向鏡像;多線程設(shè)計,支持SM林系結(jié)構(gòu),支持大量并發(fā)用戶訪問;支持三層結(jié)構(gòu)(DataServer、Applic
16、ationServer和Webserver)應(yīng)用,每一層均可擴展??缙脚_支持支持多種硬件平臺:如大型機/小型機/服務(wù)器/PC機;支持多種操作系統(tǒng):如64位和32位的Unix、Linux、WindowsNT/2000;客戶機可以運行在Windows9X、WindowsNTWindows2000、主流WebU覽器上;應(yīng)用層接口和系統(tǒng)支持EJB,采用Java技術(shù)開發(fā),同一套代碼可以運行在異構(gòu)的設(shè)備和操作系統(tǒng)環(huán)境中。對標準化和開放性的支持同時支持Client/Server結(jié)構(gòu)和WebBrowser/WebServer結(jié)構(gòu);支持ANSI主題詞典結(jié)構(gòu)標準;支持ISO2709XML據(jù)格式的輸入、輸出;支持A
17、pacheServerNetscapeEnterpriseServer和MicrosoftIIS等主流Web服務(wù)器;支持J2EE/EJB,Web應(yīng)用服務(wù)器支持主流中間件產(chǎn)品,如IBMWebsphereBEAWeblogic、OracleApplicationServer、Tomcat等;支持NetscapeNavigator和MicrosoftInternetExplorer等主流瀏覽器;支持和主流的五大關(guān)系型數(shù)據(jù)庫管理系統(tǒng)無縫集成,提供分布式和跨平臺的靈活配置方案,支持對關(guān)系型數(shù)據(jù)庫的文本數(shù)據(jù)和大對象類型數(shù)據(jù)的檢索能力;支持多語種:簡體(GBKGB2312GB18030繁體(BIG5)、西文
18、(ASCII)、國際統(tǒng)一碼(Unicode);實時性支持系統(tǒng)能支持對數(shù)據(jù)的增量更新,支持實時的數(shù)據(jù)添加、修改和刪除。中文自然語言處理內(nèi)嵌漢語自動分詞系統(tǒng),并統(tǒng)計建立了大量歧義排除規(guī)則,有效提高了分詞準確性。支持按詞索引、按字索引、按關(guān)鍵詞索引,適應(yīng)不同應(yīng)用環(huán)境的需求;全文檢索功能同時支持Client/Server和WebBrowser/WebServer兩種檢索方式;支持中英文混合檢索;允許使用文中的任意字、詞、句和片段進行檢索;全方位檢索手段:提供了多達48種檢索運算符。包括外部特征與正文內(nèi)容的各種邏輯組合檢索(與、或、非、異或)、位置檢索(同段、同旬、相差幾個字以及前后次序有關(guān)等) 、二次
19、檢索、漸進檢索、歷史檢索、詞根檢索、大小寫敏感檢索、概念檢索、對檢索結(jié)果按與檢索表達式的相關(guān)性和重要性程度排序等,支持分類查詢,針對不同的欄目和子欄目,允許用戶在指定的欄目下查詢,以便獲得更準確的檢索結(jié)果;對數(shù)值、日期等特征字段可以進行比較和范圍檢索;支持任意一致的通配符檢索(模糊檢索);基于成本優(yōu)化的查詢算法(索引分區(qū)技術(shù)、多線程并行運算技術(shù)、Bigram技術(shù)等),使得G級數(shù)據(jù)庫查詢速度達到亞秒級;完善的Cache技術(shù)(包括檢索詞、短語、表達式的一級、二級緩存技術(shù)),從而支持更多的并發(fā)用戶訪問,并大大提高綜合查詢速度;支持跨庫和跨服務(wù)器的檢索;LIFO:后進先出的快速排序;支持對檢索結(jié)果的各
20、種排序;可以對檢索結(jié)果進行瀏覽、存貯、打印、報表輸出以及電子郵件發(fā)送等操作,瀏覽時具有命中點定位和高亮度顯示功能;可以限制每個用戶一次存取檢索結(jié)果的信息量;智能檢索功能TRS獨創(chuàng)的智能檢索技術(shù),在查全和查準方面比一般檢索系統(tǒng)高得多。TRS智能檢索技術(shù)包括智能中文分詞、廣義同義詞檢索、主題詞典控制檢索、禁用詞典、英文詞根檢索等。智能中文分詞:TRS采用先進的自動分詞系統(tǒng),根據(jù)大量的語料統(tǒng)計和分析,建立了上萬條的歧義排除規(guī)則,因此檢索“華人”不會把僅僅包含“中華人民共和國”的文章檢索出來。廣義同義t檢索:TRS蟲創(chuàng)的廣義同義詞檢索技術(shù)能夠大大提高檢索系統(tǒng)的查全率,比如檢索“中央電視臺,TRS能夠自動把包含“中央電視臺、“央視”、“CCTV等文章全部檢索出來,檢索“電腦”會把包含“計算機”Computer”的文章全部檢索出來。在TRS系統(tǒng)中同義詞庫是用戶自己可以維護的。主題詞典控制:TRS支持ANSI標準和漢語主題詞表標準,比如在主題詞典中,有一個主題詞為“民間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年城市軌道交通起重裝卸機械操作工職業(yè)技能鑒定試卷
- 2025年國家安全生產(chǎn)監(jiān)督管理總局公務(wù)員錄用考試面試真題試卷(結(jié)構(gòu)化小組)
- 2025年高壓成套電器項目申請報告
- 2025年保育員(三級)考試試卷深度分析與備考指南
- 與離婚協(xié)議書補充協(xié)議
- 2025年P(guān)ETS二級英語聽力理解能力提升試卷(含2025年真題解析)
- 和珅的做人之道
- 2025年保育員實操技能試卷:幼兒教育心理輔導(dǎo)實踐創(chuàng)新案例分析
- 2025年電子商務(wù)師(高級)職業(yè)技能鑒定試卷:熱點問題解答與案例分析
- 2025年服裝設(shè)計師(服裝設(shè)計實踐應(yīng)用)考試試題
- 供應(yīng)商黑名單管理制度
- 陰道松弛激光治療
- 2025至2030年中國電商導(dǎo)購行業(yè)市場運營態(tài)勢及投資前景趨勢報告
- 河北省邢臺市卓越聯(lián)盟2024-2025學(xué)年高二下學(xué)期第三次考試(6月)語文試卷(圖片版含解析)
- 2025年佛山市南海區(qū)民政局招聘殘疾人專項工作人員題庫帶答案分析
- 公寓中介渠道管理制度
- PICC尖端心腔內(nèi)心電圖定位技術(shù)
- 2024東莞農(nóng)商銀行社會招聘筆試歷年典型考題及考點剖析附帶答案詳解
- 肺性腦病的護理
- AI音樂概論知到智慧樹期末考試答案題庫2025年四川音樂學(xué)院
- 混凝土銷售技能培訓(xùn)課件
評論
0/150
提交評論