




免費(fèi)預(yù)覽已結(jié)束,剩余52頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
AutonomyIDOLServer及相關(guān)組件xyz所搜索應(yīng)用系統(tǒng)說明書DesignedBy:Autonomy-PS-yyyTo:xyz所搜索系統(tǒng)實(shí)施項(xiàng)目組(篇幅和時(shí)間的限制,未能將AutonomyIDOL平臺(tái)全部功能、參數(shù)及原理做最為詳盡的闡述,請(qǐng)參考8.相關(guān)文檔部分,查看相關(guān)文檔,獲取最詳盡的說明信息)1.Autonomy搜索平臺(tái)工作模型31-1 Autonomy典型模型31-2 xyz所系統(tǒng)實(shí)施模型42 數(shù)據(jù)準(zhǔn)備及各組件工作職能42-1 xyz所系統(tǒng)使用組件名稱及相關(guān)安裝文件列表52-2 xyz所系統(tǒng)數(shù)據(jù)采集詳細(xì)信息52-3 各組件功能簡介52-3-1 IDOLServer簡介52-3-2 OmniGroupServer簡介52-3-3 ODBCConnector簡介62-3-4 HTTPConnector簡介62-4 xyz所系統(tǒng)中各組件部署情況及任務(wù)詳細(xì)說明62-4-1 IDOLServer62-4-2 OmniGroupServer72-4-3 ODBCConnector72-4-4 HTTPConnector83. Autonomy核心組件安裝、配置及啟動(dòng)83-1 IDOLServer83-1-1 IDOLServer的安裝83-1-2 更新分詞143-1-3 IDOLServer核心組件查詢操作工作原理153-1-4 IDOLServer的高級(jí)搜索功能163-1-5 IDOLServer關(guān)于集成文檔權(quán)限查詢原理243-1-6 IDOLServer中的文檔及其權(quán)限信息243-1-7 IDOLServer中的用戶及其權(quán)限信息253-1-8 IDOLServer中的帶權(quán)限查詢的實(shí)現(xiàn)253-1-9 用戶自定義關(guān)鍵詞表和用戶自定義過濾詞表253-1-10 IDOLServer的配置253-1-11 IDOLServer的啟動(dòng)和停止263-2 OmniGroupServer263-2-1 OmniGroupServer的安裝263-2-2 OmniGroupServer的配置263-2-3 OmniGroupServer的啟動(dòng)和停止273-3 ODBCConnector273-3-1 ODBCConnector的安裝283-3-2 ODBCConnector的配置333-3-3 ODBCConnector的啟動(dòng)和停止423-4 HTTPConnector423-4-1 HTTPConnector的安裝423-4-2 HTTPConnector的配置423-4-3 HTTPConnector的啟動(dòng)和停止454數(shù)據(jù)備份及數(shù)據(jù)恢復(fù)455服務(wù)狀態(tài)監(jiān)控466各個(gè)組件的服務(wù)訪問限制策略467 開發(fā)相關(guān)API468 系統(tǒng)驗(yàn)證559 相關(guān)文檔561.Autonomy搜索平臺(tái)工作模型1-1 Autonomy典型模型圖1-1-a1-2 xyz所系統(tǒng)實(shí)施模型圖1-2-a2 數(shù)據(jù)準(zhǔn)備及各組件工作職能xyz所搜索平臺(tái)實(shí)施,主要實(shí)現(xiàn)將所內(nèi)各系統(tǒng)中的數(shù)據(jù)抓取,并繼承現(xiàn)有系統(tǒng)中的用戶權(quán)限,實(shí)現(xiàn)高效的、帶權(quán)限的簡單搜索和高級(jí)搜索的整合,并提供數(shù)據(jù)分類、聚類、個(gè)人代理以及可視化展示等高級(jí)應(yīng)用。以下分別介紹xyz所搜索平臺(tái)涉及使用的Autonomy組件信息、需要采集的數(shù)據(jù)庫數(shù)據(jù)的詳細(xì)結(jié)構(gòu)信息、簡單的Autonomy各個(gè)組建的功能介紹、各組件在618所搜索平臺(tái)的具體職責(zé)以及各個(gè)組建的實(shí)際部署詳情。2-1 xyz所系統(tǒng)使用組件名稱及相關(guān)安裝文件列表AutonomyIDOLServer736OminiGroupServer730ODBCConnector737HTTPConnector73102-2 xyz所系統(tǒng)數(shù)據(jù)采集詳細(xì)信息ProceedingReport(外文資料庫):SQLServer2005KMS(知識(shí)管理系統(tǒng)):SQLServer2005Achives(檔案庫):SQLServer2005CompetiveIntelligence(外網(wǎng)數(shù)據(jù)):FACRIIntranet(內(nèi)網(wǎng)數(shù)據(jù)):OA(OA系統(tǒng)):SQLServer2005ERP(ERP系統(tǒng)):OraclePDM(PDM系統(tǒng)):Oracle2-3 各組件功能簡介2-3-1 IDOLServer簡介IDOLServer-InteligentDateOperatingLayer,智能化數(shù)據(jù)操作平臺(tái),是Autonomy搜索平臺(tái)的核心服務(wù)產(chǎn)品。IDOLServer中包含5個(gè)組件,AgentStore、Category、Community、Content和View。AgentStore是用戶服務(wù)器,主要負(fù)責(zé)存儲(chǔ)用戶信息的全部信息,如用戶名、密碼、用戶聚焦等等。Category是分類服務(wù)器,主要負(fù)責(zé)將IDOL中的所有數(shù)據(jù)按照用戶指定的邏輯進(jìn)行分類,并按照指定的標(biāo)準(zhǔn)訓(xùn)練分類,將所有的數(shù)據(jù)文檔歸類存儲(chǔ)。Community是用戶和內(nèi)容交互服務(wù)器,用來生成交互信息,如安全字符串、專家定位等等。Content是內(nèi)容服務(wù)器,整個(gè)IDOL平臺(tái)的核心部件,所有的文檔內(nèi)容都是以索引結(jié)構(gòu)存儲(chǔ)在Content組件中的,Content組件是一個(gè)數(shù)據(jù)容器,同時(shí)又是一個(gè)簡單、高效、功能健全的搜索服務(wù)器。簡單,體現(xiàn)在使用非常容易,一個(gè)action=query&text=關(guān)鍵字,就可以實(shí)現(xiàn)對(duì)關(guān)鍵字的查詢。高效,體現(xiàn)在大數(shù)據(jù)量、復(fù)雜的關(guān)鍵字邏輯表達(dá)式、復(fù)雜的數(shù)據(jù)篩選邏輯、復(fù)雜的安全確認(rèn)信息的疊加查詢,依然迅速響應(yīng)。功能健全體現(xiàn)在能夠?qū)崿F(xiàn)這對(duì)各種關(guān)鍵字查詢邏輯、各種數(shù)據(jù)篩選邏輯、安全查詢邏輯的組合式查詢。View是顯示模板,提供了將返回的xml格式查詢結(jié)果嵌套在模板中顯示。這幾個(gè)組件將整個(gè)IDOL平臺(tái)整合為一個(gè)功能強(qiáng)大的搜索利器,為企業(yè)的信息化查詢提供強(qiáng)有力的支持。2-3-2 OmniGroupServer簡介OmniGroupServer,簡單的說就是根據(jù)用戶名,返回該用戶在各個(gè)應(yīng)用系統(tǒng)中對(duì)應(yīng)的組信息的服務(wù)器。OmniGroupServer支持eRoom,LDAP,Notes,NT ,Documentum,Livelink等應(yīng)用系統(tǒng)的身份確認(rèn)集成,并支持ODBC,Oracle這類數(shù)據(jù)庫中定義的表單對(duì)應(yīng)的用戶、組身份確認(rèn)集成,同時(shí)甚至支持任意格式的text文本中寫入的用戶、組對(duì)應(yīng)規(guī)則。OmniGroupServer是實(shí)現(xiàn)帶權(quán)限搜索的重要組件之一,在用戶登錄后,向IDOL發(fā)送讀取用戶信息指令,IDOL會(huì)自動(dòng)向配置的所有OmniGroupServer發(fā)送查詢指令,將OmniGroupServer返回的用戶組信息整理后生成一個(gè)加密的安全信息串,這個(gè)串包含了用戶在所有配置的應(yīng)用系統(tǒng)中的組對(duì)應(yīng)信息以及這個(gè)安全串的過期時(shí)限,在這個(gè)用戶查詢的過程中,用這個(gè)安全串做匹配查詢,實(shí)現(xiàn)帶權(quán)限搜索的功能。總之,OmniGroupServer是靈活、高效的實(shí)現(xiàn)帶安全搜索的重要部件。2-3-3 ODBCConnector簡介ODBCConnector,Autonomy眾多抓取連接器中的一款,是專門負(fù)責(zé)將數(shù)據(jù)庫中的表單或視圖中的內(nèi)容抓取下來,按照用戶配置,將數(shù)據(jù)整合成IDOLServer專用的idx格式,并將其索引到IDOLServer搜索引擎的抓取工具。ODBCConnector的抓取過程主要分成3個(gè)步驟:首先,ODBCConnector的可執(zhí)行文件按照用戶的配置,將所有抓取任務(wù)里羅列的表單數(shù)據(jù)抓取到本地;然后ImportSlave和kv負(fù)責(zé)將抓取下來的數(shù)據(jù)按照用戶配置的格式模板生成idx文件;最后,將idx成批索引到IDOLServer中。ODBCConnector主要包含三重配置文件:主配置文件,任務(wù)配置文件和任務(wù)數(shù)據(jù)模板。在主配置文件中,可以定義ODBCConnector的抓取任務(wù),任務(wù)數(shù)可以是多個(gè)。主要配置任務(wù)名,任務(wù)涉及的數(shù)據(jù)庫服務(wù)名、連接用戶名、密碼以及任務(wù)的配置文件名信息。在任務(wù)配置文件中,主要定義抓取模板的類型(htm或idx,詳情查看ODBCConnector配置部分),按照路徑抓取附件文件的配置,目標(biāo)表單名或視圖名,設(shè)置主鍵、select語句、where條件等,并指定抓取后的數(shù)據(jù)使用的任務(wù)數(shù)據(jù)模板文件。在任務(wù)數(shù)據(jù)模板文件中(htm或idx后綴),主要包含在IDOLServer中包含的各個(gè)標(biāo)簽的名稱和數(shù)據(jù)表或數(shù)據(jù)視圖的字段的對(duì)應(yīng)。這三重配置層次清晰,各負(fù)其職,按照用戶的需要,將格式化的數(shù)據(jù)信息索引到IDOL服務(wù)器中。2-3-4 HTTPConnector簡介HTTPConnector,Autonomy眾多抓取連接器中的一款,是專門負(fù)責(zé)處理網(wǎng)絡(luò)頁面數(shù)據(jù),按照用戶配置,將數(shù)據(jù)整合成IDOLServer專用的idx格式,并將其索引到IDOLServer搜索引擎的抓取工具。HTTPConnector的抓取過程主要分成3個(gè)步驟:首先,HTTPConnector的可執(zhí)行文件按照用戶的配置分析網(wǎng)站中的鏈接地址,將所有符合配置的數(shù)據(jù)抓取到本地;然后ImportSlave和kv負(fù)責(zé)將抓取下來的數(shù)據(jù)按照用戶配置的格式模板生成idx文件;最后,將idx成批索引到IDOLServer中。HTTPConnector的所有功能都可以在HTTPConnector.cfg中配置,詳情參見HTTPConnector配置部分。2-4 xyz所系統(tǒng)中各組件部署情況及任務(wù)詳細(xì)說明2-4-1 IDOLServer實(shí)例數(shù):1服務(wù)器地址:5IDOL ACI端口:9000安裝路徑:E:AutonomyIDOLServer736任務(wù)說明:提供數(shù)據(jù)引擎服務(wù)2-4-2 OmniGroupServer實(shí)例數(shù):1服務(wù)器地址:5IDOL ACI端口:3057安裝路徑:E:AutonomyOMNIGroupServer任務(wù)說明:提供權(quán)限用戶所對(duì)應(yīng)組服務(wù)2-4-3 ODBCConnector實(shí)例數(shù):5實(shí)例1服務(wù)器地址:3服務(wù)端口:40030安裝路徑:E:AutonomyODBCConnector任務(wù)說明:外文資料庫數(shù)據(jù)抓取實(shí)例2服務(wù)器地址:3服務(wù)端口:40050安裝路徑:E:AutonomyODBCConnector2任務(wù)說明:檔案庫數(shù)據(jù)抓取實(shí)例3服務(wù)器地址:3服務(wù)端口:40070安裝路徑:E:AutonomyODBCConnector4任務(wù)說明:OA系統(tǒng)數(shù)據(jù)抓取實(shí)例4服務(wù)器地址:7服務(wù)端口:40040安裝路徑:D:AutonomyODBCConnector任務(wù)說明:ERP系統(tǒng)數(shù)據(jù)抓取實(shí)例5服務(wù)器地址:7服務(wù)端口:40040安裝路徑:D:AutonomyODBCConnector任務(wù)說明:PDM系統(tǒng)數(shù)據(jù)抓取2-4-4 HTTPConnector 實(shí)例數(shù):2實(shí)例1服務(wù)器地址:7服務(wù)端口:40030安裝路徑:D:AutonomyHTTPConnector任務(wù)說明:內(nèi)網(wǎng)數(shù)據(jù)抓取實(shí)例2服務(wù)器地址:27服務(wù)端口:40030安裝路徑:D:AutonomyHTTPonnector任務(wù)說明:外網(wǎng)數(shù)據(jù)抓取3. Autonomy核心組件安裝、配置及啟動(dòng)3-1 IDOLServer安裝文件:D:Autonomysoftware IDOLServer__WINDOWS.exeD:Autonomysoftwareautonomy3.2_min_T_海量_天津_20090101_20080918D:Autonomysoftwarelicensekey.dat3-1-1 IDOLServer的安裝運(yùn)行安裝文件IDOLServer__WINDOWS.exe,啟動(dòng)安裝程序License條款確認(rèn)選擇安裝組件,這里只選擇IDOLServer和DishLicenseServer選擇安裝路徑,默認(rèn)為/opt/Autonomy/IDOLServerIDOL主機(jī)名,默認(rèn)為安裝所在機(jī)器的主機(jī)名指定IDOL的ACI端口、索引端口和服務(wù)端口,默認(rèn)值即可指定DiSH服務(wù)器的ACI端口和服務(wù)端口,默認(rèn)值即可指定需要發(fā)送郵件時(shí)使用的SMTP服務(wù)主機(jī)和端口信息指定安裝文件中l(wèi)icensekey.dat文件所在的全路徑確認(rèn)先前的安裝信息開始安裝IDOL安裝完成3-1-2 更新分詞1、將分詞文件的壓縮包解壓到IDOL安裝目錄IDOLlangfiles目錄中,共4個(gè)文件:Chinesebreaking.dllHLSwknl.dllHLSwknl.libHLSegData.dat2、將配置文件中LanguageType段中文語言部分的SentenceBreaking參數(shù)值作如下替換,使新分詞生效SentenceBreaking=chinesebreking分詞更新完成3-1-3 IDOLServer核心組件查詢操作工作原理圖3-3-3-a如上圖所示,是整個(gè)IDOLServer所有組件聯(lián)合工作時(shí)的處理流程,但大多數(shù)操作都只包含其中幾個(gè)、甚至是某一個(gè)組件的參與。下面以非權(quán)限確認(rèn)查詢、權(quán)限確認(rèn)查詢、分類操作、用戶操作這幾個(gè)典型操作進(jìn)行講解:實(shí)現(xiàn)不帶權(quán)限的查詢:只需直接向IDOL發(fā)送一條查詢指令,Content組件獨(dú)立工作,將查詢結(jié)果以Autonomy默認(rèn)的XML格式返回。實(shí)現(xiàn)帶權(quán)限的查詢:首先要確保用戶已經(jīng)在IDOL中存在,用戶信息保存在AgengStore組件中。最重要的是GroupServer服務(wù)要正常,并且在IDOL中正確配置。這樣,當(dāng)用戶登錄到查詢的應(yīng)用系統(tǒng)中時(shí),首先發(fā)送一個(gè)讀取用戶信息的指令給IDOL,這條指令實(shí)際是從AgentStore中確認(rèn)此用戶是否存在,并通過Community組件和GroupServer交互,取得這一用戶在各個(gè)安全系統(tǒng)中的組信息,將用戶名和用戶組以及過期失效等權(quán)限安全的信息按照特定的格式生成一個(gè)加密的權(quán)限字符串,這個(gè)字符串在用戶登錄直到失效時(shí)限為止,一直保存在查詢系統(tǒng)中。當(dāng)用戶發(fā)送查詢指令時(shí),將這個(gè)權(quán)限字符串作為一個(gè)參數(shù)發(fā)送給IDOL,Content組件會(huì)返回權(quán)限比對(duì)的查詢結(jié)果。(具體實(shí)現(xiàn)細(xì)節(jié)見3-3-4至3-3-7)實(shí)現(xiàn)分類的管理:向IDOL發(fā)送分類創(chuàng)建、訓(xùn)練、激活、刪除等管理命令,Content組件將涉及到的數(shù)據(jù)結(jié)果及具體管理指令傳給Category組件,由Category組件完成具體的分類管理操作,建立特定的數(shù)據(jù)結(jié)構(gòu),以便今后其它分類操作的進(jìn)行。實(shí)現(xiàn)分類的查詢:向IDOL發(fā)送分類查詢指令,Content組件從Category組件返回的數(shù)據(jù)結(jié)構(gòu)中解析出內(nèi)部存儲(chǔ)的哪些數(shù)據(jù)項(xiàng)作為結(jié)果返回,將所有的結(jié)果以Autonomy默認(rèn)的XML格式返回。實(shí)現(xiàn)用戶操作:向IDOL發(fā)送用戶創(chuàng)建、修改、刪除等操作幾名,AgengStore獨(dú)立工作,實(shí)現(xiàn)相應(yīng)的用戶操作。3-1-4 IDOLServer的高級(jí)搜索功能從IDOLServer中查詢數(shù)據(jù),操作十分簡單,只需通過htttp發(fā)送action=query&text=關(guān)鍵字,就可以得到一個(gè)XML格式的相應(yīng)結(jié)果,將這條XML結(jié)果解析顯示在終端上,就完成了簡單的查詢。但I(xiàn)DOLServer實(shí)現(xiàn)的查詢功能遠(yuǎn)遠(yuǎn)比這強(qiáng)大,下面分別介紹一些常用的高級(jí)搜索功能,所需的命令參數(shù),并對(duì)實(shí)現(xiàn)其功能在配置中需要做的修改加以說明。3-1-4-1 精確匹配搜索動(dòng)作:action=query查詢參數(shù):”關(guān)鍵字”必要配置:Server段添加配置AdvancedSearch=true說明:只需將關(guān)鍵字用引號(hào)括起,當(dāng)做發(fā)送關(guān)鍵字舉例::9000/action=query&text=”航空航天”,“航空航天”關(guān)鍵字會(huì)被分成“航空”和“航天”兩個(gè)term,該查詢只返回全部包涵著兩個(gè)term的文檔,忽略只包含其中之一的文檔3-1-4-2 限定數(shù)據(jù)庫范圍動(dòng)作:action=query查詢參數(shù):databasematch=庫名1,庫名2必要配置:默認(rèn)功能說明:將數(shù)據(jù)庫名稱作為參數(shù)值傳給databasematch參數(shù),可實(shí)現(xiàn)在指定的庫中進(jìn)行查詢。多個(gè)庫名以逗號(hào)間隔,大小寫不敏感舉例::9000/action=query&text=航空&databasematch=ProceedingReport,Achives,該查詢返回包涵關(guān)鍵字“航空”的ProceedingReport和Achives庫中的所有文檔3-1-4-3 限定時(shí)間范圍動(dòng)作:action=query查詢參數(shù):mindate=日/月/年&maxdate=日/月/年必要配置:默認(rèn)功能說明:mindate和maxdate分別代表日期的最早和最后期限,這兩個(gè)參數(shù)只與文檔中DREDATE標(biāo)簽的值做捆綁。DREDATE存儲(chǔ)的是JAVA的EPOCHSECONDS格式的時(shí)間的前十位值,即精確到秒級(jí)。發(fā)送時(shí)按照日/月/年的格式。舉例::9000/action=query&text=航空&mindate=01/05/2008&maxdate=01/08/2008,該查詢返回包涵關(guān)鍵字“航空”的DREDATE標(biāo)簽存儲(chǔ)的日期在2008年5月1日至2008年8月1日之間的所有文檔/csl/3-1-4-4 實(shí)現(xiàn)分頁動(dòng)作:action=query查詢參數(shù):start=起始數(shù)據(jù)序號(hào)&maxresults=結(jié)束數(shù)據(jù)序號(hào)必要配置:默認(rèn)功能說明:假設(shè)對(duì)于一條查詢語句共有total篇文檔符合要求,當(dāng)前顯示的頁號(hào)為n,每頁m條記錄的話,那么start=(n-1)*m+1,maxresults=n*m,如果不添加這兩個(gè)參數(shù),IDOL默認(rèn)返回前6條相關(guān)度最高的結(jié)果舉例::9000/action=query&text=航空&start=1&maxresults=10,假設(shè)每頁顯示10條結(jié)果,該查詢返回查詢“航空”關(guān)鍵字的第一頁結(jié)果3-1-4-5 生成動(dòng)態(tài)摘要?jiǎng)幼鳎篴ction=query查詢參數(shù):summary=context必要配置:默認(rèn)功能說明:可以根據(jù)搜索關(guān)鍵詞,從正文中提取包含關(guān)鍵詞term的部分生成動(dòng)態(tài)摘要舉例::9000/action=query&text=航空&summary=context,該查詢返回的XML結(jié)果中,每篇文檔中會(huì)包含autn:summary標(biāo)簽,標(biāo)簽的值為文檔中包含“航空”這個(gè)term的一段內(nèi)容3-1-4-6 正文、摘要中關(guān)鍵字描紅動(dòng)作:action=query查詢參數(shù):highlight=terms,summaryterms ; starttag=高亮起始標(biāo)簽 ; endtag=高亮結(jié)束標(biāo)簽必要配置:在SetHighlightFields段,在PropertyFieldCSVs參數(shù)的值中添加想要高亮顯示的標(biāo)簽名,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔。默認(rèn)為DRETITLE、DRECONTENT兩個(gè)標(biāo)簽說明:將查詢結(jié)果的文檔中所有HighLightType的標(biāo)簽和summary中包含的term高亮顯示。默認(rèn)情況下,在term前后加上和,也可以自定義前后添加的html標(biāo)簽,分別將標(biāo)簽值作為StartTag和EndTag的參數(shù)值傳遞即可舉例::9000/action=query&text=航空&summary=context&highlight=terms,summaryterms&starttag=&endtag=,該查詢語句返回包含“航空”關(guān)鍵字的文檔,文檔中包含了自動(dòng)摘要,并且文檔摘要中和文檔中所有的HighLightType類型的標(biāo)簽值中的“航空”前后均添加了和,用作高亮顯示。3-1-4-7 實(shí)現(xiàn)按數(shù)據(jù)庫名的統(tǒng)計(jì)動(dòng)作:action=query查詢參數(shù):totalresults=true ; predict=false必要配置:默認(rèn)功能說明:totalresults=true,在返回的XML結(jié)果中會(huì)出現(xiàn)autn:totalhits標(biāo)簽,代表符合條件的結(jié)果總數(shù),結(jié)合predict=false參數(shù),會(huì)在XML結(jié)果中出現(xiàn)autn:databasehits標(biāo)簽,中間包含IDOL中每一個(gè)數(shù)據(jù)庫名做為name屬性值的autn:database子標(biāo)簽,標(biāo)簽的值代表所有查詢結(jié)果中,對(duì)應(yīng)這個(gè)庫的結(jié)果數(shù)舉例::9000/action=query&text=航空&totalresults=true&predict=false,該查詢語句返回包含“航空”關(guān)鍵字的文檔,并且XML結(jié)果中包含文檔總數(shù)信息以及每個(gè)庫中對(duì)應(yīng)結(jié)果數(shù)目信息3-1-4-8 實(shí)現(xiàn)按某一標(biāo)簽的統(tǒng)計(jì)動(dòng)作:action=getquerytagvalus查詢參數(shù):fieldname=標(biāo)簽名 ; documentcount=true必要配置:在SetParametricFields段,在PropertyFieldCSVs參數(shù)的值中添加想要統(tǒng)計(jì)的標(biāo)簽名,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔。默認(rèn)值為MYPARAMETRICFIELD說明:fieldname=標(biāo)簽名,在返回的XML結(jié)果中會(huì)出現(xiàn)autn:field標(biāo)簽,其子標(biāo)簽autn:name的值就是指定的標(biāo)簽名,它還包含了在查詢結(jié)果中包含的這個(gè)標(biāo)簽的所有取值,每一種取值作為一個(gè)名為autn:value的子標(biāo)簽值,autn:total_values的標(biāo)簽值表示查詢結(jié)果中這個(gè)標(biāo)簽所有取值的總數(shù)。documentcount=true,在每一個(gè)autn:value的子標(biāo)簽后會(huì)出現(xiàn)count屬性,屬性的值就是這個(gè)取值在查詢結(jié)果中出現(xiàn)的次數(shù)舉例::9000/action=getquerytagvalues&text=航空&fieldname=FetchSource&documentcount=true,該查詢語句返回包含“航空”關(guān)鍵字的文檔按照FetchSource標(biāo)簽的統(tǒng)計(jì)信息,XML結(jié)果中包含所有符合條件的記錄FetchSource標(biāo)簽的取值數(shù)目,對(duì)于每種取值各自對(duì)應(yīng)的文檔數(shù)目的信息3-1-4-9 實(shí)現(xiàn)特定字段符合特定規(guī)范的查詢(字符型)動(dòng)作:action=query查詢參數(shù):fieldtext=操作類型參數(shù)值:標(biāo)簽名必要配置:在SetMatchFields段,在PropertyFieldCSVs參數(shù)的值中添加想要做字符串比對(duì)的標(biāo)簽名,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔。默認(rèn)值為MYMATCHFIELD說明:fieldtext參數(shù)支持的操作類型主要包含MATCH和STRING操作,MATCH是完全的字符匹配,它返回指定標(biāo)簽名的值嚴(yán)格匹配參數(shù)值的文檔;STRING是字符串包含操作,它返回指定標(biāo)簽的值包含參數(shù)值的文檔舉例::9000/action=query&text=航空&fieldtext=MATCHCompetiveIntelligence:FetchSource,該查詢語句返回包含“航空”關(guān)鍵字,并且FetchSource標(biāo)簽的值為“CompetiveIntelligence”的文檔3-1-4-10 實(shí)現(xiàn)特定字段符合特定規(guī)范的查詢(數(shù)字型)動(dòng)作:action=query查詢參數(shù):fieldtext=操作類型參數(shù)值:標(biāo)簽名必要配置:在SetNumericFields段,在PropertyFieldCSVs參數(shù)的值中添加想要做字符串比對(duì)的標(biāo)簽名,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔。默認(rèn)值為MYNUMERICFIELD說明:fieldtext參數(shù)支持的操作類型主要包含EQUAL、GREATER、LESS和NRANGE操作,分別代表等于、大于、小于和區(qū)間取值操作(其中NRANGE需要傳遞兩個(gè)參數(shù)值作為取值區(qū)間的上下限,中間用逗號(hào)分隔),它返回指定標(biāo)簽名的值等于、大于、小于或介于區(qū)間上下限之間的文檔舉例::9000/action=query&text=航空&fieldtext=NRANGE1,10:MYNUMERICFIELD,該查詢語句返回包含“航空”關(guān)鍵字并且MYNUMERICFIELD標(biāo)簽的值介于1至10之間的文檔3-1-4-11 實(shí)現(xiàn)在結(jié)果中進(jìn)行二次查詢動(dòng)作:action=query查詢參數(shù):storestate=true ; statematchid=stateid必要配置:默認(rèn)功能說明:初次查詢加入storestate=true參數(shù),返回的xml結(jié)果中出現(xiàn)autn:state標(biāo)簽,值為一個(gè)stateid,作為記錄當(dāng)前的結(jié)果的標(biāo)志;二次查詢加入statematchid=一次查詢stateid值,返回的xml結(jié)果為在初次查詢的結(jié)果中再查詢的結(jié)果舉例:初次查詢:9000/action=query&text=”航空”&storestate=true,該查詢語句返回包含“航空”關(guān)鍵字的文檔并且返回一個(gè)stateid,假設(shè)值為775ACC-6,則二次查詢:9000/action=query&text=”戰(zhàn)略”&statematchid=775ACC-6,該查詢返回初次查詢的結(jié)果中包含“戰(zhàn)略”關(guān)鍵字的文檔3-1-4-12 實(shí)現(xiàn)同義詞查詢動(dòng)作:action=query查詢參數(shù):synonym=true必要配置:1、假設(shè)FieldProcessing段已有操作列表的序號(hào)已經(jīng)排列到21,則在21=xxxx的下一行添加:22=SetSynonymMatch2、在FieldProcessing操作列表下面添加如下配置:SetSynonymMatchProperty=ApplySynonymMatchPropertyFieldCSVs=*/DRETITLE,*/DRECONTENTPropertyFieldCSVs參數(shù)的值應(yīng)該和索引類型設(shè)置段的參數(shù)值相同,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔,這樣才可以實(shí)現(xiàn)在所有的索引字段中實(shí)現(xiàn)同義詞查詢3、在FieldProcessing段下方Properties部分后面添加如下配置:ApplySynonymMatchSynonymType=SynonymJobSynonym0=SynonymJobSynonymJobfile=syn.txtMaxExpandLevel=14、在IDOL的安裝目錄/IDOL/content文件夾下創(chuàng)建syn.txt,按照語言編碼為語言區(qū)域分隔標(biāo)識(shí),每一行代表一個(gè)統(tǒng)一詞匹配,同一行的多個(gè)詞間用逗號(hào)分隔,建立同義詞表。比如:chineseCHINESESIMPLIFIED航空,航天代表在簡體中文的編碼中,航空、航天這兩個(gè)詞是同義詞說明:查詢時(shí)加入synonym=true 舉例: :9000/action=query&text=航空&synonym=true,該查詢語句返回包含“航空”或“航天”關(guān)鍵字的文檔3-1-4-13 實(shí)現(xiàn)推薦搜索詞動(dòng)作:action=query查詢參數(shù):querysummary=true必要配置:在Server段添加QuerySummaryAdvanced=true說明:查詢時(shí)加入querysummary=true,可以實(shí)現(xiàn)在返回的所有文檔中提取關(guān)鍵term作為相關(guān)搜索詞的推薦,返回的xml結(jié)果中出現(xiàn)autn:querysummary標(biāo)簽,值為一個(gè)逗號(hào)分隔的terms序列。配置中Server段有兩個(gè)可選參數(shù)可以調(diào)整推薦term的結(jié)果:QuerySummaryMaxDocLength:指定從每篇文檔中提取多少字符的內(nèi)容生成推薦的term,默認(rèn)為0,代表不限制QuerySummaryLength:指定返回的推薦term或者phrase的個(gè)數(shù),默認(rèn)為10個(gè)舉例::9000/action=query&text=航空&querysummary=true,該查詢語句返回包含“航空”關(guān)鍵字的文檔并且在autn:summary的標(biāo)簽中顯示推薦的搜索詞3-1-4-14 實(shí)現(xiàn)自動(dòng)聚類動(dòng)作:action=query查詢參數(shù):cluster=true必要配置:默認(rèn)功能說明:查詢時(shí)加入cluster=true,可以實(shí)現(xiàn)將返回的所有文檔自動(dòng)聚類,返回的xml結(jié)果中出現(xiàn)autn:cluster和autn:clustertitle標(biāo)簽,值分別為一個(gè)聚類的id號(hào)和聚類標(biāo)題。配置中Server段有一個(gè)可選參數(shù)可以調(diào)整聚類的結(jié)果:clusterthreshold:指定歸屬為同一類別的文檔的相似度,默認(rèn)為50。舉例::9000/action=query&text=航空&cluster=true,該查詢語句返回包含“航空”關(guān)鍵字的文檔并且在autn:cluster和autn:clustertitle的標(biāo)簽中顯示聚類id和聚類標(biāo)題3-1-4-15 實(shí)現(xiàn)自動(dòng)推送相關(guān)文章動(dòng)作:action=suggest查詢參數(shù):id=文檔id ; reference=文檔drereference值必要配置:默認(rèn)功能說明:suggest操作,將文檔的id作為id參數(shù)值或者將文檔的drereference值作為reference參數(shù)值,均可以實(shí)現(xiàn)舉例::9000/action=suggest&id=11366,IDOL根據(jù)docid為11366的文檔從庫中推薦出內(nèi)容最為相關(guān)的文檔3-1-4-16 實(shí)現(xiàn)將結(jié)果自定義排序動(dòng)作:action=query查詢參數(shù):sort=排序關(guān)鍵字必要配置:默認(rèn)功能說明:IDOL支持多種結(jié)果排序方式,用排序的關(guān)鍵字區(qū)分。默認(rèn)排序方式為相關(guān)度降序,關(guān)鍵字為Relevance,以下為其它排序方式的說明:排序關(guān)鍵字排序名稱說明date日期從新到舊對(duì)DREDATE標(biāo)簽有效reversedate日期從舊到新對(duì)DREDATE標(biāo)簽有效docidincreasing文檔id升序dociddecreasing文檔id降序database數(shù)據(jù)庫序號(hào)升序即IDOL中配置的先后順序cluster聚類id升序僅當(dāng)查詢時(shí)cluster參數(shù)為true時(shí)生效,且cluster排序具有最高排序級(jí)別reverserelevance相關(guān)度從低到高fieldname:sortmethod按fieldname標(biāo)簽指定的sortmethod規(guī)則排序下表做sortmethod說明sortmethod關(guān)鍵字排序名稱說明numberincreasing數(shù)字升序標(biāo)簽應(yīng)設(shè)置為NumericType類型,在SetNumericFields段的PropertyFieldCSVs添加標(biāo)簽名(效仿3-3-3-10)numberdecreasin數(shù)字降序標(biāo)簽應(yīng)設(shè)置為NumericType類型,在SetNumericFields段的PropertyFieldCSVs添加標(biāo)簽名(效仿3-3-3-10)alphabetical字母升序標(biāo)簽應(yīng)設(shè)置為SortType類型(下文補(bǔ)充介紹設(shè)置方法)reversealphabetical字母降序標(biāo)簽應(yīng)設(shè)置為SortType類型(下文補(bǔ)充介紹設(shè)置方法)increasing升序若標(biāo)簽為NumericType類型,等效為numberincreasing,若為SortType,等效為alphabetical類型decreasing降序若標(biāo)簽為NumericType類型,等效為numbericreasing,若為SortType,等效為reversealphabetical類型多種排序方式疊加時(shí)按照嵌套順序從前之后用“+”連接舉例::9000/action=query&text=航空&sort=date+AUTHOR:increasing,該查詢語句返回包含“航空”關(guān)鍵字的文檔并且按照日期從新到舊、AHTHOR標(biāo)簽的值按字母的先后排序補(bǔ)充:設(shè)置標(biāo)簽SortType類型設(shè)置標(biāo)簽為SortType類型,可以在查詢時(shí)按照此標(biāo)簽的值指定的排序規(guī)則為查詢結(jié)果排序,具體方法如下:1、假設(shè)FieldProcessing段已有操作列表的序號(hào)已經(jīng)排列到21,則在21=xxxx的下一行添加:22= SetSortType2、在FieldProcessing操作列表下面添加如下配置:SetSortTypeProperty=ApplySortTypePropertyFieldCSVs=*/MYSORTTYPEPropertyFieldCSVs參數(shù)的值應(yīng)該包含所有與排序相關(guān)的標(biāo)簽名,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔3、在FieldProcessing段下方Properties部分后面添加如下配置:ApplySortTypeSortType=true配置完成3-1-4-17 實(shí)現(xiàn)將結(jié)果按標(biāo)簽綁定動(dòng)作:action=query查詢參數(shù):combine=simple+標(biāo)簽名1+標(biāo)簽名2+ ; combine=cluster必要配置:1、假設(shè)FieldProcessing段已有操作列表的序號(hào)已經(jīng)排列到21,則在21=xxxx的下一行添加:22= SetReferenceForCombine2、在FieldProcessing操作列表下面添加如下配置:SetReferenceForCombineProperty=CombineReferencePropertyFieldCSVs=*/標(biāo)簽名1,*/標(biāo)簽名2i7tPropertyFieldCSVs參數(shù)的值應(yīng)該包含所有想執(zhí)行綁定操作的標(biāo)簽,*/起始,多個(gè)標(biāo)簽以逗號(hào)間隔3、在FieldProcessing段下方Properties部分后面添加如下配置:CombineReferenceReferenceType=TRUETrimSpaces=TRUE說明:實(shí)現(xiàn)combine操作有幾種類型,最常用的是simple+自定義標(biāo)簽名。simple的意義在于可以將一篇文檔的多個(gè)section當(dāng)成一條結(jié)果返回,這在對(duì)于文檔內(nèi)容長、存在分段的情況十分必要;標(biāo)簽名實(shí)現(xiàn)了按照用戶任意指定的標(biāo)簽值進(jìn)行綁定,為實(shí)現(xiàn)靈活的用戶需求提供了接口。另外,combine=cluster,在查詢時(shí)動(dòng)態(tài)聚類時(shí)(cluster=true,見3-3-3-14)可以按照聚類id的順序顯示結(jié)果舉例::9000/action=query&text=航空&combine=simple+DRETITLE,該查詢語句返回包含“航空”關(guān)鍵字的文檔并且在結(jié)果中如果多篇文檔包含同一個(gè)標(biāo)題,只返回相關(guān)度最高的一篇3-1-4-18 實(shí)現(xiàn)復(fù)雜的關(guān)鍵字與或非表達(dá)式動(dòng)作:action=query查詢參數(shù):*,?,AND,OR,NOT,XOR,:必要配置:默認(rèn)操作說明:IDOL支持關(guān)鍵字的復(fù)雜邏輯,*代表0到多個(gè)字符、?代表一個(gè)字符、AND代表兩個(gè)關(guān)鍵字表達(dá)式的邏輯與關(guān)系、OR代表或關(guān)系、NOT代表非關(guān)系、XOR代表異或關(guān)系,另外:后面接標(biāo)簽名,可以在指定的標(biāo)簽里應(yīng)用前面的關(guān)鍵字表達(dá)式,標(biāo)簽必須是索引標(biāo)簽。通過使用這幾個(gè)字符,可以實(shí)現(xiàn)任意復(fù)雜的關(guān)鍵字表達(dá)式。舉例::9000/action=query&text=(航空 NOT 航天):DRETITLE OR (戰(zhàn)略 AND 合作):DRECONTENT,該查詢語句返回DRETITLE中包含“航空”而不包含“航天”關(guān)鍵字或者DRECONTENT同時(shí)包含“戰(zhàn)略”和“合作”的文檔3-1-4-19 實(shí)現(xiàn)手動(dòng)創(chuàng)建2D圖和光譜圖動(dòng)作:action=ClusterSnapshot; action=ClusterCluster; ClusterSGDataGen說明:1、首先使用ClusterSnapshot命令生成熱點(diǎn)快照2、使用ClusterCluster命令根據(jù)熱點(diǎn)快照的結(jié)果生成熱點(diǎn)聚類和2D圖3、根據(jù)7次聚類的結(jié)果使用ClusterSGDataGen命令生成光譜圖舉例:1、http:/localhost:9000/action=ClusterSnapshot&TargetJobname=myjob&databases=FACRIIntranet,CompetiveIntelligence2、http:/localhost:9000/action=ClusterCluster&SourceJobname=myjob&TargetJobname=myjob_clusters&domapping=true3、http:/localhost:9000/action=ClusterSGDataGen&SourceJobname=myjob&TargetJobname=myjob_sg3-1-4-20 實(shí)現(xiàn)自動(dòng)創(chuàng)建2D圖和光譜圖動(dòng)作:在IDOLServer.cfg中配置必要配置:AnalysisSchedulesNumber=3AnalysisSchedule0ScheduleStartTime=23:00ScheduleInterval=1 dayScheduleCycles=-1ScheduleAction=CLUSTERSNAPSHOTTargetJobname=myjobDatabases=FACRIIntranet,CompetiveIntelligenceAnalysisSchedule1ScheduleStartTime=23:15ScheduleInterval=1 dayScheduleCycles=-1ScheduleAction=CLUSTERCLUSTERSourceJobName=myjobTargetJobName=myjob_clustersDoMapping=TRUEAnalysisSchedule2ScheduleStartTime=23:20ScheduleInterval=1 dayScheduleCycles=-1ScheduleAction=CLUSTERSGDATAGENInterval=606000SourceJobName=myjobTargetJobName=myjob_sg說明:Schedule0用來生成熱點(diǎn)快照,每天23點(diǎn)執(zhí)行,一天執(zhí)行一次,無限循環(huán);Schedule1用來生成聚類2D圖,每天23點(diǎn)15分執(zhí)行,一天執(zhí)行一次,無限循環(huán);Sechedule2用來生成光譜圖,23點(diǎn)20分執(zhí)行,一天執(zhí)行一次,無限循環(huán)。熱點(diǎn)快照一般需要3-5分鐘左右生成完成,所以Schedule1一般稍后執(zhí)行。Schedule2需要7次Schedule1的數(shù)據(jù),604800秒為7天,設(shè)置Interval=606000為7天多一點(diǎn)兒,把滯后的時(shí)間差補(bǔ)上。3-1-5 IDOLServer關(guān)于集成文檔權(quán)限查詢原理IDOLServer的核心組件是Content,中間保存了所有的文檔信息,并且所有的查詢指令也是Content執(zhí)行。為了實(shí)現(xiàn)文檔權(quán)限的集成查詢,一方面需要知道當(dāng)前登錄查詢系統(tǒng)的用戶身份,另一方面對(duì)于數(shù)據(jù)庫中的每篇文檔,應(yīng)該包含可以訪問它的用戶名或者用戶組信息。Content組件本身不負(fù)責(zé)查詢之外的任何操作,實(shí)現(xiàn)帶權(quán)限查詢,一方面需要AgentStore、Community兩個(gè)組件的協(xié)作,用來完成用戶身份的確認(rèn)工作,生成一個(gè)IDOL中固有格式的加密的用戶權(quán)限信息字符串,另外需要在文件抓取的時(shí)候?qū)⑽募臋?quán)限信息也以IDOL能夠識(shí)別的固有格式作為文檔信息的一部分,索引到數(shù)據(jù)庫中。有了這兩方面的準(zhǔn)備,在查詢時(shí)只要在命令中加入securityinfo參數(shù),Content就可以獨(dú)立完成帶權(quán)限的查詢工作,將用戶的安全信息和文檔的權(quán)限信息做比對(duì),返回正確的查詢結(jié)果。下面3-1-6和3-1-7將具體從這兩方面講解,并在3-1-8給出總結(jié)。3-1-6 IDOLServer中的文檔及其權(quán)限信息IDOLServer中文檔的權(quán)限信息,作為一個(gè)字段的值存放在文檔本身,并被索引到IDOL中去,作為權(quán)限查詢時(shí)每篇文檔能夠提供的權(quán)限比對(duì)的參考。由于業(yè)務(wù)系統(tǒng)的復(fù)雜性,文檔的權(quán)限管理也異常復(fù)雜。Autonomy開發(fā)了眾多的Connector產(chǎn)品,可以將常用的集成權(quán)限的應(yīng)用系統(tǒng)中的文檔內(nèi)容連同其權(quán)限信息自動(dòng)抓取并索引到IDOLServer中,只需要進(jìn)行非常簡單的配置就可以實(shí)現(xiàn)。比如:NotesConnector,只需配置NotesServer的服務(wù)器信息和要抓取的庫名;Documentum,只需要配置Documentum的主機(jī)信息和Docbase名等等。另外最為重要的,Autonomy提供了標(biāo)注的權(quán)限信息模板,用來實(shí)現(xiàn)自定義的權(quán)限信息整合,這在數(shù)據(jù)庫應(yīng)用系統(tǒng)中廣泛使用。通常來說,無論多么復(fù)雜的應(yīng)用系統(tǒng),針對(duì)于某一篇文檔來說,都只能歸結(jié)到這篇文檔哪些用戶可以訪問、哪些組用戶可以訪問、哪些用戶不能訪問、哪些組不能訪問。Autonomy的標(biāo)準(zhǔn)安全信息就是依此形成的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年甘肅陜煤集團(tuán)韓城煤礦招聘筆試真題及一套參考答案詳解
- 2010年河南中考數(shù)學(xué)試題及答案
- 19年考保安證試題及答案
- 5s考試試題及答案
- 醫(yī)美注射美容治療知情同意書
- 2025【標(biāo)準(zhǔn)合同】設(shè)備安裝協(xié)議
- 2025建筑項(xiàng)目招投標(biāo)合同文件
- 2025年試析網(wǎng)絡(luò)購物中的消費(fèi)者合同關(guān)系
- DAO-dBET1-生命科學(xué)試劑-MCE
- (高清版)DB13∕T 5026.1-2019 石墨烯導(dǎo)電漿料物理性質(zhì)的測定方法 第1部分:漿料粘度的測定 旋轉(zhuǎn)粘度計(jì)法
- 電梯五方對(duì)講設(shè)計(jì)方案
- 24 唐詩三首 《茅屋為秋風(fēng)所破歌》課件
- 小升初英語作文寫作專題訓(xùn)練題100題(含范文詳解)
- 國際化創(chuàng)新型人才培養(yǎng)模式與中俄合作辦學(xué)實(shí)踐案例分析
- 附件6工貿(mào)高風(fēng)險(xiǎn)企業(yè)高危領(lǐng)域較大以上安全風(fēng)險(xiǎn)管控清單
- 一次性使用無菌醫(yī)療器械管理制度
- 浙江省2025年中考第二次模擬考試英語試題(含答案無聽力原文及音頻)
- 初創(chuàng)公司薪酬方案
- 2025年大學(xué)期末民法試題及答案
- 2025年保安證考試答題技巧與試題答案
評(píng)論
0/150
提交評(píng)論