




已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
0 HX 2055HX 2055 信息檢索系統(tǒng)方案信息檢索系統(tǒng)方案 1 目錄目錄 一一 項目意義項目意義 2 二二 系統(tǒng)設計系統(tǒng)設計 3 2 12 1 技術原理技術原理 3 2 22 2 系統(tǒng)構架系統(tǒng)構架 5 三三 系統(tǒng)功能系統(tǒng)功能 6 3 1 信息采集信息采集 6 3 2 中文自然語言處理中文自然語言處理 6 3 3 全文檢索功能全文檢索功能 7 3 4 格式文件檢索格式文件檢索 8 3 5 性能指標性能指標 8 2 一一 項目意義項目意義 隨著互聯(lián)網(wǎng)的快速發(fā)展 每天有數(shù)千萬條信息生成 包括文字信息 圖片信息 視頻信息 語音信息等 通過百度 谷歌等大型商業(yè)搜索引擎 可以找到自己想要的信息 但是也存在很多弊端 百度 谷歌等大型商業(yè)搜索引擎的搜索原理是基于網(wǎng)絡爬蟲 Spider 在世界各地百萬臺服務器上爬取網(wǎng)頁數(shù)據(jù) 然后存儲到數(shù)據(jù)庫 之后展現(xiàn)給查詢用戶 隨著網(wǎng)站數(shù)量以及網(wǎng)絡上信息更新的快速化 這些 網(wǎng)絡爬蟲不能保證把所有的信息都抓到 尤其是特殊行業(yè)的行業(yè)信息 即 便是抓到了也不一定能夠在眾多數(shù)據(jù)中展現(xiàn)出來 所以 對于一個部門來 講 有必要存在一款互聯(lián)網(wǎng)信息檢索系統(tǒng)來檢索某一個行業(yè)的信息 每天 自動在各大行業(yè)網(wǎng)站 政府網(wǎng)站等數(shù)據(jù)庫中檢索最新信息 通過自建的網(wǎng) 絡爬蟲進行目標數(shù)據(jù)的抓取 存貯 歸類 展現(xiàn) 通過自己的信息檢索系統(tǒng) 可以讓自己部門每天輕松地獲得世界各地 各個部門都發(fā)生了什么 有哪些新的政策 方便管理層在最新的信息數(shù)據(jù) 下快速做出正確的決定 據(jù)統(tǒng)計 內(nèi)部網(wǎng)上的信息每年以 200 的速度增長 其中發(fā)布到互聯(lián)網(wǎng) 上的信息只占到信息量的 1 2 而 98 以上的信息是發(fā)布在內(nèi)部網(wǎng)上的 內(nèi)部網(wǎng)上的信息既有網(wǎng)頁形式的 也包含其他 Word PDF XML 等多種格式 的數(shù)據(jù) 因此 面對內(nèi)部網(wǎng)中海量異構的信息資源 如何幫助用戶快速找 到他們所需要的信息是一個主要的技術挑戰(zhàn) 搜索引擎能幫助用戶方便 快捷 安全地獲取內(nèi)部網(wǎng)上的信息 在滿 足高效的同時 更重要的是保證了較高的查全率和查準率 能提供智能化 的概念擴展搜索 極大的提高工作效率 內(nèi)部網(wǎng)搜索引擎將組織中分散管 理的信息整合在一起 在組織層面上實現(xiàn)新的增值與共享 從而有效實現(xiàn) 組織內(nèi)容利用的最優(yōu)目標 搜索引擎的目標是實現(xiàn)內(nèi)部網(wǎng)全文檢索 系統(tǒng)可對實施了內(nèi)部網(wǎng)站資 源進行爬行 無論內(nèi)部網(wǎng)上的數(shù)據(jù)源在何地 以何種形式存在 都能夠?qū)?其快速地訪問 通過準確的分詞建立索引 從而實現(xiàn)高質(zhì)量的搜索查詢 搜索引擎的主要目標包括 3 1 較高的查準率 搜索系統(tǒng)支持按詞索引 按字索引 同時實現(xiàn)中 文自動分詞 2 較高的查全率 搜索系統(tǒng)可搜索各類異構的信息資源 包括傳統(tǒng) 的網(wǎng)頁信息 Word PDF XML 等不同格式的文檔以及各類主流數(shù)據(jù)庫的表 中記錄 3 智能化的檢索結果排序 安全搜索系統(tǒng)應采用相關度分析技術 將用戶需要的信息排在結果列表的前面 屏蔽無用和錯誤的信息 二二 系統(tǒng)設計系統(tǒng)設計 2 12 1 技術原理技術原理 HX 2055 互聯(lián)網(wǎng)信息檢索系統(tǒng) 以下簡稱 HX 2055 是針對特殊行業(yè) 政府部門 決策部門設計的一款高效率互聯(lián)網(wǎng)信息檢索系統(tǒng) 采用國際一 流程序算法設計 系統(tǒng)構架與谷歌和百度的搜索引擎擁有共同的技術特點 能夠保證系統(tǒng)對實時信息的快速采集 歸類 展現(xiàn) 在當今信息爆炸的時代 每個單位或個人都在為信息的快速增長做出 了各種貢獻 信息的種類也在不斷的擴展 越來越多的非結構化信息不斷 出現(xiàn) 包括企業(yè)的各種報表 帳單 電子文檔 網(wǎng)站的各種元素 圖片 傳真 掃描影像 以及大量的多媒體的音頻 視頻信息等等 所有的存儲 數(shù)據(jù)中 有 85 采用的是非結構化格式的 非結構化信息每三個月增長一 倍 由于信息格式的差異很大 所以基本無法整合為統(tǒng)一的接口供政府工 作人員或廣大群眾方便使用 全文檢索是計算機程序通過掃描文章中的每一個詞 對每一個詞建立 一個索引 指明該詞在文章中出現(xiàn)的次數(shù)和位置 當用戶查詢時根據(jù)建立 的索引查找 類似于通過字典的檢索字表查字的過程 全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務 的軟件系統(tǒng) 全文檢索系統(tǒng)的核心則具有建立索引 處理查詢返回結果集 增加索引 優(yōu)化索引結構等功能 HX 2055 全文檢索系統(tǒng)的主要目標是實 現(xiàn)文本索引的快速構建 Index Construction 動態(tài)文檔集的索引維護 Index Maintenance 短語查詢 Phrase Query Top K 查詢的快速處理 Top k Query Process 以及各種檢索模型 IR Model 等 高性能和靈活 4 的架構也使 HX 2055 全文檢索系統(tǒng)可以應用在內(nèi)外網(wǎng)檢索 專業(yè)系統(tǒng)資料 檢索 行業(yè)專業(yè)數(shù)據(jù)庫檢索 圖 1 HX 2055 系統(tǒng)原理 HX 2055 可以實現(xiàn)對內(nèi)部網(wǎng)絡和外部網(wǎng)絡的信息抓取 歸類 展現(xiàn) 對于外 部網(wǎng)絡 HX 2055 采用網(wǎng)絡爬蟲定時對各大行業(yè)網(wǎng)站 政府部門網(wǎng)站進行數(shù)據(jù) 爬取 通過對海量數(shù)據(jù)的挖掘可以建立龐大的外網(wǎng)數(shù)據(jù)庫 通過一流的數(shù)據(jù)整 理算法 簡單 快捷 方便的展示給使用者 HX 2055 也可以對內(nèi)部網(wǎng)絡進行數(shù)據(jù)的挖掘 分析 整理 展現(xiàn) HX 2055 通過基于局域網(wǎng)的網(wǎng)絡爬蟲算法 可以對政府 行業(yè)內(nèi)部網(wǎng)站 單位內(nèi)部服務 器資源等數(shù)據(jù)源進行數(shù)據(jù)的抓取 包括內(nèi)部網(wǎng)絡的新政策 新聞通知 日常文 檔 文件資料等 5 HX 2055 搜索引擎的系統(tǒng)體系架構如圖所示 圖 2 HX 2055 內(nèi)部網(wǎng)絡搜索系結構圖 索引模塊 索 引 庫 爬 行 器 搜索結果排序 數(shù)據(jù)源注冊 資源 描述 策略描述 用戶提交搜索 安全過濾 數(shù)據(jù)庫 爬行控制 內(nèi)部數(shù)據(jù) 庫 Web 頁面 數(shù)據(jù) 庫表 數(shù)據(jù)庫 數(shù)據(jù)源 2 電子 文檔 文件系統(tǒng) 數(shù)據(jù)源 3 電子 郵件 郵件系統(tǒng) 數(shù)據(jù)源 n 搜索請求 返回結果 內(nèi)部網(wǎng)用戶 內(nèi)部網(wǎng)站 數(shù)據(jù)源 1 引擎實現(xiàn)了下列主要功能 1 爬行器 爬行器根據(jù)資源描述信息對內(nèi)部網(wǎng)中各種異構的資源信息進 行爬行 獲取所有能夠獲得的資源信息 資源信息的格式應包括 Web 網(wǎng) 頁 Word PDF Excel PPT 等格式的辦公文檔 各類主流數(shù)據(jù)庫的表中 記錄 2 索引器 通過中文分詞技術 對爬行到的資源信息進行解析 建立索 引文件 3 搜索 用戶提交其搜索條件 搜索條件經(jīng)過特定處理后 在索引文件 中檢索出所有滿足搜索條件的資源 2 22 2 系統(tǒng)構架系統(tǒng)構架 全文檢索系統(tǒng)統(tǒng)一搜索平臺的總體架構采用三層 數(shù)據(jù)層 應用層和表現(xiàn)層 可擴展 的設計 使整個系統(tǒng)不受硬件平臺的限制 具有良好的擴展性和可管理性 6 三三 系統(tǒng)功能系統(tǒng)功能 3 1 信息采集信息采集 1 采用多線程并發(fā)搜索技術 2 提供多種采集范圍控制方式 包括在指定網(wǎng)站內(nèi) 在指定域內(nèi) 以及在 指定 IP 地址范圍等方式 3 可以設置多種網(wǎng)站采集控制方式 包括采集的網(wǎng)頁大小 超時限制等 4 提供高效更新功能 對于已經(jīng)采集過的網(wǎng)站 更新時只采集發(fā)生變化和 新加入的資源 5 可以靈活設定采集結果的存儲方式 具有開放性 3 2 中文自然語言處理中文自然語言處理 1 內(nèi)嵌自動分詞系統(tǒng) 有效提高了分詞準確性 2 在應用層上 提供自動分類和摘要功能 3 支持按詞索引 按字索引 按關鍵詞索引 適應不同應用環(huán)境的需求 7 4 內(nèi)嵌相似性檢索技術 提供文章的相似性檢索和聚類功能 3 3 全文檢索功能全文檢索功能 1 支持 Web Browser Web Server 檢索方式 2 智能中文分詞 采用先進的自動分詞系統(tǒng) 根據(jù)大量的語料統(tǒng)計和分析 建立了上萬條的歧義排除規(guī)則 因此檢索 華人 不會把僅僅包含 中華人民共和 國 的文章檢索出來 3 支持結構化數(shù)據(jù)和非結構化數(shù)據(jù)的混合檢索 4 允許使用文中的任意字 詞 句和片段進行檢索 5 全方位檢索手段 與 或 非 異或 6 對數(shù)值 日期等特征字段可以進行比較和范圍檢索 7 支持任意一致的通配符檢索 模糊檢索 8 支持多網(wǎng)站的全文檢索 9 具備中文自動分詞系統(tǒng) 能有效提高分詞準確性 10 采用智能中文分詞技術 建立高效索引庫 11 支持實時索引 1分鐘內(nèi) 12 支持增量式實時索引 13 多線程設計 支持大量并發(fā)用戶訪問 每秒并發(fā)達到50個以上 14 支持在結果中查詢 15 支持 GBK BIG5 UTF8 GB18030等編碼 采用 UTF8編碼方式實現(xiàn) 多語言和多文種內(nèi)容的檢索及展現(xiàn) 16 支持中文 英文和中英文混合檢索 17 多樣化排序 包括按抓取時間排序 按相關性排序 18 多種條件組合檢索 包括標題 正文以及日期范圍檢索 19 支持關鍵詞邏輯表達式組合檢索 20 檢索結果支持基于查詢關鍵詞的動態(tài)摘要 21 支持檢索關鍵詞的高亮顯示 22 將所檢索到的信息可按設定的模版顯示 23 檢索結果模板自定義如 如文章標題 文章欄目 簡介 作者 點擊率 8 時間以及文章類別等 24 支持根據(jù)自動分類的類目進行檢索 25 采用 KNN SVM 為基礎的相關性算法 3 4 格式文件檢索格式文件檢索 支持 MS OFFICE PDF HTML 可以對 pdf rtf d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車隊駕駛員勞動合同與車輛維護保養(yǎng)協(xié)議
- 患者關系管理與經(jīng)濟效益的關系研究
- 2025年河北省廊坊市5月份英語八年級第二學期期末達標測試試題含答案
- 插班生入學及綜合素質(zhì)教育協(xié)議
- 餐飲業(yè)綠色廚房設計與實施合同
- 住宅小區(qū)地下車庫車位租賃與物業(yè)管理合同
- 廠房買賣及配套設施交易合同樣本
- 知名餐廳商鋪租賃及品牌加盟合作協(xié)議
- 白糖生產(chǎn)項目安全生產(chǎn)與應急預案合同
- 推動空氣質(zhì)量持續(xù)改善的策略及實施路徑
- 地生中考模擬試題及答案
- 慢性病管理中心建設實施方案
- T/CCMA 0163-2023履帶式液壓挖掘機維修工時定額
- 2025年下半年山西焦煤西山煤電集團公司招聘270人易考易錯模擬試題(共500題)試卷后附參考答案
- 小紅書《家的一平米》招商方案
- 2025海南中考:歷史必考知識點
- 2025年二十大黨章試題庫
- 尺骨骨折護理課件
- 處世奇書《解厄鑒》全文譯解
- 導彈的介紹教學課件
- DB32-T 5082-2025 建筑工程消防施工質(zhì)量驗收標準
評論
0/150
提交評論