好醫(yī)生搜索引擎_第1頁
好醫(yī)生搜索引擎_第2頁
好醫(yī)生搜索引擎_第3頁
好醫(yī)生搜索引擎_第4頁
好醫(yī)生搜索引擎_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、好醫(yī)生搜索引擎好醫(yī)生搜索引擎需求說明書需求說明書技術(shù)部版本日期提交人版本描述修改歷史1.02008-10-22葛帥初建初建目錄目錄產(chǎn)品概述核心技術(shù)功能簡介環(huán)境要求及性能指標和百度的差別和 GOOGLE 的差別硬件要求一、一、產(chǎn)品概述產(chǎn)品概述好醫(yī)生垂直搜索系統(tǒng)解決方案可用于網(wǎng)上行業(yè)信息集成。最新版本的好醫(yī)生垂直搜索技術(shù)包括幾十項實用改進,它綜合了多家搜索引擎技術(shù)公司的研發(fā)經(jīng)驗,以及數(shù)十名專業(yè)技術(shù)人員的研發(fā)成果。由負責(zé)網(wǎng)站抓取的服務(wù)器端程序和前臺搜索頁面構(gòu)成。其主要特點是:結(jié)構(gòu)清晰,安裝簡單,可提供用戶頂級的搜索體驗。產(chǎn)品基礎(chǔ)模塊如下: 1.全文檢索服務(wù)2.網(wǎng)頁索引服務(wù)3.自動摘要4.簡體中文分詞

2、5.中文同義詞庫6.網(wǎng)頁內(nèi)容提取7.醫(yī)學(xué)詞庫及癥狀至疾病邏輯關(guān)系庫8.拼音搜索9.中英文對應(yīng)詞庫 10.從正文提取癥狀 11.從癥狀自動關(guān)聯(lián)相關(guān)疾病 12.提供各模塊及搜索結(jié)果接口注:各模塊要求可以便捷的維護更新。系統(tǒng)總體結(jié)構(gòu)如下:二、二、核心技術(shù)核心技術(shù)好醫(yī)生垂直搜索系統(tǒng)集成自然語言處理領(lǐng)域與醫(yī)學(xué)數(shù)據(jù)庫檢索技術(shù)完美結(jié)合。中文分詞中文分詞(CnTokenizer)可以作為獨立的一個模塊調(diào)用,作為二元分詞方法的替代。分詞準確率 98%以上。同時支持分詞和詞性標注。提供參數(shù)調(diào)節(jié)分詞準確性和切分速度。100%采用 c+實現(xiàn)的分詞組件,無內(nèi)存泄漏問題??砷L期不間斷運行。采用多種分詞方法結(jié)合,包括基于概

3、率的 n 元切分方法,隱馬爾科夫模型,未登錄詞識別算法,歧義識別算法和基于規(guī)則的方法等。采用多個大規(guī)模語料庫訓(xùn)練概率詞庫。針對多線程使用優(yōu)化,占用內(nèi)存少。SpiderWebDatabaseIndex DBSearcher文本分類文本分類可以用中文,英文兩種語言來進行文檔分類。中文文本分類內(nèi)部集成好醫(yī)生中文分詞模塊。可以采用 SVM 分類方法。采用概率估值算法,特征加權(quán)算法??蛇x擇多個特征評估函數(shù),特征選擇方式可以采用全局選取和按類別單獨選取。提供參數(shù)調(diào)節(jié)分類準確性和速度。100%采用 c+實現(xiàn)的分類組件,無內(nèi)存泄漏問題??砷L期不間斷運行。提供分類結(jié)果評測,讓你隨時了解分類的準確性。采用手工整理

4、大規(guī)模語料庫訓(xùn)練分類模型。封閉測試準確率在 95%以上。針對多線程使用優(yōu)化,占用內(nèi)存少。關(guān)鍵詞提取關(guān)鍵詞提取可以用中文,英文兩種語言提取關(guān)鍵詞。可以提取任意數(shù)量的關(guān)鍵詞。可以針對行業(yè)優(yōu)化提取關(guān)鍵詞??梢愿鶕?jù)一個給定詞提取出相關(guān)關(guān)鍵詞??梢詮恼奶崛〕?檢查,藥品,疾病,醫(yī)院,手術(shù),癥狀,醫(yī)院,專家,并設(shè)定權(quán)重值。三、功能簡介三、功能簡介中文分詞中文分詞中文分詞可以全面提升返回結(jié)果的準確率。好醫(yī)生做為專業(yè)的醫(yī)學(xué)搜索引擎,專注基礎(chǔ)研發(fā),不斷打破查準率的極限。搜索“美的”效果:提供 webservice,適應(yīng)多種平臺應(yīng)用的需要。具有智能化的學(xué)習(xí)新詞功能,可以往詞表添加新詞。可以自動從大規(guī)模文檔中提取

5、出新詞。準確度可達 50%以上。中英文同義詞查找中英文同義詞查找可以同時查找中文和英文的多項同義詞:搜索引擎會根據(jù)同義詞庫查找出更多的相關(guān)結(jié)果。按內(nèi)容格式分別進行索引按內(nèi)容格式分別進行索引網(wǎng)頁,資訊,課件,文獻, 問答, 論壇, 商品。關(guān)鍵字飄紅顯示及自動摘要關(guān)鍵字飄紅顯示及自動摘要自動摘要邊界顯示準確:網(wǎng)頁內(nèi)容提取網(wǎng)頁內(nèi)容提取用戶只需指定專題網(wǎng)頁的 URL,程序可以自動找出網(wǎng)頁模版。提取出頁面內(nèi)的標題或者日期,內(nèi)容等,并將提取的正文自動分類并存入 mysql 數(shù)據(jù)庫,要求提取正確率 95%以上。分類查找分類查找文檔可以自動分類。用戶可以按類別查詢文檔。按藥品,專家,疾病,癥狀,檢查,機構(gòu),會

6、議, 營養(yǎng),相關(guān)研究,分類統(tǒng)計分類統(tǒng)計可以按照分組統(tǒng)計統(tǒng)計返回搜索結(jié)果,并提供確切的匹配數(shù)量:二次檢索二次檢索支持在結(jié)果中再次查找,對查詢結(jié)果進一步篩選。關(guān)鍵詞聚類關(guān)鍵詞聚類醫(yī)藥行業(yè)信息中的一些熱門關(guān)鍵詞:相關(guān)搜索相關(guān)搜索當(dāng)用戶搜索安利時,會出現(xiàn)像:雅芳 直銷 這樣的非字面擴展的相關(guān)搜索詞。當(dāng)用戶搜索 奔馳 也會出現(xiàn) 奧迪 歐寶 寶馬 這樣的同類品牌。這些相關(guān)搜索詞都是機器自動生成而非人工干預(yù)的結(jié)果。相關(guān)文章相關(guān)文章對一篇文獻自動鏈接相關(guān)文章接口并與 CMS 集成。搜索日志搜索日志可以統(tǒng)計搜索詞和查詢 IP 地址,日期 等信息的搜索日志。并且可以對搜索日志按地區(qū),行業(yè),時間等深入分析用戶行為。

7、復(fù)雜條件查找復(fù)雜條件查找可以實現(xiàn)數(shù)據(jù)庫式的多條件查找。比如按照日期、價格等。可以設(shè)置是否在標題前顯示縮圖。自定義監(jiān)測網(wǎng)站自定義監(jiān)測網(wǎng)站可以指定一個或者多個網(wǎng)站作為搜索的信息來源。同時可以定義網(wǎng)站的目錄 URL 做為文檔分類的依據(jù)??梢远x遍歷網(wǎng)站的層次。監(jiān)測網(wǎng)站監(jiān)測網(wǎng)站通過服務(wù)器端程序監(jiān)測指定網(wǎng)站,自動對網(wǎng)站生成的靜態(tài)頁面進行 SEO 優(yōu)化。程序可以自動監(jiān)測指定網(wǎng)站,采用每天或者每小時輪詢方式發(fā)現(xiàn)新網(wǎng)頁。可以通過配置文件指定掃描網(wǎng)站的方式。當(dāng)然也可以通過命令行建立文檔索引。建立索引方式可以是全量或增量。內(nèi)部采用智能適應(yīng)算法發(fā)現(xiàn)新增文檔速度快。一般的行業(yè)性網(wǎng)站每天的增量文檔處理只需要 100 多

8、秒即可完成。自定義排序方式自定義排序方式可按時間或者相關(guān)度返回搜索結(jié)果,并顯示相關(guān)度。按時間,按相關(guān)度排序高級查詢功能高級查詢功能支持包括按關(guān)鍵字查詢和詞組查詢,組合查詢,以及查詢修飾符等。舉例如下:任意字符匹配Ro?e前綴匹配rom*模糊匹配rome rome0.8把搜索范圍限定在標題中title:木工把搜索范圍限定在內(nèi)容中body:機械邏輯查詢 電腦 & !IBM增加關(guān)鍵詞的重要度相機4 手機其配置情況可以在 TXT 文件中定義:索引庫管理和分析工具索引庫管理和分析工具擁有完整的索引庫管理工具。可以通過 web 登陸后臺刪除查詢注釋某條搜索結(jié)果不在前臺展現(xiàn)。三、三、 環(huán)境要求及性能指標環(huán)境要求及性能指標支持 Linux 及 Unix 操作系統(tǒng),采用 C/C+語言開發(fā)。各種版本可在如下環(huán)境穩(wěn)定運行:VersionOperating SystemSDK/.NetJavaLinux Sun Java 2 SDK 1.4Sun Java 2 SDK 1.5網(wǎng)站增量數(shù)據(jù)的索引一般可以在 3 分鐘之內(nèi)執(zhí)行完畢。10G 左右的純文本信息在數(shù)小時內(nèi)即可索引完畢。四、四、 和百度的差別和百度的差別百度不支持同義詞查找,而好醫(yī)生支持。百度不支持全角字符大小寫的原樣保持,而好醫(yī)生支持。百度不支持多國語言精確查找。五、和五、和 Google 的差別的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論