




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Web2.0環(huán)境下的知識搜索引擎發(fā)展研究彭陶 /馬張華2012-10-26 15:59:15 來源:圖書館學研究:理論版 (長春)2011 年 6 期【英文標題 】On the Development of Knowledge Search Engine under the Web2.0 Environment【作者簡介 】彭陶 北京大學圖書館文獻計量學研究室;馬張華 北京大學信息管理系。北京 100871【內(nèi)容提要 】知識搜索引擎是在 Web2.0環(huán)境下產(chǎn)生的新一代互動式知識搜索系統(tǒng),其組織體系主要有兩大特點:在知識組織過程 中重視“人”的因素,在主題檢索機制中引入分類組織的思想。這兩點在國
2、內(nèi)三大知識搜索引擎百度“知道”、新浪“愛問知識 人”、雅虎“知識堂”都有不同程度的體現(xiàn)。The knowledge search engine is a new generation of interactive search engine system under Web2.0 environment, which is characterized as follows: one is the emphasis on the human element in knowledge organization; the other is the introduction to the ideas
3、of classification. The two features show in some degree in Baidu Know, Sina I Ask and Yahoo! Answers, the three famous knowledge search engines.關(guān) 鍵 詞】Web2.0/知識搜索 /知識搜索引擎 Web2.0/Knowledge search/Knowledge search engine面對互聯(lián)網(wǎng)信息量的指數(shù)級增長,傳統(tǒng)搜索引擎存在一些固有的缺陷,例如:返回的查詢結(jié)果數(shù)量過于龐大;搜索結(jié)果的直接性 和針對性較差;用戶參與度較低等。以“知識共享社區(qū)搜索
4、引擎”模式為基礎的知識搜索引擎引入了Web2.0環(huán)境下的互動性和個性化特點,在一定程度上彌補了傳統(tǒng)搜索引擎的不足。知識搜索引擎返回的查詢結(jié)果在量上更精,在質(zhì)上更高;能夠為用戶提供直接 性、針對性強的信息內(nèi)容而非網(wǎng)頁鏈接;為用戶提供了多種交流、共享信息的手段,用戶的參與度高,值得關(guān)注。1 知識搜索引擎概況知識搜索引擎的概念知識搜索引擎是一種以特定的知識性資源,如知識類、娛樂類和生活類問答信息為檢索對象的網(wǎng)絡檢索工具,通常基于自然語言 智能查詢技術(shù)進行處理和提供,用戶輸入簡單的疑問句,搜索引擎在對提問進行詞法、句法和內(nèi)容分析之后,或直接給出提問的答案; 或引導用戶從幾個可選擇的問題中進行再選擇;如
5、果沒有滿意的答案,可確定為新問題,等待他人回答。知識搜索引擎模式整體架構(gòu)雖然目前基于問答平臺的知識搜索引擎仍然在逐步探索中, 但國內(nèi)外一些知名搜索引擎公司都十分關(guān)注并進行了這一模式的研發(fā) 從目前的發(fā)展看,這類系統(tǒng)通常包括五個部分:問題理解、信息檢索、知識問答、評價監(jiān)督和知識庫(見圖 1)。1.2.1 問題理解模塊( Question Analysis )問題理解即問題分析,主要是對自然語言提問進行詞法、語法分析,提取有價值的查詢概念。傳統(tǒng)搜索引擎也有類似的模塊,但 兩者的檢索對象不同,方法不同。傳統(tǒng)搜索引擎面向的對象是整個互聯(lián)網(wǎng)資源,搜索結(jié)果往往是數(shù)以萬計的網(wǎng)頁;而知識搜索引擎面 向的對象是自
6、身積累的知識庫,對象比較單純,為了能夠有針對性地訪問信息來源,知識搜索引擎的問題理解模塊引入了分類組織方 法,通過主題詞分類,將問題理解過程上升到關(guān)鍵詞的語義層次,以充分理解用戶的真實請求。如用戶提問:梅蘭芳的主演是 誰?系統(tǒng)經(jīng)判斷確定“主演”一詞屬于娛樂電影或電視范疇,同時有“梅蘭芳”作為電影名字的數(shù)據(jù)記錄,就可以直接在知識庫中的 “娛樂”字庫進行搜索。信息檢索模塊( Information Retrieval )在知識搜索引擎系統(tǒng)中,信息檢索模塊處于核心地位。通常在接受問題分析模塊所返回的帶有加權(quán)系數(shù)的關(guān)鍵詞組(對關(guān)鍵詞加 權(quán),表示該詞在當前問題中的重要程度,例如專有名詞獲取的權(quán)值一般最高
7、)后,在知識庫中檢索,如檢測相關(guān)答案,須將檢索結(jié)果 按照某種規(guī)則排序返還給用戶;如沒有相應條目,該查詢即進入知識問答模塊。信息檢索模塊對檢索結(jié)果的檢全率和檢準率,直接影 響著用戶得到的最終答案及下一步的選擇。圖 1 知識搜索引擎系統(tǒng)圖該模塊所面對的不是用戶本身,而是本地知識庫中大量的文檔信息。一般先在對該文檔進行預處理(包括文檔分段、分詞)的基 礎上建立索引,以加快檢索的速度;其次,該模塊聚合了“人”的力量,其搜索結(jié)果的排序是關(guān)鍵詞加權(quán)系數(shù)與用戶評價系數(shù)的綜合 結(jié)果,用戶評價的好壞和等級對輸出結(jié)果的排序有直接影響。如果說機器算法為搜索結(jié)果提供了量的保證,那么用戶評價就為搜索 結(jié)果提供了質(zhì)的評判
8、。信息檢索模塊的結(jié)構(gòu)如圖 2 所示。圖 2 信息檢索模塊知識問答模塊( Question Answering )在信息檢索模塊中匹配失敗的問題則進入知識問答模塊,此模塊為用戶提供了一個提問和回答的平臺,可以對問題進行進一步補 充說明,并由平臺對問題進行自動分類或提問者手動調(diào)整分類。用戶通過問答平臺,將頭腦中的隱性知識轉(zhuǎn)化為顯性知識,實現(xiàn)知識 共享。評價監(jiān)督模塊( Evaluation and Supervision )開放網(wǎng)絡環(huán)境的自由特色在促進網(wǎng)絡用戶交流和知識共享的同時,也給知識產(chǎn)品帶來了明顯的負面影響,這是由于缺少了傳統(tǒng)的 “看門人”把關(guān),導致知識產(chǎn)品質(zhì)量的良莠不齊。因此,在 Web2.
9、0環(huán)境下,采用有效的質(zhì)量評價機制至關(guān)重要。在知識搜索引擎系統(tǒng)中,最關(guān)鍵的因素是“人”的參與。在質(zhì)量評價方面,知識搜索引擎充分利用了知識網(wǎng)絡中“人”的力量, 即大眾智慧的測評能力。 首先,提問者對于回答者提供的答案可以進行滿意度評價;其次,對于回答,普通用戶也可以直接在線上 進行評論;最后,用戶發(fā)現(xiàn)任何違反平臺規(guī)則的現(xiàn)象都可以投訴,每個回答都有相應的糾錯功能,系統(tǒng)管理員會迅速反應進行相應處理。由此,回答的內(nèi)容質(zhì)量得到了有效地反饋和監(jiān)控。評價監(jiān)督模塊是知識搜索引擎區(qū)別于傳統(tǒng)搜索引擎的一個特點,它不僅有助于 保證開放網(wǎng)絡環(huán)境下的問答質(zhì)量,而且也有利于為用戶提供有針對性的、精確的搜索結(jié)果。知識庫模塊(
10、 Knowledge Base)知識庫就是把用戶已解決的問題、答案和評價保存起來,形成檢索“答案”庫。對用戶的提問首先在知識庫搜索,如果有相應條 目,即可直接檢出答案,不需要經(jīng)過復雜的處理,還能保證答案的質(zhì)量。知識庫是動態(tài)的,可以實時接受新知識,進行擴展與更新。2 知識搜索引擎中的組織體系以國內(nèi)知識搜索引擎的具體實踐為例知識搜索引擎與傳統(tǒng)搜索引擎提供檢索的單一服務模式不同,其最大特點在于集成了多樣化的問答信息和提供多種形式的服務, 可根據(jù)自身內(nèi)容的特點和用戶需求,集搜索引擎、信息分類瀏覽、知識問答、社區(qū)用戶收藏資源、用戶交流等服務于一體,為用戶提 供一站式服務。其組織體系可用于: 資源分類瀏覽
11、、資源主題檢索、 與其他資源系統(tǒng)的檢索或瀏覽互操作等。 筆者選取了百度 “知道”、 新浪“愛問知識人”和雅虎“知識堂”進行案例研究知識搜索引擎的分類體系筆者于 2010年 9月17日調(diào)查了國內(nèi)三大知識搜索引擎的分類體系,結(jié)果見表 1從上表中可以看出,知識搜索引擎的分類體系一般有 1015 個類目,其劃分的類目數(shù)量、類目名稱、類目級次、排列次序各異,缺乏規(guī)律性。同時,其類目體系也表現(xiàn)出一些不同于傳統(tǒng)分類體系的特征:以主題為中心設類,在大類設置上突出生活性類目,弱化 學術(shù)性類目;類名措辭采用通俗的自然語言詞匯;具有較高的動態(tài)性,每個知識搜索引擎都是根據(jù)其資源數(shù)量和用戶需求的不同來建 立具有不同偏重
12、的分類體系。知識搜索引擎的主題檢索機制知識搜索引擎的分類體系主要是為用戶提供分類瀏覽功能,起到一個輔助作用,其核心的部分是主題檢索機制。二者的結(jié)合,加 快了系統(tǒng)的反應速度,提高了檢全率和檢準率。2.2.1 檢索結(jié)果排序知識搜索引擎面對的是本系統(tǒng)的知識庫,資源大都經(jīng)過用戶評價和系統(tǒng)篩選。相對于整個網(wǎng)絡上的資源來說,知識庫中的資源在 量上更精,在質(zhì)上更高。當然,知識搜索引擎在檢索結(jié)果提供時,也要考慮如何在保證檢全率的同時提高檢準率的問題,涉及的因素 包括:詞頻、詞匯一致度、詞位因素、用戶評價等級和提問時間等。前三個因素與傳統(tǒng)搜索引擎一致,其最大的特點在于“用戶評價 等級”的引入,用大眾參與的形式實
13、現(xiàn)了對資源的有效篩選,顛覆了搜索結(jié)果按一定規(guī)則累加的工作模式。“從堆到篩”的改變不僅 提升了用戶搜索的效率和質(zhì)量,還繞開了搜索引擎因數(shù)據(jù)高速膨脹而導致的技術(shù)發(fā)展瓶頸。另外,知識搜索引擎還充分考慮了資源的 時效性,將“提問時間”也作為搜索結(jié)果排序的一個重要因素。檢索結(jié)果優(yōu)化 知識搜索引擎大多采用了一些縮小或約束檢索結(jié)果的方法,對檢索結(jié)果進行一定的限定。這種限定可以看作是一種變式的高級搜索形式,通過限定檢索問題的性質(zhì),過濾一些不必要的資源,提高檢準率,節(jié)省用戶的時間和精力。比較國內(nèi)三大知識搜索引擎,都對搜索范圍做出了不同詳略程度的限制,詳見表 2。從表 2 可以看出,百度“知道”只提供了對問題性質(zhì)
14、的限定;新浪“愛問知識人”提供了問題性質(zhì)和提問時間兩個層面的限定組 合,其限定因素可以交叉組配。雅虎“知識堂”提供了三個層面的限定組合,一是對問題性質(zhì)的限定;二是每一種性質(zhì)的問題都有特 定的、與之對應的檢索結(jié)果排序方式。例如:對于“提問中的問題”,用戶可以選擇三種檢索結(jié)果排序方式:“相關(guān)性”、“發(fā)問時 間”、“贈分數(shù)”;三是在動態(tài)聚類的基礎上,提供檢索提問所屬的類別及資源數(shù)量。如檢索提問為“如何美白?”,系統(tǒng)自動聚類 后提供了檢索提問的特定分類,分別在“美容時尚”、“保健常識”、“女性”等大類。目前,只有雅虎“知識堂”在返回檢索結(jié)果 的同時,給出了其分類體系,用戶可以根據(jù)自己感興趣的方面來選擇
15、特定分類的搜索結(jié)果。3 知識搜索引擎的發(fā)展展望在 Web2.0 的環(huán)境下,知識搜索引擎的出現(xiàn)彌補了傳統(tǒng)搜索引擎存在的種種缺陷,滿足了用戶個性化、社區(qū)化的新需求。但是,知 識搜索引擎還處于摸索階段,很多方面還存在不足,需要不斷改進和優(yōu)化。3.1 在分類體系中引入 Tag 的應用在知識搜索引擎的分類體系中, 熱門類目具有突出顯示的特點。 所謂熱門類目,是指用戶最需要的、 被頻繁使用的那些類目。 將 熱門類目突出列舉,這樣做的好處是使用戶在瀏覽中迅速進入感興趣的類目,并把一些按邏輯等級在知識樹中比較隱蔽的信息揭示出 來。但突出列類影響了分類導航系統(tǒng)的邏輯性,導致熱門類目下的資源數(shù)量增長過快,影響類目
16、之間的均衡性。為了解決熱門類目突出顯示所引發(fā)的類目發(fā)展不均衡問題,筆者建議在知識搜索引擎的分類體系中,引入Tag(標簽)的應用。答用戶常常會遇到不知該將信息劃分到何種類目下的困惑具體來說就是在分類體系外增加一個標簽表,以供用戶進行專題檢索。其作用在于:一方面,由于人類社會涉及的領(lǐng)域十分廣泛,問Tag具有較強的靈活性,用戶可以根據(jù)自己的理解對問答信息進行標簽設 置,具有相同 Tag 的問答信息被自動聚合在一起。另一方面,熱門類目可以在標簽表中集中顯示,而在原分類體系中的位置保持不變, 并運用字體、字形、色彩等屏幕顯示技術(shù)進行突出顯示。檢索來源本地知識檢索和搜索引擎檢索相結(jié)合的多級檢索目前,大多數(shù)
17、知識搜索引擎都將檢索來源限定在本系統(tǒng)構(gòu)建的知識庫中,筆者認為這樣會導致檢索來源的受限,不能充分滿足用 戶的檢索需求。 筆者建議知識搜索引擎充分利用網(wǎng)絡資源和其他知識共享平臺, 采用本地知識檢索和搜索引擎檢索相結(jié)合的多級檢索多級檢索需要包括以下檢索來源:首先,充分利用維基百科,建立一個常識庫,對一些常識性問題進行快速檢索;其次,面向本 系統(tǒng)和其他問答系統(tǒng)中已經(jīng)確定答案的問題,建立一個知識庫,用于快速檢索常問問題;最后,對于依然沒有檢索到的問題,一是進 行 Internet 檢索,抽取可能的答案;二是選擇提出新的問題。國內(nèi)三大知識搜索引擎檢索來源和范圍的對比詳見表3。檢索形式有效的提問去重機制和高
18、級檢索在調(diào)研中,筆者發(fā)現(xiàn)大多數(shù)知識搜索引擎只提供了模糊的簡單檢索,檢索結(jié)果數(shù)量龐大且內(nèi)容重復現(xiàn)象嚴重。筆者以“怎么清洗 羽絨服?”在新浪“愛問知識人”搜索,結(jié)果竟然有 901條,而且前 100條結(jié)果中就有 78 條完全相關(guān)的答案。使用同樣的檢索問句, 在百度“知道”得到 339 條結(jié)果,在雅虎“知識堂”得到 255 條結(jié)果??梢钥闯觯笾R搜索引擎都面臨同樣的問題:用戶進行搜 索后,得到的是大量千篇一律的回答,問答信息內(nèi)容重復的現(xiàn)象相當嚴重。通過對三者檢索形式的比較分析,筆者認為造成問答信息內(nèi)容重復的原因主要有兩個方面:一是缺乏有效的提問去重機制,二是 缺乏高級檢索方式。詳見表 4。綜上所述
19、,筆者認為解決問答信息內(nèi)容重復的問題可以從兩方面入手:第一,建立有效的提問去重機制。一是在提問流程方面, 引導用戶“先搜索再提問”,例如在系統(tǒng)首頁只提供搜索輸入框;二是將相似問題展示融入到提問流程中,用戶輸入提問后,系統(tǒng)在 頁面的明顯位置自動推送出已有的相似問題,加強提示效果。第二,增加高級檢索功能,提高查準率。例如:按詞語搜索、按類別搜 索、按正面評價搜索等。檢索結(jié)果優(yōu)化分類體系與主題檢索機制結(jié)合近年來,知識搜索引擎發(fā)展迅速,隨著訪問量和問題增長速度的提高,知識庫中積累的問答信息量十分龐大,百度“知道”的問 題數(shù)量已上億。 面對如此海量的數(shù)據(jù),如何提高搜索精度、減少噪音、優(yōu)化檢索結(jié)果是目前知
20、識搜索引擎所要解決的新問題。筆者認為分類體系和主題檢索機制的有機結(jié)合是提高檢索準確率的重要手段,通過對搜索范圍的限定,過濾用戶不需要的信息。 一種方法是在一個類目下進行自然語言搜索,把結(jié)果限定在本類的范圍;另一種方法是在檢索結(jié)果中引入分類法,將檢索結(jié)果分類編 排。這樣,用戶就可以利用分類迅速篩選結(jié)果,減少逐條查看結(jié)果之苦。4 結(jié)語知識搜索引擎的組織體系主要有兩大特點:一是在整個知識組織過程中重視“人”的因素。主要體現(xiàn)在:在信息檢索模塊,用戶 對問答的評價等級是影響搜索結(jié)果排序的重要因素之一;在評價監(jiān)督模塊,用戶的參與在一定程度上保證了開放網(wǎng)絡環(huán)境下的問答質(zhì) 量;二是在主題檢索機制中引入分類組織的思想。主要體現(xiàn)在:在問題理解模塊,通過主題詞分類明確了具體的數(shù)據(jù)源范圍;在檢索 結(jié)果優(yōu)化中,通過對檢索結(jié)果的分類編排和 Tag 應用,更加精確地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 5 animal friends Lesson 2 教學設計 -2024-2025學年冀教版英語七年級上冊
- 2025年城鎮(zhèn)化并購重組基金資金監(jiān)管協(xié)議
- 《總復習解決問題練習課》(教案)2024-2025學年數(shù)學二年級上冊
- Unit 3 Sports Lesson 2 Let's practice(教學設計)-2024-2025學年北師大版(三起)英語六年級上冊
- 2025年學習雷鋒精神六十二周年主題活動方案 (合計3份)
- 北師大版數(shù)學三年級上冊單元測試卷-第六單元-乘法含答案
- 8-數(shù)學廣角-搭配(二)-人教版三年級下冊數(shù)學單元測試卷含答案和解析
- 2025年度東莞市入學積分制教育培訓機構(gòu)招生合作協(xié)議
- 2025年度咖啡連鎖店轉(zhuǎn)讓與區(qū)域管理合同
- 2025年度應屆畢業(yè)生就業(yè)安置與跟蹤服務協(xié)議
- 某學校食堂服務投標書
- 空調(diào)維保服務項目質(zhì)量保障措施
- 《馬克思主義與社會科學方法論》課后思考題答案全
- 急性心肌梗塞
- 八年級地理下期教學計劃(星球地圖版)
- 藍色科技風半導體產(chǎn)業(yè)PPT模板
- 院感手衛(wèi)生培訓課件
- 鑄牢中華民族共同體意識學習PPT
- 多重耐藥鮑曼不動桿菌治療課件
- 物理光學-第二章-光波的疊加與分析-課件
- PID圖(工藝儀表流程圖)基礎知識培訓課件
評論
0/150
提交評論