信息組織與檢索.doc_第1頁
信息組織與檢索.doc_第2頁
信息組織與檢索.doc_第3頁
信息組織與檢索.doc_第4頁
信息組織與檢索.doc_第5頁
全文預覽已結(jié)束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

搜索引擎質(zhì)量評價體系研究標簽:質(zhì)量評價體系搜索引擎it 分類:學術論文急劇擴大的網(wǎng)絡資源在給公眾帶來極大方便的同時,也給搜索引擎帶來了新的挑戰(zhàn)。建立科學、公正、系統(tǒng)的搜索引擎質(zhì)量評價體系可以促進搜索引擎的建設和利用。 1 建立搜索引擎質(zhì)量評價體系的意義 面對浩如煙海的網(wǎng)絡信息,搜索引擎作為最流行的網(wǎng)絡檢索工具越來越受到大眾重視。同時,用戶也常常到無所適從的問題:當成千上萬的搜索結(jié)果到來之時,卻很難從中找到所需要的結(jié)果。根據(jù)searchengine watch對5個著名英文搜索引擎的統(tǒng)計,各大搜索引擎的搜索結(jié)果優(yōu)良率均在40以下。造成這種局面的原因很多,有技術難題:如人機交流實現(xiàn)方式問題,技術難題的解決需要計算機科學的不斷進步來解決;也有搜索引擎的設計運行問題,這一問題的解決可以通過建立既反映用戶要求,又符合現(xiàn)有技術能力的搜索引擎評價質(zhì)量體系,指導用戶使用和搜索引擎網(wǎng)站改進產(chǎn)品11 有利于公眾更好的利用搜索引擎進行網(wǎng)絡信息檢索 盡管搜索引擎在網(wǎng)絡檢索中起著不可替代的作用,但受知識水平、信息渠道的限制,許多用戶常常不能正確的選擇和使用搜索引擎。面對多元化的網(wǎng)絡信息,不同的搜索引擎都有各自的強項。搜索引擎評價體系可以建立用戶與搜索引擎網(wǎng)站交流的橋梁,幫助和指導用戶甄別和使用合適的搜索引擎。如搜索引擎評價體系通過建立專業(yè)搜索引擎推薦序列,指導用戶利用某一專業(yè)搜索引擎檢索該專業(yè)資料,會收到較好的效果。 12 指導普通網(wǎng)站進行搜索引擎優(yōu)化 據(jù)統(tǒng)計,大多數(shù)網(wǎng)站訪問量的70是通過搜索引擎獲得的,所以網(wǎng)站在搜索引擎上“表現(xiàn)”如何,直接影響到了網(wǎng)站的推廣程度。建立搜索引擎評價體系可以用來指導商業(yè)網(wǎng)站進行搜索引擎優(yōu)化。例如搜索引擎質(zhì)量評價體系可以促進搜索引擎對搜索關鍵詞的標準化設置,指導普通網(wǎng)站根據(jù)企業(yè)建站的思路設置網(wǎng)站核心關鍵詞,提高網(wǎng)站的搜索引擎排名。 13 指導搜索引擎網(wǎng)站改進產(chǎn)品搜索引擎評價體系可以通過反映用戶的要求和專家的觀點建立對搜索引擎的科學評價,指導搜索引擎的改進。目前搜索引擎網(wǎng)站的升級速度落后于通用軟件,已經(jīng)影響了用戶對網(wǎng)絡資源的使用。搜索引擎評價體系可以促進用戶與搜索引擎供應商之間進行交流。普通用戶對搜索引擎的認識往往是感性的,所提出的要求缺乏針對性和可操作性,往往得不到搜索引擎網(wǎng)站的足夠重視。搜索引擎評價體系將用戶的普遍要求翻譯成專業(yè)的、量化的改進建議,將其反映到搜索引擎質(zhì)量評價體系中,對搜索引擎的供應商施加較大的影響力,促使其在較短時間內(nèi)進行產(chǎn)品升級。搜索引擎評價體系可以通過定期對搜索引擎網(wǎng)站進行受歡迎程度、技術、美學或總體評價和排名,以便引導用戶的消費指向,促進搜索引擎的改進。 2 對搜索引擎進行總體評價 搜索引擎是一種結(jié)合了多種學科的網(wǎng)絡檢索產(chǎn)對不同類型的搜索引擎網(wǎng)站按照相應標準進行評品,設立可操作性的評價體系有相當難度。筆者認價。為可以通過設置總體評價體系和單項評價指標來分別進行定性和定量評價。搜索引擎總體評價主要是針對那些難以從技術角度進行量化的方面,主要可以通過公眾調(diào)查和搜索引擎產(chǎn)品之間的功能比較進行相應質(zhì)量評價。 21 用戶舒適程度 搜索引擎要爭取更多的客戶,既要將網(wǎng)站外觀做得漂亮,使用戶在訪問搜索引擎的過程中獲得美的享受,又給用戶操作帶來方便。搜索引擎的用戶舒適程度包括以下幾個方面:搜索引擎網(wǎng)站界面的外觀設計是否符合美學原則;用戶操作是否方便,如幫助功能是否完備、是否有相應的功能說明。用戶的舒適程度可以根據(jù)受用戶歡迎程度來評估,可以通過統(tǒng)計點擊率、網(wǎng)上投票或設計問卷調(diào)查等途徑獲得。由專家對統(tǒng)計結(jié)果進行調(diào)查分析,將評價結(jié)果通過各種媒體反饋給網(wǎng)絡用戶和搜索引擎網(wǎng)站,指導檢索實踐。 22 專業(yè)程度 網(wǎng)絡文件的格式、內(nèi)容、網(wǎng)絡傳輸協(xié)議相當復雜,不同的搜索引擎網(wǎng)站也應進行專業(yè)化分工以便提供優(yōu)質(zhì)、高效的服務。因此,搜索引擎專業(yè)程度是重要的評價方面。搜索引擎質(zhì)量評價體系可以根據(jù)搜索引擎網(wǎng)站的不同定位,針對某一指標對其專業(yè)度進行評價。針對搜索對象的不同內(nèi)容,搜索引擎網(wǎng)站應設立有針對性的數(shù)據(jù)庫和索引。門戶搜索引擎網(wǎng)站主要針對大眾一般性需求,如新聞、娛樂資料。對檢索內(nèi)容比較專業(yè)的信息則使用專業(yè)搜索引擎,如搜索旅游方面內(nèi)容,中國旅游網(wǎng)搜索引擎是國內(nèi)比較好的旅游中文專業(yè)搜索引擎。搜索引擎評價體系可以針對PDF,WORD,RMVB,AVI等不同格式的文件分別設計搜索引擎檢索功能,可以大大提高檢索效果。如PDF格式被廣泛應用于學術論文的電子化,專門針對此類格式的搜索引擎正在獲得學術界青睞。此外,針對搜索對象的不同傳輸協(xié)議的搜索引擎也受到用戶歡迎。如專門檢索ftp文件的天網(wǎng)ftp文件檢索系統(tǒng)擁有一批以學生為主的、忠誠度特別高的用戶群。 23 智能化程度 搜索引擎評價體系可以促進搜索引擎的智能化進程。搜索引擎結(jié)合人工智能技術可以使網(wǎng)絡信息檢索從基于關鍵詞提高到基于知識或概念,通過采用數(shù)據(jù)挖掘技術、智能代理技術、基于人工智能的知識發(fā)現(xiàn)術,使網(wǎng)絡檢索服務具備智能化、人性化特征。評價搜索引擎的智能化程度,可以設立以下標準:(1)在保證檢索精度的前提下,搜索引擎要對網(wǎng)頁按重要性排序。這是因為用戶往往沒有足夠的時間查閱所有的搜索果,優(yōu)先顯示重要的檢索結(jié)果就十分必要。以Google的排序方式為例,當從網(wǎng)頁B被鏈接到網(wǎng)頁A時,Google就認為“網(wǎng)頁A投了網(wǎng)頁B一票”。網(wǎng)頁的得票數(shù)越多,Google就認為其重要性越大。Google還分析為其投票的網(wǎng)頁,不同網(wǎng)頁所投出的票也具有不同的重要性。被“重要”網(wǎng)頁投票的網(wǎng)頁“重要性”會被適當放大;(2)跨語言檢索?;ヂ?lián)網(wǎng)打破了國界,跨語言檢索越來越顯得重要,成為搜索引擎評價體系中不可忽視的一環(huán)??缯Z言檢索可以通過在主頁上添加在線翻譯功能,也可以將在線翻譯功能放在后臺運行;(3)網(wǎng)頁快照技術。通過儲存應急網(wǎng)頁,以便用戶在訪問已經(jīng)過時或不存在的網(wǎng)頁。網(wǎng)頁快照技術是Google最先使用,現(xiàn)在已經(jīng)成為百度等各大搜索引擎網(wǎng)站所必備的功能。搜索引擎技術處在不斷進步中,對其智能化程度的質(zhì)量評價應該是一個開放的系統(tǒng),隨著其功能進步而增加具體評價項目,以某一著名搜索引擎為基準,對其他搜索引擎按相對比例打分。 3 搜索引擎可量化的單項評價指標 可量化的指標是質(zhì)量評價體系科學性的重要體現(xiàn)。因此,搜索引擎評價體系要大量采用可反映搜索引擎檢索質(zhì)量的量化評價指標,用于指導搜索引擎的建設和用戶的使用。 31 傳統(tǒng)的搜索引擎質(zhì)量評價指標 基于紙質(zhì)文獻的傳統(tǒng)評價指標經(jīng)過了數(shù)十年的發(fā)展,已經(jīng)相當?shù)某墒?,其中的主要指標也可以用來評價搜索引擎的檢索質(zhì)量,但部分指標需要針對網(wǎng)絡檢索的特點作一定程度的修改和完善才能較好的反映網(wǎng)絡環(huán)境下信息檢索的特點。 3、11 搜索引擎查全率搜索引擎查全率是指從 搜索引擎系統(tǒng)檢出的與某檢索課題相關的信息數(shù)量與搜索引擎系統(tǒng)中實際與該課題相關的信息總量之比率。但是在網(wǎng)絡環(huán)境下,信息處于動態(tài)的變化過程中,搜索引擎查全率指標比較難測算。因此,可以通過搜索引擎相對查全率作為搜索引擎查全率的補充。搜索引擎相對查全率可操作性較強,但受人為不確定因素的影響較大。312 搜索引擎查準率搜索引擎查準率是又一 重要的質(zhì)量評價指標,是指從搜索引擎檢索系統(tǒng)檢出的有關某課題的信息條數(shù)與搜索引擎輸出的信息條數(shù)之比率。搜索引擎的查準率和查全率存在不兼容性,要提高搜索引擎查全率往往要放寬信息檢索范圍,而這會造成搜索引擎查準率的下降;同樣,要提高查準率就要縮小搜索范圍,但容易漏掉所需要的信息。由于網(wǎng)絡環(huán)境信息極大豐富,用戶在使用搜索引擎進行網(wǎng)絡檢索時,往往更強調(diào)查準率的提高。對于搜索引擎檢索來說,真實查準率較難計算,這是由于許多檢索課題的檢索結(jié)果數(shù)量太大,相關性判斷工作成本巨大,可操作性不強。因此定義一個針對網(wǎng)絡環(huán)境下信息檢索的搜索引擎相對查準率就顯得十分必要。313 搜索引擎漏檢率搜索引擎檢索漏檢率是 指當使用搜索引擎進行檢索時,檢索系統(tǒng)把被檢索信息分成兩部分,一部分是與檢索要求相符合的信息,并被搜索引擎檢索出來,用戶依據(jù)自身要求將其分成相關信息和不相關信息;另一部分是未能與檢索要求相符合的信息,根據(jù)判斷將其分成相關信息和不相關信息。搜索引擎漏檢率與查全率成反比,在實踐中采用抽樣方法進行統(tǒng)計。 314 搜索引擎誤檢率搜索引擎誤檢率是指當 進行檢索時,搜索引擎把所有信息分為兩部分,一部分是與檢索要求相匹配的信息,并被檢索出來,用戶根據(jù)自己的判斷將其分成相關的信息(命中)a和不相關的信息(垃圾)b;另一部分是未能與檢索要求相符合的信息,根據(jù)判斷也可將其分為相關信息(遺漏)c和不相關信息(正確的拒絕)d。在搜索引擎檢索實踐中,將降低搜索引擎誤檢率主要是剔除垃圾信息,提高搜索引擎查準率。 32 基于互聯(lián)網(wǎng)的搜索引擎質(zhì)量評價指標 321 響應時間搜索引擎響應時間有四個部分組成:用戶發(fā)送檢索請求到達搜索引擎服務器的時間;搜索引擎服務器處理用戶請求的時間;網(wǎng)站做出的答復到達用戶的時間;搜索引擎用戶處理檢索結(jié)果的時間。其中,用戶發(fā)送請求和服務器返回答復的時間取決于網(wǎng)絡傳輸速度,用戶處理檢索的時間取決于用戶計算機的配置,搜索引擎網(wǎng)站服務器處理用戶檢索請求的時間取決于服務器的硬件配置和負載情況、軟件的組成原理、編碼方法。提高網(wǎng)站服務器的整體性能,開發(fā)高效率的檢索軟件,使用緩存技術是搜索引擎縮短反應時間的重要方法。由于檢索技術的進步,檢索響應時間已經(jīng)大大縮短,在這方面提高的空間已經(jīng)很小。盡管搜索同樣數(shù)量的網(wǎng)頁,google比百度快60一80,這已很難成為絕大多數(shù)用戶做出選擇的理由。322 數(shù)據(jù)庫的內(nèi)容規(guī)模數(shù)據(jù)庫是搜索引擎工作的基礎,是搜索引擎評價的重要對象,其內(nèi)容包括數(shù)據(jù)庫的覆蓋范圍、索引組成和更新周期,數(shù)據(jù)庫規(guī)模、類型、更新頻率、分類體系和信息抓取方式等。英文搜索引擎在規(guī)模方面優(yōu)勢明顯,如google的數(shù)據(jù)庫規(guī)模約是sohu的600倍,但中文搜索引擎在數(shù)據(jù)庫更新周期,分類方式、檢索語言等方面的差距并不明顯。 323 標準化程度互聯(lián)網(wǎng)信息是多元化的,搜索引擎應盡量采用國際通行的標準以方便用戶的使用。因此,搜索引擎標準化程度應該成為搜索引擎質(zhì)量評價體系的重要指標。首先,搜索引擎的檢索語言應使用標準檢索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論