搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用_第1頁
搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用_第2頁
搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用_第3頁
搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用_第4頁
搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用摘要:介紹了搜索引擎的分類、工作原理,并具體分析了搜索引擎的體系結(jié)構(gòu),包括信息的搜集系統(tǒng)、索引系統(tǒng)以及查詢接口?;诂F(xiàn)在人工智能技術(shù)的迅速發(fā)展,對于在搜索引擎中運用的人工智能技術(shù)進行了研究,且著重分析了搜索引擎重要模塊:Robot的智能化、智能代理技術(shù)以及查詢接口的智能化,有力地描述了搜索引擎發(fā)展的智能化方向與方法,對智能型搜索引擎所面臨的挑戰(zhàn)以及未來發(fā)展進行了展望。關(guān)鍵字:人工智能;搜索技術(shù);應(yīng)用;ThepracticalapplicationofsearchtechnologyinartificialintelligencefieldLiaoYongqi(i

2、nstitutionofMechanicalEngineeringandshanghaiinstitutionoftechnologyandshanghai)Abstracts:Theclassificationandoperatingprinciplesofthesearchengineareintroducedinthispaper,anditssystematicstructureisanalyzedconcretely,includingthesystemsofcollectionandindexandtheinputofinquiries.TheapplicationofArtifi

3、cialIntelligence(AI)technologytosearchengineisstudied,especiallytheintelligentizationoftheimportantmodulesofthesearchenginesuchasRobot,agents,andtheinputofinquires,andthedirectionandmeansoftheintelligentizationaredescribed.Thefuturedevelopmentoftheintelligentsearchengineandthechallengesarealsodiscus

4、sed.KeyWords:Artificialintelligence;searchtechnology;application;0引言隨著Internet的發(fā)展,網(wǎng)絡(luò)已經(jīng)是信息發(fā)布和傳輸?shù)闹匾绞?,Web已經(jīng)發(fā)展成為擁有幾億頁面的分布式信息空間,而且仍以每120240d翻一倍的速度增加。雖然Internet上蘊藏著巨大的信息資源,但是要從這個信息海洋中準確快速地找到并獲得自己所需的信息,往往比較困難。為了解決這個問題,人們開發(fā)了各種檢索工具,以期望能提供這種信息服務(wù)。隨著各種技術(shù)的日漸成熟,網(wǎng)絡(luò)搜索引擎開始迅速發(fā)展起來。網(wǎng)絡(luò)搜索引擎是以一定的策略在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并對信息進行理解、提

5、取、組織和處理,為用戶提供檢索服務(wù),從而起到信息導航的作用。1搜索引擎技術(shù)1.1 搜索引擎的分類1.1.1 目錄式搜索引擎目錄式搜索引擎的特點是以人工方式或半自動方式搜集信息,編輯人員在訪問了某個,把站點的Web站點后形成信息摘要,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別URL和描述放在這個類別中,當用戶查詢某個關(guān)鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當目錄的編輯人員認可該網(wǎng)站及描述后,就會將之添加到合適的類別中。目錄式搜索引擎的優(yōu)點是信息準確、導航質(zhì)量高。以Yahoo為主要代表。這類搜索引擎的缺點也是顯而易見的,由于人工的介入,使得費用增加,而且

6、維護量大、信息量少、信息更新不及時。1.1.2基于Robot的搜索引擎這類搜索引擎的特點是由一個稱為Robot(也叫做Spider、WebCrawler或WebWanderer)的機器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引系統(tǒng)為搜集到的信息建立索引,由查詢接口根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。它的一個重要特征是,搜索引擎要定期訪問大多數(shù)以前搜集的網(wǎng)頁,刷新索引,以反映出網(wǎng)頁的更新情況,去除一些死鏈接,網(wǎng)頁的部分內(nèi)容和變化情況將會反映到用戶查詢的結(jié)果中?;赗obot的搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù)。現(xiàn)在的許多搜索引擎都屬于此類,例如Goog

7、le,AltaVista等。它的缺點是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進行篩選。1.1.3Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(MultipleSearchEngine),它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫,當用戶查詢一個關(guān)鍵詞時,它把用戶的查詢請求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并行地訪問數(shù)個搜索引擎來查詢這個關(guān)鍵詞,并把搜索引擎返回的結(jié)果進行重復(fù)排除、重新排序等處理后再返回給用戶。在目前所存在的搜索引擎中,沒有一個搜索引擎能夠覆蓋所有的WWW資源,大部分的搜索引擎都只能涉及到整個資源的一小部分,并且各類搜索引擎的信息來源差異較大,因此集成多個搜索引擎而

8、產(chǎn)生的Meta搜索引擎具有比傳統(tǒng)引擎覆蓋面大,搜索效果更好且具有可擴展性等優(yōu)點。它的缺點是有一定的局限性,不能夠充分使用所使用搜索引擎的功能。1.2搜索引擎的工作原理與主要技術(shù)搜索引擎的工作原理是:由一個Robot盡可能多地收集WWW上的網(wǎng)頁,按照每個網(wǎng)頁的文本內(nèi)容建立單詞到網(wǎng)頁的反向索引,用戶在查詢感興趣的主題時,輸入該主題的關(guān)鍵字作為查詢條件,搜索引擎利用事先建立好白網(wǎng)頁庫和單詞索引,檢索出符合條件的網(wǎng)頁返回給用戶。搜索引擎一般由3個部分組成,如圖1所示。圖1搜索引擎組成示意圖1. 2.1信息搜集系統(tǒng)信息搜集系統(tǒng)是通過Robot來自動完成的,Robot在Internet中漫游,盡可能多、盡

9、可能快地搜集各種類型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,為了保證搜索引擎上的信息的完整性和時效性,就要求Robot具有理想的搜索策略和很高的搜索效率。目前主要有2種搜集信息的策略:(1)從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo!)。(2)將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。1.2.2索引系統(tǒng)Robot搜集信息后,由分析索引系統(tǒng)程序?qū)κ占貋淼?/p>

10、網(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等,根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。1. 2.3查詢接口當用戶提出查詢要求時,搜索引擎根據(jù)用戶的查詢在索引數(shù)據(jù)庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。查詢

11、接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習慣。2人工智能技術(shù)的應(yīng)用研究Internet迅速的發(fā)展,使得網(wǎng)上的信息呈現(xiàn)指數(shù)級增長,Internet的問題已經(jīng)從“提供信息”O(jiān)現(xiàn)有的搜索引擎存在著返回轉(zhuǎn)到“如何從浩如煙海的信息中提取對自己有用的信息資源”的無用信息太多、搜索效率低下、信息組織混亂等缺陷。起源于20世紀50年代的人工智能(AI)技術(shù),可以在Internet中導引用戶,不僅在用戶進行搜索、瀏覽時給予直接的支持,而且能夠提供具有獨立搜索功能的智能體的幕后支持。因此人工智能已經(jīng)在Internet中扮演越來越重要的角色。2. 1Robot的智能化3. 1.1人工智能技術(shù)基

12、于Robot的搜索引擎中已經(jīng)使用了大量人工智能的技術(shù)。Robot的核心目的是獲取Internet上的信息資源,它是利用主頁中的超文本鏈接遍歷Web,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。一般步驟如下:(1) Robot從起始URL列表中取出URL并從網(wǎng)上讀取其內(nèi)容。(2)從每一個文檔中提取某些信息并放入索引數(shù)據(jù)庫中。(3)從文檔中提取指向其它文檔的URL,并加入到URL列表中。(4)重復(fù)上述3個步驟,直到再沒有新的URL發(fā)現(xiàn)或超出了某些限制(時間或磁盤空間)。(5)給索引數(shù)據(jù)庫加上查詢接口,向網(wǎng)上用戶發(fā)布。其算法一般采用人工智能的搜索策略中的深度優(yōu)先和廣度優(yōu)先2種基本的策略

13、。廣度優(yōu)先策略可以跟蹤當前頁面中的每一個URL,所以能覆蓋盡可能多的網(wǎng)頁。而深度優(yōu)先策略則能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用。兩種算法都是通過對網(wǎng)頁的內(nèi)容的分析判斷與用戶查詢是否符合來檢索出用戶需要的網(wǎng)頁,缺乏對檢索后的網(wǎng)頁進行進一步分析的能力,而且一次遍歷往往需要花費很長的時間,檢索到的信息存在大量的冗余和噪音。因此,為了提高搜索效率,運用啟發(fā)式搜索策略來進行對網(wǎng)頁的搜集,即Robot通過啟發(fā)式學習采取最有效的搜索策略,選擇最佳時機獲取從Internet上自動收集、整理的信息。2. 1.2啟發(fā)式搜索算法常用有2種啟發(fā)式搜索算法:(1)加權(quán)的啟發(fā)式搜索算法:用

14、加權(quán)的啟發(fā)式搜索算法控制信息資源的搜集,系統(tǒng)根據(jù)用戶配置的領(lǐng)域?qū)蛟~和資源服務(wù)器所在的地域信息,以啟發(fā)式函數(shù)計算每個URL的權(quán)值,并選擇權(quán)彳1高的URL優(yōu)先訪問。(2)用相關(guān)度及用戶興趣作為評價函數(shù)的啟發(fā)式搜索算法,對于系統(tǒng)中維護的一個超鏈隊列,根據(jù)評價函數(shù)值,按照由小到大的順序?qū)⒊滉犈判?,然后選擇具有最小評價函數(shù)值的超鏈作為下一個要擴展的結(jié)點。2.2智能代理技術(shù)智能代理又稱智能體,是人工智能研究的新成果,近幾年的發(fā)展非常迅速。它使用自動獲得的領(lǐng)域模型、用戶知識進行信息搜集、索引、過濾,并自動地將用戶感興趣的、對用戶有用的信息提交給用戶。智能代理的特點是具有不斷學習、適應(yīng)信息和適應(yīng)用戶興趣動

15、態(tài)變化的能力,從而能夠提供個性化的服務(wù)。2.2.1智能代理的優(yōu)勢(1)智能性。具有豐富的知識和一定的推理能力,能分析用戶的需求和揣測用戶的意圖,以便能完成較復(fù)雜的任務(wù),而且它可以從經(jīng)驗中不斷學習,以提高自己處理問題的能力。(2)代理性。顧名思義智能代理是用戶的某種代理,它可以代替用戶完成一些任務(wù),并主動將結(jié)果反饋給用戶。(3)主動性。它能根據(jù)用戶的需求和環(huán)境的變化,主動向用戶報告并提供服務(wù)。(4)協(xié)作性。它能通過各種通信協(xié)議和其他智能代理進行信息交流,并可以相互協(xié)調(diào)共同完成復(fù)雜的任務(wù)。2.2.2客戶端智能代理和服務(wù)器端智能代理(1)客戶端智能代理技術(shù)以智能搜索代理技術(shù)為主,結(jié)合搜索引擎“面向主

16、題”的檢索模式,在密切關(guān)注個體需求、提高信息與用戶需求相關(guān)系統(tǒng)級此間可以通過統(tǒng)一的傳輸協(xié)議進行溝通,交換信息,從而使更多的信息得以挖掘,以彌補智能代理信息搜索范圍有限的缺陷。(2)服務(wù)器端智能代理引入用戶反饋機制來完善檢索機制,提高檢索命中率,同時也可以提供面向個人的特殊檢索服務(wù)。這種方式是記錄該用戶的查詢蹤跡,從而在用戶再次登錄時結(jié)合以往的用戶檢索記錄來配合提供相關(guān)的檢索服務(wù)。并且可以通過對用戶的反饋意見進行跟蹤,獲取用戶對結(jié)果的評價,以便提高檢索質(zhì)量。2.3查詢接口的智能化2.3.1基于關(guān)鍵詞匹配搜索技術(shù)當用戶提出查詢請求時,用戶最關(guān)心的是搜索結(jié)果是否能夠滿足自己的需要。目前采取,根據(jù)這些

17、關(guān)鍵詞計算Web文檔跟的一種常見的策略是將用戶的查詢請求分解成若干關(guān)鍵詞用戶請求的匹配程度,從而挑出若干匹配的文檔。匹配程度的衡量準則很多:一種是根據(jù)關(guān)鍵詞在文檔中出現(xiàn)的頻率確定它對用戶請求的匹配程度;一種是計算關(guān)鍵詞出現(xiàn)次數(shù)和頁面總詞數(shù)之比。但是基于關(guān)鍵詞匹配的搜索技術(shù)有較大的局限性。它不能區(qū)分同形異義,也不能聯(lián)想到關(guān)鍵詞的同義詞。2.3.2自然語言查詢?yōu)榱颂岣咚阉饕鎸τ脩舨樵冋埱蟮睦斫猓捅仨氂幸粋€好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,應(yīng)用自然語言理解技術(shù)進行自然語言智能答詢。它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠

18、實現(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機器翻譯技術(shù)等。因而具有信息服務(wù)的智能化、人性化特征。它允許用戶采用自然語言進行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。與傳統(tǒng)的目錄查詢、關(guān)鍵詞查詢模式相比,自然語言查詢的優(yōu)勢體現(xiàn)在:(1)由于自然語言查詢具有智能分詞功能,因此使得查詢變得更為簡單、易于操作。(2)采用知識(概念)檢索技術(shù),明確和縮小了搜索范圍,減少了對無用信息的搜索。(3)由于有綜合知識庫為背景,使得信息檢索與導航服務(wù)更具有智能性。利用自然語言理解技術(shù)進行智能搜索主要分為語義理解、知識管理和知識檢索。其中,知識庫是其基礎(chǔ)和核心。在語義理解的過程中,智能分詞技術(shù)是重要的一

19、個環(huán)節(jié),它將組成語句的核心詞提煉出來供語義分析模塊使用。在分詞的過程中,如何能夠恰當?shù)靥峁┳銐虻脑~來供分析程序處理,并且過濾掉冗余的信息,這是提高語義分析的質(zhì)量和速度的重要前提。知識檢索可以利用語義分析的結(jié)果,對知識庫進行概念級的檢索,對用戶提出的問題給出準確度最高、相關(guān)度最強的檢索結(jié)果。3結(jié)束語Internet已經(jīng)發(fā)展為當今世界上最大的信息庫和全球范圍內(nèi)傳播信息的主要渠道,擁有大量結(jié)構(gòu)復(fù)雜且分散的信息資源。將人工智能技術(shù)應(yīng)用于搜索引擎提高Internet資源利用率,正日益得到廣泛的重視和研究。本文簡單探討和研究了搜索引擎的工作原理,研究了人工智能在搜索引擎中應(yīng)用方法,但是,由于人工智能技術(shù)發(fā)展還遠遠不夠成熟,網(wǎng)絡(luò)信息組織無序性、信息媒體多樣化,要建立真正的基于自然語言理解的智能答詢系統(tǒng),理解自然語言及所代表的實際含義,根據(jù)問題找出用戶實際想要的答案,還有很多的理論和應(yīng)用難題。Internet網(wǎng)絡(luò)技術(shù)的快速發(fā)展,使網(wǎng)絡(luò)已經(jīng)成為了人們?nèi)粘I畈豢苫蛉钡囊徊糠郑鳛樾畔l(fā)布、傳播的主要方式,Web擁有幾億頁面的分布式信息空間,目前仍然以130200d翻一番的速度增加。Int

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論