數(shù)據(jù)挖掘以及搜索引擎經(jīng)典ppt_第1頁
數(shù)據(jù)挖掘以及搜索引擎經(jīng)典ppt_第2頁
數(shù)據(jù)挖掘以及搜索引擎經(jīng)典ppt_第3頁
數(shù)據(jù)挖掘以及搜索引擎經(jīng)典ppt_第4頁
數(shù)據(jù)挖掘以及搜索引擎經(jīng)典ppt_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

信息檢索和知識發(fā)現(xiàn)馬軍山東大學(xué)計算機學(xué)院majun@Tel:91528講課內(nèi)容目前的信息檢索與挖掘?qū)嵸|(zhì)上是融合了文本及多媒體檢索、數(shù)據(jù)挖掘、機器學(xué)習(xí)和自然語言處理的綜合學(xué)科,因此本課程的內(nèi)容包括:信息檢索的基本知識簡單的自然語言處理信息檢索與知識發(fā)現(xiàn)中的主要計算 聚類與分類基于內(nèi)容的圖像檢索技術(shù)信息檢索課程章節(jié)1簡介2理論模型(基本概念)3檢索評價4Web信息獲取算法5索引建立6基本運算算法7網(wǎng)頁排序8分類計算9聚類計算10層次聚類11XML文檔檢索12-15圖像檢索16圖像標(biāo)注/IR-book/IR簡介研究歷史基本概念目前和未來的研究內(nèi)容Web上的信息檢索WWW發(fā)展迅速,Web文本數(shù)據(jù)以T=1000G計。而多媒體數(shù)據(jù),如圖片,視頻,音頻信息正快速增加。Web可以看做巨型的、非結(jié)構(gòu)化的無所不在的數(shù)據(jù)庫,除了傳統(tǒng)的書面文檔,目前口語形式的文檔正在迅速增加(微博等)Web的發(fā)展要求有效的工具來管理、檢索、過濾信息:Datamining結(jié)論:信息獲取、組織和檢索將成為現(xiàn)代社會的不可缺少的基礎(chǔ)服務(wù)。Web的建立HowMuchInfo工程由Intel,Microsoft,HP,EMC等公司贊助,UCBerkeley大學(xué)完成2002年世界上共產(chǎn)生了5Exabyte的數(shù)據(jù),其中92%的信息存儲于電子介質(zhì)相當(dāng)于人類歷史上所有說過的話語

所包含的信息量的總和大部分存儲于Web中,構(gòu)成了Web

中超過150Billion的網(wǎng)絡(luò)頁面WorldWideWeb是什么?

Theworldwideweb(web)isanetworkofinformationresources.Thewebreliesonthreemechanismstomaketheseresourcesreadilyavailabletothewidestpossibleaudience:1.Auniformnamingschemeforlocatingresourcesontheweb(e.g.,URLs).2.Protocols,foraccesstonamedresourcesovertheweb(e.g.,HTTP).3.Hypertext,foreasynavigationamongresources(e.g.,HTML).Web是一個有向圖<href…><href…><href…><href…><href…><href…><href…>網(wǎng)頁為節(jié)點網(wǎng)頁中的HyperLink為有向邊Crawl==圖遍歷,right?Web的發(fā)展帶來了什么?信息數(shù)量的急劇膨脹知識的獲取空前簡單與繁榮從Web中有效的獲取知識正在成為人們生活與工作的必須技能高科技企業(yè)員工1/3的時間用于查找資料由于無法找到有效信息而浪費的產(chǎn)值占企業(yè)收入1/5目前具有市場認(rèn)可的搜索引擎技術(shù)的國家有:美國、韓國、俄羅斯和中國搜索引擎市場的激烈競爭Google市值的變化舉世關(guān)注Baidu上市造就數(shù)以百計的百萬富翁MSN推出新版搜索,MSRA建立搜索研究中心Yahoo中國重組主要門戶網(wǎng)站Sohu,Sina,Netease,騰訊紛紛推出搜索引擎產(chǎn)品面向領(lǐng)域的搜索引擎目前最受北美IT畢業(yè)生青睞的公司GoogleApplefacebookMicrosoftYahoo!其中有3個公司的主要業(yè)務(wù)之一是信息檢索。而Apple過去和Google一起,研制iphone的手機檢索,但可能未來自己研發(fā)。微軟已經(jīng)認(rèn)為他們過去沒有重視搜索是犯了錯誤,目前正在飛速追趕。目前Google,微軟在美國正在建立巨型的數(shù)據(jù)處理中心,保存通過Internet,衛(wèi)星等收集的數(shù)據(jù)。上述3公司的搜索部門在面試時,一般會問關(guān)于現(xiàn)代檢索的核心算法,概念等。Google某數(shù)據(jù)中心微軟在芝加哥的數(shù)據(jù)中心國內(nèi)IT百度,搜狐,搜狗,一搜阿里巴巴騰訊中國大學(xué)生評出的2008最佳雇主中有半數(shù)和搜索有關(guān)。

Google(中國)貿(mào)易:阿里巴巴

兩大搜索:排第一Google和排第三的百度

三大游戲:盛大、巨人、完美時空

四大門戶:騰訊、網(wǎng)易、搜狐、新浪

市場的需求所有的網(wǎng)站都需要搜索引擎,但目前很多借用Google等,搜索效果不好,因為不專業(yè),Google的排序算法可能并不適合該網(wǎng)站的頁面鏈接分析。專業(yè)搜索引擎的需求無止境,未來多媒體,問題求解形式的檢索需求很大。從用戶數(shù)量上看,截至2008年12月31日,中國網(wǎng)民規(guī)模達(dá)到2.98億人,普及率達(dá)到22.6%,超過全球平均水平;網(wǎng)民規(guī)模較2007年增長8800萬人,年增長率為41.9%。無論是政府還是商家,都更重視網(wǎng)絡(luò)上的信息,討論的熱點及反應(yīng)出的問題。而這些計算必須基于對BBS,論壇、博客內(nèi)容的搜集和分析。信息檢索的重要性全球范圍數(shù)字化、信息化的基礎(chǔ)服務(wù)科學(xué)研究領(lǐng)域中的信息獲取電子商務(wù)中的產(chǎn)品檢索、評估日常生活中的信息和知識的獲取企業(yè)創(chuàng)新能力的提高DeepWep信息的獲取原因:紙面載體的信息都數(shù)字化了,更方便進行獲取。基于網(wǎng)絡(luò)的廣告根據(jù)2007年的統(tǒng)計,美國互聯(lián)網(wǎng)上廣告總收入為212億美元,而通過搜索引擎進行的廣告收入是總收入的41%。原因,通過搜索引擎,可以使廣告更有針對性,把廣告放到內(nèi)容相關(guān)的網(wǎng)頁上。而廣告則是在互聯(lián)網(wǎng)上進行經(jīng)濟活動驅(qū)動力和使搜索引擎,網(wǎng)站等盈利的重要手段。信息檢索目前的狀態(tài)目前基本認(rèn)為是出于開始階段未來的遠(yuǎn)景圖個性化專業(yè)化多媒體檢索智能化 檢索形式的創(chuàng)新,不是輸入關(guān)鍵詞,可能是目標(biāo),得到的是解決方案。和以往IR研究的區(qū)別原來是圖書館學(xué)的專業(yè)方向,但目前的研究和以前的研究相差太大了。目前的研究者來自:數(shù)據(jù)庫,人工智能,計算機算法,人機交互,多媒體,移動通訊,模式識別,地理信息和衛(wèi)星圖像處理等都加入到這個領(lǐng)域。目前信息檢索的方式搜索web的三種方式:searchengine把一部分網(wǎng)絡(luò)文獻作為一個全文數(shù)據(jù)庫webdirectories按主題來對所選擇的Web文獻進行分類(browser)利用hyperlinkstructure.目前的信息檢索方式

Given:使用用文字(關(guān)鍵詞)表示的檢索意愿Find:搜索引擎返回一系列相關(guān)文檔IR系統(tǒng)的構(gòu)成-爬蟲,中間處理和檢索服務(wù)IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..WebsearchbasicsTheWebAdindexesWebspiderIndexerIndexesSearchUser利用搜索引擎為工具的數(shù)據(jù)挖掘互聯(lián)網(wǎng)的尺寸互聯(lián)網(wǎng)的鏈接特征分析互聯(lián)網(wǎng)的動態(tài)變化特征語義萬維網(wǎng)互聯(lián)網(wǎng)上的社區(qū)發(fā)現(xiàn)進入2000后對IR的研究2000’s基于網(wǎng)頁鏈接分析技術(shù)的Google網(wǎng)頁的排序技術(shù)PageRank網(wǎng)頁的分析技術(shù)基于塊的分解,內(nèi)容提取和理解面向領(lǐng)域的垂直檢索系統(tǒng)和查詢內(nèi)容有關(guān)、和領(lǐng)域知識有關(guān)和機器學(xué)習(xí)、人工智能的發(fā)展有關(guān)如何計算仍是一個未能很好解決的問題IR的新研究課題1自動文本摘要或主題的提取WhizbangFetchBurningGlass問題回答系統(tǒng)TRECQ/AtrackAnswer.google會話體文本的處理微博,博客

IR的新研究課題2多Multimedia(多媒體的檢索技術(shù))ImageVideoAudioandmusicCross-LanguageIR(跨語言的檢索技術(shù))DARPATidesAltavista(自然語言轉(zhuǎn)換,網(wǎng)站或具體網(wǎng)頁)DocumentSummarization內(nèi)容摘要技術(shù)基于圖象的標(biāo)注技術(shù)

人工和基于機器學(xué)習(xí)不足之處一副畫勝過千言萬語,如何用簡短的文字描述自然,風(fēng)景?不可能文字也不能很好地表達(dá)感知的相似關(guān)系感知是人主觀的東西,因人而異,而文字描述只能是唯一的。但目前如何自動地進行對圖像的標(biāo)注,仍是國際上研究的熱點課題。是為圖像建立語義特征的主要手段。圖像的自動標(biāo)注,使得對圖像的檢索可以借助關(guān)鍵詞進行檢索問題用戶比較難于表達(dá)自己的檢索需求(相對于關(guān)鍵詞檢索)能否把文本檢索技術(shù)和圖像檢索技術(shù)結(jié)合起來進行檢索?對很多主題,利用Googleimage檢索出的圖像數(shù)量遠(yuǎn)遠(yuǎn)高于對應(yīng)的網(wǎng)頁數(shù)量,如何排序?理想的狀態(tài)輸入關(guān)鍵詞輸入圖像(草圖)搜索引擎找到那些網(wǎng)頁,它們即含有關(guān)鍵詞同時包含和輸入圖像非常接近的圖像。如何做?目前的現(xiàn)狀如何解決圖像的語義理解對圖像進行標(biāo)記,利用機器學(xué)習(xí)的方法,基于已經(jīng)標(biāo)注圖像來解決新圖像的標(biāo)注。能否利用領(lǐng)域知識解決特殊對象的檢索交通標(biāo)記,企業(yè)的logo,特殊場景的發(fā)現(xiàn)等

IR的新研究課題3:

垂直檢索技術(shù)目前通用的搜索引擎對Internet網(wǎng)頁的覆蓋率小于50%。未來計算機的存儲和運算能力都不可能100%的覆蓋,需要面向具體領(lǐng)域的專用搜索引擎如就業(yè),股票,賓館飯店,地圖,天氣,商品查找,任務(wù),風(fēng)景,。。。垂直檢索也是未來利用移動通訊設(shè)備檢索的支撐技術(shù)微軟的科技論文垂直檢索系統(tǒng)IR的新研究課題4

基于移動設(shè)備的信息檢索Google已經(jīng)決定進軍手機的檢索,而NEC,微軟已經(jīng)開始了對手機檢索系統(tǒng)的研究。解決的科學(xué)與技術(shù)問題,如何在小屏幕上顯示用戶的檢索結(jié)果,如何在小鍵盤上輸入不方面的情況下進行文本檢索?能否通過語音檢索?能否通過圖片進行檢索?因為手機更方便語音和圖像。用戶量的需求調(diào)查微軟的msn手機檢索系統(tǒng)

IR的新研究課題5:

對DEEPWeb的信息檢索DeepWeb是可以通過Internet訪問的數(shù)據(jù)庫,它們所承載的信息量是目前Internent的500倍!難點:如何發(fā)現(xiàn)DeepWeb?如何知道該數(shù)據(jù)庫所屬的領(lǐng)域和類別?目前研究的主要課題如何對DeepWeb網(wǎng)頁的爬?。看怪彼阉饕?,元搜索引擎?如何知道DeepWeb的內(nèi)容?如何對DeepWeb數(shù)據(jù)庫進行聚類和分類?

IR的新研究課題6:Web的數(shù)據(jù)和知識挖掘(如何利用虛擬世界研究現(xiàn)實世界)網(wǎng)上人氣榜的排名網(wǎng)上對產(chǎn)品,任務(wù)、事件的評論網(wǎng)上所反映的最關(guān)心的熱點和焦點是什么?網(wǎng)上對事物,人物,事件的正面和反面評價的比例是什么?作弊(spam)網(wǎng)頁、重復(fù)網(wǎng)頁及水軍網(wǎng)頁的發(fā)現(xiàn)Spam網(wǎng)站和網(wǎng)頁的作弊手法在網(wǎng)頁中加入大量的常用關(guān)鍵詞以提高被匹配的可能性在網(wǎng)頁中加入大量的鏈接,自己鏈向自己的鏈接,使得PageRank的值較大,當(dāng)被檢索到時,排名靠前如何對Web中的頁面(網(wǎng)站)給出可信計算(credibility)?IR新研究課題7:基于對象的搜索

問題—回答對用戶的需求返回的不是網(wǎng)頁的URL,而是關(guān)于該問題的較全面的資料。信息服務(wù)公司,根據(jù)客戶的需求建立描述,每天對Web上的信息檢索、摘要和分類,把信息主動地送給用戶。這是一個新興的盈利模式和企事業(yè)需要的服務(wù),如電力集團,報業(yè)、新聞記者等。研究問題8:如何利用Web上的資源進行知識發(fā)現(xiàn)Wiki百科利用維基百科對文檔和圖像的類別識別GoogleEarth利用圖像中的坐標(biāo),通過Googleearth中相同位置的圖像,對圖像進行補充說明Web上的大型數(shù)據(jù)源,如圖片庫Flickr利用Flickr上的圖像的標(biāo)注,對新圖像進行標(biāo)注。研究9:基于互聯(lián)網(wǎng)信息對人類活動進行研究-輿情分析,事件發(fā)現(xiàn)等通過對網(wǎng)絡(luò)上的信息收集,了解公眾對某種社會現(xiàn)象或社會問題的具有一定影響力和傾向性的共同意見。網(wǎng)絡(luò)環(huán)境下輿情信息的主要來源有:新聞評論、BBS、聊天室、博客、聚合新聞(RSS)利用facebook,myspace等發(fā)現(xiàn)人類自身活動等。結(jié)論信息檢索是一項飛速發(fā)展的科學(xué)技術(shù)信息檢索是一項和人們生活密切相關(guān)的技術(shù),是計算機科學(xué)研究領(lǐng)域中為數(shù)不多的理論和應(yīng)用密切相關(guān)的研究領(lǐng)域。即理論研究可直接導(dǎo)致應(yīng)用系統(tǒng)的產(chǎn)生。信息檢索是包括了搜索算法,網(wǎng)絡(luò)技術(shù),機器學(xué)習(xí),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論