現(xiàn)代信息檢索技術(shù)_第1頁
現(xiàn)代信息檢索技術(shù)_第2頁
現(xiàn)代信息檢索技術(shù)_第3頁
現(xiàn)代信息檢索技術(shù)_第4頁
現(xiàn)代信息檢索技術(shù)_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

現(xiàn)代信息檢索技術(shù)第一頁,共五十八頁,2022年,8月28日提綱2什么是信息檢索?為什么要學習信息檢索?課程情況第二頁,共五十八頁,2022年,8月28日提綱3什么是信息檢索?為什么要學習信息檢索?課程情況第三頁,共五十八頁,2022年,8月28日從幾個互聯(lián)網(wǎng)應用說起……4第四頁,共五十八頁,2022年,8月28日搜索引擎中科院研究生院2011年度秋季課程5第五頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程6第六頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程7第七頁,共五十八頁,2022年,8月28日三個應用例子的共同特征給定需求(或者是對象),從信息庫中找出與之最匹配的信息(或?qū)ο?Google的例子:需求“現(xiàn)代信息檢索”卓越-亞馬遜的例子:對象“天王表-石英女表LS3522S(黑色)”世紀佳緣網(wǎng)的例子:對象“你自己”!8第八頁,共五十八頁,2022年,8月28日信息檢索給定用戶需求返回滿足該需求信息的一門學科。通常涉及信息的獲取、存儲、組織和訪問。從大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)(通常是文本)的集合(通常保存在計算機上)中找出滿足用戶信息需求的資料(通常是文檔)的過程?!罢覍ο蟆钡膶W科,即定義并計算某種匹配“相似度”的學科。9第九頁,共五十八頁,2022年,8月28日信息檢索技術(shù)的應用10搜索推薦挖掘

IR技術(shù)情報處理內(nèi)容安全輿情分析

第十頁,共五十八頁,2022年,8月28日信息檢索應用系統(tǒng)搜索系統(tǒng)Web搜索引擎IBMWaston問答系統(tǒng)……推薦系統(tǒng)淘寶網(wǎng)豆瓣網(wǎng)當當網(wǎng)11第十一頁,共五十八頁,2022年,8月28日從信息規(guī)模上分類個人信息檢索:個人相關(guān)信息的組織、整理、搜索等。桌面搜索(DesktopSearch)、個人信息管理(PIM=PersonalInformationManagement)、個人數(shù)字記憶(PersonalDigitalMemory)企業(yè)級信息檢索:在企業(yè)內(nèi)容文檔的組織、管理、搜索等。內(nèi)容管理(ContentManagement)Web信息檢索:在超大規(guī)模數(shù)據(jù)集上的檢索。中科院研究生院2011年度秋季課程12第十二頁,共五十八頁,2022年,8月28日提綱中科院研究生院2011年度秋季課程13什么是信息檢索?為什么要學習信息檢索?課程情況第十三頁,共五十八頁,2022年,8月28日市場發(fā)展的需求用戶需要信息檢索技術(shù):互聯(lián)網(wǎng)的信息量太大、噪音太多,尋找所需要的信息非常不容易公司需要信息檢索技術(shù):搜索引擎改變了很多傳統(tǒng)的生活方式,Yahoo、Google、Baidu,還有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到這個搜索技術(shù)的競爭。不只是搜索引擎才需要信息檢索技術(shù),電子商務(如亞馬遜網(wǎng)站、阿里巴巴)、社交網(wǎng)(微博、Facebook、twitter、校內(nèi)網(wǎng))、數(shù)字圖書館、大規(guī)模數(shù)據(jù)分析等都需要信息檢索技術(shù)人才的競爭:搜索相關(guān)人才人數(shù)出現(xiàn)缺口,他們非常搶手,待遇如日中天是不是泡沫:2000年左右出現(xiàn)的網(wǎng)絡泡沫和現(xiàn)在的互聯(lián)網(wǎng)有什么不同,搜索引擎在其中占什么位置?14第十四頁,共五十八頁,2022年,8月28日幾個應用需求移動搜索產(chǎn)品搜索專利搜索廣告推薦消費行為分析網(wǎng)絡評論分析SEO營銷……15第十五頁,共五十八頁,2022年,8月28日對相關(guān)專業(yè)研究生的基本要求信息檢索技術(shù)是內(nèi)容應用特別是互聯(lián)網(wǎng)內(nèi)容應用的核心技術(shù),可以說在這些應用中無處不在信息檢索將會成為一門計算機專業(yè)的基礎學科搜索(狹義的信息檢索)的三個層次(個人觀點)16第十六頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程17應用層次:搜索是一項非常重要的應用!第十七頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程18中間層次:搜索是極其重要的API第十八頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程19第十九頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程20介紹一本有趣的書!第二十頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程21核心層次:搜索是未來操作系統(tǒng)的重要組成部分!第二十一頁,共五十八頁,2022年,8月28日提綱22什么是信息檢索?為什么要學習信息檢索?課程情況第二十二頁,共五十八頁,2022年,8月28日課程的宗旨信息檢索的基本原理、模型和方法(含部分機器學習、自然語言處理方法)信息檢索系統(tǒng)的基本實現(xiàn)方法如何進行(信息檢索)研究選題、查找文獻、讀論文、做實驗、寫論文、作報告等等23第二十三頁,共五十八頁,2022年,8月28日老師介紹(1)主講老師:王斌,中科院計算所博士畢業(yè),副研究員,博士生導師?,F(xiàn)為中科院計算所前瞻研究實驗室信息檢索課題組負責人。/~wangbin/

新浪微博:計算所王斌/wang2bin1辦公電話:6260135024第二十四頁,共五十八頁,2022年,8月28日老師介紹(2)助教:中科院研究生院2011年度秋季課程25第二十五頁,共五十八頁,2022年,8月28日本課程的特點不是教學生學怎么使用信息檢索工具(另有課程),而是了解信息檢索工具背后的基本原理和技術(shù),并且能夠進行深層的研究或開發(fā)相關(guān)的應用。知其然知其所以然。基本原理+廣泛實踐26第二十六頁,共五十八頁,2022年,8月28日授課內(nèi)容簡介(傳統(tǒng)角度總結(jié))信息檢索的基本概念信息檢索的評價信息檢索模型和算法模型(布爾模型、向量模型、概率模型、語言模型)相關(guān)反饋、查詢擴展文本處理技術(shù)文本分類和聚類技術(shù)(傾向性分析)信息過濾技術(shù)信息組織和索引并行和分布式檢索信息檢索的應用WEB檢索27第二十七頁,共五十八頁,2022年,8月28日授課方案課堂講述和課后練習相結(jié)合講授內(nèi)容既包含傳統(tǒng)內(nèi)容,也注意吸收最新研究成果學術(shù)內(nèi)容和業(yè)界進展相結(jié)合既考慮一般學生普及入門的需求,也考慮相關(guān)專業(yè)學生更高的要求盡量用簡單而風趣的語言、形象而逼真的例子進行講授28第二十八頁,共五十八頁,2022年,8月28日課程基礎數(shù)學基礎概率統(tǒng)計線性代數(shù)計算機基礎算法和數(shù)據(jù)結(jié)構(gòu)編程29第二十九頁,共五十八頁,2022年,8月28日考核方式平時作業(yè)+期末考試(開卷)不定期考勤5%若干小作業(yè)15%1個大作業(yè)30%1篇讀書報告15%(論文閱讀)期末考試35%(課堂開卷)具體參考課程網(wǎng)站30第三十頁,共五十八頁,2022年,8月28日2006年選課情況分析來自13個不同培養(yǎng)單位的62名學生選擇本課程,其中計算所25人、軟件所13人、自動化所5人計算機類專業(yè)有48人(占總數(shù)的77.4%),圖書情報類專業(yè)學生有7人(占總數(shù)的11.3%),其他專業(yè)背景的學生7人(占總數(shù)的11.3%)。31第三十一頁,共五十八頁,2022年,8月28日2006年考試結(jié)果分析32第三十二頁,共五十八頁,2022年,8月28日2007年選課情況分析來自12個單位的71人選擇該課程,其中計算所30人、網(wǎng)絡中心8人、院圖7人、軟件所和自動化所各6人、其他單位14人。計算機類(計算機、自動化)專業(yè)58人(占總數(shù)的81.7%)、圖書情報類專業(yè)9人(占總數(shù)的12.7%)、其他專業(yè)(信號處理、數(shù)學等)4人(占總數(shù)的5.6%)33第三十三頁,共五十八頁,2022年,8月28日2007考試結(jié)果分析34第三十四頁,共五十八頁,2022年,8月28日2008/2009/2010?35第三十五頁,共五十八頁,2022年,8月28日國際著名研究機構(gòu)和代表人物美國康奈爾大學Salton(1927-1995)現(xiàn)代信息檢索的奠基人,倡導向量空間模型SMART的完成人第一任Salton獎(1983年)得主,ACMFellow英國劍橋大學SparckJones(1935-2007)概率檢索模型的提出者之一NLP和IR中的先輩曾獲ACL終身成就獎和1988年Salton獎36第三十六頁,共五十八頁,2022年,8月28日國際著名研究機構(gòu)和代表人物微軟英國劍橋研究院、倫敦城市大學Robertson概率檢索模型的先驅(qū)和倡導者開發(fā)了OKAPI檢索系統(tǒng)2000年Salton獎得主美國UMassCIIRW.B.Croft,ACMFellow基于統(tǒng)計語言建模IR模型的提出者和倡導者和CMU共同開發(fā)了Lemur工具2003年Salton獎得主37第三十七頁,共五十八頁,2022年,8月28日國際著名研究機構(gòu)和代表人物英國Glasgow大學Rijsbergen,ACMFellow信息檢索邏輯推理學派的提出者和倡導者現(xiàn)在試圖用量子的方法解決IR問題2006年Salton獎得主微軟美國研究院SusanDumais隱性語義索引LSI的提出者2009年Salton獎得主38第三十八頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程39第三十九頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程40第四十頁,共五十八頁,2022年,8月28日中科院研究生院2011年度秋季課程41第四十一頁,共五十八頁,2022年,8月28日國際著名研究機構(gòu)和代表人物美國CMU美國UIUC微軟研究院IBM研究院Google研究院Yahoo!研究院42第四十二頁,共五十八頁,2022年,8月28日一些活躍的華裔學者加拿大蒙特利爾大學聶建云教授跨語言檢索IR模型美國UIUC翟成祥(ChengxiangZhai博士)IR模型、主題模型(TopicModel)美國CMU楊頤明(YimingYang)教授文本分類領(lǐng)域最著名的學者之一43第四十三頁,共五十八頁,2022年,8月28日一些活躍的華裔學者臺灣中研院簡立峰號稱“中文搜索”第一人加入Google研究院44第四十四頁,共五十八頁,2022年,8月28日國內(nèi)一些相關(guān)研究機構(gòu)北京大學復旦大學清華大學哈爾濱工業(yè)大學上海交通大學中科院計算所中科院軟件所中科院自動化所……45第四十五頁,共五十八頁,2022年,8月28日重要會議國際會議(COLING2010、SIGIR2011將在北京舉行):SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNLP、COLINGTREC、NTCIR評測會議ECIR、AIRS國內(nèi)會議:全國信息檢索學術(shù)會議(1年一屆)全國計算語言學聯(lián)合會議(2年一屆)搜索引擎和WEB挖掘?qū)W術(shù)會議(1年一屆,上半年)46第四十六頁,共五十八頁,2022年,8月28日ACMSIGIRACM:美國計算機學會SIGIR:specialinterestgrouponinformationretrieval,特定興趣組ACMSIGIRConference:IR領(lǐng)域的最重要會議,起始于1971年,2009年是第31屆。47第四十七頁,共五十八頁,2022年,8月28日IRvs.其他學科IRvs.NLP(自然語言處理)IRvs.ML(機器學習)IRvs.DM(數(shù)據(jù)挖掘)IRvs.SA(統(tǒng)計分析)……48第四十八頁,共五十八頁,2022年,8月28日IR及相關(guān)研究領(lǐng)域重要會議49ACMSIGIRVLDB,PODS,ICDEASISLearning/MiningNLPApplicationsStatisticsSoftware/systemsCOLING,EMNLP,ANLPHLTNIPS,UAIRECOMB,PSBJCDLInfo.ScienceInfoRetrievalACMCIKMDatabasesACMSIGMODACLICMLAAAIACMSIGKDDISMBWWWSOSPOSDITREC*本頁借用了ChengxiangZhai的課件第四十九頁,共五十八頁,2022年,8月28日重要期刊國際:ACMTransactionsonInformationSystems(TOIS)ACMTransactionsonAsianLanguageInformationProcessing(TALIP)InformationProcessing&Management(IP&M)InformationRetrieval國內(nèi)中文信息學報情報學報50第五十頁,共五十八頁,2022年,8月28日重要工具Lemur、Indri:包含各種IR模型的實驗平臺,C++SMART:向量空間模型工具,C編寫Weka:數(shù)據(jù)挖掘工具,Java編寫Lucene:開源檢索工具,Java版本受維護,存在各種語言編寫的其他版本Nutch:開源爬蟲,Java版本Sphinx:開源檢索工具,C++Larbin:采集工具,C++Firtex:檢索平臺,C++,計算所開發(fā)更多:51第五十一頁,共五十八頁,2022年,8月28日網(wǎng)站地址外部網(wǎng)站:

研究生院課程主頁:課程微博:Gucas_2011_IRCourse,52第五十二頁,共五十八頁,2022年,8月28日教材教材主頁:/~wangbin/iir-book/

注意要選第二次印刷的版本,可以直接上圖靈出版社的淘寶店訂購。網(wǎng)上有英文電子版(對照閱讀)53第五十三頁,共五十八頁,2022年,8月28日原版內(nèi)容比較新例子多有關(guān)NLP和分類聚類的內(nèi)容較豐富有相關(guān)最新算法的介紹有實現(xiàn)相關(guān)的內(nèi)容54第五十四頁,共五十八頁,2022年,8月28日序55第五十五頁,共五十八頁,2022年,8月28日參考書籍及文獻ChristopherD.Manning,PrabhakarRaghavan&HinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress2008Electronicversion(draft)canbedownloadedfrom/~hinrich/information-retrieval-book.htmlB.Croft,D.Metzler,T.Strohman,SearchEngine:InformationRetrievalinPractice,PearsonEducation,2009(國內(nèi)機械工業(yè)出版社出版的影印版和中文翻譯版)Baeza-Yates,R.&B.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論