信息檢索技術(shù)的過(guò)去與未來(lái)_第1頁(yè)
信息檢索技術(shù)的過(guò)去與未來(lái)_第2頁(yè)
信息檢索技術(shù)的過(guò)去與未來(lái)_第3頁(yè)
信息檢索技術(shù)的過(guò)去與未來(lái)_第4頁(yè)
信息檢索技術(shù)的過(guò)去與未來(lái)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

清華大學(xué)精品課件從SIGIR看信息檢索技術(shù)的過(guò)去與未來(lái)緣起過(guò)去三十五年中,我們?cè)谛畔z索的路上走了多遠(yuǎn)?在IR舞臺(tái)上,什么是長(zhǎng)盛不衰的?哪些已經(jīng)漸漸謝幕?哪些即將登場(chǎng)?SIGIR1971~2006年所有正式論文主要內(nèi)容檢索模型的發(fā)展關(guān)鍵技術(shù)檢索任務(wù)的演變?nèi)藱C(jī)交互與用戶分析信息檢索的評(píng)價(jià)信息檢索中的自然語(yǔ)言處理更多思考與討論檢索模型的發(fā)展信息檢索模型從一開(kāi)始就沿兩條路發(fā)展來(lái)源于結(jié)構(gòu)化數(shù)據(jù)處理的靈感E.g.數(shù)據(jù)庫(kù)直接從自由文本處理的角度前10年,并駕齊驅(qū),結(jié)構(gòu)化方法占有一定的主導(dǎo)地位進(jìn)入90年代之后,結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)相對(duì)沉寂進(jìn)入2000年,開(kāi)始復(fù)蘇思路轉(zhuǎn)變——xmlIR兩條路逐漸呈現(xiàn)融合趨勢(shì)IRmodels自由文本模型——三個(gè)階段向量空間模型——80年代初的重點(diǎn)概率模型--80年代末興起,90年代逐漸成為主流基于語(yǔ)言模型的檢索--1998年,里程碑更多模型--近兩三年開(kāi)始,標(biāo)志IR進(jìn)入新的階段關(guān)鍵技術(shù)關(guān)鍵技術(shù)實(shí)現(xiàn)早期倒排索引的提出與研究2000后大規(guī)模檢索最近垃圾…走出實(shí)驗(yàn)室面向海量數(shù)據(jù)、實(shí)時(shí)處理、真實(shí)網(wǎng)絡(luò)環(huán)境…關(guān)鍵技技術(shù)相關(guān)反反饋經(jīng)久不不衰的的話題題3個(gè)階階段早期建立反反饋機(jī)機(jī)制90年年代中中CBIR最近區(qū)分不不同主主題區(qū)分不不同詞詞關(guān)鍵技技術(shù)集中式式不能能滿足足要求求分布式式系統(tǒng)統(tǒng)架構(gòu)構(gòu)3個(gè)階階段早期::通用系系統(tǒng)設(shè)設(shè)計(jì)90年年代中中分布式式大規(guī)模模擴(kuò)展性性、效效率最近自適應(yīng)應(yīng)系統(tǒng)統(tǒng)系統(tǒng)融融合檢索任任務(wù)的的演變變檢索任任務(wù)WebIR80年年代末末期WebpageWeb與傳傳統(tǒng)文文本相相區(qū)別別的特特性1998年年開(kāi)始始Page,Kleinberg鏈接分分析把Web作作為完完整的的拓?fù)鋼浣Y(jié)構(gòu)構(gòu)2000年年后更宏觀觀———站點(diǎn)點(diǎn)級(jí)更微觀觀———Block級(jí)級(jí)檢索任任務(wù)多媒體體檢索索很早被被提出出語(yǔ)義鴻鴻溝問(wèn)問(wèn)題圖像檢檢索實(shí)驗(yàn)室室結(jié)果果利用文文本信信息最近5年視頻音樂(lè)…檢索任任務(wù)多語(yǔ)言言檢索索TREC日語(yǔ)漢語(yǔ)阿拉伯伯語(yǔ)NTCIR亞洲多多語(yǔ)言言英文主要技技術(shù)自然語(yǔ)語(yǔ)言處處理技技術(shù)詞語(yǔ)翻翻譯技技術(shù)檢索任任務(wù)由國(guó)際際標(biāo)準(zhǔn)準(zhǔn)評(píng)測(cè)測(cè)提出出,有有效推推動(dòng)了了信息息檢索索研究究的發(fā)發(fā)展TDTTRECNoveltyHARDGenomicsBlogLegal…人機(jī)交交互與與用戶戶分析析人機(jī)交交互與與用戶戶分析析人們始始終青青睞有有加的的研究究領(lǐng)域域早期::可視視化表表示((查查詢、、文檔檔的可可視化化)自然語(yǔ)語(yǔ)言交交互界界面2002年年以后后:用戶日日志分分析,,SocialNetwork,快快速學(xué)學(xué)習(xí)能能力信息檢檢索的的評(píng)價(jià)價(jià)檢索的的評(píng)價(jià)價(jià)TRECPooling技術(shù)術(shù)更緊接接本質(zhì)質(zhì)的評(píng)評(píng)價(jià)技技術(shù)評(píng)價(jià)與與技術(shù)術(shù)的共共同發(fā)發(fā)展信息檢檢索中中的自自然然語(yǔ)言言處理理NLPandIR最早被被提出出的問(wèn)問(wèn)題之之一Stemming,分分詞,,詞典典使用用,詞詞義消消歧,,命名名實(shí)體體…近年來(lái)來(lái):更更深層層次的的使用用句子完完整性性重構(gòu)構(gòu)(更更自然然的語(yǔ)語(yǔ)言表表達(dá)))2005年年,將將NLP信信息融融合到到檢索索的語(yǔ)語(yǔ)言模模型中中更多思思考與與討論論IR的的發(fā)發(fā)展來(lái)源之之一::實(shí)際際應(yīng)用用分布式式系統(tǒng)統(tǒng)系統(tǒng)設(shè)設(shè)計(jì)與與實(shí)現(xiàn)現(xiàn)的可可擴(kuò)展展性、、魯棒棒性WebIR,鏈鏈接分分析用戶分分析::搜索索日志志分析析IR的發(fā)發(fā)展來(lái)源之二::國(guó)際標(biāo)準(zhǔn)準(zhǔn)評(píng)測(cè)跨語(yǔ)言檢索索信息檢索的的評(píng)價(jià)與測(cè)測(cè)試集的構(gòu)構(gòu)建話題檢測(cè)與與跟蹤新信息發(fā)現(xiàn)現(xiàn)IR的發(fā)發(fā)展來(lái)源之三::二者共同同推動(dòng)QA檢索模型發(fā)發(fā)展SpamIntranet信信息檢索Blog檢檢索與情感感分析…總結(jié)緣起信息檢索模模型關(guān)鍵技術(shù)的的發(fā)展檢索任務(wù)的的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論