信息檢索的概述電子教案_第1頁
信息檢索的概述電子教案_第2頁
信息檢索的概述電子教案_第3頁
信息檢索的概述電子教案_第4頁
信息檢索的概述電子教案_第5頁
已閱讀5頁,還剩107頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索我們所使用的Web搜索系統(tǒng)TheWebWebspiderIndexerIndexesSearchUser我們將學(xué)到什么內(nèi)容?基本內(nèi)容信息檢索概述及評(píng)價(jià)信息檢索模型檢索的改進(jìn)信息過濾Web信息檢索高級(jí)話題文本分類和聚類問答系統(tǒng)及自動(dòng)文摘信息檢索的概述在這一部分我們將了解到:信息檢索概念及意義信息檢索體系結(jié)構(gòu)歷史、現(xiàn)狀與困難發(fā)展趨勢(shì)國(guó)內(nèi)外主要搜索引擎信息檢索的應(yīng)用信息檢索的概念及意義信息檢索定義信息檢索:從非結(jié)構(gòu)化的文檔集中找出與用戶需求相關(guān)的信息和其它相關(guān)技術(shù)的區(qū)別和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫是結(jié)構(gòu)化數(shù)據(jù),IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。和情報(bào)檢索的區(qū)別情報(bào)檢索介紹如何利用信息檢索工具典型的信息檢索任務(wù)給定條件自然語言的文檔集合用戶的提問(Query)查找結(jié)果和query相關(guān)的經(jīng)過排序(Rank)的文檔子集信息檢索任務(wù)進(jìn)一步劃分為:信息或數(shù)據(jù)的檢索和瀏覽拉出(pulling)行為集合中的文獻(xiàn)相對(duì)靜止信息過濾信息過濾的變通方式-路由選擇推送(filtering)行為用戶查詢相對(duì)靜止用戶需求:Query及Profile形式關(guān)鍵詞帶布爾操作的關(guān)鍵詞自由文本事例文檔...信息檢索樣例信息過濾(推送)樣例信息檢索系統(tǒng)IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..信息檢索處理的對(duì)象非結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù):新聞、科技論文等網(wǎng)頁:HTML、XML多媒體數(shù)據(jù):圖像、視頻、圖形、音頻目前最主要的處理對(duì)象是互聯(lián)網(wǎng)文字圖片基于內(nèi)容的圖像查詢

基于內(nèi)容的圖像查詢:目標(biāo),顏色,紋理圖像數(shù)據(jù)庫/互聯(lián)網(wǎng)用戶的提問查詢搜索引擎基于文本的圖像查詢信息存在的形式在非結(jié)構(gòu)化信息中,包括文本信息和多媒體信息以文本檢索方式為主,例如:目前Google的圖片檢索技術(shù)采用的是利用圖片周圍的文字信息進(jìn)行的大多數(shù)信息都是文本形式的,沒有預(yù)先定義的格式(例如:郵件、新聞等)在企業(yè)信息化領(lǐng)域,有人統(tǒng)計(jì)認(rèn)為80%的信息是非結(jié)構(gòu)化的在信息管理向知識(shí)管理轉(zhuǎn)變的過程中,文本信息非常關(guān)鍵信息檢索的重要性由信息匱乏到信息爆炸,需要有效的檢索方式傳統(tǒng)管理軟件需要嵌入IR技術(shù)在SQL數(shù)據(jù)庫中已采用文本檢索技術(shù)select*fromEmployeewhereNamelike’%Lee%’.在LotusNotes辦公平臺(tái)上同樣也已采用文本檢索技術(shù)互聯(lián)網(wǎng)數(shù)據(jù)的增長(zhǎng)和在線文檔(如聯(lián)機(jī)用戶手冊(cè)等)的增長(zhǎng),向IR技術(shù)提出迫切需求檢索無處不在智能計(jì)算:從人機(jī)交互到內(nèi)容管理人機(jī)交互解決信息錄入和呈現(xiàn)的問題在大量信息進(jìn)入虛擬世界以后,更重要的問題在于如何對(duì)這些信息資源進(jìn)行有效的管理使用戶能夠方便快捷地找到想要的信息使信息保值增值產(chǎn)生新知競(jìng)爭(zhēng)不在于擁有多少信息,而在于能夠利用多少有價(jià)值的信息,因此內(nèi)容管理至關(guān)重要信息檢索系統(tǒng)體系結(jié)構(gòu)信息檢索系統(tǒng)的體系結(jié)構(gòu)文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢操作搜索排序排序后的文檔用戶反饋文本操作用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔分詞刪除停用詞Stemming(提取詞干)為文檔建立倒排索引表根據(jù)倒排索引表檢索出與提問相關(guān)的文檔將檢索出的文檔根據(jù)相關(guān)性排序Query輸入和文檔輸出相關(guān)反饋結(jié)果的可視化對(duì)query進(jìn)行變換,以改進(jìn)檢索結(jié)果Web搜索將IR技術(shù)應(yīng)用于WorldWideWeb上的HTML網(wǎng)頁和純文本相比,網(wǎng)頁的特點(diǎn)如下:必須通過在網(wǎng)上“爬行”搜集網(wǎng)頁可以開發(fā)結(jié)構(gòu)布局信息文檔的更新是不可控的可以開發(fā)網(wǎng)頁之間的鏈接結(jié)構(gòu)Web搜索系統(tǒng)提問IR系統(tǒng)排序后的文本1.第1頁2.第2頁3.第3頁

..文檔語料庫WebSpiderIR的歷史與現(xiàn)狀I(lǐng)R的歷史1960-70’s:最初的信息檢索系統(tǒng)面向小型的科學(xué)文摘數(shù)據(jù)庫、法律和商業(yè)文檔檢索模型為基本的布爾模型和向量空間模型CornellUniversity的Prof.Salton和他的學(xué)生成為這個(gè)領(lǐng)域的先驅(qū)IR歷史1980’s:IR技術(shù)出現(xiàn)在大型文檔數(shù)據(jù)庫中Lexis-Nexis美國(guó)LEXIS-NEXIS公司創(chuàng)始于1973年,其數(shù)據(jù)庫內(nèi)容很廣,其中法規(guī)法律方面的數(shù)據(jù)庫是LEXIS-NEXIS的特色信息源,具有非常大的影響力,尤其在法律業(yè)界具有很高知名度Dialog目前世界上最大的聯(lián)機(jī)檢索檢索系統(tǒng)之一,包括各學(xué)科數(shù)據(jù)庫600多種,可查詢研究動(dòng)態(tài),SCI,EI收錄以及專利等情況MEDLINEMEDLINE是美國(guó)國(guó)家醫(yī)學(xué)圖書館的文獻(xiàn)數(shù)據(jù)庫IR歷史1990’s:在互聯(lián)網(wǎng)上進(jìn)行對(duì)FTP文檔進(jìn)行搜索ArchieArchie是Internet上用來查找其標(biāo)題滿足特定條件的所有文檔的自動(dòng)搜索服務(wù)的工具。WAIS代表“廣域信息服務(wù)”(WideAreaInformationService)。Wais作為Internet一項(xiàng)服務(wù),是唯一由三個(gè)商業(yè)公司(Apple、ThinkingMachines和DowJones)啟動(dòng)的研究計(jì)劃促成的服務(wù)。IR歷史1990’s(續(xù)):在WorldWideWeb上進(jìn)行搜索Yahoo雅虎成立于1994年,是網(wǎng)上最老的“分類目錄”,也是目前最重要的搜索服務(wù)網(wǎng)站,在全部互聯(lián)網(wǎng)搜索應(yīng)用中所占份額高達(dá)36%左右。AltavistaAltaVista是網(wǎng)上最早的爬行搜索引擎。AltaVista搜索技術(shù)從純文本搜索技術(shù)開始,發(fā)布于1995年;1997年,其搜索能力擴(kuò)展到25種語言搜索;1999年開始多媒體文件的搜索;2001年首次推出網(wǎng)上免費(fèi)新聞搜索,2003年AltaVista被Overture收購。

IR歷史1990’s(續(xù)):有組織地進(jìn)行評(píng)測(cè)美國(guó)標(biāo)準(zhǔn)與技術(shù)研究所NIST和國(guó)防部高級(jí)研究規(guī)劃局DARPA共同發(fā)起TREC,1992年開始智能推薦系統(tǒng)(個(gè)性化推薦,良好的互動(dòng)性,適應(yīng)性)RingoAmazon(亞馬遜網(wǎng)絡(luò)售書)NetPerceptions自動(dòng)文本分類和聚類系統(tǒng)IR歷史2000’s為Web搜索服務(wù)的鏈接分析Google自動(dòng)信息抽取WhizbangFetchBurningGlass問答系統(tǒng)TRECQ/Atrack近期的IR2000’s:多媒體IR圖像(Image)視頻(Video)聲音(speech)和音頻(Audio)音樂(music)跨語言檢索Cross-LanguageIRDARPATides項(xiàng)目智能化、個(gè)性化IR互聯(lián)網(wǎng)發(fā)展?fàn)顩r中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)于2005年7月發(fā)布的第16次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)》國(guó)內(nèi)上網(wǎng)用戶已達(dá)1.03億用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù)/功能:電子郵箱(91.3%)瀏覽新聞(79.4%)搜索引擎(64.5%)搜索引擎是用戶在互聯(lián)網(wǎng)上獲取信息的最常用的方法(58.2%)IR的困難難點(diǎn)所在分析技術(shù)亟待更新,否則很難有質(zhì)的突破很難獲取非結(jié)構(gòu)化文本的語義信息“select*fromEmployeewhereSalary>100,000”“找出所有關(guān)于公司購并的新聞”“找出所有和互聯(lián)網(wǎng)公司購并相關(guān)的新聞”上述三個(gè)問題,一個(gè)比一個(gè)難資源檢索是在非受限域(unrestricteddomains)文檔集上進(jìn)行的很難對(duì)文檔的類別事先定義或分類難點(diǎn)所在(續(xù))用戶不同的用戶基礎(chǔ)提問的意圖、文檔的意圖均很難捕獲不斷有新的需求提出(搜索引擎的第2維,第3維)用戶的耐心不足系統(tǒng)網(wǎng)頁是分布式的和相互連接的從什么地方開始搜索?信息是如何相互關(guān)聯(lián)的?效率(efficiency)和效果(effectiveness)在有限的資源內(nèi),只能把效率和效果提高到有限的水平提高效率常常損失效果,反之亦然新的資源和需求刺激新的技術(shù)突破新的信息資源

Document->page,blog,Webimage,…新的媒體類型Text->image,video,speech,music,map,…新的架構(gòu)Plaintextfile->hypertext,P2P,semanticWeb,…新的應(yīng)用Crawler,emailspamfilter,MP3search,mobilesearch,…主要的沖擊已不再來自于IR技術(shù)的突破Web搜索的事實(shí)是怎樣的?短的query英文:2.35words(Altavista,1998)中文:3.55chars(1999)偏精確率的檢索用戶常常瀏覽第一頁的結(jié)果每個(gè)查詢的詞數(shù):ReferenceAmandaSpink&BernardJ.Jansen(2004).WebSearch:PublicSearchingoftheWeb.Springer.

每個(gè)用戶的查詢次數(shù):

每個(gè)用戶查詢的網(wǎng)頁:可以看到:QueryDocumentSimilarityAhugenumberofpageswithmatchedquerytermsontheWebQuery=“informationretrieval”經(jīng)過文本相似度計(jì)算獲得的排序?qū)τ诙蘍uery有些力不從心,導(dǎo)致檢索結(jié)果不盡人意短

Query&檢索

QueryDocumentQuerySpaceDocSpaceSimilarityQuery=“informationretrieval”用戶需求&文檔的權(quán)威性QueryDocumentQuerySpaceDocSpaceSimilarityConcept:“IRbook““IRsystems”,“SIGIRWebsites”Authority:

Query=“informationretrieval”RepresentativeIRbook傳統(tǒng)

IR的通常包含這樣的假定

Query

較長(zhǎng)

TREC對(duì)主題(查詢)描述平均15個(gè)詞評(píng)價(jià)考慮精確率和召回率對(duì)前1000個(gè)返回結(jié)果計(jì)算平均精確率和召回率多數(shù)檢索系統(tǒng)是基于關(guān)鍵詞的搜索最簡(jiǎn)單的概念就是關(guān)鍵詞在文檔中逐字出現(xiàn)稍微嚴(yán)格一點(diǎn)的定義是:提問中的關(guān)鍵詞在文檔中頻繁出現(xiàn),并且不考慮順序基于關(guān)鍵詞搜索存在的問題可能找不到同義詞“PRC”vs.“China”“電腦”vs.“計(jì)算機(jī)”可能檢索到一些不相關(guān)的多義詞“bat”(baseballvs.mammal)“Apple”(companyvs.fruit)保安(地名vs.保護(hù)安全的人員)解決方案:智能信息檢索考慮詞匯的意義(meaning)考慮詞匯的順序(order)根據(jù)直接或間接的反饋適應(yīng)用戶的需求考慮信息來源的權(quán)威性(authority)用戶體驗(yàn):檢索結(jié)果的呈現(xiàn)檢索結(jié)果的表現(xiàn)Web檢索結(jié)果是很長(zhǎng)的列表,用戶很難在概念層瀏覽結(jié)果檢索結(jié)果分門別類信息進(jìn)一步優(yōu)化DEFBooksTools新課題——檢索結(jié)果聚類檢索結(jié)果聚類檢索結(jié)果聚類從呈現(xiàn)形式到內(nèi)容的變化——聚類文檔的內(nèi)容整合信息抽取美國(guó)科學(xué)家目前正在研究一種新型“搜索引擎”—搜得,表示它能像拖網(wǎng)一樣“撈到”所需資料網(wǎng)頁,然后以目錄表格形式將其進(jìn)行整理信息融合單文檔文摘多文檔文摘發(fā)展趨勢(shì)發(fā)展歷程以雅虎初期為代表的第一代搜索引擎以人工目錄分類為基礎(chǔ)的網(wǎng)站搜索開辟了一個(gè)時(shí)代第一代搜索引擎指主要依靠人工分揀的分類目錄搜索,這種方式是被動(dòng)的搜索,更新慢、搜索能力不足第一代搜索引擎基本上已經(jīng)退出搜索舞臺(tái)。發(fā)展歷程以Google為代表的第二代搜索引擎以超鏈分析技術(shù)為基礎(chǔ)的大規(guī)模網(wǎng)頁搜索,根據(jù)關(guān)鍵詞的分布情況對(duì)頁面進(jìn)行分類和排序優(yōu)點(diǎn):只要網(wǎng)頁上出現(xiàn)了某個(gè)關(guān)鍵詞,就能夠使用全文檢索用關(guān)鍵詞匹配把該網(wǎng)頁查出來不足:返回的無用信息太多原因:僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn)信息檢索的目標(biāo)全:互聯(lián)網(wǎng)數(shù)據(jù)搜索的范圍更廣泛準(zhǔn):數(shù)據(jù)定位更準(zhǔn)確快:用戶應(yīng)用更簡(jiǎn)潔便利,個(gè)性化,智能化信息檢索信息檢索數(shù)據(jù)庫并行處理網(wǎng)絡(luò)信息安全數(shù)據(jù)挖掘自然語言處理知識(shí)管理操作系統(tǒng)圖像、視頻、語音下一代搜索引擎由相關(guān)性檢索向智能化檢索過渡海量信息的存儲(chǔ),解析,索引應(yīng)用新的搜索工具,搜索任意關(guān)聯(lián)因素根據(jù)關(guān)鍵詞所在的網(wǎng)塊位置,自動(dòng)調(diào)整網(wǎng)頁的重要性與呈現(xiàn)的優(yōu)先級(jí)優(yōu)化查詢結(jié)果由互聯(lián)網(wǎng)搜索向互聯(lián)網(wǎng)挖掘過渡數(shù)據(jù)挖掘智能搜索引擎以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識(shí)別以及機(jī)器翻譯技術(shù)等允許用戶采用自然語言進(jìn)行信息的檢索,為用戶提供更方便、更確切的搜索服務(wù)。一般包括人工智能、模式識(shí)別、語義分析、神經(jīng)網(wǎng)絡(luò)等智能搜索

新的

IR主題

搜索行業(yè)的主題Web搜索,移動(dòng)搜索,垃圾郵件過濾,垂直搜索,元搜索,…其他行業(yè)的主題

多媒體檢索(Multimedia)文本挖掘(DataMining,NLPapplications)數(shù)字圖書館DigitalLibrarySIGIR(情報(bào)檢索專業(yè))主題基于語言模型的信息檢索,問答系統(tǒng),跨語言信息檢索,話題檢測(cè)與跟蹤,檢索結(jié)果聚類,…元搜索引擎-信息中介元搜索引擎(Meta-searchengine)是在前述搜索引擎基礎(chǔ)上建立的可以同時(shí)查詢多個(gè)搜索引擎的WWW站點(diǎn),其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎元搜索就是本身并不存儲(chǔ)網(wǎng)頁數(shù)據(jù),只是提供一個(gè)接口,針對(duì)用戶的搜索關(guān)鍵字在其他搜索引擎中獲取結(jié)果,再對(duì)結(jié)果進(jìn)行加工處理最后將結(jié)果顯示給用戶.按照搜索機(jī)制劃分,元搜索引擎包括并行式和串行式兩類元搜索引擎依賴其他獨(dú)立搜索引擎而存在,可以收到事半功倍的效果,但是會(huì)惹上官司

垂直搜索垂直搜索是針對(duì)某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。垂直搜索引擎的應(yīng)用方向很多,比如企業(yè)庫搜索、供求信息搜索引擎、購物搜索、房產(chǎn)搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業(yè)各類信息都可以進(jìn)一步細(xì)化成各類的垂直搜索引擎。

垂直搜索Google宗旨是盡快讓用戶離開google,垂直搜索應(yīng)該是粘住用戶方式的變化,檢索方法沒有質(zhì)的變化垂直搜索實(shí)例奇虎酷訊(KOOXOO)國(guó)內(nèi)外主要搜索引擎中國(guó)搜索引擎市場(chǎng)

關(guān)于搜索引擎的新聞2003年底以前,中國(guó)搜索引擎市場(chǎng)的格局是:雅虎和Google都提供中文搜索服務(wù),但沒有正式進(jìn)入中國(guó)。中國(guó)本土的搜索引擎服務(wù)商主要是百度、3721、中國(guó)搜索(慧聰搜索)。然而,這一切在2004年發(fā)生了徹底的變化。2003年11月21日,雅虎中國(guó)收購3721公司。3721的搜索服務(wù)成為了YHAOO中國(guó)的重要組成,YHAOO正式進(jìn)軍中國(guó)搜索引擎服務(wù)市場(chǎng)。2004年6月15日,Google與其他七家共同投資者一起,收購了有全球最大中文搜索引擎之稱的百度的部分股份。Google在上市前終于有了中國(guó)搜索的概念。2004年6月21日,雅虎中國(guó)除了堅(jiān)固其門戶搜索、3721之外,推出了專門的中文搜索門戶網(wǎng)站“一搜()”。2004年7月1日,微軟公司董事長(zhǎng)比爾·蓋茨在北京含蓄地表示,要加強(qiáng)MSN搜索開拓中國(guó)市場(chǎng)的力度。關(guān)于搜索引擎的新聞2005年12月,Google閃電雇傭李開復(fù),正式進(jìn)軍中國(guó)。2006年3月,Yahoo!頻繁變臉。目前,越來越多的專業(yè)搜索引擎。7月19日,雅虎中國(guó)、雅虎全球、阿里巴巴三方聯(lián)合推出一個(gè)具有智能模糊匹配功能的搜索引擎雅虎Imatch,貼近用戶的實(shí)際需求。由此可見,搜索市場(chǎng)一直是令人垂涎三尺高速成長(zhǎng)的市場(chǎng),新技術(shù)和新概念的出現(xiàn)可以隨時(shí)讓搜索市場(chǎng)發(fā)生巨大改變。正因此,百度的李彥宏常警醒員工:“百度離破產(chǎn)只有30天?!薄嗟木市侣劦却覀儼l(fā)現(xiàn)和創(chuàng)造!搜索引擎成功樣例:全球最大搜索引擎——Google據(jù)預(yù)計(jì),全球搜索市場(chǎng)3到5年后將達(dá)70億美元以上,Google在各種搜索引擎中排名第一。Google網(wǎng)址:技術(shù)創(chuàng)業(yè)六年成長(zhǎng)史創(chuàng)始人是兩位斯坦福大學(xué)學(xué)生,而立之年即成為百億富翁每個(gè)月有數(shù)億人使用走向壟斷?參股百度左右網(wǎng)民的價(jià)值取向受商業(yè)利益驅(qū)使,未來很難保證客觀公正性,競(jìng)價(jià)排名Google其它主要英文搜索引擎AOLAltaVistaAskJeevesMSNSearchLookSmartYahoo中文搜索引擎

百度百度網(wǎng)址:北大計(jì)算機(jī)系學(xué)生創(chuàng)辦百度的“知道”北京大學(xué)李曉明教授繼續(xù)研究“天網(wǎng)”,沒有商業(yè)化天網(wǎng)

中搜/全名“中國(guó)搜索”,原名“慧聰”搜狗新浪:愛問搜索引擎的現(xiàn)狀隨著百度上市和Google正式進(jìn)入中國(guó),國(guó)內(nèi)搜索引擎市場(chǎng)競(jìng)爭(zhēng)格局將發(fā)生變化。2005年各大搜索引擎廠商營(yíng)收穩(wěn)步上升,而各主流廠商的用戶市場(chǎng)占有率分別為百度37%,Google23%,Yahoo(及3721)21%對(duì)比各搜索引擎結(jié)果:輸入“和服”Google的檢索結(jié)果排在前30位的網(wǎng)頁絕大多數(shù)為日本的“和服”,說明Google進(jìn)行了有效的分詞百度基本正確搜狗基本正確部分錯(cuò)誤結(jié)果[1]重慶“偵探”商標(biāo)注冊(cè)成功邦德公司獲工商認(rèn)可

...冊(cè)范圍,將原42類商品和服務(wù)商標(biāo)注冊(cè)擴(kuò)大...[2]新潮實(shí)業(yè):“亞麻”龍頭箭在弦上

由于所有紡織品和服裝配額都將于今年底以前完全取消,近期4元左右的低價(jià)紡織股表分詞效果不佳!IR相關(guān)領(lǐng)域相關(guān)領(lǐng)域-借鑒和融合數(shù)據(jù)庫管理圖書和情報(bào)科學(xué)人工智能自然語言處理機(jī)器學(xué)習(xí)數(shù)據(jù)庫管理專注于研究結(jié)構(gòu)化數(shù)據(jù),比如關(guān)系表,而不是自由文本專注于處理定義好了的查詢式,如SQL查詢式和數(shù)據(jù)的語義都非常清晰近來有向半結(jié)構(gòu)化數(shù)據(jù)(XML)發(fā)展的趨勢(shì),和IR越來越接近圖書館和情報(bào)科學(xué)研究信息檢索中和人類使用者相關(guān)的內(nèi)容(人機(jī)交互、可視化)關(guān)心對(duì)人類知識(shí)的有效分類關(guān)心引用(citation)分析和文獻(xiàn)計(jì)量學(xué)(bibliometrics)信息的結(jié)構(gòu)化最近的數(shù)字圖書館研究使它和IR距離更近人工智能研究知識(shí)表示、推理和智能行為知識(shí)和查詢式的形式化:一階謂詞邏輯貝葉斯網(wǎng)絡(luò)最近在Web本體論(Ontology)和智能信息代理(IntelligentInformationAgents)的研究,使它與IR更接近從數(shù)據(jù)到知識(shí)數(shù)據(jù)(Data)未經(jīng)組織的數(shù)字、詞語、聲音、圖像等信息(Information)以有意義的形式加以排列和處理的數(shù)據(jù)知識(shí)(Knowledge)用于生產(chǎn)的信息(有意義的信息)信息經(jīng)過加工處理、應(yīng)用于生產(chǎn),才能轉(zhuǎn)變成知識(shí)智慧(Wisdom)應(yīng)用知識(shí)的能力,創(chuàng)新能力自然語言處理研究自然語言文本的句法、語義和語用使檢索能夠在意義層面而不是僅僅在關(guān)鍵詞層面進(jìn)行自然語言處理:IR的方向根據(jù)上下文決定歧義詞的意義:詞義消歧(wordsensedisambiguation).識(shí)別文本中特殊的信息片斷(informationextraction).從文本中回答特殊的用自然語言提出的問題詞義消歧機(jī)器學(xué)習(xí)研究能夠通過經(jīng)驗(yàn)改進(jìn)自身性能的計(jì)算系統(tǒng)有指導(dǎo)的學(xué)習(xí)(supervisedlearning)通過從人工標(biāo)注好的訓(xùn)練樣例中學(xué)習(xí)概念來實(shí)現(xiàn)對(duì)樣本的自動(dòng)分類無指導(dǎo)的學(xué)習(xí)(unsupervisedlearning)事先不經(jīng)過的人工標(biāo)注,將樣本自動(dòng)聚為有意義的組機(jī)器學(xué)習(xí):IR的方向文本分類自動(dòng)層次聚類(Yahoo)自適應(yīng)/推送/推薦垃圾郵件過濾文本聚類檢索結(jié)果的自動(dòng)聚類自動(dòng)形成層次體系信息抽取文本挖掘信息檢索的應(yīng)用數(shù)字圖書館自動(dòng)分類根據(jù)國(guó)圖分類法,對(duì)文本進(jìn)行自動(dòng)分類自動(dòng)標(biāo)引自動(dòng)給出文本的主題詞,包括抽詞標(biāo)引和賦詞標(biāo)引兩種自動(dòng)文摘根據(jù)不同比例以及用戶的不同需求自動(dòng)編寫文摘定題服務(wù)面向確定主題的情報(bào)服務(wù)個(gè)性化新聞根據(jù)用戶的興趣偏好,為用戶定制新聞內(nèi)容安全垃圾郵件過濾包括廣告、黃色和反動(dòng)郵件的過濾和分析垃圾短信過濾企業(yè)商業(yè)秘密防泄露監(jiān)測(cè)從企業(yè)內(nèi)部發(fā)出的郵件,封殺包含企業(yè)機(jī)密的郵件聊天室和BBS監(jiān)控過濾黃色話題或反動(dòng)言論垃圾短信過濾商務(wù)智能自助呼叫中心以自動(dòng)問答的方式,從企業(yè)提供的大量技術(shù)支持資料中自動(dòng)獲取答案,滿足用戶的需求減少呼叫中心的人力服務(wù)費(fèi)用用戶投訴信的自動(dòng)分類和匯總系統(tǒng)將用戶的投訴信自動(dòng)分發(fā)給企業(yè)的不同部門去處理自動(dòng)發(fā)現(xiàn)投訴信中的焦點(diǎn)問題,協(xié)助企業(yè)決策競(jìng)爭(zhēng)情報(bào)定制關(guān)于互聯(lián)網(wǎng)上關(guān)于競(jìng)爭(zhēng)對(duì)手的各種情報(bào)并匯總電子政務(wù)首長(zhǎng)辦公系統(tǒng)自動(dòng)匯總來自各下屬部門的文件,并提取重要內(nèi)容提供給領(lǐng)導(dǎo)閱讀政務(wù)自動(dòng)咨詢系統(tǒng)市民通過互聯(lián)網(wǎng),以問答的方式咨詢政府的政策和辦事流程等投訴自動(dòng)匯總分析系統(tǒng)將市民的投訴自動(dòng)分類匯總,以資政府決策行政簡(jiǎn)報(bào)自動(dòng)編寫系統(tǒng)定期自動(dòng)編寫簡(jiǎn)報(bào),在政府部門內(nèi)交流遠(yuǎn)程教育自動(dòng)答疑系統(tǒng)用戶遠(yuǎn)程提問,系統(tǒng)根據(jù)用戶的問題收集教材中的相關(guān)內(nèi)容,匯總后提供給用戶學(xué)生情況調(diào)查分析根據(jù)學(xué)生的提問情況,自動(dòng)分析學(xué)生的主要問題所在,以便對(duì)癥下藥地改進(jìn)教學(xué)內(nèi)容移動(dòng)計(jì)算短信定制服務(wù)包括新聞、股市資訊等短信匯總服務(wù)電視臺(tái)或廣播電臺(tái)常常提供在線的短信參與活動(dòng),大量短信發(fā)送到電視臺(tái)需要及時(shí)地分類匯總,以便主持人作出反應(yīng),比如概括出大多數(shù)用戶最關(guān)心的問題等。軍事情報(bào)國(guó)外軍事情報(bào)的跟蹤匯總重點(diǎn)針對(duì)國(guó)外互聯(lián)網(wǎng)進(jìn)行過濾跟蹤,對(duì)重要資料進(jìn)行分析匯總,輔助軍事決策國(guó)內(nèi)軍事情報(bào)的反泄露發(fā)現(xiàn)和攔截泄露軍事情報(bào)的郵件隱藏于普通文本中的軍事情報(bào)的過濾技術(shù)文本水印主要研究機(jī)構(gòu)國(guó)外CMU:/~callan/IRGroup/Stanford:/UMass:/國(guó)內(nèi)哈工大:清華復(fù)旦:/mcwil/irnlp/會(huì)議ACMSIGIRAnnualInternationalConferenceonResearchandDevelopmentinInformationRetrieval(1978-)ACMConferenceonInformationKnowledgeManagement(CIKM)TextRetrievalConference(TREC)全國(guó)信息檢索與內(nèi)容安

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論