數(shù)字環(huán)境下的情報(bào)研究_第1頁(yè)
數(shù)字環(huán)境下的情報(bào)研究_第2頁(yè)
數(shù)字環(huán)境下的情報(bào)研究_第3頁(yè)
數(shù)字環(huán)境下的情報(bào)研究_第4頁(yè)
數(shù)字環(huán)境下的情報(bào)研究_第5頁(yè)
已閱讀5頁(yè),還剩82頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字環(huán)境下的情報(bào)研究

相關(guān)方法、技術(shù)、工具管窺陸偉武漢大學(xué)信息資源研究中心背景信息爆炸性增長(zhǎng)2006-2010中國(guó)網(wǎng)頁(yè)規(guī)模變化(CNNIC)2006-2010中國(guó)網(wǎng)民規(guī)模變化(CNNIC)2006-2010中國(guó)網(wǎng)站規(guī)模變化(CNNIC)信息存在的狀態(tài)格式差異巨大

--Multimedia,differentfileformat,differentdatastructures--Freetext,Semi-structured,Structured分布各異--differentserver,differentos,differentdb粒度不同

--Collection,Document,Section,Para,Sentence,Phrase,Word.介紹視角信息獲取與組織情報(bào)分析與挖掘情報(bào)可視化其它信息獲取與組織傳統(tǒng)信息獲取方法社會(huì)調(diào)查(問卷調(diào)查)訪談?lì)^腦風(fēng)暴追溯法...網(wǎng)絡(luò)信息獲取方法網(wǎng)絡(luò)爬蟲技術(shù)(廣度/深度優(yōu)先遍歷)元搜索技術(shù)(多搜索引擎結(jié)果整合)動(dòng)態(tài)網(wǎng)頁(yè)獲取技術(shù)(asp/jsp/php)用戶登錄、驗(yàn)證碼識(shí)別技術(shù)Ajax數(shù)據(jù)異步傳輸解析技術(shù)文件格式轉(zhuǎn)換(PDF\WORD\EXCEL2TXT)多語種信息獲取多語種信息獲取與組織跨語言搜索技術(shù)多語種信息組織與整合方式跨語言信息檢索將查詢條件翻譯成與查詢文檔集相同的語言將查詢文檔集翻譯成與查詢條件相同的語言同時(shí)將兩者映射到與具體語言無關(guān)的語義空間Google\Googletranslator多媒體信息獲取與組織圖像信息音頻信息(演講、音樂)視頻信息混合媒體(圖、文、聲、動(dòng)畫等的兩種以上)多媒體獲取方法基于概念:采用文本

--ordinarybodytext,metadata,closecaptions基于概念化:--Convertsomethingelsetotext,eg,--viaOCRrecognitionofwordsintheimages;--speechrecognitiononspokenmaterial基于內(nèi)容:consideringmediafeatures概念與內(nèi)容的歸并多媒體檔案管理,指紋密碼,視覺跟蹤,輿情監(jiān)控,暴力色情識(shí)別等數(shù)據(jù)清理細(xì)粒度信息抽取抽取商品的規(guī)格、價(jià)格等元數(shù)據(jù)抽取實(shí)體信息文本主題識(shí)別關(guān)鍵詞抽取技術(shù)文本主題發(fā)現(xiàn)技術(shù)網(wǎng)頁(yè)正文提取正文提取技術(shù)定義:抽取網(wǎng)頁(yè)中的正文內(nèi)容,清理HTML標(biāo)簽和廣告、導(dǎo)航等信息。方法:基于模板的方法基于DOM樹結(jié)構(gòu)的方法基于標(biāo)記框的方法投票算法信息采集工具Heritrix:基于java的開源網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)信息采集大師HTMLParser:網(wǎng)頁(yè)清理工具網(wǎng)絡(luò)新聞收割機(jī)NEWSREPER,WHU-REAPERWHU-REAPER核心功能網(wǎng)站自動(dòng)采集網(wǎng)頁(yè)自動(dòng)抓取對(duì)象智能識(shí)別正文自動(dòng)抽取關(guān)鍵詞提取自動(dòng)分類聚類多粒度檢索情報(bào)組織新方法傳統(tǒng)信息組織方法目錄、主題、人工分類等新的組織方法語義網(wǎng)(本體、元數(shù)據(jù)、資源描述框架RDF)知識(shí)地圖主題圖XML語義網(wǎng)語義網(wǎng)標(biāo)準(zhǔn)和技術(shù)語義網(wǎng)三要素*元數(shù)據(jù)(metadata)*資源描述框架(RDF)*本體(ontology)語義本體構(gòu)建工具本體構(gòu)建工具對(duì)比知識(shí)地圖知識(shí)地圖:知識(shí)地圖的概念主要是指人類的客觀知識(shí),人類的知識(shí)結(jié)構(gòu)可以繪制成各個(gè)單元概念為節(jié)點(diǎn)的學(xué)科認(rèn)識(shí)圖,知識(shí)地圖是一種知識(shí)(既包括顯性的、可編碼的知識(shí),也包括隱性知識(shí))導(dǎo)航系統(tǒng),并顯示不同的知識(shí)存儲(chǔ)之間重要的動(dòng)態(tài)聯(lián)系。

知識(shí)地圖構(gòu)建步驟學(xué)科知識(shí)地圖

專家關(guān)系與知識(shí)分布情況學(xué)科知識(shí)地圖主題圖主題圖是一種用于描述信息資源的知識(shí)結(jié)構(gòu)的數(shù)據(jù)格式,它可以定位某一知識(shí)概念所在的資源位置,也可以表示知識(shí)概念間的相互聯(lián)系。主題圖的基本結(jié)構(gòu)主題圖的三要素:主題:主題是主題地圖中的基本構(gòu)成單元,通過主題表述的概念被形式化之后就是話題(subject),比如“人名”、“書”、“計(jì)算機(jī)”等

關(guān)聯(lián):又稱聯(lián)系,關(guān)聯(lián)是描述兩個(gè)或多個(gè)主題間相互關(guān)系的聯(lián)接元素。例如,“Puccini”與“Tosca”兩個(gè)主題問的關(guān)聯(lián)就是“PucciniistheauthorofTosca”,“Puccini”與“Lucca”間的關(guān)聯(lián)則是“PucciniisborninLucca”。資源:又稱資源出處、關(guān)系實(shí)例、資源指引,是指將主題連接到相關(guān)資訊資源的所在之處情報(bào)分析與挖掘從分析內(nèi)容上劃分:競(jìng)爭(zhēng)情報(bào)分析方法科技情報(bào)分析方法從研究視角上劃分:從內(nèi)容上分析從結(jié)構(gòu)上分析從用戶行為角度分析競(jìng)爭(zhēng)情報(bào)分析方法科技情報(bào)分析方法重要分析方法分類與聚類意見挖掘模擬仿真(數(shù)據(jù)擬合)網(wǎng)絡(luò)分析(社會(huì)網(wǎng)絡(luò)、鏈接、共引、合著…)共詞分析自然語言處理機(jī)器學(xué)習(xí)分類與聚類分類(classification):

給定分類類目,將文本集中的每個(gè)文本分到某個(gè)或者某幾個(gè)類別中。聚類(clustering):

根據(jù)“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的類簇012345678910012345678910分類問題舉例MultimediaGUIGarb.Coll.SemanticsMLPlanningplanningtemporalreasoningplanlanguage...programmingsemanticslanguageproof...learningintelligencealgorithmreinforcementnetwork...garbagecollectionmemoryoptimizationregion...“planninglanguageproofintelligence”訓(xùn)練數(shù)據(jù)測(cè)試數(shù)據(jù)類別(AI)(Programming)(HCI)......分類系統(tǒng)結(jié)構(gòu)標(biāo)注工具機(jī)器學(xué)習(xí)工具模型數(shù)據(jù)標(biāo)注的樣本分類工具類別預(yù)處理預(yù)處理訓(xùn)練數(shù)據(jù)文本新數(shù)據(jù)文本分類算法K近鄰分類方法支持向量機(jī)(SVM)分類方法最大熵分類方法決策樹分類方法聚類方法將無標(biāo)記的樣本劃分到聚類的各個(gè)子集中層次聚類法劃分聚類................層次聚類凝聚的方法,也稱自底向上分裂的方法,也稱自頂向下還有許多變形(改進(jìn))方法,如BIRCH,CURE劃分聚類01234567891001234567891001234567891001234678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign自組織映射(SOM)SOM的基礎(chǔ):盡管大腦具有大量的細(xì)胞,但生物學(xué)研究表明作用并不同。在空間中處于不同位置的腦細(xì)胞控制著人體不同部位的運(yùn)動(dòng)。2008年傳統(tǒng)醫(yī)藥領(lǐng)域

高頻詞SOM分析結(jié)果自動(dòng)分類和聚類的應(yīng)用新聞等網(wǎng)頁(yè)自動(dòng)分類

類別{政治,體育,軍事,…}垃圾郵件過濾

類別{spam,not-spam}文獻(xiàn)分類人名消歧多個(gè)同名作者中文作者的英文名學(xué)科領(lǐng)域熱點(diǎn)探測(cè)

分類聚類常用工具Weka:集成各種分類、聚類通用算法Lingpipe:提供基于java的擴(kuò)展平臺(tái)SPSS:豐富、強(qiáng)大的統(tǒng)計(jì)分析工具M(jìn)atlab:自帶強(qiáng)大的模糊聚類包LibSvm:強(qiáng)大的SVM分類工具SOMTOOLBOX基于SOM的聚類工具意見挖掘(情感分析)意見挖掘的產(chǎn)生背景文本信息可分為客觀性信息和主觀性信息主觀性信息的需求普遍互聯(lián)網(wǎng)產(chǎn)生了海量的主觀性信息人工查找和利用的成本高通用搜索引擎無能為力例:網(wǎng)上關(guān)于洗衣機(jī)的評(píng)價(jià)?網(wǎng)上關(guān)于武漢大學(xué)的報(bào)道傾向性?武漢市民關(guān)于收過橋費(fèi)的反應(yīng)?意見挖掘研究?jī)?nèi)容:利用自然語言處理、信息抽取和數(shù)據(jù)挖掘等技術(shù)識(shí)別和分析主觀性信息。應(yīng)用廣泛:口碑評(píng)價(jià)、輿情分析、網(wǎng)絡(luò)營(yíng)銷、競(jìng)爭(zhēng)情報(bào)等。例:意見挖掘模型抽象模型:<意見持有者,對(duì)象,意見>五元模型:<意見持有者,對(duì)象,特征,情感極性,時(shí)間>擴(kuò)展模型:<意見持有者,對(duì)象,特征,情感極性,情感極性強(qiáng)度,時(shí)間>對(duì)象與特征的關(guān)系特征與情感詞的關(guān)系武大意見挖掘框架系統(tǒng)OMING情感詞表的構(gòu)建主觀信息抽取情感信息分類情感信息的歸納整合意見挖掘通用框架的結(jié)構(gòu)評(píng)價(jià)細(xì)節(jié)-OMING系統(tǒng)分析結(jié)果展示OMING系統(tǒng)面臨的難題否定句的處理比較句的處理垃圾意見的識(shí)別情感極性強(qiáng)度的計(jì)算指代消解更加有效的摘要合成方式社會(huì)網(wǎng)絡(luò)分析整體網(wǎng)絡(luò)分析(WholeNetworkAnalysis)產(chǎn)生于社會(huì)學(xué)領(lǐng)域?qū)σ唤M良好定義社會(huì)團(tuán)隊(duì)結(jié)構(gòu)進(jìn)行定量化的分析關(guān)注與網(wǎng)絡(luò)全局結(jié)構(gòu)的識(shí)別和分析占SNA研究的大多數(shù)

個(gè)體中心網(wǎng)絡(luò)分析(EgoNetworkAnalysis)產(chǎn)生于人類學(xué)和心理學(xué)對(duì)特定個(gè)人與其鄰居之間互動(dòng)關(guān)系和聯(lián)系結(jié)構(gòu)進(jìn)行定量的分析,關(guān)注個(gè)體行為如何受到其人際網(wǎng)絡(luò)的影響。將對(duì)個(gè)體的研究進(jìn)行一般化難于獲取數(shù)據(jù)

社會(huì)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域組織管理領(lǐng)域繪制組織內(nèi)的非正式網(wǎng)絡(luò),識(shí)別、可視化及其影響評(píng)價(jià)。組織穩(wěn)定,信息傳播效率,社會(huì)資本評(píng)價(jià)等。市場(chǎng)營(yíng)銷與競(jìng)爭(zhēng)情報(bào)網(wǎng)絡(luò)構(gòu)建市場(chǎng)營(yíng)銷網(wǎng)絡(luò)用于發(fā)現(xiàn)潛在客戶、合作者和競(jìng)爭(zhēng)對(duì)手識(shí)別不同客戶的價(jià)值犯罪網(wǎng)絡(luò)用于識(shí)別犯罪網(wǎng)絡(luò)中的關(guān)鍵人物預(yù)測(cè)可能的犯罪組織911網(wǎng)絡(luò)Twitter互聯(lián)網(wǎng)全局圖Google人立方搜索人名消歧區(qū)分不同的重名人物社會(huì)網(wǎng)絡(luò)分析工具社會(huì)網(wǎng)絡(luò)分析工具分類鏈接分析定義鏈接分析法,或稱網(wǎng)絡(luò)連接分析或超鏈接分析,是以鏈接解析工具,統(tǒng)計(jì)分析軟件等為工具,用統(tǒng)計(jì)學(xué),拓?fù)鋵W(xué),情報(bào)學(xué)的方法對(duì)連接數(shù)量,類型,鏈接集中與離散規(guī)律,共鏈現(xiàn)象等的分析,用于Web網(wǎng)絡(luò)中的信息挖掘及質(zhì)量評(píng)價(jià)的一種方法。引文分析對(duì)連接分析影響被引次數(shù)到入鏈次數(shù)從其開影響因子到網(wǎng)絡(luò)影響因子從共被引分析/耦合分析到共鏈分析兩種重要算法PageRank算法Hits算法PageRank算法思想:每個(gè)網(wǎng)頁(yè)被量化的價(jià)值通過一種遞歸的方式來定義,由所有鏈向它的網(wǎng)頁(yè)的價(jià)值程度所決定Hits算法對(duì)每個(gè)網(wǎng)頁(yè)都要計(jì)算兩個(gè)值:權(quán)威值(authority)與中心值(hub)算法思想:中心頁(yè)和權(quán)威頁(yè)圖示中心值和權(quán)威值的計(jì)算鏈接分析對(duì)引文分析的影響PaperRank

AuthorRank

共引分析定義共引(Cocitation)又稱同被引,即兩篇文獻(xiàn)同時(shí)被后來的一篇或多篇文獻(xiàn)所引用,同時(shí)把共同引用這兩篇文獻(xiàn)的文獻(xiàn)數(shù)稱為共引強(qiáng)度,共引強(qiáng)度越大這兩篇文獻(xiàn)關(guān)系越密切。按照其分析單元分類文獻(xiàn)共引分析作者共引分析期刊共引分析共引分析步驟1確定分析領(lǐng)域

選擇擬研究的學(xué)科領(lǐng)域,選擇學(xué)科范圍2確定分析單元期刊、論文或作者3選擇分析對(duì)象在擬研究的學(xué)科領(lǐng)域從大量的數(shù)據(jù)中選擇有代表性的目標(biāo)文獻(xiàn)(論文、作者或期刊)作為分析對(duì)象4搜集引文數(shù)據(jù)并生成共引矩陣共引分析5:將原始矩陣轉(zhuǎn)化為相關(guān)矩陣

6數(shù)據(jù)的綜合處理與分析常用的統(tǒng)計(jì)分析處理技術(shù)主要有聚類分析(clustering)、因子分析(factoranalysis)、多維尺度(multidimensionalscaling)引文分析工具國(guó)外的引文分析工具1:WebofScience:SCIE、SSCI、A&HCI(提供CitatationIndex,SourceIndex,CoporateIndex,PermutermIndex四種索引)2:JCR:提供JournalRankings,SourceDataListing,JournalHalf-lifeListin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論