數(shù)據(jù)挖掘?qū)W習(xí)_第1頁
數(shù)據(jù)挖掘?qū)W習(xí)_第2頁
數(shù)據(jù)挖掘?qū)W習(xí)_第3頁
數(shù)據(jù)挖掘?qū)W習(xí)_第4頁
數(shù)據(jù)挖掘?qū)W習(xí)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

4月階段學(xué)習(xí)匯報論文查重,輿論監(jiān)督的功能實現(xiàn)也需要數(shù)據(jù)挖掘?qū)W習(xí)數(shù)據(jù)挖掘情況數(shù)據(jù)挖掘技術(shù)是近些年國內(nèi)外迅速發(fā)展起來的一門交叉學(xué)科,涉及數(shù)據(jù)庫、信息檢索、統(tǒng)計學(xué)、人工智能與機器學(xué)習(xí)等多個領(lǐng)域計算機的應(yīng)用普及產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)挖掘就是利用上述學(xué)科的技術(shù)進(jìn)行大數(shù)據(jù)量的處理。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域非常寬廣,從農(nóng)業(yè)生產(chǎn)的預(yù)測到基因分類,從化學(xué)分子結(jié)構(gòu)的識別到教練臨場更換隊員,從信用卡欺詐到稅務(wù)稽查,數(shù)據(jù)挖掘技術(shù)對未來社會的各個領(lǐng)域?qū)⑵鸬皆絹碓街匾淖饔?。?shù)據(jù)挖掘在商業(yè)中應(yīng)用BI數(shù)據(jù)挖掘在金融數(shù)據(jù)分析中的應(yīng)用數(shù)據(jù)挖掘在網(wǎng)絡(luò)信息安全中的應(yīng)用數(shù)據(jù)挖掘在科研文獻(xiàn)分析中的應(yīng)用等文本數(shù)據(jù)挖掘,web數(shù)據(jù)挖掘,空間數(shù)據(jù)挖掘等數(shù)據(jù)挖掘的分類分類分析聚類分析關(guān)聯(lián)分析序列分析及時間序列孤立點檢測其他分析最近看的書《數(shù)據(jù)挖掘原理與算法》邵峰晶,于忠清,王金龍孫仁誠編著科學(xué)出版社《空間數(shù)據(jù)分析教程》王勁峰廖一蘭劉鑫編著

科學(xué)出版社《python編程實踐》jennifercampbelletc。著《集體智慧編程》疑惑決策樹,貝葉斯網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò),粗糙集,支持向量機,粒子群優(yōu)化等在數(shù)據(jù)分析與數(shù)據(jù)挖掘中都有,有的是有現(xiàn)成的軟件可以用,有的是用算法自己編程實現(xiàn),范圍太大,有點迷茫

數(shù)據(jù)挖掘工具R語言MatlabSpssSasJava(Weka工具)Python其他數(shù)據(jù)挖掘網(wǎng)站我找的是人大經(jīng)濟(jì)論壇跟小木蟲/~lifeifei/SpatialDataset.htm公路數(shù)據(jù)集(帶權(quán)重),很有用

網(wǎng)絡(luò)分析,圖挖掘方向的同學(xué)相信都曾因為沒有數(shù)據(jù)苦惱。真實的數(shù)據(jù)往往需要爬取網(wǎng)頁,但往往會遇到被封ip的危險。1./na09/resources.html這個網(wǎng)站給出了非常多的有用的數(shù)據(jù)集包括:dblpdata,kdddata,imdbdatabase,郵件網(wǎng)絡(luò),博客網(wǎng)絡(luò),等等。此外還給出了一些實用的工具進(jìn)行網(wǎng)絡(luò)分析,數(shù)據(jù)呈現(xiàn)等。2。/about/metadata此地址給出了citeseer數(shù)據(jù)的下載方式,citeseer數(shù)據(jù)包括合作者,引文等信息。關(guān)于citeseer的下載辦法,參見本博客的另一篇文章citeseerdata的下載方法。3。Coradataset的下載地址/~mccallum/code-data.html關(guān)于更詳細(xì)的數(shù)據(jù)介紹請看/zhudaohui/blog/item/4e6f86fdc4df791e08244d12.html4。dblp數(shù)據(jù)下載地址dblp.uni-trier.de/xml/dblp數(shù)據(jù)量較大,數(shù)據(jù)包括合作者,日期,但是一般不包引文信息5,http://books.nips.cc/6,/~roweis/publications.html數(shù)據(jù)挖掘在科研文獻(xiàn)分析中的應(yīng)用大量網(wǎng)絡(luò)科技文獻(xiàn)圖書館大量出現(xiàn),ACMPortal,CiteSeer。DBLP(TheDBLPcomputersciencebibliography,googlescholar,百度文庫,豆丁文庫等將不同載體不同地域的數(shù)字化信息資源互相連接,實現(xiàn)資源共享,為用戶檢索,使用科技文獻(xiàn)提供了極大的便利通常,一篇學(xué)術(shù)文獻(xiàn)主要由六部分組成,包括標(biāo)題,作者,摘要,關(guān)鍵詞,文章正文,參考文獻(xiàn),這些包括文本信息,鏈接信息,社會信息,通過對其進(jìn)行分析和挖掘,可以發(fā)現(xiàn)大量有用的或潛在的信息,提高研究者對科技文獻(xiàn)的整理和總結(jié),從而幫助研究者進(jìn)行更有效的科學(xué)研究目前,在科研文獻(xiàn)分析中匯集了包括文獻(xiàn)計量學(xué),文本挖掘,復(fù)雜網(wǎng)絡(luò),等主要進(jìn)行的研究

1,引文分析SCI(科學(xué)引文索引)美國isi公司利用garfiled的研究成果創(chuàng)始的引文分析所建立的影響因子,一方面可以評估科技期刊學(xué)術(shù)學(xué)術(shù)水平和期刊質(zhì)量,另一方面可以評價研究機構(gòu),著者的科研產(chǎn)出能力,學(xué)術(shù)影響及科研成果等,同時還能利用參考文獻(xiàn)的引用信息迅速方便組建科研課題的參考文獻(xiàn)網(wǎng)絡(luò),從而分析最新熱點主題,跟蹤熱點主題的變化趨勢等中國知網(wǎng)就有學(xué)術(shù)趨勢的功能國內(nèi)的科學(xué)技術(shù)和信息的計量評價研究,建立了中國學(xué)術(shù)期刊網(wǎng)CNKI,中國科學(xué)引文數(shù)據(jù)庫CSCD,中問社會科學(xué)引文索引CSSCI,2008年中國人民大學(xué)開發(fā)了C-DBLP中文文獻(xiàn)集成系統(tǒng),為用戶提供權(quán)威的論文數(shù)據(jù)和方便的查詢服務(wù)目前較著名的文獻(xiàn)資料庫主要包括ISI(SCI,SSCI,A&HCI,JCR)CiteSeer,googlescholar2,復(fù)雜信息的查詢隨著資料獲取手段的多樣性用戶已經(jīng)不僅僅滿足于文字信息的檢索,傳統(tǒng)的基本檢索,高級檢索,關(guān)鍵詞檢索,主題檢索,出版物檢索等已不能滿足需要,人們對復(fù)雜信息如圖表致謝的需求越來越大3,準(zhǔn)確的信息抽取

為了能夠有效的信息檢索,需要將信息準(zhǔn)確抽取出來,以供用戶查詢,大量的機器學(xué)習(xí)方法被用來進(jìn)行這方面工作,很多學(xué)者將自然語言的處理技術(shù)用于信息抽取4,基于語義的文本挖掘一方面數(shù)字圖書館的使用者希望快速檢索到有用的信息另一方面人們更希望能夠快速地從這些海量的文本流中獲得具有更強語義的信息,能夠自動獲取文獻(xiàn)的趨勢和方向的深層次語義主題模型(主要是基于LDA模型)用于對文獻(xiàn)數(shù)據(jù)或其他類似相關(guān)數(shù)據(jù)進(jìn)行建模,自動抽取數(shù)據(jù)集描述,即文章主題文本聚類通過將文本聚類,組內(nèi)文本共享相同主題,利用主題時間強度可反映內(nèi)容發(fā)展5,信息可視化信息可視化技術(shù)在內(nèi)容演化分析中發(fā)揮了非常重要的作用,基于文本內(nèi)容挖掘技術(shù)的結(jié)果通??捎糜谝钥梢暬问奖磉_(dá),但其缺少用戶交互,不易幫助人們更加直觀理解信息ThemeRiver按時間順序反映事件發(fā)展歷史趨勢,并通過河流模型進(jìn)行呈現(xiàn)CiteseerⅡ利用引文數(shù)據(jù)對科學(xué)文獻(xiàn)中的趨勢和臨時模式進(jìn)行檢測,并通過關(guān)聯(lián)分析模型呈現(xiàn)結(jié)果基于研究者發(fā)文序列的研究領(lǐng)域擴散_王金龍通過研究作者在會議上的文章發(fā)表情況,我們可以理解其研究歷史。將所有研究者的文章發(fā)表情況放在一起綜合考慮,可以理解研究領(lǐng)域的形成、發(fā)展及演化。以一個權(quán)威會議為目標(biāo)會議,通過在不同時間對在其上發(fā)表論文的不同類型作者的研究,可獲得領(lǐng)域間的動態(tài)發(fā)展關(guān)系,從而進(jìn)一步反映目標(biāo)領(lǐng)域的發(fā)展基于概率圖模型的科研文獻(xiàn)主題演化研究學(xué)術(shù)文獻(xiàn)的主題分析對于研究者進(jìn)行思路整理及發(fā)現(xiàn)研究主題非常重要。通過進(jìn)一步的分析,能夠理解主題如何發(fā)展變化,以及如何影響研究者的行為等等。利用主題模型獲取時間文本的主題及其強度曲線,然后利用時間序列的逐段線性表示方法去除序列中的噪音,從而有效反映趨勢信息,使得利用模塊化網(wǎng)絡(luò)能夠更加準(zhǔn)確地反映主題的影響關(guān)系面向異質(zhì)關(guān)系的社區(qū)挖掘_王金龍社區(qū)挖掘(communitymining)技術(shù)正吸引越來越多人的關(guān)注,已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域研究的熱點問題。所謂社區(qū),簡單來說就是享有共同性質(zhì)的一組個體。社區(qū)挖掘的一個重要特性就是社區(qū)的成員在社區(qū)內(nèi)部之間的聯(lián)系非常緊密,而在社區(qū)相互之間的聯(lián)系非常疏散這是《數(shù)據(jù)挖掘原理與算法》中介紹的三篇文章,我只看了第一個,用的動態(tài)貝葉斯網(wǎng)絡(luò),我不知道是用的什么編程語言實現(xiàn)的,我感覺bayesionb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論