大數(shù)據(jù)與數(shù)據(jù)挖掘_第1頁
大數(shù)據(jù)與數(shù)據(jù)挖掘_第2頁
大數(shù)據(jù)與數(shù)據(jù)挖掘_第3頁
大數(shù)據(jù)與數(shù)據(jù)挖掘_第4頁
大數(shù)據(jù)與數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩72頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘課程教學(xué)數(shù)據(jù)挖掘課程教學(xué)研討研討數(shù)據(jù)挖掘課程的目的數(shù)據(jù)挖掘課程的目的什么是數(shù)據(jù)挖掘Wiki中的定義中的定義the analysis step of the Knowledge Discovery in Databases process, or KDDAn interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets involving methods at the intersection of artifi

2、cial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management a

3、spects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.2021-10-18數(shù)據(jù)庫研究所3開設(shè)數(shù)據(jù)挖掘課程的目的技術(shù)發(fā)展的趨勢的需要大數(shù)據(jù)和智能化是信息技術(shù)發(fā)展的新動力技術(shù)發(fā)展路徑 數(shù)據(jù)庫-數(shù)據(jù)倉庫-數(shù)據(jù)挖掘-大數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)已經(jīng)成為很多應(yīng)用領(lǐng)域的基本支撐技術(shù)WEB

4、數(shù)據(jù)分析電子商務(wù)生物信息學(xué)金融數(shù)據(jù)分析2021-10-18數(shù)據(jù)庫研究所4開設(shè)數(shù)據(jù)挖掘課程的目的數(shù)據(jù)分析類課程在計算機教學(xué)體系中的作用將逐漸增加數(shù)據(jù)挖掘、機器學(xué)習(xí)、培養(yǎng)學(xué)生理論與應(yīng)用相結(jié)合能力培養(yǎng)學(xué)生應(yīng)用基本的方法,提高解決實際的系統(tǒng)能力數(shù)據(jù)挖掘課程的特點入門容易有深度應(yīng)用實例多 易于設(shè)計實驗2021-10-18數(shù)據(jù)庫研究所5復(fù)旦大學(xué)數(shù)據(jù)挖掘課程的設(shè)置復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院基本情況學(xué)生情況 120名本科生/年 150名研究生/年教師情況 教學(xué)科研教師:100名左右教學(xué)理念 強調(diào)數(shù)據(jù)基礎(chǔ) 強調(diào)學(xué)生綜合能力的培養(yǎng) 強調(diào)學(xué)生創(chuàng)新能力培養(yǎng)復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院基本情況主要研究方向 媒體計算 數(shù)據(jù)

5、庫與數(shù)據(jù)科學(xué) 網(wǎng)絡(luò)與信息安全 智能信息處理 人機接口和服務(wù)計算 理論計算機科學(xué) 軟件工程與系統(tǒng)軟件2021-10-18數(shù)據(jù)庫研究所6復(fù)旦大學(xué)數(shù)據(jù)挖掘課程的設(shè)置總體目標掌握大規(guī)模數(shù)據(jù)挖掘與分析的基本流程掌握數(shù)據(jù)挖掘的基本算法掌握對實際數(shù)據(jù)集進行挖掘的系統(tǒng)能力 算法設(shè)計 挖掘算法的內(nèi)涵 參數(shù)設(shè)置 結(jié)果評估 了解數(shù)據(jù)挖掘的主要應(yīng)用方向為后續(xù)的課程做準備2021-10-18數(shù)據(jù)庫研究所7復(fù)旦大學(xué)數(shù)據(jù)挖掘課程的設(shè)置2021-10-18數(shù)據(jù)庫研究所8數(shù)據(jù)倉庫與數(shù)據(jù)挖掘WEB數(shù)據(jù)管理和數(shù)據(jù)挖掘數(shù)據(jù)密集型計算文本數(shù)據(jù)挖掘高級數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫系統(tǒng)機器學(xué)習(xí)機器學(xué)習(xí) 生物信息學(xué)生物信息學(xué) 多媒體數(shù)據(jù)處理

6、多媒體數(shù)據(jù)處理數(shù)據(jù)庫新技術(shù)數(shù)據(jù)庫新技術(shù)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程的教學(xué)目的掌握數(shù)據(jù)倉庫數(shù)據(jù)挖掘原理、技術(shù)和方法,掌握建立數(shù)據(jù)挖掘應(yīng)用系統(tǒng)的方法,了解相關(guān)前沿的研究。教學(xué)內(nèi)容數(shù)據(jù)挖掘、數(shù)據(jù)倉庫的基本概念 數(shù)據(jù)倉庫設(shè)計和應(yīng)用 數(shù)據(jù)挖掘的基本技術(shù)關(guān)聯(lián)分析、分類分析、聚類分析、異常分析和演化分析等;聯(lián)機分析處理OLAP技術(shù);數(shù)據(jù)挖掘應(yīng)用系統(tǒng)開發(fā)數(shù)據(jù)挖掘技術(shù)的新應(yīng)用數(shù)據(jù)挖掘軟件發(fā)展2021-10-18數(shù)據(jù)庫研究所9高級數(shù)據(jù)挖掘課程的教學(xué)目的讓學(xué)生掌握數(shù)據(jù)挖掘的基本概念、算法和高級技術(shù);將這些概念、算法和技術(shù)應(yīng)用于實際問題。教學(xué)內(nèi)容分類算法, 包括決策樹(ID3, C4.5, SPRINT等

7、)、基于規(guī)則的分類器(C4.5rules, RIPPLE等)、Nave Bayes分類器和貝葉斯網(wǎng)絡(luò)、最近鄰分類器(kNN, Condensed kNN, DANN等)、支持向量機(SVM)、Ensemble方法(如AdaBoost, Bagging, Rain Forest等),以及模型選擇(如MDL,Regularization Network等)。2021-10-18數(shù)據(jù)庫研究所10高級數(shù)據(jù)挖掘教學(xué)內(nèi)容聚類分析 劃分型聚類算法,如K-means等 層次型聚類算法,如Single link, complete link, Ward方法等 及基于模型的聚類如EM算法; 基于密度的聚類算法如D

8、BSCAN 其他高級聚類算法,如Clique, CURE, CHAMELEON, BIRCH等關(guān)聯(lián)分析, Apriori算法、DHP、FP-growth,以及頻繁序列挖掘、圖挖掘等教學(xué)內(nèi)容數(shù)據(jù)挖掘應(yīng)用 異常檢測、數(shù)據(jù)流挖掘、Web挖掘(PageRank, HITS和Spam, Opinion Mining)、社會網(wǎng)絡(luò)分析(Blog、Tag分析等)、數(shù)據(jù)挖掘和隱私保護、文本挖掘(PLSA, 概率主題模型等)、降維技術(shù)(SVD, FastMap, LSH等)和特征選擇(基于互信息量的方法、Relief等)等主題具體內(nèi)容逐步調(diào)整研討是主要的授課方式2021-10-18數(shù)據(jù)庫研究所11Web數(shù)據(jù)管理和

9、數(shù)據(jù)挖掘數(shù)據(jù)管理和數(shù)據(jù)挖掘本課程的教學(xué)目的了解大規(guī)模WEB數(shù)據(jù)(包括HTML數(shù)據(jù)、XML等類型數(shù)據(jù))的管理與挖掘技術(shù),及其在WEB領(lǐng)域中的應(yīng)用,學(xué)會充分利用領(lǐng)域內(nèi)的信息課程內(nèi)容網(wǎng)絡(luò)爬蟲技術(shù) DNS解析、鏈接抽取、重復(fù)網(wǎng)頁處理、WEB搜索和信息檢索 文本預(yù)處理、向量空間模型、相關(guān)性反饋WEB數(shù)據(jù)挖掘 相似性計算和聚類、文本分類、鏈接分析、WEB數(shù)據(jù)挖掘應(yīng)用 社交網(wǎng)絡(luò)分析、資源發(fā)現(xiàn)、2021-10-18數(shù)據(jù)庫研究所12文本數(shù)據(jù)挖掘課程的教學(xué)目的了解大規(guī)模文本數(shù)據(jù)的處理和挖掘技術(shù),及其在生物/醫(yī)療等文本數(shù)據(jù)分析中的應(yīng)用課程內(nèi)容文本預(yù)處理技術(shù)文本聚類技術(shù)基于本體的文本數(shù)據(jù)挖掘文本挖掘中的概率模型可視化

10、技術(shù)生物/醫(yī)療文本數(shù)據(jù)挖掘2021-10-18數(shù)據(jù)庫研究所13數(shù)據(jù)密集型計算理論與實踐課程的教學(xué)目的了解基于云計算平臺或其他的新型分布式/并行計算平臺上數(shù)據(jù)挖掘算法的實現(xiàn)技術(shù)及其應(yīng)用課程內(nèi)容分布式系統(tǒng)簡介分布式文件系統(tǒng)并行編程基礎(chǔ)Map/Reduce編程模型分布式圖算法與PageRank聚類算法與MapReduce2021-10-18數(shù)據(jù)庫研究所14分類算法與MapReduceNOSQL介紹GPU通用編程基礎(chǔ)CUDA介紹與調(diào)優(yōu)社會媒體中典型應(yīng)用信息檢索中典型應(yīng)用主要參考文獻Jiawei Han,etc. Data Mining Concept and Techniques, Magan Kar

11、fmann PublishersSoumen Chakrabarti, Mining the WEB- discovering knowledge from hypertext data, Magan Karfmann Publishers朱揚勇等,數(shù)據(jù)挖掘技術(shù)及其應(yīng)用Pang-Ning Tan, M. Steinbach, and V. Kumar. Introduction to Data Mining (影印版), 人民郵電出版社, 2006.1.Ian Witten, and E. Frank. Data Mining: Practical Machine Learning Tools

12、 and Techniques (影印版, 第2版), 機械工業(yè)出版社, 2005.9.David Hand, H. Mannila, and P. Smyth. Principles of Data Mining, 機械工業(yè)出版社, 2003.4.T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001Data and XML, Morgan Kaufman Publ

13、ishers, 20006. KDD, VLDB, SIGMOD, ICDM, SDM, ICML等會議論文2021-10-18數(shù)據(jù)庫研究所15數(shù)據(jù)挖掘課程的主要內(nèi)容數(shù)據(jù)挖掘課程的主要內(nèi)容數(shù)據(jù)挖掘的理念數(shù)據(jù)挖掘是一個過程數(shù)據(jù)準備、挖掘、評估、參數(shù)調(diào)整、再挖掘、數(shù)據(jù)挖掘是一個白盒操作挖掘結(jié)果的解釋是一個重要操作數(shù)據(jù)挖掘是對數(shù)據(jù)的操作理解數(shù)據(jù)整理數(shù)據(jù)面向目標設(shè)計挖掘模式2021-10-18數(shù)據(jù)庫研究所17數(shù)據(jù)挖掘課程的主要內(nèi)容先導(dǎo)課程數(shù)據(jù)庫、概率統(tǒng)計數(shù)據(jù)挖掘的基本算法適用于本科生推薦教材 Jiawei Han, Jian Pei, etc. Data Mining C o n c e p t a

14、n d Techniques, Magan Karfmann Publishers高級數(shù)據(jù)挖掘技術(shù)適用于研究生適用于研究生面向特定領(lǐng)域的數(shù)據(jù)挖掘技術(shù)適用于本科生科創(chuàng)活動選題2021-10-18數(shù)據(jù)庫研究所18數(shù)據(jù)挖掘是一個過程數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫數(shù)據(jù)倉庫任務(wù)相關(guān)的數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評估2021-10-18數(shù)據(jù)庫研究所19數(shù)據(jù)數(shù)據(jù)的類型各種類型的數(shù)據(jù) 文本、序列、圖片、視頻特征抽取 屬性數(shù)據(jù) 圖、樹結(jié)構(gòu)數(shù)據(jù)數(shù)據(jù)的關(guān)聯(lián)關(guān)系和數(shù)據(jù)內(nèi)容理解數(shù)據(jù)的語義的體現(xiàn)的形式,明確數(shù)據(jù)挖掘的依據(jù)2021-10-18數(shù)據(jù)庫研究所20數(shù)據(jù)數(shù)據(jù)集的特點數(shù)據(jù)的稀疏性數(shù)據(jù)的分布數(shù)據(jù)的覆蓋范圍2021-10-18數(shù)據(jù)庫研究

15、所21數(shù)據(jù)挖掘的結(jié)果和數(shù)據(jù)集有很大的關(guān)聯(lián)挖掘之前需要了解數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)的相似性度量度量的三個性質(zhì) 非負性、對稱性、三角不等式各種評價相似性的方法 歐幾里得距離、明考斯基距離、余弦相似度、皮爾森相關(guān)系數(shù)2021-10-18數(shù)據(jù)庫研究所22評價數(shù)據(jù)的相似性是數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫是為支持管理決策建立的,面向主題的、集成的、隨時間變化的、不可修改的數(shù)據(jù)集合主要內(nèi)容ETL工具數(shù)據(jù)倉庫建模聯(lián)機分析2021-10-18數(shù)據(jù)庫研究所23數(shù)據(jù)倉庫為數(shù)據(jù)挖掘構(gòu)建了數(shù)據(jù)基礎(chǔ),是大數(shù)據(jù)集成技術(shù)的雛形,聯(lián)機分析是數(shù)據(jù)挖掘的一種數(shù)據(jù)源數(shù)據(jù)源數(shù)據(jù)抽取加載數(shù)據(jù)抽取加載數(shù)據(jù)倉庫管理和監(jiān)控工具ETL工具前端工具前端工

16、具終端用戶終端用戶數(shù)據(jù)倉庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫集市集市集市集市OLAP數(shù)據(jù)清洗關(guān)系數(shù)據(jù)庫其它數(shù)據(jù)源元數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)挖掘元數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)存儲信息傳遞數(shù)據(jù)倉庫2021-10-18數(shù)據(jù)庫研究所24針對多個數(shù)據(jù)源(來自不同設(shè)備,使用不同數(shù)據(jù)格式)數(shù)據(jù)清潔(編碼矛盾,遺失值,重復(fù)值,規(guī)范化;組合多源記錄數(shù)據(jù),清除無用源數(shù)據(jù)等);數(shù)據(jù)匯總包括最初的裝載,數(shù)據(jù)倉庫開始工作后的將變動的數(shù)據(jù)進行轉(zhuǎn)換后存入正在工作的數(shù)據(jù)倉庫數(shù)據(jù)倉庫ETL(Extract、Transfer、Load)2021-10-18數(shù)據(jù)庫研究所25在一個給定時刻捕獲的數(shù)據(jù),即相關(guān)源數(shù)據(jù)在某個特定時刻的快照。(一般初始裝載時使用)靜態(tài)數(shù)據(jù)抽

17、取修正/追加數(shù)據(jù)抽取延緩型數(shù)據(jù)抽取立即型數(shù)據(jù)抽取數(shù)據(jù)抽取技術(shù)抽取是實時的,當(dāng)交易發(fā)生時就會在源數(shù)據(jù)庫和文件中發(fā)生。通過交易日志捕獲;從數(shù)據(jù)庫觸發(fā)器捕獲;從源應(yīng)用程序捕獲?;谌掌诤蜁r間標記捕獲;通過文件比較捕獲。數(shù)據(jù)倉庫數(shù)據(jù)抽取將不同來源的數(shù)據(jù)放在一起2021-10-18數(shù)據(jù)庫研究所26數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換選擇轉(zhuǎn)化匯總分離/合并 選擇從源系統(tǒng)得到選擇從源系統(tǒng)得到的整個記錄或部分的整個記錄或部分記錄(抽取過程)記錄(抽取過程) 標準化,使字標準化,使字段對用戶可用段對用戶可用可理解;粒度可理解;粒度 多個系統(tǒng)中多個系統(tǒng)中選中部分的選中部分的合并操作合并操作 常見的轉(zhuǎn)換類型 格式修正;字段解碼;計算值

18、和導(dǎo)出值;單個字段分離;信息合并;特征集合轉(zhuǎn)化;度量單位轉(zhuǎn)化;日期/時間轉(zhuǎn)化;匯總;鍵重新構(gòu)造等數(shù)據(jù)轉(zhuǎn)換:根據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換:根據(jù)轉(zhuǎn)換規(guī)則進行轉(zhuǎn)換和重新規(guī)則進行轉(zhuǎn)換和重新結(jié)構(gòu)化(映射)結(jié)構(gòu)化(映射)數(shù)據(jù)倉庫數(shù)據(jù)轉(zhuǎn)換將統(tǒng)一不同格式的數(shù)據(jù)2021-10-18數(shù)據(jù)庫研究所27數(shù)據(jù)倉庫數(shù)據(jù)清洗不完整的數(shù)據(jù)可能來自收集數(shù)據(jù)時該數(shù)據(jù)值(屬性)沒有用、不考慮人員/硬件/軟件故障噪聲數(shù)據(jù) (不正確的數(shù)值)可能來自儀器設(shè)備產(chǎn)生錯誤數(shù)據(jù)數(shù)據(jù)輸入時人為錯誤或計算機錯誤數(shù)據(jù)傳輸錯誤不一致數(shù)據(jù)可能來自不同的數(shù)據(jù)源數(shù)據(jù)質(zhì)量是取得好的數(shù)據(jù)挖掘結(jié)果的基礎(chǔ)2021-10-18數(shù)據(jù)庫研究所28初始裝載:第一次對所有的數(shù)據(jù)倉庫表進行

19、遷移增量裝載:根據(jù)需要定期應(yīng)用運行過程中發(fā)生的變化完全刷新:完全刪除一個或多個表的內(nèi)容,并重新裝載新的數(shù)據(jù)數(shù)據(jù)倉庫2021-10-18數(shù)據(jù)庫研究所29數(shù)據(jù)倉庫模式-雪花模型雪花模型是描述屬性數(shù)據(jù)的候選模型2021-10-18數(shù)據(jù)庫研究所30聯(lián)機分析聯(lián)機分析1993年,E.F.Codd提出多維數(shù)據(jù)庫和多維分析的概念(即OLAP),側(cè)重于分析型應(yīng)用用于區(qū)別于OLTP的操作型應(yīng)用 OLTP已不能滿足用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求2021-10-18數(shù)據(jù)庫研究所31城城 市市 按季度時間、城市地區(qū)和商品類型三個維銷售的數(shù)據(jù)按季度時間、城市地區(qū)和商品類

20、型三個維銷售的數(shù)據(jù)計算機計算機家庭娛樂家庭娛樂南京南京上海上海北京北京天津天津Q1Q2Q3Q4電電 話話空空 調(diào)調(diào)商品類型商品類型 季季 度度銷售額銷售額數(shù)據(jù)立方體2021-10-18數(shù)據(jù)庫研究所322021-10-18數(shù)據(jù)庫研究所33數(shù)據(jù)立方體聯(lián)機分析是數(shù)據(jù)挖掘的一種重要的形式數(shù)據(jù)準備數(shù)據(jù)裁剪和構(gòu)造在保持原數(shù)據(jù)完整性的基礎(chǔ)上,對這些數(shù)據(jù)進行歸約化處理,以提高數(shù)據(jù)分析或數(shù)據(jù)挖掘的效果維歸約 選維 :使用特征的一個子集 降維:主成分分析PCA 特征加權(quán)與篩選 特征轉(zhuǎn)換與構(gòu)造數(shù)據(jù)壓縮數(shù)值歸約2021-10-18數(shù)據(jù)庫研究所34構(gòu)造合適的數(shù)據(jù)是取得好的數(shù)據(jù)挖掘結(jié)果的基礎(chǔ)2021-10-18數(shù)據(jù)庫研究

21、所35關(guān)聯(lián)規(guī)則項集 X = x1, , xk找到滿足最小支持度和置信度的規(guī)則 X Y 支持度, s, 事務(wù)包含X Y的概率置信度, c, 包含X同時包含Y的條件概率Let supmin = 50%, confmin = 50%Freq. Pat.: A:3, B:3, D:4, E:3, AD:3Association rules:A D (60%, 100%)D A (60%, 75%)Customerbuys diaperCustomerbuys bothCustomerbuys beerTransaction-idItems bought10A, B, D20A, C, D30A, D,

22、 E40B, E, F50B, C, D, E, F關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的主要算法種類AprioriFP-growth模式的變種約束閉模式信息量的評估方法不同類型數(shù)據(jù)中的頻繁模式序列圖2021-10-18數(shù)據(jù)庫研究所36減少頻繁模式/規(guī)則的規(guī)模是關(guān)聯(lián)規(guī)則技術(shù)應(yīng)用的關(guān)鍵聚類分析2021-10-18數(shù)據(jù)庫研究所37是根據(jù)是根據(jù)最大化簇內(nèi)的相似性最大化簇內(nèi)的相似性、最小化簇間的相似性最小化簇間的相似性的原則將的原則將數(shù)據(jù)對象聚類或分組,所形成數(shù)據(jù)對象聚類或分組,所形成的每個簇可以看作一個數(shù)據(jù)對的每個簇可以看作一個數(shù)據(jù)對象類,用顯式或隱式的方法描象類,用顯式或隱式的方法描述它們述它們基于劃分的基于劃分的基

23、于層次的基于層次的基于密度的基于密度的基于網(wǎng)格的基于網(wǎng)格的基于模型的基于模型的聚類算法聚類算法K-meansK-medoids凝聚的凝聚的分裂的分裂的DBSCANOPTICSSTINGCLIQUEStatisticsNeural Network聚類分析2021-10-18數(shù)據(jù)庫研究所38能夠適用于大數(shù)據(jù)量能夠適用于大數(shù)據(jù)量(可伸縮性可伸縮性)能夠處理不同類型數(shù)據(jù)能夠處理不同類型數(shù)據(jù)(距離定義距離定義)能夠處理高維數(shù)據(jù)能夠處理高維數(shù)據(jù)能夠發(fā)現(xiàn)任意形狀的簇能夠發(fā)現(xiàn)任意形狀的簇(結(jié)果特點結(jié)果特點)應(yīng)用聚類算法需要考慮的因素應(yīng)用聚類算法需要考慮的因素聚類結(jié)果可解釋、易使用聚類結(jié)果可解釋、易使用具有處理

24、噪聲的能力具有處理噪聲的能力聚類分析2021-10-18數(shù)據(jù)庫研究所392021-10-18數(shù)據(jù)庫研究所40分類分析定義給定一個數(shù)據(jù)樣本集DX1,X2,Xn,樣本Xi D,類的集合CC1, C2,Cm,分類是從數(shù)據(jù)樣本集到類集合的映射f:D C,即數(shù)據(jù)集中的樣本Xi分配到某個類Cj中,有Cj Xi|f(Xi) = Cj,1in,1jm,且Xi D。即通過學(xué)習(xí)得到一個目標函數(shù)f,把每個屬性集x映射到一個預(yù)先定義的類標號y,f又稱分類模型分類分析b. 測試測試(使用模使用模型分類型分類)階段階段a. 模型訓(xùn)練階段模型訓(xùn)練階段構(gòu)造分類器:2021-10-18數(shù)據(jù)庫研究所41分類分析分類算法決策樹貝葉

25、斯方法最近鄰支持向量機神經(jīng)網(wǎng)絡(luò)評估分類算法的要素預(yù)測的準確度計算復(fù)雜度模型描述的簡潔性模型的可解釋性避免過度擬合2021-10-18數(shù)據(jù)庫研究所422021-10-18數(shù)據(jù)庫研究所異常檢測異常一個數(shù)據(jù)集中往往包含一些特別的數(shù)據(jù),其行為和模式與一般的數(shù)據(jù)不同,這些數(shù)據(jù)稱為“異常”(小模式)異常檢測發(fā)現(xiàn)數(shù)據(jù)集中明顯不同于其他數(shù)據(jù)的對象的過程。即對“異?!睌?shù)據(jù)的發(fā)現(xiàn)和分析43噪噪 聲聲異異 常常“噪聲噪聲”:定義定義在簇在簇的基礎(chǔ)上的基礎(chǔ)上,是不隸,是不隸屬于任何簇的數(shù)據(jù)屬于任何簇的數(shù)據(jù)多數(shù)聚類算法具有一定的噪聲處理能力,在一定程度上可以檢測異常數(shù)據(jù)。但聚類定義的“噪聲”和 “異?!痹诟拍钌鲜怯衅?/p>

26、的?!爱惓.惓!保菏遣灰蕾囀遣灰蕾囉谑欠翊嬖诖亍S谑欠翊嬖诖?。聚類算法中具有處理噪聲能力的出發(fā)點和目的是優(yōu)化簇,在生成結(jié)果簇時,噪聲是可以容忍或忽略的。異常、噪聲如何定義異常?2021-10-18數(shù)據(jù)庫研究所442021-10-18數(shù)據(jù)庫研究所異常檢測異常檢測的主要方法基于聚類的異常挖掘k-近鄰方法基于統(tǒng)計的異常分析方法基于偏差的異常分析方法具體算法DB(pct,dmin)異常DnK異常k-distanceLOF45序列數(shù)據(jù)挖掘應(yīng)用領(lǐng)域生物信息學(xué)金融數(shù)據(jù)分析電子商務(wù)信用卡分析主要的挖掘角度趨勢變化序列模式挖掘循環(huán)變化非規(guī)則隨機變化關(guān)聯(lián)分析2021-10-18數(shù)據(jù)庫研究所46可視化2021-10

27、-18數(shù)據(jù)庫研究所47可視化是評估挖掘結(jié)果的有效工具數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域商業(yè)數(shù)據(jù)挖掘“尿布與啤酒”的故事 數(shù)據(jù)挖掘項目實施良好的數(shù)據(jù)積累明確的業(yè)務(wù)需求準備數(shù)據(jù)數(shù)據(jù)挖掘技術(shù)結(jié)果表達結(jié)果評價結(jié)果利用2021-10-18數(shù)據(jù)庫研究所49信用卡分析 持卡人(去哪里消費優(yōu)惠)特約商戶 (有哪些消費者)客戶信用等級評估(VIP、二八法則)客戶利潤分析(銀行貢獻度)客戶消費行為分析 客戶消費異常行為分析2021-10-18數(shù)據(jù)庫研究所502021-10-18數(shù)據(jù)庫研究所51WEB數(shù)據(jù)挖掘面向網(wǎng)絡(luò)用戶行為的分析和網(wǎng)頁內(nèi)容的挖掘是面向網(wǎng)絡(luò)用戶行為的分析和網(wǎng)頁內(nèi)容的挖掘是WEB應(yīng)用企業(yè)的核

28、心技術(shù)應(yīng)用企業(yè)的核心技術(shù)關(guān)注點分析社交網(wǎng)絡(luò)挖掘基于社交網(wǎng)絡(luò)的富基于社交網(wǎng)絡(luò)的富媒體分析媒體分析DBLP、微博、微博社交網(wǎng)絡(luò)上的信息社交網(wǎng)絡(luò)上的信息傳播模式分析傳播模式分析2021-10-18數(shù)據(jù)庫研究所52金融數(shù)據(jù)挖掘面向股票和期貨價格趨勢及其同相關(guān)因素關(guān)聯(lián)關(guān)系的挖掘是程序化交易的核心技術(shù)2021-10-18數(shù)據(jù)庫研究所53生物數(shù)據(jù)挖掘面向基因數(shù)據(jù)的挖掘是生物信息學(xué)的基礎(chǔ)面向基因數(shù)據(jù)的挖掘是生物信息學(xué)的基礎(chǔ)生物信息數(shù)據(jù)的類型生物信息數(shù)據(jù)的類型基因序列、蛋白質(zhì)相互作用網(wǎng)絡(luò)、蛋白質(zhì)三維結(jié)構(gòu)、基因序列、蛋白質(zhì)相互作用網(wǎng)絡(luò)、蛋白質(zhì)三維結(jié)構(gòu)、2021-10-18數(shù)據(jù)庫研究所54基因中能發(fā)現(xiàn)什么?轉(zhuǎn)錄結(jié)合

29、變化?生物數(shù)據(jù)挖掘生物生物/醫(yī)療文本挖掘是現(xiàn)代醫(yī)療發(fā)展的主要支撐技醫(yī)療文本挖掘是現(xiàn)代醫(yī)療發(fā)展的主要支撐技術(shù)之一術(shù)之一2021-10-18數(shù)據(jù)庫研究所55醫(yī)藥分析面向海量分子結(jié)構(gòu)的分析成為當(dāng)前新藥研制的主要手段其核心技術(shù)的對圖模型描述的海量分子結(jié)構(gòu)的模式分析2021-10-18數(shù)據(jù)庫研究所56數(shù)據(jù)挖掘其他應(yīng)用領(lǐng)域基于位置的服務(wù)智能交通橋梁監(jiān)控節(jié)能分析2021-10-18數(shù)據(jù)庫研究所57數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢數(shù)據(jù)挖掘領(lǐng)域的主要期刊和學(xué)術(shù)會議國際學(xué)術(shù)會議SIGKDD、ICDM、SIAM DM、PKDD、SIGMOD、VLDB、ICDE、國際學(xué)術(shù)期刊IEEE KDDDKDM202

30、1-10-18數(shù)據(jù)庫研究所59從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向主題主題#submissionSocial (Social and information networks, graph and link mining, other) 134Rich data types (Temporal and Spatial, text, Sequence, Unstructured, Other) 78Supervised learning (Classification, Regression, other) 76Unsupervised learning (Clustering, Topic

31、Discovery, Factorization, Visualization, Exploratory Analysis, Other) 75Big data (Distributed Computing - Cloud, GPU, MPI, others, Efficient Algorithms, Scalable Methods, Optimization Techniques) 55Web (Web mining, Online Advertising, other) 49Rule and Pattern Mining 47Recommender systems (collabora

32、tive filtering, content based methods, hybrid methods, evaluation and metrics, other aspects) 412021-10-18數(shù)據(jù)庫研究所60從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向Best paper T. Rakthanmanon, B. Campana, A. Mueen, G. Batista, B. Westover, Q. Zhu, J. Zakaria, E. Keogh. Searching and Mining Trillions of Time Series Subsequences und

33、er Dynamic Time Warping . (UCR)Best Student paperY. Sun, B. Norick, J. Han, X. Yan, P. Yu, X. Yu. Integrating Meta-Path Selection with User Guided Object Clustering in Heterogeneous Information Networks . (UIUC)Q. Ding, N. Katenka, P. Barford, E. Kolaczyk, Mark Crovella. Intrusion as (Anti)social Co

34、mmunication: Characterization and Detection. (Boston U.)2021-10-18數(shù)據(jù)庫研究所61從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向WEB和社交數(shù)據(jù)分析針對社交網(wǎng)絡(luò)和WEB數(shù)據(jù),結(jié)合社會學(xué)等方面的理論,研究其信息傳播和用戶行為模式的分析方法主要研究問題面向市場劃分社交網(wǎng)絡(luò)的聚類面向競爭的網(wǎng)絡(luò)中的病毒傳播模式分析2021-10-18數(shù)據(jù)庫研究所62從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向圖挖掘基于新型計算平臺研究超大規(guī)模圖數(shù)據(jù)的管理與挖掘技術(shù)主要研究問題基于流計算模式的超大規(guī)模圖數(shù)據(jù)分割算法最大團的有效計算方法基于圖數(shù)據(jù)的用戶行為分析方法大規(guī)模

35、二部圖的摘要分析2021-10-18數(shù)據(jù)庫研究所63從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向時空數(shù)據(jù)挖掘面向移動互聯(lián)網(wǎng)、基于位置的服務(wù)等應(yīng)用的需求,研究各種時空數(shù)據(jù)及相關(guān)數(shù)據(jù)的模式和關(guān)聯(lián)關(guān)系的挖掘方法主要研究問題移動對象間關(guān)聯(lián)關(guān)系的分析軌跡數(shù)據(jù)分析2021-10-18數(shù)據(jù)庫研究所64從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向知識庫通過對WEB數(shù)據(jù)、訪問日志等數(shù)據(jù)源的數(shù)據(jù)進行分析,獲取概念/實體間的關(guān)聯(lián)關(guān)系(包括分類體系等),以構(gòu)建知識庫知識庫是數(shù)據(jù)語義的新的描述形式主要研究問題面向檢索關(guān)鍵詞的分類體系構(gòu)造鏈接實體分析2021-10-18數(shù)據(jù)庫研究所65從KDD 2012看數(shù)據(jù)挖掘的發(fā)展方向模式挖掘研究各種新型模式的挖掘和評估技術(shù)主要研究問題面向流環(huán)境的動態(tài)模式挖掘模式的精簡表示 模糊覆蓋 Categorical屬性的布爾表示2021-10-18數(shù)據(jù)庫研究所66從KDD 2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論