數(shù)據(jù)科學導引_第1頁
數(shù)據(jù)科學導引_第2頁
數(shù)據(jù)科學導引_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)科學導引課程詳細信息課程號04630790學分3英文名稱Introduction to Data Science先修課程微積分,線性代數(shù),概率統(tǒng)計這是一門數(shù)據(jù)科學專業(yè)的基礎課。主要目的:(1)介紹數(shù)據(jù)分析的基本 原理、模型和算法;(2)獲取數(shù)據(jù)分析的實際經(jīng)驗。這門課強調(diào)理論和 實踐經(jīng)驗相結合,采用大班課堂教學,小班實際操作的模式。由于這門課 工-心人是第一次開設,所以數(shù)據(jù)科學專業(yè)的學生有優(yōu)先選課的權利。中文簡介主要內(nèi)容:數(shù)據(jù)預處理,分類模型,聚類模型,回歸模型,特征提取和模 型選擇,降維,文本分析,圖算法和社交網(wǎng)絡分析,推薦系統(tǒng),神經(jīng)網(wǎng)絡 與深度學習,分布式計算。This is an in

2、troductory course to the analysis of data. The main purpose is to (1) introduce the basic principles, models and algorithms for data analysis and (2) give the students anThe course will have aopportunity to deal with real ponent as well as a lab component.英文簡介The main topics are: Preprocessing data,

3、 classification, clustering, regression, feature selection and model selection, dimension reduction, text analysis, graph algorithms and social network analysis, recommendation systems, neural networks and deep learning, distributed systems.開課院系數(shù)學科學學院通選課領域是否屬于藝術與美育否平臺課性質(zhì)平臺課類型授課語言中文教材數(shù)據(jù)科學導引,歐高炎、朱占星、董

4、斌、鄂維南,高等教育出版社,2017 年,Machine Learning: A Probabilistic Perspective,Kevin P.Murphy,The MIT Press.,2012. 年, Understanding machine learning: Fromtheory to algorithms.,Shalev-Shwartz, Shai, and ShaiBen-David.,Cambridge university press,2014.年,參考書第一版;要求學生掌握:(1)數(shù)據(jù)科學的基本思想和內(nèi)容教學大綱處理數(shù)據(jù)分析問題的基本方法:數(shù)據(jù)預處理,數(shù)據(jù)探索,分類,

5、回歸,降維等;深刻理解重要的幾種機器學習算法,包括線性回歸,隨機森林,支持向量機,主成分分析等(4)優(yōu)秀的實踐操作能力,使用編程語言實現(xiàn)機器學習算法。第一節(jié)課程介紹 1學時介紹數(shù)據(jù)科學的發(fā)展歷史、數(shù)據(jù)科學包含的內(nèi)容、數(shù)據(jù)類型及對應模型、 介紹數(shù)據(jù)科學中的經(jīng)典算法。第二節(jié)數(shù)據(jù)預處理2學時介紹數(shù)據(jù)預處理的基本概念和內(nèi)容,重點介紹數(shù)字編碼、One-Hot編碼、 缺失值處理、異常值檢測、數(shù)據(jù)標準化和數(shù)據(jù)離散化。第三節(jié)分類模型(共6課時)介紹分類問題的基本概念、分類問題的評價方法、代表性的分類算法。3.1分類問題介紹2學時介紹分類問題概念,分類問題的評價指標介紹、介紹基本的K-近鄰算 法3.2支持向量機

6、 2學時介紹支持向量機算法原理、原問題和對偶問題、核方法、SMO算法(Sequentialminimal optimization)3.3集成分類2學時介紹集成算法的基本概念,Bagging和Boosting方法介紹,介紹隨機森林 算法,重點講解Boosting算法的經(jīng)典代表AdaBoost算法第四節(jié) 聚類模型和K-Means 2學時介紹聚類的基本概念,聚類問題的評價指標介紹,介紹常見的聚類算法, 重點講解經(jīng)典的K-Means算法第五節(jié)回歸模型 2學時介紹回歸的基本概念,回歸問題的評價指標,介紹線性回歸和正則化的方 法(LASSO, Ridge 和 Elastic net)第六節(jié)特征選擇和模型

7、選擇2學時介紹特征選擇的常用方法;介紹模型選擇的方法,重點介紹交叉驗證、模 型調(diào)參的概念和方法第七節(jié)降維 2學時介紹降維的概念和意義,介紹常用的降維算法,重點講解主成分分析(PCA)和線性判別分析(LDA)第八節(jié)文本分析4學時8.1文本模型2學時介紹文本表示方法,TF模型(Term Frequency)和TF-IDF模型、講解文 本分類中經(jīng)典的樸素貝葉斯算法(Na?ve Bayes)8.2主題分析2學時介紹文本主題分析的概念和常見的主題分析模型,如LSACLatent Semantic Analysis) , pLSA (probabilitistic Latent Semantic Anal

8、ysis)和 LDA 等,重點講解LDA主題分析模型(Latent Dirichlet Allocation)。第九節(jié)圖算法與社交網(wǎng)絡分析4學時9.1鏈接分析2學時介紹圖分析的基本概念,介紹鏈接分析的經(jīng)典算法PageRank9.2圖結構分析和社區(qū)發(fā)現(xiàn)2學時介紹從圖結構中進行社區(qū)發(fā)現(xiàn)的概念和內(nèi)容,講解社區(qū)發(fā)現(xiàn)的經(jīng)典算法。第十節(jié) 推薦系統(tǒng)2學時介紹推薦系統(tǒng)的概念,介紹基于鄰域的推薦方法,基于協(xié)同過濾的推薦算 法,講解推薦系統(tǒng)的評價指標(評分預測RMSE和MAE,TopN推薦中的精 度和召回率,覆蓋率,多樣性的含義)第十一節(jié)神經(jīng)網(wǎng)絡和深度學習2學時介紹神經(jīng)網(wǎng)絡的概念和發(fā)展歷史,講解多層感知機算法和經(jīng)典的后向傳播 算法(Back Propogation),講解深度學習的基本原理。介紹深度學習的 發(fā)展方向,常見的深度學習模型。第十二節(jié)大規(guī)模數(shù)據(jù)與分布式計算3學時介紹大規(guī)模數(shù)據(jù)處理框架MapRedu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論