版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的發(fā)展:人工智能中的機器學(xué)習(xí)
機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模機器學(xué)習(xí)的典型應(yīng)用全套可編輯PPT課件符號主義人工智能:基于“一切都可規(guī)則化編碼”的基本信念:通過硬編碼,依指定規(guī)則自動完成相應(yīng)的處理任務(wù)例:依據(jù)BMI判斷肥胖棋類對弈程序?qū)<蚁到y(tǒng)(沒有常識的專家系統(tǒng)是沒有意義的)符號主義人工智能(弱人工智能)很難解決沒有明確規(guī)則定義的問題(諸如語言翻譯、語音識別、圖像分類等)不能僅依據(jù)BMI對肥胖進(jìn)行判斷機器學(xué)習(xí)的發(fā)展:人工智能中的機器學(xué)習(xí)
誕生于20世紀(jì)50年代的人工智能(ArtificialIntelligence,AI),因旨在實現(xiàn)人腦部分思維的計算機模擬,完成人類智力任務(wù)的自動化實現(xiàn)強人工智能:會聽(語音識別和機器翻譯等)、會看(文字識別和圖像識別等)、會說(語音合成和人機對話等)、會學(xué)習(xí)(知識表示和機器學(xué)習(xí)等)、會思考(邏輯推理和人機對弈)和會行動(機器人和自動駕駛等)的能力人工智能的研究經(jīng)歷了從符號主義人工智能(symbolicAI)、機器學(xué)習(xí)(MachineLearning)、深度學(xué)習(xí)(DeepLearning)的不同發(fā)展階段第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的發(fā)展:人工智能中的機器學(xué)習(xí)
第1章機器學(xué)習(xí)概述人工智能的研究經(jīng)歷了從符號主義人工智能(symbolicAI),到機器學(xué)習(xí)(MachineLearning)到深度學(xué)習(xí)(DeepLearning)的不同發(fā)展階段。符號主義人工智能:基于“一切都可規(guī)則化編碼”的基本信念機器學(xué)習(xí)概念的提出源于“人工智能之父”阿蘭·圖靈的圖靈測試:“思考的機器”是可能的機器學(xué)習(xí)目的:教計算機借助某些算法完成任務(wù)相對于經(jīng)典的程序設(shè)計范式,機器學(xué)習(xí)是一種新的編程范式機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模
實現(xiàn)新的編程范式的核心任務(wù)發(fā)現(xiàn)隱藏在“數(shù)據(jù)”和“答案”中的“規(guī)則”理論可行性:1783年貝葉斯提出的貝葉斯定理存在一種能夠從歷史經(jīng)驗,即數(shù)據(jù)集中的“數(shù)據(jù)”和“答案”中,學(xué)習(xí)兩者之間關(guān)聯(lián)性“規(guī)則”的數(shù)學(xué)方法將“數(shù)據(jù)”和“答案”視為一種廣義數(shù)據(jù),借助數(shù)學(xué)方法學(xué)習(xí)“規(guī)則”的本質(zhì)是基于數(shù)據(jù)的建模從機器學(xué)習(xí)到深度學(xué)習(xí):2006年提出的深度學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)“數(shù)據(jù)表示”強調(diào)基于訓(xùn)練數(shù)據(jù),通過眾多連續(xù)的神經(jīng)網(wǎng)絡(luò)層,過濾和提取數(shù)據(jù)中的服務(wù)于預(yù)測的重要特征相對于擁有眾多層的深度學(xué)習(xí),機器學(xué)習(xí)有時也被稱為淺層學(xué)習(xí)(ShallowLearning)第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模
機器學(xué)習(xí)的對象:數(shù)據(jù)集合,簡稱數(shù)據(jù)集(也稱樣本集)例如:結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)集中的一行通常稱為一個樣本觀測數(shù)據(jù)集中的一列通常稱為一個變量(特征)依各變量的取值類型可將變量細(xì)分為:數(shù)值型、順序型和類別型三類,后兩類統(tǒng)稱為分類型不同視角下的數(shù)據(jù)集合經(jīng)典統(tǒng)計中的樣本;基于樣本對總體特征或關(guān)系進(jìn)行推斷機器學(xué)習(xí)中的數(shù)據(jù)集,一般不具有隨機樣本的典型特征第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模
半結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)不固定的數(shù)據(jù)例:員工簡歷數(shù)據(jù)JSON(JavaScriptObjectNotation)格式:非結(jié)構(gòu)化數(shù)據(jù):文本、圖像、音頻和視頻數(shù)據(jù)數(shù)據(jù)的數(shù)字化和結(jié)構(gòu)化處理數(shù)字的數(shù)字化二進(jìn)制,比特位文本的數(shù)字化ASCII編碼、國家漢字編碼標(biāo)準(zhǔn)GBK、萬國碼圖形的數(shù)字化:位圖和矢量圖類似于計算機字形碼第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模
機器學(xué)習(xí)的任務(wù):數(shù)據(jù)建模,完成兩大主要任務(wù):數(shù)據(jù)預(yù)測;數(shù)據(jù)聚類數(shù)據(jù)預(yù)測:基于已有數(shù)據(jù)集,歸納出輸入變量和輸出變量之間的數(shù)量關(guān)系回歸預(yù)測和分類預(yù)測(二分類預(yù)測和多分類預(yù)測)目的:在數(shù)量關(guān)系具有普適性和未來不變的假設(shè)下,可用于對新數(shù)據(jù)輸出變量取值的預(yù)測發(fā)現(xiàn)對輸出變量產(chǎn)生重要影響的輸入變量例如:空氣質(zhì)量數(shù)據(jù)的分析方法特點:經(jīng)典統(tǒng)計一般為驗證式分析;機器學(xué)習(xí)的歸納式分析特點(從統(tǒng)計的模型驅(qū)動到機器學(xué)習(xí)的數(shù)據(jù)驅(qū)動)統(tǒng)計方法有嚴(yán)格的數(shù)理支撐;機器學(xué)習(xí)探索式的試驗發(fā)現(xiàn)第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模
機器學(xué)習(xí)的任務(wù):數(shù)據(jù)聚類發(fā)現(xiàn)數(shù)據(jù)中可能存在的小類,并通過小類刻畫和揭示數(shù)據(jù)的內(nèi)在組織結(jié)構(gòu)聚類結(jié)果:給每個樣本觀測指派一個屬于哪個小類的標(biāo)簽,稱為聚類解。聚類解將保存在一個新生成的分類型變量中例如:數(shù)據(jù)聚類和數(shù)據(jù)預(yù)測中的分類有聯(lián)系更有區(qū)別:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)第1章機器學(xué)習(xí)概述機器學(xué)習(xí)的核心:數(shù)據(jù)和數(shù)據(jù)建模
機器學(xué)習(xí)的任務(wù):數(shù)據(jù)建模其他方面:關(guān)聯(lián)分析:尋找到事物之間的聯(lián)系規(guī)律,發(fā)現(xiàn)它們之間的關(guān)聯(lián)性模式診斷:模式(Pattern)是一個數(shù)據(jù)集合,由分散于數(shù)據(jù)集中的極少量的零星數(shù)據(jù)組成。模式通常具有其他眾多數(shù)據(jù)所沒有的某種局部的、非隨機的、非常規(guī)的特殊結(jié)構(gòu)或相關(guān)性。模式診斷就是要從不同角度采用不同方法發(fā)現(xiàn)數(shù)據(jù)中可能存在的模式第1章機器學(xué)習(xí)概述第2章機器學(xué)習(xí)中的Python基礎(chǔ)Python:機器學(xué)習(xí)的首選工具Python的集成開發(fā)環(huán)境:AnacondaPython第三方包的引用NumPy使用示例Pandas使用示例NumPy和Pandas的綜合應(yīng)用Matplotlib的綜合應(yīng)用Python:機器學(xué)習(xí)的首選工具
Python是一款面向?qū)ο蟮慕忉屝陀嬎銠C語言。開源、代碼可讀性強,可實現(xiàn)高效開發(fā)等是Python的重要特征面向?qū)ο蟮某绦蛟O(shè)計(ObjectOrientedProgramming,OOP)是相對面向過程的程序設(shè)計而言的OOP采用“封裝”的思想,將具有一定獨立性和通用性的處理過程和變量(數(shù)據(jù)),封裝在“對象”中變量稱為對象的“屬性”,變量值對應(yīng)屬性值(有具體變量值的對象稱為“對象實例”)處理過程稱為對象的“方法”多個具有內(nèi)在聯(lián)系的對象可進(jìn)一步封裝在“類”中Python在機器學(xué)習(xí)領(lǐng)域獲得廣泛使用的原因:簡明易用,嚴(yán)謹(jǐn)專業(yè)良好的開發(fā)社區(qū)生態(tài)豐富的第三方程序包NumPyPandasSciPyMatplotlibScikit-learn(skLearn)第2章Python機器學(xué)習(xí)基礎(chǔ)Python的集成開發(fā)環(huán)境:Anaconda
Anaconda:兼容Linux、Windows和MacOSX.環(huán)境,支持Python2.X和Python3.X,且可方便快捷完成機器學(xué)習(xí)和數(shù)據(jù)科學(xué)任務(wù)的開源IDE通常將Anaconda可視為Python的發(fā)行版Anaconda?Anaconda的官方下載地址為:/AnacondaPrompt的使用第2章Python機器學(xué)習(xí)基礎(chǔ)Python的集成開發(fā)環(huán)境:Anaconda
Spyder的使用:
Python程序的擴展名為.py第2章Python機器學(xué)習(xí)基礎(chǔ)JupyterNotebook的使用:
1984年提出的文字表達(dá)化編程形式的具體體現(xiàn)是一個基于網(wǎng)頁的交互式筆記本;擴展名為.ipynb的JSON格式文件第2章Python機器學(xué)習(xí)基礎(chǔ)Python第三方包的引用第三方包以模塊(Moduel,文件擴展名為.py)方式,將可實現(xiàn)各種功能的程序代碼(變量、函數(shù))“打包”在一起包由多個相關(guān)模塊組成,一般以文件目錄的形式組織(目錄名為包名)引用第三方包中的模塊的基本函數(shù):import函數(shù)import
包名或模塊名:導(dǎo)入指定包或模塊import
包名.模塊名:導(dǎo)入指定包中的指定模塊from
模塊名
import函數(shù)名:導(dǎo)入指定模塊中的指定函數(shù)from
模塊名
import
函數(shù)名1,函數(shù)名2,…:導(dǎo)入指定模塊中的若干個指定函數(shù)from
模塊名
import*:導(dǎo)入指定模塊中的所有函數(shù)可增加:as別名importnumpyasnp,表示導(dǎo)入numpy并指定別名為np指定別名可以有效避免不同模塊有相同函數(shù)名的問題之后可在自己編寫的Python程序直接調(diào)用已導(dǎo)入模塊中的函數(shù),通過代碼重用(重復(fù)使用)的方式快速實現(xiàn)某種特定功能第2章Python機器學(xué)習(xí)基礎(chǔ)
列表:Python重要的數(shù)據(jù)組織形式,NumPy數(shù)組數(shù)據(jù)的重要來源NumPy數(shù)組中元素應(yīng)有相同的數(shù)據(jù)類型,列表可以不同Chapter2_1.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)NumPy(NumericalPython)使用示例:最常用的
Python
包。特點:第二,擁有豐富的數(shù)學(xué)運算和統(tǒng)計函數(shù)指定種子的目的是確保每次運行代碼時生成的隨機數(shù)可以再現(xiàn)。否則,每次運行代碼生成的隨機數(shù)會不相同random.randn()生成服從均值為0標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布的隨機數(shù)Chapter2_1.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)NumPy(NumericalPython)使用示例:最常用的
Python
包。特點:第二,擁有豐富的數(shù)學(xué)運算和統(tǒng)計函數(shù)random.normal()函數(shù)生成2行5列的2維數(shù)組,數(shù)組元素服從均值為5標(biāo)準(zhǔn)差為1的正態(tài)分布利用floor函數(shù)得到距各數(shù)組元素最近的最大整數(shù)eye(5)函數(shù)生成5行5列的單位陣YChapter2_1.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)Pandas(Pythondataanalysis)使用示例:提供了快速便捷組織和處理結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和大量功能豐富的函數(shù)。特點:基于NumPy構(gòu)建:序列(Series):對應(yīng)1維數(shù)組數(shù)據(jù)框(DataFrame):對應(yīng)2維表格型數(shù)據(jù)結(jié)構(gòu),也稱數(shù)據(jù)框為序列的容器Pandas數(shù)據(jù)框是存儲機器學(xué)習(xí)數(shù)據(jù)集的常用形式Pandas的索引Chapter2_2.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)Pandas的數(shù)據(jù)框Chapter2_2.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)Pandas的數(shù)據(jù)加工處理Chapter2_2.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)NumPy和Pandas的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預(yù)處理和基本分析數(shù)據(jù)預(yù)處理Chapter2_3.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)基本分析NumPy和Pandas的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預(yù)處理和基本分析Chapter2_3.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)派生虛擬自變量NumPy和Pandas的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預(yù)處理和基本分析Chapter2_3.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)抽取數(shù)據(jù)子集NumPy和Pandas的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的預(yù)處理和基本分析Chapter2_3.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)AQI的時序變化特點Matplotlib的綜合應(yīng)用:空氣質(zhì)量監(jiān)測數(shù)據(jù)的圖形化展示Chapter2_4.ipynb第2章Python機器學(xué)習(xí)基礎(chǔ)第3章數(shù)據(jù)預(yù)測與預(yù)測建模從線性回歸預(yù)測模型說起認(rèn)識線性分類預(yù)測模型從線性預(yù)測模型到非線性預(yù)測模型預(yù)測模型的參數(shù)估計預(yù)測模型的選擇導(dǎo)言
數(shù)據(jù)預(yù)測,簡而言之就是基于已有數(shù)據(jù)集,歸納出輸入變量和輸出變量之間的數(shù)量關(guān)系?;谶@種數(shù)量關(guān)系:一方面,可發(fā)現(xiàn)對輸出變量產(chǎn)生重要影響的輸入變量;另一方面,在數(shù)量關(guān)系具有普適性和未來不變的假設(shè)下,可用于對新數(shù)據(jù)輸出變量取值的預(yù)測。對數(shù)值型輸出變量的預(yù)測稱為回歸。對分類型輸出變量的預(yù)測稱為分類數(shù)據(jù)預(yù)測涉及的問題第一,預(yù)測模型基礎(chǔ)第二,參數(shù)估計策略第三,模型選擇第3章數(shù)據(jù)預(yù)測與預(yù)測建模從線性回歸預(yù)測模型說起
預(yù)測模型一般以數(shù)學(xué)形式展現(xiàn),以精確刻畫和表述輸入變量和輸出變量取值之間的數(shù)量關(guān)系??杉?xì)分為回歸預(yù)測模型和分類預(yù)測模型,分別適用于回歸問題和分類問題線性回歸預(yù)測模型的含義線性回歸預(yù)測模型用于預(yù)測的回歸方程應(yīng)明確模型系數(shù)的實際含義應(yīng)明確預(yù)測模型和回歸方程的聯(lián)系第3章數(shù)據(jù)預(yù)測與預(yù)測建模
從線性回歸預(yù)測模型說起
線性回歸模型的幾何理解可將數(shù)據(jù)集中的N個樣本觀測數(shù)據(jù),視為m維實數(shù)空間中的N
個點幾何上與2維平面中的一條直線相對應(yīng),該直線稱為回歸直線與3維平面中的一個平面相對應(yīng),該平面稱為回歸平面線性回歸預(yù)測模型的評價均方誤差:越小越好擬合優(yōu)度:R方,越接近1越好第3章數(shù)據(jù)預(yù)測與預(yù)測建模
從線性回歸預(yù)測模型說起
Python應(yīng)用實踐:PM2.5濃度預(yù)測建立一元線性回歸模型第3章數(shù)據(jù)預(yù)測與預(yù)測建模Chapter3_1.ipynb從線性回歸預(yù)測模型說起
Python應(yīng)用實踐:PM2.5濃度預(yù)測建立多元線性回歸模型第3章數(shù)據(jù)預(yù)測與預(yù)測建模Chapter3_1.ipynbPython模擬:可通過增加模型的復(fù)雜度減少模型的預(yù)測誤差第3章數(shù)據(jù)預(yù)測與預(yù)測建模
增加模型復(fù)雜度可以有效降低模型的預(yù)測誤差,但當(dāng)復(fù)雜度達(dá)到一定程度后再繼續(xù)增加就不再有意義了Chapter3_2.ipynbLogistic回歸預(yù)測模型:分類預(yù)測模型僅討論二分類預(yù)測模型,多分類預(yù)測可通過多個二分類預(yù)測實現(xiàn)再看一般線性回歸模型對響應(yīng)概率建模,稱為:一般線性概率模型一般線性概率模型的不足:無法保證模型給出的概率值限制在0-1范圍內(nèi)線性概率模型反映了概率與自變量取值之間的線性而非一般經(jīng)驗上的非線性關(guān)系例:收入和購買某奢侈品的概率認(rèn)識線性分類預(yù)測模型
第3章數(shù)據(jù)預(yù)測與預(yù)測建模Logistic回歸預(yù)測模型:二分類預(yù)測模型
認(rèn)識線性分類預(yù)測模型
第3章數(shù)據(jù)預(yù)測與預(yù)測建模Logistic回歸預(yù)測模型:二分類預(yù)測模型β的實際意義仍不明顯例:有x1,x2兩個輸入變量;當(dāng)x1從0變化到1時:優(yōu)勢(odds)優(yōu)勢比(OddsRatio)Logistic回歸模型中:于是:輸入變量變化一個單位引起的優(yōu)勢比為exp(β)自變量變化一個單位引起響應(yīng)概率比(相對風(fēng)險)近似為exp(β)接近0時
第3章數(shù)據(jù)預(yù)測與預(yù)測建模認(rèn)識線性分類預(yù)測模型
線性分類模型的幾何理解二分類預(yù)測建模的目的,就是找到一條能夠?qū)⒉煌螤罨蝾伾臉颖居^測點有效分開的分類線,即分類邊界分類直線分類平面第3章數(shù)據(jù)預(yù)測與預(yù)測建模Python應(yīng)用實踐:空氣質(zhì)量等級預(yù)測建立簡單二分類預(yù)測模型數(shù)據(jù)預(yù)處理建立二項Logistic回歸模型繪制二項Logistic回歸模型的分類邊界計算分類模型的評價指標(biāo)
(chapter3-3.ipynb)
第3章數(shù)據(jù)預(yù)測與預(yù)測建模Python應(yīng)用實踐:空氣質(zhì)量等級預(yù)測建立簡單二分類預(yù)測模型模型的評價(chapter3-3.ipynb)第3章數(shù)據(jù)預(yù)測與預(yù)測建模認(rèn)識線性分類預(yù)測模型
二分類預(yù)測模型中的誤差評價指標(biāo)混淆矩陣注意:總錯判率會受數(shù)據(jù)不平衡性的影響TPR(真正率)TNR1-TNR=FPR(假正率)第3章數(shù)據(jù)預(yù)測與預(yù)測建模
查全率也稱召回率(Recall)第3章數(shù)據(jù)預(yù)測與預(yù)測建模Python應(yīng)用實踐:空氣質(zhì)量等級預(yù)測建立較復(fù)雜的二分類預(yù)測模型建立二項Logistic回歸模型計算模型的混淆矩陣,總正確率,F(xiàn)1得分評價模型:采用二分類模型評價的圖形化方式ROC曲線和PR曲線評價模型預(yù)測精度優(yōu)于前模型(chapter3-3.ipynb)第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的評價---模型的圖形化評價工具
ROC曲線按預(yù)測概率降序排序取分位點上的概率值作為判斷1/0的閾值計算TPR和FPR,點連線AUC值第3章數(shù)據(jù)預(yù)測與預(yù)測建模Python應(yīng)用實踐:空氣質(zhì)量等級預(yù)測ROC曲線和AUC值;PR曲線chapter3-3.ipynb第3章數(shù)據(jù)預(yù)測與預(yù)測建模
第3章數(shù)據(jù)預(yù)測與預(yù)測建模提高預(yù)測精度從直線到曲線,從平面到曲面
從線性預(yù)測模型到非線性預(yù)測模型
解決非線性回歸和非線性分類問題:從直線到曲線,從平面到曲面第3章數(shù)據(jù)預(yù)測與預(yù)測建模
預(yù)測模型的參數(shù)估計
總損失:第3章數(shù)據(jù)預(yù)測與預(yù)測建模
預(yù)測模型的參數(shù)估計
其中:第3章數(shù)據(jù)預(yù)測與預(yù)測建模
預(yù)測模型的參數(shù)估計
第3章數(shù)據(jù)預(yù)測與預(yù)測建模參數(shù)解空間和搜索策略參數(shù)的最小二乘估計損失函數(shù)L是模型參數(shù)的非負(fù)二次函數(shù)
第3章數(shù)據(jù)預(yù)測與預(yù)測建模參數(shù)解空間和搜索策略在預(yù)測模型參數(shù)解空間中,采用一定的搜索策略估計參數(shù)梯度下降法預(yù)測模型的參數(shù)估計第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
預(yù)測模型的選擇涉及兩個問題:如何估計預(yù)測模型未來的預(yù)測性能?若僅傾向選擇復(fù)雜模型會導(dǎo)致哪些問題,應(yīng)如何解決?兩個重要概念訓(xùn)練誤差:指預(yù)測模型對訓(xùn)練集中各樣本觀測輸出變量的實際值與預(yù)測值不一致程度的數(shù)值化度量。泛化誤差:是預(yù)測模型對新數(shù)據(jù)集進(jìn)行預(yù)測時,給出的預(yù)測值和實際值不一致程度的數(shù)值化度量。預(yù)測誤差測度模型在未來新數(shù)據(jù)集上的預(yù)測性能。泛化誤差值較低,說明模型具有一般預(yù)測場景下的普適性和推廣性,認(rèn)為模型有較高的泛化能力訓(xùn)練誤差和泛化誤差的不同預(yù)測建模時可直接計算出預(yù)測模型的訓(xùn)練誤差泛化誤差是未知的,無法直接計算得到,只能給出泛化誤差的估計值第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
泛化誤差的估計訓(xùn)練誤差,即為用于估計預(yù)測模型參數(shù)(也稱訓(xùn)練預(yù)測模型)的數(shù)據(jù)集,其中的樣本觀測稱為“袋內(nèi)觀測”在恰當(dāng)?shù)挠?xùn)練樣本量下,增加模型的復(fù)雜度會帶來訓(xùn)練誤差的降低模型復(fù)雜度確定的條件下,訓(xùn)練誤差會隨樣本量增加而下降第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
數(shù)據(jù)集的劃分策略:將所得數(shù)據(jù)集劃分為訓(xùn)練集和測試集旁置法:將整個數(shù)據(jù)集隨機劃分為兩個部分留一法:用N-1個樣本觀測作為訓(xùn)練集訓(xùn)練模型,用剩余的一個樣本觀測作為測試集計算模型的測試誤差K折交叉驗證:首先將數(shù)據(jù)集隨機近似等分為不相交的K份,稱為K折;然后,令其中的K-1份為訓(xùn)練集訓(xùn)練模型,剩余的1份為測試集計算測試誤差第3章數(shù)據(jù)預(yù)測與預(yù)測建模Python模擬和啟示chapter3-2-1.ipynb第3章數(shù)據(jù)預(yù)測與預(yù)測建模Python模擬和啟示:訓(xùn)練誤差和測試誤差的特點chapter3-2-1.ipynb第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
追求低訓(xùn)練誤差可能導(dǎo)致模型過擬合模型過擬合:在以訓(xùn)練誤差最小原則下可能出現(xiàn)的,預(yù)測模型遠(yuǎn)遠(yuǎn)偏離輸入變量和輸出變量的真實關(guān)系,從而在新數(shù)據(jù)集上有較大預(yù)測誤差的現(xiàn)象預(yù)測模型的訓(xùn)練誤差較小但測試誤差較大,是模型過擬和的重要表現(xiàn)之一第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
體現(xiàn)了模型選擇的基本原則預(yù)測模型選擇的理論依據(jù)是“奧克姆剃刀(Occam‘sRazor)”原則簡單模型易于應(yīng)用通常簡單模型的訓(xùn)練誤差高于復(fù)雜模型,但若其泛化誤差低于復(fù)雜模型,則應(yīng)選擇泛化誤差低的簡單模型預(yù)測模型中的“佼佼者”應(yīng)具有兩個重要特征:第一,訓(xùn)練誤差在可接受的范圍內(nèi)第二,具有一定的預(yù)測穩(wěn)健性第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇
第3章數(shù)據(jù)預(yù)測與預(yù)測建模預(yù)測模型的選擇問題
預(yù)測模型的偏差和方差預(yù)測模型的偏差-方差分解:
第3章數(shù)據(jù)預(yù)測與預(yù)測建模
預(yù)測模型的選擇問題
簡單模型具有高偏差和低方差,模型的預(yù)測穩(wěn)健性高復(fù)雜模型具有低偏差和高方差,模型的預(yù)測穩(wěn)健性低。因為復(fù)雜模型的特點是“緊隨數(shù)據(jù)點”,訓(xùn)練集的微小變化都可能使模型參數(shù)的估計結(jié)果產(chǎn)生較大波動,使得預(yù)測值有較大不同(高方差),模型魯棒性較差第3章數(shù)據(jù)預(yù)測與預(yù)測建模第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器貝葉斯概率和貝葉斯法則樸素貝葉斯分類器貝葉斯分類器的分類邊界貝葉斯分類器在文本分析中的應(yīng)用貝葉斯概率和貝葉斯法則
第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器
先驗概率數(shù)據(jù)似然后驗概率
如何直觀解決這個問題?大部分顧客購買嗎?購買顧客中的特征是怎樣的?
第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器貝葉斯分類器例如:對性別等于1、年齡段為A的顧客是否購買進(jìn)行預(yù)測
假定對于給定的購買行為,性別和年齡段條件獨立:樸素貝葉斯分類器
第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器貝葉斯和樸素貝葉斯分類器
第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器Python模擬:認(rèn)識貝葉斯分類器的分類邊界chapter4-2.ipynb貝葉斯正確預(yù)測的點:實心圓;錯誤的點:+顏色表示不同類別第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器貝葉斯分類器的應(yīng)用:空氣質(zhì)量等級的貝葉斯分類chapter4-3.ipynb第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器貝葉斯分類器的應(yīng)用:法律裁判文書中的案情要素分類以“中國裁判文書網(wǎng)”公開的有關(guān)婚姻家庭領(lǐng)域的2665條裁判文書為例,基于文書句子文本和每個句子對應(yīng)的要素標(biāo)簽(多分類),探索樸素貝葉斯分類器在文本分類中的應(yīng)用Python文本數(shù)據(jù)的預(yù)處理:文本分詞和量化計算分詞:將句子分割成若干個詞,該過程稱為分詞結(jié)巴(jieba)是使用較為普遍的Python中文分詞組件之一樸素貝葉斯分類器在文本分類中的應(yīng)用
chapter4-4.ipynb第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器
第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器詞的量化30個特征詞(詞頻高)30個特征詞的IDFTfidfVectorizer可指定停用詞和最大特征詞數(shù)X:以適合稀疏矩陣表示的方式輸出X轉(zhuǎn)為二維數(shù)組后:chapter4-4.ipynb第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器Python文本描述性分析:詞云圖和文本相似性chapter4-4.ipynb第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器Python文本分析綜合應(yīng)用:裁判文書的要素提取文本和文本標(biāo)簽的組織:通常采用JSON格式組織文本和對應(yīng)的文本分類標(biāo)簽。JSON(JavaScript
Object
Notation)
是一種典型的便于數(shù)據(jù)共享的格式文本,在Python中與字典結(jié)構(gòu)相對應(yīng)Python字典:由鍵和值構(gòu)成例如:{"labels":[],"sentence":"原告林某某訴稱:我與被告經(jīng)人介紹建立戀愛關(guān)系,于1995年在菏澤市民政局辦理結(jié)婚登記手續(xù)。"}JSON格式的文本文件:具體步驟:讀入JSON格式的裁判文書數(shù)據(jù),并以Python的字典組織數(shù)據(jù)對裁判文書進(jìn)行分詞處理,計算TF-IDF值確定特征詞作為輸入變量利用旁置法按7:3的比例劃分訓(xùn)練集和測試集基于訓(xùn)練集,利用樸素貝葉斯分類器建立多要素標(biāo)簽的預(yù)測模型計算訓(xùn)練誤差和測試誤差,并對比預(yù)測模型對不同要素標(biāo)簽的預(yù)測情況第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器Python文本分析綜合應(yīng)用:裁判文書的要素提取chapter4-4.ipynb第4章數(shù)據(jù)預(yù)測建模:貝葉斯分類器第5章數(shù)據(jù)預(yù)測建模:近鄰分析近鄰分析:K-近鄰法回歸預(yù)測中的K-近鄰法分類預(yù)測中的K-近鄰法基于觀測相似性的加權(quán)K-近鄰法近鄰分析:K-近鄰法
第5章數(shù)據(jù)預(yù)測建模:近鄰分析
“近朱者赤,近墨者黑”
第5章數(shù)據(jù)預(yù)測建模:近鄰分析
近鄰分析:K-近鄰法
第5章數(shù)據(jù)預(yù)測建模:近鄰分析回歸預(yù)測中的K-近鄰法Python模擬和啟示:認(rèn)識K-近鄰回歸線Chapter5-1-1.ipynb基于K-近鄰建立回歸預(yù)測模型可以實現(xiàn)非線性回歸預(yù)測1-近鄰模型的復(fù)雜度最高,隨參數(shù)K的增大,模型復(fù)雜度逐漸降低,訓(xùn)練誤差逐漸增高盡管參數(shù)K較小的高復(fù)雜度模型,其訓(xùn)練誤差小但預(yù)測方差較大且可能出現(xiàn)過擬合;而參數(shù)K較大的低復(fù)雜度模型,雖然其預(yù)測方差較小但訓(xùn)練誤差較大且可能是欠擬合的第5章數(shù)據(jù)預(yù)測建模:近鄰分析回歸預(yù)測中的K-近鄰法Python模擬和啟示:認(rèn)識K-近鄰回歸線Chapter5-1-1.ipynb問:K的作用?如何確定K?第5章數(shù)據(jù)預(yù)測建模:近鄰分析分類預(yù)測中的K-近鄰法
第5章數(shù)據(jù)預(yù)測建模:近鄰分析Python模擬和啟示:參數(shù)K和分類邊界隨著參數(shù)K由小增大,分類邊界越來越趨于規(guī)則和平滑,邊界不再“緊隨數(shù)據(jù)點”,模型復(fù)雜度由高到低,訓(xùn)練誤差由小到大K-近鄰法的分類預(yù)測模型復(fù)雜度更高(K較小時),更適合解決非線性分類問題Chapter5-1.ipynb第5章數(shù)據(jù)預(yù)測建模:近鄰分析K-近鄰法與Logistic回歸模型、樸素貝葉斯分類器的對比:K-近鄰法的模型復(fù)雜度更高(K較小時),更適合解決非線性分類問題K-近鄰法是一種基于局部的學(xué)習(xí)
貝葉斯正確預(yù)測的點:實心圓;錯誤的點:+顏色表示不同類別第5章數(shù)據(jù)預(yù)測建模:近鄰分析基于觀測相似性的加權(quán)K-近鄰法
第5章數(shù)據(jù)預(yù)測建模:近鄰分析
第5章數(shù)據(jù)預(yù)測建模:近鄰分析
基于觀測相似性的加權(quán)K-近鄰法第5章數(shù)據(jù)預(yù)測建模:近鄰分析Python模擬和啟示:認(rèn)識加權(quán)K-近鄰法的分類邊界這里加權(quán)K-近鄰法,預(yù)測效果與普通1-近鄰法持平,較為理想能夠有效克服1-近鄰法方差大、魯棒性低的不足Chapter5-3.ipynb第5章數(shù)據(jù)預(yù)測建模:近鄰分析K-近鄰法的Python應(yīng)用實踐:空氣質(zhì)量等級的預(yù)測Chapter5-4.ipynb第5章數(shù)據(jù)預(yù)測建模:近鄰分析第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的基本概念回歸預(yù)測中的決策樹分類預(yù)測中的決策樹決策樹的生長和剪枝經(jīng)典算法:CART決策樹的Python應(yīng)用實踐決策樹的基本概念
決策樹:得名于其分析結(jié)果的展示方式類似一棵倒置的樹,分為:分類樹:分類預(yù)測;回歸樹:回歸預(yù)測概念:樹深度:是樹根到樹葉的最大層數(shù),通常作為決策樹模型復(fù)雜度的一種度量樹節(jié)點和樹分枝:每個父節(jié)點下均僅有兩個子節(jié)點的決策樹稱為2叉樹,否則為多叉樹根據(jù)節(jié)點所在層,節(jié)點由上至下分為根節(jié)點、中間節(jié)點和葉節(jié)點第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹是數(shù)據(jù)反復(fù)分組的圖形化體現(xiàn)決策樹是推理規(guī)則的圖形化展示決策樹中每個節(jié)點都應(yīng)一條推理規(guī)則推理規(guī)則通過邏輯判斷的形式反映輸入變量和輸出變量之間的取值規(guī)律決策樹的預(yù)測決策樹基于葉節(jié)點的推理規(guī)則實現(xiàn)對新數(shù)據(jù)的分類預(yù)測或回歸預(yù)測
決策樹的基本概念
第6章數(shù)據(jù)預(yù)測建模:決策樹回歸預(yù)測中的決策樹
決策樹的回歸面這些小平面的平滑連接將形成一個不規(guī)則的曲面,該曲面就是決策樹給出的用于回歸預(yù)測的回歸曲面
第6章數(shù)據(jù)預(yù)測建模:決策樹Python模擬和啟示:樹深度對回歸面的影響樹深度起到了平衡模型復(fù)雜度和誤差的作用決策樹的樹深度越大,得到的小平面就越多。這些小平面的平滑連接將形成一個起伏極不規(guī)則的回歸曲面,可有效解決非線性回歸預(yù)測問題如何確定空間劃分的先后順序和位置是決策樹(回歸樹)算法的核心Chapter6-1.ipynb第6章數(shù)據(jù)預(yù)測建模:決策樹分類預(yù)測中的決策樹
決策樹的分類邊界
第6章數(shù)據(jù)預(yù)測建模:決策樹Python模擬和啟示:樹深度對分類邊界的影響樹深度起到了平衡模型復(fù)雜度和誤差的作用決策樹的樹深度越大,相鄰的矩形區(qū)域就越多。這些矩形區(qū)域邊界(直線)的平滑連接將形成一個極不規(guī)則的分類邊界(曲線),可有效解決非線性分類預(yù)測問題如何確定空間劃分的先后順序和位置是決策樹(分類樹)算法的核心Chapter6-2.ipynb第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的生長:確定數(shù)據(jù)分組的基本原則;確定決策樹繼續(xù)生長的條件確定數(shù)據(jù)分組的基本原則使每次分組所得的兩個組內(nèi)的輸出變量取值的異質(zhì)性盡量低依據(jù)該原則從眾多輸入變量中選擇一個當(dāng)前的“最佳”分組變量和組限值回歸樹:每一步空間劃分時應(yīng)同時兼顧由此形成的兩個區(qū)域決策樹的生長和剪枝努力使兩區(qū)域包含的觀測點,其輸出變量的取值差異盡量小,異質(zhì)性盡量低低異質(zhì)性下的回歸預(yù)測誤差小,也即由此得到的兩個區(qū)域是離差平方和(或MSE)最小下的兩個區(qū)域:依該原則從眾多輸入變量中選擇一個當(dāng)前的“最佳”分組變量和組限值
第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的生長:確定數(shù)據(jù)分組的基本原則;確定決策樹繼續(xù)生長的條件確定數(shù)據(jù)分組的基本原則使每次分組所得的兩個組內(nèi)的輸出變量取值的異質(zhì)性盡量低依據(jù)該原則從眾多輸入變量中選擇一個當(dāng)前的“最佳”分組變量和組限值分類樹:每一步空間劃分時應(yīng)同時兼顧由此形成的兩個區(qū)域決策樹的生長和剪枝努力使兩區(qū)域包含的樣本觀測點盡量“純正”,異質(zhì)性(Impurity)低低異質(zhì)性下,其分類預(yù)測錯判率低,推理規(guī)則的置信度高依該原則從眾多輸入變量中選擇一個當(dāng)前的“最佳”分組變量和組限值第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的生長:確定數(shù)據(jù)分組的基本原則;確定決策樹繼續(xù)生長的條件確定決策樹繼續(xù)生長的條件通常有最大樹深度、最小樣本量、最小異質(zhì)性下降值三個預(yù)設(shè)參數(shù)可事先指定決策樹的最大樹深度,到達(dá)指定深度后就不再繼續(xù)生長。可事先指定節(jié)點的最小樣本量。節(jié)點樣本量不應(yīng)低于最小值,否則相應(yīng)節(jié)點將不能繼續(xù)分枝可事先指定相鄰節(jié)點中輸出變量異質(zhì)性下降的最小值。異質(zhì)性下降不應(yīng)低于最小值,否則相應(yīng)節(jié)點將不能繼續(xù)分枝一般將通過預(yù)設(shè)參數(shù)值限制樹生長的策略,稱為對決策樹做預(yù)修剪(pre-pruning)決策樹的生長和剪枝第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的剪枝:對所得的決策樹,按照從葉節(jié)點向根節(jié)點的方向,逐層剪掉某些節(jié)點分枝的過程。相對于預(yù)剪枝,這里的剪枝也稱為后剪枝(post-pruning)決策樹的生長和剪枝樹深度和誤差之間的關(guān)系第6章數(shù)據(jù)預(yù)測建模:決策樹CART:ClassificationAndRegressionTree,分類回歸樹分類回歸樹CART為2叉樹,包括分類樹和回歸樹從算法效率角度考慮,樹生長過程采用貪心算法,確定當(dāng)前“最佳”分組變量和組限值,并通過自頂向下的遞歸二分策略實現(xiàn)空間區(qū)域的劃分貪心算法是一種不斷尋找當(dāng)前局部最優(yōu)解的算法相對上圖而言,下圖是一種迭代二分策略CART的分類樹和回歸樹研究的輸出變量類型不同,樹生長中測度輸出變量異質(zhì)性的指標(biāo)不同分類回歸樹CART的生長第6章數(shù)據(jù)預(yù)測建模:決策樹CART中回歸樹的異質(zhì)性度量方差輸出變量的異質(zhì)性下降:方差的減少依方差下降最大為原則,從眾多輸入變量中選擇一個當(dāng)前的“最佳”分組變量和組限值
CART的生長第6章數(shù)據(jù)預(yù)測建模:決策樹CART中分類樹的異質(zhì)性度量基尼(Gini)系數(shù):輸出變量的異質(zhì)性下降:基尼系數(shù)的減少依基尼系數(shù)下降最大為原則,從眾多輸入變量中選擇一個當(dāng)前的“最佳”分組變量和組限值熵和熵的下降:
第6章數(shù)據(jù)預(yù)測建模:決策樹CART中分類樹的異質(zhì)性度量基尼系數(shù)還是熵CART的生長Chapter6-3.ipynb第6章數(shù)據(jù)預(yù)測建模:決策樹
CART的剪枝
第6章數(shù)據(jù)預(yù)測建模:決策樹
CART的剪枝第6章數(shù)據(jù)預(yù)測建模:決策樹
第6章數(shù)據(jù)預(yù)測建模:決策樹
CART的剪枝
第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的應(yīng)用:PM2.5濃度預(yù)測Chapter6-4.ipynb越接近樹根的變量越重要第6章數(shù)據(jù)預(yù)測建模:決策樹決策樹的應(yīng)用:尋找影響空氣質(zhì)量等級的主要因素因需探究主要影響因素,可限制樹的生長Chapter6-4-1.ipynb第6章數(shù)據(jù)預(yù)測建模:決策樹第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)集成學(xué)習(xí)概述基于重抽樣自舉法的集成學(xué)習(xí)從弱模型到強模型的構(gòu)建:提升法梯度提升決策樹XGBoost算法集成學(xué)習(xí)概述第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)決策樹有一種“天然”的高方差特征解決較大樹深度模型預(yù)測性能的途徑:集成學(xué)習(xí)(EnsembleLearning)不剪枝:通過集成平均消除預(yù)測的波動性剪枝:通過弱模型的集成提高預(yù)測性能集成學(xué)習(xí)概述
集成學(xué)習(xí)的基本思路:建模階段:基于一組獨立的訓(xùn)練集,分別建立與之對應(yīng)的一組回歸或分類預(yù)測模型。稱這里的每個預(yù)測模型為基礎(chǔ)學(xué)習(xí)器(BaseLearner,基學(xué)習(xí)器)預(yù)測階段:基礎(chǔ)學(xué)習(xí)器將分別給出各自的預(yù)測結(jié)果。對各預(yù)測結(jié)果進(jìn)行平均(回歸)或投票(分類),確定最終的預(yù)測結(jié)果(均值或眾數(shù))集成學(xué)習(xí):解決預(yù)測模型的高方差問題將一組弱模型聯(lián)合起來使其成為一個強模型第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)集成學(xué)習(xí):解決高方差問題
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
基于重抽樣自舉法的集成學(xué)習(xí):袋裝法
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
基于重抽樣自舉法的集成學(xué)習(xí):袋裝法第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)基于重抽樣自舉法的集成學(xué)習(xí):隨機森林
隨機森林通過減少預(yù)測值的相關(guān)性,即通過降低樹間的相似性(高相似的決策樹給出高相關(guān)的預(yù)測值)的策略降低方差隨N(這里是B)增加第二項趨于0,主要取決第一項第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)隨機森林降低樹間相似性(使多棵樹“看上去不相同”)的基本出發(fā)點:多樣性增強:在學(xué)習(xí)過程中增加隨機性擾動,包括:對訓(xùn)練數(shù)據(jù)增加隨機性擾動對輸入變量增加隨機性擾動對算法參數(shù)增加隨機性擾動,等隨機森林多樣性增加的策略:對訓(xùn)練數(shù)據(jù)增加隨機性擾動:重抽樣自舉對輸入變量增加隨機性擾動:決策樹建立過程中的當(dāng)前“最佳”分組變量,是來自輸入變量的一個隨機子集
b中的變量基于重抽樣自舉法的集成學(xué)習(xí):隨機森林
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
基于重抽樣自舉法的集成學(xué)習(xí):隨機森林第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)基于重抽樣自舉法的集成學(xué)習(xí)應(yīng)用示例:PM2.5的回歸預(yù)測
Chapter7-1.ipynb第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)集成學(xué)習(xí):從弱模型到強模型的構(gòu)建
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
從弱模型到強模型的構(gòu)建:Boosting
通過B次迭代建立多個弱模型第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)示例觀察:弱模型的組合可以成為強模型弱模型的“聯(lián)合委員會”有著較高的預(yù)測性能Chapter7-2.ipynb第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
AdaBoost.M1算法根據(jù)誤差(損失)對權(quán)重做非線性更新第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
AdaBoost.M1算法第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)AdaBoost.M1算法實現(xiàn):圖形化展示不同迭代次數(shù)下各樣本觀測的權(quán)重變化Chapter7-3.ipynb較大的點都是之前的弱模型沒有正確預(yù)測的點,基本集中在兩類的邊界處第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)從弱模型到強模型的構(gòu)建:Boosting
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)從弱模型到強模型的構(gòu)建:Boosting
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)從弱模型到強模型的構(gòu)建:Boosting
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)從弱模型到強模型的構(gòu)建:梯度提升算法
梯度提升樹:GradientBoostedDecisionTree,GBDT當(dāng)下最為流行的集成學(xué)習(xí)算法之一,梯度提升算法的典型代表梯度提升樹采用向前式分步可加建模方式迭代過程中模型成員不斷進(jìn)入“聯(lián)合委員會”先前進(jìn)入“聯(lián)合委員會”的模型不受后續(xù)進(jìn)入模型的影響,且每次迭代僅需估計當(dāng)前模型迭代過程中基于損失函數(shù),采用梯度下降法,找到使損失函數(shù)下降最快的模型(基礎(chǔ)學(xué)習(xí)器或弱模型)梯度提升算法第一,提升的含義第二,梯度下降和模型參數(shù)第三,梯度提升算法的參數(shù)優(yōu)化過程第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
從弱模型到強模型的構(gòu)建:梯度提升算法
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
已知
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
找到對當(dāng)前偽響應(yīng)變量(殘差)擬合最好下的回歸樹第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)梯度提升樹和AdaBoost回歸樹的對比一定迭代次數(shù)后,AadBoost集成學(xué)習(xí)策略的訓(xùn)練誤差下降不明顯基本保持不變梯度提升樹的訓(xùn)練誤差呈持續(xù)降低的趨勢提高梯度提升算法中基礎(chǔ)學(xué)習(xí)器復(fù)雜(樹深度等于3),誤差在迭代次數(shù)較少時就快速下降到較低水平Chapter7-4.ipynb第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)從弱模型到強模型的構(gòu)建:XGBoost算法
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
從弱模型到強模型的構(gòu)建:XGBoost算法
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
從弱模型到強模型的構(gòu)建:XGBoost算法第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
決策樹的結(jié)構(gòu)分?jǐn)?shù)越低,說明該樹的結(jié)構(gòu)越合理從弱模型到強模型的構(gòu)建:XGBoost算法第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)
從弱模型到強模型的構(gòu)建:XGBoost算法第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)各種集成算法的對比pipinstallxgboost第7章數(shù)據(jù)預(yù)測建模:集成學(xué)習(xí)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)的基本概念感知機網(wǎng)絡(luò)多層感知機網(wǎng)絡(luò)B-P反向傳播算法人工神經(jīng)網(wǎng)絡(luò)的Python應(yīng)用實踐導(dǎo)言
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)是一種人腦的抽象計算模型,是一種模擬人腦思維的計算機建模方式通過類似于生物神經(jīng)元的處理單元,以及處理單元之間的有機連接,解決現(xiàn)實世界的模式識別、聯(lián)想記憶、優(yōu)化計算等復(fù)雜問題人工神經(jīng)網(wǎng)絡(luò)的基本概念
人工神經(jīng)網(wǎng)絡(luò)的基本構(gòu)成人工神經(jīng)網(wǎng)絡(luò)由相互連接的神經(jīng)元,稱為節(jié)點或處理單元組成人腦神經(jīng)元的連接和連接強弱,在人工神經(jīng)網(wǎng)絡(luò)中體現(xiàn)為節(jié)點間的連線,稱為連接或邊,以及連接權(quán)重的大小上根據(jù)網(wǎng)絡(luò)的層數(shù),從拓?fù)浣Y(jié)構(gòu)上神經(jīng)網(wǎng)絡(luò)可分為:兩層神經(jīng)網(wǎng)絡(luò)、三層及以上的多層神經(jīng)網(wǎng)絡(luò)這種方向性連接的網(wǎng)絡(luò)也稱前饋式網(wǎng)絡(luò)各層的節(jié)點之間是全連接的,是一種全連接網(wǎng)絡(luò)感知機網(wǎng)絡(luò)多層感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)感知機網(wǎng)絡(luò)感知機:一種最基本的前饋式兩層神經(jīng)網(wǎng)絡(luò)模型,僅由輸入層和輸出層構(gòu)成感知機網(wǎng)絡(luò)中的節(jié)點生物神經(jīng)元會對不同類型和強度的刺激信號呈現(xiàn)出不同的反映狀態(tài)(State)或激活水平(ActivityLevel)。同理,感知機的節(jié)點也會對不同的輸入給出不同的輸出由加法器和激活函數(shù)組成第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)感知機節(jié)點中的激活函數(shù)連續(xù)型激活函數(shù)雙曲正切函數(shù):ReLU(RectifiedlinearUnit,ReLU)激活函數(shù):感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)感知機節(jié)點中的激活函數(shù)[0,1]型階躍函數(shù)在分類預(yù)測中的作用感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)感知機節(jié)點中的激活函數(shù)Logistic激活函數(shù)在分類預(yù)測中的作用感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)Python模擬和啟示:認(rèn)識激活函數(shù)加法器:Chapter8-1.ipynb第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)感知機的迭代步驟:第一步,計算各節(jié)點的加法器和激活函數(shù),給出節(jié)點的輸出結(jié)果,即樣本觀測的預(yù)測值。第二步,計算樣本觀測的預(yù)測值與實際值間的誤差,根據(jù)誤差重新調(diào)整各連接權(quán)重會反復(fù)執(zhí)行上述兩步。需經(jīng)過多個周期的學(xué)習(xí)。直到滿足迭代終止條件為止迭代結(jié)束后將得到一組合理的連接權(quán)重和其對應(yīng)的理想超平面。后續(xù)將依據(jù)超平面進(jìn)行預(yù)測涉及的問題包括:第一,如何度量誤差第二,如何通過迭代逐步調(diào)整網(wǎng)絡(luò)權(quán)重如何度量誤差:回歸預(yù)測的損失函數(shù):最優(yōu)的網(wǎng)絡(luò)權(quán)重:分類預(yù)測的損失函數(shù):不適用于階躍函數(shù)的情況,采用以下?lián)p失函數(shù)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)如何通過迭代逐步調(diào)整網(wǎng)絡(luò)權(quán)重:梯度下降法機器學(xué)習(xí)中常用的實現(xiàn)參數(shù)優(yōu)化的方法參數(shù)優(yōu)化的目標(biāo):對特定模型M,利用數(shù)據(jù)D,得到損失函數(shù)最小時的最優(yōu)模型參數(shù)wopt通常模型參數(shù)w為向量如:回歸模型中w為回歸系數(shù)和截距項;人工神經(jīng)網(wǎng)絡(luò)中w為網(wǎng)絡(luò)權(quán)重?fù)p失函數(shù)的復(fù)雜程度取決于:損失函數(shù)L的形式;模型結(jié)構(gòu)如:模型是關(guān)于參數(shù)W的線性函數(shù),損失函數(shù)L為平方損失,L是w的二次函數(shù)參數(shù)優(yōu)化較簡單:單峰(存在唯一最值)求L對w的偏導(dǎo)數(shù),并令偏導(dǎo)g(w)=0;求解方程組(最小二乘法)感知機網(wǎng)絡(luò)---權(quán)重訓(xùn)練
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化的目標(biāo):如果模型形式較為復(fù)雜,則L可能不是關(guān)于w的簡單平滑函數(shù),如:多峰通常求解L(w)最小的參數(shù)w等價在高維空間中最小化一個多元復(fù)雜函數(shù)采用梯度下降法,通過迭代,利用關(guān)于L曲率的局部信息,引導(dǎo)在L曲面上進(jìn)行局部搜索
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)第三步驟具體為:對于回歸預(yù)測中的平方損失函數(shù):有:對分類預(yù)測中的損失函數(shù):有:
感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)說明:連接權(quán)重和偏差權(quán)重的初始值是隨機的,相同迭代策略下迭代結(jié)束時的權(quán)重最終值可能是不等的,有些可能是最優(yōu)解有些可能僅是局部最優(yōu)解一般可通過迭代的多次重啟動方式解決這個問題感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
多層感知機網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
多層感知機網(wǎng)絡(luò)第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)多層感知機網(wǎng)絡(luò)中的隱藏節(jié)點隱藏節(jié)點在分類預(yù)測中的作用:實現(xiàn)非線性樣本的線性變換分類預(yù)測中的線性樣本:對P維輸入變量空間的兩類樣本,若能找到一個超平面將兩類分開,則該樣本為線性樣本,否則為非線性樣本
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)Python模擬和啟示:認(rèn)識隱藏節(jié)點本例中隨著隱藏節(jié)點的增加,分類邊界從直線逐步變?yōu)榍€和圓圈,較好地實現(xiàn)了非線性樣本的分類Chapter8-2.ipynb第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)多層感知機網(wǎng)絡(luò)中的隱藏節(jié)點隱藏節(jié)點在回歸預(yù)測中的作用:實現(xiàn)非線性投影尋蹤回歸
可將投影尋蹤回歸視為三層感知機網(wǎng)絡(luò)中隱藏層到輸出層的所有連接權(quán)重均等于1的特例第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)BP方向傳播算法:多層網(wǎng)絡(luò)引入反方向傳播機制傳遞誤差并完成權(quán)重更新反向傳播算法的基本思想:向傳播和反向傳播兩個階段正向傳播階段:傳播的是樣本信息,網(wǎng)絡(luò)的所有連接權(quán)重保持不變反向傳播階段:將輸出節(jié)點的預(yù)測誤差反方向逐層傳播到上層隱藏節(jié)點,逐層更新權(quán)重,直至所有權(quán)重全部更新為止B-P反向傳播算法第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)
第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)的Python應(yīng)用實踐:手寫體郵政編碼的識別在數(shù)據(jù)集劃分的基礎(chǔ)上,建立不同個數(shù)隱藏節(jié)點的三層感知機網(wǎng)絡(luò),激活函數(shù)依次為ReLU和Logistic函數(shù)繪制隨隱藏節(jié)點的增加,各網(wǎng)絡(luò)測試誤差變化曲線圖,確定較為理想的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和激活函數(shù)較為理想的模型是采用ReLU激活函數(shù)且包含9個隱藏節(jié)點的網(wǎng)絡(luò)Chapter8-3.ipynb第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)的Python應(yīng)用實踐:PM2.5濃度的回歸預(yù)測指定輸入變量SO2、CO、NO2、O3和輸出變量PM2.5涉及多個參數(shù)組合的反復(fù)調(diào)試,為快速達(dá)成目標(biāo),直接利用Python的網(wǎng)格搜索算法實現(xiàn)基于最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行預(yù)測Chapter8-4.ipynb第8章數(shù)據(jù)預(yù)測建模:人工神經(jīng)網(wǎng)絡(luò)第9章數(shù)據(jù)預(yù)測建模:支持向量機支持向量分類概述完全線性可分下的支持向量分類廣義線性可分下的支持向量分類線性不可分下的支持向量分類Python應(yīng)用實踐導(dǎo)言
第9章數(shù)據(jù)預(yù)測建模:支持向量機支持向量機(SupportVectorMachine,SVM)是在統(tǒng)計學(xué)習(xí)理論(StatisticalLearningTheory,SLT)基礎(chǔ)上發(fā)展起來的一種機器學(xué)習(xí)方法(1992年由Boser,Guyon和Vapnik提出)在解決小樣本、非線性和高維的分類預(yù)測和回歸預(yù)測問題上有許多優(yōu)勢支持向量機分為支持向量分類機和支持向量回歸機討論的問題涉及:第一、支持向量分類概述第二、完全線性可分下的支持向量分類第三、廣義線性可分下的支持向量分類第四、線性不可分下的支持向量分類支持向量分類概述
第9章數(shù)據(jù)預(yù)測建模:支持向量機支持向量分類的基本思路如果兩類樣本觀測點能夠被超平面有效分開,則可能會找到多個這樣的超平面支持向量分類算法確定的分類超平面:是具有最大邊界的超平面,是距兩類別的邊緣觀測點最遠(yuǎn)的超平面支持向量分類概述
固定迭代次數(shù)下,不同初始參數(shù)的神經(jīng)網(wǎng)絡(luò)給出分類邊界應(yīng)采用哪個超平面進(jìn)行預(yù)測呢?第9章數(shù)據(jù)預(yù)測建模:支持向量機支持向量分類的基本思路支持向量分類中的超平面:具有最大邊界的超平面,是距兩類別的邊緣觀測點最遠(yuǎn)的超平面最大邊界超平面的意義:有較高的預(yù)測置信度最大邊界超平面僅取決于兩類邊緣上的觀測點:這些樣本觀測稱為支持向量,預(yù)測具有很強的魯棒性
第9章數(shù)據(jù)預(yù)測建模:支持向量機支持向量分類概述
支持向量分類的基本思路支持向量分類的三種情況線性可分樣本:樣本觀測點可被超平面線性分開的情況完全線性可分樣本無法完全線性可分(廣義線性可分)線性不可分樣本第9章數(shù)據(jù)預(yù)測建模:支持向量機完全線性可分下的支持向量分類
以二維空間為例:首先,分別將兩類的最外圍的樣本觀測點連線形成兩個多邊形,應(yīng)是關(guān)于兩類樣本點集的凸包(ConvexHull),最小凸多邊形(各自類的樣本觀測點均在多邊形內(nèi)或邊上)然后,以一類的凸包邊界為基準(zhǔn)線,找到另一類凸包邊界上的點,過該點做基準(zhǔn)線的平行線,得到一對平行線可以有多條這樣的基準(zhǔn)線和對應(yīng)的平行線,應(yīng)找到:相距最遠(yuǎn),且能正確劃分兩類的一對平行線最大邊界超平面(線):平行于該對平行線、位于該對平行線的中間位置上第9章數(shù)據(jù)預(yù)測建模:支持向量機
完全線性可分下的支持向量分類
第9章數(shù)據(jù)預(yù)測建模:支持向量機
完全線性可分下的支持向量分類
第9章數(shù)據(jù)預(yù)測建模:支持向量機
完全線性可分下的支持向量分類
第9章數(shù)據(jù)預(yù)測建模:支持向量機
第9章數(shù)據(jù)預(yù)測建模:支持向量機
第9章數(shù)據(jù)預(yù)測建模:支持向量機
完全線性可分下的支持向量分類
第9章數(shù)據(jù)預(yù)測建模:支持向量機完全線性可分下支持向量分類的實現(xiàn)Chapter9-2.ipynb第9章數(shù)據(jù)預(yù)測建模:支持向量機廣義線性可分下的超平面:采用適當(dāng)?shù)膶捤刹呗裕试S部分樣本觀測點進(jìn)入“禁區(qū)”:廣義線性或線性軟間隔支持向量分類廣義線性可分下的支持向量分類
第9章數(shù)據(jù)預(yù)測建模:支持向量機
廣義線性可分下的支持向量分類第9章數(shù)據(jù)預(yù)測建模:支持向量機廣義線性可分下的超平面
Chapter9-3.ipynb第9章數(shù)據(jù)預(yù)測建模:支持向量機
廣義線性可分下的支持向量分類
只能要求兩項之和最小第9章數(shù)據(jù)預(yù)測建模:支持向量機
第9章數(shù)據(jù)預(yù)測建模:支持向量機
第9章數(shù)據(jù)預(yù)測建模:支持向量機如何解決線性不可分的分類問題一般方式是進(jìn)行非線性空間轉(zhuǎn)換:低維空間中的線性不可分問題,通過恰當(dāng)?shù)姆蔷€性變換轉(zhuǎn)化為高維空間中的線性可分問題線性不可分下的支持向量分類第9章數(shù)據(jù)預(yù)測建模:支持向量機
線性不可分下的支持向量分類第9章數(shù)據(jù)預(yù)測建模:支持向量機
點積計算是關(guān)鍵第9章數(shù)據(jù)預(yù)測建模:支持向量機
第9章數(shù)據(jù)預(yù)測建模:支持向量機
第9章數(shù)據(jù)預(yù)測建模:支持向量機
Chapter9-4.ipynb第9章數(shù)據(jù)預(yù)測建模:支持向量機Python編程題:物聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用---老年人危險體位預(yù)警正方性表示無線穿戴設(shè)備從平躺在床上,到坐起、曲身站起并直立過程中的體位(Activity)變化隨著體位的實時變化(TimeStamp,不同時間點)變化,無線穿戴設(shè)備的豎直高度(vertical,穿戴設(shè)備距地面的高度)數(shù)據(jù)、水平位置(frontal,lateral,穿戴設(shè)備距兩個垂直墻體的距離)數(shù)據(jù)以及傾角數(shù)據(jù)等(Phase,Frequency)都會發(fā)生變化這些數(shù)據(jù)會通過房間內(nèi)的3個射頻識別(RadioFrequencyIdentification,RFID)設(shè)備實時采集并傳回。其中2個RFID安裝在天花板上,1個安裝在墻上老人在室內(nèi)走動時各設(shè)備(SensorID)所接受的信號強度(RSSI)會不同數(shù)據(jù)采集時段內(nèi),老人們的體位狀態(tài)包括1:坐在床上;2:坐在椅子上;3:躺在床上;4:站立或行走請利用支持向量分類預(yù)測老年人體位體位的四分類預(yù)測危險體位的二分類預(yù)測對該問題的二分類預(yù)測中,查全率是更重要的,你認(rèn)為應(yīng)如何提高查全率并編程實現(xiàn)第9章數(shù)據(jù)預(yù)測建模:支持向量機老年人危險體位預(yù)警1:坐在床上;2:坐在椅子上;3:躺在床上;4:站立或行走第9章數(shù)據(jù)預(yù)測建模:支持向量機第10章特征選擇:過濾、包裹和嵌入策略特征選擇概述過濾式策略下的特征選擇包裹式策略下的特征選擇嵌入式策略下的特征選擇特征選擇概述
第10章特征選擇:過濾和包裹策略特征選擇概述
特征選擇的角度:第一,考察變量取值的差異程度第二,考察輸入變量與輸出變量的相關(guān)性第三,考察輸入變量對模型誤差的影響具體策略:第一,過濾式(Filter)策略特征選擇與預(yù)測建?!胺侄沃钡诙剑╳rapper)策略將特征選擇“包裹”到一個指定的預(yù)測模型中,通過預(yù)測模型評價變量重要性,并完成變量篩選第三,嵌入式(embedding)策略(以后講)即特征選擇“嵌入”到整個預(yù)測建模中,與預(yù)測建?!叭跒橐惑w”第10章特征選擇:過濾和包裹策略考察變量取值的差異程度:低方差過濾法(LowVarianceFilter)輸入變量與輸出變量的相關(guān)性:高相關(guān)過濾法(HighCorrelationFilter)
過濾式策略下的特征選擇
Chapter10-2.ipynb第10章特征選擇:過濾和包裹策略
計算原假設(shè)成立下,得到當(dāng)前樣本的特征或更極端特征的概率:概率-P值概率-P值很小且小于顯著性水平α,依據(jù)小概率原理,推翻原假設(shè)接受備擇假設(shè)
第10章特征選擇:過濾和包裹策略
Chapter10-2.ipynb第10章特征選擇:過濾和包裹策略
包裹式策略下的特征選擇
第10章特征選擇:過濾和包裹策略
包裹式策略下的特征選擇
第10章特征選擇:過濾和包裹策略
嵌入式策略下的特征選擇第10章特征選擇:過濾和包裹策略
約束條件:目標(biāo)函數(shù):
或
第10章特征選擇:過濾和包裹策略嵌入式策略下的特征選擇:等價表述為:以上為嶺回歸(RidgeRegression)的目標(biāo)函數(shù)以上為Lasso(Leastabsoluteshrinkageandselectionoperator)回歸的目標(biāo)函數(shù)
第10章特征選擇:過濾和包裹策略
Python中的目標(biāo)函數(shù):第10章特征選擇:過濾和包裹策略
Chapter10-4.ipynb
第10章特征選擇:過濾和包裹策略基于Lasso回歸篩選重要變量
Lasso回歸和嶺回歸的比較Chapter10-4.ipynb第10章特征選擇:過濾和包裹策略Lasso回歸和嶺回歸的比較:L2正則化(嶺回歸)還是L1正則化(Lasso回歸)?
L2范數(shù)約束(嶺回歸)最優(yōu)解下的損失函數(shù)小于L1范數(shù)約束最優(yōu)解下的損失函數(shù)第10章特征選擇:過濾和包裹策略彈性網(wǎng)回歸L1范數(shù)約束(Lasso回歸)更適于進(jìn)行特征選擇平方L2范數(shù)約束(嶺回歸)最優(yōu)解下的損失函數(shù)小于L1范數(shù)約束最優(yōu)解下的損失函數(shù)彈性網(wǎng)回歸是對Lasso回歸和嶺回歸的結(jié)合及拓展,同時引入L1正則化和L2正則化目標(biāo)函數(shù):Python中彈性網(wǎng)回歸的目標(biāo)函數(shù)為:
第10章特征選擇:過濾和包裹策略Chapter10-5.ipynb
彈性網(wǎng)回歸示例相同復(fù)雜度懲罰下,L1范數(shù)約束的錯判率高于L2第10章特征選擇:過濾和包裹策略彈性網(wǎng)回歸示例第10章特征選擇:過濾和包裹策略第11章特征提取:空間變換策略特征提取概述主成分分析矩陣的奇異值分解因子分析特征提取概述
第11章特征提?。嚎臻g變換策略特征提取:從眾多具有相關(guān)性的輸入變量中提取出較少的綜合變量,用綜合變量代替原有輸入變量,從而實現(xiàn)輸入變量空間的降維基于空間變換主成分分析
第11章特征提?。嚎臻g變換策略
第11章特征提取:空間變換策略主成分分析的基本原理數(shù)學(xué)表述為:
示例:
第11章特征提?。嚎臻g變換策略
第11章特征提取:空間變換策略
第11章特征提?。嚎臻g變換策略
第11章特征提?。嚎臻g變換策略
主成分分析
第11章特征提?。嚎臻g變換策略Python模擬與啟示:認(rèn)識主成分
chapter11-1.ipynb第11章特征提取:空間變換策略
矩陣的奇異值分解第11章特征提?。嚎臻g變換策略矩陣的奇異值分解
第11章特征提取:空間變換策略奇異值分解的Python應(yīng)用實踐:臉部數(shù)據(jù)特征提取奇異值分解第11章特征提?。嚎臻g變換策略chapter11-2.ipynb因子分析:一種常用的通過空間變換策略實施特征提取的經(jīng)典統(tǒng)計方法核心目的:將眾多具有相關(guān)性的輸入變量綜合成較少的綜合變量,用綜合變量代替原有輸入變量,實現(xiàn)輸入變量空間的降維因子分析的基本出發(fā)點六門課程成績的相關(guān)系數(shù)矩陣(斯皮爾曼研究一個班級學(xué)生課程成績相關(guān)性時提出的方法)因子分析
原因:學(xué)習(xí)成績一定受某種潛在的共性因素影響,它可能是班級整體某方面的學(xué)習(xí)能力或者智力水平等第11章特征提?。嚎臻g變換策略因子分析的基本出發(fā)點:六門課程成績的相關(guān)系數(shù)矩陣原因:學(xué)習(xí)成績一定受某種潛在的共性因素影響,它可能是班級整體某方面的學(xué)習(xí)能力或者智力水平等,數(shù)學(xué)刻畫:因子分析
第11章特征提取:空間變換策略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度四川省公共營養(yǎng)師之二級營養(yǎng)師自我提分評估(附答案)
- 2025維保合同表格樣板
- 2024-2030年中國住房租賃行業(yè)發(fā)展?jié)摿︻A(yù)測及投資戰(zhàn)略研究報告
- 2024年早期教育行業(yè)市場深度分析及投資戰(zhàn)略研究報告
- 2025年鍍鉻板(卷)項目評估報告
- 房屋維修申請報告(三)
- 中國純鈦管項目投資可行性研究報告
- 縫包機組行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 動漫培訓(xùn)行業(yè)發(fā)展?jié)摿Ψ治黾巴顿Y方向研究報告
- 2025年中國礦物性藥材行業(yè)市場行情動態(tài)分析及發(fā)展前景趨勢預(yù)測報告
- 2024秋新商務(wù)星球版地理7年級上冊教學(xué)課件 第5章 地球表層的人文環(huán)境要素 第3節(jié) 世界文化的多樣性
- 人教版三年級數(shù)學(xué)上冊 期末測試
- 《跨境電子商務(wù)基礎(chǔ)》課件-阿里巴巴國際站概述
- 政治-湖南省名校教育聯(lián)盟2025屆高三12月大聯(lián)考試題和答案
- 2025年上半年四川省成都市大數(shù)據(jù)中心招聘3人易考易錯模擬試題(共500題)試卷后附參考答案-1
- 重慶市渝北區(qū)六校聯(lián)盟2024-2025學(xué)年八年級上學(xué)期12月月考數(shù)學(xué)試題
- 2024年山東省聊城市中考英語真題含解析
- 2024年安徽省高中學(xué)業(yè)水平合格性考試語文試卷真題(含答案詳解)
- 中南大學(xué)《創(chuàng)新創(chuàng)業(yè)導(dǎo)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024潞安化工集團(tuán)有限公司第二批煤礦井下一線生產(chǎn)操作崗位招聘2820人筆試核心備考題庫及答案解析
- 外研版一年級上冊新交際英語(2024)全冊教案(單元整體教學(xué)設(shè)計)
評論
0/150
提交評論