Matlab 數(shù)據(jù)分析 課件 康海剛 第6-8章 多元線性回歸模型-分類_第1頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第6-8章 多元線性回歸模型-分類_第2頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第6-8章 多元線性回歸模型-分類_第3頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第6-8章 多元線性回歸模型-分類_第4頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第6-8章 多元線性回歸模型-分類_第5頁
已閱讀5頁,還剩118頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Matlab數(shù)據(jù)分析第6章多元線性回歸模型1)收集一組包含因變量和白變量的數(shù)據(jù)。2)選定因變量與白變量之間的模型,即一個數(shù)學式子,利用數(shù)據(jù)按照最小二乘準則計算模型中的參數(shù)。3)利用統(tǒng)計分析方法對不同的模型進行比較,找出與數(shù)據(jù)擬合得最好的模型。4)判斷得到的模型是否適合于這組數(shù)據(jù)。5)利用模型對因變量作出預測或解釋。常見的回歸算法如下。(1)OLS線性回歸1)工作原理:線性回歸是一項統(tǒng)計建模技術,用來描述作為一個或多個預測自變量的線性函數(shù)的連續(xù)因變量。2)最佳使用時機:當需要易于解釋和快速擬合算法時,線性回歸可作為評估其他更復雜回歸模型的基準。(2)非線性回歸1)工作原理:非線性回歸是一種有助于描述試驗數(shù)據(jù)中非線性關系的統(tǒng)計建模技術。2)最佳使用時機:當數(shù)據(jù)有很強的非線性趨勢,不容易轉化成線性空間時,可適用于自定義模型與數(shù)據(jù)擬合。(3)高斯過程回歸1)工作原理:高斯過程回歸(GPR)模型是非參數(shù)模型,用于預測連續(xù)因變量的值。2)最佳使用時機:適用于對空間數(shù)據(jù)插值,如針對地下水分布的水文地質學數(shù)據(jù)、作為有助于優(yōu)化汽車發(fā)動機等復雜設計的替代模型。(4)SVM回歸1)工作原理:SVM回歸算法類似于SVM分類算法,但經(jīng)過改良,能夠預測連續(xù)響應。2)最佳使用時機:適用于高維數(shù)據(jù)(將會有大量的預測自變量)。(5)廣叉線性模型1)工作原理:廣義線性模型是使用線性方法的非線性模型的一種特殊情況。2)最佳使用時機:當因變量有非正態(tài)分布時,如始終預期為正值的因變量。(6)回歸決策樹1)工作原理:回歸決策樹類似于分類決策樹,但經(jīng)過改良能夠預測連續(xù)響應,如圖6-6所示。應用案例預測能量負荷1)改進模型。2)特征選擇。3)特征變換。4)訓練模型。5)超參數(shù)調優(yōu)。6.1概述6.1概述(1)擬合系數(shù)R2其定義為(2)模型的假定關于多元回歸模型y=??0+??0x1+??2x2+?+??mxm+??

中誤差項??的假定要注意以下兒點:1)誤差項??是一個隨機變量,其均值或者期望值力0,即E(??)=0。2)對于所有的白變量x1,x2,…,xm的值,??的方差多是相同的。3)??的值是互相獨立的。4)誤差項??是一個服從隨機正態(tài)分布的隨機變量,它反映了y值和由??0+??0x1+??2x2+?+??mxm給出的期望值之間的離差。(3)顯著性檢驗1)F檢驗6.1概述2)t檢驗。(4)多重共線性在回歸分析中使用自變量來表示用于預測或解釋因變量的任何變量,但是這個術語并不意味著自變量本身在統(tǒng)計意義上是獨立的。(5)利用回歸模型進行預測利用回歸方程=??0+??0x1+??2x2+?+??mxm,給出一組具體的自變量的值,能得到對應的預測值的點估計。6.2一元曲線擬合6.2.1案例1—百貨商場銷售額步驟1準備數(shù)據(jù),在命令窗口中輸入以下代碼:步驟2打開“CurveFitting”APP。步驟3在CurveFiting界面選擇對應的數(shù)據(jù),在“Xdata”下拉列表框中選擇“x”,在“Ydata”下拉列表框中選擇“y”,如圖6-10所示。步驟4通過從“Degree”下拉列表框中選擇“2”,可將擬合更改為二次多項式。步驟5修改“Fitname”為“poly2”。步驟6展示殘差圖,可選擇“View—ResidualsPlot”菜單命令,用殘差表示這一商業(yè)活動效果更佳。6.2一元曲線擬合步驟7添加新擬合以嘗試其他庫方程式。6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合步驟8以同樣方法添加新擬合,在圖6-12所示的圓圈標記處單擊下拉箭頭。6.2一元曲線擬合步驟9以同樣的方法創(chuàng)建冪函數(shù)(power)擬合,如圖6-14所示。6.2一元曲線擬合6.2.2確定最優(yōu)擬合6.2.3導出模型到工作空間6.2一元曲線擬合6.2一元曲線擬合6.3多元線性回歸模型6.3.1案例2——牙膏的銷售量6.3多元線性回歸模型6.3多元線性回歸模型1.分析與假設2.基本模型的建立與求解(1)基本模型的建立了大致分析y與x1和x2的關系,首先利用表6-1中的數(shù)據(jù)分別作出y對x1和x2的散點圖(見圖6-19)。6.3多元線性回歸模型(2)基本模型求解直接使用Matla中的fitlm求解,代碼保存在ex7_2中,代碼如下:6.3多元線性回歸模型6.3多元線性回歸模型6.3多元線性回歸模型3.基本模型的改進6.3多元線性回歸模型6.3.2案例3——白變量含有分類變量的處理1.問題分析6.3多元線性回歸模型2.模型的建立與求解3.殘差圖分析4.考慮自變量的交互影響6.3多元線性回歸模型6.4逐步回歸模型案例4Matlab中的had.mat數(shù)據(jù)集是(Hald,1960)關于水泥生產的數(shù)據(jù)。6.4逐步回歸模型第7章聚類分析7.1

簡介7.1.1聚類分析的類型1.按分類對象不同進行聚類7.1

簡介(1)R型聚類分析的主要作用1)不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。2)根據(jù)變量的分類結果以及它們之間的關系,可以選擇主要變量進行Q型聚類分析或回歸分析(R2選擇標準)。(2)Q型聚類分析的主要作用1)可以綜合利用多個變量的信息對樣本進行分析。2)分類結果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類的結果。3)聚類分析所得到的結果比傳統(tǒng)分類方法更細致、全面、合理。2.按分類對象的劃分進行聚類1)使用自我組織的特征圖或層次聚類,查找數(shù)據(jù)中可能的結構。2)使用聚類評估,查找給定聚類算法的“最佳”組數(shù)。7.1

簡介3.Matlab中常見的硬聚類算法(1)k均值(kMeans)聚類算法1)原理。2)最佳使用時機。(2)k中心(kMedoids)聚類算法1)原理。2)最佳使用時機。7.1

簡介(3)層次聚類算法1)原理。2)最佳使用時機。(4)自組織映射聚類算法1)原理。2)最佳使用時機。7.1

簡介4.Matlab中常見的軟聚類算法(1)模糊c均值聚類算法1)原理。2)最佳使用時機。(2)高斯混合模型聚類算法1)原理。2)最佳使用時機。7.1

簡介7.1.2聚類分析的依據(jù)1.距離7.1

簡介7.1

簡介2.夾角余弦3.相關系數(shù)7.2譜系聚類1.譜系聚類法基本思想1)聚類開始時將n個樣品(或p個變量)各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離。2)將距離最近的兩類合并成一個新類。3)計算新類與其他類之間的距離,重復進行兩個最近類的合并,每次減少一類,直至所有的樣品(或p個變量)合并成一類。2.譜系聚類法基本步驟1)選擇樣本間距離及類間距離。2)計算n個樣本兩兩之間的距離,得到距離矩陣。3)構造各類,每個類暫時只含有一個樣本。4)合并符合類間距離定義要求的兩類力一個新類。7.2譜系聚類7.2譜系聚類5)計算新類與當前各類的距離。6)畫出譜系聚類圖。7)作出結論,決定類的個數(shù)和類。3.Matlab中譜系聚類法的主要方法(1)pdist方法pdist方法的主要作用是計算構成樣品對的樣品之間的距離,調用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。7.2譜系聚類7.2譜系聚類(2)squareform方法squareform方法用來將pdist函數(shù)輸出的距離轉化為距離矩陣,也可將距離矩陣轉化為距離向量。1)z=squareform(y):將pdist函數(shù)輸出的距離向量轉化力距離矩陣。2)y=squareform(z):將距離矩陣轉化為距離向量。(3)linkage方法linkage函數(shù)用來創(chuàng)建系統(tǒng)聚類樹,調用格式如下:1)z=linkage(y):創(chuàng)建系統(tǒng)聚類樹,1是樣品對的距離向量,一般是pdist方法的輸出結果。2)z=linkage(y,method):利用method參數(shù)指定的方法創(chuàng)建系統(tǒng)聚類樹,method是字符串,可用字符串見表7-2。7.2譜系聚類(4)dendrogram方法dendrogram方法用于創(chuàng)建聚類樹形圖,調用格式為:(5)inconsistent函數(shù)inconsistent函數(shù)用來計算譜系聚類樹矩陣Z中每次并類得到的鏈接的不一致系數(shù),調用格式力:7.2譜系聚類(6)clusterdata方法clusterdata函數(shù)調用了pdist、linkage和cluster函數(shù),用來由原始樣本數(shù)據(jù)矩陣X創(chuàng)建系統(tǒng)聚類。例7.1設有5個樣品,分別表示北京、上海、安徽、陜西和新疆,每個樣品只測試了一個指標,指標值分別為1、2、6、8、11,若樣品間采用絕對值距離,下面用最短距離法對這5個樣品進行聚類。解:計算過程如下。1)計算距離矩陣,代碼如下,結果如圖7-9所示。7.2譜系聚類7.2譜系聚類2)分步聚類,繪制聚類樹形圖,代碼如下,結果如圖7-10所示。7.2譜系聚類例7.2(樣品聚類綜合案例)圖7-11所示2007年我國31個省、白治區(qū)、直轄市的城鎮(zhèn)居民家庭平均每人年消費性支出的8個主要數(shù)據(jù)變量,利用譜系聚類法,對各地區(qū)進行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數(shù)據(jù),并進行標準化:2)調用clusterdata函數(shù)進行一步聚類:7.2譜系聚類3)分步聚類:4)作出聚類樹形圖,如圖7-12所示。5)確定分類個數(shù)。7.2譜系聚類7.2譜系聚類例7.3(變量聚類綜合案例)在全國服裝標準制定中,對某地區(qū)成年女子的14個部位尺寸(體型尺寸)進行了測量,根據(jù)測量數(shù)據(jù)計算得到14個部位尺寸之間的相關系數(shù)矩陣,試對14個部位進行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數(shù)據(jù)。2)把數(shù)據(jù)轉為距離向量,設xi和xj的相關系數(shù)為pij,定義它們之間的距離為3)調用linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹。7.2譜系聚類4)繪制聚類樹形圖,作出的聚類樹形圖如圖7-14所示。7.3

k均值聚類7.3.1k均值聚類概述7.3

k均值聚類7.3

k均值聚類1)從數(shù)據(jù)集中隨機取k個元素,作次k個簇各自的中心。2)分別計算剩下的元素到h個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3)根據(jù)聚類結果,重新計算個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數(shù)。4)將數(shù)據(jù)集中全部元素按照新的中心重新聚類。5)重復第4)步,直到聚類結果不再變化。6)將結果輸出。7.3

k均值聚類7.3

k均值聚類7.3

k均值聚類7.3.2k均值聚類算法的Matlab函數(shù)1.kmeans函數(shù)(1)idx=kmeans(X,k)將n個觀測點分為k個類,輸入?yún)?shù)X為n×p的矩陣,矩陣的每行對應一個點,每列對應一個變量。(2)[idx,C]=kmeans(X,k)返回個類的類重心坐標矩陣,C是一個k×p的矩陣,第i行元素第i類的類重心坐標。(3)[idx,C,sumd」=kmeans(X,k)返回類內距離和(即類內各點與類重心距離之和)向量sumd,C是一個1xk的矩陣,第i行元素第i類的類內距離之和。(4)[idx,C,sumd,D]=kmeans(X,k)返回每個點與每個類重心之間距離矩陣D,D是一個n×k的矩陣,第i行第j列元素第i個點第j類重心之間的距離。(5)[…]=kmeans(X,k,參數(shù)1,值1,參數(shù)2,值2)允許用戶設置更多的參數(shù)及參數(shù)值,用來7.3

k均值聚類2.silhouette函數(shù)(1)silhouette(X,idx)根據(jù)樣本X和聚類結果idx繪制輪廓圖。(2)s=silhouette(X,idx)返回輪廓向量s,元素對應點的輪廓值。(3)[S,H]=

silhouette(X,idx)返回輪廓向量S和繪圖句柄H。(4)[S,H]=silhouette(X,idx,metric)

metric用來指定距離計算的方法,如'Euclidean'。7.3

k均值聚類例7.5在20世紀20年代,植物學家Fisher收集了150個inis標本的萼片長度、萼片寬度、花瓣長度和花瓣寬度的測量值,其中50個來自3個物種中的每一個。解:計算過程如下。1)準備模型:7.3

k均值聚類2)為了更好地理解聚類,首先以花瓣長度和花瓣寬度繪制散點圖,如圖7-24所示。7.3

k均值聚類控制kmeans函數(shù)所用的迭代算法,可用的參數(shù)名和參數(shù)值讀者可以在Matlab的命令窗口運行helpkmeans來學習。例7.4針對例7-1的數(shù)據(jù),利用kmeans函數(shù)進行k均值聚類算法,代碼和結果如下:7.3

k均值聚類3)下面調用kmeans函數(shù)將數(shù)據(jù)集區(qū)分為三類,并繪制聚類輪廓圖。7.3

k均值聚類7.3

k均值聚類7.3

k均值聚類7.3.3k均值聚類算法的特點1)在k均值聚類算法中的k是事先給定的,這個k值的選定是非常難以估計的。2)在k均值聚類算法中,首先需要根據(jù)初始聚類中心來確定一個初始劃分,然后對初始劃分進行優(yōu)化。3)k均值聚類算法需要不斷地進行樣本分類調整,不斷地計算調整后新的聚類中心,因此當數(shù)據(jù)量非常大時,算法的時間開銷也非常大。4)k均值聚類算法對一些離散點和初始k值敏感,不同的距離初始值對同樣的數(shù)據(jù)樣本可能得到不同的結果。7.3

k均值聚類7.3.4k均值聚類算法綜合應用例7.6examp:3.xls表列出了43↑國家和地區(qū)3年(1990年、2000年、2006年)的嬰兒死亡率和出生時預期壽命數(shù)據(jù)。7.3

k均值聚類解:計算過程如下。1)讀取數(shù)據(jù):2)進行標準化變換:3)選取初始凝聚點進行聚類:7.3

k均值聚類4)繪制輪廓圖:7.3

k均值聚類5)查看聚類結果:7.4層次聚類7.4.1概述1)如何計算兩個點的距離?2)如何計算兩個類別之間的距離?①最鄰近距離(SingleLinkage),就是取兩個集合中距離最近的兩個點的距離作力這兩個集合的距離,容易造成一種叫做鏈接的效果,兩個聚類明明從“大局”上離得比較遠,但是由于其中個別的點距離比較近就被合并了,并且這樣合并之后鏈接效應會進一步擴大,最后會得到比較松散的聚類。②CompleteLinkage。③GroupAverage。1)待分割的聚類記G,在G中取出一個到其他點的平均距離最遠的點x,構成新聚類H。2)在G中選取這樣的點x',使得x'到G中其他點的平均距離減去x'到H中所有點的平均距離這個差值最大,將其歸入H中。7.4層次聚類3)重復上一個步驟,直到差值為負。7.4.2層次聚類算法的Matlab實現(xiàn)例7.7這里仍然以上面的iris數(shù)據(jù)集來實現(xiàn)層次聚類。7.4層次聚類7.4層次聚類7.4.3層次聚類算法的特點1)在凝聚層次聚類算法和分裂層次聚類算法中,都需要用戶提供所希望得到的聚類的單個數(shù)量和閾值作為聚類分析的終止條件,但對于復雜的數(shù)據(jù)來說這是很難事先判定的。2)由于層次聚類算法要使用距離矩陣,所以它的時間和空間復雜度都很高,幾乎不能在大數(shù)據(jù)集上使用。7.5高斯混合模型聚類7.5.1簡介1)估計數(shù)據(jù)由每個Component生成的概率(并不是每個Component被選中的概率)。2)估計每個Component的參數(shù)。3)重復迭代前面兩步,直到似然函數(shù)的值收斂力止。7.5高斯混合模型聚類7.5.2高斯混合模型聚類算法的Matlab實現(xiàn)例7.8在Matlab中可以利用函數(shù)gmdistribution.fit來實現(xiàn)聚類。第8章分類8.1分類算法簡介8.1.1邏輯回歸分類算法1)y是一個定量的變量,這時就用通常的regress函數(shù)對y進行回歸。2)y是一個定性的變量,如y=0或1,這時就不能用常規(guī)的regress函數(shù)對y進行回歸,而要使用邏輯回歸(LogisticRegression)。1.工作原理2.最佳使用時機8.1分類算法簡介8.1.2K近鄰分類算法1.エ作原理2.最佳使用時機3.K近鄰分類算法的具體步驟1)初始化距離為最大值。2)計算未知樣本和每個訓練樣本的距離dist。3)得到目前K個最鄰近樣本中的最大距離maxdist。4)如果dist<maxdist,則將訓練樣本作為k最近鄰樣本。5)重復步驟2)~4),直到來知樣本和所有訓練樣本的距離都算完。6)統(tǒng)計k個最近鄰樣本中每個類別出現(xiàn)的次數(shù)。7)選擇出現(xiàn)頻率最大的類別作未知類別出現(xiàn)的次數(shù)。8.1分類算法簡介8.1.3支持向量機分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.4人工神經(jīng)網(wǎng)絡分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.5樸素貝葉斯分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.6判別分析分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.7決策樹分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.8集成學習分類算法1)Bagging的訓練集是隨機的,各訓練集是獨立的;而Boosting訓練集的選擇不是獨立的,每次選擇的訓練集都依賴于上一次學習的結果。2)Bagging的每個預測函數(shù)都沒有權重;而Boosting根據(jù)每次訓練的誤差得到該次預測函數(shù)的權重。3)Bagging的各個預測函數(shù)可以并行生成;而Boosting只能順序生成。1.工作原理2.最佳使用時機8.2分類的評判8.2.1評判指標1)TruePositive(TP):指模型預測為正(1)的,并且實際上也的確是正(1)的觀察對象的數(shù)量。2)TrueNegative(TN):指模型預測為負(0)的,并且實際上也的確是負(0)的觀察對象的數(shù)量。3)FalsePositive(FP):指模型預測為正(1)的,并且實際上是負(0)的觀察對象的數(shù)量。4)FalseNegative(FN):指模型預測為負(0)的,并且實際上是正(1)的觀察對象的數(shù)量。8.2分類的評判(1)AccuracyRate(正確率)模型總體正確率,是指模型能正確預測、識別1和0的對象數(shù)量與預測對象總數(shù)的比值,公式為(2)Errorrate(錯誤率)模型總體的錯誤率,是指模型錯誤預測、錯誤識別1和0觀察對象與預測對象總數(shù)的比值,也即是1減去正確率,公式為(3)Sensitivity(靈敏性)又稱擊中率或真陽率,模型正確識別為正(1)的對象占全部觀察對象中實際為正(1)的對象數(shù)量的比值,公式為8.2分類的評判(4)Specificity(特效性)又稱為真負率,模型正確識別為負(0)的對象占全部觀察對象中實際負(0)的對象數(shù)量的比值,公式為(5)Precision(精度)模型的精度是指模型正確識別正(1)的對象占模型識別正(1)的對象數(shù)量的比值,公式為(6)FalsePositiveRate(錯正率)又稱假陽率,模型錯誤識別為正(1)的對象占實際為負(0)的對象數(shù)量的比值,即1減去真負率,公式為8.2分類的評判(7)NegativePredictiveValue(負元正確率)模型正確識別力負(0)的對象占模型識別為負(0)的觀察對象總數(shù)的比值,公式為(8)FalseDiscoveryValue(正元錯誤率)模型錯誤識別正(1)的對象占模型識別正(1)的觀察對象總數(shù)的比值,公式為8.2分類的評判8.2.2ROC曲線和AUC8.3判別分析分類的具體應用8.3.1判別分析的定義、特點和類型1.定義2.特點3.判別分析類型(1)距離判別首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,計算新個體到每類的距離,確定最短的距離(歐幾里得距離、馬哈拉諾比斯距離)。(2)Fisher判別利用已知類別個體的指標構造判別式(同類差別較小、不同類差別較大),按照判別式的值判斷新個體的類別。(3)貝葉斯判別(Bayes判別)計算新樣品屬于各總體的條件概率,比較概率的大小,然后將新樣品判歸次來自概率最大的總體。8.3判別分析分類的具體應用8.3.2距離判別1.直接使用馬哈拉諾比斯距離實現(xiàn)距離判別1)計算A、B兩類的均值向量與協(xié)方差陣,即2)計算總體的協(xié)方差矩陣,即3)計算未知樣本x到A、B兩類馬哈拉諾比斯平方距離之差4)作出結論:若d<0,則x屬于A類;若d>0,則x屬于B類。8.3判別分析分類的具體應用例8.1(1989年國際數(shù)學競賽A題)蠓的分類。解:根據(jù)上述計算過程,Matlab代碼如下:1)計算A、B兩類的均值向量與協(xié)方差陣力8.3判別分析分類的具體應用2)計算總體的協(xié)方差矩陣,即3)計算未知樣本×到A、B兩類馬哈拉諾比斯距離之差,即4)若d<0,則x屬于A類;若d>0,則x屬于B類。2.使用Matlab統(tǒng)計工具箱的函數(shù)實現(xiàn)距離判別1)class=classify(sample,training,group)2)class=classify(sample,training,group,type)3)class=classify(sample,training,group,type,prior)4)[class,err]=classify(......)8.3判別分析分類的具體應用5)[class,err,posterior]=classify(......)6)

[class,err,posterior,logp]=classify(??.)8.3判別分析分類的具體應用例8.2對21個破產的企業(yè)收集它們在破產前兩年的年度財務數(shù)據(jù),同時對25個財務良好的企業(yè)也收集同一時期的數(shù)據(jù),數(shù)據(jù)涉及4個變量,即X1=現(xiàn)金流量/總債務、X2=凈收入/總資產、X3=流動資產/流動債務、X4=流動資產/凈銷售額。解:計算過程如下。1)讀取exampl.xls表中的數(shù)據(jù),Matlab代碼如下:2)使用classify函數(shù)進行距離判別,代碼如下:8.3判別分析分類的具體應用8.3判別分析分類的具體應用8.3.3貝葉斯判別1.貝葉斯判別準則2.使用Matlab統(tǒng)計工具箱的函數(shù)實現(xiàn)貝葉斯判別(1)fit方法用來根據(jù)訓練樣本創(chuàng)建一個樸素貝葉斯分類器對象,調用格式為(2)predict方法在用fit方法根據(jù)訓練樣本創(chuàng)建一個樸素貝葉斯分類器對象后,可以利用對象的predict方法對待判樣品進行分類,調用格式為8.3判別分析分類的具體應用例8.3貝葉斯判別法案例分析:Fisher于1936年發(fā)表的鳶尾花數(shù)據(jù)被廣泛作為分類的例子。解:計算過程如下。1)加載數(shù)據(jù):2)查看數(shù)據(jù):3)貝葉斯判別:8.3判別分析分類的具體應用8.3判別分析分類的具體應用8.3判別分析分類的具體應用4)查看誤判樣品編號:5)查看誤判樣品的誤判情況:6)對未知類別樣品進行判別:8.3判別分析分類的具體應用8.3判別分析分類的具體應用8.3判別分析分類的具體應用例8.4對全國30個省、直轄市、自治區(qū)于1994年影響各地區(qū)經(jīng)濟增長差異的制度變量:x1為經(jīng)濟增長率,x2為非國有化水平,x3開放度,x3市場化程度,依據(jù)表8-3中數(shù)據(jù)作貝葉斯判別分析。8.4使用ClassificationLearnerApp實現(xiàn)分類例8.5本節(jié)使用Fisher’siris數(shù)據(jù)來展示ClassificationLearnerApp的使用情況。步驟1從Matlab中導入fisheriris.csv格式數(shù)據(jù):8.4使用ClassificationLearnerApp實現(xiàn)分類步驟2在“應用程序”選項卡上的“機器學習”組中,單擊“ClassificationLeamer”按鈕,如圖8-17所示。8.4使用ClassificationLearnerApp實現(xiàn)分類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論