版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Matlab數(shù)據(jù)分析第8章分類8.1分類算法簡介8.1.1邏輯回歸分類算法1)y是一個定量的變量,這時就用通常的regress函數(shù)對y進(jìn)行回歸。2)y是一個定性的變量,如y=0或1,這時就不能用常規(guī)的regress函數(shù)對y進(jìn)行回歸,而要使用邏輯回歸(LogisticRegression)。1.工作原理2.最佳使用時機8.1分類算法簡介8.1.2K近鄰分類算法1.エ作原理2.最佳使用時機3.K近鄰分類算法的具體步驟1)初始化距離為最大值。2)計算未知樣本和每個訓(xùn)練樣本的距離dist。3)得到目前K個最鄰近樣本中的最大距離maxdist。4)如果dist<maxdist,則將訓(xùn)練樣本作為k最近鄰樣本。5)重復(fù)步驟2)~4),直到來知樣本和所有訓(xùn)練樣本的距離都算完。6)統(tǒng)計k個最近鄰樣本中每個類別出現(xiàn)的次數(shù)。7)選擇出現(xiàn)頻率最大的類別作未知類別出現(xiàn)的次數(shù)。8.1分類算法簡介8.1.3支持向量機分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.4人工神經(jīng)網(wǎng)絡(luò)分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.5樸素貝葉斯分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.6判別分析分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.7決策樹分類算法1.工作原理2.最佳使用時機8.1分類算法簡介8.1.8集成學(xué)習(xí)分類算法1)Bagging的訓(xùn)練集是隨機的,各訓(xùn)練集是獨立的;而Boosting訓(xùn)練集的選擇不是獨立的,每次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。2)Bagging的每個預(yù)測函數(shù)都沒有權(quán)重;而Boosting根據(jù)每次訓(xùn)練的誤差得到該次預(yù)測函數(shù)的權(quán)重。3)Bagging的各個預(yù)測函數(shù)可以并行生成;而Boosting只能順序生成。1.工作原理2.最佳使用時機8.2分類的評判8.2.1評判指標(biāo)1)TruePositive(TP):指模型預(yù)測為正(1)的,并且實際上也的確是正(1)的觀察對象的數(shù)量。2)TrueNegative(TN):指模型預(yù)測為負(fù)(0)的,并且實際上也的確是負(fù)(0)的觀察對象的數(shù)量。3)FalsePositive(FP):指模型預(yù)測為正(1)的,并且實際上是負(fù)(0)的觀察對象的數(shù)量。4)FalseNegative(FN):指模型預(yù)測為負(fù)(0)的,并且實際上是正(1)的觀察對象的數(shù)量。8.2分類的評判(1)AccuracyRate(正確率)模型總體正確率,是指模型能正確預(yù)測、識別1和0的對象數(shù)量與預(yù)測對象總數(shù)的比值,公式為(2)Errorrate(錯誤率)模型總體的錯誤率,是指模型錯誤預(yù)測、錯誤識別1和0觀察對象與預(yù)測對象總數(shù)的比值,也即是1減去正確率,公式為(3)Sensitivity(靈敏性)又稱擊中率或真陽率,模型正確識別為正(1)的對象占全部觀察對象中實際為正(1)的對象數(shù)量的比值,公式為8.2分類的評判(4)Specificity(特效性)又稱為真負(fù)率,模型正確識別為負(fù)(0)的對象占全部觀察對象中實際負(fù)(0)的對象數(shù)量的比值,公式為(5)Precision(精度)模型的精度是指模型正確識別正(1)的對象占模型識別正(1)的對象數(shù)量的比值,公式為(6)FalsePositiveRate(錯正率)又稱假陽率,模型錯誤識別為正(1)的對象占實際為負(fù)(0)的對象數(shù)量的比值,即1減去真負(fù)率,公式為8.2分類的評判(7)NegativePredictiveValue(負(fù)元正確率)模型正確識別力負(fù)(0)的對象占模型識別為負(fù)(0)的觀察對象總數(shù)的比值,公式為(8)FalseDiscoveryValue(正元錯誤率)模型錯誤識別正(1)的對象占模型識別正(1)的觀察對象總數(shù)的比值,公式為8.2分類的評判8.2.2ROC曲線和AUC8.3判別分析分類的具體應(yīng)用8.3.1判別分析的定義、特點和類型1.定義2.特點3.判別分析類型(1)距離判別首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,計算新個體到每類的距離,確定最短的距離(歐幾里得距離、馬哈拉諾比斯距離)。(2)Fisher判別利用已知類別個體的指標(biāo)構(gòu)造判別式(同類差別較小、不同類差別較大),按照判別式的值判斷新個體的類別。(3)貝葉斯判別(Bayes判別)計算新樣品屬于各總體的條件概率,比較概率的大小,然后將新樣品判歸次來自概率最大的總體。8.3判別分析分類的具體應(yīng)用8.3.2距離判別1.直接使用馬哈拉諾比斯距離實現(xiàn)距離判別1)計算A、B兩類的均值向量與協(xié)方差陣,即2)計算總體的協(xié)方差矩陣,即3)計算未知樣本x到A、B兩類馬哈拉諾比斯平方距離之差4)作出結(jié)論:若d<0,則x屬于A類;若d>0,則x屬于B類。8.3判別分析分類的具體應(yīng)用例8.1(1989年國際數(shù)學(xué)競賽A題)蠓的分類。解:根據(jù)上述計算過程,Matlab代碼如下:1)計算A、B兩類的均值向量與協(xié)方差陣力8.3判別分析分類的具體應(yīng)用2)計算總體的協(xié)方差矩陣,即3)計算未知樣本×到A、B兩類馬哈拉諾比斯距離之差,即4)若d<0,則x屬于A類;若d>0,則x屬于B類。2.使用Matlab統(tǒng)計工具箱的函數(shù)實現(xiàn)距離判別1)class=classify(sample,training,group)2)class=classify(sample,training,group,type)3)class=classify(sample,training,group,type,prior)4)[class,err]=classify(......)8.3判別分析分類的具體應(yīng)用5)[class,err,posterior]=classify(......)6)
[class,err,posterior,logp]=classify(??.)8.3判別分析分類的具體應(yīng)用例8.2對21個破產(chǎn)的企業(yè)收集它們在破產(chǎn)前兩年的年度財務(wù)數(shù)據(jù),同時對25個財務(wù)良好的企業(yè)也收集同一時期的數(shù)據(jù),數(shù)據(jù)涉及4個變量,即X1=現(xiàn)金流量/總債務(wù)、X2=凈收入/總資產(chǎn)、X3=流動資產(chǎn)/流動債務(wù)、X4=流動資產(chǎn)/凈銷售額。解:計算過程如下。1)讀取exampl.xls表中的數(shù)據(jù),Matlab代碼如下:2)使用classify函數(shù)進(jìn)行距離判別,代碼如下:8.3判別分析分類的具體應(yīng)用8.3判別分析分類的具體應(yīng)用8.3.3貝葉斯判別1.貝葉斯判別準(zhǔn)則2.使用Matlab統(tǒng)計工具箱的函數(shù)實現(xiàn)貝葉斯判別(1)fit方法用來根據(jù)訓(xùn)練樣本創(chuàng)建一個樸素貝葉斯分類器對象,調(diào)用格式為(2)predict方法在用fit方法根據(jù)訓(xùn)練樣本創(chuàng)建一個樸素貝葉斯分類器對象后,可以利用對象的predict方法對待判樣品進(jìn)行分類,調(diào)用格式為8.3判別分析分類的具體應(yīng)用例8.3貝葉斯判別法案例分析:Fisher于1936年發(fā)表的鳶尾花數(shù)據(jù)被廣泛作為分類的例子。解:計算過程如下。1)加載數(shù)據(jù):2)查看數(shù)據(jù):3)貝葉斯判別:8.3判別分析分類的具體應(yīng)用8.3判別分析分類的具體應(yīng)用8.3判別分析分類的具體應(yīng)用4)查看誤判樣品編號:5)查看誤判樣品的誤判情況:6)對未知類別樣品進(jìn)行判別:8.3判別分析分類的具體應(yīng)用8.3判別分析分類的具體應(yīng)用8.3判別分析分類的具體應(yīng)用例8.4對全國30個省、直轄市、自治區(qū)于1994年影響各地區(qū)經(jīng)濟增長差異的制度變量:x1為經(jīng)濟增長率,x2為非國有化水平,x3開放度,x3市場化程度,依據(jù)表8-3中數(shù)據(jù)作貝葉斯判別分析。8.4使用ClassificationLearnerApp實現(xiàn)分類例8.5本節(jié)使用Fisher’siris數(shù)據(jù)來展示ClassificationLearnerApp的使用情況。步驟1從Matlab中導(dǎo)入fisheriris.csv格式數(shù)據(jù):8.4使用ClassificationLearnerApp實現(xiàn)分類步驟2在“應(yīng)用程序”選項卡上的“機器學(xué)習(xí)”組中,單擊“ClassificationLeamer”按鈕,如圖8-17所示。8.4使用ClassificationLearnerApp實現(xiàn)分類步驟3在ClassificationLeamer中單擊按鈕,從工作空間列表中選擇可fishertable的表,如圖8-18所示。8.4使用ClassificationLearnerApp實現(xiàn)分類8.4使用ClassificationLearnerApp實現(xiàn)分類步驟4接受默認(rèn)驗證方案并繼續(xù),單擊“StartSession”按鈕。8.4使用ClassificationLearnerApp實現(xiàn)分類步驟5使用散點圖來研究哪些變量對預(yù)測響應(yīng)很有用。步驟6要創(chuàng)建分類樹模型,應(yīng)在“ModelType”選項卡的“模型類型”部分中,單擊向下箭頭以展開庫,然后單擊“CoarseTree”按鈕,再單擊“Train”按鈕,如圖8-21所示。8.4使用ClassificationLearnerApp實現(xiàn)分類步驟7訓(xùn)練不同的模型進(jìn)行比較。單擊“MediumTree”按鈕,然后單擊“Train”按鈕。步驟8在“ClassificationLearner”選項卡上的“Features”組中,單擊“FeatureSelection(特征選擇)”按鈕。步驟9訓(xùn)練另一個模型,僅包括花瓣測量。步驟10要檢查每個類中預(yù)測的準(zhǔn)確性,應(yīng)在“ClassificationLeamer”選項卡的“Plots”組中,單擊“ConfusionMatrix(混淆矩陣)”按鈕。8.4使用ClassificationLearnerApp實現(xiàn)分類8.4使用ClassificationLearnerApp實現(xiàn)分類步驟11比較“History”列表中每個模型的混淆矩陣。步驟12要將經(jīng)過最佳訓(xùn)練的模型導(dǎo)出到工作區(qū),可在“ClassificationLearner”選項卡上的“Export”組中單擊“ExportModel”按鈕(見圖8-24畫圈部分)。步驟13要顯示決策樹(見圖8-26)模型,可輸入:view(trainedModel.Classification-Tree,'Mode','graph')。步驟14可以使用導(dǎo)出的分類器對新數(shù)據(jù)進(jìn)行預(yù)測。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度2025版木材行業(yè)標(biāo)準(zhǔn)制定合作合同2篇
- 福建省泉州市南安市2024-2025學(xué)年八年級上學(xué)期期末英語試題(無答案)
- 創(chuàng)新創(chuàng)業(yè)-職業(yè)核心能力課件
- 絲印精加工在微型電子設(shè)備制造領(lǐng)域的應(yīng)用考核試卷
- 二零二五年度墓地陵園土地租賃與使用權(quán)轉(zhuǎn)讓合同4篇
- 母嬰行業(yè)2025年度母嬰用品環(huán)保認(rèn)證服務(wù)合同2篇
- 二零二五版鋼材貨物流動銀行托管運輸合同3篇
- 二零二五年度木制品生產(chǎn)與銷售承包合同3篇
- 2025年公司內(nèi)部競業(yè)保密協(xié)議
- 2025年太陽能光伏電站智能監(jiān)控工程施工合同
- 2024年高純氮化鋁粉體項目可行性分析報告
- 安檢人員培訓(xùn)
- 山東省濰坊市2024-2025學(xué)年高三上學(xué)期1月期末 英語試題
- 危險性較大分部分項工程及施工現(xiàn)場易發(fā)生重大事故的部位、環(huán)節(jié)的預(yù)防監(jiān)控措施
- 《榜樣9》觀后感心得體會四
- 2023事業(yè)單位筆試《公共基礎(chǔ)知識》備考題庫(含答案)
- 化學(xué)-廣東省廣州市2024-2025學(xué)年高一上學(xué)期期末檢測卷(一)試題和答案
- 2025四川中煙招聘高頻重點提升(共500題)附帶答案詳解
- EHS工程師招聘筆試題與參考答案(某大型央企)2024年
- 營銷策劃 -麗亭酒店品牌年度傳播規(guī)劃方案
- 2025年中國蛋糕行業(yè)市場規(guī)模及發(fā)展前景研究報告(智研咨詢發(fā)布)
評論
0/150
提交評論