經(jīng)典分類評價方法1-混淆矩陣(共8頁)_第1頁
經(jīng)典分類評價方法1-混淆矩陣(共8頁)_第2頁
經(jīng)典分類評價方法1-混淆矩陣(共8頁)_第3頁
經(jīng)典分類評價方法1-混淆矩陣(共8頁)_第4頁
經(jīng)典分類評價方法1-混淆矩陣(共8頁)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上分類(預測)評價指標 : 混淆矩陣,ROC,AUC一、混淆矩陣(confusion matrix)混淆矩陣(confusion matrix)刻畫一個分類器的分類準確程度?!盎煜币辉~也形象地表達了分類器面對多個分類時可能造成的混淆?;煜仃囀浅薘OC曲線和AUC之外的另一個判斷分類好壞程度的方法。二元分類的混淆矩陣形式如下:  實際值  樣本總數(shù) NPositiveNegative預測值 PositiveTP 11實際是Positive,預測成Positive的樣本數(shù),又叫true positive FP 01實際

2、是Negative,預測成Positive的樣本數(shù),又叫false positiveNegativeFN 10實際是Positive,預測成Negative的樣本數(shù),又叫false negativeTN 00實際是Negative,預測成Negative的樣本數(shù),又叫true negative  實際Positive樣本數(shù)=TP+FN實際Negative樣本數(shù) N = FP + TN其中,實際值也稱為target, reference, actural。相應地,預測值為model, prediction, predicted。 此處二元分類標識為Positive和Negat

3、ive,有時也標識為Normal/Abnormal, Accept/Reject或更簡單的Yes/No, or 1/0。下面是一個二元分類混淆矩陣的實例。一共有30張動物圖片,其中13只貓,17只狗,一個二元分類器識別結(jié)果如下表。這就是一個簡單的混淆矩陣。  實際  CatDog預測結(jié)果 Cat102Dog315有TP,F(xiàn)P,F(xiàn)N,TN后,可構(gòu)造出很多指標,從不同角度反映分類器的分類準確程度,常用的有,1)正確率(Accuracy):正確分類數(shù)/樣本總數(shù),描述了分類器總體分類準確程度。 accuracy = (TP+TN)/N, N=TP+FP

4、+FN+TN;上例中,accuracy = (10+15)/30 = 0.832) 真陽性率(True Positive Rate): 如果一個實例類別是positive,分類器預測結(jié)果的類別也是positive的比例。這個指標也叫敏感度(sensitivity)或召回率(recall),描述了分類器對positive類別的敏感程度。TPR = TP/(TP+FN) ;上例中,TPR = 10 /(10+3)=0.703) 假陽性率(False Positive Rate):如果一個實例類別是negative,分類器預測結(jié)果的類別是positive的比例。這個指標也叫錯檢率(fallout)。

5、FPR = FP/(FP+TN) ; 上例中,F(xiàn)PR = 2/(2+15)=0.12混淆矩陣(Confusion Matrix)(二分類)ACC:分類模型總體判斷的準確率(包括所有class的總體準確率):1: PPV: 預測為1的準確率:陽性預測正確的次數(shù)/陽性預測的次數(shù)1: TPR: 真實為1的準確率:陽性預測正確的次數(shù)/陽性真實值出現(xiàn)的次數(shù)0: TNR: 真實為0的準確率:陰性預測正確的次數(shù)/陰性預測的次數(shù)0: NPV: 預測為0的準確率:陰性預測正確的次數(shù)/陰性真實值出現(xiàn)的次數(shù): 對于某個分類,綜合了Precision和Recall的一個判斷指標,F(xiàn)1-Score的值是從0到

6、1的,1是最好,0是最差: 另外一個綜合Precision和Recall的標準,F(xiàn)1-Score的變形舉個經(jīng)典的二分類例子:                      0:,      0: ,             如果是多分類的呢?舉一個三分類的例子:,     ,     因此,計算Specifici

7、ty,Recall,Precision等只是計算某一分類的特性,而Accuracy和F1-Score這些是判斷分類模型總體的標準。我們可以根據(jù)實際需要,得出不同的效果?;煜仃嚕ǘ喾诸悾?Confusion Matrix 混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式來表示。具體評價指標有總體精度、制圖精度、用戶精度等,這些精度指標從不同的側(cè)面反映了圖像分類的精度。 1  在人工智能中,混淆矩陣(confusion matrix)是可視化工具,特別用于,在一般叫做匹配矩陣。在圖像精度評價中,主要用于比較分類結(jié)果和實際測得值,可以把分類結(jié)果

8、的精度顯示在一個混淆矩陣里面?;煜仃囀峭ㄟ^將每個實測的位置和分類與分類圖像中的相應位置和分類相比較計算的。用于:模式分類、預測;性質(zhì):可視化(數(shù)據(jù)結(jié)果)工具, 混淆矩陣的每一列代表了預測類別 2  ,每一列的總數(shù)表示預測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實歸屬類別2  ,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實例的數(shù)目。每一列中的數(shù)值表示真實數(shù)據(jù)被預測為該類的數(shù)目:如下圖,第一行第一列中的43表示有43個實際歸屬第一類的實例被預測為第一類,同理,第二行第一列的2表示有2個實際歸屬為第二類的實例被錯誤預測為第一類。舉例(多分類): 如有150

9、個樣本數(shù)據(jù),這些數(shù)據(jù)分成3類,每類50個。分類結(jié)束后得到的混淆矩陣為: 專心-專注-專業(yè)預測類1類2類3實際類14352類22453類30149每一行之和為50,表示50個樣本,第一行說明類1的50個樣本有43個分類正確,5個錯分為類2,2個錯分為類3參考文獻:· 1.張安定遙感原理與應用題解:科學出版社,2016· 2. wikipedia2015-08-19引用日期2015-08-22Terminology and derivations from a confusion matrix資料來源:/wiki

10、/Confusion_matrixcondition positive (P)the number of real positive cases in the datacondition negative (N)the number of real negative cases in the datatrue positive (TP)eqv. with hittrue negative (TN)eqv. with correct rejectionfalse positive (FP)eqv. with , false negative (FN)eqv. with mis

11、s, , , , or displaystyle mathrm TPR =frac mathrm TP P=frac mathrm TP mathrm TP +mathrm FN  or  : displaystyle mathrm TNR =frac mathrm TN N=frac mathrm TN mathrm TN +mathrm FP  or  (PPV) : displaystyle mathrm PPV =frac mathrm TP mathrm TP +mathrm FP  

12、(NPV) : displaystyle mathrm NPV =frac mathrm TN mathrm TN +mathrm FN miss rate or  (FNR) : displaystyle mathrm FNR =frac mathrm FN P=frac mathrm FN mathrm FN +mathrm TP =1-mathrm TPR  or : displaystyle mathrm FPR =frac mathrm FP N=frac mathrm FP mathrm FP +mathrm TN =1-mathrm TNR

13、  (FDR) :displaystyle mathrm FDR =frac mathrm FP mathrm FP +mathrm TP =1-mathrm PPV  (FOR): FORdisplaystyle mathrm FOR =frac mathrm FN mathrm FN +mathrm TN =1-mathrm NPV FF (ACC) : displaystyle mathrm ACC =frac mathrm TP +mathrm TN P+N=frac mathrm TP +mathrm TN mathrm TP +mathrm TN +m

14、athrm FP +mathrm FN ACC = is the  of  and displaystyle F_1=2cdot frac mathrm PPV cdot mathrm TPR mathrm PPV +mathrm TPR =frac 2mathrm TP 2mathrm TP +mathrm FP +mathrm FN  (MCC)displaystyle mathrm MCC =frac mathrm TP times mathrm TN -mathrm FP times mathrm FN sqrt (mathr

15、m TP +mathrm FP )(mathrm TP +mathrm FN )(mathrm TN +mathrm FP )(mathrm TN +mathrm FN ) or Bookmaker Informedness (BM): displaystyle mathrm BM =mathrm TPR +mathrm TNR -1BM = TPR + TNR -1 Markedness (MK): displaystyle mathrm MK =mathrm PPV +mathrm NPV -1MK = PPV + NPV -1Sources: Fawcett (2006), P

16、owers (2011), and Ting (2011)   1.  Fawcett, Tom (2006).  (PDF). Pattern Recognition Letters. 27 (8): 861874. :.2.    Powers, David M W (2011).  (PDF). Journal of Machine Learning Technologies. 2 (1): 3763.3. &

17、#160;Ting, Kai Ming (2011). . Springer.  .4.  Stehman, Stephen V. (1997). "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 7789. :.二、ROC曲線 與 AUC 面積ROC(Receiver Operating Characteristic)

18、曲線和AUC常被用來評價一個二值分類器(binary classifier)的優(yōu)劣。ROC曲線需要提前說明的是,我們這里只討論二值分類器。對于分類器,或者說分類算法,評價指標主要有precision,recall,F(xiàn)-score,以及我們今天要討論的ROC和AUC。下圖是一個ROC曲線的示例。正如我們在這個ROC曲線的示例圖中看到的那樣,ROC曲線的橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)。上對ROC曲線的定義:In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論