應用多元分析之第五章判別分析_第1頁
應用多元分析之第五章判別分析_第2頁
應用多元分析之第五章判別分析_第3頁
應用多元分析之第五章判別分析_第4頁
應用多元分析之第五章判別分析_第5頁
已閱讀5頁,還剩91頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第五章判別分析

discriminantanalysis§5.1引言§5.2距離判別§5.3貝葉斯判別§5.4費希爾判別§5.1引言在科學研究和日常生活中,我們經(jīng)常會遇到“根據(jù)觀測到的數(shù)據(jù)來對研究對象進行分類的問題”。分析的目標主要有:(1)將研究對象分為兩個或更多的類——聚類分析。(2)將某個樣品判歸某一類型——判別分析§5.1引言(2)可以用“分類”或“分配”來描述目標1目標2繼續(xù)使用R.A.Fisher引進的概念“判別”。為了達到判別的目的,需要用圖形(三維或更低維的)方法或代數(shù)方法描述來自若干個已知總體的對象(觀察值)的差異性。我們試圖找到這樣的一些“判別量”,根據(jù)這些判別量的數(shù)值能盡可能地將這些總體分離。因此,對目標2而言更具描述性的詞應是“分離”§5.1引言(3)判別分析的概念

判別分析是根據(jù)新樣品的p維指標值對該樣品的類(組)別歸屬進行判別的一種多元統(tǒng)計方法。需要判別其歸屬的新樣品,稱為“待判樣品”。按數(shù)學模型線性判別非線性判別按判別的組數(shù)兩組判別多組判別按處理變量方法序貫判別逐步判別距離判別貝葉斯判別費歇爾判別按判別方法判別分析的分類§5.1引言(4)§5.1引言(5)判別分析的常用判別準則馬氏距離最小準則——距離判別Fisher準則——Fisher判別最大概率準則——貝葉斯判別

最大似然準則平均損失最小準則§5.1引言(6)判別分析與聚類分析的不同之處

判別分析是在已知研究對象分成了若干類型(or組別),并已取得各種類型的一批樣品觀測數(shù)據(jù),在此基礎上根據(jù)某些規(guī)則建立判別式(判別量),然后對未知類型的樣品進行判別分類。

判別分析產(chǎn)生于20世紀30年代。近年來,在自然科學、社會學及經(jīng)濟管理學科中都有廣泛的應用。

判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結出客觀事物分類的規(guī)律性,建立判別公式和判別準則。然后,當遇到新的樣品時,只要根據(jù)總結出來的判別公式和判別準則,就能判別該樣品所屬的類別。

§5.1引言(7)例如:中小企業(yè)的破產(chǎn)模型為了研究中小企業(yè)的破產(chǎn)模型,選定4個經(jīng)濟指標:

X1:總資產(chǎn)收益率(現(xiàn)金收益/總資產(chǎn))

X2:收益性指標(純收入/總財產(chǎn))

X3:短期支付能力(流動資產(chǎn)/流動負債)

X4:生產(chǎn)效率性指標(流動資產(chǎn)/純銷售額)對17個破產(chǎn)企業(yè)(1類)和21個正常運行企業(yè)(2類)進行了調(diào)查,得如下資料:總資產(chǎn)收益率收益性指標短期支付能力生產(chǎn)效率指標類別-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判企業(yè)序號判別類型判別函數(shù)值判別為1的概率判別為2的概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988建立判別模型Bayes概率二、判別分析方法距離判別貝葉斯判別典型(Fisher)判別逐步判別-選擇判別變量

§5.2距離判別一、距離判別法的基本思想

距離判別的基本思想是計算樣品到第i類總體重心(平均數(shù))的距離,哪個距離最小就將它判歸哪個總體,或者說,待判樣品到哪一類重心的距離最短就將它判歸該類!所以,我們首先考慮的是是否能夠構造一個恰當?shù)木嚯x函數(shù),通過樣品與某類別之間距離的大小,判別其所屬類別。

設是從期望μ=和方差陣Σ=的總體G抽得的兩個觀測值,則稱

(2)樣品X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:

(1)X與Y之間的Mahalanobis距離定義為

二、馬氏(Malanobis)距離馬氏距離和歐氏距離之間的比較

馬氏距離歐氏距離馬氏距離的特點:2、歐氏距離是馬氏距離的特例—標準化變量1、馬氏距離不受計量單位的影響變量標準化歐氏距離馬氏距離3、若變量之間是相互無關的,則協(xié)方差矩陣為對角矩陣統(tǒng)計距離加權的歐氏距離三、距離判別方法(一)兩總體距離判別(二)多總體距離判別

(一)兩個總體的距離判別法

首先考慮兩個總體的情況。設有兩個協(xié)差陣相同的p維正態(tài)總體G1和G2,對給定的樣品x,判別樣品X可能是來自哪一個總體?一個最直觀的想法是計算x到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則。1.方差相等則前面的判別法則表示為

當和已知時,

是一個已知的p維向量,W(x)是x的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進行判別分析非常直觀,使用起來最方便,在實際中的應用也最廣泛。

例在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)(G1)和一般企業(yè)(G2)??己似髽I(yè)經(jīng)營狀況的指標有:

x1:資金利潤率=利潤總額/資金占用總額

x2:勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)

x3:產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值

三個指標的均值向量和協(xié)方差矩陣見下頁?,F(xiàn)有二個待判企業(yè)的觀測值分別為:(7.8,39.1,9.6)′和(8.1,34.2,6.9)′,問這兩個企業(yè)應該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41

勞動生產(chǎn)率40.729.840.2454.5811.67

產(chǎn)品凈值率10.76.221.4111.677.90建立線性判別函數(shù):利用線性判別函數(shù)對待判樣品進行判別:根據(jù)判別規(guī)則將第一個待判樣品判歸G1。根據(jù)判別規(guī)則將第二個待判樣品判歸G2。2.當總體的協(xié)方差已知,且不相等判別規(guī)則:

隨著計算機計算能力的增強和計算機的普及,距離判別法的判別函數(shù)也在逐步改進,一種等價的距離判別為:設有個K總體,分別有均值向量μi(i=1,2,…,k)和協(xié)方差陣Σi=Σ,各總體出現(xiàn)的先驗概率相等。又設x是一個待判樣品。則與類Gi的馬氏距離為(可以構造判別函數(shù)):(二)多總體的距離判別法

上式中的第一項x’Σ-1x與i無關,可以舍去,得一個等價的函數(shù):

將上式中提-2,得則距離判別法的判別函數(shù)為:注:這與前面所提出的距離判別是等價的。判別規(guī)則為判別函數(shù)四、抽取樣本估計有關未知參數(shù)法1.兩總體判別2.多總體判別備注:例子:計算出樣本均值向量、協(xié)方差陣及其逆矩陣計算兩總體的判別函數(shù)見下頁Constant-4.38162-6.75397x14.035195.29456x2-18.38748-10.01991x31.615883.30560x412.193769.94926選擇最大值選擇最大的值五、對判別效果做出檢驗

1、錯判概率

由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。兩總體分別服從

其判別函數(shù)為正確判斷的概率:從上圖中可以看出,兩個正態(tài)總體越是分開,兩個誤判概率就越小,此時的判別效果也就越佳。當兩個正態(tài)總體很接近時,兩個誤判概率都將很大,這時作判別分析就沒有什么實際意義。錯判概率圖示:2、交叉核實交叉核實法的思想是:為了判斷第i個觀測的判別正確與否,用刪除第i個觀測的樣本數(shù)據(jù)集計算出判別函數(shù),然后用此判別函數(shù)來判別第i個觀測。對每一個觀測都這樣進行。交叉核實檢查比較嚴格,能說明所選擇判別方法的有效性。交叉核實可以檢驗所用方法是否穩(wěn)定。交叉核實可以解決樣本容量不大的情形,改變樣本,來檢驗方法是否穩(wěn)定的問題。

判類原類合計界定組之間是否已過于接近我們可對假設進行檢驗,若檢驗不拒絕原假設,則說明兩總體均值之間無顯著差異,此時作判別分析一般會是徒勞的;若檢驗拒絕,則兩總體均值之間雖然存在顯著差異,但這種差異對進行有效的判別分析未必足夠大(即此時作判別分析未必有實際意義),故此時還應看誤判概率是否超過了一個合理的水平。加權錯判率:

設qi是第i類的先驗概率,pi是第i類的錯判概率,則加權錯判率為簡單錯判率:

距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當參數(shù)未知時,就用樣本的均值和協(xié)方差矩陣來估計。因此,距離判別方法簡單實用,但沒有考慮到每個總體出現(xiàn)的機會大小,即先驗概率,沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。本節(jié)思考題1.由于計算馬氏距離需要已知總體均值向量和協(xié)方差陣,而總體參數(shù)又往往未知。請問該如何處理?2.請問能不能利用歐氏距離進行距離判別?為什么?下面學習第五章的第三節(jié)……

辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是要做好事,偶爾也會做一件壞事,一般來說,好人做好事的概率為0.9,壞人做好事的概率為0.2。某一天,小王做了一件好事,小王是好人的概率有多大?你現(xiàn)在把小王判為何種人?§5.3貝葉斯判別法一、最大后驗概率準則

距離判別簡單直觀,很實用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。一個好的判別方法,既要考慮到各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優(yōu)點,其判別效果更加理想,應用也更廣泛。貝葉斯公式是一個我們熟知的公式

設有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。即當樣本發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:則判給。在正態(tài)的假定下,為正態(tài)分布的密度函數(shù)。例5-3-1設有G1、G2、G3三組,欲判某一樣品x0屬于何組。已知:現(xiàn)根據(jù)貝葉斯判別法:計算x0屬于各組的后驗概率,判別其屬于后驗概率最大的一組。

則判給。

上式兩邊取對數(shù)并去掉與i無關的項,則等價的判別函數(shù)為:

特別,總體服從正態(tài)分布的情形問題轉(zhuǎn)化為若,則判。當協(xié)方差陣相等

定義:則判別函數(shù)退化為令

問題轉(zhuǎn)化為若,則判。

完全成為距離判別法。令有問題轉(zhuǎn)化為若,則判。當先驗概率相等,二、最小平均誤判代價準則

設有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。又D1,D2,┅,Dk是R(p)的一個分劃,判別法則為:當樣品X落入Di時,則判

關鍵的問題是尋找D1,D2,┅,Dk分劃,這個分劃應該使平均錯判率最小。

【定義】(平均錯判損失)

用P(j/i)表示將來自總體Gi的樣品錯判到總體Gj的條件概率。

C(j/i)表示相應錯判所造成的損失。

則平均錯判損失為:

使ECM最小的分劃,是Bayes判別分析的解。

【定理】若總體G1,G2,,Gk的先驗概率為且相應的密度函數(shù)為,損失為則劃分的Bayes解為其中

含義是:當抽取了一個未知總體的樣品值x,要判別它屬于那個總體,只要先計算出k個按先驗概率加權的誤判平均損失為了直觀說明,作為例子,我們討論k=2的情形。

然后比較其大小,選取其中最小的,則判定樣品屬于該總體。

由此可見,要使ECM最小,被積函數(shù)必須在D1是負數(shù),則有分劃

Bayes判別準則為:特別地此時,就與標準Bayes判別等價了!例5-3-4設有G1、G2、G3三組,欲判某一樣品x0屬于何組。已知:現(xiàn)采用最小ECM準則進行判斷。真實\判為G1G2G3G1C(1/1)=0C(2/1)=10C(3/1)=200G2C(1/2)=20C(2/2)=0C(3/2)=100G3C(1/3)=60C(2/3)=50C(3/3)=0例5-3-4【解】首先計算Sqjfj(x0)C(i/j);然后選擇其中最小者,就將待判樣品判歸該組。min

下表是某金融機構客戶的個人資料,這些資料對一個金融機構來說,對于客戶信用度的了解至關重要,因為利用這些資料,可以挖掘出許多的信息,建立客戶的信用度評價體系。所選變量為:

x1:月收入

x2:月生活費支出

x3:虛擬變量,住房的所有權,自己的為“1”,租用的“0”x4:目前工作的年限

x5:前一個工作的年限

x6:目前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論