第5章-判別分析_第1頁
第5章-判別分析_第2頁
第5章-判別分析_第3頁
第5章-判別分析_第4頁
第5章-判別分析_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第五章判別分析5.1判別分析的概念

5.2距離判別法

5.3費歇爾判別法

5.4貝葉斯判別法

5.5逐步判別法

5.6實例分析

判別分析5.1判別分析的概念

在生產(chǎn)、科研和日常生活中,我們經(jīng)常需要根據(jù)觀測到的數(shù)據(jù)資料,對所研究的對象進行判別分類,即是根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個新的樣品歸屬于哪一類。例如某醫(yī)院有部分患有肺炎、肝炎、冠心病、高血壓、糖尿病等病人的資料,記錄了每個患者若干癥狀的指標(biāo)數(shù)據(jù),現(xiàn)在想利用現(xiàn)有的這些資料數(shù)據(jù)找出一種方法,使對于一個新的病人,當(dāng)測得這些癥狀指標(biāo)數(shù)據(jù)時,能夠判斷其患有哪一種疾病。在經(jīng)濟學(xué)中,根據(jù)人均國民收入、人均工農(nóng)業(yè)總產(chǎn)值、人均消費水平等多項指標(biāo)來判斷一個國家所處的經(jīng)濟發(fā)展階段。在氣象預(yù)報中,根據(jù)已有的氣象資料(氣溫、氣壓、濕度等)來判斷明天、后天是陰天還是晴天,是有雨還是無雨。在地質(zhì)學(xué)中根據(jù)以往對礦物勘探資料(礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分)的分析,判斷某一礦石把他應(yīng)歸于哪一類礦石。總之,在實際問題中需要判別的問題幾乎無處不在。判別分析與聚類分析不同。判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后對未知類型的樣品進行分類。例如,我們有了患胃炎的病人和健康人的一些化驗指標(biāo),就可以從這些化驗指標(biāo)發(fā)現(xiàn)兩類人的區(qū)別。把這種區(qū)別表示為一個判別公式,然后對懷疑患胃炎的人就可以根據(jù)其化驗指標(biāo)用判別公式診斷。對于聚類分析來說,一批給定樣品要劃分的類型事先并不知道,正需要通過聚類分析來給以確定類型。正因為如此,判別分析與聚類分析往往要結(jié)合起來使用。用數(shù)學(xué)的語言來說,判別問題可以表述為:對于n個樣品,每個樣品有p個指標(biāo),已知每個樣品屬于某一k類別(總體)G1,G2,…,Gk,對于每類別其分布函數(shù)分別為f1(y),f2(y),…,fk(y),對于一個給定樣品y,我們要判斷出這個樣本來自哪個總體。判別分析的主要問題就是如何尋找最佳的判別函數(shù)和建立判別規(guī)則。研究判別分析的方法很多,根據(jù)不同的研究對象,判別分析方法有不同的分類:1)按判別的組數(shù)來分,有兩組判別分析和多組判別分析2)按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別分析和非線性判別分析3)按判別對所處理的變量方法不同有逐步判別分析、序貫判別分析。4)按判別準(zhǔn)則來分,有馬氏距離最小準(zhǔn)則、費歇爾判別準(zhǔn)則、貝葉斯判別準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則等。聚類分析數(shù)據(jù)格式k判別分析數(shù)據(jù)格式第二節(jié)距離判別法

距離判別法就是根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心即分組(類)的均值,判別準(zhǔn)則是對任給的一次觀測,若它與第i類的重心距離最近,就認(rèn)為它來自第i類。距離判別法對各類(或總體)的分布,并無特別的要求。1、兩個總體的距離判別法2、多個總體的距離判別法x1x2…xp……………………均值…x1x2…xp……………………均值…總體的觀測數(shù)據(jù)

我們看到用距離判別所得到的準(zhǔn)則是比較合理的。但從下圖又可以看出,用這個方法也會錯判。如X來自G1,但卻落入D2,被判為屬于G2,錯判的概率為圖中陰影的面積,記為P(2/1),類似有P(1/2),顯然例5.1某地區(qū)經(jīng)勘探證明,A盆地是一個鉀鹽礦區(qū),B盆地是一個鈉鹽礦區(qū)(不含鉀),其它盆地是否含鉀鹽有待作出判斷。今從A和B兩盆地各抽取5個鹽泉樣品;從其它盆地抽取8個鹽泉樣品,化驗其4個指標(biāo),具體數(shù)據(jù)見表5.3,試對其它盆地抽取的8個待判鹽泉樣品進行判別是否為含鉀性礦泉。鹽泉類別序號X1X2X3X4類別號含鉀鹽泉(A盆地)113.852.797.8049.60A222.314.6712.3147.80A328.824.6316.1862.15A415.293.547.5043.20A528.794.9016.1258.10A含鈉鹽泉(B盆地)62.181.061.2220.60B73.850.804.0647.10B811.400.103.502.10B93.662.402.1415.10B1012.100.015.681.80B待判鹽泉18.853.385.1726.10228.602.401.20127.00320.706.707.6030.2047.902.404.3033.2053.193.201.439.90612.405.104.4324.60716.803.402.3131.30815.002.705.0264.00解:把A盆地和B盆地可作兩個不同的總體,并假設(shè)兩個總體協(xié)方差陣相等。兩類總體中各有5個樣品,,另有8個待判樣品。首先進行假設(shè)檢驗。檢驗假設(shè)H0:由第3章假設(shè)檢驗可知,F(xiàn)統(tǒng)計量為,其中:利用SPSS軟件進行計算。由樣本值得F統(tǒng)計量為14.4644,對于給定的顯著水平α=0.01,查表得臨界值=11.4,由于,則拒絕H0,這說明A盆地和B盆地的鹽泉特征有顯著性的差異,因此進行判別分析是有意義的。下面進行判別分析。計算A盆地和B盆地的鹽泉特征的均值為=(21.812,4.106,11.982,52.17)T=(6.638,0.874,3.32,17.34)T;兩組間平方距離(即馬氏距離)為37.029得線性判別函數(shù)

對已知類別的樣品進行回判,回判結(jié)果見表5.4樣品序號W(X)原類號回判組別16.499332AA212.58205AA320.50165AA413.65669AA518.79822AA6-18.8952BB7-16.9721BB8-11.2342BB9-19.491BB10-27.1437BB表5.4已知類別的樣品回判結(jié)果回判結(jié)果給出對來自于A盆地和B盆地的10個樣品都判對了。樣品序號W(X)判別類別1-9.7919B2188.0569A339.11198A4-4.80197B5-16.8409B617.80348A756.31679A845.99197A下面對8個待判樣品進行判別分類,分類結(jié)果見下表待判樣品判別分類結(jié)果即第2、3、6、7、8五個鹽泉為含鉀鹽泉,其余三個為不含鉀鹽泉,即含鈉鹽泉。2、多個總體的距離判別法x1x2…xp……………………均值…x1x2…xp……………………均值…G1總體Gk總體第三節(jié)費歇爾判別法1、費歇爾判別原理

費歇爾(Fisher)判別方法是(1936)歷史上最早提出的判別方法之一,也叫線性判別法。它的基本思想是通過將多維數(shù)據(jù)投影到某一方向上,使得投影后類與類之間盡可能的分開,然后再選擇合適的判別準(zhǔn)則,將待判的樣本進行分類判別。而衡量類與類之間是否分開的方法是借助于一元方差分析的思想,利用方差分析的思想來導(dǎo)出判別函數(shù)。費歇爾判別方法就是將各組樣本均值投影到某條直線上,得到各組樣本均值在該直線的投影坐標(biāo),投影坐標(biāo)值距離越遠越容易判斷待判樣本屬于哪個組。因此,費歇爾判別方法就是要找一個由p個變量組成的線性函數(shù),使得各類內(nèi)點的函數(shù)值盡可能接近,而不同類間的函數(shù)值盡可能的遠離。圖5.2表示的是2維空間中的點投影到某個一維空間,即一條直線上,然后再對其進行判別,投影到不同的直線上,判別效果一般是不同的。投影坐標(biāo)值距離越遠越容易判斷待判樣本屬于哪個組。ab圖5.2坐標(biāo)投影2、費歇爾判別方法設(shè)有k個總體G1,G2,…,Gk,每個總體中含有ni個樣品,每個樣品觀測p個指標(biāo),假定所建立的判別函數(shù)為.其中c表示p維空間的一個方向,如果按這個方向做一條直線,表示向量x在這條直線上投影坐標(biāo)

將屬于不同總體的樣品觀測值代入判別函數(shù)式,則得:

每個總體投影后的數(shù)據(jù)均為一元數(shù)據(jù),對這k組數(shù)據(jù)進行一元方差分析,其組間平方和為其中:和分別為總體Gi的樣本均值和總樣本均值,并記A為組間離差陣:合并的組內(nèi)平方和為其中合并的組內(nèi)離差陣為因此,若k個總體的均值有顯著性差異,則比值應(yīng)充分大。三、判別的步驟1、由各組樣本資料,計算各組樣本均值2、計算離差矩陣A3、計算各組樣本離差平方和E4、計算矩陣E-1A的前m個特征向量5、構(gòu)造判別函數(shù)Yl(x)。6、判斷值得注意的是:參與構(gòu)造判別式的樣品個數(shù)不宜太少,否則會影響判別式的優(yōu)良性;其次判別式選用的指標(biāo)不宜過多,指標(biāo)過多不僅使用不方便,而且影響預(yù)報的穩(wěn)定性。所以建立判別式之前應(yīng)仔細挑選出幾個對分類特別有關(guān)系的指標(biāo),要使兩類平均值之間的差異盡量大一些。例5.2費歇爾于1936年發(fā)表的鳶尾花數(shù)據(jù)被廣泛地作為判別分析的例子。數(shù)據(jù)是對3種鳶尾花:剛毛鳶尾花(第一組)、變色鳶尾花(第二組)和弗吉尼亞鳶尾花(第三組)各抽取50個樣本,測量其花萼長(x1)、花萼寬(x2)、花瓣長(x3)、花瓣寬(x4),單位為mm,數(shù)據(jù)從略。解:由于計算的正特征根個數(shù)可求得兩個正特征根相應(yīng)的標(biāo)準(zhǔn)化特征向量則判別式為:判別式的組均值為判別結(jié)果如表5.9所示判別為真實組IIIIIII5000II0482III0149由表5.9可知,判別效果還是可以的。從距離判別法來看,它存在以下不足:(1)判別方法與總體各自出現(xiàn)的概率的大小無關(guān);(2)判別方法與錯判之后所造成的損失無關(guān)。從費歇爾判別法來看,它隨著總體個數(shù)的增加,建立的判別函數(shù)式個數(shù)也增加,因而計算起來比較麻煩。如果對多個總體的判別考慮的不是建立判別式,而是計算新給樣品屬于各總體的條件概率P(l/x),比較這k個概率的大小,然后將樣品判歸為來自概率最大的總體,這種判別方法稱為貝葉斯判別方法。第四節(jié)貝葉斯判別分析1、基本思想Bayes判別法的基本思想是假定對所研究的對象已有一定的認(rèn)識,常用先驗概率來描述這種認(rèn)識;然后抽取一個樣本,用樣本來修正已有的認(rèn)識(先驗概率分布),得到后驗概率分布。各種統(tǒng)計推斷都是通過后驗概率分布來進行。2、多元正態(tài)總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態(tài)分布,下面給出p元正態(tài)總體的Bayes判別法。(1)判別函數(shù)的導(dǎo)出由前面的敘述可知,使用Bayes判別法作判別分析,首先要知道待判總體的先驗概率和密度函數(shù)。對于先驗概率,一般用樣品的頻率來代替。或者令先驗概率相等,這時可以認(rèn)為先驗概率不起作用。(2)假設(shè)協(xié)差陣相等在實際中,若與均未知時,可以用估計量樣本均值向量和合并后的樣本協(xié)方差陣來替代。合并后的樣本協(xié)方差陣為(3)計算后驗概率例5.3(胃癌的鑒別)為了判別病人是胃癌、還是萎縮性胃炎?,F(xiàn)對患有胃癌、萎縮性胃炎和非胃炎患者中個隨機抽取5個病人,每人化驗4項生化指標(biāo):血清銅蛋白(X1)、藍色反映(X2)、尿吲哚乙酸(X3)和中性硫化物(X4),具體數(shù)據(jù)見表5.10。試用貝葉斯判別分析,對這15個樣品進行判別歸類。類別序號血清銅蛋白藍色反應(yīng)尿吲哚乙酸中性硫化物胃癌患者胃癌患者12281342011224513410403200167122741701507851001672014非胃癌患者萎縮性胃炎患者622512571471301006128150117769120133102610160100510非胃炎患者1118511551912170125641316514253141351082121510011772解由于三組判別函數(shù)分別為:判別原則:樣品屬于判別函數(shù)值最大的一組。回判結(jié)果如表5.11所示:類別序號原分類Actual回判組別后驗概率胃癌患者胃癌患者1110.9982110.9773110.9994130.5785110.999非胃癌患者萎縮性胃炎患者6220.4577220.7008230.5189220.66210220.616非胃炎患者11320.61612330.68113330.83914330.58715330.583誤判的樣本是4、8、11,回判后分別屬于3、3、2組,即非胃炎患者、非胃炎患者、萎縮性胃炎患者。第五節(jié)逐步判別分析前面討論的判別方法都是用已給的全部變量來建立判別函數(shù),但這些變量在判別式中所起的作用一般來說是不同的,也就是說各變量在判別式中的判別能力是不同的,有的可能起的作用大一些,有些可能作用很小,將起作用很小的變量保留在判別式中,不僅會增加計算量,有時還會干擾影響判別效果;如果將起重要作用的變量忽略了,這時作出的判別效果也一定不好。因此就存在一個變量選擇的問題,即從p個變量中挑選出對區(qū)分k個總體有顯著性判別能力的變量,來建立判別函數(shù),對k個總體進行判別歸類。判別分析的變量選擇方法很多,我們這里僅介紹逐步判別法。1、逐步判別原理逐步判別分析與逐步回歸法的基本思想類似,都是逐個引入變量,每次把一個判別能力最強的變量引入判別式,每引入一個新變量,對判別式的老變量逐個進行檢驗,如果其判別能力因新變量的引入而變得不顯著了(例如其作用被后引入的某一個變量的組合所代替),應(yīng)及時把它從判別式中剔除,直到判別式中沒有不重要的變量需要剔除,而判別式以外的變量也沒有重要的變量需要引入判別式時逐步篩選結(jié)束。這個篩選過程實質(zhì)就是作假設(shè)檢驗,通過檢驗找出顯著性變量,剔除不顯著性變量。這種通過逐步篩選變量使得建立的判別函數(shù)中僅保留判別能力顯著的變量的方法,就是逐步判別法。一個變量能否進入模型主要取決于協(xié)方差分析的F檢驗的顯著性水平。2、逐步判別法的檢驗統(tǒng)計量設(shè)有k個p維正態(tài)總體分別為,它們有相同的協(xié)方差陣。如果他們有差別也只能表現(xiàn)在均值向量上。今從k個正態(tài)總體中分別取個獨立樣本如下:第1個總體:第2個總體:第k個總體:今作條件假設(shè):如果接受了H0這個假設(shè),說明這k個總體的統(tǒng)計差異不顯著,在此基礎(chǔ)上建立的判別函數(shù)效果肯定不好,除非增加新變量。如果拒絕了這個假設(shè)H0,說明這個總體可以區(qū)分,建立的判別函數(shù)有意義,設(shè)每個,且未知.根據(jù)第3章的檢驗的似然比統(tǒng)計量為其中:是組間離差陣;因此值越小,表明相同總體間的差異越小,因此對于給定的顯著水平α,應(yīng)由分布確定臨界值,當(dāng)時,拒絕H0,否則接受H0。這里中的下標(biāo)是強調(diào)含有l(wèi)個變量。由于Wilks分布的數(shù)值表一般書上沒有,常常用下面的近似公式。Bartlett近似公式:統(tǒng)計量在H0成立的條件下。Rao近似公式:統(tǒng)計量在H0成立的條件下下面根據(jù)Rao近似公式給出引入變量與剔除變量的檢驗統(tǒng)計量(1)引入變量的檢驗統(tǒng)計量的構(gòu)造假定計算l步,并且變量已選入(L不一定等于l),今考察第L+1步添加一個變量的判別能力,此時將變量分為兩組,一組為已選的前l(fā)個變量,另一組僅有一個變量,此時l+1個變量的組內(nèi)離差陣和總離差陣仍分別記為由于同理于是有即其中:將上式代入Rao近似公式中得到引入變量的檢驗統(tǒng)計量:若,則變量的判別能力顯著,我們將判別能力顯著的變量中作用最大的變量(即使為最小的變量)作為入選變量;否則不能把該變量作為引入變量。需要說明的是,不管引入變量還是剔除變量,都需要對相應(yīng)的矩陣E和T作一次消去變換,比如說,不妨設(shè)第一個引入變量是x1,這時就要對E和T同時進行消去第一列的變換得到E(1)和T(1),接著考慮第二個變量,經(jīng)過檢驗認(rèn)為顯著的變量,不妨設(shè)為x2,這時就要對E(1)和T(1)同時進行消去第二列的變換得到E(2)和T(2),對剔除變量也是如此。(2)剔除變量的檢驗統(tǒng)計量的構(gòu)造考察對已入選變量xr的判別能力,可以設(shè)想已計算了L步,并引入了包括變量xr在內(nèi)的l個變量(L不一定等于l)。今考察擬在第L+1步剔除變量xr的判別能力,為了方便起見,可以假設(shè)xr是第L步引入的,也即L-1步引入了不包括xr在內(nèi)的l-1個變量。因此問題轉(zhuǎn)化為考查引入變量xr(其中l(wèi)-1個變量已給定時)的判別能力,此時有對相應(yīng)地E(l)和T(l),再作一次消去變換有:于是從而得到剔除變量的檢驗統(tǒng)計量:在已入選的所有變量中,找出具有最大Ar的(即使最小)的一個變量進行檢驗。若,則認(rèn)為xr的判別能力不顯著,可以把它從判別式中剔除,否則保留變量xr。

2、逐步判別法的基本步驟(1)準(zhǔn)備工作1)計算各總體(類)的樣本均值和總體均值。2)計算樣本的合并組內(nèi)離差陣E和總離差陣T。3)規(guī)定顯著性水平α。(2)逐步篩選變量假設(shè)已計算了L步,在判別式中選入了l個變量,不妨設(shè)已選入,則第L+1步計算內(nèi)容如下:1)計算全部變量的判別能力對未入選變量xi計算對已入選變量xj計算,2)在已入選變量中考慮剔除可能存在的最不顯著變量,取最大的Aj(即最小的)。假設(shè)。作F檢驗:

若,則認(rèn)為xr的判別能力不顯著,可以把它從判別式中剔除,然后對E(l),T(l),作消去變換;若,則從未入選變量中選出最顯著變量,即要找出最小的Ai(即最大的),假設(shè)。作F檢驗:若,則變量xr的判別能力顯著,我們將判別能力顯著的變量中作用最大的變量(即使Ar為最小的變量)作為入選變量,然后對E(l),T(l),作消去變換。在第L+1步計算結(jié)束后,再重復(fù)上面的1)、2)直至不能剔除又不能引入新變量時,逐步計算結(jié)束。(3)建立判別式,對樣品判別分類經(jīng)過第2步選出重要變量后,可用各種方法建立判別函數(shù)和判別準(zhǔn)則。這里使用Bayes判別法建立判別式,假設(shè)共計算L+1步,最綜選出l個變量,設(shè)判別式為

將每個樣品分別代入k個判別式,若,則判x屬于第h總體。需要指出的是:在逐步計算中,每步都是先考慮剔除,然后考慮引入,但開始幾步一般是先考慮引入,而后才開始有剔除,在實際問題中,引入后又剔除的情況不多,而剔除后再引入的情況更少見。另一方面由于算法中用逐步判別選出的l個變量,一般不是所有l(wèi)個變量組合中的最優(yōu)組合(因為每次引入都是在保留已引入變量基礎(chǔ)上引入新變量)。但在l不大時,往往是最優(yōu)組合。5.6實例分析實例5.1為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知樣本單位分為3組,選擇判別變量為6個:X1:0歲組死亡率,X2:1歲組死亡率,X3:10歲組死亡率,X4:55歲組死亡率,X5:80歲組死亡率,X6:平均預(yù)期壽命,原始數(shù)據(jù)如表5.12所示。建立判別函數(shù),判定另外4個地區(qū)屬于何組。試用Fisher判別分析法和Bayes判別分析法分別計算。x1x2x3x4x5類別134.167.441.127.8795.1969.31233.066.341.086.7794.0869.71336.269.241.048.9797.368.81440.1713.451.4313.88101.266.21550.0623.032.8323.74112.5263.31633.246.241.1822.9160.0165.42732.224.221.0620.7124.768.72841.1510.082.3232.84172.0665.852953.0425.744.0634.87152.0363.521038.0311.26.0727.84146.3266.821134.035.410.075.290.169.531232.113.020.093.1485.1570.831344.1215.021.0815.15103.1264.831454.1725.032.1125.15110.1463.731528.072.010.073.0281.2268.33待判50.226.661.0822.54170.665.2.待判34.647.331.117.7895.1669.3.待判33.426.221.1222.95160.3168.3.待判44.0215.361.0716.45

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論