版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
《醫(yī)藥信息處理與分析》第四章醫(yī)藥信息處理與分析案例中國工信出版集團(tuán)人民郵電出版社MedicalInformationProcessingandAnalysis晏峻峰占艷編著主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時間序列分析4.74.8
在醫(yī)療衛(wèi)生課題研究中,經(jīng)常遇到某個指標(biāo)受到多個變量影響的情況,例如血糖濃度的大小除了與年齡有關(guān)外,還受到飲食情況、體重、性別、家族史等多種因素的影響,此時就需要進(jìn)行多元線性回歸分析。
在數(shù)理統(tǒng)計中,變量之間的不確定關(guān)系稱為相關(guān)關(guān)系,回歸分析是一種研究變量之間相關(guān)關(guān)系的數(shù)量表示的方法,它可以分為線性回歸分析和非線性回歸分析。線性回歸分析主要有一元線性回歸分析和多元線性回歸分析,非線性回歸主要有曲線回歸分析和logistic回歸分析。4.1多元線性回歸分析
一元線性回歸分析是由一個主要影響因素作為自變量來解釋因變量的變化,在現(xiàn)實(shí)問題研究中,因變量的變化往往受幾個重要因素的影響,此時就需要用兩個或兩個以上的影響因素作為自變量來解釋因變量的變化,這就是多元回歸分析,也稱為多重回歸分析。
當(dāng)多個自變量與因變量之間是線性關(guān)系時,所進(jìn)行的回歸分析就是多元線性回歸分析。多元線性回歸分析是研究一個因變量與多個自變量之間線性依賴關(guān)系的統(tǒng)計方法,其目的是:分析原因變量對結(jié)果變量的作用大小;用已知的原因變量預(yù)測結(jié)果變量的變化;控制混雜因素,評價研究因素的獨(dú)立效應(yīng)。4.1.1多元線性回歸分析的基本思想
在式5-1中,除了b0之外的各項(xiàng)待定系數(shù)稱為偏回歸系數(shù)?;貧w方程中的各項(xiàng)系數(shù)可以用最小二乘法確定,偏回歸系數(shù)的假設(shè)檢驗(yàn)思想與一元線性回歸相似,不同之處在于:除了要對整個回歸方程進(jìn)行假設(shè)檢驗(yàn)之外,還要對每一個自變量進(jìn)行偏回歸顯著性檢驗(yàn)。如果不能得到顯著性結(jié)論,則應(yīng)該剔除此自變量后重新進(jìn)行多元線性回歸分析,直到最后所有的有顯著意義的自變量都進(jìn)入回歸方程。4.1.1多元線性回歸分析的基本思想
4.1.2多元線性回歸分析的求解過程2.Matlab實(shí)現(xiàn)在Matlab中可以使用regress函數(shù)來進(jìn)行多元線性回歸分析。調(diào)用格式:[b,bint,r,rint,stats]=regress(Y,X,alpha)參數(shù)說明:(1)Y是因變量數(shù)據(jù)向量,它是一個的列向量;(2)X是一個的矩陣,其第一列是全1向量,這一點(diǎn)對于回歸來說很重要,這一個全1列向量對應(yīng)回歸方程的常數(shù)項(xiàng),一般情況下需要人工造一個全1列向量。(3)alpha為顯著性水平(缺省時設(shè)定為0.05);4.1.2多元線性回歸分析的求解過程2.Matlab實(shí)現(xiàn)在Matlab中可以使用regress函數(shù)來進(jìn)行多元線性回歸分析。調(diào)用格式:[b,bint,r,rint,stats]=regress(Y,X,alpha)參數(shù)說明:(4)輸出向量b和bint為回歸系數(shù)及其置信區(qū)間;(5)輸出向量r和rint為殘差及其置信區(qū)間;(6)輸出向量stats是用于檢驗(yàn)回歸模型的統(tǒng)計量,它有4個值,第1個值是確定系數(shù)R2,其值越大說明回歸方程越有價值;第2個值是F統(tǒng)計量值,其值越大說明回歸方程越顯著;第3個值是與統(tǒng)計量F對應(yīng)的概率P,當(dāng)P<α?xí)r拒絕H0,顯著性成立,即回歸模型成立;第4個值是對誤差方差的估計。4.1.2多元線性回歸分析的求解過程2.Matlab實(shí)現(xiàn)在Matlab中可以使用regress函數(shù)來進(jìn)行多元線性回歸分析。調(diào)用格式:[b,bint,r,rint,stats]=regress(Y,X,alpha)參數(shù)說明:
需要說明的是,stats只能用于對整個回歸方程進(jìn)行假設(shè)檢驗(yàn),要對每一個自變量進(jìn)行偏回歸顯著性檢驗(yàn)時,可以利用regress函數(shù)返回的回歸系數(shù)的置信區(qū)間進(jìn)行判斷,當(dāng)某個自變量對應(yīng)的回歸系數(shù)bi對應(yīng)的置信區(qū)間包含0時,說明此自變量沒有偏回歸顯著意義,應(yīng)該把它剔除,然后重新進(jìn)行多元線性回歸分析。4.1.2多元線性回歸分析的求解過程例4.1
隨機(jī)抽取某學(xué)校20名學(xué)生,測量其體重(kg)、胸圍(cm)、肩寬(cm)和肺活量(L),數(shù)據(jù)如表4-1所示,試進(jìn)行多元線性回歸分析。4.1.3多元線性回歸分析實(shí)例解析1.解析:分別繪制自變量X1與Y、X2與Y、X3與Y的散點(diǎn)圖(圖4-1),從圖4-1中可看到Y(jié)與X1、X2、X3有近似線性關(guān)系,而Y與X1的線性關(guān)系最明顯。建立回歸方程為:圖4-13個自變量分別與Y的散點(diǎn)圖4.1.3多元線性回歸分析實(shí)例解析利用regress函數(shù)進(jìn)行多元線性回歸分析的結(jié)果見表4-2。從表4-2中可以看到,p值<0.05,說明整個回歸方程有統(tǒng)計學(xué)意義;R2
的值表示因變量的變異種有76.3%可由自變量的變化來解釋;從回歸系數(shù)b的置信區(qū)間來看,X3所對應(yīng)的系數(shù)b3的置信區(qū)間包含0,說明X3與Y的偏回歸無統(tǒng)計學(xué)意義,故去掉X3后作只有X1和X2的多元線性回歸分析,結(jié)果見表4-3。4.1.3多元線性回歸分析實(shí)例解析從表4-3中可以看到,只考慮X1和X2的多元線性回歸分析時,F(xiàn)值增大,p值<0.05,整個回歸方程有統(tǒng)計學(xué)意義,估計的誤差方差也減小,說明此時的回歸模型更適合數(shù)據(jù)的分布。此外,X1和X2所對應(yīng)的系數(shù)b1和b2的置信區(qū)間都不包含0,說明X1和X2與Y的偏回歸均有統(tǒng)計學(xué)意義。為了查看R2
的值是否還有提升的空間,可以繪制此時的殘差分布圖(見圖4-2),可以發(fā)現(xiàn)第4個樣本點(diǎn)的殘差置信區(qū)間不包含0,為異常點(diǎn),應(yīng)該去除后重新進(jìn)行多元線性回歸分析。
4.1.3多元線性回歸分析實(shí)例解析圖4-2回歸模型的殘差分布圖4.1.3多元線性回歸分析實(shí)例解析4.1.3多元線性回歸分析實(shí)例解析從表4-4中可以看到,R2的值表示因變量的變異中有83.1%可由自變量的變化來解釋,F(xiàn)值與前面相比明顯增大,誤差方差也有所減小,整個回歸方程有統(tǒng)計學(xué)意義且顯著成立,自變量X1和X2與Y的偏回歸均有統(tǒng)計學(xué)意義。與前面的兩個回歸方程相比,此時的回歸模型最適合樣本的分布。因此,最后的多元線性回歸方程為:主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時間序列分析4.74.8
在實(shí)際的問題研究過程中,為了全面分析問題,往往提出很多與問題有關(guān)的變量(或因素),因?yàn)槊總€變量都在不同程度上反映被研究問題的某些信息。但是,在用統(tǒng)計分析方法研究這個多變量的問題時,變量個數(shù)太多就會增加問題的復(fù)雜性。人們往往希望變量個數(shù)較少而得到的信息較多,此時通常需要進(jìn)行主成分分析。4.2
主成分分析
主成分分析是一種對多變量數(shù)據(jù)進(jìn)行降維處理的方法,所謂降維即降低維度。維度,又稱維數(shù),是數(shù)學(xué)中獨(dú)立參數(shù)的數(shù)目。一個模型的維度是指模型中獨(dú)立變量的個數(shù)或在模型中用到的變量的個數(shù)。4.2.1主成分分析的基本思想
在多數(shù)情況下,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個變量之間有一定的相關(guān)關(guān)系時,可以解釋為這兩個變量在反映被研究問題的信息上有一定的重疊。當(dāng)變量之間具有高度的相關(guān)性時,如果直接對數(shù)據(jù)進(jìn)行分析,往往會由于變量數(shù)目過多而造成解釋上的困難,還會造成模型參數(shù)的過度擬合,降低分類或預(yù)測的準(zhǔn)確性和可靠性。此時往往需要先對數(shù)據(jù)應(yīng)進(jìn)行降維處理,相當(dāng)于對體積龐大的數(shù)據(jù)集進(jìn)行減肥,在降維的過程中既要保證不喪失大部分的有效信息,還要同時減小數(shù)據(jù)計算的維數(shù)。4.2.1主成分分析的基本思想
主成分分析也稱為主分量分析,它的基本思想是將原始的變量重新組合成一組新的互相無關(guān)的綜合變量,根據(jù)實(shí)際需要從中選取較少的幾個綜合變量作為原始變量的代表,盡可能多地反映原始變量所反映的信息,從而達(dá)到數(shù)據(jù)降維的目的。也就是將原始的相關(guān)性較高的變量轉(zhuǎn)化成個數(shù)較少、能解釋大部分原始數(shù)據(jù)方差并且彼此互相獨(dú)立的幾個新變量(即所謂的主成分),從而消除原始變量之間的共線性,剔除冗余信息,使模型更好地反映真實(shí)情況。4.2.1主成分分析的基本思想
主成分分析的目的在于壓縮變量的個數(shù),用較少的新變量去代替原始變量,新變量之間是兩兩互不相關(guān)的,并且新變量在反映問題的信息方面盡可能保持原始變量所反映的大部分信息。信息的大小通常是用離差平方和或方差來衡量。4.2.2主成分分析的求解過程
主成分分析將原始的p個變量(指標(biāo))作線性組合,得出新的綜合指標(biāo)(F1,F2,…,Fp),其中F1是“信息最多”的指標(biāo),即它的方差var(F1)最大,稱它為第一主成分;F2是除了F1之外信息最多的指標(biāo),即它的方差var(F2)僅次于var(F1),并且F2與F1互不相關(guān),即它們的協(xié)方差cov(F1,F2)=0,稱F2為第二主成分;依次類推。
由上述推導(dǎo)過程可知,F(xiàn)1,F2,…,Fp兩兩互不相關(guān),并且它們的方差依次遞減。在實(shí)際的數(shù)據(jù)處理過程中,一般只選取前m個最大的主成分(m<p),從而達(dá)到數(shù)據(jù)降維的目的。4.2.2主成分分析的求解過程(1)對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化設(shè)有n個樣本,p個指標(biāo),得到的原始資料矩陣為:式4-24.2.2主成分分析的求解過程(1)對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化
為了實(shí)現(xiàn)樣本數(shù)據(jù)的標(biāo)準(zhǔn)化,應(yīng)該求出樣本數(shù)據(jù)的平均和方差。樣本數(shù)據(jù)的標(biāo)準(zhǔn)化是基于數(shù)據(jù)的平均和方差進(jìn)行的。因?yàn)樵趯?shí)際應(yīng)用中往往存在指標(biāo)的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化。4.2.2主成分分析的求解過程(1)對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化
對數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對每一個指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:式4-3
其中,樣本均值為:式4-4
樣本標(biāo)準(zhǔn)差為:式4-5
4.2.2主成分分析的求解過程(1)對樣本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化之后的數(shù)據(jù)矩陣為:式4-6
4.2.2主成分分析的求解過程(2)計算相關(guān)矩陣
對于給定的n個樣本,求樣本間的相關(guān)系數(shù)。相關(guān)矩陣中的每一個元素由相應(yīng)的相關(guān)系數(shù)所表示。式4-7
4.2.2主成分分析的求解過程(3)求特征值和特征向量設(shè)求得的相關(guān)矩陣為R,求解特征方程|R-λi|=0。
通過求解特征方程,可以可得到p個特征值:λ1≥λ2≥λ3≥…≥λp≥0對應(yīng)于每一個特征值的特征向量:αi
=(αi1,αi2,...,αip),i=1~p式4-9
4.2.2主成分分析的求解過程(4)求主成分(取線性組合)根據(jù)求得的p個特征向量,p個主要成分分別為:F1=α11x1+α12x2+…+α1pxp式4-10F2=α21x1+α22x2+…+α2pxp式4-11……Fp=αp1x1+αp2x2+…+αppxp式4-12上式就是主成分分析的模型,其通式為:Fi=αi1x1+αi2x2+…+αipxp,i=1~p式4-13稱F1為第一主成分,F(xiàn)2為第二主成份,…,F(xiàn)i為第i主成份。系數(shù)αi1,αi2,...,αip稱為第i個主成分的載荷。求各個主成份的關(guān)鍵是求特征根λ及其對應(yīng)的特征向量α。主成分分析以較少的m個指標(biāo)代替原來的p個指標(biāo)對系統(tǒng)進(jìn)行分析,使得對系統(tǒng)進(jìn)行綜合評價時更為方便。
4.2.2主成分分析的求解過程
4.2.2主成分分析的求解過程(5)求貢獻(xiàn)率和累計貢獻(xiàn)率
確定主成分的個數(shù)有多種方法,常用的方法是保留累計貢獻(xiàn)率大于85%的前m個主成分,忽略后幾個小特征值的成分。
此外,也可以將特征值大于1的因子數(shù)目定為主成分的個數(shù)。
還有一種方法是繪制特征值與因子數(shù)目的曲線,如果到達(dá)某一因子數(shù)之后,特征值減小幅度的變化不大,則此轉(zhuǎn)折點(diǎn)的因子數(shù)即為主成分的個數(shù)m。
在實(shí)際數(shù)據(jù)分析過程中,究竟取前幾個主成分,還需要結(jié)合主成分的實(shí)際解釋和專業(yè)知識來確定。
4.2.2主成分分析的求解過程(6)計算主成分得分
根據(jù)標(biāo)準(zhǔn)化的原始數(shù)據(jù),按照各個樣本,分別代入主成分表達(dá)式,就可以得到各主成分下的各個樣本的新數(shù)據(jù),即為主成分得分。(7)進(jìn)行后續(xù)的統(tǒng)計分析
得到主成分下的各個樣本的新數(shù)據(jù)之后,就可以進(jìn)行后續(xù)的統(tǒng)計分析了,常見的應(yīng)用有主成分回歸、變量子集合的選擇、綜合評價等等。
4.2.2主成分分析的求解過程2.Matlab實(shí)現(xiàn)在Matlab中可以使用princomp函數(shù)來進(jìn)行主成分分析。調(diào)用格式:[COEFF,SCORE,LATENT]=princomp(X)參數(shù)說明:(1)輸入變量X為由多個變量按列排列構(gòu)成的輸入矩陣;
(2)COEFF的第i列為第i個主成分的載荷;(3)SCORE為輸入樣本計算主成分的得分,即各個樣本在主成分下?lián)Q算出來的新數(shù)據(jù);(4)LATENT為按遞減順序排列的X的協(xié)方差矩陣cov(X)的特征根。
此外,還可以使用princov函數(shù)來進(jìn)行主成分分析,princov與princomp的區(qū)別在于其輸入矩陣應(yīng)該為數(shù)據(jù)矩陣的協(xié)方差矩陣。
4.2.2主成分分析的求解過程例4.2
主成分分析原理示例。為了說明主成分分析的原理,特構(gòu)造兩個呈線性相關(guān)的變量X1和X2,對它們進(jìn)行主成分分析。1.解析:從X1和X2的散點(diǎn)圖可以看出兩者呈高度線性相關(guān),且沿著斜線分布的方向,數(shù)據(jù)分布的方差較大,如圖4-3所示。對X1和X2進(jìn)行主成分分析,得到兩個主成分變量Y1和Y2。第一個主成分Y1的累積貢獻(xiàn)率為0.9998,相當(dāng)于提取了原來兩項(xiàng)指標(biāo)的所有信息。繪制Y1和Y2的散點(diǎn)圖,可以發(fā)現(xiàn)Y2值基本不變,即所有的信息都集中在Y1上,如圖4-4所示。由此可見,主成分分析相當(dāng)于對數(shù)據(jù)空間的原坐標(biāo)軸進(jìn)行了旋轉(zhuǎn)操作,將其轉(zhuǎn)到使得數(shù)據(jù)分布方差最大的方向,即第一主成分的方向,在本例中第一主成分的方向即圖4-3中的斜線方向。
4.2.3主成分分析實(shí)例解析4.2.3主成分分析實(shí)例解析2.程序代碼:%%exam52.mclear;closeall;clc;X1=6*randn(100,1);X2=3*X1+randn(100,1);figure,plot(X1,X2,'o');xlabel('X1');ylabel('X2');axisequal;X=[X1,X2];[COEFF,SCORE,latent]=princomp(X);%%主成分分析pp=cumsum(latent)./sum(latent)%%累積貢獻(xiàn)率Y1=SCORE(:,1);Y2=SCORE(:,2);figure,plot(Y1,Y2,'o');xlabel('Y1');ylabel('Y2');axisequal;%%endexam52.m圖4-3X1X2的散點(diǎn)圖4.2.3主成分分析實(shí)例解析圖4-4Y1Y2的散點(diǎn)圖4.2.3主成分分析實(shí)例解析例4.3
隨機(jī)抽取某校30名中學(xué)生,測量器身高(cm)、體重(kg)、胸圍(cm)和坐高(cm),數(shù)據(jù)如表4-5所示,對其進(jìn)行主成分分析。(數(shù)據(jù)來源[3])
4.2.3主成分分析實(shí)例解析1.解析:將表4-5中的數(shù)據(jù)存儲在data53.mat文件中供后續(xù)使用。對原始數(shù)據(jù)進(jìn)行主成分分析,各主成分的累積貢獻(xiàn)率為[0.89,0.97,0.99,1],圖4-5顯示了各個主成分所對應(yīng)的特征根變化,從圖中可以看到從第3個主成分開始時特征根沒有太大的變化,因此可以選擇前3個主成分,它們包含了原始數(shù)據(jù)中99%的信息。
圖4-5由特征根決定主成分個數(shù)4.2.3主成分分析實(shí)例解析1.解析:這3個主成分可表示為:Y1=0.62X1*+0.56X2*+0.41X3*+0.36X4*Y2=-0.65X1*+0.35X2*+0.66X3*-0.17X4*Y3=0.22X1*-0.75X2*+0.62X3*+0.06X4*其中X1*、X2*、X3*和X4*表示數(shù)據(jù)經(jīng)過了零均值處理。新的綜合變量Y1對4個指標(biāo)的影響都有所考慮,Y2主要考慮了X1、X2和X3這3個指標(biāo)的影響,Y3主要考慮了X2和X3這2個指標(biāo)的影響。
4.2.3主成分分析實(shí)例解析2.程序代碼:%%exam53.mclear;closeall;clc;
loaddata53.mat;[COEFF,SCORE,latent]=princomp(X);%%主成分分析pp=cumsum(latent)./sum(latent)%%累積貢獻(xiàn)率figure,plot(latent,'o-'),title('特征根變化')%%endexam53.m
4.2.3主成分分析實(shí)例解析主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時間序列分析4.74.8
在日常生活和科學(xué)研究過程中,經(jīng)常遇到分類問題,例如在生物學(xué)中對動植物進(jìn)行分類和對基因進(jìn)行分類等,此時通常需要進(jìn)行聚類分析。4.3聚類分析
聚類分析,也稱為群分析、分割分析或分類學(xué)分析,它是根據(jù)“物以類聚”的思想,按照樣品或指標(biāo)在性質(zhì)上的親疏或相似程度對它們進(jìn)行分類的一種多元統(tǒng)計分析方法。聚類分析根據(jù)事物本身的特性來研究個體的分類,其原則是分到同一類中的個體要有較大的相似性,而不同類中的個體要有較大的差異。4.3.1聚類分析的基本思想
聚類分析和判別分析都是對樣品個體進(jìn)行分類的統(tǒng)計分析方法,但是它們有著重大的區(qū)別:一方面,聚類分析可以對樣本分類,也可以對變量分類;但判別分析只能對樣本分類。另一方面,在聚類分析中,樣本的類別事先是未知的,甚至樣本可以分為幾類也是未知的,只要知道樣本各變量的觀察值,就可以對樣本進(jìn)行分類;但判別分析必須事先擁有一批分類明確的樣本(訓(xùn)練樣本),基于這批樣本建立判別函數(shù)和判別準(zhǔn)則,然后才能對未知分類的新樣品進(jìn)行分類。因此,在模式識別中,聚類分析屬于無監(jiān)督學(xué)習(xí),而判別分析屬于有監(jiān)督學(xué)習(xí)。4.3.1聚類分析的基本思想
在實(shí)際的數(shù)據(jù)分析過程中,聚類分析和判別分析往往結(jié)合起來使用。例如,判別分析要求事先要知道各類總體情況才能判斷新樣品的歸類,當(dāng)總體分類不清楚時,可以先用聚類分析對原有的樣本進(jìn)行分類,然后再用判別分析對新樣品進(jìn)行分類。
聚類分析的基本思想是在樣本之間定義距離,在變量之間定義相似系數(shù)。距離或相似系數(shù)代表樣本或變量之間的相似程度。按相似程度的大小,將樣本(或變量)逐一歸類,關(guān)系密切的類聚到一個小的分類單位上,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個大的分類單位上,直到所有的樣本(或變量)都聚集完畢后,就會形成一個表示親疏關(guān)系的譜系圖,最后再依次按照具體要求對樣本(或變量)進(jìn)行分類。4.3.1聚類分析的基本思想
在進(jìn)行聚類分析之前,需要先確定用什么指標(biāo)來評價聚類對象之間的差別。如果把每個樣品看成p維空間中的一個點(diǎn),n個樣品就組成p維空間中的n個點(diǎn),就可以用距離來度量樣品之間的相似程度。距離越近,樣品的相似程度就越高。此處所說的距離是點(diǎn)和點(diǎn)之間的距離,簡稱點(diǎn)間距離。點(diǎn)間距離有很多種定義方式,最簡單、最常用的是歐氏距離,此外還有絕對值距離、馬氏距離、明氏距離等等。4.3.1聚類分析的基本思想
除了點(diǎn)和點(diǎn)之間的距離之外,還要考慮是類和類之間的距離。由一個點(diǎn)組成的類是最基本的類,如果每個類都是由一個點(diǎn)組成的,那么點(diǎn)間的距離就是類間的距離。但如果某個類包含不止一個點(diǎn),那么就要確定類間距離。類間距離是度量一類樣品或變量與另一類樣品或變量之間的相似程度的統(tǒng)計量,距離越小則相似程度越高。類間距離是基于點(diǎn)間距離定義的,其定義方式也有很多種,常用的幾種類間距離有:最短距離、最長距離、重心距離和中位數(shù)距離。4.3.1聚類分析的基本思想最短距離:定義類間距離等于兩類中距離最近的一對樣品之間的距離。最長距離:定義類間距離等于兩類中距離最遠(yuǎn)的一對樣品之間的距離。重心距離:定義類間距離等于兩類重心之間的距離,一個類的重心指的是類內(nèi)所有樣品的均值坐標(biāo)。中位數(shù)距離:定義類間距離等于兩類中所有樣品對之間的距離的中位數(shù)。4.3.1聚類分析的基本思想
選擇不同的距離指標(biāo)會導(dǎo)致聚類結(jié)果有所不同,但一般差別不會太大。
聚類分析的目標(biāo)就是要將樣本分到不同的類中,并且滿足以下兩個條件:第一,同質(zhì)性,即同一個類中的樣本彼此之間應(yīng)該高度相似,如果兩個樣本屬于同一個類,那么它們之間的距離應(yīng)該較小。第二,差異性,即屬于不同類的樣本應(yīng)該是有較大差別的,如果兩個樣本屬于不同的類,那么它們之間的距離應(yīng)該較大。
接下來我們將重點(diǎn)介紹兩種聚類分析方法,系統(tǒng)聚類和K-means聚類。4.3.1聚類分析的基本思想1.系統(tǒng)聚類簡介
系統(tǒng)聚類也稱為分層聚類,其基本思想是:事先不需要確定要分多少類,通過不斷地把距離最小的兩個類合并成一個類來逐漸進(jìn)行聚類。
首先將N個樣品看成N個類(每個類包含且只包含一個樣品),然后將距離最小的兩個類合并成一個類、得到N-1個類,再從中找出距離最小的兩個類合并成一個類、得到N-2個類,如此重復(fù)下去,每次歸類都減少一個類,最后N個樣品都?xì)w為一類。上述聚類過程可以用一張直觀的圖(稱為聚類譜系圖)表示出來,由此圖可以清晰地看出聚類過程,并且可以根據(jù)分類的數(shù)目確定哪些樣品應(yīng)該歸為一類。4.3.2系統(tǒng)聚類1.系統(tǒng)聚類簡介應(yīng)用系統(tǒng)聚類法進(jìn)行聚類分析的步驟如下:(1)確定待分類樣品的指標(biāo)。(2)收集數(shù)據(jù)。(3)對數(shù)據(jù)進(jìn)行變換處理(如標(biāo)準(zhǔn)化或規(guī)格化)。(4)構(gòu)造N個類,每個類包含且只包含一個樣品。(5)計算這些類兩兩之間的距離,構(gòu)成距離矩陣。(6)合并距離最小的兩個類,成為一個新類。(7)如果類的個數(shù)等于1,則轉(zhuǎn)到步驟(8),否則回到步驟(5)。(8)最后繪制聚類譜系圖,按不同的分類標(biāo)準(zhǔn)或不同的分類原則,得出不同的分類結(jié)果,即決定類的個數(shù)和類。4.3.2系統(tǒng)聚類1.系統(tǒng)聚類簡介系統(tǒng)聚類的特點(diǎn)及應(yīng)用注意事項(xiàng):(1)類的個數(shù)不需要事先定好。(2)需要確定距離矩陣,因此運(yùn)算量較大,適用于處理小樣本數(shù)據(jù)。(3)
系統(tǒng)聚類適用于小樣本資料的樣品聚類或變量聚類。原始數(shù)據(jù)可以是數(shù)值變量,也可以是多分類變量,或二分類變量,但最好不要有不同類型變量的混合,三種變量可以選擇不同的距離度量。4.3.2系統(tǒng)聚類2.系統(tǒng)聚類的Matlab實(shí)現(xiàn)Matlab提供了兩種方法來進(jìn)行系統(tǒng)聚類分析。
第1種方法是利用clusterdata函數(shù)對樣本數(shù)據(jù)進(jìn)行一次聚類,這個方法簡潔方便,但缺點(diǎn)是使用范圍較窄,可供用戶選擇的面較窄,不能由用戶根據(jù)自身需要來設(shè)定參數(shù),不能更改距離的計算方法。4.3.2系統(tǒng)聚類2.系統(tǒng)聚類的Matlab實(shí)現(xiàn)第2種方法是分步聚類:(1)用pdist函數(shù)計算變量之間的距離,即求出變量之間的相似性;(2)用linkage函數(shù)定義變量之間的連接,即用linkage函數(shù)來產(chǎn)生聚類樹;(3)用cophenet函數(shù)評價聚類信息,如果返回值不接近1,可以修改距離定義方式重新進(jìn)行系統(tǒng)聚類;(4)用cluster函數(shù)創(chuàng)建聚類。4.3.2系統(tǒng)聚類2.系統(tǒng)聚類的Matlab實(shí)現(xiàn)下面將對上述函數(shù)做詳細(xì)說明。(1)clusterdata函數(shù)調(diào)用格式:T=clusterdata(X,cutoff)clusterdata函數(shù)可以視為pdist、linkage和cluster的綜合,T=clusterdata(X,cutoff)等價于Y=pdist(X,’euclid’);Z=linkage(Y,’single’);T=cluster(Z,cutoff)
。4.3.2系統(tǒng)聚類4.3.2系統(tǒng)聚類(2)pdist函數(shù)調(diào)用格式:Y=pdist(X,'metric')功能:用'metric'參數(shù)指定的方法計算數(shù)據(jù)矩陣X中樣本之間的距離。若此前數(shù)據(jù)尚未無量綱化,則進(jìn)行計算之前最好先用zscore函數(shù)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。參數(shù)說明:①X是m*n的數(shù)據(jù)矩陣,即由m個樣本組成、每個樣本有n個指標(biāo)的數(shù)據(jù)集。②'metric'是計算距離的方法選項(xiàng),包括:'euclidean'(歐氏距離),'seuclidean'(標(biāo)準(zhǔn)化歐氏距離),'mahalanobis'(馬氏距離),'cityblock'(布洛克距離),'minkowski'(明可夫斯基距離),'chebychev'(Chebychev距離)等等。當(dāng)沒有指定'metric'這個參數(shù)時,則采用默認(rèn)值'euclidean'(歐氏距離)。③pdist函數(shù)的返回值Y是一個有m*(m-1)/2個元素的行向量,分別表示m個樣本兩兩之間的距離。行向量可以縮小保存空間,但卻不便于讀者理解數(shù)據(jù),如果想簡單直觀地表示,可以用squareform函數(shù)將其轉(zhuǎn)化為方陣,其中x(i,j)表示第i個樣本與第j個樣本之間的距離,對角線元素均為0。5.3.2系統(tǒng)聚類
4.3.2系統(tǒng)聚類(3)squareform函數(shù)調(diào)用格式:Z=squareform(Y)功能:強(qiáng)制將距離矩陣從上三角形式轉(zhuǎn)化為方陣形式,或從方陣形式轉(zhuǎn)化為上三角形式。(4)linkage函數(shù)調(diào)用格式:Z=linkage(Y,'method')功能:用'method'參數(shù)指定的算法計算系統(tǒng)聚類樹。參數(shù)說明:①Y是pdist函數(shù)返回的有m*(m-1)/2個元素的行向量。②'method'是采用的系統(tǒng)聚類算法選項(xiàng),包括:'single'(最短距離法),'complete'(最長距離法),'average'(未加權(quán)平均距離法),'weighted'(加權(quán)平均法),'centroid'(質(zhì)心距離法),'median'(加權(quán)質(zhì)心距離法),'ward'(內(nèi)平方距離法,也稱最小方差算法)。當(dāng)沒有指定'method'這個參數(shù)時,則采用默認(rèn)值'single'(最短距離法)。③linkage函數(shù)的返回值Z是一個(m-1)*3的矩陣,其中前兩列為索引標(biāo)識,表示哪兩個序號的樣本可以聚為同一類,第三列為這兩個樣本之間的距離。另外,除了m個樣本之外,對于每次新產(chǎn)生的類,依次用m+1、m+2、…來標(biāo)識。(5)dendrogram函數(shù)調(diào)用格式:dendrogram(Z,p)功能:dendrogram函數(shù)用更直觀的聚類樹來展示linkage函數(shù)的返回值Z,它產(chǎn)生的聚類樹最下邊表示樣本,然后一級一級往上聚類,最終成為最頂端的一類,縱軸高度代表距離列。可以設(shè)置聚類樹最下端的樣本數(shù)(默認(rèn)為30),修改dendrogram(Z,p)中的參數(shù)p即可實(shí)現(xiàn)(1<p≤m),dendrogram(Z,0)表示p=m的情況,顯示所有葉節(jié)點(diǎn)。4.3.2系統(tǒng)聚類(6)cophenet函數(shù)調(diào)用格式:c=cophenet(Z,Y)功能:利用pdist函數(shù)生成的Y和linkage函數(shù)生成的Z計算cophenet相關(guān)系數(shù)。cophenet檢驗(yàn)一定算法下產(chǎn)生的二叉聚類樹和實(shí)際情況的相符程度,就是檢測二叉聚類樹中各元素間的距離和pdist計算產(chǎn)生的實(shí)際的距離之間有多大的相關(guān)性。(7)cluster函數(shù):調(diào)用格式:T=cluster(Z,'Cutoff',C)功能:根據(jù)linkage函數(shù)的輸出Z創(chuàng)建分類。4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析例4.4有研究發(fā)現(xiàn)脂肪肝與甘油三脂(TG)、膽固醇(TC)、谷丙轉(zhuǎn)氨酶(ALT)和血糖(GS)的增高之間有一定的相關(guān)性,但非一致性,即非脂肪肝人群也有可能TG、TC、ALT、GS中有幾項(xiàng)增高。在醫(yī)學(xué)診斷上,如何根據(jù)檢測的TG、TC、ALT、GS來輔助判別是否為脂肪肝有一定的臨床意義。對某單位員工體檢數(shù)據(jù)中的脂肪肝疾病進(jìn)行系統(tǒng)聚類分析,體檢的原始數(shù)據(jù)見表5-6。(數(shù)據(jù)來源[5])4.3.2系統(tǒng)聚類表4-6脂肪肝判別分析原始數(shù)據(jù)4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析(1)解析:可以通過一步求解算法和多步求解算法進(jìn)行聚類分析,圖4-6所示為系統(tǒng)聚類的聚類譜系圖。從圖4-6中可以看到,如果認(rèn)為要將樣本分為兩類,則第36號樣本屬于一類,剩余樣本屬于另一類。4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析圖4-6系統(tǒng)聚類的聚類譜系圖4.3.2系統(tǒng)聚類4.3.2系統(tǒng)聚類3.系統(tǒng)聚類實(shí)例解析(2)程序代碼:%%exam54.mclear;closeall;clc;loaddata54.mat%%其中有sampleAll%%一步求法group1=clusterdata(sampleAll,'maxclust',2);%%分層聚類一步求法的分類結(jié)果%%分步求法Y=pdist(sampleAll);Z=linkage(Y);c=cophenet(Z,Y)%%用于評價分類效果,越接近于1越好Y=pdist(sampleAll,'cityblock');%%換一種距離度量方法重新進(jìn)行分層聚類Z=linkage(Y,'average');c=cophenet(Z,Y)group2=cluster(Z,'maxclust',2);[group1,group2]%%對一步求法的分類、分步求法的分類進(jìn)行比較figure,dendrogram(Z,size(sampleAll,1));%%endexam54.mK-均值聚類是一種簡單、高效的聚類方法,也稱為快速聚類或動態(tài)聚類,它適用于對較大樣本進(jìn)行樣品聚類,它要求資料中聚類指標(biāo)均為數(shù)值變量,且事先必須知道樣品應(yīng)該分為多少類,即必須指定期望的聚類數(shù)K。其基本思想是通過不斷調(diào)整分組,使組間差異與組內(nèi)差異的比值達(dá)到最大,即把觀測數(shù)據(jù)分布的空間劃分為K個互斥的區(qū)域,然后判斷每個觀測數(shù)據(jù)落在哪個區(qū)域中。4.3.3
K-均值聚類K-均值聚類采用迭代算法進(jìn)行聚類,具體步驟如下:(1)隨機(jī)選擇K個樣品作為K個初始聚類中心。(2)計算每個樣品到K個聚類中心的距離,樣品到哪一個聚類中心的距離最小,它就應(yīng)該歸入哪一個類,這樣就可以把所有樣品分為K個類。(3)計算每個類的類別中心,得到K個類別中心,把它們作為新的聚類中心。(4)如果新的聚類中心與之前的聚類中心相比變化不大(或組間差異與組內(nèi)差異的比值達(dá)到穩(wěn)定,或迭代次數(shù)超過限制),則停止迭代、得出最終的聚類結(jié)果;否則回到步驟(2),繼續(xù)迭代。4.3.3
K-均值聚類K-均值聚類的特點(diǎn)及應(yīng)用注意事項(xiàng):(1)K的值要事先定好。如果事先對樣品的分類一無所知,則只能嘗試地定義不同的聚類數(shù)K。
(2)初始聚類中心可以人為地選擇,可以選擇一些有代表性的點(diǎn),也可以根據(jù)某些標(biāo)準(zhǔn)來確定,還可以先人為地將所有樣品分類,然后計算每一類的均值作為初始聚類中心。(3)K-均值聚類對噪聲及孤立點(diǎn)數(shù)據(jù)敏感。(4)不必確定距離矩陣,因此比系統(tǒng)聚類運(yùn)算量小,適用于處理龐大的樣本數(shù)據(jù)。(5)適用于發(fā)現(xiàn)球狀類。4.3.3
K-均值聚類4.3.3
K-均值聚類示例4.3.3
K-均值聚類下表對系統(tǒng)聚類和K-均值聚類的應(yīng)用進(jìn)行了比較。4.3.3
K-均值聚類Matlab中用于進(jìn)行K-均值聚類的函數(shù)有kmeans和silhouette。(1)kmeans函數(shù)調(diào)用格式:idx=kmeans(X,K)功能:進(jìn)行K-均值聚類。參數(shù)說明:①X是m*n的數(shù)據(jù)矩陣,即由m個樣本組成、每個樣本有n個指標(biāo)的數(shù)據(jù)集。②K是一個整數(shù)值,表示將X劃分為K類。③idx是一個m*1的向量,存儲的是每個樣本的聚類標(biāo)號。4.3.3
K-均值聚類(2)silhouette函數(shù)調(diào)用格式:[S,H]=silhouette(X,clust,distance)功能:進(jìn)行K-均值聚類之后,為了評價分類的效果,可以利用分類結(jié)果繪制silhouette圖來判斷,該圖顯示了某個類離其相鄰類的接近程度。參數(shù)說明:①X與前面所述的kmeans函數(shù)的參數(shù)X意義相同;②clust為kmeans的返回值idx;③S的范圍在+1到-1之間,其中+1表示很好的分類,0表示沒有把該樣本與其他類分開,-1表示分類結(jié)果很可能錯誤。4.3.3
K-均值聚類例
對例4.4中的樣本集不考慮先驗(yàn)知識,重新進(jìn)行K-均值聚類分析?!窘馕觥?/p>
根據(jù)K-均值聚類,分類結(jié)果如下表所示,分類的正確率為77.8%。
當(dāng)采用K-均值聚類時,為了評價分類的效果,可以利用分類結(jié)果繪制silhouette圖來判斷,該圖顯示了某個類離其相鄰類的接近程度。如下圖所示,可以看出當(dāng)將給定樣本空間分為兩類時,有2個樣本的分類結(jié)果可能不正確,因?yàn)槠鋵?yīng)的silhouette函數(shù)返回值小于0。4.3.3
K-均值聚類表K-均值聚類結(jié)果4.3.3
K-均值聚類圖K-均值聚類的結(jié)果評價圖4.3.3
K-均值聚類【程序代碼】%%exam56.mclear;closeall;clc;
loaddata52.mat%%其中有sampleH和samplePsampleAll=[sampleH;sampleP];
%%k-means法N=2;%%事先給定的待分類數(shù)[idx2]=kmeans(sampleAll,N,'distance','city','display','iter')%%返回值為分類結(jié)果[silh2,h]=silhouette(sampleAll,idx2,'city');xlabel('SilhouetteValue')ylabel('Cluster')%%endexam56.m4.3.3
K-均值聚類∈?4.4
判別分析
在日常生活和科學(xué)研究過程中,經(jīng)常會遇到根據(jù)觀測到的數(shù)據(jù)資料對所研究的對象進(jìn)行判別歸類的問題。例如,醫(yī)生在診斷疾病時,根據(jù)就診者的各項(xiàng)癥狀、體征和化驗(yàn)結(jié)果來判斷此人是否患有某種疾病,這就是一個典型的判別歸類問題,解決這類問題通常需要進(jìn)行判別分析。4.4
判別分析
判別分析是用于判別研究對象所屬類型的一種統(tǒng)計分析方法,它根據(jù)判別對象若干個指標(biāo)的觀測結(jié)果來判定其應(yīng)該屬于哪一類。
判別分析根據(jù)已掌握的一批分類明確的樣品在若干指標(biāo)上的觀察值,建立一個關(guān)于指標(biāo)的判別函數(shù)和判別準(zhǔn)則,然后根據(jù)這個判別函數(shù)和判別準(zhǔn)則對新的樣品進(jìn)行分類,并且根據(jù)判別的準(zhǔn)確率來評估它的實(shí)用性。4.4.1
判別分析的基本思想
判別函數(shù)指的是一個關(guān)于指標(biāo)變量的函數(shù),每一個樣品在指標(biāo)變量上的觀察值代入判別函數(shù)后可以得到一個確定的函數(shù)值。建立判別函數(shù)的方法有多種,例如可以將已知類型作為因變量,將樣品的各項(xiàng)指標(biāo)作為自變量,采用多元線性回歸的方法建立判別函數(shù)。
判別準(zhǔn)則指的是根據(jù)樣品的判別函數(shù)值,對樣品進(jìn)行分類的法則。
判別分析的核心要素是要有一批分類明確的訓(xùn)練樣本,根據(jù)對訓(xùn)練樣本的分析構(gòu)造出判別函數(shù),以判斷新樣品所屬的類別。因此,在模式識別中,判別分析屬于有監(jiān)督的學(xué)習(xí)。4.4.1
判別分析的基本思想1.判別分析的基本步驟一般來說,判別分析的基本步驟可以概括如下:(1)建立判別函數(shù)和建立判別準(zhǔn)則:建立的原則是將所有樣品按其判別函數(shù)值的大小和事先規(guī)定的判別原則分到不同的組里,能使得分組結(jié)果與原始分組最吻合。(2)回代樣本:計算出每一個樣品的判別函數(shù)值,并根據(jù)判別準(zhǔn)則將樣品歸類。(4)估計回代的錯誤率:比較新的分組結(jié)果和原始分組的差別,并以此確定判別函數(shù)的效能。(5)判別新的樣品:如果判別函數(shù)的效能較高,就可以用它來對新樣品進(jìn)行歸類判別。4.4.2
判別分析的求解過程2.判別分析的具體方法
根據(jù)不同的判別準(zhǔn)則,判別分析可以分為距離判別法、Fisher判別法和Bayes判別法等等,下面將對這幾種方法做簡要的說明。4.4.2
判別分析的求解過程2.判別分析的具體方法(1)距離判別法
距離判別法的核心思想是根據(jù)所定義的距離來進(jìn)行判別。樣本中的每一組,都可以在模型中的變量所定義的多元空間中確定一個點(diǎn),這個點(diǎn)代表了所有變量的均數(shù),稱它為類別中心。根據(jù)樣品離各個類別中心的距離遠(yuǎn)近來進(jìn)行歸類判別,樣品離哪一個類別中心的距離最近,它就歸屬于哪一個類。因此,距離判別法又稱為最鄰近方法或直觀判別法。距離判別對各類總體的分布沒有特定的要求,適用于任意分布的資料。4.4.2
判別分析的求解過程2.判別分析的具體方法(1)距離判別法
當(dāng)計算樣品與某一類總體之間的距離時,可以將總體用樣本平均值代替。
常用的距離指標(biāo)有:絕對值距離、歐氏距離、馬氏距離等等。Matlab中提供了用于計算歐式距離的norm函數(shù)和用于計算馬氏距離的mahal函數(shù)。4.4.2
判別分析的求解過程2.判別分析的具體方法(2)Fisher判別法
Fisher判別法的核心思想是投影,即尋找一個投影的方向,將數(shù)據(jù)投影到該方向后使得每一類內(nèi)的離差盡可能小,而不同類間投影的離差盡可能大。簡單來說就是同類別的點(diǎn)(樣品)“盡可能聚在一起”,不同類別的點(diǎn)(樣品)“盡可能分離”,從而達(dá)到分類的目的。有了投影之后,再用前面講過的距離遠(yuǎn)近的方法來得到判別準(zhǔn)則、進(jìn)行分類判別。4.4.2
判別分析的求解過程Fisher判別二維向量的投影
數(shù)據(jù)在不同方向投影的分布密度
Fisher判別2.判別分析的具體方法(3)Bayes判別法
Bayes判別法是以概率論中Bayes條件概率公式為基礎(chǔ)導(dǎo)出的判別方法,它計算每個樣品屬于每一個類的概率,屬于哪一個類的概率最大,就將樣品歸入哪一個類。判別準(zhǔn)則是按后驗(yàn)概率大小歸類。
先前介紹的距離判別法簡單實(shí)用,但它沒有考慮每個總體出現(xiàn)的機(jī)會大小(即先驗(yàn)概率),也沒有考慮到錯判的損失,Bayes判別法正是為解決這兩方面的問題而提出的。Bayes的統(tǒng)計思想是假定對研究的對象已經(jīng)有一定的認(rèn)識(常用先驗(yàn)概率分布來描述這種認(rèn)識),然后抽取一個樣本,用樣本來修正已有的認(rèn)識(先驗(yàn)概率分布),得到后驗(yàn)概率分布。各種統(tǒng)計推斷都通過后驗(yàn)概率分布來進(jìn)行。將Bayes統(tǒng)計思想應(yīng)用于判別分析就得出了Bayes判別法。4.4.2
判別分析的求解過程2.判別分析的具體方法(3)Bayes判別法
Matlab提供的classify函數(shù)采用Bayes方法進(jìn)行判別分析。Fisher判別和Bayes判別的區(qū)別主要在于兩者的判別準(zhǔn)則不同:Fisher判別以距離作為判別準(zhǔn)則,即樣品與哪個類的距離最短就分到哪個類;Bayes判別以概率作為判別準(zhǔn)則,即樣品屬于哪個類的后驗(yàn)概率最大,就分到哪個類。
Fisher判別和Bayes判別通常適用于數(shù)值變量資料。Fisher判別對變量總體分布沒有要求,但Bayes判別要求總體服從多元正態(tài)分布。4.4.2
判別分析的求解過程3.Matlab實(shí)現(xiàn)
在Matlab中可以使用norm、mahal等函數(shù)來進(jìn)行距離判別,可以使用classify函數(shù)來進(jìn)行Bayes判別分析。調(diào)用格式:[class,err]=classify(sample,training,group)參數(shù)說明:輸入?yún)?shù)sample為待判樣品;training為訓(xùn)練樣本;group為訓(xùn)練樣本的分類變量;輸出參數(shù)class為待判樣品的分類結(jié)果;err為誤判率的估計。4.4.2
判別分析的求解過程例4.6
有研究發(fā)現(xiàn)脂肪肝與甘油三脂(TG)、膽固醇(TC)、谷丙轉(zhuǎn)氨酶(ALT)和血糖(GS)的增高之間有一定的相關(guān)性,但非一致性,即非脂肪肝人群也有可能TG、TC、ALT、GS中有幾項(xiàng)增高。在醫(yī)學(xué)診斷上,如何根據(jù)檢測的TG、TC、ALT、GS來輔助判別是否為脂肪肝有一定的臨床意義。對某單位員工體檢數(shù)據(jù)中的脂肪肝疾病進(jìn)行判別分析,體檢的原始數(shù)據(jù)見表5-8,試用不同的方法進(jìn)行判別分析。對于一個(TG,TC,ALT,GS)為(1.22,7,38,5)的新樣品,試對其做出判別診斷。(數(shù)據(jù)來源[5])4.4.3
判別分析實(shí)例解析4.4.3
判別分析實(shí)例解析4.4.3
判別分析實(shí)例解析1.解析:
運(yùn)行程序、查看結(jié)果,發(fā)現(xiàn)兩種方法的判別結(jié)果相同,對非脂肪肝樣本的分類判別中,第9個、第10個樣品的分類錯誤;對脂肪肝樣本的分類判別中,第14個樣品的分類錯誤;錯誤率為8.33%。對于給定的新樣品,兩種方法都判別其屬于第二類(脂肪肝組)。4.4.3
判別分析實(shí)例解析主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時間序列分析4.74.8
在日常生活中,面臨日趨增多的數(shù)據(jù)信息,當(dāng)需要對項(xiàng)目進(jìn)行決策、方案選擇或者該項(xiàng)目是否存在特定風(fēng)險的情況時(如醫(yī)生通過病人進(jìn)行相關(guān)醫(yī)學(xué)檢查得到的數(shù)據(jù)進(jìn)行疾病診斷),可以利用相關(guān)的數(shù)據(jù)工具進(jìn)行輔助決策。
決策樹(decisionmakingtree)這一概念正是應(yīng)運(yùn)而生,其可以提供形式化的、采用數(shù)據(jù)分析和論證的方法。該方法進(jìn)行嚴(yán)密的邏輯推導(dǎo)和逐漸逼近的數(shù)據(jù)計算方式,從初始決策點(diǎn)開始,根據(jù)所需解決問題的可能發(fā)展方向進(jìn)行分枝,并計算每個分枝發(fā)生的概率和對決策所產(chǎn)生的影響,計算出每個分枝的收益期望,最后根據(jù)該期望進(jìn)行決策選擇的依據(jù),為項(xiàng)目確定、方案選擇或風(fēng)險分析提供合理的決策建議。4.5決策樹
決策樹(decisionmakingtree)是一個類似于流程圖的樹結(jié)構(gòu),是一種用來表示人們?yōu)榱俗鞒瞿骋粋€決策而進(jìn)行一系列判斷過程的樹形圖。決策樹代表著決策集的樹形結(jié)構(gòu),最終結(jié)構(gòu)是一棵樹,其中每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試,每一個分枝代表一個測試輸出,而每個樹葉節(jié)點(diǎn)代表類或類分布。樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)用矩形表示,而樹葉節(jié)點(diǎn)用橢圓表示。由分類已知的某些例子來建構(gòu)決策樹,可以從中歸納出某些規(guī)律性,產(chǎn)生出來的決策樹,也能對未知結(jié)果的例子做預(yù)測。
4.5.1決策樹的基本概念4.5.1決策樹的基本概念解決分類問題的一般方法A1A2A3類1Y100LN2N125SN3Y400LY4N415MN學(xué)習(xí)算法學(xué)習(xí)模型模型應(yīng)用模型TIDA1A2A3類1Y100L?2N125S?3Y400L?4N415M?訓(xùn)練集(類標(biāo)號已知)檢驗(yàn)集(類標(biāo)號未知)歸納推論1、Hunt,Marin和Stone提出的概念學(xué)習(xí)系統(tǒng)(ConceptLearningSystem)CLS,它是決策樹學(xué)習(xí)算法的基礎(chǔ)。2、1975年,J.R.Quinlan提出ID3算法,并在1983年和1986年對ID3進(jìn)行了總結(jié)和簡化,使其成為決策樹學(xué)習(xí)算法的典型。3、Schlimmer和Fisher于1986年對ID3進(jìn)行改造,在每個可能的決策樹節(jié)點(diǎn)創(chuàng)建緩沖區(qū),使決策樹可以遞增式生成,得到ID4算法。4、1988年,Utgoff在ID4基礎(chǔ)上提出了ID5學(xué)習(xí)算法,進(jìn)一步提高了效率。1993年,Quinlan進(jìn)一步發(fā)展了ID3算法,改進(jìn)成C4.5算法。5、C5.0算法是C4.5算法在大數(shù)據(jù)集上應(yīng)用的分類算法。4.5.2相關(guān)算法與決策樹相關(guān)的重要算法CLS,ID3,C4.5,CART,C5.0ID3算法的關(guān)鍵是分支策略的劃分,即如何對選擇的屬性進(jìn)行度量。Gini指標(biāo)、增益率和信息增益是常見的三種度量方法。該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn),從而實(shí)現(xiàn)對數(shù)據(jù)的歸納分類。ID3算法構(gòu)造決策樹的過程
信息增益度是兩個信息量之間的差值,其中一個信息量是需確定T的一個元素的信息量,另一個信息量是在已得到的屬性X的值后需確定的T一個元素的信息量,信息增益度公式為:Gain(X,T)=Information(T)-Information(X,T)式5-20ID3算法計算每個屬性的信息增益,并選取具有最高增益的屬性作為給定集合的測試屬性。對被選取的測試屬性創(chuàng)建一個節(jié)點(diǎn),并以該節(jié)點(diǎn)的屬性標(biāo)記,對該屬性的每個值創(chuàng)建一個分支據(jù)此劃分樣本。ID3決策算法的實(shí)現(xiàn)如下:ID3
(Examples,
Target_Attribute,
Attributes)
1.為決策樹創(chuàng)建一個根節(jié)點(diǎn)。2.如果Examples都為正,那么返回label=+
的單結(jié)點(diǎn)樹Root。//例子的正反表示該對象所屬的類型。3.如果Examples都為反,那么返回label=-的單結(jié)點(diǎn)樹Root。//例子的正反表示該對象所屬的類型。4.如果Attributes為空,那么返回單結(jié)點(diǎn)樹Root,label=Examples中最普遍的Target_attribute值。5.否則
6.A←Attributes中分類Examples能力最好的屬性
7.Root的決策屬性←A
ID3算法構(gòu)造決策樹的過程8.對于A的每個可能值vi9.在Root下加一個新的分支對應(yīng)測試A=vi10.令
Examples(vi)為Examples中滿足A屬性值為vi的子集11.如果
Examples(vi)為空12.在這個新分支下加一個葉子結(jié)點(diǎn),結(jié)點(diǎn)的label=Examples中最普遍Target_attribute值13.否則在這個新分支下加一個子樹ID3(
Examplesvi
,Target_attribute,Attributes-{A})14.結(jié)束15.返回根節(jié)點(diǎn)ID3算法構(gòu)造決策樹的過程
過度擬合是決策樹模型和許多預(yù)測模型所面臨的重要問題,當(dāng)學(xué)習(xí)算法利用假設(shè)反復(fù)進(jìn)行訓(xùn)練集誤差的減少,使得測試集誤差增加則稱為過度擬合。在構(gòu)建決策樹過程中,通常采用下面兩種方法以避免過度擬合:4.5.3決策樹的修剪
在構(gòu)建決策樹過程中,通常采用下面兩種方法以避免過度擬合:預(yù)剪枝(Pre-pruning
):在訓(xùn)練集完全分類前停止決策樹的生長。后剪枝(Post-pruning):允許訓(xùn)練集完全分類,再根據(jù)一定策略,采用自底向上的分層剪枝。例4.7研究糖尿病數(shù)據(jù)(diabetesdataset),構(gòu)造一棵決策樹。通過對于相同人種所具有數(shù)據(jù)庫中對應(yīng)的屬性值判斷該病人是否患有糖尿病。4.5.4決策樹在醫(yī)院患者分析中的應(yīng)用Preg.Plas.Pres.Skin.Insu.Mass.Pedi.Age.Calss.61487235033.60.6275011856629026.60.3513108183640023.30.67232118966239428.10.1672100137403516843.12.2883315116740025.60.20130037850328831.00.2482611011500035.30.1342902197704554330.50.158531表4-10部分測試集數(shù)據(jù)4.5.4決策樹在醫(yī)院患者分析中的應(yīng)用
圖5-14決策樹模型4.5.4決策樹在醫(yī)院患者分析中的應(yīng)用圖5-15決策樹圖形主成分分析多元線性回歸分析聚類分析判別分析4.14.2內(nèi)容導(dǎo)航CONTENTS決策樹分析支持向量機(jī)算法4.34.44.54.6貝葉斯分類算法時間序列分析4.74.84.6支持向量機(jī)算法醫(yī)學(xué)統(tǒng)計、醫(yī)學(xué)圖像分析、輔助診斷等應(yīng)用中常常遇到根據(jù)一批已知類別的經(jīng)驗(yàn)數(shù)據(jù),形成對新的未知類別的類似數(shù)據(jù)進(jìn)行分類判斷的問題,這一類問題都屬于分類問題。常用的分類算法很多,其中,支持向量機(jī)算法就是一種性能良好、應(yīng)用廣泛的分類算法。支持向量機(jī)(SupportVectorMachine,SVM)是CorinnaCortes和Vapnik等在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出的一種新的模式識別方法。該方法在解決小樣本、非線性及高維的模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他問題中。算法將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維特征空間,在高維空間中構(gòu)造線性判別函數(shù)來實(shí)現(xiàn)原空間中的非線性判別函數(shù)。算法最終將轉(zhuǎn)化成為一個二次型尋優(yōu)問題,從理論上說,得到的將是全局最優(yōu)點(diǎn),解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題。所定義的特殊優(yōu)化函數(shù)的性質(zhì)能保證分類器有較好的泛化能力,同時它巧妙地解決了維數(shù)問題,其算法復(fù)雜度與樣本維數(shù)無關(guān)。課件制作人:謝鈞謝希仁4.6.1算法基本思想1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險與泛化能力支持向量機(jī)的一個最顯著的特點(diǎn)是可以很好的解決經(jīng)驗(yàn)風(fēng)險最小(訓(xùn)練樣本錯分最少)和泛化能力最大(最大可能正確地分類新的測試樣本)之間的矛盾。2.線性SVM的工作原理支持向量機(jī)(SVM)中最簡單、最基本的一種是線性SVM。以線性SVM為例可以理解支持向量機(jī)的核心思想和基本工作原理。課件制作人:謝鈞謝希仁1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險與泛化能力分類問題的實(shí)質(zhì):分類問題的實(shí)質(zhì)就是假設(shè)所有的數(shù)據(jù)(訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù))總體符合某一個分布規(guī)律,如果其中有一些數(shù)據(jù)的分類屬性已知(即訓(xùn)練數(shù)據(jù)),我們就可以從訓(xùn)練數(shù)據(jù)中取尋找數(shù)據(jù)分布規(guī)律,并且將其當(dāng)做總體數(shù)據(jù)的分布規(guī)律,從而也對未知分類屬性的數(shù)據(jù)(即測試樣本)進(jìn)行分類。課件制作人:謝鈞謝希仁1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險與泛化能力經(jīng)驗(yàn)風(fēng)險最小化:經(jīng)驗(yàn)風(fēng)險最小化就是要求訓(xùn)練樣本錯分最少,如圖的是一個較簡單的例子,訓(xùn)練樣本是線性可分的,即可以用一條直線將正負(fù)兩類訓(xùn)練樣本完全分開。滿足經(jīng)驗(yàn)風(fēng)險最小的分類線可能不止一條,如圖所示,L1、L2、…L5都是滿足經(jīng)驗(yàn)風(fēng)險最小的分類線,那么當(dāng)遇到新的數(shù)據(jù)點(diǎn)(測試樣本)時,這些分類線是否也都能正確呢?答案是否定的。比如,明顯屬于class1的測試樣本P2就會被分類線L4錯誤的分類為class2。由此認(rèn)為,分類線L4的泛化能力不夠強(qiáng)。這說明,即使一個分類線滿足經(jīng)驗(yàn)風(fēng)險最小的條件,并不能保證其具有好的泛化能力。課件制作人:謝鈞謝希仁1.分類算法的基本概念、經(jīng)驗(yàn)風(fēng)險與泛化能力1.經(jīng)驗(yàn)風(fēng)險最小和泛化能力最大之間的矛盾當(dāng)訓(xùn)練樣本有噪聲數(shù)據(jù)(分類標(biāo)號錯誤的訓(xùn)練樣本)存在時,如果一味追求經(jīng)驗(yàn)風(fēng)險最小,那么可能為了將噪聲數(shù)據(jù)“正確”地分類而得到泛化能力很差的分類線。如圖所示,若訓(xùn)練數(shù)據(jù)中存在一個噪聲點(diǎn)q1,從分布規(guī)律上看q1應(yīng)當(dāng)屬于class2這一類,但它的分類標(biāo)號被錯誤的標(biāo)記為class1。則由于q1的存在,原有的L1、L2、…L5等分類線都不滿足經(jīng)驗(yàn)風(fēng)險最小化的條件(都錯分q1),而僅有L6滿足條件,但是顯然L6在分類其它新的訓(xùn)練樣本的時候,其分類性能是遠(yuǎn)遠(yuǎn)不如L2的。這說明,我們所希望的兩個分類器具有的性能中,經(jīng)驗(yàn)風(fēng)險最小和泛化能力最大這兩者之間存在著矛盾。課件制作人:謝鈞謝希仁2.線性SVM的工作原理支持向量機(jī)著重解決分類的泛化能力。該算法認(rèn)為,分類的過程中,如果類別間隔越大,那么分類界限對新的樣本分錯的概率就越小,即泛化能力越大。支持向量機(jī)的基本工作原理是找到這樣的分類線,使得它能夠盡可能多的將兩類訓(xùn)練樣本的數(shù)據(jù)點(diǎn)正確的分開,同時使分開的兩類訓(xùn)練樣本的數(shù)據(jù)點(diǎn)距離分類線最遠(yuǎn)(直觀地說就是“最大化間隔”)。課件制作人:謝鈞謝希仁2.線性SVM的工作原理如圖1所示,L1是任意一條滿足經(jīng)驗(yàn)風(fēng)險最小的分類線,將分類線L1分別往左右兩邊平行移動,平移過程中分別在兩個方向各自遇到的首個正/負(fù)樣本中的數(shù)據(jù)點(diǎn)即為“支持向量”,“支持向量”是訓(xùn)練樣本中距離類別交界處最近的數(shù)據(jù)點(diǎn);由“支持向量”和分類線方向可以共同確定邊界直線L2和L3;夾在邊界直線L2和L3之間的區(qū)域即為類別“間隔”(如圖1的黃色區(qū)域所示)。同樣的,如圖2所示,L’1是也一條滿足經(jīng)驗(yàn)風(fēng)險最小的分類線,黃色區(qū)域是確定L’1為分類線的情況下的類別“間隔”。顯然,由于圖1所示的類別“間隔”大于圖2所示的類別“間隔”,當(dāng)新的測試樣本在“間隔”區(qū)域內(nèi)出現(xiàn)時,前者錯分的可能性要小于后者。課件制作人:謝鈞謝希仁2.線性SVM的工作原理考慮當(dāng)類別“間隔”不變,分類線位置發(fā)生平移的情況。如圖所示,當(dāng)分類線在邊界直線L2和L3之間平行移動時,可以得到不同的分類線(如L1和L’1)。如果分類線和某一邊界直線之間的距離越近,那么該邊界直線外的測試樣本(實(shí)際屬于該類別)被錯分的可能性越大。分類線L’1和邊界直線L3之間的距離小于L1和L3之間的距離,那么,對于實(shí)際屬于class2類別的測試數(shù)據(jù)P1,分類線L’1會將其錯誤地分類為class1;但是分類線L1則會將其正確分類。由此可知,最優(yōu)分類線的特點(diǎn)是滿足類別“間隔”最大化,同時,最優(yōu)分類線本身到兩條邊界直線的距離相等。課件制作人:謝鈞謝希仁4.6.2線性SVM的求解過程根據(jù)線性SVM原理分析已知,所求的最優(yōu)分類線的特點(diǎn)是滿足類別“間隔”(即兩條邊界直線之間的距離)最大化,同時,最優(yōu)分類線本身到兩條邊界直線的距離相等。因此,上述最優(yōu)分類界限的求解,可以等價變換為有約束條件的最優(yōu)化問題,以2維特征空間為例,可以推廣到n維空間。課件制作人:謝鈞謝希仁4.6.2線性SVM的求解過程對2維空間中的m個訓(xùn)練數(shù)據(jù),以向量形式表示,記為,則可令記為訓(xùn)練樣本點(diǎn)的集合,且為訓(xùn)練樣本的類標(biāo)號。若確定直線方向,則可知是否存在符合分類條件的分類線。若存在符合分類條件的分類線(平行的多條),則必然也能找到經(jīng)過支持向量且平行于分類線的兩條類邊界線。且多條分類線中只需考慮距離兩條類邊界線等距離的分類線作為候選的最優(yōu)分類線。候選的最優(yōu)分類線的直線的方程可以記為:,同時可以將兩條類邊界線的直線方程表示為:和。此時,根據(jù)最優(yōu)分類線和所有訓(xùn)練數(shù)據(jù)點(diǎn)的位置關(guān)系,對,必然有成立;對,必然有成立;對于那些支持向量,必然有成立。課件制作人:謝鈞謝希仁4.6.2線性SVM的求解過程同時,任一訓(xùn)練數(shù)據(jù)與候選的最優(yōu)分類線的距離為:,候選的最優(yōu)分類線與兩類訓(xùn)練數(shù)據(jù)中的支持向量的距離都為,即該方向的分類線所能得到的最大的類別“間隔”為。因此,SVM所求的最優(yōu)分界面可表示為如下目標(biāo)函數(shù)的優(yōu)化問題:約束條件:該優(yōu)化函數(shù)為二次型,約束條件是線性的,因此是典型的二次規(guī)劃問題,可由拉格朗日乘子法求解。課件制作人:謝鈞謝希仁4.6.3其他類型的支持向量機(jī)軟間隔SVM對存在數(shù)據(jù)污染、近似線性分類的情況,可能并不存在一個最優(yōu)的線性分類面,存在噪聲數(shù)據(jù)時,為保證所有訓(xùn)練數(shù)據(jù)的準(zhǔn)確分類,可能會導(dǎo)致過擬合。因此,需要發(fā)展允許有一定范圍內(nèi)的“錯分”,又有較大分類間隔的最優(yōu)分類面。為此提出的一種解決方法是軟間隔SVM,又稱廣義最優(yōu)分類面SVM,通過引入錯誤分類樣本,以增大分類間隔。實(shí)際上,廣義最優(yōu)分類面是在分類準(zhǔn)確性與泛化特性上尋求一個平衡點(diǎn)。非線性SVM訓(xùn)練樣本非線性可分,將其映射到高維空間,可使樣本在新的高位特征空間中線性可分。低維特征空間到高維特征空間的映射通過核變換實(shí)現(xiàn)。不同的核函數(shù)對應(yīng)于不同的核變換。課件制作人:謝鈞謝希仁4.6.4matlab的SVM函數(shù)使用Matlab中有專門用來進(jìn)行SVM訓(xùn)練和分類的函數(shù):svmtrain和svmclassify函數(shù)。svmtrain函數(shù)的作用:根據(jù)輸入的訓(xùn)練數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的類別,訓(xùn)練SVM分類器,得到分類界限。svmtrain函數(shù)的基本使用(語法及調(diào)用參數(shù)):SVMStruct=svmtrain(Training,Group)Training:訓(xùn)練數(shù)據(jù)的所有屬性(N*K維數(shù)組,N個訓(xùn)練樣本,K個屬性)Group:訓(xùn)練數(shù)據(jù)的類別標(biāo)號(N*1維數(shù)組,取值為0或1,分別表示正負(fù)樣本)SVMStruct:訓(xùn)練得到的SVM分類器(包括分類界限、支持向量等)課件制作人:謝鈞謝希仁4.6.4matlab的SVM函數(shù)使用svmclassify函數(shù)的作用:輸入之前訓(xùn)練得到的SVM分類器和待分類的測試數(shù)據(jù),得到測試數(shù)據(jù)的類別標(biāo)號。svmclassify函數(shù)的基本使用(語法及調(diào)用參數(shù)):Group=svmclassify(SVMStruct,Sample)SVMStruct:之前訓(xùn)練得到的SVM分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年《價值為綱》學(xué)習(xí)心得范例(3篇)
- 課題申報參考:接受美學(xué)視野下的卞之琳莎學(xué)研究
- 課題申報參考:教育強(qiáng)國進(jìn)程中高校繼續(xù)教育高質(zhì)量發(fā)展的保障機(jī)制和推進(jìn)路徑研究
- 2025版房地產(chǎn)銷售代理授權(quán)委托合同3篇
- 二零二五年度物流倉儲中心臨時搬運(yùn)工勞動合同書4篇
- 2025版學(xué)校游泳池配套設(shè)施租賃與管理承包合同示范2篇
- 二零二五版藝術(shù)品拍賣師傭金分成合同3篇
- 個性化離婚合同與起訴狀套裝2024版版B版
- 二零二五年度健康管理與養(yǎng)老服務(wù)業(yè)合作協(xié)議3篇
- 二零二五年度圖書封面及插圖設(shè)計合同4篇
- 山東鐵投集團(tuán)招聘筆試沖刺題2025
- 真需求-打開商業(yè)世界的萬能鑰匙
- 2025年天津市政集團(tuán)公司招聘筆試參考題庫含答案解析
- GB/T 44953-2024雷電災(zāi)害調(diào)查技術(shù)規(guī)范
- 2024-2025學(xué)年度第一學(xué)期三年級語文寒假作業(yè)第三天
- 2024年列車員技能競賽理論考試題庫500題(含答案)
- 心律失常介入治療
- 6S精益實(shí)戰(zhàn)手冊
- 展會場館保潔管理服務(wù)方案
- 監(jiān)理從業(yè)水平培訓(xùn)課件
- 廣東省惠州市實(shí)驗(yàn)中學(xué)2025屆物理高二第一學(xué)期期末綜合測試試題含解析
評論
0/150
提交評論