距離、廣義平方距離與Bayes判別_第1頁(yè)
距離、廣義平方距離與Bayes判別_第2頁(yè)
距離、廣義平方距離與Bayes判別_第3頁(yè)
距離、廣義平方距離與Bayes判別_第4頁(yè)
距離、廣義平方距離與Bayes判別_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

判別分析距離判別、Bayes判別一、距離判別1、距離判別所用DISCRIM過(guò)程(一般判別過(guò)程)簡(jiǎn)介常用格式如下:PROCDISCRIM<options>;CLASSvariable;VARvariable;RUN;常用語(yǔ)句說(shuō)明:PROCDISCRIM語(yǔ)句語(yǔ)句一般格式:PROCDISCRIM<options>;表示調(diào)用DISCRIM過(guò)程,開(kāi)始執(zhí)行判別分析。voptions>選項(xiàng)一般有如下幾類(lèi):數(shù)據(jù)集選項(xiàng)(1)DATA=SAS-data-set指定分析的數(shù)據(jù)集,缺省為最新創(chuàng)建數(shù)據(jù)集;(2)TESTDATA=SAS-data-set指定待分類(lèi)的輸入觀測(cè)數(shù)據(jù)集。(3)OUT=SAS-data-set:生成輸出數(shù)據(jù)集,包括來(lái)自輸入數(shù)據(jù)集的所有數(shù)據(jù),后驗(yàn)概率以及每個(gè)觀測(cè)被重復(fù)替換后所分入的類(lèi)。判別方法選項(xiàng)MEIHOD=NORMALINPAR:確定導(dǎo)出分類(lèi)準(zhǔn)則的方法。當(dāng)指定方法為NORMAL時(shí),導(dǎo)出的判別函數(shù)基于組內(nèi)總體是正態(tài)分布的,而當(dāng)指定的方法為NPAR時(shí),導(dǎo)出的判別函數(shù)基于非參數(shù)方法,缺省時(shí)系統(tǒng)設(shè)定為正態(tài)。POOL=NOITESTIYES:確定計(jì)算平方距離是以合計(jì)協(xié)方差陣還是組內(nèi)協(xié)方差陣為基礎(chǔ)。缺省時(shí)系統(tǒng)規(guī)定采用合并協(xié)方差陣導(dǎo)出線性判別函數(shù),此時(shí)系統(tǒng)暗含假定各組協(xié)方差陣相等;POOL=NO采用組內(nèi)協(xié)方差陣導(dǎo)出線性判別函數(shù),暗含假定各組協(xié)方差陣不相等;POOL=TEST,對(duì)組內(nèi)協(xié)方差陣進(jìn)行齊性檢驗(yàn),根據(jù)檢驗(yàn)結(jié)果導(dǎo)出判別函數(shù)。其它常用判別方法選項(xiàng)LIST:列出每個(gè)觀測(cè)重復(fù)替換分類(lèi)結(jié)果。WCOV:輸出組內(nèi)協(xié)力差陣的估計(jì)。PCOV:合并類(lèi)內(nèi)協(xié)方差陣估計(jì)。DISTANCE:輸出類(lèi)均值之間的平方距離SIMPLE:輸出簡(jiǎn)單描述統(tǒng)計(jì)量。CLASS語(yǔ)句一般格式為:CLASSvariable;該語(yǔ)句規(guī)定進(jìn)行判別分析的分類(lèi)變量,可以是字符型的,也可以是數(shù)值型的。VAR語(yǔ)句一般格式為:VARvariable;用來(lái)指明用來(lái)建立判別函數(shù)的變量。2、距離判別應(yīng)用舉例(課本181頁(yè))例5?1?1(鹽泉含鉀性判別)某地區(qū)經(jīng)勘探證明A盆地是一個(gè)鉀鹽礦區(qū),B盆地是一個(gè)鈉鹽礦區(qū),其他鹽盆地是否含鉀鹽有待作出判斷.今從A,B兩盆地各抽取5個(gè)鹽泉樣品:從其他盆地抽得8個(gè)鹽泉樣品,18個(gè)鹽泉的特征數(shù)值見(jiàn)表5.1.試對(duì)后8個(gè)待判鹽泉進(jìn)行含鉀性判別.鹽泉類(lèi)別序1號(hào)K-10J/CLBr?103/CI(X2)K-io7s鹽(Xj)K/Br(X4)2,797.8049.60第-類(lèi):4.67J2.3147.80含鉀鹽泉4.6316,1862153,517.5043204.90161258.10華—類(lèi)?62.IK1.U6l+2220.6073.85打”怖47.10金含鉀鹽辰a11.40O.OU3.500.0093.662.422.idIS.101U12.100.005.6S000R85"5.1726,10待28.602.401,29127.00判20.706.7U了330.2Uv.yu2.4U4.3033.20鹽3.L93.201^39.9012.405,104.432460臬16.803一40231萄.nc15.002.W502f.4F面用SAS/STAT軟件中的DISCRIM過(guò)程進(jìn)行判別歸類(lèi):以下SAS程序首先生成SAS數(shù)據(jù)集D511,然后調(diào)用DISCRIM過(guò)程對(duì)含鉀和不含鉀的A,B兩類(lèi)盆地的10個(gè)樣品特征測(cè)量值用距離判別的方法,建立線性判別函數(shù).并對(duì)已知類(lèi)別的樣品和待判樣品進(jìn)行判別歸類(lèi)。輸出5.1.1至輸出5.1.4是SAS程序輸出的部分結(jié)果.SAS程序如下:(假定兩組總體協(xié)方差陣相等)datad511;inputx1-x4group$;cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.5043.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00B8.853.385.1702.401.20127.020.706.707.6030.207.902.404.3001.439.9012.405.104.4324.6016.803.402.3131.3015.002.705.0264.00procdiscrimdata=d511wcovpcovdistancelist;classgroup;varx1-x4;run;程序解釋說(shuō)明:(1)DATA步創(chuàng)建一個(gè)用于建立判別函數(shù)和歸類(lèi)的名為d511的SAS數(shù)據(jù)集。其中x1--x4為鹽泉的四個(gè)特征數(shù)值,group為分類(lèi)變量,為字符型。數(shù)據(jù)行的后八行為待判樣品,不參與判別函數(shù)的創(chuàng)建,group為缺省值代表要求判別歸類(lèi)。(2)procdiscrim表示調(diào)用discrim過(guò)程,選項(xiàng)data=d511指定分析的輸入數(shù)據(jù)集,缺省時(shí)采用最新創(chuàng)建的SAS數(shù)據(jù)集;(3)選項(xiàng)wcovpcov分別要求輸出組內(nèi)協(xié)方差陣(即S1和S2)和合并樣本協(xié)方差陣(即S)(見(jiàn)輸出5?1-1)(4)選項(xiàng)distance要求輸出各組間的距離(見(jiàn)輸出輸出5?1-2);(5)選項(xiàng)1ist要求輸出按距離準(zhǔn)則的判別結(jié)果(見(jiàn)輸出輸出5?1-4)。(6)class語(yǔ)句規(guī)定進(jìn)行判別分析的分類(lèi)變量,即group;(7)var語(yǔ)句指明用來(lái)建立判別函數(shù)的變量。主要輸出結(jié)果:輸出5.1-1組內(nèi)協(xié)方差陣(即5和s)和合并樣本協(xié)方12差陣(即S)

TheDISCRIMProcedureyflth.ln-ClassCovarianceMatricesgroup=AjDF=4Variablcxlx22e3k4xl50.9D5G20005.0157000030.24GG450047.02C05000K25.915760000.B1BB30003.4276&00098310000k330.24.G645003.127G6000IS.1075200025.95507500x447.02(5^50003.9S3丄CJijijij28.eiBBO750Qt5Q.23200000group=E,DF=4:Variablexlx2x3x4x丄一芒.b4UbbUU6.lluubuu-57.0293500k2-3.54066000.9S90S0Q-1.1221000&.2953000x36.1400500-1.12240002.9BBOOOOnrjsoooox4-67.02^35006.2953000-6.5560000374.9030000PooledWithin-ClassCovarianceMatrix,DF=BVa.riabluxlxSxl36.62597001.187550018.1933475-10.0012000x21.18755000.90395501.15263005.1392000x3IS.19334751.152630010.547910011.2160375x4-10.00120005.139200011.2160375217.5675000輸出5.1-2組間距離及兩組總體均值差異的顯著性檢驗(yàn)SquaredDietNnuE1ogroupFromgroup037.0287S037.0287S37.025760FStatieticEjNDF=4,FStatieticEjNDF=4,DDF=5forSquaredDistancetogroupFromgroup014.1G<3G014.1G<3G14.4=64360FromgroupFromgroupABFrob>MahalanobisDistanceforSq-tiared.Dis丈玄口匚巳togrcuriAB1.00000.00590.00591.0000A,B兩組間距離為37.02876,檢驗(yàn)H°:卩⑴二卩⑵的F統(tǒng)計(jì)量值為14.46436,對(duì)應(yīng)P值=0?0059v0?05,故A,B兩組均值有顯著差異,即A,B兩個(gè)盆地的鹽泉特征有顯著差異,故判別歸類(lèi)問(wèn)題有意義。輸出5?1-3線性判別函數(shù)LinearDiscriminantFunction_-1_-1_Constant=5COVXCoefficientVector=COVXTOC\o"1-5"\h\zI■IJJJLinearDiscriminantFimctionXorgroupVariableABConstant-42.24731-5.16272xl7.674122.93107x25.548811.35698x3-13.96307-5.373S31.181310.455S3TOC\o"1-5"\h\z得到線性判別函數(shù)如下A盆地(含鉀鹽泉)Y=—42.24731+7.67412X+5.54881X—13.96307X+1.18131XA1234B盆地(不含鉀鹽泉)Y=—5.162721+2.93107X+1.35698X—5.37383X+0.45583XB1234輸出5?1-4由選項(xiàng)list要求列出的判別結(jié)果PosteriorProbabilityofMembershiringroupPosteriorProbabilityofMembershiringroupFronObsgroupClassifiedintogroupFronObsgroupClassifiedintogroup半*半*#*羋*o.亦g1.?oco1.?oco1.?oco1.mrno.?oco0.00000.?ocou.」ULUo.?oco0.julo1.?oco1.?oco0.MED0.^oco1.mrn1.?oco1.)o(()mio.cocoo.oocoo.ooco0.00001.coco1,00001.ooco1.UULU1.coco0.99S4:0.ooco0.ooco0.91701.DOCO0.00000.ooco*JlisclaEsifiEd')bserv£ti回判結(jié)果全部正確,8個(gè)待判鹽泉1,4,5歸為B,為不含鉀鹽泉,2,3,6,7,8歸位A,為含鉀鹽泉?;蛘邔⒋袆e的數(shù)據(jù)單獨(dú)形成一個(gè)數(shù)據(jù)集,SAS程序如下:datads511;inputx1-x4group$;cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.5043.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00Bdatad511test;inputx1-x4group$;cards;8.853.385.1702.401.2006.707.6002.404.3093.201.405.104.4303.402.302.705.0264.00.procdiscrimdata=ds511testdata=d511testwcovpcovdistancelisttestlist;classgroup;varx1-x4;run;在協(xié)方差陣是否相等不能確定的情況下,添加選項(xiàng)pool=test首先檢驗(yàn)協(xié)方差陣是否相等,采用如下程序:procdiscrimdata=ds511testdata=d511testpool=testslpool=0?05list;classgroup;varx1-x4;run;組內(nèi)協(xié)方差陣齊性的檢驗(yàn)結(jié)果TheDISCRIMProcedureTestofHomogeneityofWithinCovarianceMatrices

Chi-SquareDFPr>ChiSq19.055381100.0396SincetheChi-Squarevalueissignificantatthe0.05

level,thewithincovariancematriceswillbeusedinthediscriminantfunction.卡方檢驗(yàn)的P值為O?0396vO?O5,所以拒絕協(xié)方差陣相等的假設(shè),即不相等。所以判別函數(shù)應(yīng)為二次函數(shù)。類(lèi)間配對(duì)廣義馬氏距離Pairwise(3總neraIizedSquaredDistancesBetweenGroupsD2D2(i|j)=(X-X丫CO/'(X-X)+InIcovIGenerali^edSquaredDistancetogroupFromgroupGenerali^edSquaredDistancetogroupFromgroup-1,862637153-1,862637153305.41916B.17092判別結(jié)果PostezriorProbabi1ityofMembershipingroupOtosFzronigroupClaesifiedlntogroupOtosFzronigroupClaesifiedlntogroup1112:1V1112:1VLi1hL&LYIS0.0000n.nnnno.oooo0.00000.00001.uuuu1.00001.00001.00001.00001.00001.00001.nnnn1.oooo1.oooo0.56771.uuuu1.oooo1.00001.nnnn1.oooo1.00001.0000u.uuuu0.00000.00000.00000.00000.00000.0000n.nnnno.oooo0.()0000.1323u.uuuu0.0000乂Misclassified回判結(jié)果全部正確,待判別的8各鹽泉全歸為B,即不含鉀。二、廣義平方距離判別和Bayes判別當(dāng)先驗(yàn)概率和各組協(xié)方差陣都相等等時(shí),廣義平方距離判別法即為馬氏距離判別法。廣義平方距離判別調(diào)用discrim過(guò)程。當(dāng)各組協(xié)方差陣相等時(shí),Bayes判別法與協(xié)方差陣相等情況下的馬氏距離判別法一致;當(dāng)各組協(xié)方差陣不相等時(shí),此時(shí)的Bayes判別法與協(xié)方差陣不全相等情況下的廣義平方距離判別法一致。應(yīng)用舉例(課本191頁(yè))例5.2.2(胃癌的鑒別)下表是從病例中隨機(jī)抽取的部分資料,這里有二個(gè)總體:胃癌、萎縮件胃炎和非胃炎患者.從每個(gè)總體抽5個(gè)病人,每人化驗(yàn)4項(xiàng)生化指標(biāo):血清銅蛋白(XI)、藍(lán)色反應(yīng)(X2)、尿吲哚乙酸(x3)和中性硫化物(X4).試用廣義平方距離判別方法建立判別準(zhǔn)則并對(duì)這15個(gè)樣品進(jìn)行判別歸類(lèi)。表5.2胃癌檢驗(yàn)的生化指標(biāo)SAS程序如下datad522;inputgroupx1-x4@@;cards;122813420111245134104012001671227117015078110016720142225125714213010061221501177621201331026216010051031851155193170125643165142533135108212310011772procdiscrimdata=d522pool=nodistancelist;classgroup;priorsequal;varx1-x4;run;程序解釋說(shuō)明:(1)pool=no表示認(rèn)為三個(gè)總體的協(xié)方差陣不全相等,此時(shí)采用廣義平方距離進(jìn)行判別歸類(lèi);(2)priorsequal;假定先驗(yàn)概率相等,都為1/3?PRIORS語(yǔ)句:該語(yǔ)句指定各組中成員出現(xiàn)的先驗(yàn)概率?一般格式:Priorsequal;規(guī)定先驗(yàn)概率相等Priorsproportionallprop;規(guī)定先驗(yàn)概率為各組

樣本出現(xiàn)的比例Priorsprobabilities;指定各個(gè)組(即分類(lèi)變量的各個(gè)水平)的先驗(yàn)概率如:priorsA=0?1B=0?3C=0?5片0.1;如果分類(lèi)變量的水平值為小寫(xiě)字符或數(shù)值時(shí)必須用括號(hào)括起來(lái).Priors‘a(chǎn)'=0.1‘b'=0?3‘c'=0?5‘d'=0?1;Priors‘l'=0?1‘2'=0?3‘3'=0?5‘4'=0?1;主要輸出結(jié)果:輸出(A)兩兩配對(duì)的組間

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論