版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
判別分析距離判別、Bayes判別一、距離判別1、距離判別所用DISCRIM過程(一般判別過程)簡介常用格式如下:PROCDISCRIM<options>;CLASSvariable;VARvariable;RUN;常用語句說明:PROCDISCRIM語句語句一般格式:PROCDISCRIM<options>;表示調用DISCRIM過程,開始執(zhí)行判別分析。voptions>選項一般有如下幾類:數(shù)據(jù)集選項(1)DATA=SAS-data-set指定分析的數(shù)據(jù)集,缺省為最新創(chuàng)建數(shù)據(jù)集;(2)TESTDATA=SAS-data-set指定待分類的輸入觀測數(shù)據(jù)集。(3)OUT=SAS-data-set:生成輸出數(shù)據(jù)集,包括來自輸入數(shù)據(jù)集的所有數(shù)據(jù),后驗概率以及每個觀測被重復替換后所分入的類。判別方法選項MEIHOD=NORMALINPAR:確定導出分類準則的方法。當指定方法為NORMAL時,導出的判別函數(shù)基于組內總體是正態(tài)分布的,而當指定的方法為NPAR時,導出的判別函數(shù)基于非參數(shù)方法,缺省時系統(tǒng)設定為正態(tài)。POOL=NOITESTIYES:確定計算平方距離是以合計協(xié)方差陣還是組內協(xié)方差陣為基礎。缺省時系統(tǒng)規(guī)定采用合并協(xié)方差陣導出線性判別函數(shù),此時系統(tǒng)暗含假定各組協(xié)方差陣相等;POOL=NO采用組內協(xié)方差陣導出線性判別函數(shù),暗含假定各組協(xié)方差陣不相等;POOL=TEST,對組內協(xié)方差陣進行齊性檢驗,根據(jù)檢驗結果導出判別函數(shù)。其它常用判別方法選項LIST:列出每個觀測重復替換分類結果。WCOV:輸出組內協(xié)力差陣的估計。PCOV:合并類內協(xié)方差陣估計。DISTANCE:輸出類均值之間的平方距離SIMPLE:輸出簡單描述統(tǒng)計量。CLASS語句一般格式為:CLASSvariable;該語句規(guī)定進行判別分析的分類變量,可以是字符型的,也可以是數(shù)值型的。VAR語句一般格式為:VARvariable;用來指明用來建立判別函數(shù)的變量。2、距離判別應用舉例(課本181頁)例5?1?1(鹽泉含鉀性判別)某地區(qū)經(jīng)勘探證明A盆地是一個鉀鹽礦區(qū),B盆地是一個鈉鹽礦區(qū),其他鹽盆地是否含鉀鹽有待作出判斷.今從A,B兩盆地各抽取5個鹽泉樣品:從其他盆地抽得8個鹽泉樣品,18個鹽泉的特征數(shù)值見表5.1.試對后8個待判鹽泉進行含鉀性判別.鹽泉類別序1號K-10J/CLBr?103/CI(X2)K-io7s鹽(Xj)K/Br(X4)2,797.8049.60第-類:4.67J2.3147.80含鉀鹽泉4.6316,1862153,517.5043204.90161258.10華—類?62.IK1.U6l+2220.6073.85打”怖47.10金含鉀鹽辰a11.40O.OU3.500.0093.662.422.idIS.101U12.100.005.6S000R85"5.1726,10待28.602.401,29127.00判20.706.7U了330.2Uv.yu2.4U4.3033.20鹽3.L93.201^39.9012.405,104.432460臬16.803一40231萄.nc15.002.W502f.4F面用SAS/STAT軟件中的DISCRIM過程進行判別歸類:以下SAS程序首先生成SAS數(shù)據(jù)集D511,然后調用DISCRIM過程對含鉀和不含鉀的A,B兩類盆地的10個樣品特征測量值用距離判別的方法,建立線性判別函數(shù).并對已知類別的樣品和待判樣品進行判別歸類。輸出5.1.1至輸出5.1.4是SAS程序輸出的部分結果.SAS程序如下:(假定兩組總體協(xié)方差陣相等)datad511;inputx1-x4group$;cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.5043.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00B8.853.385.1702.401.20127.020.706.707.6030.207.902.404.3001.439.9012.405.104.4324.6016.803.402.3131.3015.002.705.0264.00procdiscrimdata=d511wcovpcovdistancelist;classgroup;varx1-x4;run;程序解釋說明:(1)DATA步創(chuàng)建一個用于建立判別函數(shù)和歸類的名為d511的SAS數(shù)據(jù)集。其中x1--x4為鹽泉的四個特征數(shù)值,group為分類變量,為字符型。數(shù)據(jù)行的后八行為待判樣品,不參與判別函數(shù)的創(chuàng)建,group為缺省值代表要求判別歸類。(2)procdiscrim表示調用discrim過程,選項data=d511指定分析的輸入數(shù)據(jù)集,缺省時采用最新創(chuàng)建的SAS數(shù)據(jù)集;(3)選項wcovpcov分別要求輸出組內協(xié)方差陣(即S1和S2)和合并樣本協(xié)方差陣(即S)(見輸出5?1-1)(4)選項distance要求輸出各組間的距離(見輸出輸出5?1-2);(5)選項1ist要求輸出按距離準則的判別結果(見輸出輸出5?1-4)。(6)class語句規(guī)定進行判別分析的分類變量,即group;(7)var語句指明用來建立判別函數(shù)的變量。主要輸出結果:輸出5.1-1組內協(xié)方差陣(即5和s)和合并樣本協(xié)方12差陣(即S)
TheDISCRIMProcedureyflth.ln-ClassCovarianceMatricesgroup=AjDF=4Variablcxlx22e3k4xl50.9D5G20005.0157000030.24GG450047.02C05000K25.915760000.B1BB30003.4276&00098310000k330.24.G645003.127G6000IS.1075200025.95507500x447.02(5^50003.9S3丄CJijijij28.eiBBO750Qt5Q.23200000group=E,DF=4:Variablexlx2x3x4x丄一芒.b4UbbUU6.lluubuu-57.0293500k2-3.54066000.9S90S0Q-1.1221000&.2953000x36.1400500-1.12240002.9BBOOOOnrjsoooox4-67.02^35006.2953000-6.5560000374.9030000PooledWithin-ClassCovarianceMatrix,DF=BVa.riabluxlxSxl36.62597001.187550018.1933475-10.0012000x21.18755000.90395501.15263005.1392000x3IS.19334751.152630010.547910011.2160375x4-10.00120005.139200011.2160375217.5675000輸出5.1-2組間距離及兩組總體均值差異的顯著性檢驗SquaredDietNnuE1ogroupFromgroup037.0287S037.0287S37.025760FStatieticEjNDF=4,FStatieticEjNDF=4,DDF=5forSquaredDistancetogroupFromgroup014.1G<3G014.1G<3G14.4=64360FromgroupFromgroupABFrob>MahalanobisDistanceforSq-tiared.Dis丈玄口匚巳togrcuriAB1.00000.00590.00591.0000A,B兩組間距離為37.02876,檢驗H°:卩⑴二卩⑵的F統(tǒng)計量值為14.46436,對應P值=0?0059v0?05,故A,B兩組均值有顯著差異,即A,B兩個盆地的鹽泉特征有顯著差異,故判別歸類問題有意義。輸出5?1-3線性判別函數(shù)LinearDiscriminantFunction_-1_-1_Constant=5COVXCoefficientVector=COVXTOC\o"1-5"\h\zI■IJJJLinearDiscriminantFimctionXorgroupVariableABConstant-42.24731-5.16272xl7.674122.93107x25.548811.35698x3-13.96307-5.373S31.181310.455S3TOC\o"1-5"\h\z得到線性判別函數(shù)如下A盆地(含鉀鹽泉)Y=—42.24731+7.67412X+5.54881X—13.96307X+1.18131XA1234B盆地(不含鉀鹽泉)Y=—5.162721+2.93107X+1.35698X—5.37383X+0.45583XB1234輸出5?1-4由選項list要求列出的判別結果PosteriorProbabilityofMembershiringroupPosteriorProbabilityofMembershiringroupFronObsgroupClassifiedintogroupFronObsgroupClassifiedintogroup半*半*#*羋*o.亦g1.?oco1.?oco1.?oco1.mrno.?oco0.00000.?ocou.」ULUo.?oco0.julo1.?oco1.?oco0.MED0.^oco1.mrn1.?oco1.)o(()mio.cocoo.oocoo.ooco0.00001.coco1,00001.ooco1.UULU1.coco0.99S4:0.ooco0.ooco0.91701.DOCO0.00000.ooco*JlisclaEsifiEd')bserv£ti回判結果全部正確,8個待判鹽泉1,4,5歸為B,為不含鉀鹽泉,2,3,6,7,8歸位A,為含鉀鹽泉?;蛘邔⒋袆e的數(shù)據(jù)單獨形成一個數(shù)據(jù)集,SAS程序如下:datads511;inputx1-x4group$;cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.5043.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00Bdatad511test;inputx1-x4group$;cards;8.853.385.1702.401.2006.707.6002.404.3093.201.405.104.4303.402.302.705.0264.00.procdiscrimdata=ds511testdata=d511testwcovpcovdistancelisttestlist;classgroup;varx1-x4;run;在協(xié)方差陣是否相等不能確定的情況下,添加選項pool=test首先檢驗協(xié)方差陣是否相等,采用如下程序:procdiscrimdata=ds511testdata=d511testpool=testslpool=0?05list;classgroup;varx1-x4;run;組內協(xié)方差陣齊性的檢驗結果TheDISCRIMProcedureTestofHomogeneityofWithinCovarianceMatrices
Chi-SquareDFPr>ChiSq19.055381100.0396SincetheChi-Squarevalueissignificantatthe0.05
level,thewithincovariancematriceswillbeusedinthediscriminantfunction.卡方檢驗的P值為O?0396vO?O5,所以拒絕協(xié)方差陣相等的假設,即不相等。所以判別函數(shù)應為二次函數(shù)。類間配對廣義馬氏距離Pairwise(3總neraIizedSquaredDistancesBetweenGroupsD2D2(i|j)=(X-X丫CO/'(X-X)+InIcovIGenerali^edSquaredDistancetogroupFromgroupGenerali^edSquaredDistancetogroupFromgroup-1,862637153-1,862637153305.41916B.17092判別結果PostezriorProbabi1ityofMembershipingroupOtosFzronigroupClaesifiedlntogroupOtosFzronigroupClaesifiedlntogroup1112:1V1112:1VLi1hL&LYIS0.0000n.nnnno.oooo0.00000.00001.uuuu1.00001.00001.00001.00001.00001.00001.nnnn1.oooo1.oooo0.56771.uuuu1.oooo1.00001.nnnn1.oooo1.00001.0000u.uuuu0.00000.00000.00000.00000.00000.0000n.nnnno.oooo0.()0000.1323u.uuuu0.0000乂Misclassified回判結果全部正確,待判別的8各鹽泉全歸為B,即不含鉀。二、廣義平方距離判別和Bayes判別當先驗概率和各組協(xié)方差陣都相等等時,廣義平方距離判別法即為馬氏距離判別法。廣義平方距離判別調用discrim過程。當各組協(xié)方差陣相等時,Bayes判別法與協(xié)方差陣相等情況下的馬氏距離判別法一致;當各組協(xié)方差陣不相等時,此時的Bayes判別法與協(xié)方差陣不全相等情況下的廣義平方距離判別法一致。應用舉例(課本191頁)例5.2.2(胃癌的鑒別)下表是從病例中隨機抽取的部分資料,這里有二個總體:胃癌、萎縮件胃炎和非胃炎患者.從每個總體抽5個病人,每人化驗4項生化指標:血清銅蛋白(XI)、藍色反應(X2)、尿吲哚乙酸(x3)和中性硫化物(X4).試用廣義平方距離判別方法建立判別準則并對這15個樣品進行判別歸類。表5.2胃癌檢驗的生化指標SAS程序如下datad522;inputgroupx1-x4@@;cards;122813420111245134104012001671227117015078110016720142225125714213010061221501177621201331026216010051031851155193170125643165142533135108212310011772procdiscrimdata=d522pool=nodistancelist;classgroup;priorsequal;varx1-x4;run;程序解釋說明:(1)pool=no表示認為三個總體的協(xié)方差陣不全相等,此時采用廣義平方距離進行判別歸類;(2)priorsequal;假定先驗概率相等,都為1/3?PRIORS語句:該語句指定各組中成員出現(xiàn)的先驗概率?一般格式:Priorsequal;規(guī)定先驗概率相等Priorsproportionallprop;規(guī)定先驗概率為各組
樣本出現(xiàn)的比例Priorsprobabilities;指定各個組(即分類變量的各個水平)的先驗概率如:priorsA=0?1B=0?3C=0?5片0.1;如果分類變量的水平值為小寫字符或數(shù)值時必須用括號括起來.Priors‘a(chǎn)'=0.1‘b'=0?3‘c'=0?5‘d'=0?1;Priors‘l'=0?1‘2'=0?3‘3'=0?5‘4'=0?1;主要輸出結果:輸出(A)兩兩配對的組間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版供應鏈管理下倉單質押融資合同
- 房地產(chǎn)廣告策劃宣傳合同
- 工程勞務分包合同書范本
- 2024簽帶裝修二手房買賣合同樣本3篇
- 2024短視頻內容創(chuàng)作者激勵與合作合同2篇帶眉腳
- 珠寶面試測評題單選題100道及答案
- 2024版連鎖品牌導購人員協(xié)議模板版
- 第2章 豐富多彩的生命世界【A卷 達標卷】(原卷版)
- 2024環(huán)保節(jié)能技術研究與推廣應用合同
- 聘用合同條款高中教師招聘
- 石油產(chǎn)品密度基本知識認知
- 《公安機關人民警察內務條令》
- 巨力索具(河南)有限公司年生產(chǎn)10萬噸鋼絲及5萬噸鋼絲繩項目環(huán)境影響報告
- GB/T 26254-2023家用和類似用途保健按摩墊
- 第三章熱力學第二定律物理化學
- 煤礦塌陷治理土地復墾主要問題和政策措施
- GB/T 26182-2022家用和類似用途保健按摩椅
- 中國聯(lián)通MPLS VPN業(yè)務開通測試報告
- 中國風鎏金年終總結PPT模板
- 年產(chǎn)萬噸丁二烯畢業(yè)設計
- 醫(yī)學課件-檢驗科質量控制教學課件
評論
0/150
提交評論