上機課第8講 判別分析過程_第1頁
上機課第8講 判別分析過程_第2頁
上機課第8講 判別分析過程_第3頁
上機課第8講 判別分析過程_第4頁
上機課第8講 判別分析過程_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

判別分析過程1、DISCRIM過程2、CANDISC(典型判別)過程3、STEPDISC(逐步判別)過程11、DISCRIM過程DISCRIM過程在一個或多個定量變量的基礎(chǔ)上計算出各種判別函數(shù).使用的方法都是后驗概率最大的原則,如果假設(shè)每組內(nèi)分布為多元正態(tài)分布,得到廣義平方距離的判別準(zhǔn)則.否則,使用非參數(shù)的方法.2PROCDISCRIM<options>;

CLASSvariable;

BYvariables;

FREQvariable;

IDvariable;

PRIORSprobabilities;

TESTCLASSvariable;

TESTFREQvariable;

TESTIDvariable;

VARvariables;

WEIGHTvariable;基本語句必需的語句與testdata=的數(shù)據(jù)集有關(guān)3PROCDISCRIM語句的選擇項(49項)輸入數(shù)據(jù)集選項:Data=SAS-data-setTestdata=SAS-data-set

指定待判別歸類的數(shù)據(jù)集,定量變量的變量名必須與data=指定的建立判別函數(shù)的數(shù)據(jù)集中的變量名一致.4輸出數(shù)據(jù)集選項Outstat=SAS-data-set

各種統(tǒng)計量,比如均值,標(biāo)準(zhǔn)差,相關(guān)矩陣及判別統(tǒng)計量等.2)Out=SAS-data-set

輸入數(shù)據(jù)集,后驗概率和每個觀測重新被歸入的類等.3)Outcross=SAS-data-set

輸入數(shù)據(jù)集,后驗概率和每個觀測通過舍一法被歸入的類等.5輸出數(shù)據(jù)集選項4)Outd=SAS-data-set

包括輸入數(shù)據(jù)和每個觀測的類密度估計.

5)Testout=SAS-data-set

待判別歸類的數(shù)據(jù)集,后驗概率和每個觀測被歸入的類等.6)Testoutd=SAS-data-set

包括待判別歸類的數(shù)據(jù)和每個觀測的類密度估計.6選擇判別分析類型的選項Method=normal|npar

缺省值為method=normal,假設(shè)每類樣本服從正態(tài)分布.如指定method=npar時,采用非參數(shù)方法估計類密度,所以必須指定選項k=或r=中的一個.2)Pool=no|test|yes

當(dāng)Pool=test時,要求對組內(nèi)協(xié)差陣的齊性進行似然比檢驗,然后根據(jù)檢驗結(jié)果建立線性或非線性函數(shù)再進行判別歸類.缺省值為yes(假定各類的協(xié)方差矩陣相等).7選擇判別分析類型的選項3)Slpool=p----指定協(xié)差陣齊性檢驗的顯著水平,缺省值為0.1.8有關(guān)非參數(shù)法的選項K=k----為k最近鄰規(guī)則指定一個k值.R=r----為核密度估計指定一個半徑r.Kernal=Biweight|Epanechnikov|Normal|Triweight|Uniform

指定核函數(shù),缺省為Uniform|uni.4)Metric=diagonal|full|identity

為計算平方距離時指定所選用的距離,缺省為full.Diagonal為對角陣,identity為單位陣,如method=normal,則metric=full.9proc

discrimdata=ex612method=npar

r=0.5list;

classgroup;

varx1-x4;run;10ClassificationResultsforCalibrationData:WORK.EX612ResubstitutionResultsusingUniformKernelDensityPosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AA

1.00000.00002AA

1.00000.00003AA

1.00000.00004AA

1.00000.00005AA

1.00000.00006BB

0.00001.00007BB

0.00001.00008BB

0.00001.00009BB

0.00001.000010BB

0.00001.000011有關(guān)分類規(guī)則的選項

threshold=p----指定分類中可以接受的最小后驗概率,小于該值歸為other組,缺省值為0.確定奇異性的選項

Singular=p----指定矩陣奇異的準(zhǔn)則,0<p<1,缺省為10-8.127.有關(guān)典型判別分析的選項Can----進行典型判別分析.Canprefix=name為典型判別變量指定前綴,缺省時典型變量名為CAN1,CAN2,…,CANm.3)Ncan=number

指定將被計算的典型變量的個數(shù).13重新分類選項List----輸出重新分類結(jié)果Listerr----僅輸出被錯誤分類的觀測noclassify----不對輸入DATA=數(shù)據(jù)集進行重新判別分類14交叉確認(rèn)(舍一法)分類選項crosslist----輸出交叉確認(rèn)(舍一法)的分類結(jié)果.crosslisterr----僅輸出使用交叉確認(rèn)(舍一法)分類方法被錯誤分類的觀測.crossvalidate----要求對輸入DATA=數(shù)據(jù)集進行交叉確定分類.只在輸出窗口給出概括分類的列聯(lián)表,沒有每個觀測具體的分類結(jié)果.如果已有選項crosslist,crosslisterr或outcross=,該選項不需要再指定.15PosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AA

0.99990.00012AA

1.00000.00003AA

1.00000.00004AA

1.00000.00005AA

1.00000.00006BB

0.00001.00007BB

0.09790.90218BA*0.99990.00019BB

0.00010.999910BB

0.00001.0000ClassificationResultsforCalibrationData:WORK.EX612Cross-validationResultsusingLinearDiscriminantFunction16ClassificationResultsforCalibrationData:WORK.EX612Cross-validationResultsusingQuadraticDiscriminantFunctionPosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AB*0.00001.00002AB*0.00001.00003AB*0.00001.00004AB*0.00001.00005AB*0.00001.00006BA*1.00000.00007BA*1.00000.00008BA*1.00000.00009BA*1.00000.000010BA*1.00000.000017檢驗數(shù)據(jù)分類選項Testlist----列出testdata=的數(shù)據(jù)集中全部觀測的分類結(jié)果.Testlisterr----僅當(dāng)使用testclass語句給出檢驗集中各觀測所屬類別時,該選項要求列出testdata=數(shù)據(jù)集中被錯誤分類的觀測.錯誤率估計選項

Posterr----輸出后驗概率錯誤率估計.注:后驗概率錯誤率估計的方法在幫助系統(tǒng)中可以查到.其原理是利用后驗概率估計總的錯判率和來自第i類而被錯判為其它類的概率,但該值可能為負(fù)值,因為是估計值.后面有具體的解釋.18打印控制選項Bcorr,Pcorr,Tcorr,Wcorr;Bcov,Pcov,Tcov,Wcov;Bsscp,Psscp,Tsscp,Wsscp;All,Anova,Distance,manova,Simple,Stdmean.

注:選項stdmean的含義是先把訓(xùn)練樣本標(biāo)準(zhǔn)化,然后計算每個類的均值,若均值差別大說明判別是有意義的.Distance輸出類之間的馬氏距離.限制輸出選項

Noprint,Short

19Stdmean選項的輸出結(jié)果:Total-SampleStandardizedClassMeansVariableABx10.7722769345-.7722769345x20.8405436025-.8405436025x30.7878758859-.7878758859x40.7622380696-.7622380696先把全部訓(xùn)練樣本標(biāo)準(zhǔn)化為均值為0,方差為1,然后分別計算標(biāo)準(zhǔn)化數(shù)據(jù)每個類的均值,若均值差別大說明判別是有意義的.20Stdmean選項的輸出結(jié)果:PooledWithin-ClassStandardizedClass

MeansVariableABx11.253647724-1.253647724x21.709149135-1.709149135x31.333536711-1.333536711x41.207104773-1.207104773先把全部訓(xùn)練樣本標(biāo)準(zhǔn)化,但與前面的表不同,這里減總均值,除以合并的組內(nèi)方差,而不是總方差,然后分別計算每個類的均值,若均值差別大說明判別是有意義的.21ErrorCountEstimatesforgroup

ABTotalRate0.00000.00000.0000Priors0.50000.5000

Posterr選項的輸出結(jié)果:注:后驗概率錯誤率估計的方法在幫助系統(tǒng)中可以查到.其原理是利用后驗概率估計總的錯判率和來自第i類而被錯判為其它類的概率,但該值可能為負(fù)值,因為是估計值.22NumberofObservationsand

AveragePosteriorProbabilities

ClassifiedintogroupFromgroupAB

5

1.00003

0.9718A5

1.00000

.B0

.5

1.0000Total10

1.00008

0.9894Priors0.5

0.5

ClassificationResultsforCalibrationData:WORK.EX611ResubstitutionResultsusingLinearDiscriminantFunction23PosteriorProbabilityErrorRateEstimates

forgroupEstimateABTotalStratified0.00000.00000.0000Unstratified-0.11110.12050.0047Priors0.50000.5000

總的錯判率:第t類的觀測被錯誤地分到其他類的概率24其中Rt為落在第t類的后驗概率最大的區(qū)域.et表示第t類的觀測被錯誤地判別為其他類的概率.25其中n為總的觀測個數(shù),包括類別為缺失的觀測,后面的后驗概率的和是對判別為第t類的所有觀測取和.若分子比期望落在第t類的觀測個數(shù)nqt大,則該估計值為負(fù)數(shù).26其中Rut為來自第u類而落在第t類的后驗概率最大的區(qū)域.nu表示第u類的觀測個數(shù).此時類別為缺失的觀測在估計et不使用.27Priors語句:指定先驗概率Priorsequal;----所有先驗概率相等.Priorsproportional|prop;----為各類樣本 出現(xiàn)的比例.Priorsprobabilities;為每組指定先驗概率,如分類變量的取值為小寫字母或數(shù)值時,要用引號,格式為:28其他語句參考SAS的幫助部分.PriorsA=0.4B=0.6;Priors‘a(chǎn)’=0.4‘b’=0.6;Priors‘1’=0.4‘2’=0.6;29dataex611;

inputx1-x4group$;

cards;13.852.797.8049.60A22.314.6712.3147.80A28.824.6316.1862.15A15.293.547.543.20A28.794.9016.1258.10A2.181.061.2220.60B3.850.804.0647.10B11.400.003.500.00B3.662.422.1415.10B12.100.005.680.00B8.853.385.1726.10.3028.602.401.20127.00.20.706.707.6030.20.7.902.404.3033.20.3.193.201.439.90.12.405.104.4324.60.16.805.402.3131.30.15.002.705.0264.00.;proc

discrim

data=ex611simplewcov distancelistposterr;

classgroup;

varx1-x4;run;31Observations10DFTotal9Variables4DFWithinClasses8Classes2DFBetweenClasses1ClassLevelInformationgroupVariable

NameFrequencyWeightProportionPrior

ProbabilityAA55.00000.5000000.500000BB55.00000.5000000.500000TheDISCRIMProcedure

32Within-ClassCovarianceMatricesgroup=A,DF=4Variablex1x2x3x4x150.995620005.9157600030.2466450047.02695000x25.915760000.818830003.427660003.98310000x330.246645003.4276600018.1078200028.98807500x447.026950003.9831000028.9880750060.23200000group=B,DF=4Variablex1x2x3x4x122.2563200-3.54066006.1400500-67.0293500x2-3.54066000.9890800-1.12240006.2953000x36.1400500-1.12240002.9880000-6.5560000x4-67.02935006.2953000-6.5560000374.903000033SquaredDistancetogroupFromgroupABA037.02876B37.028760FStatistics,NDF=4,DDF=5for

SquaredDistancetogroupFromgroupABA014.46436B14.464360Prob>MahalanobisDistancefor

SquaredDistancetogroupFromgroupABA1.00000.0059B0.00591.000034上頁輸出的解釋:A類和B類的距離為3536LinearDiscriminantFunctionfor

groupVariableABConstant-42.24731-5.16272x17.674122.93107x25.548811.35698x3-13.96307-5.37383x41.181310.4558337PosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB1AA

0.99990.00012AA

1.00000.00003AA

1.00000.00004AA

1.00000.00005AA

1.00000.00006BB

0.00001.00007BB

0.00001.00008BB

0.00001.00009BB

0.00001.000010BB

0.00001.000038*MisclassifiedobservationPosteriorProbabilityofMembership

ingroupObsFromgroupClassifiedinto

groupAB11

B*0.00160.998412

A*1.00000.000013

A*1.00000.000014

B*0.08300.917015

B*0.00001.000016

A*1.00000.000017

A*1.00000.000018

A*1.00000.000039ResubstitutionSummaryusingLinearDiscriminantFunctionNumberofObservationsandPercent

ClassifiedintogroupFromgroupABTotal

5

62.503

37.508

100.00A5

100.000

0.005

100.00B0

0.005

100.005

100.00Total10

55.568

44.4418

100.00Priors0.5

0.5

40proc

sortdata=ex611out=ex611_1;

bygroup;run;

proc

princomp

data=ex611_1cov

outstat=out1noprint;

bygroup;

varx1-x4;run;proc

print;run;二次判別(馬氏距離)的程序41datacov1;

setout1;

ifgroup='A'and_type_='COV';

keepx1-x4;datacov2;

setout1;

ifgroup='B'and_type_='COV';

keepx1-x4;datam1;

setout1;

ifgroup='A'and_type_='MEAN';

keepx1-x4;42datam2;

setout1;

ifgroup='B'and_type_='MEAN';

keepx1-x4;datatest;

setex611;

dropgroup;43proc

iml;

reset

noprint;

editcov1;

readallintocov1;

editcov2;

readallintocov2;

editm1;

readallintom1;

editm2;

readallintom2;44

edittest;

readallintotest;y=j(18,1,0);

doi=1to18;

y[i]=(test[i,]-m1)*inv(cov1)*(test[i,]-m1)’;

end;z=j(18,1,0);

doi=1to18;

z[i]=(test[i,]-m2)*inv(cov2)*(test[i,]-m2)’;

end;dist=y||z;run

TABPRT(dist);run;quit;45

COL1COL2ROW13.200113.734ROW23.200323.584ROW33.200512.895ROW43.200162.972ROW53.200513.304ROW62661.3863.200ROW7197.9603.200ROW824039.4663.200ROW91616.6423.200ROW1027108.9273.200ROW11328.94341.638ROW1225940.2362080.226ROW13919.457481.207ROW14336.25327.790ROW15934.8848.604ROW16189.576177.780ROW171256.204468.048ROW181531.768279.167462、CANDISC(典型判別)過程CANDISC過程完成典型判別分析,計算平方Mahalanobis距離并作單變量與多變量的方差分析.該過程產(chǎn)生包括典型系數(shù)和典型變量得分的輸出數(shù)據(jù)集.47為什么要進行典型判別?有利于畫圖;使的分母盡量不是0;

(檢驗各組的均值是否相等的統(tǒng)計量).48PROCCANDISC

<options>;

CLASSvariable;

BYvariables;

FREQvariable;

VARvariables;

WEIGHTvariable;基本語句:必需的語句49PROCCANDISC語句的選擇項(25項)數(shù)據(jù)集選項:Data=SAS-data-setOut=SAS-data-set----包含原始變量和典型變量得分.Outstat=SAS-data-set----包含各種統(tǒng)計量50典型變量選項Ncan=nPrefix=name----為命名典型變量指定前綴.奇異性選項Singular=p----判斷矩陣奇異的標(biāo)準(zhǔn),缺省值為Singular=10-8.51打印控制選項Bcorr,Pcorr,Tcorr,Wcorr;Bcov,Pcov,Tcov,Wcov;Bsscp,Psscp,Tsscp,Wsscp;All,Anova,Distance,Simple,Stdmean.抑制打印選項

Noprint,Short52P173---例6.4.2SAS例題中----典型判別兩種方式:(1)在discrim過程中使用典型判別的選項.(2)先用candisc過程降維,然后再用discrim過程判別.53dataex621;

inputtype1$type2$no$x1x2x3x4@@;

cards;yy12281342011yy22451341040yy32001671227yy417015078yy51001672014nw6225125714nw7130100612nw815011776nw91201331026nw10160100510nn11185115519nn1217012564nn1316514253nn1510011772;run;54proc

discrimdata=ex621out=can642 ncan=2distancesimple;

classtype2;

varx1x2x3x4;run;proc

gplotdata=can642;

plotcan2*can1=type2;run;55proc

candiscdata=ex621out=can642 ncan=2distancesimple;

classtype2;

varx1x2x3x4;run;procdiscrimdata=can642distancelist;

classtype2;

varcan1can2;run;56

AdjustedApproximateSquaredCanonicalCanonicalStandardCanonicalCorrelationCorrelationErrorCorrelation10.8676020.8330620.0660850.75273320.4143610.2942660.2213740.171695例6.4.2的輸出結(jié)果此表是計算分析變量組與把分類變量變?yōu)閗-1個啞變量組的典型相關(guān)系數(shù).57EigenvaluesofInv(E)*H=CanRsq/(1-CanRsq)

EigenvalueDifferenceProportionCumulative13.04422.83690.93620.9362

20.20730.06381.000058

TestofH0:ThecanonicalcorrelationsinthecurrentrowandallthatfollowarezeroLikelihoodApproximateRatioFValueNumDFDenDFPr>F0.204812722.728180.03700.828304920.693100.578159

TotalCanonicalStructureVariableCan1Can2x10.4353320.057877x20.844529-0.463052x30.8531330.238735x40.5185610.458387原始變量與典型變量之間的相關(guān)矩陣.60

BetweenCanonicalStructureVariableCan1Can2x10.9979900.063368x20.967382-0.253321x30.9911870.132469x40.9212650.38893461

PooledWithinCanonicalStructureVariableCan1Can2x10.2338680.056907x20.643181-0.645446x30.6378500.326684x40.2954920.47806862

Total-SampleStandardizedCanonicalCoefficientsVariableCan1Can2x10.453270170-0.175023456x20.845703479-1.149650085x30.9209452630.835387123x40.3174376560.64488051163

PooledWithin-ClassStandardizedCanonicalCoefficientsVariableCan1Can2x10.4531720478-.1749855680x20.5964259477-.8107819809x30.66159048610.6001270597x40.29920554210.607841632764

RawCanonicalCoefficientsVariableCan1Can2x10.0100479384-.0038798602x20.0401775618-.0546174144x301600101791x40.03054814660.062059128965

ClassMeansonCanonicalVariablestype2Can1Can2n-1.262949592-0.472278377w-0.9359327390.521545394y2.198882331-0.04926701766Obstype1type2x1x2x3x4Can1Can21yy22813420112.754591.127122yy24513410402.047321.260783yy20016712272.87670-0.853754yy170150780.42984-1.788035yy10016720142.885960.007556nw2251257140.16132-0.263647nw130100612-2.035171.186268nw15011776-1.15808-0.032189nw12013310260.323480.9315510nw160100510-1.971220.7857311nn185115519-0.842430.4280112nn17012564-0.87319-0.8308413nn16514253-0.44736-1.9620114nn135108212-2.369100.0898815nn10011772-1.78267-0.08642先將分析變量中心化,然后得到典型變量的得分,即典型變量的均值為0.67TheDISCRIMProcedureLinearDiscriminantFunctionConstant=-.5Xj'COV-1XjCoefficientVector=COV-1XjLinearDiscriminantFunctionfortype2

VariablenwyConstant-0.90904-0.57399-2.41876Can1-1.26295-0.935932.19888Can2-0.472280.52155-0.0492768小結(jié)典型判別過程僅起到把多個分析變量降維的作用;最后需要把典型變量作為新的分析變量利用距離判別法或Bayes判別法進行判別.693、STEPDISC(逐步判別)過程

stepdisc過程通過向前選入,向后剔除或逐步選擇法選擇對判別有用的定量變量來完成逐步判別分析.70為什么要進行逐步判別?節(jié)約費用(如醫(yī)學(xué)檢查,指標(biāo)越少越好);使的分母盡量不是0;

(檢驗各組的均值是否相等的統(tǒng)計量)減少計算量,提高計算精度;提高判別函數(shù)的穩(wěn)定性.71基本語句PROCSTEPDISC<options>;

CLASSvariable;

BYvariables;

FREQvariable;

VARvariables;

WEIGHTvariable;必需的語句72PROCSTEPDISC語句的選擇項(27項)數(shù)據(jù)集選項:Data=SAS-data-set選擇方法選項Method=FW|FORWARD|BW|BACKWARD|SW|STEPWISE73選擇準(zhǔn)則選項SLENTRY=p----缺省為0.15,小于該值的變量被引入.SLSTAY=p----缺省為0.15,大于該值的變量被剔除.PR2ENTRY=p----在向前選擇方式中,指定選入變量的偏R2,即該值大于p引入該變量.(p

1)PR2STAY=p----在向后選擇方式中,指定保留變量的偏R2,即該值大于p保留該變量.(p

1)74選擇過程選項INCLUDE=n----要求var語句中前n個變量包含在每一個模型中,缺省為0.MAXSTEP=n----指定最多步數(shù),缺省為var語句中變量數(shù)的兩倍.START=n----指定var語句中前n個變量被用來開始選擇過程.STOP=p----指定最終模型中的變量數(shù).75奇異性選項Singular=p----指定選入變量的奇異標(biāo)準(zhǔn),0<p<1.STEPDISC過程當(dāng)一個變量與已在模型中的變量的平方多重相關(guān)超過1-p時,拒絕該變量進入模型,缺省值為10-8.76打印控制選項Bcorr,Pcorr,Tcorr,WcorrBcov,Pcov,Tcov,WcovBsscp,Psscp,Tsscp,Wssc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論