版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Good is good, but better carries it.精益求精,善益求善。多元統(tǒng)計分析實驗教學(xué)上機指導(dǎo)書-多元統(tǒng)計分析實驗教學(xué)上機指導(dǎo)書數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院信息與計算科學(xué)教研室第一章聚類分析一、實驗?zāi)康呐c要求1.通過上機操作使學(xué)生掌握系統(tǒng)聚類分析方法在SAS和SPSS軟件中的實現(xiàn),熟悉系統(tǒng)聚類的用途和操作方法,了解各種距離,能按要求將樣本進(jìn)行分類;2.要求學(xué)生重點掌握該方法的用途,能正確解釋軟件處理的結(jié)果,尤其是冰柱圖和樹形圖結(jié)果的解釋;3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握系統(tǒng)聚類分析方法在寫作中的應(yīng)用。二、實驗內(nèi)容與步驟SAS部分(一)SAS程序語言簡介SAS系統(tǒng)強大的數(shù)據(jù)
2、管理能力、計算能力、分析能力依賴于作為其基礎(chǔ)的SAS語言。SAS語言是一個專用的數(shù)據(jù)管理與分析語言,它的數(shù)據(jù)管理功能類似于數(shù)據(jù)庫語言(如FoxPro),但又添加了一般高級程序設(shè)計語言的許多成分(如分支、循環(huán)、數(shù)組),以及專用于數(shù)據(jù)管理、統(tǒng)計計算的函數(shù)。SAS系統(tǒng)的數(shù)據(jù)管理、報表、圖形、統(tǒng)計分析等功能都可以用SAS語言程序來調(diào)用,只要指定要完成的任務(wù)就可以由SAS系統(tǒng)按照預(yù)先設(shè)計好的程序去進(jìn)行,所以SAS語言和FoxPro等一樣是一種第四代計算機語言。SAS語言有它自己的對變量、常量、表達(dá)式的一系列規(guī)定,有一系列標(biāo)準(zhǔn)函數(shù),有它自己的語句、語法,可以按一定規(guī)則構(gòu)成SAS程序。SAS語言程序由數(shù)據(jù)步
3、(DATA步)和過程步(PROC步)組成。數(shù)據(jù)步用來生成數(shù)據(jù)集、計算、整理數(shù)據(jù),過程步用來對數(shù)據(jù)進(jìn)行分析、報告。SAS語言的基本單位是語句,每個SAS語句一般由一個關(guān)鍵字(如DATA,PROC,INPUT,CARDS,BY)開頭,包含SAS名字、特殊字符、運算符等,以分號結(jié)束。SAS關(guān)鍵字是用于SAS語句開頭的特殊單詞。SAS名字在SAS程序中標(biāo)識各種SAS成分,如變量、數(shù)據(jù)集、數(shù)據(jù)庫,等等。SAS名字由1到8個字母、數(shù)字、下劃線組成,第一個字符必須是字母或下劃線。SAS關(guān)鍵字和SAS名字都不區(qū)分大小寫。語句關(guān)鍵字用大寫或小寫方式都可以,但不可簡化,必須原樣照寫。SAS程序由語句構(gòu)成。一個SA
4、S語句可以占若干行,可以從任意一列開始,但必須在語句結(jié)束處加分號,因為SAS系統(tǒng)是根據(jù)分號判斷哪些文字屬于一個語句的,因此在一行上可以寫幾個SAS語句,只要每個語句都用分號結(jié)束(最常見的SAS編程錯誤就是丟失分號)。因為分號作為語句結(jié)束標(biāo)志,所以SAS語句不需要單獨占一行,一個語句可以寫到多行(不需任何續(xù)行標(biāo)志),也可以在一行連續(xù)寫幾個語句。SAS語言中只要允許用一個空格的地方就可以加入任意多個空白(空格、制表符、回車),允許用空格的地方是名字周圍、運算符周圍。比如,程序procprintdata=c9501;byavg;run;和procprintdata=c9501;byavg;run;是
5、等效的。另外,雖然SAS關(guān)鍵字和SAS名字不區(qū)分大小寫,但字符型數(shù)據(jù)值要區(qū)分大小寫,比如Beijing和BEIJING被認(rèn)為是不同的數(shù)據(jù)值。在SAS程序中可以加入注釋,注釋使用C語言語法,用/*和*/在兩端界定注釋,這種注釋可以出現(xiàn)在任何允許加入空格的位置,可以占多行。我們一般只把注釋單獨占一行或若干行,不把注釋與程序代碼放在同一行。注釋的另一個作用是把某些代碼暫時屏蔽使其不能運行。下面是一個注釋的例子:/*生成95級1班考試成績的數(shù)據(jù)集*/datac9501;SAS程序包括數(shù)據(jù)步和過程步兩種結(jié)構(gòu),每一個步是一段相對完整的可以單獨運行的程序。每個步以RUN語句結(jié)束。當(dāng)一個步后面跟著另一個步時,
6、前面一個步的RUN語句可以省略。一個DATA步后面可以跟幾個PROC步,也可以若干個DATA步后面跟幾個PROC步;或以PROC步打頭,后面跟若干個DATA步,再跟PROC步,程序中的每個步都是相應(yīng)獨立的,彼此不能交叉,不能嵌套。數(shù)據(jù)步用來生成、整理數(shù)據(jù)和自編程計算,過程步調(diào)用SAS已編好的處理過程對數(shù)據(jù)進(jìn)行處理。我們自己用SAS編程序?qū)崿F(xiàn)各多元統(tǒng)計分析方法主要用到過程步。在本課的學(xué)習(xí)過程中,主要采用調(diào)用已有數(shù)據(jù)集的方式,因此程序的重點在PROC步上,要分析的數(shù)據(jù)集只要在選擇項DATA=中指明即可。最簡單的PROC步只有一個PROC語句,即:PROC過程名;該語句調(diào)用指定的過程分析在該語句之前
7、最近建立的數(shù)據(jù)集。在調(diào)用時的其他要求全部采用SAS系統(tǒng)設(shè)置的缺省值。PROC語句的一般格式為:PROC過程名選擇項;(二)用CLUSTER過程和TREE過程進(jìn)行譜系聚類聚類分析又稱群分析、點群分析,是定量研究分類問題的一種多元統(tǒng)計方法。聚類分析的基本思想是認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,于是根據(jù)一批樣品的多個觀測指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計量,并以此為依據(jù),采用某種聚類法,將所有的樣品或變量分別聚合到不同的類中,使同一類中的個體有較大的相似性,不同類中的個體差異較大。所以,聚類分析依賴于對觀測間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量
8、度就可以產(chǎn)生不同的聚類結(jié)果。SAS/STAT模塊中提供了譜系聚類(CLUSTER)、快速聚類(FASTCLUS)、變量聚類(VARCLUS)等聚類過程。我們重點要求掌握譜系聚類法。譜系聚類是一種逐次合并類的方法,最后得到一個聚類的二叉樹聚類圖。其基本計算過程是,對于n個觀測,先計算其兩兩的距離得到一個距離矩陣,然后把離得最近的兩個觀測合并為一類,于是我們現(xiàn)在只剩了n-1個類(每個單獨的未合并的觀測作為一個類)。計算這n-1個類兩兩之間的距離,找到離得最近的兩個類將其合并,就只剩下了n-2個類直到剩下兩個類,把它們合并為一個類為止。當(dāng)然,真的合并成一個類就失去了聚類的意義,所以上面的聚類過程應(yīng)該
9、在某個類水平數(shù)(即未合并的類數(shù))停下來,最終的類數(shù)就是這些未合并的類的個數(shù)。決定聚類個數(shù)是一個很復(fù)雜的問題。1.譜系聚類類數(shù)的確定譜系聚類最終得到一個聚類樹形圖,可以把所有觀測聚為一類。到底應(yīng)該把觀測分為幾類合適是一個比較難抉擇的問題,因為分類問題本身就是沒有一定標(biāo)準(zhǔn)的,關(guān)于這一點實用多元統(tǒng)計分析(王學(xué)仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個很好的例子,即撲克牌的分類。我們可以把撲克牌按花色分類,按大小點分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來自于統(tǒng)計的方差分析的思想,我們在這里作一些介紹。(1)統(tǒng)計量其中為分類數(shù)為個類時的總類內(nèi)離差平方和,為所有變量的總離差平方和。越大
10、,說明分為個類時每個類內(nèi)的離差平方和都比較小,也就是分為個類是合適的。但是,顯然分類越多,每個類越小,越大,所以我們只能取使得足夠大,但本身比較小,而且不再大幅度增加。(2)半偏相關(guān)在把類和類合并為下一水平的類時,定義半偏相關(guān)半偏其中為合并類引起的類內(nèi)離差平方和的增量,半偏相關(guān)越大,說明這兩個類越不應(yīng)該合并,所以如果由類合并為類時如果半偏相關(guān)很大就應(yīng)該取類。(3)偽F統(tǒng)計量偽F統(tǒng)計量評價分為個類的效果。如果分為個類合理,則類內(nèi)離差平方和(分母)應(yīng)該較小,類間平方和(分子)相對較大。所以應(yīng)該取偽F統(tǒng)計量較大而類數(shù)較小的聚類水平。(4)偽統(tǒng)計量用此統(tǒng)計量評價合并類和類的效果,該值大說明不應(yīng)合并這兩
11、個類,所以應(yīng)該取合并前的水平。2.CLUSTER過程用法由于在SAS系統(tǒng)中聚類分析過程沒有現(xiàn)成的窗口操作,所以實現(xiàn)聚類分析必須編寫SAS程序。SAS/STAT模塊中的Cluster過程可實現(xiàn)系統(tǒng)聚類分析,可調(diào)用Tree過程生成聚類譜系圖。CLUSTER過程的一般格式為:PROCCLUSTERDATA=輸入數(shù)據(jù)集METHOD=聚類方法選項;VAR聚類用變量;COPY復(fù)制變量;RUN;其中的VAR語句指定用來聚類的變量。COPY語句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。PROCCLUSTER語句的主要選項有:(1)METHOD=選項,這是必須指定的,此選項決定我們要用的聚類方法,主要由類間距
12、離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計方法(K=、R=或HYBRID)。(2)DATA輸入數(shù)據(jù)集,可以是原始觀測數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。(3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類樹的信息輸出到一個數(shù)據(jù)集,可以用TREE過程調(diào)用此數(shù)據(jù)集繪圖樹形圖并實際分類。(4)STANDARD選項,把變量標(biāo)準(zhǔn)化為均值為0,標(biāo)準(zhǔn)差為1。(5)PSEUDO選項和CCC選項。PSEUDO選項要
13、求計算偽F和偽統(tǒng)計量,CCC選項要求計算、半偏和CCC統(tǒng)計量。其中CCC統(tǒng)計量也是一種考察聚類效果的統(tǒng)計量,CCC較大的聚類水平是較好的。3.TREE過程用法TREE過程可以把CLUSTER過程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫出譜系聚類的樹形圖,并按照用戶指定的聚類水平(類數(shù))產(chǎn)生分類結(jié)果數(shù)據(jù)集。其一般格式如下:PROCTREEDATA數(shù)據(jù)集OUT=輸出數(shù)據(jù)集NCLUSTER=類數(shù)選項;COPY復(fù)制變量;RUN;其中COPY語句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實際上這些變量也必須在CLUSTER過程中用COPY語句復(fù)制到OUTTREE數(shù)據(jù)集)。PROCTREE語句的重要選項有
14、:(1)DATA數(shù)據(jù)集,指定從CLUSTER過程生成的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集。(2)OUT數(shù)據(jù)集,指定包含最后分類結(jié)果(每一個觀測屬于哪一類,用一個CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。(3)NCLUSTERS選項,由用戶指定最后把樣本觀測分為多少個類(即聚類水平)。(4)HORIZONTAL,畫樹形圖時沿水平方向畫,即繪制水平方向的樹形圖,系統(tǒng)默認(rèn)繪制垂直方向的樹形圖。4.例子我們以多元統(tǒng)計分析中一個經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過的鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類信息存入了變量SPECIES,并對每一種測量了
15、50棵植株的花瓣長(PETALLEN)、花瓣寬(PETALWID)、花萼長(SEPALLEN)、花萼寬(SEPALWID)。這個數(shù)據(jù)已知分類,并不屬于聚類分析的研究范圍。這里我們?yōu)榱耸纠?,假裝不知道樣本的分類情況(既不知道類數(shù)也不知道每一個觀測屬于的類別),用SAS去進(jìn)行聚類分析,如果得到的類數(shù)和分類結(jié)果符合真實的植物分類,我們就可以知道聚類分析產(chǎn)生了好的結(jié)果。這里我們假定數(shù)據(jù)已輸入SASUSER.IRIS中(見系統(tǒng)幫助菜單的“SamplePrograms|SAS/STAT|DocumentationExample3fromProcCluster”)。為了進(jìn)行譜系聚類并產(chǎn)生幫助確定類數(shù)的統(tǒng)計量
16、,編寫如下程序:procclusterdata=sasuser.irismethod=wardouttree=otreepseudoccc;varpetallenpetalwidsepallensepalwid;copyspecies;run;可以顯示如下的聚類過程(節(jié)略):TPseudoPseudoiNCL-ClustersJoined-FREQSPRSQRSQERSQCCCFt*2e149OB16OB7620.0000001.0000.148OB2OB5820.0000071.0000.1854.1.T147OB96OB10720.0000071.0000.1400.1.T146OB89O
17、B11320.0000071.0000.1253.1.T145OB65OB12620.0000071.0000.1182.9.T25CL50OB5770.0006340.98240.9733356.446291.05.624CL78CL6270.0007420.98170.9722546.430293.59.823CL68CL3890.0008050.98090.9711016.404296.06.922CL30OB13760.0008960.98000.9698686.352298.35.121CL70CL3340.0009760.97900.9685456.290300.73.220CL3
18、6OB25100.0010870.97790.9671196.206302.99.819CL40CL22190.0011410.97680.9655796.146306.17.718CL25CL39100.0012490.97550.9639066.082309.56.217CL29CL45160.0013510.97420.9620816.026313.58.216CL34CL32150.0014620.97270.9600795.984318.49.015CL24CL28150.0016410.97110.9578715.929323.79.814CL21CL5370.0018730.96
19、920.9554185.850329.25.113CL18CL48150.0022710.96690.9526705.690333.88.912CL16CL23240.0022740.96470.9495414.632342.49.611CL14CL43120.0025000.96220.9458864.675353.35.810CL26CL20220.0026940.95950.9415474.811368.112.99CL27CL17310.0030600.95640.9362965.018386.617.88CL35CL15230.0030950.95330.9297915.443414
20、.113.87CL10CL47260.0058110.94750.9214965.426430.119.16CL8CL13380.0060420.94140.9105145.806463.116.35CL9CL19500.0105320.93090.8952325.817488.543.24CL12CL11360.0172450.91370.8723313.987515.141.03CL6CL7640.0300510.88360.8266644.329558.157.22CL4CL31000.1110260.77260.6968713.833502.8115.61CL5CL21500.7725
21、950.00000.0000000.000.502.8偽F圖形CCC圖形偽圖形半偏圖形輸出結(jié)果列出了把150個觀測每次合并兩類,共合并149次的過程。NCL列指定了聚類水平G(即這一步存在的單獨的類數(shù))。“-ClustersJoined-”為兩列,指明這一步合并了哪兩個類。其中OBxxx表示原始觀測,而CLxxx表示在某一個聚類水平上產(chǎn)生的類。比如,NCL為149時合并的是OB16和OB76,即16號觀測和76號觀測合并;NCL為1(最后一次合并)合并的是CL5和CL2,即類水平為5時得到的類和類水平為2時得到的類合并,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的
22、,等等。FREQ表示這次合并得到的類中有多少個觀測。SPRSQ是半偏,RSQ是,ERSQ是在均勻零假設(shè)下的的近似期望值,CCC為CCC統(tǒng)計量,PseudoF為偽F統(tǒng)計量,Pseudot*2為偽統(tǒng)計量,NormRMSDist是正規(guī)化的兩類元素間距離的均方根,Tie指示距離最小的候選類對是否有多對。因為我們假裝不知道數(shù)據(jù)的實際分類情況,所以我們必須找到一個合理的分類個數(shù)。為此,考察CCC、偽F、偽和半偏統(tǒng)計量。我們打開ASSIST模塊,調(diào)入上面產(chǎn)生的OTREE數(shù)據(jù)集,繪制各統(tǒng)計量的圖形。因為類水平太大時的信息沒有多少用處,所以我們用WHERE語句對OTREE數(shù)據(jù)集取其類水平不超過30的觀測。各統(tǒng)計
23、量的圖形顯示:CCC統(tǒng)計量建議取5類或3類(局部最大值),偽F建議3類(局部最大值),偽建議3類(局部最大值處是不應(yīng)合并的,即局部最大值處的類數(shù)加1),半偏建議3類。由這些指標(biāo)看,比較一致的是3類,其次是5類。為了看為什么不能明顯地分為三類,我們對四個變量求主分量,畫出前兩個主分量的散點圖??梢钥闯鯯etosa(紅色)與其它兩類分得很開,而Versicolor(綠色)與Virginica(藍(lán)色)則不易分開。因為我們知道要分成3類,所以我們用如下的TREE過程繪制樹形圖并產(chǎn)生分類結(jié)果數(shù)據(jù)集:proctreedata=otreehorizontalnclusters=3out=oclust;cop
24、yspecies;run;樹形圖因為觀測過多所以顯得雜亂。從圖中也可以看出,分為兩類可以分得很開,而分成三類時距離則不夠遠(yuǎn)。這個TREE過程用NCLUSTERS=3指定了分成3個類,結(jié)果數(shù)據(jù)集OCLUST中有一個CLUSTER變量代表生成的分類。我們把這個數(shù)據(jù)集調(diào)入ASSIST模塊中用不同顏色代表SPECIES(實際種類),用不同符號代表不同聚類過程分類,作前兩個主分量散點圖。可以看出,Virsicolor和Virginica兩類互相都有分錯為對方的。為了統(tǒng)計分類結(jié)果,可以用ASSIST模塊FREQ過程作表,得到如下結(jié)果:SPECIES(Species)CLUSTERFrequency|1|2
25、|3|Total-+-+-+-+Setosa|0|0|50|50-+-+-+-+Versicolor|49|1|0|50-+-+-+-+Virginica|15|35|0|50-+-+-+-+Total643650150可見Virginica被分錯的較多。同學(xué)們可以自己試用其它的類間距離來聚類,可以得到不同的結(jié)果。SPSS部分系統(tǒng)聚類分析在SPSS中的實現(xiàn)較為簡單,因為有現(xiàn)成的窗口菜單操作,在SPSS主菜單中選擇AnalyzeClassifyHierarchicalCluster,可實現(xiàn)系統(tǒng)聚類分析。SPSS軟件處理結(jié)果的解釋可參見SAS部分的相關(guān)內(nèi)容,所不同的是在SPSS的結(jié)果中,聚類進(jìn)度表
26、中以0表示參與合并的是觀測,以數(shù)字表示參與合并的是類,作為類出現(xiàn)時用類中較小的觀測號來表示。聚類分析在寫作中的應(yīng)用從“中國期刊網(wǎng)”上查閱相關(guān)文章,如“中國城市競爭力聚類分析”等,掌握聚類分析在寫作中的應(yīng)用。第二章判別分析一、實驗?zāi)康呐c要求1.通過上機操作使學(xué)生掌握判別分析方法在SAS和SPSS軟件中的實現(xiàn),了解判別方法的分類、適用條件和結(jié)果驗證方法;2.要求學(xué)生熟悉判別分析的用途和操作,重點掌握對軟件處理結(jié)果的解釋(區(qū)域圖、未標(biāo)準(zhǔn)化典型判別函數(shù)、Bayes判別函數(shù))和如何使用分析結(jié)果對新樣品進(jìn)行分類;3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握判別分析方法在寫作中的應(yīng)用。二、實驗內(nèi)容與步驟判別分析
27、和聚類分析有相似的作用,都是起到分類的作用。但是,判別分析是已知分類然后總結(jié)出判別準(zhǔn)則,是一種有指導(dǎo)的學(xué)習(xí);而聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某種方法把觀測進(jìn)行合理的分類,使得同一類的觀測比較接近,不同類的觀測相差較多,這是無指導(dǎo)的學(xué)習(xí)。判別分析是用于判斷個體所屬類別的一種統(tǒng)計方法。根據(jù)已知觀測對象的分類和若干表明觀測對象特征的變量值,建立判別函數(shù)和判別準(zhǔn)則,并使其錯判率最小,對于一個未知分類的樣本,將所測指標(biāo)代入判別方程,從而判斷它來自哪個總體。當(dāng)然,這種準(zhǔn)則在某種意義上是最優(yōu)的,如錯判概率最小或錯判損失最小等。其前提是總體均值有顯著差異,否則錯分率
28、大,判別分析無意義。例如,我們有了患胃炎的病人和健康人的一些化驗指標(biāo),就可以從這些化驗指標(biāo)發(fā)現(xiàn)兩類人的區(qū)別,把這種區(qū)別表示為判別公式,然后對懷疑患胃炎的人就可以根據(jù)其化驗指標(biāo)用判別公式診斷。SAS部分在SAS系統(tǒng)中沒有現(xiàn)成的菜單操作,須通過編程來實現(xiàn)判別分析。SAS/STAT模塊中實現(xiàn)判別分析的過程有:Discrim,實現(xiàn)最基本的判別分析;Candisc,將判別分析與典型相關(guān)分析相結(jié)合;Stepdisc,逐步判別分析,是一個變量的篩選過程。(一)DISCRIM過程的語句說明SAS/STAT的DISCRIM過程可以使用參數(shù)判別分析方法和非參數(shù)判別分析方法進(jìn)行判別分析。參數(shù)方法假定每個類的觀測來自
29、(多元)正態(tài)分布總體,各類的分布的均值(中心)可以不同。非參數(shù)方法不要求知道各類所來自總體的分布,它對每一類使用非參數(shù)方法估計該類的分布密度,然后據(jù)此建立判別準(zhǔn)則。參數(shù)方法的判別準(zhǔn)則為:先決定是使用合并協(xié)方差陣還是單個類的協(xié)方差陣,計算到各組的廣義距離,把判入最近的組;或者計算屬于各組的后驗概率,把判入后驗概率最大的組。SAS/STAT的DISCRIM過程一般格式如下:PROCDISCRIMDATA=輸入數(shù)據(jù)集選項;CLASS分類變量;VAR判別用自變量集合;RUN;其中,PROCDISCRIM語句的選項中“輸入數(shù)據(jù)集”為訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,包括一個分類變量(在CLASS語句中說明)和用來建立判
30、別公式的自變量集合(在VAR語句中說明)。可以用“TESTDATA=數(shù)據(jù)集”選項指定一個檢驗數(shù)據(jù)集,檢驗數(shù)據(jù)集必須包含與訓(xùn)練數(shù)據(jù)集相同的自變量集合,用訓(xùn)練數(shù)據(jù)集產(chǎn)生判別準(zhǔn)則后將對檢驗數(shù)據(jù)集中的每一個觀測給出分類值,如果這個檢驗數(shù)據(jù)集中有表示真實分類的變量可以在過程中用“TESTCLASS分類變量”語句指定,這樣可以檢驗判別的效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出判別函數(shù)的數(shù)據(jù)集,后面可以再次用DISCRIM過程把輸出的判別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來判別檢驗數(shù)據(jù)集(TESTDATA=)。用“OUT=數(shù)據(jù)集”指定存放訓(xùn)練樣本及后驗概率、交叉確認(rèn)分類的數(shù)據(jù)集。用“OUTD=
31、數(shù)據(jù)集”指定訓(xùn)練樣本及組密度估計數(shù)據(jù)集。用“TESTOUT=數(shù)據(jù)集”指定檢驗數(shù)據(jù)的后驗概率及分類結(jié)果。用“TESTOUTD=數(shù)據(jù)集”輸出檢驗數(shù)據(jù)及組密度估計。PROCDISCRIM語句還有一些指定判別分析方法的選項。用METHOD=NORMAL或NPAR選擇參數(shù)方法或非參數(shù)方法。用POOL=NO或TEST或YES表示不用合并協(xié)方差陣、通過檢驗決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。如果使用非參數(shù)方法,需要指定“R=核估計半徑”選項來規(guī)定核估計方法或者指定“K=最近鄰個數(shù)”來規(guī)定最近鄰估計方法。PROCDISCRIM語句有一些規(guī)定顯示結(jié)果的選項。用LISTERR顯示訓(xùn)練樣本錯判的觀測。用CRO
32、SSLISTERR顯示用刀切法對訓(xùn)練樣本判別錯判的觀測。用LIST對每一觀測顯示結(jié)果。用NOCLASSIFY取消對訓(xùn)練樣本的分類檢驗。用CROSSLIST顯示對訓(xùn)練樣本的刀切法的判別結(jié)果。用CROSSVALIDATE要求進(jìn)行交叉核實。當(dāng)有用“TESTDATA=”指定的檢驗數(shù)據(jù)集時用TESTLIST選項顯示檢驗數(shù)據(jù)集的檢驗結(jié)果,當(dāng)有TESTCLASS語句時用TESTLISTERR可以列出檢驗樣本判錯的觀測,用POSTERR選項可以打印基于分類結(jié)果的分類準(zhǔn)則的后驗概率錯誤率估計。用NOPRINT選項可以取消結(jié)果的顯示。在DISCRIM過程中還可以使用PRIORS語句指定先驗概率的取法。“PRIOR
33、SEQUAL”指定先驗概率相等。“PRIORSPROPORTIONAL”指定先驗概率與各類個數(shù)成正比?!癙RIORS概率值表”可以直接指定各組的先驗概率值。(二)例子用衛(wèi)星遙感可以分辨作物的種類。CROPS是訓(xùn)練數(shù)據(jù)集,其中包含了作物的實際種類(CROP)和四種遙感指標(biāo)變量(X1-X4)。datacrops;title五種作物遙感數(shù)據(jù)的判別分析;inputcrop$x1-x4;cards;CORN16273133CORN15233030CORN16272726CORN18202523CORN15153132CORN15323215CORN12151673SOYBEANS20232325SOYB
34、EANS24242532SOYBEANS21252324SOYBEANS27452412SOYBEANS12131542SOYBEANS22323143COTTON31323334COTTON29242628COTTON34322845COTTON26252324COTTON53487526COTTON34352578SUGARBEETS22232542SUGARBEETS25252426SUGARBEETS34251652SUGARBEETS54232154SUGARBEETS25433215SUGARBEETS2654254CLOVER12453254CLOVER24582534CLOVE
35、R87546121CLOVER51313116CLOVER96485462CLOVER31311111CLOVER56131371CLOVER32132732CLOVER36265432CLOVER53080654CLOVER32326216;run;用下列DISCRIM過程可以產(chǎn)生線性判別函數(shù)(METHOD=NORMAL規(guī)定使用參數(shù)方法,POOL=YES選項規(guī)定使用合并協(xié)方差陣,這樣產(chǎn)生的判別函數(shù)是線性函數(shù),為系統(tǒng)的默認(rèn)值)。用OUTSTAT=選項指定了判別函數(shù)的輸出數(shù)據(jù)集為CROPSTAT,這個數(shù)據(jù)集可以用來判別檢驗數(shù)據(jù)集。選項LIST要求列出每個觀測的結(jié)果,CROSSVALIDATE要求
36、交叉核實。“PRIORSPROPORTIONAL”即按各種類出現(xiàn)的比例計算各類的先驗概率。procdiscrimdata=cropsoutstat=cropstatmethod=normalpool=yeslistcrossvalidate;classcrop;priorsproportional;varx1-x4;run;結(jié)果如下(節(jié)略):DiscriminantAnalysis36Observations35DFTotal4Variables31DFWithinClasses5Classes4DFBetweenClasses上面是一些數(shù)據(jù)信息基本情況。ClassLevelInformati
37、onPriorCROPFrequencyWeightProportionProbabilityCLOVER1111.00000.3055560.305556CORN77.00000.1944440.194444COTTON66.00000.1666670.166667SOYBEANS66.00000.1666670.166667SUGARBEETS66.00000.1666670.166667以上為各組的基本情況,并列出了先驗概率值。因為指定了“PRIORSPROPORTIONAL”所以各組的先驗概率按實際數(shù)據(jù)中各組比例計算。DiscriminantAnalysisPairwiseGenera
38、lizedSquaredDistancesBetweenGroups2_-1_D(i|j)=(Xi-Xj)COV(Xi-Xj)-2lnPRIORj上面為各組均值間廣義距離平方的公式,即_-1_-1_Constant=-.5XjCOVXj+lnPRIORjCoefficientVector=COVXj上面即線性判別函數(shù)的公式,給出了到第j類的線性判別函數(shù)的常數(shù)項和各自變量的系數(shù)的公式。下面具體給出了各類的線性判別函數(shù)的各常數(shù)項及系數(shù)值。CROPCLOVERCORNCOTTONSOYBEANSSUGARBEETCONSTANT-10.98457-7.72070-11.46537-7.28260-9
39、.80179X10.08907-0.041800.024620.00003690.04245X20.173790.119700.175960.158960.20988X30.118990.165110.158800.106220.06540X40.156370.167680.183620.141330.16408比如,CLOVER(苜蓿)類的線性判別函數(shù)就可以用-10.98457+0.08907*X1+0.17379*X2+0.11899*X3+0.15637*X4來計算。下面為判別分析對訓(xùn)練數(shù)據(jù)集(CalibrationData)用線性判別函數(shù)的判別結(jié)果,先給出了廣義平方距離函數(shù)的公式Dis
40、criminantAnalysisClassificationResultsforCalibrationData:WORK.CROPSResubstitutionResultsusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:2_-1_Dj(X)=(X-Xj)COV(X-Xj)-2lnPRIORj然后是每個觀測屬于各類的后驗概率的公式:PosteriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMkexp(-.5D2k(X)下面就是每個觀測
41、的判別情況,包括原來屬于哪一類(FromCROP),分入了哪一類(ClassifiedintoCROP),以及屬于各類的后驗概率值。有星號的為錯判的觀測。PosteriorProbabilityofMembershipinFromClassifiedCROPintoCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETS16273133CORNCORN0.08940.40540.17630.23920.089715233030CORNCORN0.07690.45580.14210.25300.072216272726CORNCORN0.09820.34220.13650.3
42、0730.115718202523CORNCORN0.10520.36340.10780.32810.095515153132CORNCORN0.05880.57540.11730.20870.039815323215CORNSOYBEANS*0.09720.32780.13180.34200.101112151673CORNCORN0.04540.52380.18490.13760.108320232325SOYBEANSSOYBEANS0.13300.28040.11760.33050.138524242532SOYBEANSSOYBEANS0.17680.24830.15860.2660
43、0.150221252324SOYBEANSSOYBEANS0.14810.24310.12000.33180.157027452412SOYBEANSSUGARBEETS*0.23570.05470.10160.27210.335912131542SOYBEANSCORN*0.05490.47490.09200.27680.101322323143SOYBEANSCOTTON*0.14740.26060.26240.18480.144831323334COTTONCLOVER*0.28150.15180.23770.17670.152329242628COTTONSOYBEANS*0.252
44、10.18420.15290.25490.155934322845COTTONCLOVER*0.31250.10230.24040.13570.209126252324COTTONSOYBEANS*0.21210.18090.12450.30450.178053487526COTTONCLOVER*0.48370.03910.43840.02230.016634352578COTTONCOTTON0.22560.07940.38100.05920.254822232542SUGARBEETSCORN*0.14210.30660.19010.22310.138125252426SUGARBEET
45、SSOYBEANS*0.19690.20500.13540.29600.166734251652SUGARBEETSSUGARBEETS0.29280.08710.16650.14790.305654232154SUGARBEETSCLOVER*0.62150.01940.12500.04960.184525433215SUGARBEETSSOYBEANS*0.22580.11350.16460.27700.21912654254SUGARBEETSSUGARBEETS0.08500.00810.05210.06610.788712453254CLOVERCOTTON*0.06930.2663
46、0.33940.14600.178924582534CLOVERSUGARBEETS*0.16470.03760.16800.14520.484587546121CLOVERCLOVER0.93280.00030.04780.00250.016551313116CLOVERCLOVER0.66420.02050.08720.09590.132296485462CLOVERCLOVER0.92150.00020.06040.00070.017331311111CLOVERSUGARBEETS*0.25250.04020.04730.30120.358856131371CLOVERCLOVER0.
47、61320.02120.12260.04080.202332132732CLOVERCLOVER0.26690.26160.15120.22600.094336265432CLOVERCOTTON*0.26500.26450.34950.09180.029253080654CLOVERCLOVER0.59140.02370.06760.07810.239232326216CLOVERCOTTON*0.21630.31800.33270.11250.0206*Misclassifiedobservation下面給出了訓(xùn)練數(shù)據(jù)判別的概況,先寫出了廣義平方距離的公式和屬于每一類的后驗概率的公式(略)
48、,然后是每一類判入各類的個數(shù)和百分比:DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.CROPSResubstitutionSummaryusingLinearDiscriminantFunctionNumberofObservationsandPercentClassifiedintoCROP:FromCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalCLOVER603021154.550.0027.270.0018.18100.00CORN0601070.0085.710.
49、0014.290.00100.00COTTON30120650.000.0016.6733.330.00100.00SOYBEANS0113160.0016.6716.6750.0016.67100.00SUGARBEETS11022616.6716.670.0033.3333.33100.00Total10858536Percent27.7822.2213.8922.2213.89100.00Priors0.30560.19440.16670.16670.1667比如,CLOVER一共有11個觀測,正確判別的為6個,占54.55%,有3個錯判為COTTON(棉花),2個錯判為SUGARBEE
50、TS(甜菜)。最后一行為各類的先驗概率。下面為各類的錯判率(把某類錯判為其它類的次數(shù)百分比):ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate0.45450.14290.83330.50000.66670.5000Priors0.30560.19440.16670.16670.1667可見識別最好的是玉米,最差的是棉花。下面是對訓(xùn)練數(shù)據(jù)集進(jìn)行交叉核實判別的情況。交叉核實的想法是,為了判斷觀測i的判別正確與否,用刪除第i個觀測的訓(xùn)練數(shù)據(jù)集算出判別準(zhǔn)則(函數(shù)),然后用此判別函數(shù)來判別第i觀測。對每一觀測都進(jìn)
51、行這樣的判別。結(jié)果先寫出了廣義平方距離函數(shù),這里因為建立判別準(zhǔn)則時不使用要判別的觀測,所以公式中用了表示除去了X所在觀測后的第j組的均值,用表示除去X所在觀測后得到的合并協(xié)方差陣估計。DiscriminantAnalysisClassificationSummaryforCalibrationData:WORK.CROPSCross-validationSummaryusingLinearDiscriminantFunctionGeneralizedSquaredDistanceFunction:_-1_D2j(X)=(X-X(X)j)COV(X)(X-X(X)j)-2lnPRIORjPost
52、eriorProbabilityofMembershipineachCROP:Pr(j|X)=exp(-.5D2j(X)/SUMexp(-.5D2k(X)k后面是對各類交叉核實判別的概況。FromCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalCLOVER431031136.3627.279.090.0027.27100.00CORN0412070.0057.1414.2928.570.00100.00COTTON30021650.000.000.0033.3316.67100.00SOYBEANS0113160.0016.6716.6750.0016.6
53、7100.00SUGARBEETS21021633.3316.670.0033.3316.67100.00Total9939636Percent25.0025.008.3325.0016.67100.00Priors0.30560.19440.16670.16670.1667這一次11個苜蓿的觀測只判對了4個。下面是用交叉核實計算的各類的錯判率:ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate0.63640.42861.00000.50000.83330.6667Priors0.30560.19440.
54、16670.16670.1667這時錯誤最少的玉米也有42.86%的錯判率。現(xiàn)在假設(shè)我們有若干遙感數(shù)據(jù)放在了數(shù)據(jù)集TEST中,實際是已知作物類型的(在變量CROP中),但是我們假裝不知道,然后用上面建立的線性判別函數(shù)(已保存在CROPSTAT數(shù)據(jù)集中)對這些遙感數(shù)據(jù)進(jìn)行判別,這樣可以得到比較客觀的判別效果的評價。下面程序中用DATA=指定了判別函數(shù)數(shù)據(jù)集(由上一次的DISCRIM過程產(chǎn)生),用TESTDATA=選項指定了檢驗數(shù)據(jù)集名,用TESTOUT=選項指定了檢驗數(shù)據(jù)集判別結(jié)果的輸出數(shù)據(jù)集,用TESTLIST要求列出檢驗結(jié)果。datatest;inputcrop$x1-x4;cards;CO
55、RN16273133SOYBEANS21252324COTTON29242628SUGARBEETS54232154CLOVER32326216;procdiscrimdata=cropstattestdata=testtestout=touttestlist;classcrop;testclasscrop;varx1-x4;run;procprintdata=tout;run;結(jié)果列出了每個觀測的判別結(jié)果和判入每類的后驗概率,因為我們知道真實分類,所以結(jié)果中有一項是“FromCROP”,如果不知道真實分類則只能給出判入的類(ClassifiedintoCROPP)。DiscriminantA
56、nalysisClassificationResultsforTestData:WORK.TESTClassificationResultsusingLinearDiscriminantFunctionPosteriorProbabilityofMembershipinCROP:XVALUESFromClassifiedCROPintoCROPCLOVERCORNCOTTONSOYBEANSSUGARBEETS16273133CORNCORN0.08940.40540.17630.23920.089721252324SOYBEANSSOYBEANS0.14810.24310.12000.331
57、80.157029242628COTTONSOYBEANS*0.25210.18420.15290.25490.155954232154SUGARBEETSCLOVER*0.62150.01940.12500.04960.184532326216CLOVERCOTTON*0.21630.31800.33270.11250.0206下面給出了各類的判別概況(略)。下面列出了錯判的百分比。ErrorCountEstimatesforCROP:CLOVERCORNCOTTONSOYBEANSSUGARBEETSTotalRate1.00000.00001.00000.00001.00000.6389
58、Priors0.30560.19440.16670.16670.1667可見錯判率很高(總錯判率達(dá)63.89)。(三)Stepdisc過程說明Stepdisc,逐步判別分析,是一個變量的篩選過程,篩選出重要的變量,則過程結(jié)束;可調(diào)用DISCRIM過程并用篩選出的重要變量進(jìn)行判別分析。SPSS部分判別分析在SPSS中的實現(xiàn)較為簡單,因為有現(xiàn)成的窗口菜單操作,在SPSS主菜單中選擇AnalyzeClassifyDiscriminant,可實現(xiàn)判別分析。SPSS軟件處理結(jié)果的解釋可參見SAS部分的相關(guān)內(nèi)容。判別分析在寫作中的應(yīng)用從“中國期刊網(wǎng)”上查閱相關(guān)文章,掌握判別分析在寫作中的應(yīng)用。第三章主成分
59、分析一、實驗?zāi)康呐c要求1.通過上機操作使學(xué)生掌握主成分分析方法在SAS和SPSS軟件中的實現(xiàn),熟悉主成分分析的用途、目的,掌握如何判斷主成分分析的適用條件,能正確選擇適當(dāng)?shù)闹鞒煞郑?.要求學(xué)生能正確解釋軟件處理的分析結(jié)果;3.要求學(xué)生閱讀一定數(shù)量的文獻(xiàn)資料,掌握主成分分析方法在寫作中的應(yīng)用。二、實驗內(nèi)容與步驟現(xiàn)實中的統(tǒng)計對象經(jīng)常用多個指標(biāo)來表示,比如人口普查,就可以有姓名、性別、出生年月日、籍貫、婚姻狀況、民族、政治面貌、地區(qū)等;企業(yè)調(diào)查,可以有凈資產(chǎn)、負(fù)債、盈利、職工人數(shù)、還貸情況等等。多個指標(biāo)(變量)可以分別進(jìn)行分析,但是,我們往往希望綜合使用這些指標(biāo),這時用主成份分析、因子分析等方法可以
60、把數(shù)據(jù)的維數(shù)降低,同時又盡量不損失數(shù)據(jù)中的信息。主成份分析的目的是用原始的多個變量做若干線性組合,并盡可能多地保留原始變量中的信息。從原始變量到新變量是一個正交變換(坐標(biāo)變換)。為了減少變量的個數(shù),希望前幾個主成分就可以代表原變量的大部分信息。定義為第K個主成份的貢獻(xiàn)率,稱為前m個主成份的累計貢獻(xiàn)率。一般取m使得累計貢獻(xiàn)率達(dá)到70%80%以上。前個主成份在的m個線性組合中能對最好地線性逼近。SAS部分(一)用PRINCOMP過程進(jìn)行主成份分析1.SAS中的PRINTCOMP過程有如下功能:(1)完成主成份分析。(2)主成份的個數(shù)可以由用戶自己確定,主成份的名字可以由用戶自己規(guī)定,主成份得分是否
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人教版八年級物理上冊《2.2聲音的特性》同步測試題及答案
- 環(huán)境因素對紙質(zhì)文獻(xiàn)保存影響分析
- 高一化學(xué)成長訓(xùn)練:第二單元化學(xué)是社會可持續(xù)發(fā)展的基礎(chǔ)
- 加油站隱患自查自糾以及判定依據(jù)
- 2024高中地理第五章交通運輸布局及其影響章末總結(jié)提升練含解析新人教版必修2
- 2024高中生物專題3植物的組織培養(yǎng)技術(shù)課題2月季的花藥培養(yǎng)課堂演練含解析新人教版選修1
- 2024高中語文第三單元現(xiàn)當(dāng)代散文第9課記梁任公先生的一次演講學(xué)案新人教版必修1
- 2024高考地理一輪復(fù)習(xí)第十九章第2講世界熱點國家教案含解析新人教版
- 2024高考地理一輪復(fù)習(xí)專練78南美洲與巴西含解析新人教版
- 2024秋季期末散學(xué)典禮上校長講話:用自律、書香與實踐填滿你的寒假行囊
- 2025年中國CAR-T免疫細(xì)胞治療行業(yè)市場發(fā)展前景研究報告-智研咨詢發(fā)布
- 2025年廣東惠州市招聘市直事業(yè)單位工作人員21人歷年高頻重點提升(共500題)附帶答案詳解
- 民宿承包協(xié)議書2025年
- 2025年云南省昆明市尋甸縣部分事業(yè)單位招聘17人歷年高頻重點提升(共500題)附帶答案詳解
- 2024年小學(xué)五年級音樂教學(xué)工作總結(jié)(4篇)
- 初中生心理健康家長會
- 2024-2025學(xué)年高一上學(xué)期期末數(shù)學(xué)試卷(基礎(chǔ)篇)(含答案)
- 《工程勘察設(shè)計收費標(biāo)準(zhǔn)》(2002年修訂本)-工程設(shè)計收費標(biāo)準(zhǔn)2002修訂版
- YY/T 1409-2016等離子手術(shù)設(shè)備
- 電梯安全防護(hù)知識培訓(xùn)PPT課件:正確使用電梯
- (完整版)金融市場學(xué)考試大綱
評論
0/150
提交評論