版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1第四章第四章 判別分析判別分析第一節(jié)第一節(jié) 引言引言 第二節(jié)第二節(jié) 距離判別法距離判別法 第三節(jié)第三節(jié) 貝葉斯(貝葉斯(bayes)判別法)判別法 第四節(jié)第四節(jié) 費(fèi)歇(費(fèi)歇(fisher)判別法)判別法 第五節(jié)第五節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn) 2第四節(jié)第四節(jié) 費(fèi)歇(費(fèi)歇(fisher)判別法)判別法一一 fisher判別的基本思想判別的基本思想 二二 fisher判別函數(shù)的構(gòu)造判別函數(shù)的構(gòu)造 三三 線性判別函數(shù)的求法線性判別函數(shù)的求法 3nfisher判別法是判別法是1936年提出來的,該方法的主要思想是通過年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個(gè)方向上,投影的
2、原則是將總體與總體將多維數(shù)據(jù)投影到某個(gè)方向上,投影的原則是將總體與總體之間盡可能的分開,然后再選擇合適的判別規(guī)則,將新的樣之間盡可能的分開,然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類判別。品進(jìn)行分類判別。n右圖中有右圖中有a、b兩個(gè)總體。在兩個(gè)總體。在原始變量(指標(biāo))原始變量(指標(biāo))x1、x2的方的方向上,向上,a、b都有很大的重疊,都有很大的重疊,難以區(qū)分清楚。但是,如果以難以區(qū)分清楚。但是,如果以x1、x2為橫、縱坐標(biāo)軸構(gòu)建一為橫、縱坐標(biāo)軸構(gòu)建一個(gè)平面,若能設(shè)法找到一個(gè)個(gè)平面,若能設(shè)法找到一個(gè)y軸,使得當(dāng)軸,使得當(dāng)x1x2平面上的散點(diǎn)平面上的散點(diǎn)投射到投射到y(tǒng)軸上時(shí),兩組觀察值軸上時(shí),兩
3、組觀察值的重疊程度最小,則綜合指標(biāo)的重疊程度最小,則綜合指標(biāo)y的區(qū)分能力顯然大于原先的的區(qū)分能力顯然大于原先的x1、x2 。yx2x1一、一、fisher判別的基本思想判別的基本思想4一、一、fisher判別的基本思想判別的基本思想n n n n 5一、一、fisher判別的基本思想判別的基本思想n n 6二、二、fisher判別函數(shù)的構(gòu)造判別函數(shù)的構(gòu)造1、針對兩個(gè)總體的情形、針對兩個(gè)總體的情形n n 71、針對兩個(gè)總體的情形、針對兩個(gè)總體的情形82、針對多個(gè)總體的情形、針對多個(gè)總體的情形 9n 2、針對多個(gè)總體的情形、針對多個(gè)總體的情形10n 11三、線性判別函數(shù)的求法三、線性判別函數(shù)的求法
4、n 12n 13n 14n 15n 161718一般需要多少個(gè)判別式就夠用了?一般需要多少個(gè)判別式就夠用了?19另外一種求另外一種求4.23式的思路式的思路*n 20n 另外一種求另外一種求4.23式的思路式的思路*21n需要指出是,此處利用極值原理求極值時(shí),只給出了必需要指出是,此處利用極值原理求極值時(shí),只給出了必要條件的數(shù)學(xué)推導(dǎo),而省略了有關(guān)充分條件的論證,因要條件的數(shù)學(xué)推導(dǎo),而省略了有關(guān)充分條件的論證,因?yàn)樵趯?shí)際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有為在實(shí)際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點(diǎn)只有一個(gè),這時(shí)最大值(或最小值),如果所求的駐點(diǎn)只有一個(gè)
5、,這時(shí)就不需要根據(jù)極值存在的充分條件判定它是極大還是極就不需要根據(jù)極值存在的充分條件判定它是極大還是極小,而是直接能肯定這唯一的駐點(diǎn)就是所求的最大值小,而是直接能肯定這唯一的駐點(diǎn)就是所求的最大值(或最小值)。為了避免較多的數(shù)學(xué)推導(dǎo),這里不追求(或最小值)。為了避免較多的數(shù)學(xué)推導(dǎo),這里不追求數(shù)學(xué)上的完整性。數(shù)學(xué)上的完整性。 另外一種求另外一種求4.23式的思路式的思路*22 總體參數(shù)未知情況下的解決方法總體參數(shù)未知情況下的解決方法n 232425判別規(guī)則判別規(guī)則26判別規(guī)則判別規(guī)則27判別函數(shù)判別函數(shù)u(x)的另一種形式)的另一種形式28例題例題4.5n經(jīng)典案例:費(fèi)希爾于經(jīng)典案例:費(fèi)希爾于193
6、6年年發(fā)表的鳶尾花(發(fā)表的鳶尾花(iris)數(shù)據(jù),)數(shù)據(jù),被廣泛用為判別分析的例子。被廣泛用為判別分析的例子。數(shù)據(jù)是對數(shù)據(jù)是對3種鳶尾花:剛毛種鳶尾花:剛毛鳶尾花(第一組)、變色鳶鳶尾花(第一組)、變色鳶尾花(第二組)和弗吉尼亞尾花(第二組)和弗吉尼亞鳶尾花(第三組),各自抽鳶尾花(第三組),各自抽取一個(gè)容量為取一個(gè)容量為50的樣本,測的樣本,測量其花萼長度量其花萼長度x1、花萼寬度、花萼寬度x2、花瓣長度、花瓣長度x3、花瓣寬度、花瓣寬度x4,單位為,單位為mm。2930313233求解特征值與特征向量求解特征值與特征向量34求判別函數(shù)求判別函數(shù)35最后,確定判別規(guī)則最后,確定判別規(guī)則36最
7、后,確定判別規(guī)則最后,確定判別規(guī)則37本例題本例題spss的幾個(gè)關(guān)鍵輸出結(jié)果的幾個(gè)關(guān)鍵輸出結(jié)果n特征值特征值38n中心化的中心化的fisher判別函數(shù)判別函數(shù)u1(x)和)和u2(x)的取值:)的取值:39n各判別函數(shù)的組均值為:各判別函數(shù)的組均值為:4041幾種判別方法的關(guān)系幾種判別方法的關(guān)系*nfisher判別與距離判別對判別變量的分布并無要求,而貝葉判別與距離判別對判別變量的分布并無要求,而貝葉斯判別要求了解判別變量的先驗(yàn)分布,因此,斯判別要求了解判別變量的先驗(yàn)分布,因此,fisher判別核判別核距離判別相對于貝葉斯判別,較為簡單實(shí)用;當(dāng)然,后者更距離判別相對于貝葉斯判別,較為簡單實(shí)用;
8、當(dāng)然,后者更加精確。加精確。n當(dāng)當(dāng)k2且兩個(gè)總體協(xié)差陣相等時(shí),且兩個(gè)總體協(xié)差陣相等時(shí),fisher判別與距離判別是判別與距離判別是等價(jià)的。當(dāng)判別變量服從正態(tài)分布,且不考慮誤判代價(jià)時(shí),等價(jià)的。當(dāng)判別變量服從正態(tài)分布,且不考慮誤判代價(jià)時(shí),它們與貝葉斯判別也是相同的。它們與貝葉斯判別也是相同的。42第五節(jié)第五節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)n這一節(jié)我們利用這一節(jié)我們利用spss對對fisher判別法和判別法和bayes判別法進(jìn)行計(jì)判別法進(jìn)行計(jì)算機(jī)實(shí)現(xiàn)。算機(jī)實(shí)現(xiàn)。n例題例題4.6:為研究某地區(qū)人口死亡狀況,已按某種方法將:為研究某地區(qū)人口死亡狀況,已按某種方法將15個(gè)已知地區(qū)樣品分為個(gè)已知
9、地區(qū)樣品分為3類,指標(biāo)含義及原始數(shù)據(jù)如下。試建類,指標(biāo)含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外立判別函數(shù),并判定另外4個(gè)待判地區(qū)屬于哪類?(本例個(gè)待判地區(qū)屬于哪類?(本例spss數(shù)據(jù)文件:數(shù)據(jù)文件:4-6.sav) x1 : 0歲組死亡概率 x 4 : 55歲組死亡概率 x 2 :1歲組死亡概率 x5 : 80歲組死亡概率 x 3 : 10歲組死亡概率 x6 : 平均預(yù)期壽命 43表表4.1 各地區(qū)死亡概率表各地區(qū)死亡概率表44分類變量分類變量group取值的設(shè)置取值的設(shè)置45開始判別分析開始判別分析46 (一一) 操作步驟操作步驟1. 在在spss窗口中選擇窗口中選擇analyzecl
10、assifydiscriminate,調(diào),調(diào)出判別分析主界面,將左邊的變量列表中的出判別分析主界面,將左邊的變量列表中的“group”變量選變量選入分組變量中,將入分組變量中,將x1至至x6變量選入自變量中,并選擇變量選入自變量中,并選擇enter independents together單選按鈕,即使用所有自變量進(jìn)行判單選按鈕,即使用所有自變量進(jìn)行判別分析。別分析。472. 點(diǎn)擊點(diǎn)擊define range按鈕,定義分組變量的取值范圍。本例按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為中分類變量的范圍為1到到3,所以在最小值和最大值中分別輸,所以在最小值和最大值中分別輸入入1和和3。
11、單擊。單擊continue按鈕,返回主界面。按鈕,返回主界面。483. 單擊單擊statistics按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)按鈕,指定輸出的描述統(tǒng)計(jì)量和判別函數(shù)系數(shù)。選中系數(shù)。選中function coefficients欄中的欄中的fishers和和unstandardized。然后,單擊。然后,單擊continue按鈕,返回主界面。按鈕,返回主界面。49這兩個(gè)選項(xiàng)的含義如下:這兩個(gè)選項(xiàng)的含義如下:fishers:給出:給出bayes判別函數(shù)的系數(shù)。(注意:判別函數(shù)的系數(shù)。(注意:這個(gè)選項(xiàng)不是要給出這個(gè)選項(xiàng)不是要給出fisher判別函數(shù)的系數(shù)。這判別函數(shù)的系數(shù)。這個(gè)復(fù)選框的名字之
12、所以為個(gè)復(fù)選框的名字之所以為fishers,是因?yàn)榘磁?,是因?yàn)榘磁袆e函數(shù)值最大的一組進(jìn)行歸類這種思想是由別函數(shù)值最大的一組進(jìn)行歸類這種思想是由fisher提出來的。這里極易混淆,請同學(xué)注意。)提出來的。這里極易混淆,請同學(xué)注意。)unstandardized:給出:給出未標(biāo)準(zhǔn)化未標(biāo)準(zhǔn)化的的fisher判別函判別函數(shù)(即數(shù)(即典型典型判別函數(shù),也即我們前面講過的判別函數(shù),也即我們前面講過的“中中心化心化的的fisher判別函數(shù)判別函數(shù)”)的系數(shù)()的系數(shù)(spss默認(rèn)給默認(rèn)給出標(biāo)準(zhǔn)化的出標(biāo)準(zhǔn)化的fisher判別函數(shù)系數(shù))。判別函數(shù)系數(shù))。50設(shè)置均值、協(xié)差陣檢驗(yàn)設(shè)置均值、協(xié)差陣檢驗(yàn)nboxx m
13、是對各總體協(xié)差陣是否相等進(jìn)行齊性檢驗(yàn)是對各總體協(xié)差陣是否相等進(jìn)行齊性檢驗(yàn)nmeans可給出各總體均值是否相等的可給出各總體均值是否相等的wilks統(tǒng)計(jì)量。統(tǒng)計(jì)量。nwithin-groups correlation給出各自變量之間的相關(guān)系數(shù)矩陣給出各自變量之間的相關(guān)系數(shù)矩陣最后點(diǎn)擊最后點(diǎn)擊“continue”回到上一級(jí)菜單?;氐缴弦患?jí)菜單。514. 再單擊再單擊classify按鈕,定義判別分組參數(shù)和選擇輸出結(jié)按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇果。選擇display欄中的欄中的casewise results,輸出一個(gè)判別結(jié)果,輸出一個(gè)判別結(jié)果表,包括每個(gè)樣品的判別分?jǐn)?shù)、后驗(yàn)概率、實(shí)際
14、組和預(yù)測組表,包括每個(gè)樣品的判別分?jǐn)?shù)、后驗(yàn)概率、實(shí)際組和預(yù)測組編號(hào)等。編號(hào)等。plots欄中選中欄中選中“combined-groups”,在同一幅圖,在同一幅圖中輸出各組的中輸出各組的fisher判別函數(shù)(投影)值。再選擇判別函數(shù)(投影)值。再選擇summary table,將輸出分類結(jié)果表,將輸出分類結(jié)果表“classification results”;其余的;其余的均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊均保留系統(tǒng)默認(rèn)選項(xiàng)。單擊continue按鈕。按鈕。525. 單擊單擊save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義
15、分別為:和判別得分的新變量,生成的新變量的含義分別為:predicted group membership:存放判別樣品所屬組別的值;:存放判別樣品所屬組別的值; discriminant scores:存放:存放fisher判別得分的值,有幾個(gè)典型判別得分的值,有幾個(gè)典型判別函數(shù)就有幾個(gè)判別得分變量;判別函數(shù)就有幾個(gè)判別得分變量;probabilities of group membership:存放樣品屬于各組的:存放樣品屬于各組的bayes后驗(yàn)概率值。后驗(yàn)概率值。n將對話框中的三個(gè)復(fù)選框均選中,單擊將對話框中的三個(gè)復(fù)選框均選中,單擊continue按鈕返回。按鈕返回。536. 返回判別分
16、析主界面,單擊返回判別分析主界面,單擊ok按鈕,運(yùn)行判別分析過程。按鈕,運(yùn)行判別分析過程。save子對話框子對話框54(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋各原始變量相關(guān)系數(shù)矩陣各原始變量相關(guān)系數(shù)矩陣n可見,第可見,第1與第與第3、第、第1與第與第2、第、第3與第與第4等指標(biāo)間的存在一定等指標(biāo)間的存在一定相關(guān)相關(guān)pooled within-groups matricespooled within-groups matrices1.000.530.756.365.5301.000.378.471.756.3781.000.484.365.471.4841.000 x1x2x3x4corr
17、elationx1x2x3x455(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋各總體均值是否相等的檢驗(yàn)結(jié)果各總體均值是否相等的檢驗(yàn)結(jié)果n可見,第可見,第1、2、6個(gè)指標(biāo)在各總體間的差異并不大個(gè)指標(biāo)在各總體間的差異并不大tests of equality of group meanstests of equality of group means.997.019212.981.990.063212.939.6453.301212.072.4387.690212.007.17428.557212.000.926.478212.6310歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80
18、歲組死亡概率平均預(yù)期壽命wilks lambdafdf1df2sig.56n各組均值和離差的描述性統(tǒng)計(jì):各組均值和離差的描述性統(tǒng)計(jì):n確實(shí)發(fā)現(xiàn)三個(gè)總體在第確實(shí)發(fā)現(xiàn)三個(gè)總體在第1、2、6指標(biāo)的均值比較接近,以第指標(biāo)的均值比較接近,以第一個(gè)指標(biāo)一個(gè)指標(biāo)“0歲組死亡率歲組死亡率”為例:為例:group statisticsgroup statistics38.74206.8843455.00011.90006.7852855.0001.5000.7593155.00012.24606.9758555.000100.05807.4774055.00067.46002.6968555.00039.536
19、08.3724955.00011.49608.4491155.0002.93802.1253055.00027.83006.1197155.000151.024017.6022355.00066.05001.9072255.00038.500010.5680155.00010.09809.8066555.000.6840.9079055.00010.33209.6736055.00093.946012.2527655.00067.42003.0507455.00038.92608.104851515.00011.16477.852811515.0001.70731.618971515.0001
20、6.802710.823061515.000115.009329.136171515.00066.97672.497351515.0000歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命0歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命0歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命0歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命group第一類第二類第三類totalmeanstd.deviationunweightedweightedva
21、lid n (listwise)57協(xié)差陣齊性檢驗(yàn)結(jié)果:協(xié)差陣齊性檢驗(yàn)結(jié)果:n由于樣本資料矩陣的由于樣本資料矩陣的秩小于秩小于5(p-1)(原)(原因?),不是非奇異因?),不是非奇異矩陣,無法給出矩陣,無法給出boxs檢驗(yàn)結(jié)果。檢驗(yàn)結(jié)果。n可見,第可見,第1、2、6個(gè)個(gè)指標(biāo)的同均值,確實(shí)指標(biāo)的同均值,確實(shí)對檢驗(yàn)產(chǎn)生了影響對檢驗(yàn)產(chǎn)生了影響(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋58n因此,應(yīng)該剔除第因此,應(yīng)該剔除第1、2、6個(gè)指標(biāo),重新進(jìn)行分析:個(gè)指標(biāo),重新進(jìn)行分析:(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋59n各組均值和離差的描述性統(tǒng)計(jì):各組均值和離差的描述性統(tǒng)計(jì):group s
22、tatisticsgroup statistics1.5000.7593155.00012.24606.9758555.000100.05807.4774055.0002.93802.1253055.00027.83006.1197155.000151.024017.6022355.000.6840.9079055.00010.33209.6736055.00093.946012.2527655.0001.70731.618971515.00016.802710.823061515.000115.009329.136171515.00010歲組死亡概率55歲組死亡概率80歲組死亡概率10歲組死
23、亡概率55歲組死亡概率80歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率group第一類第二類第三類totalmeanstd.deviationunweightedweightedvalid n (listwise)(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋60n剔除第剔除第1、2、6個(gè)指標(biāo)后重新進(jìn)行分析,得到的均值檢驗(yàn)結(jié)個(gè)指標(biāo)后重新進(jìn)行分析,得到的均值檢驗(yàn)結(jié)果為:果為:(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋tests of equality of group meanstests of equality of grou
24、p means.6453.301212.072.4387.690212.007.17428.557212.00010歲組死亡概率55歲組死亡概率80歲組死亡概率wilks lambdafdf1df2sig.61n剔除第剔除第1、2、6個(gè)指標(biāo)后重新進(jìn)行分析,得到的協(xié)差陣齊性個(gè)指標(biāo)后重新進(jìn)行分析,得到的協(xié)差陣齊性檢驗(yàn)結(jié)果為:檢驗(yàn)結(jié)果為:(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋62n可見,判別分析開始前,有必要對各個(gè)總體的均值是否相等可見,判別分析開始前,有必要對各個(gè)總體的均值是否相等進(jìn)行假設(shè)檢驗(yàn)。進(jìn)行假設(shè)檢驗(yàn)。n接下來,接下來,出于課堂演示的需要出于課堂演示的需要,我們繼續(xù)使用原有全部六個(gè),
25、我們繼續(xù)使用原有全部六個(gè)指標(biāo),進(jìn)行后續(xù)的判別分析指標(biāo),進(jìn)行后續(xù)的判別分析(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋63特征值:特征值:wilkss lambda,是對,是對fisher判別函數(shù)的顯著性進(jìn)行檢驗(yàn)。判別函數(shù)的顯著性進(jìn)行檢驗(yàn)。(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋n典型相關(guān)系數(shù)(典型相關(guān)系數(shù)(canonical correlation)的平方,說明了判)的平方,說明了判別函數(shù)因變量的變動(dòng),可以在多少程度上由自變量的變化所別函數(shù)因變量的變動(dòng),可以在多少程度上由自變量的變化所解釋;解釋;n也即,該平方項(xiàng)反映這個(gè)判別函數(shù)攜帶了多少原始數(shù)據(jù)的信也即,該平方項(xiàng)反映這個(gè)判別函數(shù)攜帶了
26、多少原始數(shù)據(jù)的信息,該值反映了該判別函數(shù)的信息價(jià)值,當(dāng)然越大越好。息,該值反映了該判別函數(shù)的信息價(jià)值,當(dāng)然越大越好。65(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋1. standardized canonical discriminant function coefficients(給出標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))(給出標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))標(biāo)準(zhǔn)化的典型判別函數(shù)是由標(biāo)準(zhǔn)化的自變量通過標(biāo)準(zhǔn)化的典型判別函數(shù)是由標(biāo)準(zhǔn)化的自變量通過fisher判別法判別法得到的,所以要得到標(biāo)準(zhǔn)化的典型判別得分,代入該函數(shù)的自得到的,所以要得到標(biāo)準(zhǔn)化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標(biāo)準(zhǔn)化的。變量必須是
27、經(jīng)過標(biāo)準(zhǔn)化的。69(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋2. canonical discriminant function coefficients(給出未標(biāo)(給出未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù))準(zhǔn)化的典型判別函數(shù)系數(shù))未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測的樣品觀測值直未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實(shí)測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。方便一些。70由此表可知,兩個(gè)由此表可知,兩個(gè)fisher判別函數(shù)分別為:判別函數(shù)分別為:實(shí)際上兩個(gè)函數(shù)式計(jì)算的是各觀測值在各個(gè)維度上的坐標(biāo),這實(shí)際
28、上兩個(gè)函數(shù)式計(jì)算的是各觀測值在各個(gè)維度上的坐標(biāo),這樣就可以通過這兩個(gè)函數(shù)式計(jì)算出各樣品觀測值的具體空間位樣就可以通過這兩個(gè)函數(shù)式計(jì)算出各樣品觀測值的具體空間位置。置。 1123456212345674.991.8611.6560.8770.7980.0981.57929.4820.8671.1550.3560.0890.0540.69yxxxxxxyxxxxxx (二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋structure matrixstructure matrix.008*-.001.288-.388*.149-.199*.098.106*.007.104*-.036.091*0歲組死
29、亡概率80歲組死亡概率55歲組死亡概率10歲組死亡概率1歲組死亡概率平均預(yù)期壽命12functionpooled within-groups correlations betweendiscriminating variables and standardizedcanonical discriminant functions variables ordered by absolute size of correlationwithin function.largest absolute correlation between eachvariable and any discriminant
30、 function*. 744. functions at group centroids(給出組重心處的(給出組重心處的fisher判判別函數(shù)值)別函數(shù)值)如下圖如下圖 所示,實(shí)際上為各類別重心在空間中的坐標(biāo)位置。這所示,實(shí)際上為各類別重心在空間中的坐標(biāo)位置。這樣,只要在前面計(jì)算出各觀測值的具體坐標(biāo)位置后,再計(jì)算出樣,只要在前面計(jì)算出各觀測值的具體坐標(biāo)位置后,再計(jì)算出它們分別離各重心的距離,就可以得知它們的分類了。它們分別離各重心的距離,就可以得知它們的分類了。組重心處的組重心處的fisher判別函數(shù)值判別函數(shù)值(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋75 5. classificat
31、ion function coefficients(給出(給出bayes判別函數(shù)判別函數(shù)系數(shù))系數(shù))(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋76n注意,在輸出結(jié)果注意,在輸出結(jié)果“classification function coefficients”表表的下方注明是的下方注明是“fishers linear discriminant functions”,但,但是經(jīng)驗(yàn)證實(shí)為一般教課書中的貝葉斯線性判別函數(shù)是經(jīng)驗(yàn)證實(shí)為一般教課書中的貝葉斯線性判別函數(shù)! 命名出命名出現(xiàn)不一致的原因是按判別函數(shù)值最大的一組進(jìn)行歸類這種思現(xiàn)不一致的原因是按判別函數(shù)值最大的一組進(jìn)行歸類這種思想,是想,是fis
32、her提出來的,因此提出來的,因此spss用用“fisher”對對“貝葉斯貝葉斯”方法進(jìn)行了命名。方法進(jìn)行了命名。n并且因?yàn)樨惾~斯判別函數(shù)只有在各個(gè)總體的樣本的協(xié)方差陣并且因?yàn)樨惾~斯判別函數(shù)只有在各個(gè)總體的樣本的協(xié)方差陣相同時(shí)才是線性的(為什么?)因此在得到該判別函數(shù)的系相同時(shí)才是線性的(為什么?)因此在得到該判別函數(shù)的系數(shù)時(shí),對樣本的協(xié)方差的估計(jì)必須是在總體協(xié)方差相等情況數(shù)時(shí),對樣本的協(xié)方差的估計(jì)必須是在總體協(xié)方差相等情況下的估計(jì)!下的估計(jì)!spss提供了提供了boxm組間協(xié)方差矩陣的齊性檢驗(yàn)。組間協(xié)方差矩陣的齊性檢驗(yàn)。(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋77 5. classif
33、ication function coefficients(給出(給出bayes判別函數(shù)判別函數(shù)系數(shù))系數(shù))如上圖所示,如上圖所示,group欄中的每一列表示樣品判入相應(yīng)列的欄中的每一列表示樣品判入相應(yīng)列的bayes判別函數(shù)系數(shù)。在本例中,各類的判別函數(shù)系數(shù)。在本例中,各類的bayes判別函數(shù)如下:判別函數(shù)如下:第一組:第一組:第二組:第二組:第三組:第三組: 11234565317.2143.9153.190.153.011.0189.3fxxxxxx 21234566202.2164.7171.2100.062.512.1207.0fxxxxxx 31234564982.9134.9144
34、.585.950.010.5181.7fxxxxxx (二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋78將各樣品的自變量值代入上述三個(gè)將各樣品的自變量值代入上述三個(gè)bayes判別函數(shù),得到三個(gè)判別函數(shù),得到三個(gè)函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該函數(shù)值。比較這三個(gè)函數(shù)值,哪個(gè)函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個(gè)待判樣品的自變量值分別代樣品判入哪一類。例如,將第一個(gè)待判樣品的自變量值分別代入函數(shù),得到:入函數(shù),得到: f1=3793.77, f2=3528.32, f3=3882.48比較三個(gè)值,可以看出最大,據(jù)此得出第一個(gè)待判樣品應(yīng)該屬比較三個(gè)值,可以看出最
35、大,據(jù)此得出第一個(gè)待判樣品應(yīng)該屬于第三組。于第三組。(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋796. casewise statistics(給出個(gè)案觀察結(jié)果)(給出個(gè)案觀察結(jié)果)在在casewise statistics輸出表針對每個(gè)樣品給出了了大部分的判輸出表針對每個(gè)樣品給出了了大部分的判別結(jié)果,其中包括:實(shí)際類(別結(jié)果,其中包括:實(shí)際類(actual group)、預(yù)測類)、預(yù)測類(predicted group)、)、bayes判別法的后驗(yàn)概率、與組重心的判別法的后驗(yàn)概率、與組重心的馬氏距離(馬氏距離(squared mahalanobis distance to centroi
36、d)以及)以及fisher判別法的每個(gè)典型判別函數(shù)的判別得分(判別法的每個(gè)典型判別函數(shù)的判別得分(discriminant scores)。下表經(jīng)過加工隱藏了其中的一些項(xiàng)目。從表中可以)。下表經(jīng)過加工隱藏了其中的一些項(xiàng)目。從表中可以看出四個(gè)待判樣本依次被判別為第三組、第一組、第二組和第看出四個(gè)待判樣本依次被判別為第三組、第一組、第二組和第三組。三組。(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋80casewise statistics111.000.297-2.1771.364111.000.236-2.2701.375111.000.117-2.7411.32311.998.507-3.1
37、99.638111.000.418-2.582.366221.000.4699.674.231221.000.8688.332-.613221.0005.98510.128-2.518221.0004.7938.3421.760221.000.1019.491-.145331.000.139-6.687-.394331.000.322-7.163-.685331.0005.365-8.655-1.82333.8793.384-4.766-.60833.995.998-5.727-.270ungrouped31.000361.567-20.714-13.498ungrouped1.998.558
38、-3.319.831ungrouped21.00028.66814.0082.086ungrouped31.0001.982-7.595-1.752casenumber12345678910111213141516171819actualgrouppredictedgroupp(g=g| d=d)squaredmahalanobisdistance tocentroidhighest groupfunction1function2discriminant scores表表4.4 個(gè)案觀察結(jié)果表個(gè)案觀察結(jié)果表(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋81n原始輸出結(jié)果原始輸出結(jié)果(二)(二)
39、 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋7.有效性的驗(yàn)證有效性的驗(yàn)證classification resultsclassification resultsa a500505050055100.0.0.0100.0.0100.0.0100.0.0.0100.0100.0group第一類第二類第三類第一類第二類第三類count%original第一類第二類第三類predicted group membershiptotal100.0% of original grouped cases correctly classified.a. 838. 由于我們在由于我們在save子對話框中選擇了生成表示判別結(jié)
40、果的新子對話框中選擇了生成表示判別結(jié)果的新變量,所以在數(shù)據(jù)編輯窗口中,可以觀察到產(chǎn)生的新變量。變量,所以在數(shù)據(jù)編輯窗口中,可以觀察到產(chǎn)生的新變量。其中,變量其中,變量dis-1存放判別樣品所屬組別的值,變量存放判別樣品所屬組別的值,變量dis1-1和和dis2-1分別代表將樣品各變量值代入第一個(gè)和第二個(gè)非標(biāo)準(zhǔn)分別代表將樣品各變量值代入第一個(gè)和第二個(gè)非標(biāo)準(zhǔn)化化fisher判別函數(shù)所得的判別分?jǐn)?shù),變量判別函數(shù)所得的判別分?jǐn)?shù),變量dis1-2、dis2-2和和dis3-2分別代表樣品分別屬于第分別代表樣品分別屬于第1組、第組、第2組和第組和第3組的組的bayes后驗(yàn)概率值。后驗(yàn)概率值。(二)(二)
41、主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋84(二)(二) 主要運(yùn)行結(jié)果解釋主要運(yùn)行結(jié)果解釋8586再多說一句:再多說一句:spss操作中的輔助檢驗(yàn)操作中的輔助檢驗(yàn)n無論是哪種判別分析方法,都需要對各個(gè)總體均值是否相等無論是哪種判別分析方法,都需要對各個(gè)總體均值是否相等進(jìn)行檢驗(yàn)。如果無法拒絕進(jìn)行檢驗(yàn)。如果無法拒絕“均值相等均值相等”的原假設(shè),就應(yīng)該將的原假設(shè),就應(yīng)該將相關(guān)樣本合并,再進(jìn)行后續(xù)的判別相關(guān)樣本合并,再進(jìn)行后續(xù)的判別nfisher判別,無需對總體協(xié)差陣進(jìn)行齊性檢驗(yàn);判別,無需對總體協(xié)差陣進(jìn)行齊性檢驗(yàn);n貝葉斯判別,正常情況下我們需要得到線性判別函數(shù),此時(shí),貝葉斯判別,正常情況下我們需要得到線性
42、判別函數(shù),此時(shí),需要對總體協(xié)差陣進(jìn)行齊性檢驗(yàn)需要對總體協(xié)差陣進(jìn)行齊性檢驗(yàn)nfisher判別無需對總體的分布特征進(jìn)行檢驗(yàn);貝葉斯判別理判別無需對總體的分布特征進(jìn)行檢驗(yàn);貝葉斯判別理論上需要對總體的正態(tài)性進(jìn)行檢驗(yàn),不過,在實(shí)際操作中要論上需要對總體的正態(tài)性進(jìn)行檢驗(yàn),不過,在實(shí)際操作中要求并不嚴(yán)格。求并不嚴(yán)格。87n有時(shí),一些變量對于判別并沒有用處,為了得到對判別最合有時(shí),一些變量對于判別并沒有用處,為了得到對判別最合適的變量,可以使用逐步判別。適的變量,可以使用逐步判別。n即:先用少數(shù)變量進(jìn)行判別,然后一邊判別,一邊引進(jìn)判別即:先用少數(shù)變量進(jìn)行判別,然后一邊判別,一邊引進(jìn)判別能力最強(qiáng)的變量,又要逐
43、步淘汰判別能力不強(qiáng)的變量,這個(gè)能力最強(qiáng)的變量,又要逐步淘汰判別能力不強(qiáng)的變量,這個(gè)過程可以有進(jìn)有出。過程可以有進(jìn)有出。n判別一個(gè)變量判別能力的方法有很多種,主要利用各種檢驗(yàn),判別一個(gè)變量判別能力的方法有很多種,主要利用各種檢驗(yàn),例如例如wilks lambda、raos v、馬氏距離、馬氏距離、smallest f ratio或或the sum of unexplained variation等檢驗(yàn)等檢驗(yàn)n篩選好變量后,接下來的判別方法與前面相同篩選好變量后,接下來的判別方法與前面相同(三)逐步判別分析功能(三)逐步判別分析功能*88(三)逐步判別分析功能(三)逐步判別分析功能*n調(diào)入判別分析
44、主菜單(方法同前),然后選擇調(diào)入判別分析主菜單(方法同前),然后選擇“use stepwise method”89n再點(diǎn)擊再點(diǎn)擊“method.”,選擇篩選變量的檢驗(yàn)方法:,選擇篩選變量的檢驗(yàn)方法:n選擇默認(rèn)方法選擇默認(rèn)方法wilks lambda檢驗(yàn)檢驗(yàn)(三)逐步判別分析功能(三)逐步判別分析功能*90n最終只保留了一個(gè)變量:最終只保留了一個(gè)變量:(三)逐步判別分析功能(三)逐步判別分析功能*91n非中心化的非中心化的fisher判別函數(shù)及組重心:判別函數(shù)及組重心:(三)逐步判別分析功能(三)逐步判別分析功能*92n貝葉斯判別函數(shù)貝葉斯判別函數(shù)(三)逐步判別分析功能(三)逐步判別分析功能*(
45、四)訓(xùn)練樣本的選?。ㄋ模┯?xùn)練樣本的選取*現(xiàn)在我們希望只選取前現(xiàn)在我們希望只選取前13個(gè)樣本作為個(gè)樣本作為“訓(xùn)練樣本訓(xùn)練樣本”生生成判別函數(shù),而保留最后兩個(gè)樣本僅作為測試樣本成判別函數(shù),而保留最后兩個(gè)樣本僅作為測試樣本:n在在variable view窗口中生成虛擬變量窗口中生成虛擬變量“dummy”n在在data view窗口中給該虛擬變量賦值,前窗口中給該虛擬變量賦值,前13個(gè)樣本賦值為個(gè)樣本賦值為1,最后,最后2個(gè)樣本賦值為個(gè)樣本賦值為0n運(yùn)行判別分析程序:運(yùn)行判別分析程序: n將虛擬變量將虛擬變量dummy放入右側(cè)放入右側(cè)“selection”框中框中n點(diǎn)擊點(diǎn)擊“value”,設(shè)定值為,
46、設(shè)定值為1,意思是,意思是spss將只選取將只選取dummy變變量取值為量取值為1的那些樣本進(jìn)行后續(xù)的判別分析的那些樣本進(jìn)行后續(xù)的判別分析n其他各種選項(xiàng)同本章前述,保持不變其他各種選項(xiàng)同本章前述,保持不變(四)訓(xùn)練樣本的選?。ㄋ模┯?xùn)練樣本的選取*輸出結(jié)果:輸出結(jié)果:analysis case processing summaryanalysis case processing summary1386.70.00.00.0213.3213.315100.0unweighted casesvalidmissing or out-of-rangegroup codesat least one missingdiscriminat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 部門個(gè)人工作計(jì)劃
- 2024年汽車電子設(shè)備銷售及維修合同3篇
- 2024年版魚塘租賃經(jīng)營協(xié)議模板
- 2024年版離婚雙方權(quán)益保障合同模板版B版
- 小學(xué)教學(xué)計(jì)劃二年級(jí)
- 居住建筑及公共建筑建設(shè)項(xiàng)目節(jié)能評(píng)估報(bào)告書
- 2025年中國大黃提取物行業(yè)市場調(diào)研及未來發(fā)展趨勢預(yù)測報(bào)告
- 銷售客服工作計(jì)劃
- 2022初二語文教學(xué)工作計(jì)劃
- 行政文員個(gè)人工作報(bào)告
- 生物入侵與生物安全智慧樹知到期末考試答案章節(jié)答案2024年浙江農(nóng)林大學(xué)
- 《公路工程集料試驗(yàn)規(guī)程》JTG-3432-2024考核試題及答案文檔
- 常見的排序算法-冒泡排序 課件 2023-2024學(xué)年浙教版(2019)高中信息技術(shù)選修1
- (高清版)TDT 1031.6-2011 土地復(fù)墾方案編制規(guī)程 第6部分:建設(shè)項(xiàng)目
- 園林綠化工培訓(xùn)課件2
- 鄰里商業(yè)中心案例研究:方洲鄰里中心、新加坡
- 2024年02月上海滬劇藝術(shù)傳習(xí)所(上海滬劇院)招考聘用筆試近6年高頻考題難、易錯(cuò)點(diǎn)薈萃答案帶詳解附后
- 婚姻家庭關(guān)系心理講座
- 三叉苦種植技術(shù)規(guī)程-征求意見稿
- 七上-動(dòng)點(diǎn)、動(dòng)角問題12道好題-解析
- 2024年九省聯(lián)考新高考 數(shù)學(xué)試卷(含答案解析)
評(píng)論
0/150
提交評(píng)論