




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1第四章第四章 判別分析判別分析第一節(jié)第一節(jié) 引言引言 第二節(jié)第二節(jié) 距離判別法距離判別法 第三節(jié)第三節(jié) 貝葉斯(貝葉斯(bayes)判別法)判別法 第四節(jié)第四節(jié) 費歇(費歇(fisher)判別法)判別法 第五節(jié)第五節(jié) 實例分析與計算機實現(xiàn)實例分析與計算機實現(xiàn) 2第四節(jié)第四節(jié) 費歇(費歇(fisher)判別法)判別法一一 fisher判別的基本思想判別的基本思想 二二 fisher判別函數(shù)的構(gòu)造判別函數(shù)的構(gòu)造 三三 線性判別函數(shù)的求法線性判別函數(shù)的求法 3nfisher判別法是判別法是1936年提出來的,該方法的主要思想是通過年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個方向上,投影的
2、原則是將總體與總體將多維數(shù)據(jù)投影到某個方向上,投影的原則是將總體與總體之間盡可能的分開,然后再選擇合適的判別規(guī)則,將新的樣之間盡可能的分開,然后再選擇合適的判別規(guī)則,將新的樣品進行分類判別。品進行分類判別。n右圖中有右圖中有a、b兩個總體。在兩個總體。在原始變量(指標)原始變量(指標)x1、x2的方的方向上,向上,a、b都有很大的重疊,都有很大的重疊,難以區(qū)分清楚。但是,如果以難以區(qū)分清楚。但是,如果以x1、x2為橫、縱坐標軸構(gòu)建一為橫、縱坐標軸構(gòu)建一個平面,若能設(shè)法找到一個個平面,若能設(shè)法找到一個y軸,使得當軸,使得當x1x2平面上的散點平面上的散點投射到投射到y(tǒng)軸上時,兩組觀察值軸上時,兩
3、組觀察值的重疊程度最小,則綜合指標的重疊程度最小,則綜合指標y的區(qū)分能力顯然大于原先的的區(qū)分能力顯然大于原先的x1、x2 。yx2x1一、一、fisher判別的基本思想判別的基本思想4一、一、fisher判別的基本思想判別的基本思想n n n n 5一、一、fisher判別的基本思想判別的基本思想n n 6二、二、fisher判別函數(shù)的構(gòu)造判別函數(shù)的構(gòu)造1、針對兩個總體的情形、針對兩個總體的情形n n 71、針對兩個總體的情形、針對兩個總體的情形82、針對多個總體的情形、針對多個總體的情形 9n 2、針對多個總體的情形、針對多個總體的情形10n 11三、線性判別函數(shù)的求法三、線性判別函數(shù)的求法
4、n 12n 13n 14n 15n 161718一般需要多少個判別式就夠用了?一般需要多少個判別式就夠用了?19另外一種求另外一種求4.23式的思路式的思路*n 20n 另外一種求另外一種求4.23式的思路式的思路*21n需要指出是,此處利用極值原理求極值時,只給出了必需要指出是,此處利用極值原理求極值時,只給出了必要條件的數(shù)學推導,而省略了有關(guān)充分條件的論證,因要條件的數(shù)學推導,而省略了有關(guān)充分條件的論證,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時最大值(或最小值),如果所求的駐點只有一個
5、,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極就不需要根據(jù)極值存在的充分條件判定它是極大還是極小,而是直接能肯定這唯一的駐點就是所求的最大值小,而是直接能肯定這唯一的駐點就是所求的最大值(或最小值)。為了避免較多的數(shù)學推導,這里不追求(或最小值)。為了避免較多的數(shù)學推導,這里不追求數(shù)學上的完整性。數(shù)學上的完整性。 另外一種求另外一種求4.23式的思路式的思路*22 總體參數(shù)未知情況下的解決方法總體參數(shù)未知情況下的解決方法n 232425判別規(guī)則判別規(guī)則26判別規(guī)則判別規(guī)則27判別函數(shù)判別函數(shù)u(x)的另一種形式)的另一種形式28例題例題4.5n經(jīng)典案例:費希爾于經(jīng)典案例:費希爾于193
6、6年年發(fā)表的鳶尾花(發(fā)表的鳶尾花(iris)數(shù)據(jù),)數(shù)據(jù),被廣泛用為判別分析的例子。被廣泛用為判別分析的例子。數(shù)據(jù)是對數(shù)據(jù)是對3種鳶尾花:剛毛種鳶尾花:剛毛鳶尾花(第一組)、變色鳶鳶尾花(第一組)、變色鳶尾花(第二組)和弗吉尼亞尾花(第二組)和弗吉尼亞鳶尾花(第三組),各自抽鳶尾花(第三組),各自抽取一個容量為取一個容量為50的樣本,測的樣本,測量其花萼長度量其花萼長度x1、花萼寬度、花萼寬度x2、花瓣長度、花瓣長度x3、花瓣寬度、花瓣寬度x4,單位為,單位為mm。2930313233求解特征值與特征向量求解特征值與特征向量34求判別函數(shù)求判別函數(shù)35最后,確定判別規(guī)則最后,確定判別規(guī)則36最
7、后,確定判別規(guī)則最后,確定判別規(guī)則37本例題本例題spss的幾個關(guān)鍵輸出結(jié)果的幾個關(guān)鍵輸出結(jié)果n特征值特征值38n中心化的中心化的fisher判別函數(shù)判別函數(shù)u1(x)和)和u2(x)的取值:)的取值:39n各判別函數(shù)的組均值為:各判別函數(shù)的組均值為:4041幾種判別方法的關(guān)系幾種判別方法的關(guān)系*nfisher判別與距離判別對判別變量的分布并無要求,而貝葉判別與距離判別對判別變量的分布并無要求,而貝葉斯判別要求了解判別變量的先驗分布,因此,斯判別要求了解判別變量的先驗分布,因此,fisher判別核判別核距離判別相對于貝葉斯判別,較為簡單實用;當然,后者更距離判別相對于貝葉斯判別,較為簡單實用;
8、當然,后者更加精確。加精確。n當當k2且兩個總體協(xié)差陣相等時,且兩個總體協(xié)差陣相等時,fisher判別與距離判別是判別與距離判別是等價的。當判別變量服從正態(tài)分布,且不考慮誤判代價時,等價的。當判別變量服從正態(tài)分布,且不考慮誤判代價時,它們與貝葉斯判別也是相同的。它們與貝葉斯判別也是相同的。42第五節(jié)第五節(jié) 實例分析與計算機實現(xiàn)實例分析與計算機實現(xiàn)n這一節(jié)我們利用這一節(jié)我們利用spss對對fisher判別法和判別法和bayes判別法進行計判別法進行計算機實現(xiàn)。算機實現(xiàn)。n例題例題4.6:為研究某地區(qū)人口死亡狀況,已按某種方法將:為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為個已知
9、地區(qū)樣品分為3類,指標含義及原始數(shù)據(jù)如下。試建類,指標含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外立判別函數(shù),并判定另外4個待判地區(qū)屬于哪類?(本例個待判地區(qū)屬于哪類?(本例spss數(shù)據(jù)文件:數(shù)據(jù)文件:4-6.sav) x1 : 0歲組死亡概率 x 4 : 55歲組死亡概率 x 2 :1歲組死亡概率 x5 : 80歲組死亡概率 x 3 : 10歲組死亡概率 x6 : 平均預(yù)期壽命 43表表4.1 各地區(qū)死亡概率表各地區(qū)死亡概率表44分類變量分類變量group取值的設(shè)置取值的設(shè)置45開始判別分析開始判別分析46 (一一) 操作步驟操作步驟1. 在在spss窗口中選擇窗口中選擇analyzecl
10、assifydiscriminate,調(diào),調(diào)出判別分析主界面,將左邊的變量列表中的出判別分析主界面,將左邊的變量列表中的“group”變量選變量選入分組變量中,將入分組變量中,將x1至至x6變量選入自變量中,并選擇變量選入自變量中,并選擇enter independents together單選按鈕,即使用所有自變量進行判單選按鈕,即使用所有自變量進行判別分析。別分析。472. 點擊點擊define range按鈕,定義分組變量的取值范圍。本例按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為中分類變量的范圍為1到到3,所以在最小值和最大值中分別輸,所以在最小值和最大值中分別輸入入1和和3。
11、單擊。單擊continue按鈕,返回主界面。按鈕,返回主界面。483. 單擊單擊statistics按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中系數(shù)。選中function coefficients欄中的欄中的fishers和和unstandardized。然后,單擊。然后,單擊continue按鈕,返回主界面。按鈕,返回主界面。49這兩個選項的含義如下:這兩個選項的含義如下:fishers:給出:給出bayes判別函數(shù)的系數(shù)。(注意:判別函數(shù)的系數(shù)。(注意:這個選項不是要給出這個選項不是要給出fisher判別函數(shù)的系數(shù)。這判別函數(shù)的系數(shù)。這個復(fù)選框的名字之
12、所以為個復(fù)選框的名字之所以為fishers,是因為按判,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由別函數(shù)值最大的一組進行歸類這種思想是由fisher提出來的。這里極易混淆,請同學注意。)提出來的。這里極易混淆,請同學注意。)unstandardized:給出:給出未標準化未標準化的的fisher判別函判別函數(shù)(即數(shù)(即典型典型判別函數(shù),也即我們前面講過的判別函數(shù),也即我們前面講過的“中中心化心化的的fisher判別函數(shù)判別函數(shù)”)的系數(shù)()的系數(shù)(spss默認給默認給出標準化的出標準化的fisher判別函數(shù)系數(shù))。判別函數(shù)系數(shù))。50設(shè)置均值、協(xié)差陣檢驗設(shè)置均值、協(xié)差陣檢驗nboxx m
13、是對各總體協(xié)差陣是否相等進行齊性檢驗是對各總體協(xié)差陣是否相等進行齊性檢驗nmeans可給出各總體均值是否相等的可給出各總體均值是否相等的wilks統(tǒng)計量。統(tǒng)計量。nwithin-groups correlation給出各自變量之間的相關(guān)系數(shù)矩陣給出各自變量之間的相關(guān)系數(shù)矩陣最后點擊最后點擊“continue”回到上一級菜單?;氐缴弦患壊藛巍?14. 再單擊再單擊classify按鈕,定義判別分組參數(shù)和選擇輸出結(jié)按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇果。選擇display欄中的欄中的casewise results,輸出一個判別結(jié)果,輸出一個判別結(jié)果表,包括每個樣品的判別分數(shù)、后驗概率、實際
14、組和預(yù)測組表,包括每個樣品的判別分數(shù)、后驗概率、實際組和預(yù)測組編號等。編號等。plots欄中選中欄中選中“combined-groups”,在同一幅圖,在同一幅圖中輸出各組的中輸出各組的fisher判別函數(shù)(投影)值。再選擇判別函數(shù)(投影)值。再選擇summary table,將輸出分類結(jié)果表,將輸出分類結(jié)果表“classification results”;其余的;其余的均保留系統(tǒng)默認選項。單擊均保留系統(tǒng)默認選項。單擊continue按鈕。按鈕。525. 單擊單擊save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結(jié)果和判別得分的新變量,生成的新變量的含義
15、分別為:和判別得分的新變量,生成的新變量的含義分別為:predicted group membership:存放判別樣品所屬組別的值;:存放判別樣品所屬組別的值; discriminant scores:存放:存放fisher判別得分的值,有幾個典型判別得分的值,有幾個典型判別函數(shù)就有幾個判別得分變量;判別函數(shù)就有幾個判別得分變量;probabilities of group membership:存放樣品屬于各組的:存放樣品屬于各組的bayes后驗概率值。后驗概率值。n將對話框中的三個復(fù)選框均選中,單擊將對話框中的三個復(fù)選框均選中,單擊continue按鈕返回。按鈕返回。536. 返回判別分
16、析主界面,單擊返回判別分析主界面,單擊ok按鈕,運行判別分析過程。按鈕,運行判別分析過程。save子對話框子對話框54(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋各原始變量相關(guān)系數(shù)矩陣各原始變量相關(guān)系數(shù)矩陣n可見,第可見,第1與第與第3、第、第1與第與第2、第、第3與第與第4等指標間的存在一定等指標間的存在一定相關(guān)相關(guān)pooled within-groups matricespooled within-groups matrices1.000.530.756.365.5301.000.378.471.756.3781.000.484.365.471.4841.000 x1x2x3x4corr
17、elationx1x2x3x455(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋各總體均值是否相等的檢驗結(jié)果各總體均值是否相等的檢驗結(jié)果n可見,第可見,第1、2、6個指標在各總體間的差異并不大個指標在各總體間的差異并不大tests of equality of group meanstests of equality of group means.997.019212.981.990.063212.939.6453.301212.072.4387.690212.007.17428.557212.000.926.478212.6310歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80
18、歲組死亡概率平均預(yù)期壽命wilks lambdafdf1df2sig.56n各組均值和離差的描述性統(tǒng)計:各組均值和離差的描述性統(tǒng)計:n確實發(fā)現(xiàn)三個總體在第確實發(fā)現(xiàn)三個總體在第1、2、6指標的均值比較接近,以第指標的均值比較接近,以第一個指標一個指標“0歲組死亡率歲組死亡率”為例:為例:group statisticsgroup statistics38.74206.8843455.00011.90006.7852855.0001.5000.7593155.00012.24606.9758555.000100.05807.4774055.00067.46002.6968555.00039.536
19、08.3724955.00011.49608.4491155.0002.93802.1253055.00027.83006.1197155.000151.024017.6022355.00066.05001.9072255.00038.500010.5680155.00010.09809.8066555.000.6840.9079055.00010.33209.6736055.00093.946012.2527655.00067.42003.0507455.00038.92608.104851515.00011.16477.852811515.0001.70731.618971515.0001
20、6.802710.823061515.000115.009329.136171515.00066.97672.497351515.0000歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命0歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命0歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命0歲組死亡概率1歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率平均預(yù)期壽命group第一類第二類第三類totalmeanstd.deviationunweightedweightedva
21、lid n (listwise)57協(xié)差陣齊性檢驗結(jié)果:協(xié)差陣齊性檢驗結(jié)果:n由于樣本資料矩陣的由于樣本資料矩陣的秩小于秩小于5(p-1)(原)(原因?),不是非奇異因?),不是非奇異矩陣,無法給出矩陣,無法給出boxs檢驗結(jié)果。檢驗結(jié)果。n可見,第可見,第1、2、6個個指標的同均值,確實指標的同均值,確實對檢驗產(chǎn)生了影響對檢驗產(chǎn)生了影響(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋58n因此,應(yīng)該剔除第因此,應(yīng)該剔除第1、2、6個指標,重新進行分析:個指標,重新進行分析:(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋59n各組均值和離差的描述性統(tǒng)計:各組均值和離差的描述性統(tǒng)計:group s
22、tatisticsgroup statistics1.5000.7593155.00012.24606.9758555.000100.05807.4774055.0002.93802.1253055.00027.83006.1197155.000151.024017.6022355.000.6840.9079055.00010.33209.6736055.00093.946012.2527655.0001.70731.618971515.00016.802710.823061515.000115.009329.136171515.00010歲組死亡概率55歲組死亡概率80歲組死亡概率10歲組死
23、亡概率55歲組死亡概率80歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率10歲組死亡概率55歲組死亡概率80歲組死亡概率group第一類第二類第三類totalmeanstd.deviationunweightedweightedvalid n (listwise)(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋60n剔除第剔除第1、2、6個指標后重新進行分析,得到的均值檢驗結(jié)個指標后重新進行分析,得到的均值檢驗結(jié)果為:果為:(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋tests of equality of group meanstests of equality of grou
24、p means.6453.301212.072.4387.690212.007.17428.557212.00010歲組死亡概率55歲組死亡概率80歲組死亡概率wilks lambdafdf1df2sig.61n剔除第剔除第1、2、6個指標后重新進行分析,得到的協(xié)差陣齊性個指標后重新進行分析,得到的協(xié)差陣齊性檢驗結(jié)果為:檢驗結(jié)果為:(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋62n可見,判別分析開始前,有必要對各個總體的均值是否相等可見,判別分析開始前,有必要對各個總體的均值是否相等進行假設(shè)檢驗。進行假設(shè)檢驗。n接下來,接下來,出于課堂演示的需要出于課堂演示的需要,我們繼續(xù)使用原有全部六個,
25、我們繼續(xù)使用原有全部六個指標,進行后續(xù)的判別分析指標,進行后續(xù)的判別分析(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋63特征值:特征值:wilkss lambda,是對,是對fisher判別函數(shù)的顯著性進行檢驗。判別函數(shù)的顯著性進行檢驗。(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋n典型相關(guān)系數(shù)(典型相關(guān)系數(shù)(canonical correlation)的平方,說明了判)的平方,說明了判別函數(shù)因變量的變動,可以在多少程度上由自變量的變化所別函數(shù)因變量的變動,可以在多少程度上由自變量的變化所解釋;解釋;n也即,該平方項反映這個判別函數(shù)攜帶了多少原始數(shù)據(jù)的信也即,該平方項反映這個判別函數(shù)攜帶了
26、多少原始數(shù)據(jù)的信息,該值反映了該判別函數(shù)的信息價值,當然越大越好。息,該值反映了該判別函數(shù)的信息價值,當然越大越好。65(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋1. standardized canonical discriminant function coefficients(給出標準化的典型判別函數(shù)系數(shù))(給出標準化的典型判別函數(shù)系數(shù))標準化的典型判別函數(shù)是由標準化的自變量通過標準化的典型判別函數(shù)是由標準化的自變量通過fisher判別法判別法得到的,所以要得到標準化的典型判別得分,代入該函數(shù)的自得到的,所以要得到標準化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標準化的。變量必須是
27、經(jīng)過標準化的。69(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋2. canonical discriminant function coefficients(給出未標(給出未標準化的典型判別函數(shù)系數(shù))準化的典型判別函數(shù)系數(shù))未標準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直未標準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標準化的系數(shù)要接代入求出判別得分,所以該系數(shù)使用起來比標準化的系數(shù)要方便一些。方便一些。70由此表可知,兩個由此表可知,兩個fisher判別函數(shù)分別為:判別函數(shù)分別為:實際上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標,這實際
28、上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標,這樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位置。置。 1123456212345674.991.8611.6560.8770.7980.0981.57929.4820.8671.1550.3560.0890.0540.69yxxxxxxyxxxxxx (二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋structure matrixstructure matrix.008*-.001.288-.388*.149-.199*.098.106*.007.104*-.036.091*0歲組死
29、亡概率80歲組死亡概率55歲組死亡概率10歲組死亡概率1歲組死亡概率平均預(yù)期壽命12functionpooled within-groups correlations betweendiscriminating variables and standardizedcanonical discriminant functions variables ordered by absolute size of correlationwithin function.largest absolute correlation between eachvariable and any discriminant
30、 function*. 744. functions at group centroids(給出組重心處的(給出組重心處的fisher判判別函數(shù)值)別函數(shù)值)如下圖如下圖 所示,實際上為各類別重心在空間中的坐標位置。這所示,實際上為各類別重心在空間中的坐標位置。這樣,只要在前面計算出各觀測值的具體坐標位置后,再計算出樣,只要在前面計算出各觀測值的具體坐標位置后,再計算出它們分別離各重心的距離,就可以得知它們的分類了。它們分別離各重心的距離,就可以得知它們的分類了。組重心處的組重心處的fisher判別函數(shù)值判別函數(shù)值(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋75 5. classificat
31、ion function coefficients(給出(給出bayes判別函數(shù)判別函數(shù)系數(shù))系數(shù))(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋76n注意,在輸出結(jié)果注意,在輸出結(jié)果“classification function coefficients”表表的下方注明是的下方注明是“fishers linear discriminant functions”,但,但是經(jīng)驗證實為一般教課書中的貝葉斯線性判別函數(shù)是經(jīng)驗證實為一般教課書中的貝葉斯線性判別函數(shù)! 命名出命名出現(xiàn)不一致的原因是按判別函數(shù)值最大的一組進行歸類這種思現(xiàn)不一致的原因是按判別函數(shù)值最大的一組進行歸類這種思想,是想,是fis
32、her提出來的,因此提出來的,因此spss用用“fisher”對對“貝葉斯貝葉斯”方法進行了命名。方法進行了命名。n并且因為貝葉斯判別函數(shù)只有在各個總體的樣本的協(xié)方差陣并且因為貝葉斯判別函數(shù)只有在各個總體的樣本的協(xié)方差陣相同時才是線性的(為什么?)因此在得到該判別函數(shù)的系相同時才是線性的(為什么?)因此在得到該判別函數(shù)的系數(shù)時,對樣本的協(xié)方差的估計必須是在總體協(xié)方差相等情況數(shù)時,對樣本的協(xié)方差的估計必須是在總體協(xié)方差相等情況下的估計!下的估計!spss提供了提供了boxm組間協(xié)方差矩陣的齊性檢驗。組間協(xié)方差矩陣的齊性檢驗。(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋77 5. classif
33、ication function coefficients(給出(給出bayes判別函數(shù)判別函數(shù)系數(shù))系數(shù))如上圖所示,如上圖所示,group欄中的每一列表示樣品判入相應(yīng)列的欄中的每一列表示樣品判入相應(yīng)列的bayes判別函數(shù)系數(shù)。在本例中,各類的判別函數(shù)系數(shù)。在本例中,各類的bayes判別函數(shù)如下:判別函數(shù)如下:第一組:第一組:第二組:第二組:第三組:第三組: 11234565317.2143.9153.190.153.011.0189.3fxxxxxx 21234566202.2164.7171.2100.062.512.1207.0fxxxxxx 31234564982.9134.9144
34、.585.950.010.5181.7fxxxxxx (二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋78將各樣品的自變量值代入上述三個將各樣品的自變量值代入上述三個bayes判別函數(shù),得到三個判別函數(shù),得到三個函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個待判樣品的自變量值分別代樣品判入哪一類。例如,將第一個待判樣品的自變量值分別代入函數(shù),得到:入函數(shù),得到: f1=3793.77, f2=3528.32, f3=3882.48比較三個值,可以看出最大,據(jù)此得出第一個待判樣品應(yīng)該屬比較三個值,可以看出最
35、大,據(jù)此得出第一個待判樣品應(yīng)該屬于第三組。于第三組。(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋796. casewise statistics(給出個案觀察結(jié)果)(給出個案觀察結(jié)果)在在casewise statistics輸出表針對每個樣品給出了了大部分的判輸出表針對每個樣品給出了了大部分的判別結(jié)果,其中包括:實際類(別結(jié)果,其中包括:實際類(actual group)、預(yù)測類)、預(yù)測類(predicted group)、)、bayes判別法的后驗概率、與組重心的判別法的后驗概率、與組重心的馬氏距離(馬氏距離(squared mahalanobis distance to centroi
36、d)以及)以及fisher判別法的每個典型判別函數(shù)的判別得分(判別法的每個典型判別函數(shù)的判別得分(discriminant scores)。下表經(jīng)過加工隱藏了其中的一些項目。從表中可以)。下表經(jīng)過加工隱藏了其中的一些項目。從表中可以看出四個待判樣本依次被判別為第三組、第一組、第二組和第看出四個待判樣本依次被判別為第三組、第一組、第二組和第三組。三組。(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋80casewise statistics111.000.297-2.1771.364111.000.236-2.2701.375111.000.117-2.7411.32311.998.507-3.1
37、99.638111.000.418-2.582.366221.000.4699.674.231221.000.8688.332-.613221.0005.98510.128-2.518221.0004.7938.3421.760221.000.1019.491-.145331.000.139-6.687-.394331.000.322-7.163-.685331.0005.365-8.655-1.82333.8793.384-4.766-.60833.995.998-5.727-.270ungrouped31.000361.567-20.714-13.498ungrouped1.998.558
38、-3.319.831ungrouped21.00028.66814.0082.086ungrouped31.0001.982-7.595-1.752casenumber12345678910111213141516171819actualgrouppredictedgroupp(g=g| d=d)squaredmahalanobisdistance tocentroidhighest groupfunction1function2discriminant scores表表4.4 個案觀察結(jié)果表個案觀察結(jié)果表(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋81n原始輸出結(jié)果原始輸出結(jié)果(二)(二)
39、 主要運行結(jié)果解釋主要運行結(jié)果解釋7.有效性的驗證有效性的驗證classification resultsclassification resultsa a500505050055100.0.0.0100.0.0100.0.0100.0.0.0100.0100.0group第一類第二類第三類第一類第二類第三類count%original第一類第二類第三類predicted group membershiptotal100.0% of original grouped cases correctly classified.a. 838. 由于我們在由于我們在save子對話框中選擇了生成表示判別結(jié)
40、果的新子對話框中選擇了生成表示判別結(jié)果的新變量,所以在數(shù)據(jù)編輯窗口中,可以觀察到產(chǎn)生的新變量。變量,所以在數(shù)據(jù)編輯窗口中,可以觀察到產(chǎn)生的新變量。其中,變量其中,變量dis-1存放判別樣品所屬組別的值,變量存放判別樣品所屬組別的值,變量dis1-1和和dis2-1分別代表將樣品各變量值代入第一個和第二個非標準分別代表將樣品各變量值代入第一個和第二個非標準化化fisher判別函數(shù)所得的判別分數(shù),變量判別函數(shù)所得的判別分數(shù),變量dis1-2、dis2-2和和dis3-2分別代表樣品分別屬于第分別代表樣品分別屬于第1組、第組、第2組和第組和第3組的組的bayes后驗概率值。后驗概率值。(二)(二)
41、主要運行結(jié)果解釋主要運行結(jié)果解釋84(二)(二) 主要運行結(jié)果解釋主要運行結(jié)果解釋8586再多說一句:再多說一句:spss操作中的輔助檢驗操作中的輔助檢驗n無論是哪種判別分析方法,都需要對各個總體均值是否相等無論是哪種判別分析方法,都需要對各個總體均值是否相等進行檢驗。如果無法拒絕進行檢驗。如果無法拒絕“均值相等均值相等”的原假設(shè),就應(yīng)該將的原假設(shè),就應(yīng)該將相關(guān)樣本合并,再進行后續(xù)的判別相關(guān)樣本合并,再進行后續(xù)的判別nfisher判別,無需對總體協(xié)差陣進行齊性檢驗;判別,無需對總體協(xié)差陣進行齊性檢驗;n貝葉斯判別,正常情況下我們需要得到線性判別函數(shù),此時,貝葉斯判別,正常情況下我們需要得到線性
42、判別函數(shù),此時,需要對總體協(xié)差陣進行齊性檢驗需要對總體協(xié)差陣進行齊性檢驗nfisher判別無需對總體的分布特征進行檢驗;貝葉斯判別理判別無需對總體的分布特征進行檢驗;貝葉斯判別理論上需要對總體的正態(tài)性進行檢驗,不過,在實際操作中要論上需要對總體的正態(tài)性進行檢驗,不過,在實際操作中要求并不嚴格。求并不嚴格。87n有時,一些變量對于判別并沒有用處,為了得到對判別最合有時,一些變量對于判別并沒有用處,為了得到對判別最合適的變量,可以使用逐步判別。適的變量,可以使用逐步判別。n即:先用少數(shù)變量進行判別,然后一邊判別,一邊引進判別即:先用少數(shù)變量進行判別,然后一邊判別,一邊引進判別能力最強的變量,又要逐
43、步淘汰判別能力不強的變量,這個能力最強的變量,又要逐步淘汰判別能力不強的變量,這個過程可以有進有出。過程可以有進有出。n判別一個變量判別能力的方法有很多種,主要利用各種檢驗,判別一個變量判別能力的方法有很多種,主要利用各種檢驗,例如例如wilks lambda、raos v、馬氏距離、馬氏距離、smallest f ratio或或the sum of unexplained variation等檢驗等檢驗n篩選好變量后,接下來的判別方法與前面相同篩選好變量后,接下來的判別方法與前面相同(三)逐步判別分析功能(三)逐步判別分析功能*88(三)逐步判別分析功能(三)逐步判別分析功能*n調(diào)入判別分析
44、主菜單(方法同前),然后選擇調(diào)入判別分析主菜單(方法同前),然后選擇“use stepwise method”89n再點擊再點擊“method.”,選擇篩選變量的檢驗方法:,選擇篩選變量的檢驗方法:n選擇默認方法選擇默認方法wilks lambda檢驗檢驗(三)逐步判別分析功能(三)逐步判別分析功能*90n最終只保留了一個變量:最終只保留了一個變量:(三)逐步判別分析功能(三)逐步判別分析功能*91n非中心化的非中心化的fisher判別函數(shù)及組重心:判別函數(shù)及組重心:(三)逐步判別分析功能(三)逐步判別分析功能*92n貝葉斯判別函數(shù)貝葉斯判別函數(shù)(三)逐步判別分析功能(三)逐步判別分析功能*(
45、四)訓練樣本的選?。ㄋ模┯柧殬颖镜倪x取*現(xiàn)在我們希望只選取前現(xiàn)在我們希望只選取前13個樣本作為個樣本作為“訓練樣本訓練樣本”生生成判別函數(shù),而保留最后兩個樣本僅作為測試樣本成判別函數(shù),而保留最后兩個樣本僅作為測試樣本:n在在variable view窗口中生成虛擬變量窗口中生成虛擬變量“dummy”n在在data view窗口中給該虛擬變量賦值,前窗口中給該虛擬變量賦值,前13個樣本賦值為個樣本賦值為1,最后,最后2個樣本賦值為個樣本賦值為0n運行判別分析程序:運行判別分析程序: n將虛擬變量將虛擬變量dummy放入右側(cè)放入右側(cè)“selection”框中框中n點擊點擊“value”,設(shè)定值為,
46、設(shè)定值為1,意思是,意思是spss將只選取將只選取dummy變變量取值為量取值為1的那些樣本進行后續(xù)的判別分析的那些樣本進行后續(xù)的判別分析n其他各種選項同本章前述,保持不變其他各種選項同本章前述,保持不變(四)訓練樣本的選?。ㄋ模┯柧殬颖镜倪x取*輸出結(jié)果:輸出結(jié)果:analysis case processing summaryanalysis case processing summary1386.70.00.00.0213.3213.315100.0unweighted casesvalidmissing or out-of-rangegroup codesat least one missingdiscriminat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寄宿生管理制度
- 機器學習與深度學習在自動駕駛中的應(yīng)用
- 毽子舞比賽活動方案
- 汽車季度活動方案
- 民生銀行慶三八活動方案
- 民建年會活動策劃方案
- 景區(qū)七一活動方案
- 暑期藏寶活動方案
- 春節(jié)美容補水活動方案
- 服裝沙龍活動策劃方案
- 公文寫作技能題庫及答案
- 遼寧省“三支一扶”招募考試真題2024
- 多能工培訓方案
- 學生自信心培養(yǎng)的教育心理學研究
- 2025中國內(nèi)地薪酬指南-kos高奧士國際-202506
- 2025年中國嬰兒搖鈴?fù)婢咝袠I(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2024年包頭職業(yè)技術(shù)學院招聘筆試真題
- 核設(shè)施老化管理-洞察及研究
- 2025至2030年中國碳化硅陶瓷行業(yè)市場發(fā)展規(guī)模及市場分析預(yù)測報告
- 2025重大火災(zāi)隱患判定規(guī)則解讀
- 外賣小哥培訓道路安全管理
評論
0/150
提交評論