




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
判別分析數(shù)學(xué)建模第1頁,共39頁,2023年,2月20日,星期日判別有一些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對的,而且用不著殺死昆蟲來進(jìn)行判別了。
第2頁,共39頁,2023年,2月20日,星期日判別分析(discriminantanalysis)這就是本章要講的是判別分析。判別分析和前面的聚類分析有什么不同呢?主要不同點(diǎn)就是,在聚類分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類,完全根據(jù)數(shù)據(jù)來確定。而在判別分析中,至少有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,利用這個(gè)數(shù)據(jù),就可以建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了。第3頁,共39頁,2023年,2月20日,星期日判別分析例子數(shù)據(jù)disc.sav:企圖用一套打分體系來描繪企業(yè)的狀況。該體系對每個(gè)企業(yè)的一些指標(biāo)(變量)進(jìn)行評分。這些指標(biāo)包括:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、利潤增長(prr)、市場份額(ms)、市場份額增長(msr)、流動(dòng)資金比例(cp)、資金周轉(zhuǎn)速度(cs)等等。另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類別(三個(gè)類別之一:group-1代表上升,group-2代表穩(wěn)定,group-3代表下降)找出一個(gè)分類標(biāo)準(zhǔn),以對沒有被該刊物分類的企業(yè)進(jìn)行分類。該數(shù)據(jù)有90個(gè)企業(yè)(90個(gè)觀測值),其中30個(gè)屬于上升型,30個(gè)屬于穩(wěn)定型,30個(gè)屬于下降型。這個(gè)數(shù)據(jù)就是一個(gè)“訓(xùn)練樣本”。第4頁,共39頁,2023年,2月20日,星期日Disc.sav數(shù)據(jù)
第5頁,共39頁,2023年,2月20日,星期日根據(jù)距離的判別(不用投影)
Disc.sav數(shù)據(jù)有8個(gè)用來建立判別標(biāo)準(zhǔn)(或判別函數(shù))的(預(yù)測)變量,另一個(gè)(group)是類別。因此每一個(gè)企業(yè)的打分在這8個(gè)變量所構(gòu)成的8維空間中是一個(gè)點(diǎn)。這個(gè)數(shù)據(jù)有90個(gè)點(diǎn),由于已經(jīng)知道所有點(diǎn)的類別了,所以可以求得每個(gè)類型的中心。這樣只要定義了如何計(jì)算距離,就可以得到任何給定的點(diǎn)(企業(yè))到這三個(gè)中心的三個(gè)距離。顯然,最簡單的辦法就是離哪個(gè)中心距離最近,就屬于哪一類。通常使用的距離是所謂的Mahalanobis距離。用來比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱為判別函數(shù)(discriminantfunction).這種根據(jù)遠(yuǎn)近判別的方法,原理簡單,直觀易懂。第6頁,共39頁,2023年,2月20日,星期日Fisher判別法(先進(jìn)行投影)所謂Fisher判別法,就是一種先投影的方法??紤]只有兩個(gè)(預(yù)測)變量的判別分析問題。假定這里只有兩類。數(shù)據(jù)中的每個(gè)觀測值是二維空間的一個(gè)點(diǎn)。見圖(下一張幻燈片)。這里只有兩種已知類型的訓(xùn)練樣本。其中一類有38個(gè)點(diǎn)(用“o”表示),另一類有44個(gè)點(diǎn)(用“*”表示)。按照原來的變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開。于是就尋找一個(gè)方向,也就是圖上的虛線方向,沿著這個(gè)方向朝和這個(gè)虛線垂直的一條直線進(jìn)行投影會(huì)使得這兩類分得最清楚??梢钥闯觯绻蚱渌较蛲队?,判別效果不會(huì)比這個(gè)好。有了投影之后,再用前面講到的距離遠(yuǎn)近的方法來得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是Fisher判別法。第7頁,共39頁,2023年,2月20日,星期日第8頁,共39頁,2023年,2月20日,星期日逐步判別法(僅僅是在前面的方法中加入變量選擇的功能)有時(shí),一些變量對于判別并沒有什么作用,為了得到對判別最合適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進(jìn)判別能力最強(qiáng)的變量,這個(gè)過程可以有進(jìn)有出。一個(gè)變量的判別能力的判斷方法有很多種,主要利用各種檢驗(yàn),例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗(yàn)。其細(xì)節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來實(shí)現(xiàn)。逐步判別的其他方面和前面的無異。第9頁,共39頁,2023年,2月20日,星期日Disc.sav例子利用SPSS軟件的逐步判別法淘汰了不顯著的流動(dòng)資金比例(cp),還剩下七個(gè)變量is,se,sa,prr,ms,msr,cs,得到兩個(gè)典則判別函數(shù)(CanonicalDiscriminantFunctionCoefficients):0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.1660.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384
這兩個(gè)函數(shù)實(shí)際上是由Fisher判別法得到的向兩個(gè)方向的投影。這兩個(gè)典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的:第10頁,共39頁,2023年,2月20日,星期日Disc.sav例子根據(jù)這兩個(gè)函數(shù),從任何一個(gè)觀測值(每個(gè)觀測值都有7個(gè)變量值)都可以算出兩個(gè)數(shù)。把這兩個(gè)數(shù)目當(dāng)成該觀測值的坐標(biāo),這樣數(shù)據(jù)中的150個(gè)觀測值就是二維平面上的150個(gè)點(diǎn)。它們的點(diǎn)圖在下面圖中。第11頁,共39頁,2023年,2月20日,星期日第12頁,共39頁,2023年,2月20日,星期日Disc.sav例子從上圖可以看出,第一個(gè)投影(相應(yīng)于來自于第一個(gè)典則判別函數(shù)橫坐標(biāo)值)已經(jīng)能夠很好地分辨出三個(gè)企業(yè)類型了。這兩個(gè)典則判別函數(shù)并不是平等的。其實(shí)一個(gè)函數(shù)就已經(jīng)能夠把這三類分清楚了。SPSS的一個(gè)輸出就給出了這些判別函數(shù)(投影)的重要程度:前面說過,投影的重要性是和特征值的貢獻(xiàn)率有關(guān)。該表說明第一個(gè)函數(shù)的貢獻(xiàn)率已經(jīng)是99%了,而第二個(gè)只有1%。當(dāng)然,二維圖要容易看一些。投影之后,再根據(jù)各點(diǎn)的位置遠(yuǎn)近算出具體的判別公式(SPSS輸出):第13頁,共39頁,2023年,2月20日,星期日Disc.sav例子具體的判別公式(SPSS輸出),由一張分類函數(shù)表給出:該表給出了三個(gè)線性分類函數(shù)的系數(shù)。把每個(gè)觀測點(diǎn)帶入三個(gè)函數(shù),就可以得到分別代表三類的三個(gè)值,哪個(gè)值最大,該點(diǎn)就屬于相應(yīng)的那一類。當(dāng)然,用不著自己去算,計(jì)算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個(gè)點(diǎn)按照這里的分類法分到某一類。當(dāng)然,我們一開始就知道這些訓(xùn)練數(shù)據(jù)的各個(gè)觀測值的歸屬,但即使是這些訓(xùn)練樣本的觀測值(企業(yè))按照這里推導(dǎo)出的分類函數(shù)來分類,也不一定全都能夠正確劃分。第14頁,共39頁,2023年,2月20日,星期日Disc.sav例子下面就是對我們的訓(xùn)練樣本的分類結(jié)果(SPSS):第15頁,共39頁,2023年,2月20日,星期日誤判和正確判別率從這個(gè)表來看,我們的分類能夠100%地把訓(xùn)練數(shù)據(jù)的每一個(gè)觀測值分到其本來的類。該表分成兩部分;上面一半(Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來判斷每一個(gè)點(diǎn)的結(jié)果(前面三行為判斷結(jié)果的數(shù)目,而后三行為相應(yīng)的百分比)。下面一半(Crossvalidated)是對每一個(gè)觀測值,都用缺少該觀測的全部數(shù)據(jù)得到的判別函數(shù)來判斷的結(jié)果。這里的判別結(jié)果是100%判別正確,但一般并不一定。
第16頁,共39頁,2023年,2月20日,星期日Disc.sav例子如果就用這個(gè)數(shù)據(jù),但不用所有的變量,而只用4個(gè)變量進(jìn)行判別:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、資金周轉(zhuǎn)速度(cs)。結(jié)果的圖形和判別的正確與否就不一樣了。下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的150個(gè)企業(yè)的二維點(diǎn)圖。它不如前面的圖那么容易分清楚了原先的圖第17頁,共39頁,2023年,2月20日,星期日Disc.sav例子下面是基于4個(gè)變量時(shí)分類結(jié)果表:這個(gè)表的結(jié)果是有87個(gè)點(diǎn)(96.7%)得到正確劃分,有3個(gè)點(diǎn)被錯(cuò)誤判別;其中第二類有兩個(gè)被誤判為第一類,有一個(gè)被誤判為第三類。第18頁,共39頁,2023年,2月20日,星期日判別分析要注意什么?訓(xùn)練樣本中必須有所有要判別的類型,分類必須清楚,不能有混雜。
要選擇好可能由于判別的預(yù)測變量。這是最重要的一步。當(dāng)然,在應(yīng)用中,選擇的余地不見得有多大。
要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗(yàn)證。判別分析是為了正確地分類,但同時(shí)也要注意使用盡可能少的預(yù)測變量來達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對結(jié)果進(jìn)行解釋。
第19頁,共39頁,2023年,2月20日,星期日判別分析要注意什么?在計(jì)算中需要看關(guān)于各個(gè)類的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果(在SPSS選項(xiàng)中選擇Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗(yàn)的計(jì)算機(jī)輸出),以確定是否分類結(jié)果是僅僅由于隨機(jī)因素。此外成員的權(quán)數(shù)(SPSS用priorprobability,即“先驗(yàn)概率”,和貝葉斯統(tǒng)計(jì)的先驗(yàn)概率有區(qū)別)需要考慮;一般來說,加權(quán)要按照各類觀測值的多少,觀測值少的就要按照比例多加權(quán)。對于多個(gè)判別函數(shù),要弄清各自的重要性。注意訓(xùn)練樣本的正確和錯(cuò)誤分類率。研究被誤分類的觀測值,看是否可以找出原因。
第20頁,共39頁,2023年,2月20日,星期日SPSS選項(xiàng)打開disc.sav數(shù)據(jù)。然后點(diǎn)擊Analyze-Classify-Discriminant,把group放入GroupingVariable,再定義范圍,即在DefineRange輸入1-3的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enterindependentstogether,而選擇Usestepwisemethod,在方法(Method)中選挑選變量的準(zhǔn)則(檢驗(yàn)方法;默認(rèn)值為Wilks’Lambda)。為了輸出Fisher分類函數(shù)的結(jié)果可以在Statistics中的FunctionCoefficient選Fisher和UnStandardized(點(diǎn)則判別函數(shù)系數(shù))
,在Matrices中選擇輸出所需要的相關(guān)陣;還可以在Classify中的Display選summarytable,Leave-one-outclassification;注意在Classify選項(xiàng)中默認(rèn)的PriorProbability為Allgroupsequal表示所有的類都平等對待,而另一個(gè)選項(xiàng)為Computefromgroupsizes,即按照類的大小加權(quán)。在Plots可選Combined-groups,Territorialmap等。
第21頁,共39頁,2023年,2月20日,星期日14.4.3判別分析實(shí)例P379鳶尾花數(shù)據(jù)(花瓣,花萼的長寬)5個(gè)變量:花瓣長(slen),花瓣寬(swid),花萼長(plen),花萼寬(pwid),分類號(hào)(1:Setosa,2:Versicolor,3:Virginica)(data14-04)第22頁,共39頁,2023年,2月20日,星期日Statistics→Classify→Discriminant:Variables:
independent(slen,swid,plen,pwid)Grouping(spno)Definerange(min-1,max-3)Classify:priorprobability(Allgroupequal)
usecovariancematrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorialmap)Display(Summarytable)Statistics:Descriptive(Means)
FunctionCoefficients(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,Within-groupscovariance,Separate-groupscovariance,Totalcovariance)
Save:
(Predictedgroupmembership,DiscriminantScores,Probabilityofgroupmembership)第23頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(數(shù)據(jù)分析過程簡明表)第24頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(原始數(shù)據(jù)的描述)第25頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(合并類內(nèi)相關(guān)陣和協(xié)方差陣)第26頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(總協(xié)方差陣)第27頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(特征值表)
Eigenvalue:用于分析的前兩個(gè)典則判別函數(shù)的特征值,是組間平方和與組內(nèi)平方和之比值.最大特征值與組均值最大的向量對應(yīng),第二大特征值對應(yīng)著次大的組均值向量
典則相關(guān)系數(shù)(canonicalcorrelation):是組間平方和與總平方和之比的平方根.被平方的是由組間差異解釋的變異總和的比.第28頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(Wilks’Lambda統(tǒng)計(jì)量)
檢驗(yàn)的零假設(shè)是各組變量均值相等.Lambda接近0表示組均值不同,接近1表示組均值沒有不同.Chi-square是lambda的卡方轉(zhuǎn)換,用于確定其顯著性.第29頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)標(biāo)準(zhǔn)化的典則判別函數(shù)系數(shù)(使用時(shí)必須用標(biāo)準(zhǔn)化的自變量)第30頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)典則判別函數(shù)系數(shù)第31頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)
這是類均值(重心)處的典則判別函數(shù)值這是典則判別函數(shù)(前面兩個(gè)函數(shù))在類均值(重心)處的值第32頁,共39頁,2023年,2月20日,星期日鳶尾花數(shù)據(jù)(用判別函數(shù)對觀測量分類結(jié)果)先驗(yàn)概率(沒有給)費(fèi)歇判別函數(shù)系數(shù)把自變量代入三個(gè)式子,哪個(gè)大歸誰.第33頁,共39頁,2023年,2月20日,星期日
TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0
趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌
12.01223122312231223122312238.01223122312231223122312234.0122312231223122312231223*.0*122312*231223122312231223-4.0122312231223122312231223-8.01223122312
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人工智能語音識(shí)別軟件開發(fā)合同
- 安全與保密措施表格(特定行業(yè))
- 廣東省深圳市福田區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 《中學(xué)語文文學(xué)鑒賞與實(shí)踐活動(dòng)教案》
- 清潔能源工程項(xiàng)目建設(shè)合同
- 框架協(xié)議合同
- 關(guān)于調(diào)整辦公時(shí)間的內(nèi)部通知流程說明
- 機(jī)械工程材料性能分析知識(shí)要點(diǎn)
- 關(guān)于職場禮儀的普及
- 物流配送策略對比表
- GB/T 4292-2017氟化鋁
- GB/T 41-20161型六角螺母C級(jí)
- GB/T 3811-2008起重機(jī)設(shè)計(jì)規(guī)范
- CB/T 615-1995船底吸入格柵
- 11471勞動(dòng)爭議處理(第10章)
- 2022年河南省對口升學(xué)計(jì)算機(jī)類專業(yè)課考試真題卷
- 人工智能賦能教育教學(xué)變革的研究
- 經(jīng)營性公墓建設(shè)標(biāo)準(zhǔn)
- 患教-頸動(dòng)脈斑塊課件
- 審計(jì)部組織架構(gòu)及崗位設(shè)置
- 流行性乙型腦炎PPT課件
評論
0/150
提交評論