統(tǒng)計(jì)學(xué)數(shù)據(jù)到結(jié)論_第1頁(yè)
統(tǒng)計(jì)學(xué)數(shù)據(jù)到結(jié)論_第2頁(yè)
統(tǒng)計(jì)學(xué)數(shù)據(jù)到結(jié)論_第3頁(yè)
統(tǒng)計(jì)學(xué)數(shù)據(jù)到結(jié)論_第4頁(yè)
統(tǒng)計(jì)學(xué)數(shù)據(jù)到結(jié)論_第5頁(yè)
已閱讀5頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)數(shù)據(jù)到結(jié)論第一頁(yè),共七十頁(yè),編輯于2023年,星期三第十二章判別分析

第二頁(yè),共七十頁(yè),編輯于2023年,星期三12.1判別分析

(discriminantanalysis)

某些昆蟲(chóng)的性別只有通過(guò)解剖才能夠判別但雄性和雌性昆蟲(chóng)在若干體表度量上有些綜合的差異。人們就根據(jù)已知雌雄的昆蟲(chóng)體表度量(這些用作度量的變量亦稱(chēng)為預(yù)測(cè)變量)得到一個(gè)標(biāo)準(zhǔn),并以此標(biāo)準(zhǔn)來(lái)判別其他未知性別的昆蟲(chóng)。這樣雖非100%準(zhǔn)確的判別至少大部分是對(duì)的,而且用不著殺生。此即判別分析第三頁(yè),共七十頁(yè),編輯于2023年,星期三判別分析(discriminantanalysis)判別分析和聚類(lèi)分析有何不同?在聚類(lèi)分析中,人們一般事先并不知道應(yīng)該分成幾類(lèi)及哪幾類(lèi),全根據(jù)數(shù)據(jù)確定。在判別分析中,至少有一個(gè)已經(jīng)明確知道類(lèi)別的“訓(xùn)練樣本”,并利用該樣本來(lái)建立判別準(zhǔn)則,并通過(guò)預(yù)測(cè)變量來(lái)為未知類(lèi)別的觀(guān)測(cè)值進(jìn)行判別了。第四頁(yè),共七十頁(yè),編輯于2023年,星期三判別分析例子數(shù)據(jù)disc.txt:企圖用一套打分體系來(lái)描繪企業(yè)的狀況。該體系對(duì)每個(gè)企業(yè)的一些指標(biāo)(變量)進(jìn)行評(píng)分。指標(biāo)有:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、利潤(rùn)增長(zhǎng)(prr)、市場(chǎng)份額(ms)、市場(chǎng)份額增長(zhǎng)(msr)、流動(dòng)資金比例(cp)、資金周轉(zhuǎn)速度(cs)等.另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。第五頁(yè),共七十頁(yè),編輯于2023年,星期三判別分析例子希望根據(jù)這些企業(yè)的上述變量的打分及其已知的類(lèi)別(三個(gè)類(lèi)別之一:group-1代表上升,group-2代表穩(wěn)定,group-3代表下降)找出一個(gè)分類(lèi)標(biāo)準(zhǔn),以對(duì)尚未被分類(lèi)的企業(yè)進(jìn)行分類(lèi)。該數(shù)據(jù)有90個(gè)企業(yè)(90個(gè)觀(guān)測(cè)值),其中30個(gè)屬于上升型,30個(gè)屬于穩(wěn)定型,30個(gè)屬于下降型。這個(gè)數(shù)據(jù)就是一個(gè)“訓(xùn)練樣本”。第六頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.sav數(shù)據(jù)

第七頁(yè),共七十頁(yè),編輯于2023年,星期三1.根據(jù)距離判別的思想Disc.txt數(shù)據(jù)有8個(gè)用來(lái)建立判別標(biāo)準(zhǔn)(或判別函數(shù))的(預(yù)測(cè))變量,另一個(gè)(group)是類(lèi)別每一個(gè)企業(yè)的打分在這8個(gè)變量所構(gòu)成的8維空間中是一個(gè)點(diǎn)。這個(gè)數(shù)據(jù)在8維空間有90個(gè)點(diǎn),由于已知所有點(diǎn)的類(lèi)別,可以求得每個(gè)類(lèi)型的中心。這樣只要定義了距離,就可以得到任何給定的點(diǎn)(企業(yè))到這三個(gè)中心的三個(gè)距離。第八頁(yè),共七十頁(yè),編輯于2023年,星期三1.根據(jù)距離判別的思想最簡(jiǎn)單的辦法就是:某點(diǎn)離哪個(gè)中心距離最近,就屬于哪一類(lèi)。一個(gè)常用距離是Mahalanobis距離。用來(lái)比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱(chēng)為判別函數(shù)(discriminantfunction).這種根據(jù)遠(yuǎn)近判別的思想,原理簡(jiǎn)單,直觀(guān)易懂。為判別分析的基礎(chǔ)第九頁(yè),共七十頁(yè),編輯于2023年,星期三2.Fisher判別法(先進(jìn)行投影)Fisher判別法就是一種先投影的方法??紤]只有兩個(gè)(預(yù)測(cè))變量的判別問(wèn)題。假定只有兩類(lèi)。數(shù)據(jù)中的每個(gè)觀(guān)測(cè)值是二維空間的一個(gè)點(diǎn)。見(jiàn)圖。這里只有兩種已知類(lèi)型的訓(xùn)練樣本。一類(lèi)有38個(gè)點(diǎn)(用“o”表示),另一類(lèi)有44個(gè)點(diǎn)(用“*”表示)。按原來(lái)變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開(kāi)。第十頁(yè),共七十頁(yè),編輯于2023年,星期三第十一頁(yè),共七十頁(yè),編輯于2023年,星期三2.Fisher判別法(先進(jìn)行投影)于是就尋找一個(gè)方向,即圖上的虛線(xiàn)方向,沿該方向朝和這個(gè)虛線(xiàn)垂直的一條直線(xiàn)進(jìn)行投影會(huì)使得這兩類(lèi)分得最清楚。可以看出,如果向其他方向投影,判別效果不會(huì)比這個(gè)好。有了投影之后,再用前面講到的距離遠(yuǎn)近的方法得到判別準(zhǔn)則。這種先投影的判別方法就是Fisher判別法。第十二頁(yè),共七十頁(yè),編輯于2023年,星期三Fisher判別法的數(shù)學(xué)第十三頁(yè),共七十頁(yè),編輯于2023年,星期三3.逐步判別法

(僅僅是在前面的方法中加入變量選擇的功能)有時(shí),一些變量對(duì)于判別并沒(méi)有什么作用,為了得到對(duì)判別最合適的變量,可以使用逐步判別。即,一邊判別,一邊選擇判別能力最強(qiáng)的變量,這個(gè)過(guò)程可以有進(jìn)有出。一個(gè)變量的判別能力的判斷方法有很多種,主要利用各種檢驗(yàn),例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等檢驗(yàn)。其細(xì)節(jié)這里就不贅述了;這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來(lái)實(shí)現(xiàn)。逐步判別的其他方面和前面的無(wú)異。第十四頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子利用SPSS軟件的逐步判別法淘汰了不顯著的流動(dòng)資金比例(cp),還剩下七個(gè)變量。用x1,x2,x3,x4,x5,x6,x7分別表示標(biāo)準(zhǔn)化后的變量is,se,sa,prr,ms,msr,cs,得到兩個(gè)典則判別函數(shù)(CanonicalDiscriminantFunctionCoefficients):這兩個(gè)函數(shù)實(shí)際上是由Fisher判別法得到的向兩個(gè)方向的投影。這兩個(gè)典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的:第十五頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子根據(jù)這兩個(gè)函數(shù),從任何一個(gè)觀(guān)測(cè)值(每個(gè)觀(guān)測(cè)值都有7個(gè)變量值)都可以算出兩個(gè)數(shù)。把這兩個(gè)數(shù)目當(dāng)成該觀(guān)測(cè)值的坐標(biāo),這樣數(shù)據(jù)中的150個(gè)觀(guān)測(cè)值就是二維平面上的150個(gè)點(diǎn)。它們的點(diǎn)圖在下面圖中。第十六頁(yè),共七十頁(yè),編輯于2023年,星期三第十七頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子從上圖可以看出,第一個(gè)投影(相應(yīng)于來(lái)自于第一個(gè)典則判別函數(shù)橫坐標(biāo)值)已經(jīng)能夠很好地分辨出三個(gè)企業(yè)類(lèi)型了。這兩個(gè)典則判別函數(shù)并不是平等的。其實(shí)一個(gè)函數(shù)就已經(jīng)能夠把這三類(lèi)分清楚了。SPSS的一個(gè)輸出就給出了這些判別函數(shù)(投影)的重要程度:前面說(shuō)過(guò),投影的重要性是和特征值的貢獻(xiàn)率有關(guān)。該表說(shuō)明第一個(gè)函數(shù)的貢獻(xiàn)率已經(jīng)是99%了,而第二個(gè)只有1%。當(dāng)然,二維圖要容易看一些。投影之后,再根據(jù)各點(diǎn)的位置遠(yuǎn)近算出具體的判別公式(SPSS輸出):第十八頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子具體的判別公式(SPSS輸出),由一張分類(lèi)函數(shù)表給出:該表給出了三個(gè)線(xiàn)性分類(lèi)函數(shù)的系數(shù)。把每個(gè)觀(guān)測(cè)點(diǎn)帶入三個(gè)函數(shù),就可以得到分別代表三類(lèi)的三個(gè)值,哪個(gè)值最大,該點(diǎn)就屬于相應(yīng)的那一類(lèi)。當(dāng)然,用不著自己去算,計(jì)算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個(gè)點(diǎn)按照這里的分類(lèi)法分到某一類(lèi)。當(dāng)然,我們一開(kāi)始就知道這些訓(xùn)練數(shù)據(jù)的各個(gè)觀(guān)測(cè)值的歸屬,但即使是這些訓(xùn)練樣本的觀(guān)測(cè)值(企業(yè))按照這里推導(dǎo)出的分類(lèi)函數(shù)來(lái)分類(lèi),也不一定全都能夠正確劃分。第十九頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子下面就是對(duì)我們的訓(xùn)練樣本的分類(lèi)結(jié)果(SPSS):第二十頁(yè),共七十頁(yè),編輯于2023年,星期三誤判和正確判別率從該表看,我們的分類(lèi)能夠100%地把訓(xùn)練數(shù)據(jù)的每一個(gè)觀(guān)測(cè)值分到其本來(lái)的類(lèi)。該表分成兩部分;上面一半(Original)是用從全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷每一個(gè)點(diǎn)的結(jié)果(前面三行為判斷結(jié)果的數(shù)目,而后三行為相應(yīng)的百分比)。下面一半(Crossvalidated)是對(duì)每一個(gè)觀(guān)測(cè)值,都用缺少該觀(guān)測(cè)的全部數(shù)據(jù)得到的判別函數(shù)來(lái)判斷的結(jié)果。這里結(jié)果是100%正確,但一般并不一定。

第二十一頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子如果就用這個(gè)數(shù)據(jù),但不用所有的變量,而只用4個(gè)變量進(jìn)行判別:企業(yè)規(guī)模(is)、服務(wù)(se)、雇員工資比例(sa)、資金周轉(zhuǎn)速度(cs)。結(jié)果的圖形和判別的正確與否就不一樣了。下圖為兩個(gè)典則判別函數(shù)導(dǎo)出的150個(gè)企業(yè)的二維點(diǎn)圖。它不如前面的圖那么容易分清楚了原先的圖第二十二頁(yè),共七十頁(yè),編輯于2023年,星期三Disc.txt例子下面是基于4個(gè)變量時(shí)分類(lèi)結(jié)果表:這個(gè)表的結(jié)果是有87個(gè)點(diǎn)(96.7%)得到正確劃分,有3個(gè)點(diǎn)被錯(cuò)誤判別;其中第二類(lèi)有兩個(gè)被誤判為第一類(lèi),有一個(gè)被誤判為第三類(lèi)。第二十三頁(yè),共七十頁(yè),編輯于2023年,星期三12.2判別分析要注意什么?訓(xùn)練樣本中必須包含所有要判別的類(lèi)型,分類(lèi)必須清楚,不能有混雜。

要選擇好可能用于判別的預(yù)測(cè)變量。這是最重要的。當(dāng)然,在應(yīng)用中,選擇余地不見(jiàn)得有多大。

要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在。還要看預(yù)測(cè)變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來(lái)驗(yàn)證。第二十四頁(yè),共七十頁(yè),編輯于2023年,星期三判別分析要注意什么?判別分析是為了正確地分類(lèi),但同時(shí)也要注意使用盡可能少的預(yù)測(cè)變量來(lái)達(dá)到這個(gè)目的。使用較少的變量意味著節(jié)省資源和易于對(duì)結(jié)果作解釋。

在計(jì)算中需要看關(guān)于各個(gè)類(lèi)的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果(在SPSS選項(xiàng)中選擇Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗(yàn)的計(jì)算機(jī)輸出),以確定是否分類(lèi)結(jié)果僅由于隨機(jī)因素。第二十五頁(yè),共七十頁(yè),編輯于2023年,星期三判別分析要注意什么?此外成員的權(quán)數(shù)(SPSS用priorprobability,即“先驗(yàn)概率”,和貝葉斯統(tǒng)計(jì)的先驗(yàn)概率有區(qū)別)需要考慮;一般來(lái)說(shuō),加權(quán)要按照各類(lèi)觀(guān)測(cè)值的多少,觀(guān)測(cè)值少的就要按照比例多加權(quán)。對(duì)于多個(gè)判別函數(shù),要弄清各自的重要性。注意訓(xùn)練樣本的正確和錯(cuò)誤分類(lèi)率。研究被誤分類(lèi)的觀(guān)測(cè)值,看是否能找出原因。

第二十六頁(yè),共七十頁(yè),編輯于2023年,星期三SPSS選項(xiàng)打開(kāi)disc.sav數(shù)據(jù)。然后點(diǎn)擊Analyze-Classify-Discriminant,把group放入GroupingVariable,再定義范圍,即在DefineRange輸入1-3的范圍。然后在Independents輸入所有想用的變量;但如果要用逐步判別,則不選Enterindependentstogether,而選擇Usestepwisemethod,在方法(Method)中選挑選變量的準(zhǔn)則(檢驗(yàn)方法;默認(rèn)值為Wilks’Lambda)。為了輸出Fisher分類(lèi)函數(shù)的結(jié)果可以在Statistics中的FunctionCoefficient選Fisher和Unstandardized

,在Matrices中選擇輸出所需要的相關(guān)陣;還可以在Classify中的Display選summarytable,Leave-one-outclassification;注意在Classify選項(xiàng)中默認(rèn)的PriorProbability為Allgroupsequal表示所有的類(lèi)都平等對(duì)待,而另一個(gè)選項(xiàng)為Computefromgroupsizes,即按照類(lèi)的大小加權(quán)。在Plots可選Combined-groups,Territorialmap等。

第二十七頁(yè),共七十頁(yè),編輯于2023年,星期三附錄第二十八頁(yè),共七十頁(yè),編輯于2023年,星期三費(fèi)歇(Fisher)判別法并未要求總體分布類(lèi)型工作原理就是對(duì)原數(shù)據(jù)系統(tǒng)進(jìn)行坐標(biāo)變換,尋求能夠?qū)⒖傮w盡可能分開(kāi)的方向.點(diǎn)x在以a為法方向的投影為a’x各組數(shù)據(jù)的投影為

第二十九頁(yè),共七十頁(yè),編輯于2023年,星期三將Gm組中數(shù)據(jù)投影的均值記為有記k組數(shù)據(jù)投影的總均值為有第三十頁(yè),共七十頁(yè),編輯于2023年,星期三組間離差平方和為:這里組內(nèi)離差平方和為:這里第三十一頁(yè),共七十頁(yè),編輯于2023年,星期三注:L=|E|/|B+E|為有Wilks分布的檢驗(yàn)零假設(shè)H0:m(1)=…=m(k)的似然比統(tǒng)計(jì)量.Wilks分布常用c2分布近似(Bartlett)第三十二頁(yè),共七十頁(yè),編輯于2023年,星期三希望尋找a使得SSG盡可能大而SSE盡可能小,即記方程|B-lE|=0的全部特征根為l1≥…≥lr>0,相應(yīng)的特征向量為v1,…,vr.D(a)的大小可以估計(jì)判別函數(shù)yi(x)=vi’x(=a’x)的效果.記pi為判別能力(效率),有最大的值為方程|B-lE|=0的最大特征根l1.使第三十三頁(yè),共七十頁(yè),編輯于2023年,星期三m個(gè)判別函數(shù)的判別能力定義為據(jù)此來(lái)確定選擇多少判別函數(shù)。再看逐步判別法。第三十四頁(yè),共七十頁(yè),編輯于2023年,星期三判別分析

(DiscriminantAnalysis)

第三十五頁(yè),共七十頁(yè),編輯于2023年,星期三和聚類(lèi)分析的關(guān)系判別分析和聚類(lèi)分析都是分類(lèi).但判別分析是在已知對(duì)象有若干類(lèi)型和一批已知樣品的觀(guān)測(cè)數(shù)據(jù)后的基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式.而做聚類(lèi)分析時(shí)類(lèi)型并不知道.可以先聚類(lèi)以得知類(lèi)型,再進(jìn)行判別.第三十六頁(yè),共七十頁(yè),編輯于2023年,星期三距離判別法假設(shè)有兩個(gè)總體G1和G2,如果能夠定義點(diǎn)x到它們的距離D(x,G1)和D(x,G2),則如果D(x,G1)<D(x,G2)則x∈G1如果D(x,G2)<D(x,G1)則x∈G2如果D(x,G1)=D(x,G2)則待判第三十七頁(yè),共七十頁(yè),編輯于2023年,星期三Mahalanobis距離假設(shè)m(1),m(2),S(1),S(2)分別為G1和G2的均值向量和協(xié)差陣,則點(diǎn)x到Gi的馬氏距離定義為

D2(x,Gi)=(x-m(i))’(S(i))-1(x-m(i))

其他一些距離為馬氏距離的特殊情況,因此我們著重討論馬氏距離.馬氏距離的好處是可以克服變量之間的相關(guān)性干擾,并且消除各變量量綱的影響.第三十八頁(yè),共七十頁(yè),編輯于2023年,星期三線(xiàn)性判別函數(shù):當(dāng)S(1)=S(2)=S時(shí)記如果W(x)>0即D(x,G1)<D(x,G2)則x∈G1如果W(x)<0即D(x,G1)>D(x,G2)則x∈G2如果W(x)=0即D(x,G1)=D(x,G2)則待判第三十九頁(yè),共七十頁(yè),編輯于2023年,星期三當(dāng)m(1),m(2),S

已知時(shí),令a=S-1(m(1)-m(2))≡(a1,…,ap)’,則顯然W(x)為x1,…,xp的線(xiàn)性函數(shù),稱(chēng)為線(xiàn)性判別函數(shù);a稱(chēng)為判別系數(shù).第四十頁(yè),共七十頁(yè),編輯于2023年,星期三當(dāng)m(1),m(2),S

未知時(shí),可通過(guò)樣本來(lái)估計(jì):判別函數(shù)為為來(lái)自Gi的樣本為(i=1,2)第四十一頁(yè),共七十頁(yè),編輯于2023年,星期三非線(xiàn)性判別函數(shù):當(dāng)S(1)≠S(2)時(shí)這是x的一個(gè)二次函數(shù),按照距離最近原則,判別準(zhǔn)則仍然為如果W(x)>0即D(x,G1)<D(x,G2)則x∈G1如果W(x)<0即D(x,G1)>D(x,G2)則x∈G2如果W(x)=0即D(x,G1)=D(x,G2)則待判第四十二頁(yè),共七十頁(yè),編輯于2023年,星期三多總體時(shí)的線(xiàn)性判別函數(shù):當(dāng)S(1)=…=S(k)=S時(shí)記相應(yīng)的準(zhǔn)則為:如果對(duì)一切j≠i,Wij(x)>0,則x∈Gi如果有某一個(gè)Wij(x)=0,則待判第四十三頁(yè),共七十頁(yè),編輯于2023年,星期三非線(xiàn)性判別函數(shù):當(dāng)S(1),…,S(k)不等時(shí)相應(yīng)的準(zhǔn)則為:如果對(duì)一切j≠i,Wij(x)>0,則x∈Gi如果有某一個(gè)Wij(x)=0,則待判.當(dāng)m(i),S(i)

未知時(shí),可通過(guò)樣本來(lái)估計(jì)第四十四頁(yè),共七十頁(yè),編輯于2023年,星期三m個(gè)判別函數(shù)的判別能力定義為下面以?xún)煽傮w(k=2)為例來(lái)發(fā)現(xiàn)閾值.它們的均值的投影分別為當(dāng)總體方差相等時(shí)閾值為第四十五頁(yè),共七十頁(yè),編輯于2023年,星期三總體方差不等時(shí),注意到的樣本方差為類(lèi)似地,第二組數(shù)據(jù)投影的樣本方差為于是閾值如判別規(guī)則為第四十六頁(yè),共七十頁(yè),編輯于2023年,星期三用m個(gè)線(xiàn)性判別函數(shù)yi(x)=vi’x,i=1,…,m,時(shí),先將樣本點(diǎn)在L(vi,…,vm)空間投影再按照p>1情況的距離判別法來(lái)制定判別規(guī)則.判別能力為于秀林書(shū)上介紹了對(duì)用一個(gè)和m個(gè)判別函數(shù)的加權(quán)和不加權(quán)方法.記y(x)=v’x,其在Gi上的樣本均值和方差,以及總均值為第四十七頁(yè),共七十頁(yè),編輯于2023年,星期三m=1時(shí),不加權(quán)法:m=1時(shí),加權(quán)法:按大小排列Di,i+1可為相應(yīng)兩類(lèi)的分界點(diǎn)相應(yīng)的標(biāo)準(zhǔn)差為令第四十八頁(yè),共七十頁(yè),編輯于2023年,星期三m>1時(shí),不加權(quán)法:記對(duì)x=(x1,…,)’,yl(x)=v(l)’xm>1時(shí),加權(quán)法:記則則第四十九頁(yè),共七十頁(yè),編輯于2023年,星期三Bayes判別法不用判別式,而用比較新給樣品屬于各個(gè)總體的條件概率P(l|x),l=1,…,k,的大小(將新樣品判歸為來(lái)自概率最大的總體).先給出對(duì)于k個(gè)總體的先驗(yàn)概率q1,…,qk.如各總體密度為{fk(x)},則后驗(yàn)概率為(g=1,…k):

P(g|x)=qgfg(x)/Siqifi(x)當(dāng)且僅當(dāng)P(h|x)=maxgP(g|x),判x來(lái)自第h總體.也可以用使錯(cuò)判的損失最小來(lái)判別.如果c(i|j)為來(lái)自j總體的個(gè)體被錯(cuò)判到第i總體的損失.定義平均錯(cuò)判損失(ECM)為

ECM=Si=1qi[Sl≠iP(l|i)c(l|i)]第五十頁(yè),共七十頁(yè),編輯于2023年,星期三逐步判別法前面判別用了所有變量.但是各變量所起作用并不一樣.要有進(jìn)有出,引進(jìn)“最重要的”并剔除不顯著的.根據(jù)是假設(shè)檢驗(yàn)(比如似然比檢驗(yàn)).檢驗(yàn)的零假設(shè)是各組變量均值相等.Lambda(Wilks’Lambda統(tǒng)計(jì)量)接近0表示組均值不同,接近1表示組均值沒(méi)有不同.Chi-square是lambda的卡方轉(zhuǎn)換(Bartelett近似),用于確定其顯著性.第五十一頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(花瓣,花萼的長(zhǎng)寬)

5個(gè)變量:花瓣長(zhǎng)(slen),花瓣寬(swid),花萼長(zhǎng)(plen),花萼寬(pwid),分類(lèi)號(hào)(1:Setosa,2:Versicolor,3:Virginica)(data14-04)第五十二頁(yè),共七十頁(yè),編輯于2023年,星期三Statistics→Classify→Discriminant:Variables:

independent(slen,swid,plen,pwid)Grouping(spno)Definerange(min-1,max-3)Classify:priorprobability(Allgroupequal)

usecovariancematrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorialmap)Display(Summarytable)Statistics:Descriptive(Means)

FunctionCoefficients(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,Within-groupscovariance,Separate-groupscovariance,Totalcovariance)

Save:

(Predictedgroupmembership,DiscriminantScores,Probabilityofgroupmembership)第五十三頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(數(shù)據(jù)分析過(guò)程簡(jiǎn)明表)第五十四頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(原始數(shù)據(jù)的描述)第五十五頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(合并類(lèi)內(nèi)相關(guān)陣和協(xié)方差陣)第五十六頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(總協(xié)方差陣)第五十七頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(特征值表)

Eigenvalue:用于分析的前兩個(gè)典則判別函數(shù)的特征值,是組間平方和與組內(nèi)平方和之比值.最大特征值與組均值最大的向量對(duì)應(yīng),第二大特征值對(duì)應(yīng)著次大的組均值向量

典則相關(guān)系數(shù)(canonicalcorrelation):是組間平方和與總平方和之比的平方根.被平方的是由組間差異解釋的變異總和的比.第五十八頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(Wilks’Lambda統(tǒng)計(jì)量)

檢驗(yàn)的零假設(shè)是各組變量均值相等.Lambda接近0表示組均值不同,接近1表示組均值沒(méi)有不同.Chi-square是lambda的卡方轉(zhuǎn)換,用于確定其顯著性.第五十九頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)標(biāo)準(zhǔn)化的典則判別函數(shù)系數(shù)(使用時(shí)必須用標(biāo)準(zhǔn)化的自變量)第六十頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)典則判別函數(shù)系數(shù)第六十一頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(有關(guān)判別函數(shù)的輸出)

這是類(lèi)均值(重心)處的典則判別函數(shù)值這是典則判別函數(shù)(前面兩個(gè)函數(shù))在類(lèi)均值(重心)處的值第六十二頁(yè),共七十頁(yè),編輯于2023年,星期三鳶尾花數(shù)據(jù)(用判別函數(shù)對(duì)觀(guān)測(cè)量分類(lèi)結(jié)果)先驗(yàn)概率(沒(méi)有給)費(fèi)歇判別函數(shù)系數(shù)把自變量代入三個(gè)式子,哪個(gè)大歸誰(shuí).第六十三頁(yè),共七十頁(yè),編輯于2023年,星期三

TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0

趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌

12.01223122312231223122312238.01223122312231223122312234.0122312231223122312231223*.0*122312*231223122312231223-4.01223122312231223

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論