聚類分析與判別分析_第1頁
聚類分析與判別分析_第2頁
聚類分析與判別分析_第3頁
聚類分析與判別分析_第4頁
聚類分析與判別分析_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第一節(jié) 聚類分析統(tǒng)計(jì)思想一、聚類分析的基本思想1什么是聚類分析俗語說,物以類聚、人以群分。當(dāng)有一個(gè)分類指標(biāo)時(shí),分類比較容易。但是當(dāng)有多個(gè)指標(biāo),要進(jìn)行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo); 對于多指標(biāo)分類,由于不同的指標(biāo)項(xiàng)對重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,因?yàn)檫@樣會忽視相對重要程度的問題。所以需要進(jìn)行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的,同時(shí)又應(yīng)用于昆蟲的分類中,此后又廣泛地應(yīng)用在天氣、生物等方面。對于一個(gè)數(shù)

2、據(jù),人們既可以對變量(指標(biāo))進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。2r型聚類和q型聚類對變量的聚類稱為r型聚類,而對觀測值聚類稱為q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。聚類分析就是要找出具有相近程度的點(diǎn)或類聚為一類;如何衡量這個(gè)“相近程度”?就是要根據(jù)“距離”來確定。這里的距離含義很廣,凡是滿足4個(gè)條件(后面講)的都是距離,如歐氏距離、馬氏距離,相似系數(shù)也可看作為距離。二、如何度量距離的遠(yuǎn)近:統(tǒng)計(jì)距離和相似系數(shù)1統(tǒng)計(jì)距離距離有點(diǎn)間距離好和類間距離2常用距離統(tǒng)計(jì)距離有多種,常用的是明氏距離。3相似系數(shù)當(dāng)對 個(gè)指標(biāo)變量進(jìn)行聚

3、類時(shí),用相似系數(shù)來衡量變量間的關(guān)聯(lián)程度,一般地稱 為變量 和 間的相似系數(shù)。常用的相似系數(shù)有夾角余弦、相關(guān)系數(shù)等。夾角余弦:相關(guān)系數(shù):對于分類變量的研究對象的相似性測度,一般稱為關(guān)聯(lián)測度。第二節(jié) 如何進(jìn)行聚類分析一、系統(tǒng)聚類1系統(tǒng)聚類的基本步驟2最短距離法3最長距離法4重心法和類平均法5離差平方和法二、spss中的聚類分析1、事先要確定分多少類:k均值聚類法;2、事先不用確定分多少類:分層聚類;分層聚類由兩種方法:分解法和凝聚法。分層聚類的功能:即可進(jìn)行樣品的聚類,也可進(jìn)行變量的聚類。分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。分層聚類的中要進(jìn)行以下的選擇:數(shù)據(jù)的標(biāo)準(zhǔn)化測度方法

4、的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進(jìn)行選擇。輸出圖形的選擇:樹形圖或冰柱圖。3、聚類分析要注意的問題。 聚類方法的優(yōu)缺點(diǎn):類平均法比較好,因?yàn)榕c類平均法相比,最短和重心法是“空間濃縮”,即并類的距離范圍小,區(qū)別類的靈敏度差;與類平均法相比,其他方法是“空間擴(kuò)張”,即并類距離范圍大,區(qū)別類的靈敏度強(qiáng)。最短距離比最長距離法好聚類結(jié)果中,如果孤類點(diǎn)太多,則說明該中聚類方法不好。如果從減少孤類來看,一般情況下用words方法最好。 快速聚類法與層次聚類法應(yīng)用區(qū)別層次聚類法的聚類過程是單方向的,一旦某個(gè)樣品(case)進(jìn)入某一類,

5、就不可能從該類出來,再歸入其他的類。而快速聚類法受奇異值、相似測度和不合使得聚類變量的影響較小,對于不合適的初始分類可以進(jìn)行反復(fù)調(diào)整.在聚類分析發(fā)展的早期,層次聚類法應(yīng)用普遍,其中尤以組間類平均法和離差平方和法應(yīng)用最廣。后來快速聚類方法逐步被人們接受,應(yīng)用日益增多。現(xiàn)在是兩者相結(jié)合,取長補(bǔ)短。首先使用層次聚類法確定分類數(shù),檢查是否有奇異值,去除奇異值后,對剩下的案例重新進(jìn)行分類,把用層次聚類法得到的各個(gè)類的重心,作為迭代法的初始分類中心,對樣本進(jìn)行重新調(diào)整。第三節(jié) 判別分析一、判別分析的基本思路1為什么判別?有一些昆蟲的性別很難看出,只有通過解剖才能夠判別;但是雄性和雌性昆蟲在若干體表度量上有

6、些綜合的差異。于是統(tǒng)計(jì)學(xué)家就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預(yù)測變量)得到一個(gè)標(biāo)準(zhǔn),并且利用這個(gè)標(biāo)準(zhǔn)來判別其他未知性別的昆蟲。這樣的判別雖然不能保證百分之百準(zhǔn)確,但至少大部分判別都是對的,而且用不著殺死昆蟲來進(jìn)行判別了。 2判別分析(discriminant analysis)的含義這就是本章要講的是判別分析。判別分析和前面的聚類分析有什么不同呢?主要不同點(diǎn)就是,在聚類分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類,完全根據(jù)數(shù)據(jù)來確定。而在判別分析中,至少有一個(gè)已經(jīng)明確知道類別的“訓(xùn)練樣本”,利用這個(gè)數(shù)據(jù),就可以建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了

7、。3判別分析例子例10.1 數(shù)據(jù)disc.sav:企圖用一套打分體系來描繪企業(yè)的狀況。該體系對每個(gè)企業(yè)的一些指標(biāo)(變量)進(jìn)行評分。這些指標(biāo)包括: 企業(yè)規(guī)模(is)、服務(wù)(se)、 雇員工資比例(sa)、利潤增長(prr)、 市場份額(ms)、市場份額增長(msr)、 流動(dòng)資金比例(cp)、資金周轉(zhuǎn)速度(cs)等等。另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類別(三個(gè)類別之一:group-1代表上升,group-2代表穩(wěn)定,group-3代表下降)找出一個(gè)分類標(biāo)準(zhǔn),以對沒有被該刊物分類的企業(yè)進(jìn)行分類。該數(shù)據(jù)有90個(gè)企業(yè)(90個(gè)

8、觀測值),其中30個(gè)屬于上升型,30個(gè)屬于穩(wěn)定型,30個(gè)屬于下降型。這個(gè)數(shù)據(jù)就是一個(gè)“訓(xùn)練樣本”。4判別分析的基本思路設(shè)有g(shù)1、g2、gk個(gè)總體,從不同的總體中抽出不同的樣本,根據(jù)樣本建立判別法則判別新的樣品屬于哪一個(gè)總體。當(dāng)然,根據(jù)不同的方法,建立的判別法則也是不同的。常用的判別方法有:距離判別、fisher判別、bayes判別。二、幾種判別分析方法;1距離判別法(不用投影)最簡單的辦法就是離哪個(gè)中心距離最近,就屬于哪一類。通常使用的距離是所謂的馬氏(mahalanobis)距離。用來比較到各個(gè)中心距離的數(shù)學(xué)函數(shù)稱為判別函數(shù)(discriminant function).這種根據(jù)遠(yuǎn)近判別的方

9、法,原理簡單,直觀易懂。假設(shè)有兩個(gè)總體g1和g2, 如果能夠定義點(diǎn)x到它們的距離d(x,g1)和d(x,g2), 則如果d(x,g1) d(x,g2),則 xg1如果d(x,g2) d(x,g1),則 xg2如果d(x,g1) = d(x,g2),則待判2fisher判別法(先進(jìn)行投影的距離判別)所謂fisher判別法,就是一種先投影的方法。考慮只有兩個(gè)(預(yù)測)變量的判別分析問題。假定這里只有兩類。數(shù)據(jù)中的每個(gè)觀測值是二維空間的一個(gè)點(diǎn)。見圖。這里只有兩種已知類型的訓(xùn)練樣本。其中一類有38個(gè)點(diǎn)(用“o”表示),另一類有44個(gè)點(diǎn)(用“*”表示)。按照原來的變量(橫坐標(biāo)和縱坐標(biāo)),很難將這兩種點(diǎn)分開

10、。于是就尋找一個(gè)方向,也就是圖上的虛線方向,沿著這個(gè)方向朝和這個(gè)虛線垂直的一條直線進(jìn)行投影會使得這兩類分得最清楚??梢钥闯?,如果向其他方向投影,判別效果不會比這個(gè)好。有了投影之后,再用前面講到的距離遠(yuǎn)近的方法來得到判別準(zhǔn)則。這種首先進(jìn)行投影的判別方法就是fisher判別法。3逐步判別法有時(shí),一些變量對于判別并沒有什么作用,為了得到對判別最合適的變量,可以使用逐步判別。逐步判別法的基本思路:采用“有進(jìn)有出”的方法。即在判別過程中,沒有一個(gè)變量進(jìn)入判別分析中,先對各變量進(jìn)行計(jì)算、檢驗(yàn),從中挑選最主要的變量進(jìn)入判別中。然后再考慮較早引入判別式的某些變量,如果由于新變量的引入而原變量變?yōu)椴恢匾?,則剔除判別式中,直到所有的重要變量都引入判別式中,所有的非重要變量都剔除判別式中為止。如何判別那個(gè)變量重要呢? 已知變量之間在各組中的差異越大越好,即為重要變量。變量在各組間的差異可用多元的方差分析,即利用:來分析變量的重要性。三、判別分析要注意的問題。樣本中必須有所有要判別的類型,分類必須清楚,不能有混雜。 要選擇好可能用于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論