版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
多元統(tǒng)計分析課件聚類分析第1頁,共107頁,2023年,2月20日,星期四第一節(jié)什么是聚類分析第2頁,共107頁,2023年,2月20日,星期四
聚類分析也是一種分類技術(shù)。是研究“物以類聚”的一種方法。與多元分析的其他方法相比,該方法理論上還不完善,但由于它能解決許多實際問題,很受人們的重視,應(yīng)用方面取得了很大成功。第3頁,共107頁,2023年,2月20日,星期四舉例
對10位應(yīng)聘者做智能檢驗。3項指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進(jìn)行分類。第4頁,共107頁,2023年,2月20日,星期四應(yīng)聘者得分如下應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第5頁,共107頁,2023年,2月20日,星期四第6頁,共107頁,2023年,2月20日,星期四例如,對上市公司的經(jīng)營業(yè)績進(jìn)行分類;例如,根據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對不同商品、不同用戶及時地進(jìn)行分類。例如,當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價時,建立了一個由多個指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。第7頁,共107頁,2023年,2月20日,星期四聚類分析內(nèi)容
系統(tǒng)聚類動態(tài)聚類模糊聚類圖論聚類第8頁,共107頁,2023年,2月20日,星期四第二節(jié)距離和相似系數(shù)第9頁,共107頁,2023年,2月20日,星期四描述親疏程度有兩個途徑:
1、把每個樣品看成p維(變量的個數(shù)為p個)空間的一個點,在p維坐標(biāo)中,定義點與點之間的距離。
2、用某種相似系數(shù)來描述樣品之間的親疏程度。第10頁,共107頁,2023年,2月20日,星期四變量的類型變量按測量尺度的不同可以分為以下三類:
1、間隔尺度變量(數(shù)值型變量)用連續(xù)的數(shù)量來度量,如長度、重量、產(chǎn)值、成本
2、有序尺度變量(有序變量)如一、二、三等品不能用明確的數(shù)量度量,用等級表示,有次序關(guān)系。
3、名義尺度變量用一些類來表示。性別中的男與女,職業(yè)的分類。第11頁,共107頁,2023年,2月20日,星期四聚類的種類根據(jù)分類的對象可將聚類分析分為:(1)Q型(即樣品的聚類clusteringforindividuals)(2)R型(即變量或指標(biāo)的聚類clusteringforvariables)第12頁,共107頁,2023年,2月20日,星期四1、對樣品分類(Q型)
常用的距離與相似系數(shù)的定義第13頁,共107頁,2023年,2月20日,星期四樣本資料矩陣樣本資料矩陣第14頁,共107頁,2023年,2月20日,星期四(1)距離假使每個樣品有p個變量,則每個樣品都可以看成p維空間中的一個點,n個樣品就是p維空間中的n個點,則第i樣品與第j樣品之間的距離記為dij第15頁,共107頁,2023年,2月20日,星期四定義距離的準(zhǔn)則
定義第i個和第j個樣品間的距離要求滿足如下四個條件(距離可以自己定義,只要滿足距離的條件):第16頁,共107頁,2023年,2月20日,星期四距離矩陣樣品間距離矩陣第17頁,共107頁,2023年,2月20日,星期四明氏(Minkowski
)距離第18頁,共107頁,2023年,2月20日,星期四絕對值距離第19頁,共107頁,2023年,2月20日,星期四絕對值距離實例第20頁,共107頁,2023年,2月20日,星期四歐式(Euclidian
)距離第21頁,共107頁,2023年,2月20日,星期四二維空間歐式距離第22頁,共107頁,2023年,2月20日,星期四歐氏Euclidian距離實例第23頁,共107頁,2023年,2月20日,星期四切比雪夫距離第24頁,共107頁,2023年,2月20日,星期四變量標(biāo)準(zhǔn)化第25頁,共107頁,2023年,2月20日,星期四標(biāo)準(zhǔn)化歐式距離第26頁,共107頁,2023年,2月20日,星期四馬氏Mahalanobis
距離第27頁,共107頁,2023年,2月20日,星期四Mahalanobis
距離實例第28頁,共107頁,2023年,2月20日,星期四蘭氏Canberra距離第29頁,共107頁,2023年,2月20日,星期四距離矩陣樣品間距離矩陣第30頁,共107頁,2023年,2月20日,星期四例題學(xué)生的身高與體重資料樣品123456789身高X1160159160157169162165154160體重X2494653414950484345第31頁,共107頁,2023年,2月20日,星期四(2)相似系數(shù)
研究樣品間的關(guān)系常用距離,研究指標(biāo)(變量)間的關(guān)系常用相似系數(shù)。相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)第32頁,共107頁,2023年,2月20日,星期四2、對指標(biāo)(變量)分類(R型)第33頁,共107頁,2023年,2月20日,星期四相似系數(shù)的定義第34頁,共107頁,2023年,2月20日,星期四
夾角余弦(Cosine)第35頁,共107頁,2023年,2月20日,星期四相似矩陣變量間相似矩陣第36頁,共107頁,2023年,2月20日,星期四
相關(guān)系數(shù)第37頁,共107頁,2023年,2月20日,星期四相似矩陣第38頁,共107頁,2023年,2月20日,星期四第三節(jié)八種系統(tǒng)聚類方法
(hierarchicalclusteringmethod)第39頁,共107頁,2023年,2月20日,星期四將n個樣品各作為一類
系統(tǒng)聚類法是諸聚類分析方法中使用最多的一種,按下列步驟進(jìn)行:
計算n個樣品兩兩之間的距離,構(gòu)成距離矩陣
合并距離最近的兩類為一新類
計算新類與當(dāng)前各類的距離。再合并、計算,直至只有一類為止
畫聚類圖,解釋
第40頁,共107頁,2023年,2月20日,星期四
類與類之間的距離
1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.重心法(centroidmethod)5.類平均法(averagelinkage)6.可變類平均法(flexible-betamethod)7.可變法8.離差平方和法(Ward'sminimum-variancemethod)第41頁,共107頁,2023年,2月20日,星期四(一)最短距離法
(singlelinkage,nearestneighbor)
類類間:兩類間兩兩樣品距離最短
x21?x12?x22?x11?第42頁,共107頁,2023年,2月20日,星期四遞推公式第43頁,共107頁,2023年,2月20日,星期四例1
設(shè)抽取五個樣品,每個樣品只側(cè)一個指標(biāo),他們是1,2,3.5,7,9,試用最短距離法對五個樣品進(jìn)行分類。(樣品間用絕對值距離)第44頁,共107頁,2023年,2月20日,星期四D(0)表1
D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520第45頁,共107頁,2023年,2月20日,星期四D(1)
表2D(1)G6
G3
G4
G5G6={G1,G2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520第46頁,共107頁,2023年,2月20日,星期四D(2)
表3D(2)G7
G4
G5G7={G3,G6}0G4={X4}3.50G5={X5}5.520第47頁,共107頁,2023年,2月20日,星期四D(3)
表4D(3)G7
G8G70G8={G4,G5}3.50第48頁,共107頁,2023年,2月20日,星期四聚類譜系圖第49頁,共107頁,2023年,2月20日,星期四最短距離法聚類的步驟1、定義樣品之間的距離,計算初始距離矩陣D(0)2、找出D(0)中非對角線上的最小值,設(shè)為Dpq,將對應(yīng)的兩類Gp和Gq合并成一個新類,記為Gr,即Gr=(Gp,Gq)3、計算新類與其它類之間的距離,得距離矩陣D(1)。4、用D(1)代替D(0),重復(fù)2、3的過程得D(2),如此下去直到所有樣品合并成一類為止。第50頁,共107頁,2023年,2月20日,星期四(二)最長距離法(Furthest
Neighbor
)類類間:兩類間兩兩樣品距離最長的???x11?x21???????x11?x21????第51頁,共107頁,2023年,2月20日,星期四遞推公式第52頁,共107頁,2023年,2月20日,星期四D(0)
表1D(0)G1
G2
G3
G4
G5G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520第53頁,共107頁,2023年,2月20日,星期四D(1)
表2D(1)G6
G3
G4
G5
G6={G1,G2}0G3={X3}2.50G4={X4}63.50G5={X5}85.520第54頁,共107頁,2023年,2月20日,星期四D(2)
表3D(2)G6
G7
G3G60G7={G4,G5}80G3={X3}2.55.50第55頁,共107頁,2023年,2月20日,星期四D(3)
表4D(3)G7
G8
G70G8={G3,G6}80第56頁,共107頁,2023年,2月20日,星期四第57頁,共107頁,2023年,2月20日,星期四(三)中間距離法Medianmethod最短距離最長距離中間距離第58頁,共107頁,2023年,2月20日,星期四如果在某一步將類Gp與Gq類合并為Gr,任一類Gk和新Gr的距離公式為:
當(dāng)時,由初等幾何知就是上面三角形的中線。第59頁,共107頁,2023年,2月20日,星期四D2(0)G1
G2
G3
G4
G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第60頁,共107頁,2023年,2月20日,星期四D2(1)
G6
G3
G4
G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第61頁,共107頁,2023年,2月20日,星期四D2(2)
G7
G4
G5G70G420.250G542.2540第62頁,共107頁,2023年,2月20日,星期四D2(3)
G7
G8
G7={X1,X2,X3}0G8={X4,X5}30.250第63頁,共107頁,2023年,2月20日,星期四(四)重心法(Centroidclustering):??類類間:兩類重心之間的距離即均值點間的距離第64頁,共107頁,2023年,2月20日,星期四
遞推公式注意:初始距離用歐式距離則有下列第65頁,共107頁,2023年,2月20日,星期四D2(0)G1
G2
G3
G4
G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第66頁,共107頁,2023年,2月20日,星期四D2(1)
G6
G3
G4
G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第67頁,共107頁,2023年,2月20日,星期四D
2(2)
G7
G4
G5G7={X1,X2X3}0G4={X4}23.360G5={X3}46.6940第68頁,共107頁,2023年,2月20日,星期四D2(3)
G7
G8
G7={X1,X2,X3}0G8={X4,X5}34.030第69頁,共107頁,2023年,2月20日,星期四(五)類平均法
(Between-groupLinkage)??????類類間:兩類之間的距離為兩類樣品兩兩之間的平均距離第70頁,共107頁,2023年,2月20日,星期四遞推公式第71頁,共107頁,2023年,2月20日,星期四D2(0)G1
G2
G3
G4
G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第72頁,共107頁,2023年,2月20日,星期四D2(1)
G6
G3
G4
G5G6={X1,X2}0G3={X3}4.250G4={X4}30.2512.250G5={X5}56.2530.2540第73頁,共107頁,2023年,2月20日,星期四D
2(2)
G6
G7
G3G6={X1,X2}0G7={X4X5}43.50G3={X3}4.2521.250第74頁,共107頁,2023年,2月20日,星期四D2(3)
G7
G8
G7={X4,X5}0G8={X1,X2,X3}36.080第75頁,共107頁,2023年,2月20日,星期四(六)可變類平均法
類平均法的遞推公式中,沒有反映Gp類和Gq類的距離有多大,進(jìn)一步將其改進(jìn),加入D2Pq,并給定系數(shù)<1,則類平均法的遞推公式改為:一般取第76頁,共107頁,2023年,2月20日,星期四(七)可變法如果讓中間距離法的遞推公式前兩項的系數(shù)也依賴于,則遞推公式為:第77頁,共107頁,2023年,2月20日,星期四(八)離差平方和法(ward法)
可以證明離差平方和的聚類公式為第78頁,共107頁,2023年,2月20日,星期四D2(0)G1
G2
G3
G4
G5G1={X1}0G2={X2}0.50G3={X3}3.1251.1250G4={X4}1812.56.1250G5={X5}3224.515.12520第79頁,共107頁,2023年,2月20日,星期四D2(1)
G6
G3
G4
G5G6={X1,X2}0G3={X3}2.6670G4={X4}20.1676.1250G5={X5}37.515.12520第80頁,共107頁,2023年,2月20日,星期四D
2(2)
G6
G7
G3G6={X1,X2}0G7={X4X5}42.250G3={X3}2.66713.50第81頁,共107頁,2023年,2月20日,星期四D2(3)
G7
G8
G7={X4,X5}0G8={X1,X2,X3}40.8330第82頁,共107頁,2023年,2月20日,星期四第83頁,共107頁,2023年,2月20日,星期四離差平方和法(ward法)第84頁,共107頁,2023年,2月20日,星期四方法最短距離法最長距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法???np/nrnp/nr(1-β)np/nr(1-β)/2ni+np/ni+nr???nq/nrnq/nr(1-β)nq/nr(1-β)/2ni+nq/ni+nr00-1/4≧β≧0-αpαq0<1<1-ni/ni+nr-??000000第85頁,共107頁,2023年,2月20日,星期四例1:為了更深入了解我國人口的文化程度狀況,現(xiàn)利用1990年全國人口普查數(shù)據(jù)對全國30個省、直轄市、自治區(qū)進(jìn)行聚類分析。分析選用了三個指標(biāo):(1)大學(xué)以上文化程度人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、用來反映較高、中等、較低文化程度人口的狀況,原始數(shù)據(jù)如下表:第86頁,共107頁,2023年,2月20日,星期四1990年全國人口普查文化程度人口比例(%)地區(qū)序號DXBZCZBZWMBZ北京天津河北山西內(nèi)蒙遼寧吉林黑龍江上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西海南四川貴州云南西藏陜西甘肅青海寧夏新疆1234567891011121314151617181920212223242526272829309.304.67.961.381.482.602.152.146.531.471.17.881.23.99.98.851.571.141.34.791.24.96.78.81.571.671.101.491.611.8530.5529.3824.6929.2425.4732.3226.3128.4631.5926.4323.7419.9716.8718.8425.1826.5523.1622.5723.0419.1422.5321.6514.6513.853.8524.3616.8517.7620.2720.668.708.9215.2111.3015.398.8110.4910.8711.0417.2317.4624.4315.6316.2216.8716.1515.7912.1010.4510.6113.9716.2424.2725.4444.4319.6227.9327.7022.0612.75第87頁,共107頁,2023年,2月20日,星期四第88頁,共107頁,2023年,2月20日,星期四第一類:北京、天津、山西、遼寧、吉林、黑龍江、上海。其中大多是東部經(jīng)濟(jì)、文化較發(fā)達(dá)的地區(qū)。第二類:安徽、寧夏、青海、甘肅、云南、貴州其中大多數(shù)是西部經(jīng)濟(jì)、文化發(fā)展較慢的地區(qū)。第三類:西藏。經(jīng)濟(jì)、文化較落后的地區(qū)。第四類:其它省、直轄市、自治區(qū)。經(jīng)濟(jì)、文化在全國處于中等水平。根據(jù)聚類圖把30個樣品分為四類能更好地反映我國實際情況。第89頁,共107頁,2023年,2月20日,星期四例2:根據(jù)美國等20個國家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動電話數(shù);fee—高峰時期每三分鐘國際電話的成本;comp—每千人擁有的計算機(jī)數(shù);mips—每千人計算機(jī)功率(每秒百萬指令);net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。第90頁,共107頁,2023年,2月20日,星期四表3-420個國家信息基礎(chǔ)設(shè)施指標(biāo)資料序號國家CallMovecallFeeComputerMipsNet1234567891011121314151617181920美國日本德國瑞典瑞士丹麥新加坡中國臺灣韓國巴西智利墨西哥俄羅斯波蘭匈牙利馬來西亞泰國印度法國英國631.60498.40557.60684.10644.00620.30498.40469.40434.5081.90138.6092.20174.90169.00262.20195.5078.6013.60559.10521.10161.90143.2070.60281.8093.50248.60147.5056.1073.0016.308.209.805.006.5049.4088.4027.80.3042.90122.500.363.572.181.401.982.562.503.683.363.021.402.615.123.682.664.194.956.281.270.98403.00176.00199.00286.00234.00296.00284.00119.0099.0019.0031.0031.0024.0040.0068.0053.0022.002.00201.00248.0026073.0010223.0011571.0016660.0013621.0017210.0013578.006911.005795.00876.001411.001751.001101.001796.003067.002734.001662.00101.0011702.0014461.0035.346.269.4829.3922.6821.8413.491.721.660.521.280.350.481.453.091.250.110.014.7611.91第91頁,共107頁,2023年,2月20日,星期四第92頁,共107頁,2023年,2月20日,星期四本例聚為2類:第一類:巴西、墨西哥、波蘭、匈牙利、智利、俄羅斯、泰國、印度、馬來西亞。這些國家為轉(zhuǎn)型國家和亞洲、拉美發(fā)展中國家,經(jīng)濟(jì)較不發(fā)達(dá),基礎(chǔ)設(shè)施薄弱,屬于信息基礎(chǔ)設(shè)施比較落后的國家。第二類:瑞典、丹麥、美國、中國臺灣、韓國、日本、德國、法國、新加坡、英國、瑞士。這些國家為美、日、歐洲發(fā)達(dá)國家與新興工業(yè)化國家中國臺灣、新加坡、韓國。新興工業(yè)化國家近幾十年來發(fā)展迅速,努力趕超發(fā)達(dá)國家,在信息基礎(chǔ)設(shè)施的發(fā)展上已非常接近發(fā)達(dá)國家,發(fā)達(dá)國家中的美國、瑞典、丹麥的信息基礎(chǔ)設(shè)施發(fā)展最為良好。第93頁,共107頁,2023年,2月20日,星期四第四節(jié)系統(tǒng)聚類的基本性質(zhì)1、單調(diào)性設(shè)Dk是系統(tǒng)聚類法中第K次并類時的距離,如果D1<D2<…
,則稱并類距離具有單調(diào)性。可以證明除了中間距離法和重心法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。第94頁,共107頁,2023年,2月20日,星期四2、空間的濃縮或擴(kuò)張兩個同階矩陣D(A)和D(B),如果D(A)的每一個元素不小于D(B)的相應(yīng)元素,則記為D(A)≧D(B)。若有兩種系統(tǒng)聚類法A和B,在第K步的距離矩陣記為D(AK)和D(BK),若有D(AK)≧D(BK)對所有K,則稱A比B使空間擴(kuò)張或B比A使空間濃縮。第95頁,共107頁,2023年,2月20日,星期四
D(0)G1G2G3G4G5G1={X1}0G2={X2}30G3={X3}410G4={X4}6320G5={X5}107620最短距離法最長距離法第96頁,共107頁,2023年,2月20日,星期四D(1)G6
G3
G4
G5G60G330G4260G561040D(1)G6
G3
G4
G5
G60G340G4360G5710
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《保單體檢服務(wù)》課件
- 2025屆四川省眉山一中辦學(xué)共同體重點中學(xué)高三第三次模擬考試英語試卷含解析
- 廣東省廣州市2025屆高三下學(xué)期一??荚嚁?shù)學(xué)試題含解析
- 2025屆河北省石家莊二中潤德學(xué)校高三適應(yīng)性調(diào)研考試英語試題含解析
- 北京市首都師范大學(xué)附屬回龍觀育新學(xué)校2025屆高考沖刺數(shù)學(xué)模擬試題含解析
- 云南省楚雄州2025屆高三第四次模擬考試英語試卷含解析
- 上海市華東師大三附中2025屆高考數(shù)學(xué)三模試卷含解析
- 山西省長治市潞州區(qū)長治二中2025屆高三一診考試語文試卷含解析
- 河南省駐馬店2025屆高三第五次模擬考試英語試卷含解析
- 云南省江川第二中學(xué)2025屆高考適應(yīng)性考試英語試卷含解析
- 2025年中考數(shù)學(xué)備考計劃
- 高層建筑用電安全管理制度
- 2024學(xué)校安全工作總結(jié)
- 2024-2030年中國化工設(shè)計市場發(fā)展前景調(diào)研及投資戰(zhàn)略分析報告
- 2024年低壓電工復(fù)審模擬考試題庫及答案(共230題)
- 2024-2025學(xué)年語文二年級上冊統(tǒng)編版期末測試卷(含答案)
- 教育機(jī)構(gòu)課程顧問咨詢流程
- 2024年學(xué)校意識形態(tài)工作總結(jié)模版(5篇)
- 6《記念劉和珍君》《為了忘卻的紀(jì)念》說課稿 2024-2025學(xué)年統(tǒng)編版高中語文選擇性必修中冊
- 智能化住宅小區(qū)施工合同
- 葡萄酒文化與鑒賞學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評論
0/150
提交評論