




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、聚類分析,陳龍珍,聚類分析,聚類分析導(dǎo)論Q型聚類統(tǒng)計(jì)距離R型聚類統(tǒng)計(jì)相似系數(shù)系統(tǒng)聚類動(dòng)態(tài)聚類K-均值聚類其他,聚類分析的定義,聚類分析是一種多元統(tǒng)計(jì)方法,研究如何根據(jù)多方面的特點(diǎn)對(duì)對(duì)象(樣本或變量)進(jìn)行綜合分類,即根據(jù)物以類聚的原則將相似的樣本(或變量)歸為一類。聚類和分類的區(qū)別是什么?無監(jiān)督學(xué)習(xí)不同于分類識(shí)別。在聚類之前,我們不知道有多少個(gè)組和什么樣的組將被劃分,我們也不知道根據(jù)哪個(gè)空間分化規(guī)則來定義組。業(yè)務(wù)聚類分析用于發(fā)現(xiàn)不同的客戶群,并通過購買模式來表征不同的客戶群。聚類分析是市場(chǎng)細(xì)分的有效工具,也可以用來研究消費(fèi)者行為,發(fā)現(xiàn)新的潛在市場(chǎng),選擇實(shí)驗(yàn)市場(chǎng),并作為多元分析的預(yù)處理。主要使用聚
2、類分析。生物聚類分析用于對(duì)動(dòng)植物和基因進(jìn)行分類,從而了解種群的內(nèi)在結(jié)構(gòu)。Q型聚類統(tǒng)計(jì)和R型聚類統(tǒng)計(jì)具有容量為N的樣本觀測(cè)數(shù)據(jù),觀測(cè)矩陣為:樣本、變量、Q型聚類和R型聚類。變量之間的聚類是R型聚類分析。相似系數(shù)通常用來衡量變量之間的接近程度。樣本之間的聚類是Q-聚類分析,距離通常用來衡量樣本之間的接近程度。Q型聚類統(tǒng)計(jì)距離,由閔可夫斯基距離度量的閔可夫斯基距離,設(shè)和為I和J樣本的觀測(cè)值,則它們之間的距離為:當(dāng),絕對(duì)距離,當(dāng),歐氏距離,當(dāng),切比雪夫距離,記住,切比雪夫距離證明,Q型聚類統(tǒng)計(jì)距離,棋盤上兩個(gè)位置之間的切比雪夫距離。由于王粲過去在斜前方或斜后方移動(dòng)一個(gè)網(wǎng)格,他可以更有效地到達(dá)目的地網(wǎng)格
3、。上圖顯示了切比雪夫從棋盤上所有位置到f6的距離。統(tǒng)計(jì)距離和明斯特距離在Q型聚類中有兩個(gè)缺點(diǎn):明斯特距離的值與每個(gè)指標(biāo)的維數(shù)有關(guān),明斯特距離的定義沒有考慮每個(gè)變量的相關(guān)性和重要性。明的距離平等地對(duì)待所有變量,并且簡(jiǎn)單地合成每個(gè)變量上兩個(gè)樣本的離差。朗距離、馬哈拉諾比斯距離、Q型聚類統(tǒng)計(jì)距離,是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯定義的一種距離,其計(jì)算公式為:分別表示第ith樣本和第jth樣本的P指數(shù)觀測(cè)值組成的列向量,即樣本數(shù)據(jù)矩陣中第ith和第jth行向量的換位,表示觀測(cè)變量之間的短協(xié)方差矩陣。在實(shí)踐中,如果總體協(xié)方差矩陣未知,則樣本協(xié)方差矩陣可以用作估計(jì)值而不是計(jì)算值。R型聚類統(tǒng)計(jì)相似系數(shù),相似系
4、數(shù),設(shè)和為第一個(gè)和第二個(gè)樣本的觀測(cè)值,則它們之間的相似度為33,360。r型聚類統(tǒng)計(jì)包括夾角余弦,夾角余弦,夾角余弦是一個(gè)相似系數(shù),它從向量集的角度度量變量之間的貼近度。向量位于N維空間,問題,歐氏距離和余弦相似性之間的差異,以及問題,這些都適用于不同的數(shù)據(jù)分析模型,歐氏距離能夠反映個(gè)體數(shù)值特征的絕對(duì)差異,因此它更適用于需要從數(shù)值大小上反映維度差異的分析。例如,使用用戶行為指標(biāo)來分析用戶值相似性或差異余弦相似性更能從方向上區(qū)分差異,但對(duì)絕對(duì)值不敏感。它更多的是利用用戶的內(nèi)容分?jǐn)?shù)來區(qū)分用戶興趣的相似性和差異性,同時(shí),它糾正了用戶之間度量標(biāo)準(zhǔn)可能不一致的問題(因?yàn)橛嘞蚁嗨菩詫?duì)絕對(duì)值不敏感),以及Q
5、型聚類和R型聚類的區(qū)別當(dāng)存在許多具有強(qiáng)相關(guān)性的變量時(shí),使用這種聚類。目的是將性質(zhì)相似的變量聚類到同一個(gè)類中,找出有代表性的變量,從而減少變量的數(shù)量,達(dá)到降維的效果。系統(tǒng)聚類:從一個(gè)點(diǎn)作為一個(gè)單獨(dú)的聚類開始,每一步合并兩個(gè)最近的聚類。這需要定義集群的鄰近性(類之間的距離)的概念。分割:從包含所有點(diǎn)的簇開始,每個(gè)步驟分割一個(gè)簇,直到剩下一個(gè)單點(diǎn)簇。在這種情況下,我們需要確定我在每個(gè)步驟中拆分了哪個(gè)集群,以及如何拆分它。系統(tǒng)聚類法,最短距離法,設(shè)置兩個(gè)類,分別包含n1和n2個(gè)樣本點(diǎn),系統(tǒng)聚類法,如果某一步聚類將被合并到一個(gè)新的類中,即新類與其他類之間距離的遞推公式為,系統(tǒng)聚類法,最長(zhǎng)距離法,設(shè)置兩個(gè)
6、類,分別包含n1和n2個(gè)樣本點(diǎn),系統(tǒng)聚類法, 如果將某一步聚類合并成一個(gè)新類,即新類與其他類之間距離的遞推公式是:系統(tǒng)聚類法,重心法,重心距離:兩類的中心分別是,那么,系統(tǒng)聚類法,類平均法,遞推公式:推導(dǎo):系統(tǒng)聚類法,離差平方和,假設(shè)N個(gè)樣本分為K類,G1,G2,Gk,Xit是Gt中的第一個(gè)樣本,nt是Gt中的樣本數(shù), 系統(tǒng)聚類法,遞歸公式,以及由上述各種類間距離定義的遞歸公式可以統(tǒng)一為以下公式:系統(tǒng)聚類,書:175頁的例子,確定系統(tǒng)聚類類的數(shù)量,給定閾值:通過觀察聚類圖給出合適的閾值T。要求類之間的距離不應(yīng)超過t值。例如,假設(shè)T=0.3,當(dāng)聚類時(shí),類之間的距離已經(jīng)超過0.3,則聚類結(jié)束。系統(tǒng)
7、聚類半偏相關(guān),半偏相關(guān)統(tǒng)計(jì),其中t是數(shù)據(jù)總偏差的平方和,也是組內(nèi)偏差的平方和。相對(duì)較大,表明當(dāng)一個(gè)類被劃分為g類時(shí),該類內(nèi)的偏差平方和相對(duì)較小,也就是說,劃分為g類是合適的。然而,分類越多,每個(gè)類別內(nèi)的偏差平方和越小越大。因此,我們只能取適當(dāng)?shù)腉來使它足夠大,而G本身是很小的,并且隨著G的增加,這種增加并不大。例如,如果它被分成4類,=0.8;當(dāng)下一次合并被分成三類時(shí),它下降很多,=0.32,所以分成四類是合適的。系統(tǒng)聚類半偏相關(guān)、系統(tǒng)聚類偽f統(tǒng)計(jì)、偽f統(tǒng)計(jì)和偽f統(tǒng)計(jì)被用來評(píng)估聚類到G類的效果。如果聚類效果好,類間離差平方和大于類內(nèi)離差平方和,因此應(yīng)采用偽F統(tǒng)計(jì)量較大、類數(shù)較少的聚類級(jí)別。其中
8、t是數(shù)據(jù)的總偏差平方和、類內(nèi)偏差平方和以及系統(tǒng)聚類的偽f統(tǒng)計(jì)量。偽統(tǒng)計(jì)量被定義為類內(nèi)偏差平方和,它是將k和l合并成第m類偏差平方和=-,所導(dǎo)致的類內(nèi)偏差平方和的增量。用它來評(píng)價(jià)合并K類和L類的效果,偽統(tǒng)計(jì)表明這兩個(gè)類不應(yīng)該合并,而應(yīng)該取合并前的水平。系統(tǒng)聚類偽統(tǒng)計(jì)量、系統(tǒng)聚類CCC統(tǒng)計(jì)量、三次聚類準(zhǔn)則,其中v是方差穩(wěn)定化變換,一般取為,一般通過維數(shù)空間的均勻分布得到。通常,選擇對(duì)應(yīng)于之后的第一個(gè)局部最大點(diǎn)的分類編號(hào)。系統(tǒng)聚類的CCC統(tǒng)計(jì)量,以及系統(tǒng)聚類方法的基本性質(zhì)。在聚類分析過程中,聚類距離為l k(k分別=1、2、3)。如果滿足,則聚類方法是單調(diào)的。除了重心法和中間距離法,所有其他系統(tǒng)聚類
9、方法都滿足單調(diào)性條件。單調(diào)性,系統(tǒng)聚類方法的基本性質(zhì),空間豐富性和多樣性d(短)d(平),d(重)d(平);d(長(zhǎng))d(平);方法比較,類平均法適中,系統(tǒng)聚類有限。一旦樣本被分配到某個(gè)類別,它們就不會(huì)改變。這就要求分類方法要準(zhǔn)確。當(dāng)樣本數(shù)n較大時(shí),系統(tǒng)聚類方法的計(jì)算量很大,不便于應(yīng)用。動(dòng)態(tài)聚類解決的問題是:如果有一個(gè)樣本點(diǎn),就要把它們分成類,這樣每個(gè)類中的元素就聚集在一起,類之間就可以很好的區(qū)分。動(dòng)態(tài)聚類用于大數(shù)據(jù)。動(dòng)態(tài)聚類步驟,動(dòng)態(tài)聚類凝聚點(diǎn)選擇,經(jīng)驗(yàn)選擇,如果你對(duì)問題有一定的了解,你可以對(duì)所有樣本進(jìn)行粗略分類,在每一類中選擇一個(gè)有代表性的樣本作為聚類點(diǎn),將所有樣本隨機(jī)分成K類,計(jì)算每一類的
10、均值,將這些均值作為凝聚點(diǎn)并采用最大和最小的原則,假設(shè)樣本最終被分成K類, 首先選擇距離所有樣本最遠(yuǎn)的兩個(gè)樣本作為凝聚點(diǎn),即選擇、制作、動(dòng)態(tài)聚類K-均值聚類、動(dòng)態(tài)聚類K-均值聚類不足、凝聚點(diǎn)選擇不當(dāng)、動(dòng)態(tài)聚類K-均值聚類不足、不同聚類、動(dòng)態(tài)聚類K-均值聚類不足、離群點(diǎn)、其他分區(qū)聚類算法、其他基于密度的聚類算法、其他層次聚類算法、其他基于網(wǎng)格的聚類算法、基于統(tǒng)計(jì)的聚類算法:r軟件和聚類分析。 在r軟件中,dist()函數(shù)給出各種距離的計(jì)算結(jié)果,它的使用格式是x是由樣本(樣本按行輸入)或數(shù)據(jù)幀組成的數(shù)據(jù)矩陣。方法表示計(jì)算距離的方法,缺省值為歐幾里德距離,距離,-恩克萊登,-最大,-曼哈頓,-堪培拉,-閔可夫斯基,例1,例2,測(cè)量了305名女中學(xué)生的8個(gè)體型指標(biāo),相應(yīng)的相關(guān)矩陣如下表所示,相關(guān)系數(shù)視為相似系數(shù)。系統(tǒng)分析采用最大距離法,距離定義為:d=1-r。例3采用K均值法(kmeans()函數(shù))對(duì)31個(gè)消費(fèi)水平進(jìn)行聚類,參考文獻(xiàn),1吳米西亞,劉春玲。多元統(tǒng)計(jì)分析。北京
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小區(qū)設(shè)備供應(yīng)管理辦法
- 腸梗阻說課課件
- 豐縣教招數(shù)學(xué)試卷
- 二上西師數(shù)學(xué)試卷
- 建筑領(lǐng)域培訓(xùn)課件
- 高二懷化市統(tǒng)考數(shù)學(xué)試卷
- 肝中醫(yī)講解課件
- 福建小學(xué)畢業(yè)班數(shù)學(xué)試卷
- 肉癭的護(hù)理課件
- 肝病的診斷和治療技術(shù)進(jìn)展
- 2025年廣東省中考英語試題卷(含答案解析)
- 2025年吉林省中考物理試卷真題及答案詳解(精校打印版)
- 江蘇省南京市六校聯(lián)合體2024-2025學(xué)年高一下學(xué)期期末調(diào)研測(cè)試歷史試題(含答案)
- 標(biāo)準(zhǔn)的編寫講課件
- 學(xué)堂在線 護(hù)理研究方法 期末考試答案
- 2025年湖南省中考英語試卷真題(含答案解析)
- 2025年法律職業(yè)資格考試民法專項(xiàng)練習(xí)卷:合同法真題解析及試題
- 2025年天津市中考英語真題試卷及答案
- 鄉(xiāng)鎮(zhèn)會(huì)議制度管理制度
- 玻尿酸介紹課件
- 2024年個(gè)人信用報(bào)告(個(gè)人簡(jiǎn)版)樣本(帶水印-可編輯)
評(píng)論
0/150
提交評(píng)論