計(jì)算機(jī)地質(zhì)學(xué)7.聚類分析-數(shù)學(xué)定量分類思想_第1頁(yè)
計(jì)算機(jī)地質(zhì)學(xué)7.聚類分析-數(shù)學(xué)定量分類思想_第2頁(yè)
計(jì)算機(jī)地質(zhì)學(xué)7.聚類分析-數(shù)學(xué)定量分類思想_第3頁(yè)
計(jì)算機(jī)地質(zhì)學(xué)7.聚類分析-數(shù)學(xué)定量分類思想_第4頁(yè)
計(jì)算機(jī)地質(zhì)學(xué)7.聚類分析-數(shù)學(xué)定量分類思想_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聚類分析 Cluster Analysis,本章學(xué)習(xí)目標(biāo),掌握地球科學(xué)中大量觀測(cè)數(shù)據(jù)的樣品或變量的數(shù)學(xué)定量分類思想; 學(xué)會(huì)樣品或變量數(shù)據(jù)變換和分類標(biāo)準(zhǔn)的數(shù)學(xué)表示; 數(shù)據(jù)的聚類:譜系圖制作及其地質(zhì)意義;,學(xué)習(xí)重點(diǎn)、難點(diǎn),重點(diǎn) 不同應(yīng)用目的聚類分析技術(shù)的正確選取和聚類分析矩陣的求法以及譜系圖的地質(zhì)意義 難點(diǎn) 實(shí)際觀測(cè)數(shù)據(jù)的聚類分析矩陣的構(gòu)建和程序開(kāi)發(fā),深入理解譜系圖的地質(zhì)意義,問(wèn)題的提出,地球科學(xué)涉及眾多的分類問(wèn)題,如地質(zhì)學(xué)研究中巖石的分類、礦物礦床的分類、古生物的分類。油氣勘探、開(kāi)發(fā)過(guò)程中,石油成因研究、油藏類型研究、地化資料等的分類與分級(jí)。針對(duì)上述問(wèn)題,怎樣進(jìn)行科學(xué)分類,分類結(jié)果有何啟示?,表

2、1-1,表1-2,第一節(jié) 聚類分析的思想,假設(shè)所研究的對(duì)象中的元素,存在著不同 程度的相似性(親疏關(guān)系)根據(jù)其各觀測(cè)指。 標(biāo),找出一些能夠度量樣品之間相似程度的統(tǒng) 計(jì)量,據(jù)此,把一些相似程度大的樣品聚為一 類,即關(guān)系密切的聚合到一個(gè)小的分類單位, 疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到把所有 樣品都聚合完畢,形成一個(gè)由小到大的分類系 統(tǒng),最后把分類系統(tǒng)直觀地用圖形表示出來(lái)。,聚類分析的依據(jù)及分類,聚類分析是根據(jù)樣本或變量之間的相似性(親疏關(guān)系),根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo)(變量)具體找出一些能夠度量樣本或觀測(cè)指標(biāo)(變量)之間相似程度的統(tǒng)計(jì)量相似系數(shù)、距離系數(shù)、相關(guān)系數(shù),以這些統(tǒng)計(jì)量作為劃分類型的依

3、據(jù) 聚類分析根據(jù)研究對(duì)象和研究方法的不同可分為兩類:,1.對(duì)象分類 根據(jù)分類對(duì)象的不同,聚類分析分為二種,一種是對(duì)指標(biāo)(即變量)進(jìn)行分類,叫做 R 型聚類分析,另一種是對(duì)樣品進(jìn)行分類,叫做 Q 型聚類分析。 2.方法分類 從聚類所采用的方法上看,又有聚合法、分裂法、圖論法等。,第二節(jié) 原始數(shù)據(jù)的處理,處理的目的: 消除變量之間單位、數(shù)量級(jí)的影響 使各個(gè)變量具有相等的權(quán)(一視同仁),處理的方法,一標(biāo)準(zhǔn)化變換 二規(guī)格化(或正規(guī)化、極差變換)變換 三其他規(guī)格化方法 (一)極大值規(guī)格化 (二)均值規(guī)格化 (三)標(biāo)準(zhǔn)差規(guī)格化,第三節(jié) 聚類分析中的統(tǒng)計(jì)量,假設(shè)有N個(gè)樣品,每個(gè)樣品測(cè)得m項(xiàng)指標(biāo)(變量),于是

4、我們把每個(gè)樣品看成m維空間中的一個(gè)向量(點(diǎn));Xi=(Xi1,Xi2,Xim)/ (i=1,2,m) 這樣,N個(gè)樣品可以排成一個(gè)矩陣,即 X1 X11 X12 X1m X2 X21 X22 X2m . . X = . = . . . XN XN1 XN2 XNm,其中,XIJ(i=1,2,N;j=1,2,m)為第i個(gè)樣品第j個(gè)指標(biāo)的觀測(cè)數(shù)據(jù)。X即為原始資料矩陣,第i個(gè)樣品Xi為矩陣X的第i行所描述,第j個(gè)變量Xj為矩陣的第j列所描述。 任意兩個(gè)樣品Xi與Xk之間的相似性可以通過(guò)矩陣X中的第i行與第k行的相似程度來(lái)刻劃;任意兩個(gè)變量Xj與Xk之間的相似性可以通過(guò)矩陣X中的第j列與第k列的相似程度

5、來(lái)刻劃。 分類統(tǒng)計(jì)量的定義: 能夠表示樣品(或變量)間相似(或相關(guān))程度的數(shù)量指標(biāo),這些數(shù)量指標(biāo)叫分類統(tǒng)計(jì)量。 分類統(tǒng)計(jì)量的分類: 一.距離系數(shù) 二.相似系數(shù)夾角的余弦 三.相關(guān)系數(shù),一.距離系數(shù),如果把N個(gè)樣品看作是m X2 維空間中的N個(gè)點(diǎn),則任意 Xj(X1J,X2J) 兩個(gè)樣品之間的相似程度可 用m維空間中的兩點(diǎn)間的距離 XK(X1K,X2K) 來(lái)度量。 先看平面上兩點(diǎn)Xj,Xk 間的距離。 0 X1,當(dāng)變量標(biāo)準(zhǔn)化后,0djk1。 djk越小表示第j個(gè)樣品與 第k個(gè)樣品就越相似或關(guān)系密切;反之,相似性就越小。 d11 d12 d1N d21 d22 d2N D= . dN1 dN2 d

6、NN 其中,d11=d22=dNN=0,注意:,1.距離系數(shù)是建立在歐氏空間基礎(chǔ)上的。因此,若各變量之間都不相關(guān),距離系數(shù)才能反映樣品間的關(guān)系。 2.若變量間有某種相關(guān)性,此時(shí)距離系數(shù)就不能準(zhǔn)確地反映樣本之間的關(guān)系。解決辦法: (1)先通過(guò)因子(主成分)分析,把變量先變換為互不相關(guān)的新變量; (2)利用斜交距離計(jì)算距離系數(shù),其公式為:,二.相似系數(shù)夾角的余弦,相似系數(shù)是描述樣品之間相似程度的一種度量。 方法:把任意兩個(gè)樣品xj與xk看成是m維空間的兩個(gè)向量,這兩個(gè)向量的夾角的余弦(相似系數(shù))用cos jk 來(lái)表示,即 Xj=(x1j,x2j,,xmj)/ xk=(x1k,x2k,xmk)/,三

7、.相關(guān)系數(shù),對(duì)于任意兩個(gè)變量xi與xj之間的親疏程度可用相關(guān)系數(shù)rij來(lái)表示:,第四節(jié) 聚類方法和步驟,一.聚類的原則 在已計(jì)算出相似性矩陣后,可以它為依據(jù),對(duì)樣品(或指標(biāo))進(jìn)行聚合歸類,最后形成譜系圖。其集合歸類一般應(yīng)遵從下面四條原則: (1)若選出一對(duì)樣品在已經(jīng)分好的組中都未出現(xiàn)過(guò),則把它們形成一個(gè)獨(dú)立的新組; (2)若選出兩個(gè)樣品中,有一個(gè)是在已經(jīng)分好的組中出現(xiàn)過(guò),則把另一個(gè)樣品也加入到該組中; (3)若選出一對(duì)樣品,都分別出現(xiàn)在已經(jīng)分好的兩組中,則把這兩個(gè)組聯(lián)結(jié)在一起; (4)若選出的一對(duì)樣品都出現(xiàn)在同一組中,則這對(duì)樣品就不用再分組了。 按上述四條原則反復(fù)進(jìn)行,直到把所有樣品都分類聚合

8、完畢為止。,二.聚類的方法,(一)一次計(jì)算聯(lián)結(jié)法 例:對(duì)某地超基性巖的一批樣品,經(jīng)光譜分析得與礦化有關(guān)的某些元素(指標(biāo)),其資料數(shù)據(jù)如下表,試用R-型聚類分析研究各指標(biāo)間的相關(guān)關(guān)系。,1 2 3 4 5 6 Ni Co Cu Cr S As 1Ni 1 2Co 0.8462 1 (2) 3Cu 0.7579 0.9802 1 (1) R= 4Cr 0.6431 0.2419 0.1811 1 (4) 5S 0.5039 0.7370 0.7210 -0.3075 1 6As 0.5603 0.4241 0.3930 0.1998 0.6802 1 (3),(3)在R的非對(duì)角線元素中,相關(guān)系數(shù)最

9、大的是r32=0.9802,于是將第2、第3兩元素即Co、Cu連結(jié),劃去R中的第三行、第三列;在剩下的相關(guān)系數(shù)中最大的是r21=0.8462,z這時(shí)將第1元素Ni與已連結(jié)成組的(Co、Cu)連結(jié),劃去第二行、第二列;接著最大的是r65=0.6802,就把第5、6元素即S與As連結(jié),劃去第六行、第六列;緊接著最大的是r41=0.6431,而第1元素已經(jīng)同第2、3元素連結(jié)成組,于是把這組與第4元素連結(jié),劃去第四行、第四列;最后剩下r51=0.5039,這時(shí)就把(S、As)組與(Ni,Co,Cu,Cr)組連結(jié)。,一次計(jì)算連結(jié)法比較簡(jiǎn)便,只要計(jì)算出相關(guān)矩陣后,一次就可形成譜系圖,顯示出變量的聚合情況。

10、但是,一次形成可能把不相關(guān)的變量都放到同一群里,以后也就不能剔除。 Cr因?yàn)榕cNi的關(guān)系而被聚集在Co、Cu這一群里,但事實(shí)并非如此,比較準(zhǔn)確的劃分常采用下面的逐步聚類法。,二.逐步聚類法,(一)步驟 現(xiàn)以計(jì)算相似系數(shù)的Q型分析為例,說(shuō)明實(shí)施步驟: 1.計(jì)算N個(gè)樣品的相似系數(shù)矩陣,共計(jì)算N(N1)/2個(gè)數(shù)值,挑出相似系數(shù)最大的一對(duì)樣品; 2.把挑出的成對(duì)樣品(或樣品組)的相應(yīng)變量加權(quán)平均,形成一個(gè)新樣品的數(shù)據(jù)。由單個(gè)樣品組成的成對(duì)樣品,求各樣品的算術(shù)平均值,由樣品組構(gòu)成的成對(duì)樣品,求各變量的加權(quán)平均值,樣品組中的樣品數(shù)為權(quán)數(shù); 3.把挑出的樣品對(duì) 或樣品組的代表性樣品的數(shù)據(jù)全部刪除,把新樣品的

11、數(shù)據(jù)放在序號(hào)最小的樣品數(shù)據(jù)位置上,重新計(jì)算新樣品與剩余樣品的相似系數(shù),再?gòu)闹刑舫鱿嗨葡禂?shù)最大的樣品對(duì)或樣品組,重復(fù)2、3兩個(gè)步驟,共作N1次,直到把所有的樣品都?xì)w類完畢為止。,(二)實(shí)例,例:以探討冀北坳陷東部震旦亞界原生油苗、煤和生油巖之間的關(guān)系為例,選取了9塊樣品,以紅外吸收光譜圖芳烴組分譜圖上的6個(gè)變量,介紹Q型聚類分析的具體內(nèi)容。原始數(shù)據(jù)如下表:,原始數(shù)據(jù)正規(guī)化后得:,解:1.根據(jù)上表計(jì)算距離系數(shù)矩陣,0.000 0.119 0.000 0.807 0.813 0.000 0.768 0.764 0.411 0.000 D= 0.775 0.783 0.065 0.425 0.000

12、0.810 0.806 0.543 0.146 0.562 0.000 0.649 0.670 0.203 0.351 0.174 0.476 0.000 0.699 0.699 0.267 0.260 0.295 0.357 0.257 0.000 0.827 0.824 0.351 0.146 0.386 0.225 0.350 0.191 0.000,2.在D陣中非對(duì)角線元素中選出最小值d5、3=0.065,聯(lián)結(jié)樣品號(hào)為3、5,保留小序號(hào)3,去掉大序號(hào)5,將D陣中的第5行、第5 列劃去。把3 號(hào)與5 號(hào)樣品正規(guī)化后的數(shù)據(jù)合并,合并的方法是取各變量的平均值作為3、5號(hào)樣品的變量值(0.01

13、95,0.0197,0.0357,0.6373,0.9885,0.0843)重新計(jì)算組合樣品與其它樣品間的距離系數(shù),用以替換D陣中的第3行、第3列元素,得新的距離系數(shù)矩陣D1,即:,0.000 0.119 0.000 0.791 0.797 0.000 0.768 0.764 0.417 0.000 D1= 0.810 0.806 0.552 0.146 0.000 0.649 0.670 0.186 0.351 0.476 0.000 0.699 0.699 0.279 0.260 0.357 0.257 0.000 0.827 0.824 0.367 0.146 0.225 0.350 0

14、.191 0.000,3.在D1陣非對(duì)角線元素中選出最小值d2、1=0.119,聯(lián)結(jié)樣品號(hào)為1、2,保留小序號(hào)1,去掉大序號(hào)2,在D1陣中劃去第2行、第2 列,合并1、2號(hào)樣品正規(guī)化后的數(shù)據(jù),(0.8766,0.9678,0.9708,0.049,0.0385,0.0169),重新計(jì)算與其它樣品的距離系數(shù),用以替換D1陣中的第1、第1 列的元素,得D2陣,即:,0.000 0.792 0.000 0.764 0.417 0.000 D2= 0.806 0.552 0.146 0.000 0.657 0.186 0.351 0.476 0.000 0.697 0.279 0.260 0.357

15、0.257 0.000 0.823 0.367 0.146 0.325 0.350 0.191 0.000,4.在D2陣中選出最小值d9、4=0.146,按上述過(guò)程在D2陣中劃去第9行、第9列(合并后數(shù)據(jù)為0.0195,0.0502,0.1169,0.8922,0.4154,0.7865),并以重新計(jì)算的距離系數(shù)取代原矩陣中的第4行、第4 列元素,得D3陣,即:,0.000 0.792 0.000 0.791 0.386 0.000 D3 = 0.806 0.552 0.175 0.000 0.657 0.186 0.343 0.476 0.000 0.697 0.279 0.216 0.35

16、7 0.257 0.000,5.重復(fù)上述過(guò)程。但應(yīng)指出的是djk的最小值是0.175,即聯(lián)結(jié)的樣品號(hào)為6與4、9號(hào),由于4 號(hào)與9號(hào)樣品已經(jīng)合并,所以在求6 號(hào)與4、9號(hào)合并的各變量時(shí),應(yīng)按,0.000 (2) 0.792 0.000 0.791 0.441 0.000 D4= (1) (4) 0.657 0.186 0.384 0.000 0.697 0.279 0.258 0.257 0.000 (3),6.D4陣中的聯(lián)結(jié)樣品號(hào)為3、5號(hào)與7號(hào),d7;3,5=0.186。重復(fù)上述過(guò)程得:,0.000 (2) 0.744 0.000 D5= 0.791 0.413 0.000 (1)(4)

17、(5) 0.697 0.257 0.258 0.000 (3),7.D5陣中最小的為d8;3,5,7=0.257,經(jīng)變換后的矩陣為:,0.000 (2) 0.724 0.000 D6= 0.791 0.364 0.000 (1) (4) (5) (6) (3),8.D6中最小的d4,9,6;3,5,7,8=0.364,最后一個(gè)矩陣為D7中除只保留1、2號(hào)與3、5、7、8、4、9、6號(hào)兩組樣品的距離系數(shù)0.732外,其它均被劃掉,故不列出。,到此為止,已按距離系數(shù)由小到大的順序進(jìn)行了逐步聚類,樣品間關(guān)系的親疏程度見(jiàn)下表:,9.最后以距離系數(shù)為橫坐標(biāo),按上表作出了9 個(gè)樣品的Q型聚類分析譜系圖如下

18、:,0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 距離系數(shù) 1 (1) 2 3 5 7 8 (2) 4 9 6,若以d=0.6為標(biāo)準(zhǔn),則所有樣品分為兩群:,第一群:由1、2號(hào)樣品組成,即是上石炭統(tǒng)太原組的煤和碳質(zhì)頁(yè)巖分為一類。 第二群:為與油氣有關(guān)的油苗和油源巖。第二群又可以分為兩個(gè)較小的類別,一類是4、9、6號(hào)樣品,另一類是3、5、7、8號(hào)樣品。前者表明震旦亞界鐵嶺組和下馬嶺組的油苗都可能來(lái)自下馬嶺組的黑色灰?guī)r;后者說(shuō)明下寒武統(tǒng)府君山組和震旦亞界霧迷山組的油苗,都可能來(lái)自下馬嶺組的黑色頁(yè)巖,甚至鐵嶺組的油苗(8號(hào)樣)也來(lái)自下馬嶺組。 總之,從聚類分析譜系圖看,成煤成油環(huán)

19、境有很大差異,而各時(shí)代的油苗可能有相近的生油層。,為了便于比較,還用相似系數(shù)對(duì)同樣數(shù)據(jù)做了逐步Q型聚類分析,其譜系圖如下圖所示。與用距離系數(shù)的聚類結(jié)果基本一致。,1.0 0.8 0.6 0.4 0.2 相似系數(shù) 1 2 (1) 3 5 7 (2) 4 6 9 8,第五節(jié) 聚類分析在儲(chǔ)層分類和估算油氣儲(chǔ)量上的應(yīng)用,一.利用聚類分析研究?jī)?chǔ)層分類 例:探討華北某地震旦系霧迷山組中的儲(chǔ)層分類,并剖析孔隙結(jié)構(gòu)等18個(gè)參數(shù)之間的相關(guān)關(guān)系,對(duì)同樣的樣品作了R型和Q型聚類分析。分析結(jié)果及譜系圖如下:,華北某地霧迷山組儲(chǔ)層孔隙結(jié)構(gòu)等18個(gè)參數(shù)的 R型聚類分析譜系圖 (孔隙單位為m),1.0 0.3 0 -1.0

20、相關(guān)系數(shù) 常大 煤油法孔隙度 規(guī)喉 觀測(cè)孔隙度 物道 0.75孔隙% 性有 滲透率 k 與關(guān) 分選 sp 儲(chǔ)主 1.250.75 孔隙% 滲要 0.750.5孔隙% 1 流孔 7.51.25孔隙% 體隙 0.50.3孔隙% 1 小喉 0.30.15 孔隙% 道 0.150.03孔隙% 微細(xì) swi 喉道 sHgi 0.03孔隙% 1 6 DM 與 DM Pc50受 Pc50 細(xì)喉 0.050.03孔隙% 道制 0.0750.05孔隙% 約,根據(jù)均值DM、飽和度中值毛管壓力Pc50、滲透率K、孔隙度m和分選SP等5 個(gè)變量得到的46 個(gè)樣品的Q型聚類分析譜系圖。當(dāng)取距離系數(shù)0.25為標(biāo)準(zhǔn)時(shí),樣品

21、明顯分為三群: 第一群: 2、3、4、6、7 、10、11、12、13、15、16號(hào)共11個(gè)樣品。這些樣品全部屬于以溶蝕孔洞與構(gòu)造縫為主的好儲(chǔ)層,與地質(zhì)上定性分析(116號(hào))分類的結(jié)果一致。 第二群:20、22、23、27、28、29、30、31、32、36、37、40、41、42、45、46號(hào)共16個(gè)樣品,地質(zhì)分類1737(共21塊樣品)號(hào)樣品屬于以晶間隙為主的差儲(chǔ)層。 第三群:5、9、17、18、19、21、24、25、26、33、34、35、38、39、43、44等16 塊樣品,屬于基質(zhì)微孔為主的非儲(chǔ)層。 此外,第1、8、14三個(gè)樣品是屬于特殊類型的儲(chǔ)層,它與第一、二、三類儲(chǔ)層關(guān)系均不密切,這可能是由于儲(chǔ)層高度非均質(zhì)和取樣等原因而形成相對(duì)獨(dú)立的一類。 第二、三群有93%的樣品分類結(jié)果與地質(zhì)上的定性分析一致,但從多變量的分類上修正了7%樣品的分類,使之更符合客觀實(shí)際,這體現(xiàn)了聚類分析的重要作用。,二.估算油氣遠(yuǎn)景儲(chǔ)量,立足于整個(gè)含油氣盆地來(lái)估算油氣的遠(yuǎn)景儲(chǔ)量,往往由于含油氣盆地之間的差異較大難于對(duì)比,其效果并不理想,原因在

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論