版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
pppp§
消費(fèi)分布規(guī)律的分類為研究遼寧、浙江、河南、甘肅、青海5省份在某年城鎮(zhèn)居民生活消費(fèi)的分布律,需要用調(diào)查資料對這個省分類數(shù)見下表:指標(biāo)省份
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8遼寧浙江河南甘肅青海
39.7712.9411.052.0450.3719.252.7527.9316.179.429.7627.9815.999.1028.6416.1810.81其中,X:均糧食支出;X:均副食品支出;12X:均煙、酒、茶支出;X:均其它副食品支出;34X:均衣著商品支出;X:均日用品支出;56X:均燃料支出;X:均非商品支78在科學(xué)研究、生產(chǎn)實(shí)踐、社會生活中,經(jīng)常會遇到分類的問如,在考古學(xué)中,要將某些古生物化石進(jìn)行科學(xué)的分類;在生物學(xué)中,要根據(jù)各生物體的綜合特征進(jìn)行分類;在經(jīng)濟(jì)學(xué)中要考慮哪些經(jīng)濟(jì)指標(biāo)反映的是同一種經(jīng)濟(jì)特征;在產(chǎn)品質(zhì)量管理中,要根據(jù)各產(chǎn)品的某些重要標(biāo)而將其分為一等品,二等品等.這些問題可以用聚類分析方法來解.聚類分析的研究內(nèi)容包括兩個方面,一是對樣品進(jìn)行分類,稱型類,用的統(tǒng)計量是樣間距;二是變量進(jìn)行分類,稱為R型聚法使用的統(tǒng)計量是變間相系設(shè)共有n個樣品,每個樣品x有個量,它們的觀測值可表示為ix
i
x,ii
,x),i
1,2,
,n一、樣品間的距離下面介紹在聚類分析中常用的幾種定義樣品x與品x間距離.ij、Minkowski距
d(x,xxij
ki
kj
]
1k、絕對值距離
pd,x)ij
、歐氏距離
d(xxij
ki
kj
2
]
12k二、變量間的相似系數(shù)相似系數(shù)越接近,明變量間的關(guān)聯(lián)程度越常用的變量間的相似系數(shù)有、夾余弦/
ijijrij
()ik
xxikjk)jk
、相系數(shù)rij
)()ik(i)jk(j)()2)ik(i)jk(j)
值得注意的是,當(dāng)指標(biāo)的測量值相差較大時,直接使用以上各式計算距離或相似系數(shù)常使數(shù)值較小的變量失去作用為需先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化然再用標(biāo)準(zhǔn)化的數(shù)據(jù)來計.標(biāo)準(zhǔn)化的具體方法是:*ki
kis
i
,,k
p其中
1nnx,(nnii
k
1,2,
,p三、類與類之間的距離用
G
p
和
q
分別代表兩個類,它們所包含的樣品個數(shù)分別記為
n
p
和
n
q
,類
G
p
和
q
之間的距離記為
D(G)pq
下給出三種最常用的定方.、最短距離
()min(pq
ij
xG)ipj類與類之間的最短距離有如下的遞推公式,設(shè)
r
為由
G
p
和
q
合并所得,則
r
與其它類G(p)k
的最短距離為D(){D(),GG)}rpkqk、最長距離
()(dpq
ij
xxG)ijq類與類之間的最長距離有如下的遞推公式,設(shè)為和G合并所得,則與它類rpqrG(p)k
的最長距離為D(G)max{D(,GD(G)}rkpkqk、類平均距離
D(q
xx
ij/
D012.803.510類與類之間的類平均距離有如下的遞推公式,
r
為由
G
p
和
q
合并所得,則
r
與其它類G(p)k
的類平均距離D()r
r
D()k
r
D()k
,其中
nr
q
以上類與類之間的距離,不但適用于型聚類,同樣也適合于型聚類,這只要將
d
ij
用變量間的相似系數(shù)r代就行了.簡單起見以下均記成dijij系統(tǒng)聚類法是目前最流行的方.有了樣品間的距離(或變量間的相似系數(shù))以及類與類之間的距離后,便可進(jìn)行系統(tǒng)聚類,基本步驟如下:、n個品(或個量)一開始看作類p類算兩之間的距離(或相似系數(shù)成一個對稱矩陣D,時顯然有(,G);0ijpq、選擇中角元素以外的下三角部分中的最小元素(相似系數(shù)矩陣則選擇對角線元素以外0的最大者為
D(G)pq
則
G
p
和
q
合并為一個新類
r
在
0
中劃去
G
p
和
q
所對應(yīng)的兩行與兩列,并加入由新類
G
r
與剩下的未聚合的各類之間的距離所組成的一行和一列,得到一個新的矩陣
D
,它是降低了一階的對稱矩陣;、由D出,重復(fù)驟2得到對稱矩陣,此類推,直n個品(或個量)聚為一2個大類為止;、在合并過程中記下兩類合并時樣品(或變量)的編號以及合并兩類時的距離(或似系數(shù))的大小,并繪成聚類圖,然后可根據(jù)實(shí)際問題的背景和要求選定相應(yīng)的臨界水平以確定類的個.上面是一個Q型類題,現(xiàn)在用系統(tǒng)聚類法來解.將每個省份看成一個樣品,并以,2,,5分表示遼寧、浙江、河南、甘肅、青海5省計算樣品間的歐氏距離,得到如下的距離矩陣0{1}{2}{3}{4}{5}02.20下面給出采用最短距離法的聚類過程:首先將個省各看成一類,即令
Gi},(ii
從D可以看出其中最小的元素是0
({4},{3})d
43
2.20
故將G和合成一類G然346/
11.6711.67011.670后利用遞推公式計算
G
6
與
,
,
G5
之間的最短距離.在
0
min{,d}min{13.80,13.12)3141minfswh7pkmin{24.63,24.06)24.0632({3,4},{5})min{d,}min{3.51,2.21)35中劃去{3},{4}對應(yīng)的行和,并加上新類{到其它類距離作為新的一行一,得到{3,4}{1}{2}{5}重復(fù)上面的步驟,依次可得到相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣州衛(wèi)生職業(yè)技術(shù)學(xué)院《食用菌栽培技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025湖南省安全員-C證考試題庫
- 2025山東省安全員B證考試題庫附答案
- 2025年湖北省建筑安全員知識題庫
- 【語文課件】《我的信念》課件
- 《壺口瀑布》課件
- 單位管理制度展示選集【人員管理篇】
- 單位管理制度展示合集【職員管理】十篇
- 電力天然氣周報:多省2025年長協(xié)電價落地11月我國天然氣表觀消費(fèi)量同比下降0.3
- 2024年上海市縣鄉(xiāng)教師選調(diào)考試《教育學(xué)》真題匯編帶解析含完整答案(各地真題)
- 2024年國家公務(wù)員考試公共法律知識考試題庫及答案(共530題)
- 2024年秋一年級上冊4日月山川 公開課一等獎創(chuàng)新教學(xué)設(shè)計
- 人教版英語2024年初中中考考綱單詞表(整合版)
- 《安全記心中平安伴我行》課件2024年五一假期安全教育主題班會
- 形象權(quán)授權(quán)協(xié)議
- 高中數(shù)學(xué)人教A版(2019)必修第一冊第二冊知識點(diǎn)概要填空
- 2023-2024學(xué)年山東省聊城市陽谷縣八年級(上)期末英語試卷
- 2024-2030全球與中國吹灌封一體化產(chǎn)品市場現(xiàn)狀及未來發(fā)展趨勢
- 2024年保安員考試題庫及參考答案(鞏固)
- 安全隱患規(guī)范依據(jù)查詢手冊22大類12萬字
- 大中小學(xué)心理健康教育一體化共同體建設(shè)研究課題評審書
評論
0/150
提交評論