數(shù)學(xué)建模案例分析消費(fèi)分布規(guī)律的分類概率統(tǒng)計方法建模_第1頁
數(shù)學(xué)建模案例分析消費(fèi)分布規(guī)律的分類概率統(tǒng)計方法建模_第2頁
數(shù)學(xué)建模案例分析消費(fèi)分布規(guī)律的分類概率統(tǒng)計方法建模_第3頁
數(shù)學(xué)建模案例分析消費(fèi)分布規(guī)律的分類概率統(tǒng)計方法建模_第4頁
數(shù)學(xué)建模案例分析消費(fèi)分布規(guī)律的分類概率統(tǒng)計方法建模_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

pppp§

消費(fèi)分布規(guī)律的分類為研究遼寧、浙江、河南、甘肅、青海5省份在某年城鎮(zhèn)居民生活消費(fèi)的分布律,需要用調(diào)查資料對這個省分類數(shù)見下表:指標(biāo)省份

X

1

X

2

X

3

X

4

X

5

X

6

X

7

X

8遼寧浙江河南甘肅青海

39.7712.9411.052.0450.3719.252.7527.9316.179.429.7627.9815.999.1028.6416.1810.81其中,X:均糧食支出;X:均副食品支出;12X:均煙、酒、茶支出;X:均其它副食品支出;34X:均衣著商品支出;X:均日用品支出;56X:均燃料支出;X:均非商品支78在科學(xué)研究、生產(chǎn)實(shí)踐、社會生活中,經(jīng)常會遇到分類的問如,在考古學(xué)中,要將某些古生物化石進(jìn)行科學(xué)的分類;在生物學(xué)中,要根據(jù)各生物體的綜合特征進(jìn)行分類;在經(jīng)濟(jì)學(xué)中要考慮哪些經(jīng)濟(jì)指標(biāo)反映的是同一種經(jīng)濟(jì)特征;在產(chǎn)品質(zhì)量管理中,要根據(jù)各產(chǎn)品的某些重要標(biāo)而將其分為一等品,二等品等.這些問題可以用聚類分析方法來解.聚類分析的研究內(nèi)容包括兩個方面,一是對樣品進(jìn)行分類,稱型類,用的統(tǒng)計量是樣間距;二是變量進(jìn)行分類,稱為R型聚法使用的統(tǒng)計量是變間相系設(shè)共有n個樣品,每個樣品x有個量,它們的觀測值可表示為ix

i

x,ii

,x),i

1,2,

,n一、樣品間的距離下面介紹在聚類分析中常用的幾種定義樣品x與品x間距離.ij、Minkowski距

d(x,xxij

ki

kj

]

1k、絕對值距離

pd,x)ij

、歐氏距離

d(xxij

ki

kj

2

]

12k二、變量間的相似系數(shù)相似系數(shù)越接近,明變量間的關(guān)聯(lián)程度越常用的變量間的相似系數(shù)有、夾余弦/

ijijrij

()ik

xxikjk)jk

、相系數(shù)rij

)()ik(i)jk(j)()2)ik(i)jk(j)

值得注意的是,當(dāng)指標(biāo)的測量值相差較大時,直接使用以上各式計算距離或相似系數(shù)常使數(shù)值較小的變量失去作用為需先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化然再用標(biāo)準(zhǔn)化的數(shù)據(jù)來計.標(biāo)準(zhǔn)化的具體方法是:*ki

kis

i

,,k

p其中

1nnx,(nnii

k

1,2,

,p三、類與類之間的距離用

G

p

q

分別代表兩個類,它們所包含的樣品個數(shù)分別記為

n

p

n

q

,類

G

p

q

之間的距離記為

D(G)pq

下給出三種最常用的定方.、最短距離

()min(pq

ij

xG)ipj類與類之間的最短距離有如下的遞推公式,設(shè)

r

為由

G

p

q

合并所得,則

r

與其它類G(p)k

的最短距離為D(){D(),GG)}rpkqk、最長距離

()(dpq

ij

xxG)ijq類與類之間的最長距離有如下的遞推公式,設(shè)為和G合并所得,則與它類rpqrG(p)k

的最長距離為D(G)max{D(,GD(G)}rkpkqk、類平均距離

D(q

xx

ij/

D012.803.510類與類之間的類平均距離有如下的遞推公式,

r

為由

G

p

q

合并所得,則

r

與其它類G(p)k

的類平均距離D()r

r

D()k

r

D()k

,其中

nr

q

以上類與類之間的距離,不但適用于型聚類,同樣也適合于型聚類,這只要將

d

ij

用變量間的相似系數(shù)r代就行了.簡單起見以下均記成dijij系統(tǒng)聚類法是目前最流行的方.有了樣品間的距離(或變量間的相似系數(shù))以及類與類之間的距離后,便可進(jìn)行系統(tǒng)聚類,基本步驟如下:、n個品(或個量)一開始看作類p類算兩之間的距離(或相似系數(shù)成一個對稱矩陣D,時顯然有(,G);0ijpq、選擇中角元素以外的下三角部分中的最小元素(相似系數(shù)矩陣則選擇對角線元素以外0的最大者為

D(G)pq

G

p

q

合并為一個新類

r

0

中劃去

G

p

q

所對應(yīng)的兩行與兩列,并加入由新類

G

r

與剩下的未聚合的各類之間的距離所組成的一行和一列,得到一個新的矩陣

D

,它是降低了一階的對稱矩陣;、由D出,重復(fù)驟2得到對稱矩陣,此類推,直n個品(或個量)聚為一2個大類為止;、在合并過程中記下兩類合并時樣品(或變量)的編號以及合并兩類時的距離(或似系數(shù))的大小,并繪成聚類圖,然后可根據(jù)實(shí)際問題的背景和要求選定相應(yīng)的臨界水平以確定類的個.上面是一個Q型類題,現(xiàn)在用系統(tǒng)聚類法來解.將每個省份看成一個樣品,并以,2,,5分表示遼寧、浙江、河南、甘肅、青海5省計算樣品間的歐氏距離,得到如下的距離矩陣0{1}{2}{3}{4}{5}02.20下面給出采用最短距離法的聚類過程:首先將個省各看成一類,即令

Gi},(ii

從D可以看出其中最小的元素是0

({4},{3})d

43

2.20

故將G和合成一類G然346/

11.6711.67011.670后利用遞推公式計算

G

6

,

G5

之間的最短距離.在

0

min{,d}min{13.80,13.12)3141minfswh7pkmin{24.63,24.06)24.0632({3,4},{5})min{d,}min{3.51,2.21)35中劃去{3},{4}對應(yīng)的行和,并加上新類{到其它類距離作為新的一行一,得到{3,4}{1}{2}{5}重復(fù)上面的步驟,依次可得到相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論