基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用_第1頁
基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用_第2頁
基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用_第3頁
基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用_第4頁
基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用摘要基于SPSS的聚類分析在行業(yè)統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用改革開放以來,隨著中國的經(jīng)濟(jì)高速發(fā)展,各行膈應(yīng)人都已經(jīng)有了飛躍進(jìn)步??萍荚诂F(xiàn)在的經(jīng)濟(jì)發(fā)展中起著越來越重要的作用。目前,人民已經(jīng)在總體上達(dá)到了小康水平,我國也已經(jīng)成為了世界上最有潛力的大國。中國的經(jīng)濟(jì)離不開改革開放,離不開科技的發(fā)展,離不開各行各業(yè)努力工作的人民的辛勤勞動。從十九世紀(jì)五十年代以來,中國已經(jīng)陸續(xù)的完成了是一個“五年計(jì)劃”,在這五十多年里,中國所取得的成就是全世界有目共睹的,中國的經(jīng)濟(jì)得到了非??斓脑鲩L,為國民經(jīng)濟(jì)的發(fā)展打下了非常堅(jiān)實(shí)的基礎(chǔ)。本文的研究對象是“中經(jīng)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)庫”中的行業(yè)統(tǒng)計(jì)數(shù)據(jù)

2、,數(shù)據(jù)包括含有年份的和地區(qū)的統(tǒng)計(jì)數(shù)據(jù)。本文建立的主要模型是主成分-聚類模型。該模型的主要思想是將數(shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒有先驗(yàn)知識的情況下進(jìn)行自主分類,產(chǎn)生多個分類結(jié)果。本文的研究將采用兩種方法進(jìn)行聚類分析:一種是系統(tǒng)聚類法,另一種是K-聚類法(快速聚類法)。通過這兩個模型,對各地區(qū)的的經(jīng)濟(jì)進(jìn)行劃分,能更好的了解中國的經(jīng)濟(jì)信息。關(guān)鍵詞:聚類分析;SPSS;系統(tǒng)聚類法;K-聚類法。AbstractThe Application of Clustering Analysis Based on SPSS in Industry Statistical DataSince the

3、 reform and opening up,every industry has got a leap in progress with the rapid development of Chinas rapid economic.Technology and science play an important role in economic development.People have reached a comfortable level in general,and China has become ane of the most potential countries in th

4、e world.The economy of China is inseparable from the reform of Chinas development and technology.The economy is also inseparable from all walks of life to work hard.China has successively completed some five-years plans in these fifty years since the year of 1850.Chinas achievements are obvious to a

5、ll around the world in the fifty years,and Chinas economy has grown fast,and laid a very solid foundation for the development of the national economy.The object of this paper is CEInet Statistics Database.The data contains the years and regions statistics. The main model established in this paper is

6、 the Principal Component Analysis-Clustering model.The model idea of this model is the data according to its many characteristics and the degree of closeness,in the absence of prior knowledge classification independently,produce multiple classification results.The research will use two kinds of meth

7、od for clustering analysis,one is the system clustering method,the other is a K-clustering method.By these two models,can better understand Chinas economic information.Key words:Clustering Analysis;SPSS;System clustering;A K-clustering。3目錄第1章 緒論11.1.選題背景11.2數(shù)據(jù)來源11.3本文主要工作1第2章 SPSS軟件簡介2第3章 聚類分析33.1簡介

8、33.2系統(tǒng)聚類法33.3均值聚類法33.4聚類法分析的優(yōu)缺點(diǎn)3第4章聚類分析的應(yīng)用54.1數(shù)據(jù)輸入54.2統(tǒng)計(jì)數(shù)據(jù)-系統(tǒng)聚類分析54.3統(tǒng)計(jì)數(shù)據(jù)-k均值聚類分析7第5章總結(jié)9參考文獻(xiàn)10致謝11第1章 緒論1.1.選題背景目前,社會主義市場經(jīng)濟(jì)體制在社會中發(fā)揮著重要的作用。市場和宏觀調(diào)控互相協(xié)調(diào),相得益彰,各種體系發(fā)展日益完善,經(jīng)濟(jì)形勢發(fā)展越來越好,產(chǎn)生的價(jià)值越來越大。到2020年,我國會建立起比較成熟的社會主義市場經(jīng)濟(jì)體制。2012年一月份至九月份,中國經(jīng)濟(jì)增長速度是已經(jīng)回落到7.7%。相較于中國過去30年接近10%的增長速度,十一五期間更是接近11.2%的增長速度。因此在10%或者8%以

9、下,顯然是經(jīng)濟(jì)增長緩慢。另外,中經(jīng)數(shù)據(jù)統(tǒng)計(jì)發(fā)布的各種宏觀數(shù)據(jù)顯示,中國經(jīng)濟(jì)增長速度已經(jīng)開始緩慢。1.2數(shù)據(jù)來源中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫是由國家信息中心中經(jīng)網(wǎng)憑借與國家發(fā)改委、國家統(tǒng)計(jì)局、海關(guān)總署、各行業(yè)主管部門以及其他政府部門的良好合作關(guān)系,經(jīng)過長期數(shù)據(jù)積累并依托自身技術(shù)、資源優(yōu)勢,通過專業(yè)化加工處理組織而成的一個綜合、有序的龐大經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫群。本文從中經(jīng)網(wǎng)選取個地區(qū)最近三年各季度城鎮(zhèn)工資總額來進(jìn)行分析,該部分反映我國勞動經(jīng)濟(jì)方面的基本情況,其中各地區(qū)包括31個省、自治區(qū)、直轄市。1.3本文主要工作本文的研究對象是“中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫”中個地區(qū)城鎮(zhèn)工資總額,總所周知,各地區(qū)由于地理,文化的差異,其各地

10、區(qū)的工資水平以及發(fā)展程度是不一樣的。分析各地區(qū)的工資問題,可以為我們畢業(yè)生提供宏觀的就業(yè)位置,給出一個合理的基準(zhǔn)判斷。本文就是針對按照地區(qū)各季度城鎮(zhèn)工資總額等數(shù)據(jù),對中國各省份地區(qū)進(jìn)行聚類分析,建立聚類分析【1】模型。聚類分析是數(shù)據(jù)挖掘【2】中的一種重要的算法,他將生活中的數(shù)據(jù)對象進(jìn)行數(shù)據(jù)分析,將性質(zhì)相似或者相近的對象放在一個類中,將性質(zhì)不同的對象放在不同的類中,研究聚類分析,使得我們從復(fù)雜的現(xiàn)實(shí)生活中提取有用的信息,從而更好的分析數(shù)據(jù),反應(yīng)生活中的社會信息。本文建立的主要模型是系統(tǒng)聚類分析模型和K-均值聚類分析模型,該模型主要思想是將數(shù)據(jù)按照親疏的不同進(jìn)行聚類,一步一步聚類,最終聚類成一個大

11、類。然后對聚類過程中的步驟進(jìn)行分析,從而得到聚類結(jié)果。第2章 SPSS軟件簡介SPSS【3】是現(xiàn)代統(tǒng)計(jì)軟件的典型代表,其全稱:Statistical Package for the Social Sciences,即社會科學(xué)統(tǒng)計(jì)軟件包。世界上公認(rèn)數(shù)據(jù)分析軟件有三個,分別是SAS、SPSS和SYSTAT。SPSS軟件作為其中的一個統(tǒng)計(jì)學(xué)軟件,有著強(qiáng)大的功能和特點(diǎn)。SPSS統(tǒng)計(jì)學(xué)軟件有以下幾個特點(diǎn)。(1)利用SPSS軟件能夠?qū)崿F(xiàn)很多的類似于微軟的操作,列如可以將數(shù)據(jù)錄入到SPSS中,可以將資料進(jìn)行編輯,可以將數(shù)據(jù)進(jìn)行管理,可以像EXCEL一樣進(jìn)行報(bào)表制作等。(2)SPSS統(tǒng)計(jì)學(xué)軟件的統(tǒng)計(jì)功能,可以

12、實(shí)現(xiàn)“報(bào)告”“描述統(tǒng)計(jì)”“表”“比較均值”“一般線性模型”“廣義線性模型”“相關(guān)”“回歸”等功能。(3)SPSS數(shù)據(jù)輸入和輸出可以選取多種格式如:sav、xls等等。第3章 聚類分析3.1簡介聚類分析【4】是數(shù)據(jù)挖掘中一種重要的算法。它主要是將具有相同或者相似性質(zhì)的對象放在同一個集合中,把具有不同性質(zhì)的對象放在不同的集合中。聚類分析在商業(yè)、生物、教育等很多行業(yè)有著重要的應(yīng)用。正是有了類似分析這樣的數(shù)據(jù)挖掘算法,我們才從龐大的社會信息中提取出對我們有用的信息,更好的反饋社會。3.2系統(tǒng)聚類法系統(tǒng)聚類法分為Q型聚類和R型聚類兩種:Q型聚類是對樣本進(jìn)行聚類,它使具有相似特征的樣本聚在一起,使差異性大

13、的樣本分離開來;R型聚類是對變量進(jìn)行聚類,它使差異性大的變量分離開來,相似的變量聚集在一起,這樣就可以在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個數(shù)、降低變量維度的目的。在本文中Q型聚類中類與類之間距離的計(jì)算方法主要有以下幾種:(1)最短距離法,是指兩類之間每個個體距離的最小值;(2)最長距離法,是指兩類之間每個個體距離的最大值;(3)組間聯(lián)接法,是指兩類之間個體之間距離的平均值;(4)組內(nèi)聯(lián)接法,是指把兩類所有個體之間的距離都考慮在內(nèi);(5)重心距離法,是指兩個類中心之間的距離;(6)離差平方和法,是指同類樣品的離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。3.3均

14、值聚類法k均值類法【5】的工作原理:該算法首先確定初始的聚類中心,一般是隨機(jī)的選定個對象,然后計(jì)算各個樣本到聚類中心的距離,從而把樣本或者對象歸到離它最近的聚類中心所在的類。計(jì)算完所有樣本后,重現(xiàn)計(jì)算聚類中心,重新對樣本或者對象進(jìn)行類,如果相鄰兩次的聚類中心沒有變化或者兩側(cè)的聚類中心之間的差距已經(jīng)收斂,則聚類結(jié)束。3.4聚類法分析的優(yōu)缺點(diǎn)聚類分析是數(shù)據(jù)挖掘中的經(jīng)典算法之一。聚類分析的優(yōu)點(diǎn)如下:(1)聚類分析能夠很好的反映類之間的關(guān)系,研究聚類分析能夠研究數(shù)據(jù)背后的對象的性質(zhì),能夠?qū)ξ覀兞私膺@些對象有著重要的作用。(2)聚類分析能夠使用聚類中心來很好地體現(xiàn)該類的性質(zhì)。比較不同類的聚類中心能夠發(fā)現(xiàn)

15、不同類的聚類中心所代表的意義不同。(3)聚類分析能夠幫助我們從數(shù)據(jù)中提取重要的信息,聚類分析可以反映數(shù)據(jù)信息的有效性。聚類分析的缺點(diǎn)如下:(1)以k均值聚類算法為例,初始聚類中心隨機(jī)設(shè)定,這就使研究者在設(shè)定聚類中心時(shí)產(chǎn)生隨機(jī)性。(2)聚類分析的類數(shù)k的確定。在聚類分析算法中,一般人為的設(shè)定k值。這樣,如果將一堆對象分城較少的類,則可能不能體現(xiàn)聚類中各個類的性質(zhì)。如果將對象分成較多的類,則可能造成數(shù)據(jù)的冗余。第4章聚類分析的應(yīng)用4.1數(shù)據(jù)輸入圖4.1年份各地區(qū)數(shù)據(jù)變量視圖在SPSS統(tǒng)計(jì)學(xué)軟件中,有“數(shù)據(jù)視圖”和“變量視圖”兩種。數(shù)據(jù)視圖就是將實(shí)際數(shù)據(jù)導(dǎo)入SPSS中后顯示的實(shí)際數(shù)據(jù),而變量數(shù)據(jù)是對

16、數(shù)據(jù)對象打的屬性變量的定義,包括名稱、類型、寬帶、小數(shù)、數(shù)值等相關(guān)信息。變量視圖如上圖所示。4.2統(tǒng)計(jì)數(shù)據(jù)-系統(tǒng)聚類分析在本小節(jié)中,針對統(tǒng)計(jì)數(shù)據(jù),使用SPSS統(tǒng)計(jì)學(xué)軟件進(jìn)行系統(tǒng)聚類分析。如圖4.2所示,將數(shù)據(jù)導(dǎo)入SPSS軟件,然后進(jìn)行系統(tǒng)分析。圖4.2統(tǒng)計(jì)數(shù)據(jù)-系統(tǒng)分析通過系統(tǒng)分析可以得到其各個樣本之間的相似系數(shù),數(shù)值越大表示兩樣本之間的距離越大。如下圖4.3所示。圖4.3相似矩陣表冰柱圖直觀的反應(yīng)了系統(tǒng)聚類法中分類的步驟。如圖4.4所示。圖4.4系統(tǒng)聚類分析冰柱圖利用SPSS軟件,進(jìn)行系統(tǒng)分析,可以利用軟件做出樹狀圖,利用樹狀圖我們可以看出各個樣本之間的聚類過程,可以看出分類的過程,直觀的顯

17、示結(jié)果。如圖4.5所示。圖4.5系統(tǒng)聚類分析樹狀圖通過利用SPSS統(tǒng)計(jì)軟件分析,結(jié)合樹狀圖和冰狀圖可以得出,系統(tǒng)分析將各省份分城三個大類,第一類是北京和廣州屬于城鎮(zhèn)工資總額最高的兩個城市,表明出,在北京和廣州兩地的工資較高相應(yīng)看出這兩個地方的經(jīng)濟(jì)較為發(fā)達(dá)。第二類是江蘇、浙江、山東和上海,其余的分為第三類。4.3統(tǒng)計(jì)數(shù)據(jù)-k均值聚類分析本小節(jié),針對統(tǒng)計(jì)數(shù)據(jù)進(jìn)行k均值聚類分析。圖4.6統(tǒng)計(jì)數(shù)據(jù)-k均值聚類分析圖4.7初始聚類中心圖4.8迭代歷史記錄得到初始中心后,利用k均值聚類的計(jì)算方法,計(jì)算得到聚類中心,然后,把每個對象歸類到距離最近的聚類中心所在的類中,在這個過程中,需要經(jīng)過迭代過程,上圖4.

18、8反映的是迭代過程中的聚類中心結(jié)果。如果收斂,即停止計(jì)算聚類中心。通過k均值計(jì)算依據(jù),可以得到聚類結(jié)果。聚類成員如下圖4.9所示,最終的聚類中心如下圖4.10所示。聚類成員包含有案例號、案例所在的類數(shù)和對象距離聚類中心的距離。圖4.9k均值聚類聚類成員圖4.10k均值聚類最終聚類中心在統(tǒng)計(jì)數(shù)據(jù)經(jīng)過K均值聚類分析后,得到三個大類,圖4.11表示了聚類成員和最終聚類中心間的距離,同時(shí)也表示出每個類別的案例。圖4.11k均值聚類分析結(jié)果顯示圖通過k均值聚類分析,我們可以得到第一大類包含:北京,上海,廣州,江蘇,浙江,山東。第二類包含:湖南,福建等地。明顯可以得到在北上廣等地區(qū)屬于中國經(jīng)濟(jì)發(fā)的的地區(qū),然而中國城鎮(zhèn)工資總額不高的地區(qū)還是占多部分的省份??傮w而言,可以反映出中國的經(jīng)濟(jì)發(fā)展還不平衡,各地區(qū)經(jīng)濟(jì)水平差異較大。第5章總結(jié)在數(shù)據(jù)挖掘中,聚類算法是一類很重要的算法,并且在現(xiàn)實(shí)的社會生活中有著非常廣泛的應(yīng)用。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論