聚類分析與判別分析操作及案例_第1頁
聚類分析與判別分析操作及案例_第2頁
聚類分析與判別分析操作及案例_第3頁
聚類分析與判別分析操作及案例_第4頁
聚類分析與判別分析操作及案例_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

聚類分析與判別分析操作及案例聚類分析與判別分析操作及案例聚類分析與判別分析操作及案例xxx公司聚類分析與判別分析操作及案例文件編號:文件日期:修訂次數(shù):第1.0次更改批準審核制定方案設(shè)計,管理制度北京航空航天大學研究生課程《數(shù)理統(tǒng)計B》論文地區(qū)生產(chǎn)總值的聚類分析與判別分析姓名:王青云學號:SY1001243授課教師:馮偉日期:2011-1-2地區(qū)生產(chǎn)總值的聚類分析與判別分析姓名:王青云學號:SY1001243摘要:為了了解全國各地區(qū)的經(jīng)濟類型,需要對地區(qū)進行分類,可以利用社會科學統(tǒng)計軟件包(簡稱SPSS)對地區(qū)經(jīng)濟情況進行聚類分析和判別分析。該工作依據(jù)地區(qū)生產(chǎn)總值、第一產(chǎn)業(yè)、工業(yè)、建筑業(yè)、交通運倉儲及郵電通訊業(yè)、批發(fā)零售貿(mào)易及餐飲業(yè)、金融保險業(yè)、房地產(chǎn)業(yè)八個指標對2009年全國31個省和直轄市的經(jīng)濟類型進行了聚類分析,將不同地區(qū)的經(jīng)濟類型劃分類別;并隨機抽取了北京、福建、山東三省進行判別分析。關(guān)鍵詞:經(jīng)濟類型,聚類分析,判別分析,SPSS一引言人們認識事物時往往先把被認識的對象進行分類,以便尋找其中同與不同的特征,因而分類學是人們認識世界的基礎(chǔ)科學。統(tǒng)計學中常用的分類統(tǒng)計方法主要是聚類分析與判別分析。聚類分析是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,將性質(zhì)差別較大的歸入不同的類。判別分析則先根據(jù)已知類別的事物的性質(zhì),利用某種技術(shù)建立函數(shù)式,然后對未知類別的新事物進行判斷以將之歸入已知的類別中。聚類分析與判別分析有很大的不同,聚類分析事先并不知道對象類別的面貌,甚至連共有幾個類別也不確定;判別分析事先已知對象的類別和類別數(shù),它正是從這樣的情形下總結(jié)出分類方法,用于對新對象的分類[1]。二分析方法問題:根據(jù)地區(qū)各行業(yè)收入對全國各地區(qū)經(jīng)濟類型進行分類。方法:先進行聚類分析,再進行判別分析,采用SPSS軟件進行。2009年全國31個省市的地區(qū)總產(chǎn)值、第一產(chǎn)業(yè)、工業(yè)、建筑業(yè)、交通運倉儲及郵電通訊業(yè)、批發(fā)零售貿(mào)易及餐飲業(yè)、金融保險業(yè)、房地產(chǎn)業(yè)、其他行業(yè)表1所示[2]。聚類分析在SPSS數(shù)據(jù)編輯窗口中輸入表1中數(shù)據(jù):表12009年地區(qū)生產(chǎn)收入地區(qū)地區(qū)生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)第三產(chǎn)業(yè)工業(yè)建筑業(yè)交通運輸和郵政業(yè)批發(fā)和零售業(yè)住宿和餐飲業(yè)金融業(yè)房地產(chǎn)業(yè)其他北京天津河北山西內(nèi)蒙古遼寧吉林黑龍江8587211上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西208海南重慶四川貴州云南西藏陜西甘肅青海105寧夏新疆(2)定義聚類類型:在“Analyze”菜單“Classify”中選擇Hierarchical命令,在彈出的HierarchicalClusterAnalysis對話框中,從對話框左側(cè)的變量列表中選擇地區(qū)變量,使之添加到LableCasesby框中,同樣將指標第一產(chǎn)業(yè),工業(yè),建筑業(yè),交通運倉儲及郵電通訊業(yè),批發(fā)零售貿(mào)易及餐飲業(yè),金融保險業(yè),房地產(chǎn)業(yè),其他行業(yè)添加到Variable(s)框中。在Cluster欄中選擇聚類類型“Cases”,在Display中選擇顯示內(nèi)容,為系統(tǒng)默認選項。(3)設(shè)置統(tǒng)計量的值:單擊Statistics按鈕,打開Statistics對話框,同時選中對話框上方的聚類進度“Agglomerationschedule”和相似性矩陣“Proximitymatrix”選項,同時選中ClusterMembership中的Rangeofsolutions,選擇3到5。(4)設(shè)置輸出圖表:單擊Plots按鈕,打開Plots對話框,選中樹枝圖。(5)選擇聚類方法:單擊Method按鈕,打開Method對話框,選擇默認的Between-groupslinkage(即組間連接法),Interval中也選擇默認選項(二元變量歐氏距離)。TransformValues中的Standardize選擇z-cores。(6)單擊OK,即可得到SPSS聚類分析的分析結(jié)果。表2為數(shù)據(jù)匯總表,是Processing過程中的輸出信息,即數(shù)據(jù)的基本信息。31個樣本參與分析,沒有缺失值。表2數(shù)據(jù)匯總表案例處理摘要a案例有效缺失合計N百分比N百分比N百分比31%0%31%a.平方Euclidean距離已使用表3是使用兩組間的連接統(tǒng)計量進行聚類的詳細過程。有31個樣本,經(jīng)30步聚類。Stage:聚類步驟;Cluster1,Cluster2:該步被合并的兩類中的樣品號或類號,合并結(jié)果取小的序號。StageClusterfirstappears:非零數(shù)值表示合并兩項前一次出現(xiàn)的聚類步序號,而0表示第一次出現(xiàn)。NextStage:表示合并結(jié)果在下一步合并時的步序號[2]。表4、5為聚類結(jié)果,分別為分類表(表4)和樹狀圖(表5)。由以上樹狀圖可以看出,如若將全國各省和直轄市的經(jīng)濟類型分為三類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)遼寧、湖北、湖南、福建、四川、青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津、河北、河南;(Ⅲ)江蘇、山東、廣東。若將全國各省和直轄市的經(jīng)濟類型分為四類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)遼寧、湖北、湖南、福建、四川、青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津、河北、河南;(Ⅲ)江蘇、山東;(Ⅳ)廣東。而若將全國各省和直轄市的經(jīng)濟類型分為五類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津;(Ⅲ)河北、遼寧、福建、河南、湖南、湖北、四川;(Ⅳ)江蘇、山東;(Ⅴ)廣東。表3數(shù)據(jù)聚類表聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集1群集2群集1群集212629.02000222630.06010732831.1690010478.23400951718.256001561427.28100972126.28902178422.35900139714.4024612102428.4490317112025.554001212720.580911161324.621081814613.6690019151723.7645019167121201817212471022182713162019617141523202518022211900262222120172723616190242436023272510150028261112102927232224292810192503029122627303011029280表4分類表群集成員案例5群集4群集3群集1:北京市1112:天津市2223:河北省3224:山西省2225:內(nèi)蒙古自治區(qū)2226:遼寧省3227:吉林省2228:黑龍江省2229:上海市11110:江蘇省43311:浙江省11112:安徽省22213:福建省32214:江西省22215:山東省43316:河南省32217:湖北省32218:湖南省32219:廣東省54320:廣西壯族自治區(qū)22221:海南省22222:重慶市22223:四川省32224:貴州省22225:云南省22226:西藏自治區(qū)22227:陜西省22228:甘肅省22229:青海省22230:寧夏回族自治區(qū)22231:新疆維吾爾自治區(qū)222表5樹枝圖判別分析判別分析也是一種數(shù)據(jù)的分析方法。在生產(chǎn)活動、經(jīng)濟管理、科學實驗甚至日?;顒又?,人們常常需要判定所研究問題的歸屬問題。例如經(jīng)濟分析中根據(jù)一個國家或地區(qū)的若干經(jīng)濟指標,判斷該國家或地區(qū)經(jīng)濟發(fā)展的程度和狀態(tài)。在事先已經(jīng)建立了樣品分類,需要將新樣本歸入到已知分類的樣本組中時,就可以使用判別分析。判別分析是先根據(jù)已知類別的事物的性質(zhì)(自變量),建立函數(shù)式(自變量的線性組合,即判別函數(shù)),然后對未知類別的新事物進行判斷以將之歸入已知的類別中。通常使用的判別分析方法有:距離判別法、Bayes判別法以及Fisher判別法等方法。本文中將使用的Classify→Discriminate程序隨機選取北京、福建、山東省份進行判別分析,以確定這些地區(qū)所屬的經(jīng)濟類型。本文使用的Fisher判別法的函數(shù)系數(shù)列表如表6,從表6可列各類的Fisher判別函數(shù),輸入相關(guān)經(jīng)濟指標就可以判別其它市的經(jīng)濟類型。表6Fisher判別函數(shù)(分類函數(shù)系數(shù)表)分類函數(shù)系數(shù)V12生產(chǎn)總值.014.008.048第一產(chǎn)業(yè).002工業(yè).000建筑業(yè).014交通運輸和郵政業(yè).007批發(fā)和零售業(yè).005.023住宿和餐飲業(yè).014金融業(yè).063.014.016房地產(chǎn)業(yè).024.010(常量)Fisher的線性判別式函數(shù)設(shè):地區(qū)生產(chǎn)總值=X1,第一產(chǎn)業(yè)=X2,工業(yè)=X3,建筑業(yè)=X4,交通運輸和郵政業(yè)=X5,批發(fā)和零售業(yè)=X6,住宿和餐飲業(yè)=X7,金融業(yè)=X8,房地產(chǎn)業(yè)=X9。Y1=------+--Y2=-++++++--Y3=----+--+-Y4=-------+-將北京、福建、山東省份的指標代入四個判別函數(shù),判別函數(shù)值最大函數(shù)所屬類別即為這個省份的分類。經(jīng)判別可知北京屬于第一類,福建屬于第二類,山東屬于第三類。表7為分類結(jié)果表,圖1為分類散點圖。表7分類結(jié)果表分類結(jié)果b,cV12預測組成員合計初始計數(shù)2000202400240010100011%.0.0.0.0.0.0.0.0.0.0.0.0交叉驗證a計數(shù)2000202400241000110001%.0.0.0.0.0.0.0.0.0.0.0.0a.僅對分析中的案例進行交叉驗證。在交叉驗證中,每個案例都是按照從該案例以外的所有其他案例派生的函數(shù)來分類的。b.已對初始分組案例中的%個進行了正確分類。c.已對交叉驗證分組案例中的%個進行了正確分類。圖1分類散點圖從表8判別結(jié)果可見,9、14分別是江蘇和湖北出現(xiàn)錯判,從聚類分析可以看出,北京,福建和山東是比較有代表性的省份,所以在缺少的情況下進行判別分類,造成的誤判也是可能的。分析與結(jié)論:將全國各省和直轄市的經(jīng)濟類型分為四類,則分類如下:(Ⅰ)北京、上海、浙江;(Ⅱ)遼寧、湖北、湖南、福建、四川、青海、寧夏、海南、西藏、貴州、甘肅、重慶、新疆、云南、安徽、黑龍江、山西、內(nèi)蒙古、吉林、江西、陜西、廣西、天津、河北、河南;(Ⅲ)江蘇、山東;(Ⅳ)廣東。表8判別結(jié)果按照案例順序的統(tǒng)計量案例數(shù)目最高組第二最高組判別式得分P(D>d|G=g)實際組預測組pdfP(G=g|D=d)到質(zhì)心的平方Mahalanobis距離組P(G=g|D=d)到質(zhì)心的平方Mahalanobis距離函數(shù)1函數(shù)2函數(shù)3初始122.06731.000222.9313.4441.000.058322.55331.000422.07631.000522.07531.000.476622.8113.9591.000.011.231722.9433.3881.000.693811.72633.0009333.0001.000.7631011.72633.0001122.12631.0001222.17331.0001322.00731.0001422.42731.000.996.0921522.47831.00016443.0001.0001722.8673.7271.000.019.9371822.76731.000.569.8681922.8523.7891.000.1102022.42531.0002122.46231.000.7192222.8873.6391.0002322.9753.2171.0002422.35831.000.6032522.8473.8091.0002622.9583.3131.000.0602722.9673.2651.0002822.38231.000交叉驗證a122.00181.000222.00081.000322.22181.000422.00083.000522.03681.000622.65881.000722.98181.000811.00083.000931**.00082.0001011.00083.0001122.02881.00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論