![聚類分析與判別分析實驗報告范例_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/7/13fe627e-8e64-4568-9333-5d61f1f389f5/13fe627e-8e64-4568-9333-5d61f1f389f51.gif)
![聚類分析與判別分析實驗報告范例_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/7/13fe627e-8e64-4568-9333-5d61f1f389f5/13fe627e-8e64-4568-9333-5d61f1f389f52.gif)
![聚類分析與判別分析實驗報告范例_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/7/13fe627e-8e64-4568-9333-5d61f1f389f5/13fe627e-8e64-4568-9333-5d61f1f389f53.gif)
![聚類分析與判別分析實驗報告范例_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/7/13fe627e-8e64-4568-9333-5d61f1f389f5/13fe627e-8e64-4568-9333-5d61f1f389f54.gif)
![聚類分析與判別分析實驗報告范例_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-11/7/13fe627e-8e64-4568-9333-5d61f1f389f5/13fe627e-8e64-4568-9333-5d61f1f389f55.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 上海電力學院應用多元統(tǒng)計分析判別分析與聚類分析學院: 姓名: 學號: 2016年4月 我國部分城市經(jīng)濟發(fā)展水平的聚類分析和判別分析摘要:本文基于中國統(tǒng)計年鑒(2012年版)統(tǒng)計數(shù)據(jù),尋找評價城市經(jīng)濟發(fā)展水平的指標,包括第二三產(chǎn)業(yè)發(fā)展水平、固定投資額、社會消費零售總額和進出口貿(mào)易交流五個指標,利用統(tǒng)計軟件SPSS綜合考慮各指標,對所選城市進行K-Means 聚類分析,利用Fisher 線性判別待判城市類型,進一步驗證所建模型的有效性。關鍵字:聚類分析,判別分析,SPSS ,城市經(jīng)濟發(fā)展水平1,引言經(jīng)過改革開放后三十多年的長足進展,中國城市化已步入中期階段,步伐加快,質(zhì)量顯著提高。同
2、時,中國城市化又處于周期轉(zhuǎn)折點上,上一周期行將結束,下一周期將要開始。2011年中國城市化率首次突破50,意味著中國城鎮(zhèn)人口首次超過農(nóng)村人口,中國城市化進入關鍵發(fā)展階段,這必將引起深刻的社會變革。根據(jù)2011年4月公布的第六次人口普查數(shù)據(jù),2010年中國居住城鎮(zhèn)的人口接近6.6億人,城鎮(zhèn)化率達到49.68%,全國已有近一半的人口居住在城鎮(zhèn),這意味著中國將進入城鎮(zhèn)時代。在過去30多年中,中國的城市化發(fā)展取得了很大成績。然而,總體上中國的城市化道路是城市化滯后于工業(yè)化的非均衡道路;是土地城市化快于人口城市化的非規(guī)整道路;是以抑制農(nóng)村、農(nóng)業(yè)、農(nóng)民的經(jīng)濟利益來支持城市發(fā)展,導致不能兼顧效率和公平的非協(xié)
3、調(diào)道路;是片面追求城市發(fā)展的數(shù)量和規(guī)模,而以生態(tài)環(huán)境損失為代價的非持續(xù)道路;是以生產(chǎn)要素的高投入,而不是投入少、產(chǎn)值高、依靠科技拉動經(jīng)濟增長的非集約道路。傳統(tǒng)的城市化存在著諸多弊端,中國未來的城市化必須走出一條具有自身特色的新型城市化道路。具體而言,中國城市經(jīng)濟發(fā)展水平受限于地理、環(huán)境、資源以及國家政策等因素的影響,我國不同區(qū)域的城市化進程尚存在很大差異。2012年中國城市發(fā)展報告中指出,從區(qū)域角度看,目前沿海一帶城市發(fā)展起步早,與國際貿(mào)易交流往來頻率高,經(jīng)濟發(fā)展水平較高,西部地區(qū)受到國家政策的大力扶持,表現(xiàn)出了強勁的增長勢頭,西部主要城市經(jīng)濟發(fā)展水平僅次于沿海發(fā)達地區(qū),而中部地區(qū)城市發(fā)展的水
4、平已經(jīng)落到了最后。顯然,通過研究不同城市的經(jīng)濟發(fā)展狀況和經(jīng)濟類型,指出其發(fā)展差異所在,可以為政府在出臺相關政策來平衡區(qū)域經(jīng)濟發(fā)展,縮小不同地區(qū)人民生活水平的差異提供一定的指導意見,也為我們深刻理解國家相關政策提供了扎實的基礎。 2,相關統(tǒng)計基礎理論2.1,聚類分析聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類分析的目標就是在相似的基礎上收集數(shù)據(jù)來分類。從統(tǒng)計學的觀點看,聚類分析是通過數(shù)據(jù)建模簡化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被
5、加入到許多著名的統(tǒng)計分析軟件包中,如SPSS、SAS等。本文使用統(tǒng)計軟件SPSS對所收集的數(shù)據(jù)進行快速聚類,其特點是:在確定類別數(shù)量基礎上,先給定一個粗糙的初始分類,然后按照某種原則進行反復修改,直至分類較為合理。在選定類中心作為凝聚點的基礎上進行分類和修正的方法有很多,本文使用的是K-Means 算法。K-Means 算法接受輸入量k ;然后將n個數(shù)據(jù)對象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。K-Means 算法的工作過程說明如下:首先從n個數(shù)據(jù)對象
6、任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù)。 一般而言,k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。2.2,判別分析判別分析是市場研究的重要分析技術,也是多變量分析技術。它可以就一定數(shù)量的個體的一個分類變量和相應的其它多元變量的已知信息,確定分類變量與其它多元變量之間的數(shù)量關系,建立判別函數(shù),并利用判別函數(shù)構建Bip
7、lot二元判別圖(概念圖)。同時,利用這一數(shù)量關系對其他已知多元變量的信息、但未知分組的子類型的個體進行判別分組。判別分析屬于監(jiān)督類分析方法,例如:市場細分研究中,常涉及判別個體所屬類型的問題,也常涉及不同品牌在一組產(chǎn)品屬性之間的消費者偏好和認知概念,判別分析可以很好地對這種差異進行鑒別。并在低維度空間表現(xiàn)這種差異。判別分析主要有距離判別、貝葉斯(Bayes)判別、費舍爾(Fisher)判別等幾種常用方法。距離判別的基本原理是:首先對樣本到總體G之間的距離進行合理規(guī)定,然后依照“就近”原則判定樣本的歸屬,常用馬氏距離(Mahalanobis)規(guī)定為:式中為p元總體G的協(xié)方差陣,x是取自G的樣品
8、,則該式即為樣品x到總體G的馬氏距離。貝葉斯判別既考慮了先驗分布產(chǎn)生的影響,也考慮到誤判損失產(chǎn)生的影響,是衡量一個判別優(yōu)劣的比較合理的準則。費舍爾判別的基本思想與主成分分析十分相似,當總體是高維向量時,先把其綜合成一個一維變量,然后在對一維變量進行距離判別,費舍爾判別實際上是一種降維處理,降維壓縮后,樣品y到各個總體的距離可以用歐式距離度量,即:由此導出Fisher判別規(guī)則為:, 則本文及使用Fisher判別建立線性判別函數(shù)進行距離判別。3,模型建立3.1 設置變量本文綜合考慮了評價城市發(fā)展指數(shù)衡量因素,選取衡量一個城市經(jīng)濟發(fā)展水平的主要因素,城市化進程總是伴隨著工業(yè)化發(fā)展,發(fā)達的服務業(yè)水平是
9、衡量現(xiàn)代新興城市的主要指標,此外,綜合考慮了固定資產(chǎn)投資總額與社會消費品零售總額以及貨物進出口總額作為類別分析的主要經(jīng)濟指標:X1:城市第二產(chǎn)業(yè)產(chǎn)值(億元)X2:城市第三產(chǎn)業(yè)產(chǎn)值(億元)X3:城市固定資產(chǎn)投資總額(億元)X4:城市社會消費品零售總額(億元)X5:貨物進出口總額(億元)從區(qū)域發(fā)展角度從上面5個經(jīng)濟指標將城市經(jīng)濟發(fā)展水平劃分為三大類:G1:發(fā)達城市G2:中度發(fā)達城市G3:欠發(fā)達城市3.2 數(shù)據(jù)收集和整理本文所有數(shù)據(jù)來源于中國統(tǒng)計年鑒(2012),選取2011年度36個城市主要經(jīng)濟發(fā)展水平做模型建立及分析。其中前32個城市相關經(jīng)濟指標水平作為初始樣本用于劃分類別,建立類別總體G;最后
10、四個城市(杭州、南寧、昆明、銀川)及其相關經(jīng)濟發(fā)展水平用作待判樣品,利用判別函數(shù)進行判別分析。所有相關數(shù)據(jù)經(jīng)過量綱統(tǒng)一規(guī)則化處理見表1所示。表 1 我國部分城市相關經(jīng)濟發(fā)展水平(2011年)序號城市第二產(chǎn)業(yè)(億元)第三產(chǎn)業(yè)(億元)固定資產(chǎn)投資總額(億元)社會消費品零售總額(億元)貨物進出口總額(億元)1 北 京 3752.512363.25851.52016900.324623374.98842 天 津 5928.35219.27483.69733395.066203.46423 石 家 莊 2031.91635.83026.97781662.9864850.11124 太 原 949.210
11、97.11024.1444973.2937513.63065 呼和浩特 790.01277.81031.6781890.0478121.47366 沈 陽 3026.92609.84577.0942426.8655637.2157 大 連 3204.22550.74580.05851924.7943630.58748 長 春 2092.71620.22356.61891515.85371040.93229 哈 爾 濱 1647.22147.83011.9712070.4129307.054810 上 海 7927.911142.95064.26246814.826246.15111 南 京 2
12、760.83220.43757.25172697.09973440.635812 寧 波 3349.52454.52385.50722018.86175891.209213 合 肥 2002.21426.23376.96521111.11881207.71914 福 州 1711.21700.12720.28271947.81022083.485615 廈 門 1297.11217.51128.0872800.27794210.000216 南 昌 1579.3974.72022.3297928.3438473.022617 濟 南 1829.02339.51934.33892114.2868
13、624.12318 青 島 3150.73158.53502.53822302.37034329.130219 鄭 州 2874.21974.03002.51987.1147959.735420 武 漢 3254.03309.54255.16213031.78851367.374821 長 沙 3151.72224.33510.24252201.6112449.360422 廣 州 4577.07641.93412.252436970.2623 深 圳 5343.36155.72136.38823520.873624845.98224 海 口 177.9487.7395.0408387.180
14、4236.175625 重 慶 5543.03623.87579.44543487.8071753.071626 成 都 3143.83383.44944.01572861.28352274.379827 貴 陽 586.8733.71600.5898584.3292392.979628 拉 薩75.2137.2220.5031102.594878.445229 西 安 1697.21993.93352.121965.9774754.7430 蘭 州 656.5663.5950.5758639.7231112.765831 西 寧 411.3332.0528.0052271.287348.93
15、7832 烏魯木齊 759.1908.9427.6221695.0278541.790433 杭 州 3323.83458.53100.02182548.35993838.30834 南 寧 829.61076.31950.86281073.1541150.625235 昆 明 1161.21214.62275.52861271.7298721.322436 銀 川 525.2414.4720.5627274.470572.64,數(shù)據(jù)結果及分析4.1 聚類分析4.1.1 聚類分析過程采用統(tǒng)計軟件SPSS可以快速方便的將樣本分類,“K-均值聚類”將樣本分為設定好的三類,分類結果如下:(1)K-均
16、值聚類初始聚類中心初始聚類中心聚類123第二產(chǎn)業(yè)(億元)7928592875第三產(chǎn)業(yè)(億元)111435219137固定資產(chǎn)投資總額(億元)5064.2624000000017483.697300000001220.503100000000社會消費品零售總額(億元)6814.80003395.0600102.5948貨物進出口總額(億元)26246.1510000000006203.46420000000078.445200000000(2)樣本聚類 聚類成員案例號城市聚類距離案例號城市聚類距離1 北 京13937.77217 濟 南31347.1542 天 津24379.85018 青 島2
17、1710.0433 石 家 莊31259.02619 鄭 州31969.2614 太 原31214.06320 武 漢22771.8345 呼和浩特31414.69721 長 沙32607.5836 沈 陽33452.67422 廣 州25518.2357 大 連21842.87323 深 圳14887.3768 長 春3837.81124 海 口32474.7509 哈 爾 濱31584.29125 重 慶24072.60110 上 海13214.67326 成 都21942.91011 南 京21681.20527 貴 陽31402.62012 寧 波23455.97928 拉 薩3291
18、8.19013 合 肥31536.88129 西 安31652.62514 福 州31682.56330 蘭 州31767.33415 廈 門33577.16931 西 寧32433.50316 南 昌3617.36732 烏魯木齊31898.368(3)最終聚類中心最終聚類中心聚類123第二產(chǎn)業(yè)(億元)567538791467第三產(chǎn)業(yè)(億元)988738401375固定資產(chǎn)投資總額(億元)4350.7235666666684655.5417888888902009.884360000000社會消費品零售總額(億元)5745.33272995.78501263.8072貨物進出口總額(億元)2
19、4822.3738000000003984.457000000000782.184900000000最終聚類中心間的距離聚類123121946.79726337.272221946.7975669.843326337.2725669.843(4)聚類方差分析方差分析聚類誤差FSig.均方df均方df第二產(chǎn)業(yè)(億元)34313207.73521231856.4792927.855.000第三產(chǎn)業(yè)(億元)100446019.01321811059.4072955.463.000固定資產(chǎn)投資總額(億元)24862358.67322205819.3762911.271.000社會消費品零售總額(億元)
20、30454986.0502887338.5312934.322.000貨物進出口總額(億元)753836973.38321848036.99229407.912.000F 檢驗應僅用于描述性目的,因為選中的聚類將被用來最大化不同聚類中的案例間的差別。觀測到的顯著性水平并未據(jù)此進行更正,因此無法將其解釋為是對聚類均值相等這一假設的檢驗。4.1.2 聚類結果分析從上述聚類分析過程可知,樣本完全有效,32個個體被分成三大類:G1(發(fā)達城市):北京,上海,深圳。G2(中度發(fā)達城市):天津,大連,南京,寧波,青島,武漢,廣州,重慶,程度。G3(欠發(fā)達城市):石家莊,太原,呼和浩特,沈陽,長春,哈爾濱,合
21、肥,福州,廈門,南昌,濟南,鄭州,長沙,???,貴陽,拉薩,西安,蘭州,西寧,烏魯木齊。從城市分類結果可知,北上深作為國際化城市發(fā)展代表,其經(jīng)濟發(fā)展水平遠超其他沿海城市及內(nèi)陸城市;沿海開放城市以及內(nèi)陸主要樞紐城市的發(fā)展水平高于其他城市;中部地區(qū)級西部城市發(fā)展水平受限于地理、資源和資本等因素,經(jīng)濟發(fā)展表現(xiàn)不強勁。從最后的方差分析中可知,分類檢驗水平顯著,分類結果值得借鑒。4.2 判別分析4.2.1 判別結果及分析一般來講,利用判別分析首先要明確變量測量尺度及變量的類型和關系;因變量(dependent variable): 分組變量定性數(shù)據(jù)(個體、產(chǎn)品/品牌、特征,定類變量)。自變量 (indep
22、endent variable):判別變量定量數(shù)據(jù)(屬性的評價得分,數(shù)量型變量)。(1)判別圖圖 1 典則判別函數(shù)從圖中很明顯,看到三個組中心也就是經(jīng)濟發(fā)展水平,以及圍繞著組中心的樣本,說明直觀上分組判別式完全可以接受的。(2)典型判別式函數(shù)摘要特征值函數(shù)特征值方差的 %累積 %正則相關性137.790a98.098.0.9872.765a2.0100.0.658a. 分析中使用了前 2 個典型判別式函數(shù)。Wilks 的 Lambda函數(shù)檢驗Wilks 的 Lambda卡方dfSig.1 到 2.015114.10610.0002.56715.3364.004標準化的典型判別式函數(shù)系數(shù)函數(shù)12
23、第二產(chǎn)業(yè)(億元)-.974.940第三產(chǎn)業(yè)(億元)-1.198.773固定資產(chǎn)投資總額(億元).752.211社會消費品零售總額(億元)1.190-.675貨物進出口總額(億元)1.409-.314結構矩陣函數(shù)12貨物進出口總額(億元).863*.090第二產(chǎn)業(yè)(億元).184.920*固定資產(chǎn)投資總額(億元).076.857*社會消費品零售總額(億元).231.675*第三產(chǎn)業(yè)(億元).308.567*判別變量和標準化典型判別式函數(shù)之間的匯聚組間相關性 按函數(shù)內(nèi)相關性的絕對大小排序的變量。*. 每個變量和任意判別式函數(shù)間最大的絕對相關性從表中我們看到,因為分組變量是三類,所以我們得到兩個判別
24、函數(shù),其中第一判別函數(shù)解釋了數(shù)據(jù)的98%,第二判別函數(shù)解釋了2%;兩個判別函數(shù)解釋了100%;當然,兩個判別函數(shù)直接具有顯著的差異和判別力。(3)分類統(tǒng)計量組的先驗概率類別先驗用于分析的案例未加權的已加權的1.33333.0002.33399.0003.3332020.000合計1.0003232.000分類函數(shù)系數(shù)類別123第二產(chǎn)業(yè)(億元)-.019-.001-.001第三產(chǎn)業(yè)(億元)-.021-.004-.003固定資產(chǎn)投資總額(億元).011.002.001社會消費品零售總額(億元).030.006.004貨物進出口總額(億元).022.003.001(常量)-231.519-12.269-2.727Fisher 的線性判別式函數(shù)Fisher線性判別函數(shù),我們主要用來構建判別方程,理論上說:如果我們知道某個城市在5經(jīng)濟指標的發(fā)展水平值,我們就可以估計出該城市應該是哪種類型的。4.2.2 判別檢驗判別變量是數(shù)量型測量尺度變量,分析樣本個數(shù)至少比判別變量多兩個,我們?yōu)榱说玫脚袆e函數(shù),經(jīng)常需要把樣本隨機分成訓練樣本和檢驗樣本等工作,如本文最后四個(序號33-36)個體就可作為檢驗樣本,也成待判樣本。由上表可知Fisher判別方程:判別規(guī)則:, 則判別結果:1 杭 州21583.3912 南 寧3842.7743 昆 明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑工地勞務人員職業(yè)技能鑒定與認證合同
- 2025年度插畫師藝術衍生品開發(fā)合同
- 貴州2025年貴州遵義師范學院招聘34人筆試歷年參考題庫附帶答案詳解
- 荊州2024年湖北洪湖市大學生鄉(xiāng)村醫(yī)生專項招聘33人筆試歷年參考題庫附帶答案詳解
- 白銀2025年甘肅白銀礦冶職業(yè)技術學院春季引進博士研究生13人筆試歷年參考題庫附帶答案詳解
- 玉溪2025年云南玉溪市江川區(qū)審計局招聘公益性崗位工作人員筆試歷年參考題庫附帶答案詳解
- 杭州浙江杭州電子科技大學信息技術中心招聘工作人員(勞務派遣)筆試歷年參考題庫附帶答案詳解
- 2025年中國塑底布鞋市場調(diào)查研究報告
- 廊坊2025年河北廊坊臨空經(jīng)濟區(qū)選調(diào)22人筆試歷年參考題庫附帶答案詳解
- 2025至2031年中國靜電粉末涂料行業(yè)投資前景及策略咨詢研究報告
- 學校安全隱患排查治理工作臺賬
- GB/T 8151.13-2012鋅精礦化學分析方法第13部分:鍺量的測定氫化物發(fā)生-原子熒光光譜法和苯芴酮分光光度法
- 2023年遼寧鐵道職業(yè)技術學院高職單招(英語)試題庫含答案解析
- GB/T 39274-2020公共安全視頻監(jiān)控數(shù)字視音頻編解碼技術測試規(guī)范
- GB/T 23800-2009有機熱載體熱穩(wěn)定性測定法
- 犯罪學全套教學課件
- T-SFSF 000012-2021 食品生產(chǎn)企業(yè)有害生物風險管理指南
- 2023年上海市閔行區(qū)精神衛(wèi)生中心醫(yī)護人員招聘筆試題庫及答案解析
- 水庫工程施工組織設計
- 售電公司與電力用戶委托交易代理合同
- 基礎護理學試題及答案(各章節(jié))-基礎護理學第四版試題及答案
評論
0/150
提交評論