在STATA中開展主成分分析_第1頁
在STATA中開展主成分分析_第2頁
在STATA中開展主成分分析_第3頁
在STATA中開展主成分分析_第4頁
在STATA中開展主成分分析_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——在STATA中開展主成分分析主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個指標(biāo)轉(zhuǎn)化為較少的綜合指標(biāo)。轉(zhuǎn)化生成的綜合指標(biāo)即稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分互不相關(guān)。Stata對主成分分析的主要內(nèi)容包括:主成分估計(jì)、主成分分析的恰當(dāng)性(包括負(fù)偏協(xié)方差矩陣和負(fù)偏相關(guān)系數(shù)矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復(fù)相關(guān)系數(shù)、共同度等指標(biāo)測度)、主成分的旋轉(zhuǎn)、預(yù)計(jì)、各種檢驗(yàn)、碎石圖、得分圖、載荷圖等。yij?ai'bj??ij,i?1,2,?,n主成分的模型表達(dá)式為:

pC?V?V???ivivi?i?1vi?vj?0??diag(?1,?2,?,?p),?1??2????pj?1,2,?,p

其中,a稱為得分,b稱為載荷。主成分分析主要的分析方法是對相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)進(jìn)行特征值分析。

Stata中可以通過負(fù)偏相關(guān)系數(shù)矩陣、負(fù)相關(guān)系數(shù)平方和KMO值對主成分分析的恰當(dāng)性進(jìn)行分析。負(fù)偏相關(guān)系數(shù)矩陣即變量之間兩兩偏相關(guān)系數(shù)的負(fù)數(shù)。非對角線元素則為負(fù)的偏相關(guān)系數(shù)。假使變量之間存在較強(qiáng)的共性,則偏相關(guān)系數(shù)比較低。因此,假使矩陣中偏相關(guān)系數(shù)較高的個數(shù)比較多,說明某一些變量與另外一些變量的相關(guān)性比較低,主成分模型可能不適用。這時,主成分分析不能得到很好的數(shù)據(jù)約化效果。

Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關(guān)關(guān)系的強(qiáng)弱的重要指標(biāo),是通過比較兩個變量的相關(guān)系數(shù)與偏相關(guān)系數(shù)得到的。KMO介于0于1之間。KMO越高,說明變量的共性越強(qiáng)。假使偏相關(guān)系數(shù)相對于相關(guān)系數(shù)比較高,則KMO比較低,主成分分析不能起到很好的數(shù)據(jù)約化效果。根據(jù)Kaiser(1974),一般的判斷標(biāo)準(zhǔn)如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,十分差(miserable);0.60-0.69,勉強(qiáng)接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,十分好(marvelous)。

SMC即一個變量與其他所有變量的復(fù)相關(guān)系數(shù)的平方,也就是復(fù)回歸方程的可決系數(shù)。SMC比較高說明變量的線性關(guān)系越強(qiáng),共性越強(qiáng),主成分分析就越適合。

成分載荷、KMO、SMC等指標(biāo)都可以通過extat命令進(jìn)行分析。

多元方差分析是方差分析在多元中的擴(kuò)展,即模型含有多個響應(yīng)變量。本章介紹多元(協(xié))方差分析以及霍特林(Hotelling)均值向量T檢驗(yàn)。

12.1主成分估計(jì)

Stata可以通過變量進(jìn)行主成分分析,也可以直接通過相關(guān)系數(shù)矩陣或協(xié)方差矩陣進(jìn)行。

(1)sysuseauto,clear

pcatrunkweightlengthheadroom

pcatrunkweightlengthheadroom,comp(2)covariance

(2)webusebg2,clear

pcabg2cost*,vce(normal)

12.2Estat

estat給出了幾個十分有用的工具,包括KMO、SMC等指標(biāo)。

webusebg2,clear

pcabg2cost*,vce(normal)estatantiestatkmoestatloadingsestatresidualsestatsmcestatsummarize

12.3預(yù)計(jì)

Stata可以通過predict預(yù)計(jì)變量得分、擬合值和殘差等。

webusebg2,clear

pcabg2cost*,vce(normal)

predictscorefitresidualq(備注:q代表殘差的平方和)

12.4碎石圖

碎石圖是判斷保存多少個主成分的重要方法。命令為screeplot。

webusebg2,clear

pcabg2cost*,vce(normal)screeplot

Screeplotofeigenvaluesafterpca2Eigenvalues.5111.523Number456

12.5得分圖、載荷圖

得分圖即不同主成分得分的散點(diǎn)圖。命令為scoreplot。

webusebg2,clear

pcabg2cost*,vce(normal)scoreplot

Scorevariables(pca)4Scoresforcomponent2-4-6-202-4-20Scoresforcomponent124載荷圖即不同主成分載荷的散點(diǎn)圖。命令為loadingplot。

webusebg2,clear

pcabg2cost*,vce(normal)loadingplot

Componentloadings.6bg2cost1.5Component2bg2cost3bg2cost2.4bg2cost5bg2cost6.3bg2cost4-.4-.20.2Component1.4.6

12.6旋轉(zhuǎn)

對載荷進(jìn)行旋轉(zhuǎn)的命令格式為rotate。

webusebg2,clear

pcabg2cost*,vce(normal)rotate

例:對中國30個省市自治區(qū)經(jīng)濟(jì)發(fā)展基本狀況的八項(xiàng)指標(biāo)主成分分析,原始數(shù)據(jù)如下表:

居民

省份

GDP(億元)

消費(fèi)水平

固定資產(chǎn)投資

職工平均工資

貨物周轉(zhuǎn)量(億噸公里)x5758.92703.45925.52562.23658.77033.91157.81690.94300.94974.95843.22396.22285.55165.12526.42349.84428.42079597.71490.31578.7805.3821.335.5

居民消費(fèi)價格指數(shù)(上年100)x6105.1105.4106.2107.2105.7104.6105.1105.6105.8105.4105106.2104.6106105.3107106.3106105.6107.8106.9105.6105.1107.6105.7105.7

商品零售價格指數(shù)(上年x7104.4105.1106.7107.2104.7105.3106.2105.8105.3104.9106.3106.3105.7106.1104.9107.5106.3105.6106107.6106.7105105.3107.2106.1103.9100)

x8104131250323031100248740.2247698406.97624.525121677994083211162152138499.6629592602813455115536542560721103.15755.9147623111.15144.648.19工業(yè)總產(chǎn)值(億元)

(億元)(元)

(元)x2

x33814.73389.88866.63531.25475.45038.936564823.1932367475207.74745.4

x4563284174824756258282611427729234862304631667341462636325702210002481622739248703311025660218642698525038246022403047280

area北京天津河北山西內(nèi)蒙古遼寧吉林黑龍江上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西海南重慶四川貴州云南西藏

x1

10488.03203466354.381400016188.616938.737761.813461.576424.06

8310

65706187810875917039

962510019.1

13698.152734321486.92138938874.176480.3331072.0618407.7811330.3811156.647171.581459.235096.6612506.253333.45700.1395.91

63775753

10823.1110361

5656516029.8

30312.611101315300.6

957315435.9587710490.6740671456103655098356072442645533504

564755343756.4705.43979.67127.81864.53435.9309.9

2640410107.8

35696.461439010868.7

陜西甘肅青海寧夏新疆

6851.323176.11961.531098.514203.41

62904869583071935542

4614.41712.8583.2828.92260

2594224017309833071924687

20271594.9335.7703.61273

106.4108.2110.1108.5108.1

106.9107.9110.6108.5108.5

7480.83667.51103.11366.54276.1

數(shù)據(jù):來源于2023年《中國統(tǒng)計(jì)年鑒》

程序:

clear

*定義變量的標(biāo)簽labelvararea省份

labelvarx1\億元)\labelvarx2\居民消費(fèi)水平(元)\labelvarx3\固定資產(chǎn)投資(億元)\labelvarx4\職工平均工資(元)\labelvarx5\貨物周轉(zhuǎn)量(億噸公里)\labelvarx6\居民消費(fèi)價格指數(shù)(上年100)\labelvarx7\商品零售價格指數(shù)(上年100)\labelvarx8\工業(yè)總產(chǎn)值(億元)\

describe

pcax1-x8/*主成分估計(jì)*/

estatkmo/*KMO檢驗(yàn),越高越好*/estatsmc/*SMC檢驗(yàn),值越高越好*/

screeplot/*碎石圖(特征值等于1處的水平線標(biāo)示保存主成分的分界點(diǎn))*/

predictscorefitresidualq/*預(yù)計(jì)變量得分、擬合值和殘差以及殘差的平方和*/predictf1f2f3predictq1q2q3

scoreplot,mlabel(area)yline(0)xline(0)/*得分圖1*/scoreplot,xtitle(\經(jīng)濟(jì)社會總量\人民生活水

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論