![《多元統(tǒng)計(jì)分析-基于R(第3版)》課件 第9章-主成分分析_第1頁(yè)](http://file4.renrendoc.com/view2/M02/3C/27/wKhkFmap6MiAbg4oAADnSFDGeKw192.jpg)
![《多元統(tǒng)計(jì)分析-基于R(第3版)》課件 第9章-主成分分析_第2頁(yè)](http://file4.renrendoc.com/view2/M02/3C/27/wKhkFmap6MiAbg4oAADnSFDGeKw1922.jpg)
![《多元統(tǒng)計(jì)分析-基于R(第3版)》課件 第9章-主成分分析_第3頁(yè)](http://file4.renrendoc.com/view2/M02/3C/27/wKhkFmap6MiAbg4oAADnSFDGeKw1923.jpg)
![《多元統(tǒng)計(jì)分析-基于R(第3版)》課件 第9章-主成分分析_第4頁(yè)](http://file4.renrendoc.com/view2/M02/3C/27/wKhkFmap6MiAbg4oAADnSFDGeKw1924.jpg)
![《多元統(tǒng)計(jì)分析-基于R(第3版)》課件 第9章-主成分分析_第5頁(yè)](http://file4.renrendoc.com/view2/M02/3C/27/wKhkFmap6MiAbg4oAADnSFDGeKw1925.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主編:費(fèi)宇中國(guó)人民大學(xué)出版社第9章主成分分析2024/7/312
主成分分析(principalcomponentanalysis,PCA)是將具有相關(guān)關(guān)系的多個(gè)變量有效地轉(zhuǎn)化為少數(shù)幾個(gè)綜合變量來(lái)處理,從而簡(jiǎn)化相關(guān)統(tǒng)計(jì)分析的一種多元統(tǒng)計(jì)方法.主成分分析也稱主分量分析,是由Pearson于1901年首先提出,到1933年由Hotelling加以完善后發(fā)展起來(lái)的.目前,在涉及到高維數(shù)據(jù)分析處理的諸多領(lǐng)域主成分分析都有廣泛的應(yīng)用.本章介紹主成分的基本思想、總體主成分和樣本主成分的定義、性質(zhì)、主成分的計(jì)算和解釋、主成分回歸等.2024/7/313
基本思想:用個(gè)數(shù)較少,但是保留了原始變量的大部分信息幾個(gè)不相關(guān)的綜合變量(即主成分)來(lái)代替原來(lái)較多的變量,從而可以簡(jiǎn)化數(shù)據(jù),對(duì)原來(lái)復(fù)雜的數(shù)據(jù)關(guān)系進(jìn)行簡(jiǎn)明有效的統(tǒng)計(jì)分析.
主成分分析的本質(zhì)就是“有效降維”,既要減少變量個(gè)數(shù),又不能損失太多信息.換句話說(shuō),就是“降噪”、“擠水分”或者說(shuō)“冗余消除”,將高維數(shù)據(jù)有效地轉(zhuǎn)化為低維數(shù)據(jù)來(lái)處理.揭示變量之間的內(nèi)在聯(lián)系,進(jìn)而分析解決實(shí)際問(wèn)題.
第9章
主要內(nèi)容9.1
主成分分析的基本思想9.2
總體主成分
主成分的含義、計(jì)算、主要性質(zhì)、主成分個(gè)數(shù)的確定、變量的標(biāo)準(zhǔn)化.9.3
樣本主成分
樣本主成分的性質(zhì)和計(jì)算;主成分分析的步驟和相關(guān)R函數(shù).9.4案例:主成分回歸分析2024/7/314
9.1
主成分分析的基本思想2024/7/315
實(shí)際統(tǒng)計(jì)分析中,經(jīng)常處理多變量、大維數(shù)數(shù)據(jù)分析問(wèn)題,分析過(guò)程較復(fù)雜,難度較大.全部變量中可能存在信息的重疊.為去除這些信息重疊,希望用個(gè)數(shù)較少,但是保留了原始變量的大部分信息幾個(gè)不相關(guān)的綜合變量(即主成分)來(lái)代替原來(lái)較多的變量,達(dá)到降維的目的,從而進(jìn)行簡(jiǎn)明有效的統(tǒng)計(jì)分析.主成分分析中的信息,就是指變量的變異性,常用標(biāo)準(zhǔn)差或方差來(lái)表示它.9.2總體主成分
9.2.1
主成分的含義
以二維正態(tài)分布樣本點(diǎn)來(lái)直觀說(shuō)明:如圖,設(shè)有n個(gè)樣品點(diǎn)大致分布在平面上一個(gè)橢圓內(nèi):2024/7/316
圖9-1二維情形主成分示意圖二維情形主成分的解釋
樣本點(diǎn)之間的差異是由
x1和
x2的變化引起的,兩者變動(dòng)的相差不大,但如果用新坐標(biāo)
y1和
y2來(lái)代替,易見(jiàn),這些樣本點(diǎn)的差異主要體現(xiàn)在
y1軸上,n個(gè)點(diǎn)在
y1軸方向上的方差達(dá)到最大,即在此方向上包含了有關(guān)n個(gè)樣品的最多的信息.
將這些點(diǎn)投影到
y1軸方向能使信息的損失最小,如果
y1軸方向的差異占了全部樣本點(diǎn)差異的絕大部分,那么將
y2忽略是合理的,這樣就把兩個(gè)變量簡(jiǎn)化為一個(gè),顯然這里的
y1軸代表了數(shù)據(jù)變化最大的方向,稱之為第一主成分.y2稱為第二主成分,并要求已經(jīng)包含在
y1中的信息不出現(xiàn)在
y2中,即2024/7/317
二維情形主成分的解釋(續(xù))
注意兩個(gè)主成分
y1和
y2都是
x1和
x2的線性組合:其中P為旋轉(zhuǎn)變換矩陣,它是正交矩陣.
極端情形1:橢圓變成圓,第一主成分
y1只體現(xiàn)了原始二維樣品點(diǎn)約一半的信息,若此時(shí)將
y2忽略,則將損失約50%的信息,這顯然是不可取的.
極端情形2:橢圓扁平到了極限,變成
y1軸上一條線段,第一主成分
y1幾乎包含有二維樣品點(diǎn)的全部信息,僅用
y1代替原始數(shù)據(jù)幾乎不會(huì)有任何的信息損失,此時(shí)降維效果是非常理想的.2024/7/318
利用R程序來(lái)模擬這一過(guò)程(先下載安裝mvtnorm)2024/7/319
>library(mvtnorm)
#先加載多元正態(tài)及t分布程序包mvtnorm>set.seed(8)
#設(shè)置隨機(jī)數(shù)種子>sigma<-matrix(c(1,0.9,0.9,1),ncol=2)#設(shè)定協(xié)方差矩陣,相關(guān)系數(shù)為0.9>mnorm<-rmvnorm(n=200,mean=c(0,0),sigma=sigma)>plot(mnorm)#產(chǎn)生200個(gè)二維正態(tài)分布隨機(jī)數(shù)并畫(huà)散點(diǎn)圖(見(jiàn)圖9-2)>abline(a=0,b=1);abline(a=0,b=-1)#畫(huà)坐標(biāo)軸旋轉(zhuǎn)45度后的二條直線>eig<-eigen(cor(mnorm));eig#求特征值和特征向量>vector1<-eig$vectors[,1];vector2<-eig$vectors[,2]>y1<-scale(mnorm)%*%vector1;y2<-scale(mnorm)%*%vector2#將數(shù)據(jù)標(biāo)準(zhǔn)化>plot(y1,y2,ylim=c(-2,2));abline(h=0,v=0)
#見(jiàn)圖9-3>cbind(var(y1),var(y2),cor(y1,y2))
[,1][,2][,3][1,]1.885428
0.11457184.418324e-16#可見(jiàn)y1方差很大為1.885,y2方差相對(duì)很小為0.115,且y1和y2不相關(guān)
#可以認(rèn)為原來(lái)二維數(shù)據(jù)的變化都體現(xiàn)在y1一個(gè)維度上了2024/7/3110
圖9-2二維正態(tài)分布模擬數(shù)據(jù)的主成分示意圖2024/7/3111
圖9-3坐標(biāo)軸旋轉(zhuǎn)以后的散點(diǎn)圖一般,設(shè)總體的p個(gè)主成分為:
第i
個(gè)主成分yi的方差為y1
是
X的一切線性組合中方差最大者;y2
是與y1
不相關(guān)是
X的一切線性組合中方差最大者;······2024/7/3112
9.2.2主成分的計(jì)算2024/7/3113
9.2.3主成分的主要性質(zhì)2024/7/3114
設(shè)總體X的p個(gè)主成分所成向量為:性質(zhì)1
:性質(zhì)2:性質(zhì)3:載荷與載荷矩陣:2024/7/3115
9.2.4主成分個(gè)數(shù)的確定2024/7/3116
第i
個(gè)主成分yi的方差貢獻(xiàn)率為:通常取使得累積貢獻(xiàn)率滿足的最小的k為主成分個(gè)數(shù).有的文獻(xiàn)取累積貢獻(xiàn)率首次超過(guò)85%的k.
9.2.5變量的標(biāo)準(zhǔn)化及意義從總體協(xié)方差矩陣Σ出發(fā)做主成分分析傾向于反映方差大的變量的信息,會(huì)出現(xiàn)“大數(shù)吃小數(shù)”的現(xiàn)象.為了均等地對(duì)待每一個(gè)原始變量,常常將各原始變量作標(biāo)準(zhǔn)化處理:標(biāo)準(zhǔn)化后的總體
的協(xié)方差矩陣恰好是原總體X的相關(guān)系數(shù)矩陣
ρ.綜上討論,既可從Σ出發(fā),也可以從ρ出發(fā)做主成分分析,考慮到現(xiàn)實(shí)經(jīng)濟(jì)意義,后者用得更多.2024/7/3117
9.3樣本主成分實(shí)際問(wèn)題中Σ和ρ往往是未知的,需要用樣本的協(xié)方差矩陣
S和樣本的相關(guān)系數(shù)矩陣
R來(lái)估計(jì):2024/7/3118
9.3.1樣本主成分的性質(zhì)和計(jì)算設(shè)S的p個(gè)特征值為,對(duì)應(yīng)的單位正交特征向量為,則樣本的第
i個(gè)主成分為性質(zhì)1
:性質(zhì)2
:性質(zhì)3
:性質(zhì)4:2024/7/3119
9.3.2主成分分析的步驟
實(shí)際問(wèn)題中更常用的是從樣本相關(guān)系數(shù)矩陣R
出發(fā)進(jìn)行主成分分析,方法是用
R
替換
S,其余操作不變,其步驟可歸納為:將原始樣本標(biāo)準(zhǔn)化求樣本的相關(guān)系數(shù)矩陣
R
求R的特征值以及對(duì)應(yīng)的單位正交特征向量按主成分累積貢獻(xiàn)率超過(guò)80%確定主成分的個(gè)數(shù)k,并寫(xiě)出主成分表達(dá)式為(5)對(duì)分析結(jié)果做統(tǒng)計(jì)意義和實(shí)際意義兩方面的解釋.2024/7/3120
主成分分析特別說(shuō)明:2024/7/3121
9.3.2
(續(xù))主成分相關(guān)的R函數(shù)1.
princomp函數(shù)(這是主成分分析最常用的函數(shù))princomp(x,cor=FALSE,score=TRUE,…)2.summary函數(shù)(提取主成分的信息)summary(object,loadings=FALSE,…)3.loadings函數(shù)(顯示主成分的載荷陣)loadings(object)4.
predict函數(shù)(預(yù)測(cè)主成分的值)predict(object,newdata,…)5.
screeplot函數(shù)(畫(huà)出主成分的碎石圖)screeplot(object,type=c(“barplot”,“l(fā)ines”,…)2024/7/3122
2024/7/3123表9-1給出了52名學(xué)生的數(shù)學(xué)
(x1)、物理
(x2)、化學(xué)
(x3)、語(yǔ)文
(x4)、歷史
(x5)和英語(yǔ)
(x6)成績(jī),對(duì)其進(jìn)行主成分分析.例9.1學(xué)生六門(mén)課成績(jī)數(shù)據(jù)的主成分分析>setwd("C:/data")#設(shè)定工作路徑>d9.1<-read.csv(“exam9.1.csv”,header=T)#讀入數(shù)據(jù)>R=round(cor(d9.1),3);R#樣本相關(guān)系數(shù)陣保留三位小數(shù)
x1x2x3x4x5x6x11.0000.6470.696-0.561-0.456-0.439x2
0.6471.0000.573-0.503-0.351-0.458x30.6960.5731.000
-0.380-0.274-0.244x4-0.561-0.503-0.3801.0000.8130.835x5-0.456-0.351-0.2740.8131.0000.819x6-0.439-0.458-0.244
0.8350.8191.000解
先讀取數(shù)據(jù),求樣本相關(guān)系數(shù)矩陣,R程序如下:表6-017個(gè)地質(zhì)勘探點(diǎn)樣品的標(biāo)準(zhǔn)化數(shù)據(jù)2024/7/3124
學(xué)號(hào)x1x2x3x4x5x6165617284817927777766470553676349656757478847562716456671675265576831007941675078694975163558678453586656……………………………………4599100995363604678685275746647729073768079486964606874804952626510096100507072567482745172747588918652687470878783表
9-152名學(xué)生六門(mén)課程成績(jī)數(shù)據(jù)2024/7/3125
易見(jiàn),文科三門(mén)課程語(yǔ)文(x4)、歷史(x5)和英語(yǔ)(x6)相關(guān)性較強(qiáng);理科三門(mén)課程數(shù)學(xué)(x1)、物理(x2)和化學(xué)(x3)相關(guān)性也較強(qiáng).可以進(jìn)一步作主成分分析,求樣本相關(guān)矩陣的特征值和主成分載荷.
由下面的R程序運(yùn)行結(jié)果可知主成分的標(biāo)準(zhǔn)差,即相關(guān)系數(shù)矩陣的六個(gè)特征值開(kāi)方各為:同時(shí)前兩個(gè)主成分的累積貢獻(xiàn)率為0.618+0.210=0.829,已經(jīng)超過(guò)80%,所以取兩個(gè)主成分就可以了.2024/7/3126>PCA9.1=princomp(d9.1,cor=T)
#用樣本相關(guān)系數(shù)陣做主成分分析>PCA9.1Call:princomp(x=d9.1,cor=T)Standarddeviations:Comp.1Comp.2Comp.3Comp.4Comp.5Comp.61.926
1.1240.6640.5200.4120.3836variablesand52observations.>summary(PCA9.1,loadings=T)
#列出主成分分析結(jié)果Importanceofcomponents:
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Standarddeviation1.926
1.124
0.6640.5200.4120.383ProportionofVariance
0.6180.2100.0730.0450.0280.024CumulativeProportion
0.6180.8290.9020.9470.9761.000Loadings:
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6x1-0.412-0.3760.2160.788-0.145x2-0.381-0.357-0.806
-0.1180.212
0.141x3-0.332-0.563
0.467-0.588x40.461-0.279
0.599-0.590x50.421-0.415-0.250-0.738
-0.205x60.430-0.4070.1460.1340.2220.749第一主成分和第二主成分分別為:參見(jiàn)教材分析,可將將它們分別理解為“課程差異主成分”
和“課程均衡主成分”.2024/7/31
27>round(predict(PCA9.1),3)
#作預(yù)測(cè),計(jì)算主成分得分并解釋>screeplot(PCA9.1,type=“l(fā)ines”)
#畫(huà)線型碎石圖(見(jiàn)圖9-4)>load=loadings(PCA9.1)
#提取主成分載荷矩陣為load>plot(load[,1:2],xlim=c(-0.6,0.6),ylim=c(-0.6,0.6))#作散點(diǎn)圖>rnames=c(“數(shù)學(xué)”,“物理”,“化學(xué)”,“語(yǔ)文”,“歷史”,“英語(yǔ)”)#命名>text(load[,1],load[,2],labels=rnames,adj=c(-0.3,1.5))#用中文為散點(diǎn)圖標(biāo)注>abline(h=0,v=0,lty=3)
#用虛線劃分四個(gè)象限(見(jiàn)圖9-5)2024/7/31
28圖9-452名學(xué)生六門(mén)課程成績(jī)的主成分線型碎石圖2024/7/31
29圖9-5前兩個(gè)主成分的載荷散點(diǎn)圖2024/7/31
30圖9-652名學(xué)生成績(jī)數(shù)據(jù)的雙坐標(biāo)散點(diǎn)圖>biplot(PCA9.1,scale=0.5)
#繪制52個(gè)樣本點(diǎn)關(guān)于前兩個(gè)主成分的散點(diǎn)圖2024/7/3131
由于第一主成分是文理課程差異因子,理科課程在第一主成分上的載荷絕對(duì)值大且取負(fù)值,文科課程在第一主成分上的載荷絕對(duì)值大且取正值,因此圖中Comp.1軸方向靠左的樣本點(diǎn),如6,7和45號(hào)樣本點(diǎn),對(duì)應(yīng)理科成績(jī)好、文科成績(jī)差的學(xué)生;相對(duì)的Comp.1軸方向靠右的樣本點(diǎn),如30和49號(hào)樣本點(diǎn),對(duì)應(yīng)文科成績(jī)好、理科成績(jī)差的學(xué)生.又第二主成分表示課程均衡因子,在圖中Comp.2軸方向靠下的樣本點(diǎn),如26,33號(hào)樣本點(diǎn),對(duì)應(yīng)各科成績(jī)都較好學(xué)生,相對(duì)的Comp.2軸方向靠上的樣本點(diǎn),如3,5和8號(hào)樣本點(diǎn),對(duì)應(yīng)各科成績(jī)都較差的學(xué)生,而居中的樣本點(diǎn),如42,24和39號(hào)樣本點(diǎn),對(duì)應(yīng)各科成績(jī)都屬于中等且差異不大的學(xué)生.這樣就可以對(duì)52名學(xué)生按對(duì)應(yīng)樣本點(diǎn)所在的位置進(jìn)行大致分類.2024/7/3132
在某沉積盆地一坳陷區(qū)的17個(gè)取樣點(diǎn)經(jīng)勘探測(cè)定了六個(gè)地質(zhì)變量:x1為有機(jī)碳(%);x2為生油層埋深(米);x3油層孔隙度(%);x4為儲(chǔ)層厚度(米);x5為地下水含碘量(p.p.m);x6為地下水礦化度(克/升),見(jiàn)表9-2.要求根據(jù)這些數(shù)據(jù)進(jìn)行主成分分析.例9.2石油勘探樣品數(shù)據(jù)分析(數(shù)據(jù)exam9.2)表6-017個(gè)地質(zhì)勘探點(diǎn)樣品的標(biāo)準(zhǔn)化數(shù)據(jù)2024/7/3133
點(diǎn)號(hào)x1x2x3x4x5x61-0.9142-0.7119-0.9293-0.4385-0.57100.73612-0.3095-0.5206-1.3309-0.2764-0.57100.57143-1.0654-0.71190.2756-0.7626-1.09570.90074-1.3073-0.95111.25740.3718-1.09571.394650.1743-0.47270.3203-0.9895-0.0463-0.25186-0.8235-0.59230.40951.3441-0.83330.406870.90002.1583-0.1260-0.85981.7901-1.89838-0.0071-0.3532-1.4201-1.0219-0.0463-0.581191.20231.6799-0.7508-0.60052.3148-1.2397100.1743-0.3532-0.97391.3441-0.04630.2421112.26061.44070.72192.64050.7407-1.075012-1.4282-0.95110.0079-0.7950-1.09571.065313-0.3397-0.52062.1499-0.1144-0.57100.4068140.7790-0.23361.19700.69590.21610.9104150.41620.72321.0789-0.30880.47840.745716-0.6118-0.71190.36490.0477-0.57101.5593170.90001.08200.1418-0.27641.0031-0.5811表
9-217個(gè)地質(zhì)勘探點(diǎn)樣品的標(biāo)準(zhǔn)化數(shù)據(jù)2024/7/3134>setwd("C:/data")
#設(shè)定工作路徑>d9.2<-read.csv("exam9.2.csv",header=T)#將exam9.2數(shù)據(jù)讀入到d9.2中>R=round(cor(d9.2),3);R
#求樣本相關(guān)系數(shù)矩陣
x1x2x3x4
x5x6x11.0000.8400.003
0.3470.839-0.747x20.8401.000-0.051
0.077
0.939-0.839x30.003-0.0511.0000.259-0.1640.285x40.3470.0770.259
1.000-0.0370.022x50.8390.939-0.164-0.0371.000-0.827x6-0.747-0.8390.2850.022-0.8271.000
易見(jiàn),x2與x5相關(guān)性最強(qiáng),其絕對(duì)值在0.9~0.95,x1與x2,x1與x5,x2與x6,x5與x6的相關(guān)性較強(qiáng),其絕對(duì)值在0.8~0.9,說(shuō)明六個(gè)變量之間確實(shí)存在較強(qiáng)的相關(guān)關(guān)系,應(yīng)當(dāng)進(jìn)行“降維”處理,可以作主成分分析.2024/7/3135>options(digits=3)
#設(shè)置小數(shù)點(diǎn)位數(shù)為3>PCA9.2=princomp(d9.2,cor=T,scores=T);PCA9.2#作主成分分析Call:princomp(x=d9.2,cor=T,scores=T)Standarddeviations:Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6
1.8851.1700.8600.4300.3400.197>summary(PCA9.2,loadings=T)
#列出主成分分析結(jié)果Importanceofcomponents:
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Standarddeviation
1.8851.1700.8600.43010.33990.19653ProportionofVariance0.5920.2280.1230.03080.01930.00644CumulativeProportion0.592
0.8200.9430.97430.99361.00000Loadings:
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6x10.4850.2390.2910.7350.274x20.510-0.166-0.587
0.600x30.646-0.728-0.181x40.7020.640-0.254-0.153x50.509-0.1540.409-0.187-0.713x6-0.484
0.1590.837-0.1180.155前兩個(gè)主成分的累積貢獻(xiàn)率為0.592+0.228=0.82,已經(jīng)超過(guò)80%,所以只需取兩個(gè)主成分.第一主成分和第二主成分各為(為簡(jiǎn)明起見(jiàn),樣本主成分表達(dá)式中的所有“*”省略,以下同):2024/7/3136
四個(gè)變量x1
(有機(jī)碳),x2(生油層埋深),x5(地下水含碘量)和x6(地下水礦化度)在主成分z1上載荷較大,故第一主成分z1可解釋為“生油條件”主成分;第二主成分z2與x3(油層孔隙度)和x4(儲(chǔ)層厚度)這兩個(gè)變量關(guān)系特別密切,可解釋為“儲(chǔ)油條件”主成分.這樣的分析結(jié)果與石油地質(zhì)理論是相符合的.2024/7/3137>screeplot(PCA6.1,type=“l(fā)ines”)#畫(huà)碎石圖,用直方圖類型(見(jiàn)圖9-7)圖9-717個(gè)石油地質(zhì)勘測(cè)點(diǎn)樣本數(shù)據(jù)的主成分碎石圖2024/7/3138用主成分載荷矩陣前兩列數(shù)據(jù)作主成分載荷散點(diǎn)圖(見(jiàn)圖9-8),R程序如下:.load=loadings(PCA9.2)#提取主成分載荷矩陣plot(load[,1:2],xlim=c(-0.5,1),ylim=c(-0.2,0.8))
#作散點(diǎn)圖rnames=c(“x1有機(jī)碳”,“x2生油層埋深”,“x3油層孔隙度”,“x4儲(chǔ)層厚度","x5地下水含碘量","x6地下水礦化度")#見(jiàn)圖9-8text(load[,1],load[,2],labels=rnames,cex=0.8,adj=c(-0.1,0.6))
#用中文為散點(diǎn)標(biāo)號(hào)abline(h=0,v=0,lty=3)
#用虛線劃分象限六個(gè)變量在主成分z1和z2坐標(biāo)面上的載荷散點(diǎn)圖表明了兩個(gè)主成分z1和z2具有明顯的“生油”和“儲(chǔ)油”傾向特征.2024/7/3139
圖9-8兩個(gè)主成分的載荷散點(diǎn)圖2024/7/3140>A=round(PCA9.2$scores,3)
#計(jì)算主成分得分,取3位小數(shù)>B=round(apply(A[,1:2],1,crossprod),2)
#按行加總前2個(gè)主成分上的載荷平方>cbind(A,"綜合得分“=B,"排名“=rank(B))
#按列合并主成分得分、綜合得分和排名
Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6綜合得分
排名
[1,]
-1.333
-1.1500.6350.136-0.150
-0.015
3.10
9
[2,]
-0.798
-1.1751.0730.252
0.1530.261
2.024
[3,]
-1.901
-0.540
-0.429
-0.187-0.047
0.287
3.9112
[4,]
-2.421
0.956
-0.424
-0.124-0.402-0.125
6.7814
[5,]
-0.037
-0.640
-0.669
-0.357
0.749
-0.144
0.412
[6,]
-1.2091.0340.836
-0.626-0.472-0.190
2.536
[7,]3.560
-1.001
-0.862
-0.504-0.495
0.093
13.6816
[8,]0.265
-1.930
0.606
-0.359
0.514
0.0033.8011
[9,]3.474
-1.110
-0.2160.441-0.255-0.37513.30
15[10,]0.0420.2641.8140.143-0.052-0.2290.071[11,]3.0332.6361.183
-0.323
0.189
0.30416.1517[12,]
-2.269
-0.814
-0.245
-0.119-0.2010.0955.8113[13,]
-1.0471.250
-1.458
-0.573
0.258-0.144
2.667[14,]
-0.0401.500
-0.2940.678
0.464-0.181
2.255[15,]0.4510.589
-1.0980.725-0.161
0.258
0.553[16,]
-1.6920.285
-0.0300.668-0.095
0.000
2.948[17,]1.922
-0.152
-0.4200.129
0.003
0.102
3.7210
11號(hào)樣本點(diǎn)綜合排名最高,為17分;7號(hào)和9號(hào)排名次之,分別為16分和15分;之后樣本點(diǎn)得分排名從高到低依次為4、12、3、8和17號(hào).
利用函數(shù)biplot來(lái)繪制它們?cè)趜1和z2構(gòu)成的坐標(biāo)面
z1Oz2上的散點(diǎn)圖,并且加入六個(gè)變量在同一坐標(biāo)面
z1Oz2上的載荷散點(diǎn)圖,得到所謂的“雙坐標(biāo)”散點(diǎn)圖(見(jiàn)圖9-9).
借助該圖可以對(duì)17個(gè)勘測(cè)樣本點(diǎn)進(jìn)行大致分類:11號(hào)樣本點(diǎn)獨(dú)居右上,它在
“生油”主成分z1和“儲(chǔ)油”主成分z2上得分均高,應(yīng)該首先重點(diǎn)關(guān)注.7、9號(hào)樣本點(diǎn)相鄰且最靠右,且在z1得分很高,可合為一類,次重點(diǎn)考慮;此外,在z1和z2上至少有一個(gè)得分較高的3、4、8、12和17號(hào)樣本點(diǎn)也應(yīng)該重點(diǎn)考察.這與上面的綜合得分和排名一致.2024/7/3141
2024/7/3142
圖9-917個(gè)石油地質(zhì)勘測(cè)點(diǎn)樣本數(shù)據(jù)的雙坐標(biāo)散點(diǎn)圖>biplot(PCA9.2,scale=0.5)#繪制17個(gè)樣本點(diǎn)和6個(gè)變量對(duì)z1和z2的散點(diǎn)圖9.4案例:主成分回歸分析
案例9.1(數(shù)據(jù)文件為case9.1)表9-3給出了2019年全國(guó)31個(gè)地區(qū)相關(guān)數(shù)據(jù).它們分別為:貨運(yùn)量x1(萬(wàn)噸),貨物周轉(zhuǎn)量x2(億噸公里),GDPx3(億元),人均GDPx4(元),城鎮(zhèn)居民人均可支配收入y(元).根據(jù)這些數(shù)據(jù)做線性回歸分析和主成分回歸分析,并比較它們的異同.2024/7/3143
2024/7/3144
表9-32019年全國(guó)部分地區(qū)貨運(yùn)量、GDP、人均可支配收入等數(shù)據(jù)城市x1x2x3x4y北京22808108935371.316422073848.5天津50093266214104.39037146118.9河北2424451356335104.54634835737.7山西192192546617026.74572433262.4內(nèi)蒙古182702458717212.56785240782.5遼寧178253892124909.55719139777.2吉林431931
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 漯河2024年河南漯河市城市管理局所屬事業(yè)單位人才引進(jìn)13人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年中國(guó)雙眼脈沖爐市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)三字扣市場(chǎng)調(diào)查研究報(bào)告
- 2025至2031年中國(guó)鎂龍板行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)艇首纜行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)紫砂段泥花盆行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)生凍蝦仁行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年機(jī)械設(shè)備外圍防護(hù)罩項(xiàng)目可行性研究報(bào)告
- 2025年敲擊系統(tǒng)連桿軸項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國(guó)多金屬?gòu)?fù)合鋁軋翅片管行業(yè)投資前景及策略咨詢研究報(bào)告
- (完整word版)大格子作文紙模板(帶字?jǐn)?shù)統(tǒng)計(jì))
- 高考語(yǔ)文復(fù)習(xí):小說(shuō)閱讀主觀題題型探究-解讀《理水》
- revit簡(jiǎn)單小別墅教程
- 第二章 第一節(jié) CT設(shè)備基本運(yùn)行條件
- 藍(lán)印花布鑒賞課件
- 血液灌流流程及注意事項(xiàng)詳細(xì)圖解
- 注水井洗井操作規(guī)程
- 貝克曼梁測(cè)定路基路面回彈彎沉
- 某道路拓寬工程施工組織設(shè)計(jì)
- 敏感紅血絲皮膚專題教學(xué)講解培訓(xùn)課件
- 機(jī)電安裝施工質(zhì)量標(biāo)準(zhǔn)化實(shí)施圖冊(cè)
評(píng)論
0/150
提交評(píng)論