版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、1應用多元統(tǒng)計分析應用多元統(tǒng)計分析第七章第七章 主成分分主成分分析析2第七章第七章 主成分分主成分分析析目目 錄錄7.1 總體的主成分總體的主成分7.2 樣本的主成分樣本的主成分3第七章第七章 主成分分主成分分析析 多變量分析多變量分析(Multivariate Analysis)是處理是處理多變量多變量(多指標多指標)的統(tǒng)計問題。的統(tǒng)計問題。 多個變量之間常存在相關性,人們希望用多個變量之間常存在相關性,人們希望用較少不相關的變量來代替原來較多且相關的較少不相關的變量來代替原來較多且相關的變量。變量。 主成分就是要從原變量的各種線性組合中主成分就是要從原變量的各種線性組合中找出能集中反映原變
2、量信息的綜合變量。找出能集中反映原變量信息的綜合變量。4第七章第七章7.1 7.1 總體的主成分總體的主成分什么是主成分分什么是主成分分析析 主成分分析是將多個指標化為少數(shù)幾個綜合指標主成分分析是將多個指標化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法的一種統(tǒng)計分析方法. . 在實際問題中在實際問題中, ,研究多指標的問題是經(jīng)常遇到的研究多指標的問題是經(jīng)常遇到的問題問題. .由于變量個數(shù)太多由于變量個數(shù)太多, ,并且彼此之間存在著一定并且彼此之間存在著一定的相關性的相關性, ,勢必增加分析問題的復雜性勢必增加分析問題的復雜性. . 主成分分析就是設法把原來的多個指標重新組合主成分分析就是設法把原來的多
3、個指標重新組合成較少幾個新的互不相關的綜合變量來代替原來的成較少幾個新的互不相關的綜合變量來代替原來的變量變量; ;而且這幾個綜合變量又能夠盡可能多地反映原而且這幾個綜合變量又能夠盡可能多地反映原來變量的信息來變量的信息. . 利用這種降維的思想利用這種降維的思想, ,產(chǎn)生了主成分分析、因子產(chǎn)生了主成分分析、因子分析、典型相關分析等統(tǒng)計方法分析、典型相關分析等統(tǒng)計方法. .5第七章第七章 7.17.1總體的主成分總體的主成分什么是主成分什么是主成分 設設X=(=(X1,Xp)是是p維隨機向量維隨機向量, ,均值向量均值向量E(E(X)=,)=,協(xié)差陣協(xié)差陣D(D(X)=.)=.考慮它的線性變換
4、考慮它的線性變換: :易見易見: :(7.1.2)(7.1.1)6第七章第七章 7.17.1總體的主成分總體的主成分什么是主成分什么是主成分 假如我們希望用假如我們希望用Z1 1來代替原來的來代替原來的p個變量個變量X1,Xp , ,這就要求這就要求Z1 1盡可能多地反映原來盡可能多地反映原來p個個變量的信息變量的信息, ,這里所說的這里所說的“信息信息”用什么來表用什么來表達呢達呢? ?最經(jīng)典的方法是用最經(jīng)典的方法是用Z1 1的方差來表達的方差來表達. Var(Var(Z1 1) )越大越大, ,表示表示Z1 1包含的信息越多包含的信息越多. .由由( (7.1.2) )式看出式看出, ,對
5、對a1 1必須有某種限制必須有某種限制. .否則可使否則可使Var(Var(Z1 1).).常用的限制是常用的限制是: :a1 1a1 1 =1. =1. 若存在滿足以上約束的若存在滿足以上約束的a1 1, ,使使Var(Var(Z1 1) )達達最大最大, , Z1 1就稱為第一主成分就稱為第一主成分( (或主分量或主分量).).7第七章第七章 7.17.1總體的主成分總體的主成分什么是主成分什么是主成分 如果第一主成分不足以代表原來如果第一主成分不足以代表原來p個變量的個變量的絕大部分信息絕大部分信息. .考慮考慮X的第二個線性組合的第二個線性組合Z2 2 . . 為了有效地代表原變量組的
6、信息為了有效地代表原變量組的信息, ,Z1 1已體現(xiàn)已體現(xiàn)( (反映反映) )的信息不希望在的信息不希望在Z2 2中出現(xiàn)中出現(xiàn), ,用統(tǒng)計術語來用統(tǒng)計術語來講講, ,就是要求就是要求 Cov(Cov(Z2 2, ,Z1 1)=)=a2 2a1 1=0. (7.1.3)=0. (7.1.3)于是求于是求Z2 2時時, ,就是在約束就是在約束a2 2a2 2=1=1和和(7.1.3)(7.1.3)下下, ,求求a2 2使使Var(Var(Z2 2) )達最大達最大, ,所求之所求之Z2 2稱為第二主成分稱為第二主成分, ,類似地可求得第三主成分類似地可求得第三主成分,第四主成分第四主成分,.,.,
7、第第p主成分主成分 . .8第七章第七章 7.17.1總體的主成分總體的主成分什么是主成分什么是主成分 換言之換言之,若原數(shù)據(jù)有若原數(shù)據(jù)有p個變量,則恰好可個變量,則恰好可得到得到p個主成分個主成分: 1. 每個主成分都是原變量的線性組合每個主成分都是原變量的線性組合; 2. 不同主成分間互不相關(互相正交)不同主成分間互不相關(互相正交); 3. 主成分以其方差減少次序排列主成分以其方差減少次序排列: 第一主成分具有最大方差第一主成分具有最大方差, 第二主成分是與第一主成分正交的原變第二主成分是與第一主成分正交的原變量的線性組合中具有最大方差者量的線性組合中具有最大方差者, 其余主成分都有類
8、似的性質其余主成分都有類似的性質.9第七章第七章 7.17.1總體的主成分總體的主成分什么是主成分什么是主成分 或者說或者說,若原變量包含有一定的信息若原變量包含有一定的信息,則則全體主成分包含與原變量相同的信息全體主成分包含與原變量相同的信息. 方差反映了變量取值的離散程度,方差方差反映了變量取值的離散程度,方差大小表示了變量包含信息的多少大小表示了變量包含信息的多少. 第一主成分包含了盡可能多的信息第一主成分包含了盡可能多的信息, 不同的主成分包含的信息互不重復不同的主成分包含的信息互不重復; 第二主成分包含除第一主成分外剩余第二主成分包含除第一主成分外剩余信息中盡可能多的信息信息中盡可能
9、多的信息; 其余主成分都有類似的性質其余主成分都有類似的性質.10第七章第七章 7.17.1總體的主成分總體的主成分主成分的定義主成分的定義 定義定義7.1.17.1.1 設設X=(=(X1,Xp)為為p維維隨機向量隨機向量. .稱稱 Zi= =aiX 為為X的第的第i 主成分主成分( (i=1,2,=1,2,p),),如果如果: : aiai=1 (=1 (i=1,2,=1,2,p);); 當當i 1 1時時 aiaj=0 ( =0 ( j=1,=1,i-1); -1); Var( Var(Zi)= Max Var()= Max Var(X X).). =1,=1,aj =0( =0(j=1
10、,=1,i-1)-1) 11第七章第七章 7.17.1總體的主成分總體的主成分主成分的幾何意義主成分的幾何意義 從代數(shù)學觀點看主成分就是從代數(shù)學觀點看主成分就是p個變量的一些個變量的一些特殊的線性組合特殊的線性組合,而從幾何上看這些線性組合正而從幾何上看這些線性組合正是把是把X1,Xp構成的坐標系旋轉產(chǎn)生的新坐標構成的坐標系旋轉產(chǎn)生的新坐標系系,新坐標軸使之通過樣本變差最大的方向新坐標軸使之通過樣本變差最大的方向(或或者說具有最大的樣本方差者說具有最大的樣本方差). 設有設有n個觀測個觀測,每個觀測有每個觀測有p個變量個變量X1,Xp , 它們的綜合指標它們的綜合指標(主成分主成分)記為記為Z
11、1 1,Zp . 當當p=2時原變量為時原變量為X1, X2.設設(X1, X2 )服從二元服從二元正態(tài)分布正態(tài)分布,則樣品點則樣品點X(i) =(xi1, xi2 ) (i=1,2,n)的的散布圖散布圖(見下面圖形見下面圖形)在一個橢園內(nèi)分布著在一個橢園內(nèi)分布著.12第七章第七章 7.17.1總體的主成分總體的主成分主成分的幾何意義主成分的幾何意義 Z1Z213第七章第七章 7.17.1總體的主成分總體的主成分主成分的幾何意義主成分的幾何意義 對于二元正態(tài)隨機向量對于二元正態(tài)隨機向量,n個點散布在一個橢個點散布在一個橢園內(nèi)園內(nèi)(當當X1, X2相關性越強相關性越強,這個橢園就越扁這個橢園就越
12、扁). 若取橢園的長軸為坐標軸若取橢園的長軸為坐標軸Z1,橢園的短軸為橢園的短軸為Z2,這相當于在平面上作一個坐標變換這相當于在平面上作一個坐標變換,即按逆時針即按逆時針方向旋轉一個角度方向旋轉一個角度a a, 根據(jù)旋轉變換公式根據(jù)旋轉變換公式,新老新老坐標之間有關系坐標之間有關系: Z1=Cos a aX1 1+ + Sin Sin a aX2 2 Z2= -Sin a aX1 1+ + Cos Cos a aX2 2Z1 Z2 是原變量是原變量X1 1和和X2 2 的特殊線性組合的特殊線性組合. .14第七章第七章 7.17.1總體的主成分總體的主成分主成分的幾何意義主成分的幾何意義 從圖
13、上可以看出二維平面上從圖上可以看出二維平面上n個點的波動個點的波動(用二個變量的方差和表示用二個變量的方差和表示)大部分可以歸結為大部分可以歸結為在在Z1方向的波動方向的波動,而在而在Z2 方向上的波動很小方向上的波動很小,可可以忽略以忽略.這樣一來這樣一來,二維問題可以降為一維了二維問題可以降為一維了,只只取第一取第一 個綜合變量個綜合變量Z1即可即可,而而Z1是橢園的長軸是橢園的長軸. 一般情況一般情況,p個變量組成個變量組成p維空間維空間,n個樣品點個樣品點就是就是p維空間的維空間的n個點個點.對于對于p元正態(tài)分布變量來元正態(tài)分布變量來說說,找主成分的問題就是找找主成分的問題就是找p維空
14、間中橢球的主維空間中橢球的主軸問題軸問題.15第七章第七章 7.17.1總體的主成分總體的主成分主成分分析的內(nèi)容主成分分析的內(nèi)容 主成分分析的計算一般是從原變量的協(xié)主成分分析的計算一般是從原變量的協(xié)差陣或相關矩陣出發(fā)進行差陣或相關矩陣出發(fā)進行,包含以下內(nèi)容:包含以下內(nèi)容: 1. 各主成分的構成各主成分的構成 ; 2. 各主成分的方差及其在總方差中所占的各主成分的方差及其在總方差中所占的比例比例(貢獻率貢獻率) ; 3. 每個觀測在各個主成分下的得分值每個觀測在各個主成分下的得分值; 4. 各主成分與原變量的相關性各主成分與原變量的相關性 .16第七章第七章 7.17.1總體的主成分總體的主成分
15、主成分的求法主成分的求法 設設p維隨機向量維隨機向量X的均值的均值E(E(X)=0,)=0,協(xié)差陣協(xié)差陣D(D(X)=)=0.0.由定義由定義7.1.1,7.1.1,求第一主成分求第一主成分Z1 1= = a1 1X的問題就是求的問題就是求a1 1=(=(a1111, ,a2121,ap1 1),),使得使得在在a1 1a1 1=1=1下下,Var(,Var(Z1 1) )達最大達最大. . 這是條件極值問題這是條件極值問題, ,用拉格朗日乘數(shù)法用拉格朗日乘數(shù)法. .令令 ( (a1 1)=Var()=Var(a1 1X)-()-(a1 1a1 1-1)-1) = = a1 1a1 1-(-(
16、a1 1Ipa1 1-1),-1),由由(7.1.4)( (見附錄見附錄(8.3)(8.3)式式) )17第七章第七章 7.17.1總體的主成分總體的主成分主成分的求法主成分的求法 因因a1 10,0,故故| |- -I|=0,|=0,求解求解(7.1.4),(7.1.4),其實就其實就是求是求的特征值和特征向量問題的特征值和特征向量問題. .設設=1是是的的最大特征值最大特征值, ,則相應的單位特征向量則相應的單位特征向量a1 1即為所求即為所求. . 一般地一般地, ,求求X的第的第i主成分就是求主成分就是求的第的第i大特征大特征值對應的單位特征向量值對應的單位特征向量. . 定理定理7.
17、1.17.1.1 設設X=(=(X1,Xp)是是p維隨機向維隨機向量量, ,且且D(D(X)=,)=,的特征值的特征值1 12 2p p ,A1 1, ,a2 2,ap為相應的單位正交特征向量為相應的單位正交特征向量, ,則則X的的第第i主成分為主成分為 Zi= = aiX ( (i=1,2,=1,2,p).).18第七章第七章 7.17.1總體的主成分總體的主成分回顧附錄中回顧附錄中定理定理7.2 定理定理7.2 設設B是是p階對稱陣階對稱陣,i=chi(B)是是B的第的第i大的特征值,大的特征值,li 是相應于是相應于i的的B的標準化特征向的標準化特征向量量(i1,p), x為任一非零為任
18、一非零p維向量,那么有維向量,那么有)5 . 7() 1 (1xxBxxp右邊不等式的等號當右邊不等式的等號當x=cl1時成立,左邊不等式時成立,左邊不等式的等號當?shù)牡忍柈攛=clp時成立,這里時成立,這里c是非零常數(shù)是非零常數(shù).19第七章第七章 7.17.1總體的主成分總體的主成分回顧附錄中回顧附錄中定理定理7.2 (2)記記2=(lr+1,lp ),即即2是由是由lr+1,lp 張成的空間張成的空間,則則 )6 . 7(max10+rxxxxBxx2且當且當x=clr+1 時達到最大值,這里時達到最大值,這里c非零常非零常數(shù)數(shù).20第七章第七章 7.17.1總體的主成分總體的主成分定理定理
19、7.1.1的證明的證明1aaaap定理定理7.1.1證明證明 因因為對稱陣,利用附錄為對稱陣,利用附錄中定理中定理7.2的結論的結論(1),可知對任意非零向量可知對任意非零向量a有有且最大值在且最大值在a=a1時達到時達到.故在故在a1a1 =1的約的約束條件下束條件下,使得使得11111)(Var)(VaraaXaZ達極大值達極大值.21第七章第七章 7.17.1總體的主成分總體的主成分定理定理7.1.1的證明的證明raaaaaa0max 根據(jù)主成分的定義根據(jù)主成分的定義7.1.1,Z1= a1 X為為X的的第一主成分第一主成分. 對對r=2,3,p,記記r (ar,ap),利用利用附錄中的
20、定理附錄中的定理7.2的結論的結論(2)即得即得r且最大值在且最大值在a=ar時達到時達到.22第七章第七章 7.17.1總體的主成分總體的主成分定理定理7.1.1的證明的證明故在故在arar =1的約束條件下的約束條件下, ar 滿足滿足且使得且使得rrrrraaXaZ)(Var)(Var達極大值達極大值. 根據(jù)主成分的定義根據(jù)主成分的定義7.1.1,Zr= ar X為為X的第的第r主成分主成分. (證畢證畢) 1, 1(0rjaaaaaajrjjjrjr23第七章第七章 7.17.1總體的主成分總體的主成分定理定理7.1.1的推論的推論 設設Z=(Z1, Z2 , Z p )為為p維隨機向
21、量,則維隨機向量,則其分量其分量Zi (i=1,2, p) 依次是依次是X的第的第i主成分主成分的充分必要條件是:的充分必要條件是: Z=AX,A為正交陣;為正交陣; D(Z)=diag(1 , 2 , , p ),即隨機向量,即隨機向量Z的協(xié)差陣為對角陣;的協(xié)差陣為對角陣; 12p 0 . 24第七章第七章 7.17.1總體的主成分總體的主成分主成分的性質主成分的性質 主成分主成分Zi就是以就是以的單位特征向量的單位特征向量ai為系數(shù)的為系數(shù)的線性組合線性組合,它們互不相關它們互不相關,且方差且方差Var(Zi)= i . 記記=(=(ij),=diag(),=diag(1 1, ,2 2,
22、p p),), 其中其中1 12 2p p為為的特征值的特征值, , a1 1, ,a2 2,ap是相應的單位正交特征向量是相應的單位正交特征向量. .主成分向量主成分向量Z = (= (Z1 1,Zp), ), 其中其中 Zi= =aiX ( (i=1,2,=1,2,p) )總體主成分有如下性質總體主成分有如下性質: :25第七章第七章 7.17.1總體的主成分總體的主成分主成分的性質主成分的性質piipiii11 (1) (1) D(D(Z)=,)=,即即p個主成分的方差為:個主成分的方差為: Var(Var(Zi)=)=i , ,且它們是互不相關且它們是互不相關 (2) (2) piii
23、1通常稱通常稱 為原總體為原總體X的總方差的總方差,該性質說該性質說明原總體明原總體X的總方差可分解為不相關的主的總方差可分解為不相關的主成分的方差和成分的方差和.26第七章第七章 7.17.1總體的主成分總體的主成分主成分的性質主成分的性質 即即p個原變量所提供的總信息個原變量所提供的總信息( (總方差總方差) )的的絕大部分只須用前絕大部分只須用前m個主成分來代替。這說明個主成分來代替。這說明若前幾個主成分集中了大部分信息,則后幾個若前幾個主成分集中了大部分信息,則后幾個主成分的方差都很小,包含的信息也很少主成分的方差都很小,包含的信息也很少. 在實際應用時就可用前面較少的幾個主成分在實際
24、應用時就可用前面較少的幾個主成分來代替原來代替原p個變量來描述數(shù)據(jù)的變化個變量來描述數(shù)據(jù)的變化.且存在且存在miipiiipm11,使27第七章第七章 7.17.1總體的主成分總體的主成分主成分的性質主成分的性質), 2 , 1,(),(pikaXZiiikkik (3) (3)主成分主成分Zk與原始變量與原始變量Xi的相關系數(shù)的相關系數(shù) 證明證明 : Var(Xi) =ii Var(Zk) = k k Cov( Cov( Xi , ,Zk )=Cov()=Cov(eiX, , ak X) ) = = ei ak = = ei (k k ak ) ) = = k k aik (ei是第是第i個
25、元素為個元素為1,其余為其余為0的單位向量的單位向量)iiikkkiiikkikaaXZ),(28第七章第七章 7.17.1總體的主成分總體的主成分主成分的性質主成分的性質 常把主成分常把主成分Zk與原始變量與原始變量Xi的相關系數(shù)稱為的相關系數(shù)稱為因因子負荷量子負荷量( (或因子載荷量或因子載荷量).).利用因子載荷量利用因子載荷量, ,可對可對指標分類指標分類. .如果把主成分與原始變量的相關系數(shù)如果把主成分與原始變量的相關系數(shù)列成表列成表7.17.1的形式,則由相關系數(shù)的公式,還可的形式,則由相關系數(shù)的公式,還可得出性質得出性質(4)(4)和和(5).(5).表表7.129第七章第七章
26、7.17.1總體的主成分總體的主成分主成分的性質主成分的性質), 2 , 1(1),()4(12piXZpkik,AAAA 因因Xi也可表成也可表成Z1 1,Zp的線性組合的線性組合, ,且且 Z1 1, , Zp相互獨立,由回歸分析的知識相互獨立,由回歸分析的知識, , Xi 與與 Z1 1,Zp的的全相關系數(shù)的平方和等于全相關系數(shù)的平方和等于1 1,即表,即表7.17.1中每一行的平方中每一行的平方和均為和均為1.1.事實上事實上,由由 故有故有. 1),(,),(12121211pkiiikkikpkpkikkipiipiiiaXZaaaaa即30第七章第七章 7.17.1總體的主成分總
27、體的主成分主成分的性質主成分的性質 因因Zk可表成可表成X1 1,Xp的線性組合的線性組合, ,但但X1 1,Xp 一般有相關性,由一般有相關性,由Zk與與Xi的相的相關系數(shù)的公式,可得出表關系數(shù)的公式,可得出表7.17.1中中Zk對應的對應的每一列關于各變量方差的加權平方和為每一列關于各變量方差的加權平方和為k (即即Var(Var(Zk)=)=k).).31第七章第七章 7.17.1總體的主成分總體的主成分主成分的貢獻率主成分的貢獻率 主成分分析的目的是為了簡化數(shù)據(jù)主成分分析的目的是為了簡化數(shù)據(jù)結構(即減少變量的個數(shù))結構(即減少變量的個數(shù)), ,故在實故在實際應用中一般不用際應用中一般不
28、用p個主成分個主成分, ,而選用而選用前前m( (mp) )個主成分個主成分. .m取多大取多大, ,這是這是一個很實際的問題一個很實際的問題. .為此為此, ,我們引進貢我們引進貢獻率的概念獻率的概念. .32第七章第七章 7.17.1總體的主成分總體的主成分主成分的貢獻率主成分的貢獻率 定義定義7.1.27.1.2 稱稱k / 1 +. +m +p 為主成分為主成分Zk的貢獻率的貢獻率; ;又稱又稱 fm= = 1 +2 +. +m/ 1 +2 +. +m +p 為為 主成分主成分Z1 1,Zm( (mp) )的累計貢獻率的累計貢獻率. . 通常取通常取m, ,使累計貢獻率達到使累計貢獻率
29、達到70%70%或或80%80%以上以上, ,累計貢獻率的大小表達累計貢獻率的大小表達m個主成分提取了個主成分提取了X1 1, , , ,Xp的多少信息的多少信息, ,但它沒有表達某個變量被提取但它沒有表達某個變量被提取了多少信息了多少信息, ,為此又引入另一個概念為此又引入另一個概念. .33第七章第七章 7.17.1總體的主成分總體的主成分主成分的貢獻率主成分的貢獻率 定義定義7.1.37.1.3 前前m個主成分個主成分Z1 1,Zm 對對原變量原變量Xi的貢獻率的貢獻率i(m) 定義為定義為 Xi 與與Z1 1, , , ,Zm 的相關關系數(shù)的平方的相關關系數(shù)的平方, ,它等于它等于),
30、(1212)(mkikmkiiikkmiXZa34第七章第七章 7.17.1總體的主成分總體的主成分主成分的貢獻率主成分的貢獻率-例子例子 例例7.1.1 7.1.1 設隨機向量設隨機向量X=(X1,X2,X3)的協(xié)差陣為的協(xié)差陣為1 -2 0-2 5 00 0 2=試求試求X的主成分及其對變量的主成分及其對變量Xi的貢獻率的貢獻率i(i=1,2,3). 解解 的特征值為的特征值為 1=3+ 81/2, 2=2, 3=3-81/2.由相應標準化特征向量可得出主成分由相應標準化特征向量可得出主成分:35第七章第七章 7.1 7.1 總體的主成分總體的主成分主成分的貢獻率主成分的貢獻率-例子例子
31、Z1=0.383 X1-0.924X2 , Z2= X3 (X3本身就是一個主分量,它與本身就是一個主分量,它與X1,X2不相關不相關), Z3=0.924X1+0.383 X2.當取當取m=1=1或或m=2=2時時, ,主成分主成分對對X的貢獻率可達的貢獻率可達72.8%或或97.85%.下表下表 列出列出m個主分量對變量個主分量對變量Xi的貢獻率的貢獻率)2 , 1; 3 , 2 , 1(),(kiaXZiiikkik36第七章第七章 7.17.1總體的主成分總體的主成分 標準化變量的主成分及性質標準化變量的主成分及性質 在實際問題中在實際問題中, ,不同的變量往往有不同的量不同的變量往往
32、有不同的量綱綱, ,而通過而通過來求主成分首先優(yōu)先照顧方差來求主成分首先優(yōu)先照顧方差( (ii) )大的變量大的變量, ,有時會造成很不合理的結果有時會造成很不合理的結果, ,為了消為了消除由于量綱的不同可能帶來的一些不合理的影除由于量綱的不同可能帶來的一些不合理的影響響, ,常采用將變量標準化的方法常采用將變量標準化的方法. .即令即令37第七章第七章 7.17.1總體的主成分總體的主成分標準化變量的主成分及性質標準化變量的主成分及性質 標準化后的隨機向量標準化后的隨機向量X* *=(=(X1 1* *, ,X2 2* *, , Xp* *)的協(xié)差陣的協(xié)差陣* *就是原隨機向量就是原隨機向量
33、X的相的相關陣關陣R. .從相關陣從相關陣R出發(fā)來求主成分出發(fā)來求主成分, ,記為記為Z * *=(=(Z1 1* *,Zp* *),),則則Z* *與與Z具有相似的具有相似的性質性質. . 把主成分把主成分Zk* *( (k=1,=1,p) )對變量對變量Xi*的因的因子負荷量子負荷量ik= =( (Zk*,Xi* *) )列成表列成表7.2.7.2.38第七章第七章 7.17.1總體的主成分總體的主成分標準化變量的主成分及性質標準化變量的主成分及性質 7.239第七章第七章 7.2 7.2 樣本的主成分樣本的主成分 在實際問題中在實際問題中, ,一般協(xié)差陣一般協(xié)差陣未知未知, ,需要需要通
34、過樣本來估計通過樣本來估計. .設設X(t)=(=(xt1,xtp)()(t=1, =1, ,n) )為來自總體為來自總體X的樣本的樣本, ,記樣本資料陣記樣本資料陣x11,x12 ,x1px21,x22 ,x2p.xn1,xn2 ,xnpX=記樣本協(xié)差陣為記樣本協(xié)差陣為S, ,樣本相關陣為樣本相關陣為R,并用并用S作為作為 的估計或用的估計或用R作為總體相關陣的估計作為總體相關陣的估計. .40第第七章七章 7.2 7.2 樣本的主成分樣本的主成分 樣本主成分及其性質樣本主成分及其性質 假定每個變量的觀測數(shù)據(jù)都已標準化假定每個變量的觀測數(shù)據(jù)都已標準化( (X=0),=0),這時樣本協(xié)差陣就是
35、樣本相關陣這時樣本協(xié)差陣就是樣本相關陣R,且且 R=S=離差陣離差陣 /(/(n-1)-1) =XX/(/(n-1)-1) 仍記仍記R 陣的陣的p個主成分為個主成分為Z1 1,Zp , , 1 12 2p00為為R的特征根的特征根, , a1 1, ,a2 2, , ,ap為相應的標準化特征向量為相應的標準化特征向量( (記記正交陣正交陣A=(=(a1 1,ap) ). .顯然第顯然第i個樣本主成個樣本主成分為分為 Zi= =ai iX ( (i=1,=1,p). ). 41第七章第七章 7.27.2樣本的主成分樣本的主成分 樣本主成分及其性質樣本主成分及其性質 將第將第t個樣品個樣品X(t)
36、 =( =(xt1, , xtp)的值代入的值代入Zi得樣品得樣品t的第的第i個主成分得個主成分得分分 zti = =aiX(t) ( (i=1,=1,p).).記記Z(t) = (zt1, zt2 , ztp) (t=1,n) = (a1X(t) ,a2X(t) ,apX(t) ) = AX(t)稱稱Z(t) 為為第第t個樣品的主成分得分向量個樣品的主成分得分向量. .42第七章第七章 7.27.2樣本的主成分樣本的主成分 樣本主成分及其性質樣本主成分及其性質 表表7.3 7.3 原始數(shù)據(jù)和樣本主成分得分原始數(shù)據(jù)和樣本主成分得分令令(z1,z2,zp) 樣本主成分樣本主成分Z1 Z2 Zp
37、43第七章第七章 7.2 7.2 樣本的主成分樣本的主成分 樣本主成分及其性質樣本主成分及其性質 樣本主成分得分陣樣本主成分得分陣Z和原始數(shù)據(jù)陣和原始數(shù)據(jù)陣X有如下關有如下關系系Z = =Z(1) Z(2) .Z(n) X(1) A AX(2) A A.X(n) A A= X A=或或 X = ZA , 其中其中 Z(t) =AX(t) ( t=1,2,n )樣本主成分得分具有如下一些性質樣本主成分得分具有如下一些性質. .(np)(np)(pp)44第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 (1)(1) Z=(Z(1)+ Z(2)+ Z(n)
38、/n =(AX(1) +AX(2) + AX(n) )/n=AX=0,=0,以下由樣本主成分得分的協(xié)差陣來得出樣本主以下由樣本主成分得分的協(xié)差陣來得出樣本主成分的性質成分的性質(1)(1)的另一結論的另一結論. . 樣本主成分得分的協(xié)差陣為樣本主成分得分的協(xié)差陣為 SZ = = ZZ/(/(n-1)-1)標準化變量的樣本協(xié)差陣就是樣本相關陣標準化變量的樣本協(xié)差陣就是樣本相關陣R, ,且且 R = XX/(/(n-1)-1)R陣的陣的p個特征根個特征根1 12 2 p 相應的標相應的標準化特征向量為準化特征向量為a1 1, ,a2 2, , ,ap 。45第七章第七章 7.2 7.2 樣本的主成
39、分樣本的主成分樣本主成分及其性質樣本主成分及其性質 記正交陣記正交陣A= (= (a1 1,ap) . .則有則有 ARA=diag(=diag(1 1, ,2 2 , ,p) )又知又知 Z=XA,則則 SZ = = ZZ/(/(n-1)=-1)=A AXXA /(/(n-1)-1) = = A ARA=diag(diag(1 1, ,2 2 , ,p) ) = = ZZ= ( (n-1) -1) 46第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 zi zi=(n-1) i (i=1,2,p) zizj=0 (當當ij 時時 )上式說明樣本主成分
40、得分的樣本均值為上式說明樣本主成分得分的樣本均值為0,0,樣本樣本協(xié)差陣為對角陣協(xié)差陣為對角陣. .當當ij 時,第時,第i個主成分得分個主成分得分向量向量zi與第與第j個主成分得分個主成分得分zj是相互正交的是相互正交的. .pppnzzzzz00)1(),.,(121147第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 因因 ARA=diag(=diag(1 1, ,2 2 , ,p) ) 稱稱k / /p為樣本主成分為樣本主成分Zk的貢獻率的貢獻率; ;又稱又稱 fm=1 1+m/p為樣本主成分為樣本主成分Z1,Zm ( (mp) )的累計貢獻
41、率的累計貢獻率. .pRRAARAApii)(tr) (tr)(tr148第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 (3)(3)樣本主成分具有使殘差平方和最小的優(yōu)良性樣本主成分具有使殘差平方和最小的優(yōu)良性 如果我們只取前如果我們只取前m個主成分個主成分( (mp),),并考慮用并考慮用前前m 個主成分個主成分Z1, , Zm的線性組合表示的線性組合表示Xj的回的回歸方程歸方程: : Xj= =bj1Z1+ + bjmZm+ + j ( (j=1,=1,p) ) (* *) 則當則當bjk= =ajk( (k=1,=1,m) )時,可使回歸方程的
42、殘時,可使回歸方程的殘差平方和達最小值差平方和達最小值. .而且回歸方程的決定系數(shù)而且回歸方程的決定系數(shù)R2 2( (j) =) =j( (m) ). . 我們把我們把j( (m) )稱為稱為m個主成分對原變量個主成分對原變量Xj j的貢獻的貢獻率率, ,j( (m) )的大小反映了的大小反映了m個主成分能夠反映個主成分能夠反映Xj的變的變差的比例差的比例. .49第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 把表把表7.37.3給出的原始變量的觀測數(shù)據(jù)和前給出的原始變量的觀測數(shù)據(jù)和前m個主成分的得分數(shù)據(jù)作為以上模型(個主成分的得分數(shù)據(jù)作為以上模型
43、(* *)中因變量中因變量X1,X p和自變量和自變量Z1,Zm的觀的觀測數(shù)據(jù)測數(shù)據(jù). .問題化為:按最小二乘準則求參數(shù)矩陣問題化為:按最小二乘準則求參數(shù)矩陣B:pmpmbbbbB1111,使得殘差平方和,使得殘差平方和 Q( (B) )達最小達最小. .(pm)50第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 ,11111111*npnpnmnmxxxxXzzzzZ(nm)記記(np)則多對多的回歸模型(則多對多的回歸模型(*)的矩陣形式為:)的矩陣形式為: X = Z* B + E由多因變量的回歸分析由多因變量的回歸分析( (參見第四章參見第四
44、章) )的理的理論知論知:參數(shù)矩陣參數(shù)矩陣B的最小二乘估計為的最小二乘估計為 51第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 B = (Z* Z* )-1 Z* X 記A*= (= (a1 1,am) , A2= (= (am+1 1,aP)則由則由 Z = ( ( Z*|Z2 ) =XA=X ( (A*|A2 ) 可得可得 Z* =XA*且因且因 A*RA*=diag(diag(1 1, ,2 2 , ,m),),于是于是 Z* Z* = = A*XXA* =(n-1)A*RA* =(n-1)diag(diag(1 1, ,2 2 , ,m)
45、)52第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質*(A*)*53第七章第七章 7.2 7.2 樣本的主成分樣本的主成分樣本主成分及其性質樣本主成分及其性質 即即當當 B=A* 或或 bjk= =ajk( (j =1,2,=1,2,p; ;k=1,=1,m) )時,時,可使回歸的殘差平方和達最小值可使回歸的殘差平方和達最小值. . 而而Xj 回歸方程的決定系數(shù)回歸方程的決定系數(shù) R2 2( (j) =) =j( (m) ) ( (j=1,2,=1,2,p).).54第七章第七章 7.27.2樣本的主成分樣本的主成分主成分的個數(shù)及解釋主成分的個數(shù)及解
46、釋 主成分分析的目的之一是主成分分析的目的之一是簡化數(shù)據(jù)結構簡化數(shù)據(jù)結構, ,用用盡可能少的主成分盡可能少的主成分Z1, , Zm( (mp) )代替原來代替原來的的p個變量個變量, ,這樣就把這樣就把p個變量的個變量的n次觀測數(shù)據(jù)簡次觀測數(shù)據(jù)簡化為化為m個主成分的得分數(shù)據(jù)個主成分的得分數(shù)據(jù). .在這里要求:在這里要求: m個主成分所反映的信息與原個主成分所反映的信息與原來來p個變量提供的信息差不多個變量提供的信息差不多; ; m個主成分又能對資料所具有個主成分又能對資料所具有的意義進行解釋的意義進行解釋. .55第七章第七章 7.27.2樣本的主成分樣本的主成分主成分個數(shù)的確定主成分個數(shù)的確
47、定 主成分的個數(shù)主成分的個數(shù)m如何選取是實際工作者關心如何選取是實際工作者關心的問題的問題. .關于主成分的個數(shù)如何確定關于主成分的個數(shù)如何確定, ,常用的標常用的標準有兩個:準有兩個: (1) (1) 按累計貢獻率達到一定程度按累計貢獻率達到一定程度( (如如70%70%或或80%80%以上以上) )來確定來確定m; (2) 先計算先計算S或或R的的p個特征根的均值個特征根的均值, ,取大取大于于的特征根個數(shù)的特征根個數(shù)m. 當當p=20 =20 時時, ,大量實踐表明大量實踐表明, ,第一個標準容易取太多第一個標準容易取太多的主成分的主成分, ,而第二個標準容易取太少的主成分而第二個標準容
48、易取太少的主成分, ,故最故最好將兩者給合起來應用好將兩者給合起來應用, ,同時要考慮同時要考慮m個主成分對個主成分對Xi的貢獻率的貢獻率i( (m) ). . 56第七章第七章 7.27.2樣本的主成分樣本的主成分應用例子應用例子7.2.17.2.1 例例7.2.17.2.1 學生身體各指標的主成分分析學生身體各指標的主成分分析. . 隨機抽取隨機抽取3030名某年級中學生名某年級中學生, ,測量其身高測量其身高(X1)(X1)、體重、體重(X2)(X2)、胸圍、胸圍(X3)(X3)和坐高和坐高(X4),(X4),數(shù)據(jù)見書中數(shù)據(jù)見書中P277P277表表7.4(7.4(或以下或以下SASSA
49、S程序的數(shù)據(jù)行程序的數(shù)據(jù)行). ). 試對中試對中學生身體指標數(shù)據(jù)做主成分分析學生身體指標數(shù)據(jù)做主成分分析. . 解解 (1) (1) 以下以下SASSAS程序首先生成包括程序首先生成包括3030名學生名學生身體指標數(shù)據(jù)的身體指標數(shù)據(jù)的SASSAS數(shù)據(jù)集數(shù)據(jù)集d721(d721(其中變量其中變量NUMBERNUMBER記錄識別學生的序號記錄識別學生的序號) ),然后調用,然后調用SAS/STASAS/STA軟件中的軟件中的PRINCOMPPRINCOMP過程進行主成分分析過程進行主成分分析. .57第七章第七章 7.2 7.2 樣本的主成分樣本的主成分例例7.2.17.2.1的的sassas程
50、序程序 Data d721; input number x1-x4 ; cards;1 148 41 72 78 2 139 34 71 763 160 49 77 86 4 149 36 67 79.27 144 36 68 76 28 141 30 67 7629 139 32 68 73 30 148 38 70 78;proc princomp data=d721 prefix=z out=o721 ; var x1-x4;run;該選項規(guī)定該選項規(guī)定主成分的前主成分的前綴名字為綴名字為z生成包含主生成包含主分量得分的分量得分的輸出數(shù)據(jù)集輸出數(shù)據(jù)集行指針控制符行指針控制符指示讀完該行指
51、示讀完該行數(shù)據(jù)行后再數(shù)據(jù)行后再跳到下一行。跳到下一行。58第七章第七章 7.2 7.2 樣本的主成分樣本的主成分例例7.2.17.2.1的的sassas程序程序 proc plot data=o721; plot z2*z1 $ number=*;run;proc sort data=o721; by z1;run;proc print data=o721; var number z1 z2 x1-x4;run;繪制前二個主成分得分的繪制前二個主成分得分的散點圖散點圖.作圖符號為作圖符號為*,并并在每散點旁邊加上序號在每散點旁邊加上序號,以以便識別各個觀測便識別各個觀測.把輸出集把輸出集o72
52、1按第一主成分按第一主成分z1的得分值從小的得分值從小 到大排序到大排序輸出排序后的數(shù)據(jù)集輸出排序后的數(shù)據(jù)集o72159第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的輸出結果的輸出結果 學生身體指標數(shù)據(jù)的描述統(tǒng)計量和相關陣學生身體指標數(shù)據(jù)的描述統(tǒng)計量和相關陣60第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的輸出結果的輸出結果 輸出輸出7.2.1 7.2.1 相關陣的特征值和特征向量相關陣的特征值和特征向量61第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的結果分析的結果分析 PRINCOMPPRINCOMP
53、過程由相關陣出發(fā)進行主成分分析過程由相關陣出發(fā)進行主成分分析. .由輸出由輸出7.2.17.2.1中相關陣的特征值可以看出,第中相關陣的特征值可以看出,第一主成分的貢獻率已高達一主成分的貢獻率已高達88.53%88.53%;且前二個主;且前二個主成分的累計貢獻率已達成分的累計貢獻率已達96.36%.96.36%.因此只須用兩因此只須用兩個主成分就能很好地概括這組數(shù)據(jù)個主成分就能很好地概括這組數(shù)據(jù). . 另由第三和四個特征值近似為另由第三和四個特征值近似為0 0,可以得出,可以得出這這4 4個標準化后的身體指標變量個標準化后的身體指標變量( (Xi* *, ,i=1,2,3,4)=1,2,3,4
54、)有近似的線性關系有近似的線性關系( (即所謂共線性即所謂共線性),),如如 0.505747 0.505747 X1 1* * -0.690844 -0.690844 X2 2* * +0.461488 +0.461488 X3 3* * -0.232343 -0.232343 X4 4* *c(c(常數(shù)常數(shù)).).62第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的結果分析的結果分析 由最大的兩個特征值對應的特征向量可以寫由最大的兩個特征值對應的特征向量可以寫出第一和第二主成分出第一和第二主成分: Z1 1=0.4970 =0.4970 X1 1* *+0.51
55、46 +0.5146 X2 2* * +0.4809 +0.4809 X3 3* * +0.5069 +0.5069 X4 4* * Z2 2= -0.5432 = -0.5432 X1 1* * +0.2102 +0.2102 X2 2* * +0.7246 +0.7246 X3 3* * - 0.3683 - 0.3683 X4 4* * 第一和第二主成分都是標準化后變量第一和第二主成分都是標準化后變量Xi* * ( (i=1,2,3,4)=1,2,3,4)的線性組合,且組合系數(shù)就是特征的線性組合,且組合系數(shù)就是特征向量的分量向量的分量. .63第七章第七章 7.27.2樣本的主成分樣本的
56、主成分例例7.2.17.2.1的結果分析的結果分析 利用特征向量各分量的值可以對各主成利用特征向量各分量的值可以對各主成分進行解釋分進行解釋. . 第一大特征值對應的第一個特征向量的各第一大特征值對應的第一個特征向量的各個分量值均在個分量值均在0.50.5附近附近, ,且都是正值且都是正值, ,它反映它反映學生身材的魁梧程度學生身材的魁梧程度. .身體高大的學生身體高大的學生, ,他的他的4 4個部位的尺寸都比較大個部位的尺寸都比較大; ;而身體矮小的學生而身體矮小的學生, ,他的他的4 4個部位的尺寸都比較小個部位的尺寸都比較小. .因此我們稱因此我們稱第一主成分為大小因子第一主成分為大小因
57、子. .64第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的結果分析的結果分析 第二大特征值對應的特征向量中第第二大特征值對應的特征向量中第一一( (即身高即身高X1X1的系數(shù)的系數(shù)) )和第四個分量和第四個分量( (即即坐高坐高X4X4的系數(shù)的系數(shù)) )為負值為負值, ,而第二而第二( (即體重即體重X2X2的系數(shù)的系數(shù)) )和第三個分量和第三個分量( (即胸圍即胸圍X3X3的系的系數(shù)數(shù)) )為正值為正值, ,它反映學生的胖瘦情況它反映學生的胖瘦情況, ,故故稱第二主成分為胖瘦因子稱第二主成分為胖瘦因子. .65第七章第七章 7.27.2樣本的主成分樣本的主成分例
58、例7.2.17.2.1的輸出結果的輸出結果 輸出輸出7.2.2 7.2.2 第二主成分得分對第一主成分得分的散布圖第二主成分得分對第一主成分得分的散布圖66第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的結果分析的結果分析 輸出輸出7.2.27.2.2是是PLOTPLOT過程產(chǎn)生的輸出圖形過程產(chǎn)生的輸出圖形,從圖中可以直觀地看出,按學生的身體,從圖中可以直觀地看出,按學生的身體指標尺寸,這指標尺寸,這3030名學生大約應分成三組名學生大約應分成三組( (以以第一主成分得分值為第一主成分得分值為-1-1和和2 2為分界點為分界點).). 每一組包括哪幾名學生由每個散點
59、旁邊每一組包括哪幾名學生由每個散點旁邊的序號可以得知的序號可以得知. .更詳細的信息可從更詳細的信息可從PRINTPRINT過程產(chǎn)生的輸出數(shù)據(jù)列表中得到過程產(chǎn)生的輸出數(shù)據(jù)列表中得到. .67第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的輸出結果的輸出結果 按第一主成分得分排序后的主成分得分和原始數(shù)據(jù)按第一主成分得分排序后的主成分得分和原始數(shù)據(jù)68第七章第七章 7.27.2樣本的主成分樣本的主成分例例7.2.17.2.1的結果分析的結果分析 以上以上輸出列表中把輸出列表中把3030個觀測按第一主成分從小個觀測按第一主成分從小到大重新排序后的輸出結果到大重新排序后的輸
60、出結果. .從這里可以得到分從這里可以得到分為三組時各組學生的更多的信息如下為三組時各組學生的更多的信息如下: : G G1 1=11,15,29,10,28,6,24,14,2,27,18=11,15,29,10,28,6,24,14,2,27,18 G G2 2=4,30,22,1,16,26,23,21,8,9,7,17=4,30,22,1,16,26,23,21,8,9,7,17 G G3 3=20,13,19,12,5,3,25=20,13,19,12,5,3,25 若考慮用若考慮用Z1 1 , ,Z2 2進行聚類進行聚類, ,這就是主成分這就是主成分聚類方法聚類方法. .69 以下
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京語言大學《高等代數(shù)選講》2023-2024學年第一學期期末試卷
- 2024年電動垂直提升門項目可行性研究報告
- 北京印刷學院《人工智能與智能駕駛基礎》2023-2024學年第一學期期末試卷
- 2024年果汁牛肉脯項目可行性研究報告
- 2024年沙發(fā)座墊3件套項目可行性研究報告
- 北京協(xié)和醫(yī)學院《經(jīng)典文學作品選讀》2023-2024學年第一學期期末試卷
- 二零二五年度東莞二手房交易傭金結算合同范本9篇
- 北京戲曲藝術職業(yè)學院《漢俄筆譯》2023-2024學年第一學期期末試卷
- 貨運司機勞務合同范本
- 2024年夜間美白霜項目可行性研究報告
- 方大重整海航方案
- 河北省秦皇島市昌黎縣2023-2024學年八年級上學期期末數(shù)學試題
- 礦山治理專項研究報告范文
- 國家開放大學2023年7月期末統(tǒng)一試《11124流行病學》試題及答案-開放本科
- 貨運安全生產(chǎn)管理制度
- 施工圖審查招標文件范文
- 幼兒園中班體育《我們愛運動》+課件
- 郭錫良《古代漢語》課件
- 外研版四年級英語下冊(一年級起點)全冊完整課件
- 防止電力生產(chǎn)事故的-二十五項重點要求(2023版)
- 教研室主任崗位申請書
評論
0/150
提交評論