主成分分析多元統(tǒng)計分析課件人大何曉群實用教案_第1頁
主成分分析多元統(tǒng)計分析課件人大何曉群實用教案_第2頁
主成分分析多元統(tǒng)計分析課件人大何曉群實用教案_第3頁
主成分分析多元統(tǒng)計分析課件人大何曉群實用教案_第4頁
主成分分析多元統(tǒng)計分析課件人大何曉群實用教案_第5頁
已閱讀5頁,還剩108頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1主成分分析多元主成分分析多元(du yun)統(tǒng)計分析課件人統(tǒng)計分析課件人大何曉群大何曉群第一頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心2 目錄(ml) 上頁 下頁 返回 結束 5.1 5.1 主成分分析的基本思想與理論主成分分析的基本思想與理論5.2 5.2 主成分分析的幾何意義主成分分析的幾何意義5.3 5.3 總體主成分及其性質總體主成分及其性質5.4 5.4 樣本主成分的導出樣本主成分的導出5.5 5.5 有關問題的討論有關問題的討論5.6 5.6 主成分分析步驟及框圖主成分分析步驟及框圖5.7 5.7 主成分分析的上機實現(xiàn)主成分分析

2、的上機實現(xiàn)第1頁/共113頁第二頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心3 目錄(ml) 上頁 下頁 返回 結束 主成分分析主成分分析(principal components analysis)也稱主分量分析,)也稱主分量分析,是由霍特林(是由霍特林(Hotelling)于于19331933年首先提出的。主成分分析是利年首先提出的。主成分分析是利用降維的思想,在損失很少信息的前提下把多個指標轉化為幾用降維的思想,在損失很少信息的前提下把多個指標轉化為幾個綜合指標的多元統(tǒng)計方法。通常把轉化生成的綜合指標稱之個綜合指標的多元統(tǒng)計方法。通常把轉化生成的綜

3、合指標稱之為主成分,其中每個主成分都是原始變量的線性組合,且各個為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,這就使得主成分比原始變量具有某些更主成分之間互不相關,這就使得主成分比原始變量具有某些更優(yōu)越的性能。這樣在研究復雜問題時就可以只考慮少數(shù)幾個主優(yōu)越的性能。這樣在研究復雜問題時就可以只考慮少數(shù)幾個主成分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示成分而不至于損失太多信息,從而更容易抓住主要矛盾,揭示事物內(nèi)部變量之間的規(guī)律性,同時使問題得到簡化,提高分析事物內(nèi)部變量之間的規(guī)律性,同時使問題得到簡化,提高分析效率。本章主要介紹主成分分析的基本理論和方法、主成

4、分分效率。本章主要介紹主成分分析的基本理論和方法、主成分分析的計算步驟及主成分分析的上機實現(xiàn)。析的計算步驟及主成分分析的上機實現(xiàn)。第2頁/共113頁第三頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心4 目錄(ml) 上頁 下頁 返回 結束 5.1 5.1 主成分主成分(chng fn)(chng fn)分析的基本思分析的基本思想與理論想與理論5.1.1 5.1.1 主成分分析的基本思想主成分分析的基本思想5.1.2 5.1.2 主成分分析的基本理論主成分分析的基本理論第3頁/共113頁第四頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(g

5、unl)研究中心5 目錄 上頁 下頁 返回(fnhu) 結束 5.1.1 5.1.1 主成分主成分(chng fn)(chng fn)分析的分析的基本思想基本思想 在對某一事物進行實證研究中,為了更全面、準確地在對某一事物進行實證研究中,為了更全面、準確地反映出事物的特征及其發(fā)展規(guī)律,人們往往要考慮與其有關反映出事物的特征及其發(fā)展規(guī)律,人們往往要考慮與其有關系的多個指標,這些指標在多元統(tǒng)計中也稱為變量。這樣就系的多個指標,這些指標在多元統(tǒng)計中也稱為變量。這樣就產(chǎn)生了如下問題:一方面人們?yōu)榱吮苊膺z漏重要的信息而考產(chǎn)生了如下問題:一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標,而另一方面隨著

6、考慮指標的增多增加了慮盡可能多的指標,而另一方面隨著考慮指標的增多增加了問題的復雜性,同時由于各指標均是對同一事物的反映,不問題的復雜性,同時由于各指標均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時甚至會可避免地造成信息的大量重疊,這種信息的重疊有時甚至會抹殺事物的真正特征與內(nèi)在規(guī)律?;谏鲜鰡栴},人們就希抹殺事物的真正特征與內(nèi)在規(guī)律?;谏鲜鰡栴},人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個線性組合主成分分析正是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原

7、來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。第4頁/共113頁第五頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心6 目錄(ml) 上頁 下頁 返回 結束 5.1.1 5.1.1 主成分分析的基本主成分分析的基本(jbn)(jbn)思思想想 既然研究某一問題涉及的眾多變量之間有一定的相關性,既然研究某一問題涉及的眾多變量之間有一定的相關性,就必然存在著起支配作用的共同因素,根據(jù)這一點,通過對就必然存在著起支配作用的共同因素,根據(jù)這一點,通過對原始變量相關矩陣或協(xié)方差矩陣內(nèi)部結構關系的研究,利用原始變量相關矩陣或協(xié)方差矩

8、陣內(nèi)部結構關系的研究,利用原始變量的線性組合形成幾個綜合指標(主成分),在保留原始變量的線性組合形成幾個綜合指標(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復雜問題時更容易抓住主要矛盾。一般地說,利用得在研究復雜問題時更容易抓住主要矛盾。一般地說,利用主成分分析得到的主成分與原始變量之間有如下基本關系:主成分分析得到的主成分與原始變量之間有如下基本關系:1.每一個主成分都是各原始變量的線性組合;每一個主成分都是各原始變量的線性組合;2.主成分的數(shù)目大大少于原始變量的數(shù)目主成分的數(shù)目大大少于原始變量的數(shù)目第5頁

9、/共113頁第六頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心7 目錄(ml) 上頁 下頁 返回 結束 5.1.1 5.1.1 主成分分析主成分分析(fnx)(fnx)的基本的基本思想思想3.主成分保留了原始變量絕大多數(shù)信息4.各主成分之間互不相關 通過主成分分析,可以從事物之間錯綜復雜的通過主成分分析,可以從事物之間錯綜復雜的關系中找出一些主要成分,從而能有效利用大量關系中找出一些主要成分,從而能有效利用大量統(tǒng)計數(shù)據(jù)進行定量分析,揭示變量之間的內(nèi)在關統(tǒng)計數(shù)據(jù)進行定量分析,揭示變量之間的內(nèi)在關系,得到對事物特征及其發(fā)展規(guī)律的一些深層次系,得到對事物特征及其

10、發(fā)展規(guī)律的一些深層次的啟發(fā),把研究工作引向深入。的啟發(fā),把研究工作引向深入。第6頁/共113頁第七頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心8 目錄(ml) 上頁 下頁 返回 結束 5.1.2 5.1.2 主成分分析主成分分析(fnx)(fnx)的基的基本理論本理論 設對某一事物的研究涉及個設對某一事物的研究涉及個 指標,分別用指標,分別用 表表示,這個示,這個 指標構成的指標構成的 維隨機向量為維隨機向量為 。設。設隨機向量隨機向量 的均值為的均值為 ,協(xié)方差矩陣為,協(xié)方差矩陣為 。pPXXX,21pp),(21pXXXXX 對對 進行線性變換,

11、可以形成新的綜合變量,用進行線性變換,可以形成新的綜合變量,用 表示,表示,也就是說,新的綜合變量可以由原來的變量線性表示,即滿也就是說,新的綜合變量可以由原來的變量線性表示,即滿足下式:足下式:XY pppppppppXuXuXuXuXuXuYXuXuXuY2211p2222121212121111Y(5.1)(5.1)第7頁/共113頁第八頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心9 目錄 上頁 下頁 返回(fnhu) 結束 5.1.2 5.1.2 主成分分析的基本主成分分析的基本(jbn)(jbn)理論理論 由于可以任意地對原始變量進行上述線

12、性變換由于可以任意地對原始變量進行上述線性變換,由不同的線性變換得到的綜合變量,由不同的線性變換得到的綜合變量 的統(tǒng)計特性的統(tǒng)計特性也不盡相同。因此為了取得較好的效果,我們總是也不盡相同。因此為了取得較好的效果,我們總是希望希望 的方差盡可能大且各的方差盡可能大且各 之間互相獨立之間互相獨立,由于,由于 YXuiiYiY )var()var(XuiiYiiuu =而對任給的常數(shù)而對任給的常數(shù) ,有,有c)var(Xuiccciiuu2ciiuu 第8頁/共113頁第九頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心10 目錄 上頁 下頁 返回(fnhu) 結

13、束 5.1.2 5.1.2 主成分主成分(chng fn)(chng fn)分析分析的基本理論的基本理論 因此對因此對 不加限制時,可使不加限制時,可使 任意增大,問題將變得沒任意增大,問題將變得沒有意義。我們將線性變換約束在下面的原則之下:有意義。我們將線性變換約束在下面的原則之下:iu)var(iY1iiuu122221 ipiiuuu。),.2 , 1(pi 1,即: 2 與iY相互無關jY ;(ji 。),.2 , 1,pji 3 3. . 是是 的一切滿足原則的一切滿足原則1 1的線性組合中方差的線性組合中方差最大者;最大者; 是與是與 不相關的不相關的 所有線性組合中方差所有線性組

14、合中方差最大者;最大者;, , 是與是與 都不相關的都不相關的 的所的所有線性組合中方差最大者。有線性組合中方差最大者。1Y1Y2YPXXX,21121,PYYYpYPXXX,21PXXX,21第9頁/共113頁第十頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心11 目錄(ml) 上頁 下頁 返回 結束 5.1.2 5.1.2 主成分分析主成分分析(fnx)(fnx)的基的基本理論本理論 基于以上三條原則決定的綜合變量基于以上三條原則決定的綜合變量 分分別稱為原始變量的第一、第二、別稱為原始變量的第一、第二、第、第 個主成分個主成分。其中,各綜合變量在

15、總方差中占的比重依次遞減。其中,各綜合變量在總方差中占的比重依次遞減,在實際研究工作中,通常只挑選前幾個方差最大,在實際研究工作中,通常只挑選前幾個方差最大的主成分,從而達到簡化系統(tǒng)結構,抓住問題實質的主成分,從而達到簡化系統(tǒng)結構,抓住問題實質的目的。的目的。PYYY,21p第10頁/共113頁第十一頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心12 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分分析的幾何主成分分析的幾何(j h)(j h)意義意義 由第一節(jié)的介紹我們知道,在處理涉及多個指標問題的時由第一節(jié)的介紹我們知道,在處理涉及多個指標

16、問題的時候,為了提高分析的效率,可以不直接對候,為了提高分析的效率,可以不直接對 個指標構成的個指標構成的 維維隨機向量隨機向量 進行分析,而是先對向量進行分析,而是先對向量 進行線進行線性變換,形成少數(shù)幾個新的綜合變量性變換,形成少數(shù)幾個新的綜合變量 ,使得各綜,使得各綜合變量之間相互獨立且能解釋原始變量盡可能多的信息,這合變量之間相互獨立且能解釋原始變量盡可能多的信息,這樣,在以損失很少部分信息為代價的前提下,達到簡化數(shù)據(jù)樣,在以損失很少部分信息為代價的前提下,達到簡化數(shù)據(jù)結構,提高分析效率的目的。這一節(jié),我們著重討論主成分結構,提高分析效率的目的。這一節(jié),我們著重討論主成分分析的幾何意義

17、,為了方便,我們僅在二維空間中討論主成分析的幾何意義,為了方便,我們僅在二維空間中討論主成分的幾何意義,所得結論可以很容易地擴展到多維的情況。分的幾何意義,所得結論可以很容易地擴展到多維的情況。pp),(21pXXXXXPYYY,21第11頁/共113頁第十二頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心13 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分分析主成分分析(fnx)(fnx)的幾何意的幾何意義義 設有設有 個樣品,每個樣品有兩個觀測變量個樣品,每個樣品有兩個觀測變量 ,這樣,這樣,在由變量在由變量 組成的坐標空間中,組成的坐標空

18、間中, 個樣品點散布的情況如個樣品點散布的情況如帶狀,見圖帶狀,見圖5-15-1。N21,XX21,XXN圖圖5-15-1第12頁/共113頁第十三頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心14 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分分析主成分分析(fnx)(fnx)的幾何意義的幾何意義 由圖可以看出這由圖可以看出這 個樣品無論沿個樣品無論沿 軸方向還是沿軸方向還是沿 軸方向均軸方向均有較大的離散性,其離散程度可以分別用觀測變量有較大的離散性,其離散程度可以分別用觀測變量 的方差和的方差和 的方差定量地表示,顯然,若只考慮的方差定

19、量地表示,顯然,若只考慮 和和 中的任何一個,原中的任何一個,原始數(shù)據(jù)中的信息均會有較大的損失。我們的目的是考慮始數(shù)據(jù)中的信息均會有較大的損失。我們的目的是考慮 和和 的線性組合,使得原始樣品數(shù)據(jù)可以由新的變量的線性組合,使得原始樣品數(shù)據(jù)可以由新的變量 和和 來刻畫來刻畫。 在幾何上表示就是將坐標軸按逆時針方向旋轉在幾何上表示就是將坐標軸按逆時針方向旋轉 角度,得到角度,得到新坐標軸新坐標軸 和和 ,坐標旋轉公式如下:,坐標旋轉公式如下: N1X2X1X2X1X2X1X2X1Y2Y1Y2Ycossinsincos212211XXYXXY第13頁/共113頁第十四頁,共113頁。2021-11-

20、25中國人民大學六西格瑪質量管理(gunl)研究中心15 目錄 上頁 下頁 返回(fnhu) 結束 5.2 5.2 主成分分析的幾何主成分分析的幾何(j h)(j h)意意義義 其矩陣形式為:其矩陣形式為:1122cossinsincosYXYXU X其中,其中, 為旋轉變換矩陣,由上式可知它是正交陣,為旋轉變換矩陣,由上式可知它是正交陣,即滿足即滿足U,UU1IUU 第14頁/共113頁第十五頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心16 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分分析的幾何主成分分析的幾何(j h)(j h)意

21、意義義 經(jīng)過這樣的旋轉之后,經(jīng)過這樣的旋轉之后, 個樣品點在個樣品點在 軸上的離散程度最軸上的離散程度最大,變量大,變量 代表了原始數(shù)據(jù)絕大部分信息,這樣,有時在研代表了原始數(shù)據(jù)絕大部分信息,這樣,有時在研究實際問題時,即使不考慮變量究實際問題時,即使不考慮變量 也無損大局。因此,經(jīng)過也無損大局。因此,經(jīng)過上述旋轉變換就可以把原始數(shù)據(jù)的信息集中到上述旋轉變換就可以把原始數(shù)據(jù)的信息集中到 軸上,對數(shù)軸上,對數(shù)據(jù)中包含的信息起到了濃縮的作用。進行主成分分析的目的據(jù)中包含的信息起到了濃縮的作用。進行主成分分析的目的就是找出轉換矩陣就是找出轉換矩陣 ,而進行主成分分析的作用與幾何意義,而進行主成分分析

22、的作用與幾何意義也就很明了了。下面我們用遵從正態(tài)分布的變量進行分析,也就很明了了。下面我們用遵從正態(tài)分布的變量進行分析,以使主成分分析的幾何意義更為明顯。為方便,我們以二元以使主成分分析的幾何意義更為明顯。為方便,我們以二元正態(tài)分布為例。對于多元正態(tài)總體的情況,有類似的結論。正態(tài)分布為例。對于多元正態(tài)總體的情況,有類似的結論。 N1Y1Y2Y1YU第15頁/共113頁第十六頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心17 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分主成分(chng fn)(chng fn)分析的幾何分析的幾何意義意義

23、設變量設變量 遵從二元正態(tài)分布,分布密度為遵從二元正態(tài)分布,分布密度為:21XX 、)()(2)()1 (21exp121),(2222122112221222112222122121XXXXXXf 令令 為變量為變量 的協(xié)方差矩陣,其形式如下的協(xié)方差矩陣,其形式如下:21XX 、2221212121XXX21 令 則上述二元正態(tài)分布的密度函數(shù)有如下矩陣形式則上述二元正態(tài)分布的密度函數(shù)有如下矩陣形式:第16頁/共113頁第十七頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心18 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分主成分(chng

24、 fn)(chng fn)分析的幾何分析的幾何意義意義)()(2/12/1211|21),(XXeXXf考慮考慮 ( 為常數(shù)),為方便,不妨設為常數(shù)),為方便,不妨設21)()(dXXd0 上式有如下展開形式:上式有如下展開形式:222222112112211dXXXX令令 ,則上面的方程變?yōu)椋海瑒t上面的方程變?yōu)椋?/111 XZ222/XZ ).1 (222222121dZZZZ第17頁/共113頁第十八頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心19 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成分主成分(chng fn)(chng

25、fn)分析的幾何分析的幾何意義意義這是一個橢圓的方程,長短軸分別為:這是一個橢圓的方程,長短軸分別為:12d又令又令 為為 的特征值,的特征值, 為相應的標準正交特為相應的標準正交特征向量征向量.02121, 則則 為正交陣,為正交陣, 有:有: ),(21PP,0021PP PP,11因此有因此有: XX)X()X(112d)0(XPPX) ( 1XX) 11( 222111222211)(1)(1XX222121YY 第18頁/共113頁第十九頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心20 目錄(ml) 上頁 下頁 返回 結束 5.2 5.2 主成

26、分分析的幾何主成分分析的幾何(j h)(j h)意意義義 與上面一樣,這也是一個橢圓方程,且在與上面一樣,這也是一個橢圓方程,且在 構成的坐標系構成的坐標系中,其主軸的方向恰恰正是中,其主軸的方向恰恰正是 坐標軸的方向。因為坐標軸的方向。因為 所以,所以, 就是原始變量就是原始變量 的兩個主成分,它們的的兩個主成分,它們的方差分別為方差分別為 ,在,在 方向上集中了原始變量方向上集中了原始變量 的變差,在的變差,在 方方向上集中了原始變量向上集中了原始變量 的變差,經(jīng)常有的變差,經(jīng)常有 遠大于遠大于 ,這樣,我們,這樣,我們就可以只研究原始數(shù)據(jù)在就可以只研究原始數(shù)據(jù)在 方向上的變化而不致于損失

27、過多信方向上的變化而不致于損失過多信息,而息,而 就是橢圓在原始坐標系中的主軸方向,也是坐標軸就是橢圓在原始坐標系中的主軸方向,也是坐標軸轉換的系數(shù)向量。對于多維的情況,上面的結論依然成立。轉換的系數(shù)向量。對于多維的情況,上面的結論依然成立。21,YY21,YY,X11Y,X22Y21,YY21, XX21,1Y12Y2121Y21, 這樣,我們就對主成分分析的幾何意義有了一個充分的了解。主這樣,我們就對主成分分析的幾何意義有了一個充分的了解。主成分分析的過程無非就是坐標系旋轉的過程,各主成分表達式就是新成分分析的過程無非就是坐標系旋轉的過程,各主成分表達式就是新坐標系與原坐標系的轉換關系,在

28、新坐標系中,各坐標軸的方向就是坐標系與原坐標系的轉換關系,在新坐標系中,各坐標軸的方向就是原始數(shù)據(jù)變差最大的方向。原始數(shù)據(jù)變差最大的方向。 第19頁/共113頁第二十頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心21 目錄 上頁 下頁 返回(fnhu) 結束 5.3 5.3 總體總體(zngt)(zngt)主成分及其主成分及其性質性質 由上面的討論可知,求解主成分的過程就是由上面的討論可知,求解主成分的過程就是求滿足三條原則的原始變量求滿足三條原則的原始變量 的線性的線性組合的過程。本節(jié)先從總體出發(fā),介紹求解主組合的過程。本節(jié)先從總體出發(fā),介紹求解主成分的

29、一般方法及主成分的性質,然后介紹樣成分的一般方法及主成分的性質,然后介紹樣本主成分的導出。本主成分的導出。PXXX,21第20頁/共113頁第二十一頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心22 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成主成分分 主成分分析的基本思想就是在保留原始變量盡可能多的信息主成分分析的基本思想就是在保留原始變量盡可能多的信息的前提下達到降維的目的,從而簡化問題的復雜性并抓住問題的前提下達到降維的目的,從而簡化問題的復雜性并抓住問題的主要矛盾。而這里對于隨機變量的主要矛

30、盾。而這里對于隨機變量 而言,其協(xié)方差而言,其協(xié)方差矩陣或相關矩陣正是對各變量離散程度與變量之間的相關程度矩陣或相關矩陣正是對各變量離散程度與變量之間的相關程度的信息的反應,而相關矩陣不過是將原始變量標準化后的協(xié)方的信息的反應,而相關矩陣不過是將原始變量標準化后的協(xié)方差矩陣。我們所說的保留原始變量盡可能多的信息,也就是指差矩陣。我們所說的保留原始變量盡可能多的信息,也就是指的生成的較少的綜合變量(主成分)的方差和盡可能接近原始的生成的較少的綜合變量(主成分)的方差和盡可能接近原始變量方差的總和。因此在實際求解主成分的時候,總是從原始變量方差的總和。因此在實際求解主成分的時候,總是從原始變量的協(xié)

31、方差矩陣或相關矩陣的結構分析入手。一般地說,從變量的協(xié)方差矩陣或相關矩陣的結構分析入手。一般地說,從原始變量的協(xié)方差矩陣出發(fā)求得的主成分與從原始變量的相關原始變量的協(xié)方差矩陣出發(fā)求得的主成分與從原始變量的相關矩陣出發(fā)求得的主成分是不同的。下面我們分別就協(xié)方差矩陣矩陣出發(fā)求得的主成分是不同的。下面我們分別就協(xié)方差矩陣與相關矩陣進行討論。與相關矩陣進行討論。PXXX,21第21頁/共113頁第二十二頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心23 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分(

32、1)(1)從協(xié)方差矩陣出發(fā)求解主成分從協(xié)方差矩陣出發(fā)求解主成分引論:設矩陣引論:設矩陣 ,將,將 的特征值的特征值 依大小順序依大小順序排列,不妨設排列,不妨設 , 為為 矩陣各特征值對矩陣各特征值對應的標準正交特征向量,則對任意向量,有:應的標準正交特征向量,則對任意向量,有:AA An, 21n21p, 21A1maxxxAxx0 xnxxAxx0 xmin(5.2) 證明:對證明:對 與單位陣與單位陣 進行譜分解,可以寫成下面的式子進行譜分解,可以寫成下面的式子: AI1niiiiA1niiiI而對任意向量而對任意向量 ,有,有 ,于是有,于是有xniiia1xniiniiiaa1212

33、xxAxx第22頁/共113頁第二十三頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心24 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成分主成分類似的,我們可以得出:類似的,我們可以得出: 1,.2, 1maxkkixxAxx0 x0 xinkixxAxx0 x0 xi,.2, 1min于是,自然有于是,自然有1121211212maxmaxniiniiniiniiiaaaa0 x0 xxxAxxnniiniinniiniiixaaaa121212120minminxxAxx0 x 第23頁/共113

34、頁第二十四頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心25 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成主成分分 證明:由引論知,對于任意常向量證明:由引論知,對于任意常向量 ,有,有: 又又 為標準正交特征向量,于是:為標準正交特征向量,于是:u1maxuuuu0ui01jijiji 證明:由引論知,對于任意常向量證明:由引論知,對于任意常向量 ,有,有: 又又 為標準正交特征向量,于是:為標準正交特征向量,于是:u1maxuuuu0ui01jijiji 此時: (5.3) 結論:結論: 設隨機

35、向量設隨機向量 的協(xié)方差矩陣為的協(xié)方差矩陣為 , 為為 的特征值,的特征值, 為矩陣為矩陣 各特征值對應各特征值對應的標準正交特征向量,則第的標準正交特征向量,則第 i個主成分為:個主成分為:),.,(21pXXXXp 21n, 21AppiiiiXXXY 2211),.,2 , 1(pi 0),cov(jijiYY)(ji iiiiY )var( 結論:結論: 設隨機向量設隨機向量 的協(xié)方差矩陣為的協(xié)方差矩陣為 , 為為 的特征值,的特征值, 為矩陣為矩陣 各特征值對應各特征值對應的標準正交特征向量,則第的標準正交特征向量,則第 i個主成分為:個主成分為:),.,(21pXXXXp 21n,

36、 21AppiiiiXXXY 2211),.,2 , 1(pi )(ji iiiiY )var( 0),cov(jijiYY第24頁/共113頁第二十五頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心26 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 且:ipkikkikii1令令 ,則有,則有iiu )var(max111111Yuuuu0u類似的,有類似的,有)var(max111111,.,2, 1kkkkkkkiYuuuu0u0ui0),cov(1ijipkjkkikjijiYY第

37、25頁/共113頁第二十六頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心27 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 由以上結論,我們把由以上結論,我們把 的協(xié)方差矩陣的協(xié)方差矩陣 的非零特的非零特征值征值 對應的標準化特征向量對應的標準化特征向量 分別分別作為系數(shù)向量,作為系數(shù)向量, 分別稱為隨機向分別稱為隨機向量量 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主成分。主成分。 的分量的分量 依次是依次是 的第一主成分、第二主成分、的第一主成分、第二主成分、第、第 主

38、成主成分的充分必要條件是:分的充分必要條件是:pXXX,.21p, 21021 pXXX2211ppYYY ,XpYPYYY,21pX(1 1) ,即,即 為為 階正交陣;階正交陣;(2 2) 的分量之間互不相關;的分量之間互不相關;(3 3) 的的 個分量是按方差由大到小排列。個分量是按方差由大到小排列。IuuXuY,upYYp第26頁/共113頁第二十七頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心28 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 于是隨機向量于是隨機向量 與隨機向量與隨機

39、向量 之間存在下面的關系式:之間存在下面的關系式: XYXuuuX uY21ppppppppXXXuuuuuuuuu21212222111211ppXXX2121(5.4) 注:無論注:無論 的各特征根是否存在相等的情況,對應的標準化的各特征根是否存在相等的情況,對應的標準化特征向量特征向量 總是存在的,我們總可以找到對應各特總是存在的,我們總可以找到對應各特征根的彼此正交的特征向量。這樣,求主成分的問題就變成征根的彼此正交的特征向量。這樣,求主成分的問題就變成了求特征根與特征向量的問題。了求特征根與特征向量的問題。p, 21第27頁/共113頁第二十八頁,共113頁。2021-11-25中國

40、人民大學六西格瑪質量管理研究(ynji)中心29 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成主成分分 (二)主成分的性質(二)主成分的性質 性質性質1 1 的協(xié)方差陣為對角陣的協(xié)方差陣為對角陣 。 這一性質可由上述結論容易得到,證明略。這一性質可由上述結論容易得到,證明略。 Y性質性質2 2 記記 ,有,有 ppij)(piiipii11 證明證明: 記記 則有則有 于是于是),(21pPPPpipiiiitrtrtrtr11)()() ()(PPPP第28頁/共113頁第二十九頁,共113頁。2021-11-25中國人民大學六西格瑪質量

41、(zhling)管理研究中心30 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 定義定義 5.1 5.1 稱稱 為第為第 個主成分個主成分 的的方方差貢獻率,稱差貢獻率,稱 為主成分為主成分 的累積貢獻率。的累積貢獻率。 pkk21pk, 2 , 1kkYpiimii11mYYY,21 由此進一步可知,主成分分析是把個由此進一步可知,主成分分析是把個 隨機變量的總方差隨機變量的總方差 分解為分解為 個不相關的隨機變量的方差之和,使第一主成分的方差個不相關的隨機變量的方差之和,使第一主成分的方差達到最大,第一主成分是以變化最大的方向向

42、量各分量為系數(shù)達到最大,第一主成分是以變化最大的方向向量各分量為系數(shù)的原始變量的線性函數(shù),最大方差為的原始變量的線性函數(shù),最大方差為 。 表明了表明了 的方差的方差在全部方差中的比值,稱在全部方差中的比值,稱 為第一主成分的貢獻率。這個值越為第一主成分的貢獻率。這個值越大,表明大,表明 這個新變量綜合這個新變量綜合 信息的能力越強,信息的能力越強,也即由也即由 的差異來解釋隨機向量的差異來解釋隨機向量 的差異的能力越強。的差異的能力越強。 pppiii11i1111Xu 11YpXXX,.21Xu 1X第29頁/共113頁第三十頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(

43、gunl)研究中心31 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分正因如此,才把正因如此,才把 稱為稱為 的主成分。進而我們就更清楚為的主成分。進而我們就更清楚為什么主成分的名次是按特征根什么主成分的名次是按特征根 取值的大小排序的取值的大小排序的。 Xu 11YXp,21 進行主成分分析的目的之一是為了減少變量的個數(shù),所以進行主成分分析的目的之一是為了減少變量的個數(shù),所以一般不會取一般不會取 個主成分,而是取個主成分,而是取 個主成分,個主成分, 取多少比較取多少比較合適,這是一個很實際的問題,通常以所取合適,這是一個很實際的問

44、題,通常以所取 使得累積貢獻率使得累積貢獻率達到達到8585以上為宜,即以上為宜,即ppm mm%8511piimii(5.5)(5.5) 這樣,既能使損失信息不太多,又達到減少變量,簡化問這樣,既能使損失信息不太多,又達到減少變量,簡化問題的目的。另外,選取主成分還可根據(jù)特征值的變化來確定。題的目的。另外,選取主成分還可根據(jù)特征值的變化來確定。圖圖5-25-2為為SPSSSPSS統(tǒng)計軟件生成的碎石圖。統(tǒng)計軟件生成的碎石圖。 第30頁/共113頁第三十一頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心32 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5

45、.3.1 總體總體(zngt)(zngt)主成分主成分 圖圖5-25-2 由圖由圖5-25-2可知,第二個及第三個特征值變化的趨勢已經(jīng)開始趨于平穩(wěn),所可知,第二個及第三個特征值變化的趨勢已經(jīng)開始趨于平穩(wěn),所以,取前兩個或是前三個主成分是比較合適的。這種方法確定的主成分個數(shù)以,取前兩個或是前三個主成分是比較合適的。這種方法確定的主成分個數(shù)與按累積貢獻率確定的主成分個數(shù)往往是一致的。在實際應用中有些研究工與按累積貢獻率確定的主成分個數(shù)往往是一致的。在實際應用中有些研究工作者習慣于保留特征值大于作者習慣于保留特征值大于1 1的那些主成分,但這種方法缺乏完善的理論支的那些主成分,但這種方法缺乏完善的理

46、論支持。在大多數(shù)情況下,當持。在大多數(shù)情況下,當 時即可使所選主成分保持信息總量的比重達到時即可使所選主成分保持信息總量的比重達到8585以上。以上。3m第31頁/共113頁第三十二頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心33 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 定義定義5.2 5.2 第第 個主成分個主成分 與原始變量與原始變量 的相關系數(shù)的相關系數(shù) 稱做稱做因子負荷量。因子負荷量。 因子負荷量是主成分解釋中非常重要的解釋依據(jù),因子負因子負荷量是主成分解釋中非常重要的解釋依

47、據(jù),因子負荷量的絕對值大小刻畫了該主成分的主要意義及其成因。在下荷量的絕對值大小刻畫了該主成分的主要意義及其成因。在下一章因子分析中還將要對因子負荷量的統(tǒng)計意義給出更詳細的一章因子分析中還將要對因子負荷量的統(tǒng)計意義給出更詳細的解釋。由下面的性質我們可以看到因子負荷量與系數(shù)向量成正解釋。由下面的性質我們可以看到因子負荷量與系數(shù)向量成正比。比。kkYiX),ikXY( iikkiikuXY/),(pik, 2 , 1, 性質性質3 3 (5.6) 證明:證明: kkY)var(iiiX)var( 令:令: 為單位向量。則為單位向量。則 )0 , 0 , 1 , 0 , 0(ieXe iiX Xu

48、kkY 又又第32頁/共113頁第三十三頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理研究(ynji)中心34 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成分主成分 于是 )e ,ucov(),cov(XXXYikikkiDuXe)(kikkikkiuueueiikkiikikikuXYXYXY)var()var(),cov(),(于是 由性質由性質3 3知因子負荷量知因子負荷量 與向量系數(shù)與向量系數(shù) 成正比,與成正比,與 的的標準差成反比關系,因此,絕不能將因子負荷量與向量系數(shù)標準差成反比關系,因此,絕不能將因子負荷量與

49、向量系數(shù)混為一談。在解釋主成分的成因或是第混為一談。在解釋主成分的成因或是第 個變量對第個變量對第 個主成個主成分的重要性時,應當根據(jù)因子負荷量而不能僅僅根據(jù)分的重要性時,應當根據(jù)因子負荷量而不能僅僅根據(jù) 與與 的變換系數(shù)的變換系數(shù) 。),ikXY(kiuiXikkYiXkiu第33頁/共113頁第三十四頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心35 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成分主成分 性質性質4 4 pikiiikXY12),((5.7)證明:由性質證明:由性質3有pip

50、ipikkikkikiiikuuXY111222),((5.8)性質性質5 5 22111(,)1ppkikkikkiiYXu證明:因為證明:因為 向量是隨機向量向量是隨機向量 的線性組合,因此的線性組合,因此 也可以精也可以精確表示成確表示成 的線性組合。由回歸分析知識知,的線性組合。由回歸分析知識知, 與與 的全相關系數(shù)的平方和等于的全相關系數(shù)的平方和等于1 1,而因為,而因為 之間之間互不相關,所以互不相關,所以 與與 的全相關系數(shù)的平方和也就是的全相關系數(shù)的平方和也就是 ,因此,性質,因此,性質5 5成立。成立。 YXiXpYYY,21iXpYYY,21pYYY,21iXpYYY,21

51、21(,)pkikYX第34頁/共113頁第三十五頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心36 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 定義定義5.3 5.3 與前與前 個主成分個主成分 的全相關系數(shù)平方和稱的全相關系數(shù)平方和稱為為 對原始變量對原始變量 的方差貢獻率的方差貢獻率 ,即,即iXmmYYY,21mYYY,21iviXmkkikiiiuv121pi, 2 , 1 (5.9)這一定義說明了前這一定義說明了前 個主成分提取了原始變量個主成分提取了原始變量 中中 的信息的信息,

52、由此我們可以判斷我們提取的主成分說明原始的能力。,由此我們可以判斷我們提取的主成分說明原始的能力。miXiv第35頁/共113頁第三十六頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心37 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成分主成分 (三)從相關陣出發(fā)求解主成分(三)從相關陣出發(fā)求解主成分 考慮如下的數(shù)學變換:考慮如下的數(shù)學變換: iiiiiXZpi, 2 , 1令令: 其中,其中, 與與 分別表示變量分別表示變量 的期望與方差。于是有的期望與方差。于是有iiiiX0)(iZE1)var(i

53、Zpp00000022112/1令令:于是,對原始變量于是,對原始變量 進行標準化:進行標準化:X)()(12/1XZ第36頁/共113頁第三十七頁,共113頁。2021-11-25中國人民大學六西格瑪質量管理(gunl)研究中心38 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成分主成分 經(jīng)過上述標準化后,顯然有經(jīng)過上述標準化后,顯然有0Z )(E 12/112/1)()()cov(Z Rpppp11121212112 由于上面的變換過程,原始變量由于上面的變換過程,原始變量 的相關陣實際的相關陣實際上就是對原始變量標準化后的協(xié)方差矩陣

54、,因此,由相關矩陣上就是對原始變量標準化后的協(xié)方差矩陣,因此,由相關矩陣求主成分的過程與主成分個數(shù)的確定準則實際上是與由協(xié)方差求主成分的過程與主成分個數(shù)的確定準則實際上是與由協(xié)方差矩陣出發(fā)求主成分的過程與主成分個數(shù)的確定準則是相一致的矩陣出發(fā)求主成分的過程與主成分個數(shù)的確定準則是相一致的,在此不再贅述。仍用,在此不再贅述。仍用 分別表示相關陣分別表示相關陣 的特征值與對應的特征值與對應的標準正交特征向量,此時,求得的主成分與原始變量的關系的標準正交特征向量,此時,求得的主成分與原始變量的關系式為:式為: pXXX,.21ii ,R),X()( Z12/1iiiYpi, 2 , 1(5.10)第

55、37頁/共113頁第三十八頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心39 目錄(ml) 上頁 下頁 返回 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主主成分成分 (四)由相關陣求主成分時主成分性質的簡單形式(四)由相關陣求主成分時主成分性質的簡單形式 由相關陣出發(fā)所求得主成分依然具有上面所述的各種性質由相關陣出發(fā)所求得主成分依然具有上面所述的各種性質,不同的是在形式上要簡單,這是由相關陣,不同的是在形式上要簡單,這是由相關陣 的特性決定的的特性決定的。我們將由相關陣得到的主成分的性質總結如下:。我們將由相關陣得到的主成分的性質總

56、結如下:1 1 的協(xié)方差矩陣為對角陣的協(xié)方差矩陣為對角陣 ;YpiipiiZptrtrY11)var()()()var(. 23 3第第 個主成分的方差占總方差的比例,即第個主成分的方差占總方差的比例,即第 個主成分的個主成分的方差貢獻率為方差貢獻率為 ,前,前 個主成分的累積方差貢獻率個主成分的累積方差貢獻率為為 ;kkpkk/mpmii/1。kkiikuZY),(. 4第38頁/共113頁第三十九頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心40 目錄 上頁 下頁 返回(fnhu) 結束 5.3.1 5.3.1 總體總體(zngt)(zngt)主成

57、分主成分 注意到注意到 ,且,且 ,結合前面從協(xié)方差矩陣出發(fā)求,結合前面從協(xié)方差矩陣出發(fā)求主成分部分對主成分性質的說明,可以很容易的得出上述性質主成分部分對主成分性質的說明,可以很容易的得出上述性質。雖然主成分的性質在這里有更簡單的形式,但應注意其實質。雖然主成分的性質在這里有更簡單的形式,但應注意其實質與前面的結論并沒有區(qū)別;需要注意的一點是判斷主成分的成與前面的結論并沒有區(qū)別;需要注意的一點是判斷主成分的成因或是原始變量(這里原始變量指的是標準化以后的隨機向量因或是原始變量(這里原始變量指的是標準化以后的隨機向量 )對主成分的重要性有更簡單的方法,因為由上面第)對主成分的重要性有更簡單的方

58、法,因為由上面第4 4條知這條知這里因子負荷量僅依賴于由里因子負荷量僅依賴于由 到到 的轉換向量系數(shù)的轉換向量系數(shù) (因為對不(因為對不同的同的 ,因子負荷量表達式的后半部分,因子負荷量表達式的后半部分 是固定的)。是固定的)。1)var(iZptr)(RZkYZkiuiZk第39頁/共113頁第四十頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心41 目錄(ml) 上頁 下頁 返回 結束 5.4 5.4 樣本樣本(yngbn)(yngbn)主成主成分的導出分的導出記 11()()1nkiikiikxXxXnSnkkiixnX11pi, 2 , 1ppi

59、jr)(RjjiiijijSSSr 在實際研究工作中,總體協(xié)方差陣在實際研究工作中,總體協(xié)方差陣 與相關陣與相關陣 通常是未通常是未知的,于是需要通過樣本數(shù)據(jù)來估計。設有知的,于是需要通過樣本數(shù)據(jù)來估計。設有 個樣品,每個樣個樣品,每個樣品有品有 個指標,這樣共得到個指標,這樣共得到 個數(shù)據(jù),原始資料矩陣如下:個數(shù)據(jù),原始資料矩陣如下:Rnpnpnpnnppxxxxxxxxx212222111211X 第40頁/共113頁第四十一頁,共113頁。2021-11-25中國人民大學六西格瑪質量(zhling)管理研究中心42 目錄 上頁 下頁 返回(fnhu) 結束 5.4 5.4 樣本樣本(yn

60、gbn)(yngbn)主成主成分的導出分的導出 為樣本協(xié)方差矩陣,作為總體協(xié)方差陣為樣本協(xié)方差矩陣,作為總體協(xié)方差陣 的無偏估計,的無偏估計, 是是樣本相關矩陣,為總體相關矩陣的估計。由前面的討論知,若樣本相關矩陣,為總體相關矩陣的估計。由前面的討論知,若原始資料原始資料 陣是經(jīng)過標準化處理的,則由矩陣陣是經(jīng)過標準化處理的,則由矩陣 求得的協(xié)方差求得的協(xié)方差陣就是相關矩陣,即陣就是相關矩陣,即 與與 完全相同。因為由協(xié)方差矩陣求解主完全相同。因為由協(xié)方差矩陣求解主成分的過程與同相關矩陣出發(fā)求解主成分的過程是一致的,下成分的過程與同相關矩陣出發(fā)求解主成分的過程是一致的,下面我們僅介紹由相關陣面我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論