![多元統(tǒng)計分析第四章課件第二部分_第1頁](http://file4.renrendoc.com/view/fe4354f9c5300f369d25088cb02be7e0/fe4354f9c5300f369d25088cb02be7e01.gif)
![多元統(tǒng)計分析第四章課件第二部分_第2頁](http://file4.renrendoc.com/view/fe4354f9c5300f369d25088cb02be7e0/fe4354f9c5300f369d25088cb02be7e02.gif)
![多元統(tǒng)計分析第四章課件第二部分_第3頁](http://file4.renrendoc.com/view/fe4354f9c5300f369d25088cb02be7e0/fe4354f9c5300f369d25088cb02be7e03.gif)
![多元統(tǒng)計分析第四章課件第二部分_第4頁](http://file4.renrendoc.com/view/fe4354f9c5300f369d25088cb02be7e0/fe4354f9c5300f369d25088cb02be7e04.gif)
![多元統(tǒng)計分析第四章課件第二部分_第5頁](http://file4.renrendoc.com/view/fe4354f9c5300f369d25088cb02be7e0/fe4354f9c5300f369d25088cb02be7e05.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
小結(jié)
方差逐步減少的p個線性無關(guān)的主成分為:
寫為矩陣形式:§3主成分的性質(zhì)1.主成分向量的均值和協(xié)方差矩陣2.主成分的總方差3.原始變量Xi與主成分Fk之間的相關(guān)系數(shù)4.原始變量被主成分的提取率5.原始變量對主成分的影響1.主成分向量的均值和協(xié)方差矩陣協(xié)方差矩陣V(F)=Λ其中Λ=diag(λ1,λ2,?,λp),即V(Fi)=λi,i=1,2,?,p,且F1,F2,?,Fp互不相關(guān)。均值2.主成分的總方差由于所以或總方差中屬于第i主成分Fi
(或被Fi所解釋)的比例為: 稱為主成分Fi的貢獻率。第一主成分F1的貢獻率最大,表明它解釋原始變量
X1,X2,?,Xp的能力最強,而F2,F3,?,Fp的解釋能力依次遞減。主成分分析的目的就是為了減少變量的個數(shù),因而一般是不會使用所有p個主成分的,忽略一些帶有較小方差的主成分將不會給總方差帶來大的影響。前m個主成分的貢獻率之和
稱為主成分F1,F2,?,Fm的累計貢獻率,它表明F1,F2,?,Fm解釋X1,X2,?,Xp的能力。通常?。ㄏ鄬τ趐)較小的m,使得累計貢獻達到一個較高的百分比(如80%~90%)。此時,F(xiàn)1,F2,?,Fm可用來代替X1,X2,?,Xp,從而達到降維的目的,同時信息的損失卻不多。
我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,…,F(xiàn)k(k≤p)代替原來的p個指標。到底應該選擇多少個主成分,在實際工作中,主成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率≥80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。83、原始變量與主成分之間的相關(guān)系數(shù)
9
可見,和的相關(guān)的密切程度取決于對應線性組合系數(shù)的大小。104、原始變量被主成分的提取率前面我們討論了主成分的貢獻率和累計貢獻率,他們度量了F1,F(xiàn)2,……,F(xiàn)m分別從原始變量X1,X2,……,Xp中提取了多少信息。那么X1,X2,……,Xp各有多少信息分別F1,F(xiàn)2,……,F(xiàn)m被提取了。應該用什么指標來度量?我們考慮到當討論F1分別與X1,X2,……,Xp的關(guān)系時,可以討論F1分別與X1,X2,……,Xp的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正有負,所以只有考慮相關(guān)系數(shù)的平方。
如果我們僅僅提出了m個主成分,則第i原始變量信息的被提取率為:是Fj
能說明的第i
原始變量的方差;是Fj提取的第i
原始變量信息的比重.4、原始變量被主成分的提取率例1
設(shè)的協(xié)方差矩陣為:
解得特征根為:
第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應該取兩個主成分。Xi與F1的相關(guān)系數(shù)平方Xi與F2的相關(guān)系數(shù)平方信息提取率Xi10.9250.855000.8552-0.9980.996000.9963001115.原始變量對主成分的影響 Fk=t1kX1+t2kX2+?+tpkXp
稱tik為第k主成分Fk在第i個原始變量Xi上的載荷,它度量了Xi對Fk的重要程度。在解釋主成分時,我們需要考察載荷,同時也應考察一下相關(guān)系數(shù)。方差大的那些變量與具有大特征值的主成分有較密切的聯(lián)系,而方差小的另一些變量與具有小特征值的主成分有較強的聯(lián)系。通常我們?nèi)∏皫讉€主成分,因此所取主成分會過于照顧方差大的變量,而對方差小的變量卻照顧得不夠。例2設(shè)X=(X1,X2,X3)′的協(xié)方差矩陣為
經(jīng)計算,Σ的特征值及特征向量為λ1=109.793,λ2=6.469,λ3=0.738
相應的主成分分別為:F1=0.305X1+0.041X2+0.951X3F2=0.944X1+0.120X2?0.308X3F3=?0.127X1+0.992X2?0.002X3
可見,方差大的原始變量X3在很大程度上控制了第一主成分F1,方差小的原始變量X2幾乎完全控制了第三主成分F3,方差介于中間的X1則基本控制了第二主成分F2。F1的貢獻率為
這么高的貢獻率首先歸因于X3的方差比X1和X2的方差大得多,其次是X1,X2,X3相互之間存在著一定的相關(guān)性。F3的特征值相對很小,表明X1,X2,X3之間有這樣一個線性依賴關(guān)系:?0.127X1+0.992X2?0.002X3≈c
其中c=?0.127μ1+0.992μ2?0.002μ3為一常數(shù)?!?主成分分析的步驟在實際問題中,X的協(xié)方差通常是未知的,樣品有
第一步:由X的協(xié)方差陣Σx,求出其特征根,即解方程,可得特征根。一、基于協(xié)方差矩陣
第二步:求出分別所對應的特征向量U1,U2,…,Up,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值:
代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。一、基于協(xié)方差矩陣二、基于相關(guān)系數(shù)矩陣
如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進行主成分分析。不同的是計算得分時應采用標準化后的數(shù)據(jù)。21從R出發(fā)的主成分性質(zhì)(1)E(F*)=0,V(F*)=Λ*,其中
。(3)變量
與主成分
之間的相關(guān)系數(shù)
即有
因此,在解釋主成分
時,由相關(guān)矩陣R求得的載荷
和相關(guān)系數(shù)
所起的作用是完全相同的,只需選其一用來作主成分解釋即可。(4)主成分
對變量
的貢獻率(5) 。例3
在例2中,X的相關(guān)矩陣 R的特征值及特征向量為
相應的主成分分別為:的貢獻率為
和
累計貢獻率為現(xiàn)比較本例中從R出發(fā)和例2中從Σ出發(fā)的主成分計算結(jié)果。從R出發(fā)的的貢獻率0.705明顯小于從Σ出發(fā)的F1的貢獻率0.938,事實上,原始變量方差之間的差異越大,這一點也就傾向于越明顯??捎脴藴驶暗脑兞勘磉_如下:可見,在原變量X1,X2,X3上的載荷相對大小與例2中Fi在X1,X2,X3上的載荷相對大小之間有著非常大的差異。這說明,標準化后的結(jié)論完全可能會發(fā)生很大的變化,因此標準化不是無關(guān)緊要的。
根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應用。概括起來說,主成分分析主要有以下幾方面的應用。
1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的F空間代替p維的X空間(m<p),而低維的F空間代替高維的X空間所損失的信息很少。即:使只有一個主成分Fl(即m=1)時,這個Fl仍是使用全部X變量(p個)得到的。例如要計算Fl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法?!?
主成分分析的應用27
2.有時可通過因子負荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。
3.
多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。284.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重要的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。29例4在制定服裝標準的過程中,對128名成年男子的身材進行了測量,每人測得的指標中含有這樣六項:身高(x1)、坐高(x2)、胸圍(x3)、手臂長(x4)、肋圍(x5)和腰圍(x6)。所得樣本相關(guān)矩陣列于表1。x1x2x3x4x5x6x11.000x20.791.000x30.360.311.000x40.760.550.351.000x50.250.170.640.161.000x60.510.350.580.380.631.000表1 男子身材六項指標的樣本相關(guān)矩陣經(jīng)計算,相關(guān)陣的前三個特征值、相應的特征向量以及貢獻率列于表2。表2 的前三個特征值、特征向量以及貢獻率特征向量
:身高0.469?0.3650.092
:坐高0.404?0.3970.613
:胸圍0.3940.397?0.279
:手臂長0.408?0.365?0.705
:肋圍0.3370.5690.164
:腰圍0.4270.3080.119特征值3.2871.4060.459貢獻率0.5480.2340.077累計貢獻率0.5480.7820.859前三個主成分分別為從表2中可以看到,前兩個主成分的累計貢獻率已達78.2%,前三個主成分的累計貢獻率達85.9%,因此可以考慮只取前面兩個或三個主成分,它們能夠很好地概括原始變量。第一主成分對所有(標準化)原始變量都有近似相等的正載荷,故稱第一主成分為(身材)大小成分。第二主成分在上有中等程度的正載荷,而在上有中等程度的負載荷,稱第二主成分為形狀成分(或胖瘦成分)。第三主成分在上有大的正載荷,在上有大的負載荷,而在其余變量上的載荷都較小,可稱第三主成分為臂長成分。由于第三主成分的貢獻率不高(7.65%)且實際意義也不太重要,因此我們一般可考慮取前兩個主成分。由于非常小,所以存在共線性關(guān)系:例5如下八項男子徑賽運動記錄:
x1:100米(秒)
x5:1500米(分)
x2:200米(秒)
x6:5000米(分)
x3:400米(秒)x7:10000米(分)
x4:800米(秒)
x8:馬拉松(分)表3 八項男子徑賽運動記錄的樣本相關(guān)矩陣x1x2x3x4x5x6x7x8x11.000x20.9231.000x30.8410.8511.000x40.7560.8070.8701.000x50.7000.7750.8350.9181.000x60.6190.6950.7790.8640.9281.000x70.6330.6970.7870.8690.9350.9751.000x80.5200.5960.7050.8060.8660.9320.9431.000表4 的前三個特征值、特征向量以及貢獻率特征向量
:100米0.3180.5670.332
:200米0.3370.4620.361
:400米0.3560.248?0.560
:800米0.3690.012?0.532
:1500米0.373?0.140?0.153
:5000米0.364?0.3120.190
:10000米0.367?0.3070.182
:馬拉松0.342?0.4390.263特征值6.6220.8780.159貢獻率0.8280.1100.020累計貢獻率0.8280.9370.957例6對數(shù)據(jù)的相關(guān)矩陣進行主成分分析。經(jīng)計算,x1,x2,?,x8的樣本相關(guān)矩陣
列于表5。
的前三個特征值、特征向量以及貢獻率列于表6。表5 消費性支出八個變量的樣本相關(guān)矩陣x1x2x3x4x5x6x7x8x11.000x20.2471.000x30.6980.2581.000x40.4680.4230.6211.000x50.8280.0860.5850.5311.000x60.7690.2550.8560.6840.7081.000x70.670?0.2010.5690.3140.8000.6471.000x80.8770.3490.6670.6280.7760.7450.5251.000表6 的前三個特征值、特征向量以及貢獻率特征向量
:食品0.401?0.0770.415
:衣著0.1320.7490.332
:家庭設(shè)備用品及服務(wù)0.3750.065?0.442
:醫(yī)療保健0.3200.345?0.478
:交通和通訊0.388?0.2320.279
:娛樂教育文化服務(wù)0.4060.027?0.310
:居住0.326?0.496?0.034
:雜項商品和服務(wù)0.3960.0960.345特征值5.0981.3520.574貢獻率0.6370.1690.072累計貢獻率0.6370.8060.878表7 按第一主成分排序的31個地區(qū)地區(qū)地區(qū)江西?2.234?1.867新疆?0.6970.647河南?1.947?0.388四川?0.5330.041黑龍江?1.9270.636廣西?0.251?2.058吉林?1.8590.151山東?0.1470.983山西?1.8480.404福建0.201?1.337內(nèi)蒙古?1.8260.509湖南0.219?0.203安徽?1.796?0.519江蘇0.407?0.311甘肅?1.5490.526
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 節(jié)日主題教育活動計劃
- 二零二五年度林業(yè)樹木清理與可持續(xù)利用合同3篇
- 2025版隧洞施工合同:隧道施工合同履約保證與履約擔保協(xié)議3篇
- 二零二五年度鋼材料國際采購合同標準范本
- 二零二五年度個人購房裝修分期付款合同樣本3篇
- 二零二五年度樓房居間買賣合同(含家具家電)4篇
- 二零二五年度個人對網(wǎng)絡(luò)安全企業(yè)借款合同4篇
- 防水套管后補做法施工方案
- 二零二五年度鋼廠廢鋼回收處理及環(huán)保設(shè)施建設(shè)合同
- 二零二五年度企業(yè)品牌形象托管授權(quán)合同3篇
- 《肝硬化的臨床表現(xiàn)》課件
- 新增值稅法學習課件
- DB23T 3838-2024商貿(mào)行業(yè)有限空間個體防護裝備配備規(guī)范
- 《電子技術(shù)基礎(chǔ)(第二版)》中職技工全套教學課件
- 五年級上冊美術(shù)《傳統(tǒng)門飾》課件
- DL∕T 1309-2013 大型發(fā)電機組涉網(wǎng)保護技術(shù)規(guī)范
- 城鄉(xiāng)低保待遇協(xié)議書
- 華為HCIA-Storage H13-629考試練習題
- 遼寧省撫順五十中學2024屆中考化學全真模擬試卷含解析
- 2024年中國科學技術(shù)大學少年創(chuàng)新班數(shù)學試題真題(答案詳解)
- 煤礦復工復產(chǎn)培訓課件
評論
0/150
提交評論