




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、一、基本原理主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指標(biāo)X1,X2,XP(比如p個(gè)指標(biāo)),重新組合成一組較少個(gè)數(shù)的互不相關(guān)的綜合指標(biāo)Fm來(lái)代替原來(lái)指標(biāo)。那么綜合指標(biāo)應(yīng)該如何去提取,使其既能最大程度的反映原變量Xp所代表的信息,又能保證新指標(biāo)之間保持相互無(wú)關(guān)(信息不重疊)。設(shè)F1表示原變量的第一個(gè)線性組合所形成的主成分指標(biāo),即,由數(shù)學(xué)知識(shí)可知,每一個(gè)主成分所提取的信息量可用其方差來(lái)度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的線性組合中選取的F1應(yīng)該是X1,X2,XP的所有線性組合中方差最大
2、的,故稱F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)指標(biāo)的信息,再考慮選取第二個(gè)主成分指標(biāo)F2,為有效地反映原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,即F2與F1要保持獨(dú)立、不相關(guān),用數(shù)學(xué)語(yǔ)言表達(dá)就是其協(xié)方差Cov(F1, F2)=0,所以F2是與F1不相關(guān)的X1,X2,XP的所有線性組合中方差最大的,故稱F2為第二主成分,依此類推構(gòu)造出的F1、F2、Fm為原變量指標(biāo)X1、X2XP第一、第二、第m個(gè)主成分。根據(jù)以上分析得知: (1) Fi與Fj互不相關(guān),即Cov(Fi,F(xiàn)j) = 0,并有Var(Fi)=aiai,其中為X的協(xié)方差陣 (2)F1是X1,X2,Xp的一切線性組合(系數(shù)滿
3、足上述要求)中方差最大的,即Fm是與F1,F(xiàn)2,F(xiàn)m1都不相關(guān)的X1,X2,XP的所有線性組合中方差最大者。F1,F(xiàn)2,F(xiàn)m(mp)為構(gòu)造的新變量指標(biāo),即原變量指標(biāo)的第一、第二、第m個(gè)主成分。 由以上分析可見(jiàn),主成分分析法的主要任務(wù)有兩點(diǎn): (1)確定各主成分Fi(i=1,2,m)關(guān)于原變量Xj(j=1,2 , p)的表達(dá)式,即系數(shù)( i=1,2,m; j=1,2 ,p)。從數(shù)學(xué)上可以證明,原變量協(xié)方差矩陣的特征根是主成分的方差,所以前m個(gè)較大特征根就代表前m個(gè)較大的主成分方差值;原變量協(xié)方差矩陣前m個(gè)較大的特征值(這樣選取才能保證主成分的方差依次最大)所對(duì)應(yīng)的特征向量就是相應(yīng)主成分Fi表達(dá)式
4、的系數(shù),為了加以限制,系數(shù)啟用的是對(duì)應(yīng)的單位化的特征向量,即有= 1。 (2)計(jì)算主成分載荷,主成分載荷是反映主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度: 二、主成分分析法的計(jì)算步驟主成分分析的具體步驟如下: (1)計(jì)算協(xié)方差矩陣計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣:=(sij)pp,其中 i,j=1,2,p(2)求出的特征值及相應(yīng)的正交化單位特征向量 的前m個(gè)較大的特征值l1l2lm0,就是前m個(gè)主成分對(duì)應(yīng)的方差,對(duì)應(yīng)的單位特征向量就是主成分Fi的關(guān)于原變量的系數(shù),則原變量的第i個(gè)主成分Fi為:Fi =X主成分的方差(信息)貢獻(xiàn)率用來(lái)反映信息量的大小,為:(3)選擇主成分 最終要選擇幾個(gè)主成分,即F1,F
5、2,Fm中m的確定是通過(guò)方差(信息)累計(jì)貢獻(xiàn)率G(m)來(lái)確定當(dāng)累積貢獻(xiàn)率大于85%時(shí),就認(rèn)為能足夠反映原來(lái)變量的信息了,對(duì)應(yīng)的m就是抽取的前m個(gè)主成分。(4)計(jì)算主成分載荷 主成分載荷是反映主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度,原來(lái)變量Xj(j=1,2 , p)在諸主成分Fi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。: 在SPSS軟件中主成分分析后的分析結(jié)果中,“成分矩陣”反應(yīng)的就是主成分載荷矩陣。(5)計(jì)算主成分得分 計(jì)算樣品在m個(gè)主成分上的得分: i = 1,2,m實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有
6、很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中:,根據(jù)數(shù)學(xué)公式知,任何隨機(jī)變量對(duì)其作標(biāo)準(zhǔn)化變換后,其協(xié)方差與其相關(guān)系數(shù)是一回事,即標(biāo)準(zhǔn)化后的變量協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。另一方面,根據(jù)協(xié)方差的公式可以推得標(biāo)準(zhǔn)化后的協(xié)方差就是原變量的相關(guān)系數(shù),亦即,標(biāo)準(zhǔn)化后的變量的協(xié)方差矩陣就是原變量的相關(guān)系數(shù)矩陣。也就是說(shuō),在標(biāo)準(zhǔn)化前后變量的相關(guān)系數(shù)矩陣不變化。根據(jù)以上論述,為消除量綱的影響,將變量標(biāo)準(zhǔn)化后再計(jì)算其協(xié)方差矩陣,就是直接計(jì)算原變量的相關(guān)系數(shù)矩陣,所以主成分分析的實(shí)際常用計(jì)算步驟是:計(jì)算相關(guān)系數(shù)矩陣求出相關(guān)系數(shù)矩陣的特征值及相應(yīng)的正交化單位特征向量選擇主成分 計(jì)算主成分得分總結(jié):
7、原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值li為主成分方差的貢獻(xiàn),方差的貢獻(xiàn)率為 ,越大,說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng),可根據(jù)li的大小來(lái)提取主成分。每一個(gè)主成分的組合系數(shù)(原變量在該主成分上的載荷)就是相應(yīng)特征值li所對(duì)應(yīng)的單位特征向量。主成分分析法的計(jì)算步驟1、原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化采集p 維隨機(jī)向量x= (x1,X2,.,Xp)T)n 個(gè)樣品xi= (xi1,xi2,.,xip)T,i=1,2,n,np,構(gòu)造樣本陣,對(duì)樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:其中,得標(biāo)準(zhǔn)化陣Z。2、對(duì)標(biāo)準(zhǔn)化陣Z 求相關(guān)系數(shù)矩陣其中,。3、解樣本相關(guān)矩陣R 的特征方程得p 個(gè)特征根,確定主成分按確定m 值,使信息的利用率達(dá)
8、85%以上,對(duì)每個(gè)j, j=1,2,.,m, 解方程組Rb= jb得單位特征向量。4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分U1稱為第一主成分,U2稱為第二主成分,Up稱為第p 主成分。5 、對(duì)m 個(gè)主成分進(jìn)行綜合評(píng)價(jià)對(duì)m 個(gè)主成分進(jìn)行加權(quán)求和,即得最終評(píng)價(jià)值,權(quán)數(shù)為每個(gè)主成分的方差貢獻(xiàn)率。一、主成分分析基本原理概念:主成分分析是把原來(lái)多個(gè)變量劃為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法。從數(shù)學(xué)角度來(lái)看,這是一種降維處理技術(shù)。 思路:一個(gè)研究對(duì)象,往往是多要素的復(fù)雜系統(tǒng)。變量太多無(wú)疑會(huì)增加分析問(wèn)題的難度和復(fù)雜性,利用原變量之間的相關(guān)關(guān)系,用較少的新變量代替原來(lái)較多的變量,并使這些少數(shù)變量盡可能多的保留原來(lái)
9、較多的變量所反應(yīng)的信息,這樣問(wèn)題就簡(jiǎn)單化了。 原理:假定有n個(gè)樣本,每個(gè)樣本共有p個(gè)變量,構(gòu)成一個(gè)np階的數(shù)據(jù)矩陣,記原變量指標(biāo)為x1,x2,xp,設(shè)它們降維處理后的綜合指標(biāo),即新變量為 z1,z2,z3, ,zm(mp),則系數(shù)lij的確定原則: zi與zj(ij;i,j=1,2,m)相互無(wú)關(guān);z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,xP的所有線性組合中方差最大者; zm是與z1,z2,zm1都不相關(guān)的x1,x2,xP , 的所有線性組合中方差最大者。新變量指標(biāo)z1,z2,zm分別稱為原變量指標(biāo)x1,x2,xP的第1,第2,第m主成分。 從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來(lái)變量xj(j=1,2 , p)在諸主成分zi(i=1,2,m)上的荷載 lij( i=1,2,m; j=1,2 ,p)。 從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個(gè)較大的特征值所對(duì)應(yīng)的特征向量。二、主成分分析的計(jì)算步驟1、計(jì)算相關(guān)系數(shù)矩陣rij(i,j=1,2,p)為原變量xi與xj的相關(guān)系數(shù), rij=rji,其計(jì)算公式為2、計(jì)算特征值與特征向量解特征方程 ,常用雅可比法(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 法院執(zhí)行基金管理辦法
- 注冊(cè)巖土注冊(cè)管理辦法
- 瀘州工程審計(jì)管理辦法
- 淺析文物拍賣管理辦法
- 測(cè)評(píng)報(bào)告打印管理辦法
- 濟(jì)南土地登記管理辦法
- 海南小作坊管理辦法
- 海南環(huán)保資金管理辦法
- 海南食堂收支管理辦法
- ??诮值拦珟芾磙k法
- 財(cái)稅大數(shù)據(jù)在企業(yè)稅收風(fēng)險(xiǎn)管理中的應(yīng)用
- 湖北省2024年本科普通批錄取院校(首選物理)平行志愿投檔線
- 四新技術(shù)在建筑領(lǐng)域的應(yīng)用
- 七十歲以上老年人三力測(cè)試,換領(lǐng)駕照模擬題答案
- 大學(xué)生全國(guó)創(chuàng)業(yè)服務(wù)網(wǎng)項(xiàng)目
- 陜西省漢中市2023-2024學(xué)年高二下學(xué)期7月期末考試 英語(yǔ) 含答案
- 跌倒的應(yīng)急處理課件
- 基于結(jié)構(gòu)化主題的單元整體教學(xué)-小學(xué)數(shù)學(xué)實(shí)踐探索
- 業(yè)務(wù)連續(xù)性管理體系程序文件
- 2025年農(nóng)田灌溉水泵購(gòu)買合同
- 2025年建筑工程清包工等價(jià)格
評(píng)論
0/150
提交評(píng)論