主成分分析法_第1頁
主成分分析法_第2頁
主成分分析法_第3頁
主成分分析法_第4頁
主成分分析法_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于主成分分析法第一頁,共三十七頁,2022年,8月28日4.1主成分分析法的基本原理主成分分析(PrincipalComponentsAnalysis)是由Hotelling于1933年首先提出的,它是利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)分析方法。第二頁,共三十七頁,2022年,8月28日4.1.1基本思想

對(duì)原始變量相關(guān)矩陣結(jié)構(gòu)關(guān)系進(jìn)行研究,找出影響某一經(jīng)濟(jì)過程的幾個(gè)綜合指標(biāo),使綜合指標(biāo)變?yōu)樵瓉碜兞康木€性組合,從而不僅保留了原始變量的主要信息,彼此之間又不相關(guān),更有助于抓住主要矛盾。第三頁,共三十七頁,2022年,8月28日

借助于一個(gè)正交變換T,將其分量相關(guān)的原隨機(jī)向量x=(x1,x2,L,…,xp)T,轉(zhuǎn)化成其分向量不相關(guān)的新隨機(jī)向量u=(u1,u2,L,…,up)T

,這在代數(shù)上表現(xiàn)為將x的協(xié)方差陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將遠(yuǎn)坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的p個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維度變量系統(tǒng),再通過構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。第四頁,共三十七頁,2022年,8月28日

定義:稱為第k主成分分量的方差貢獻(xiàn)率,稱為前k個(gè)主成分分量的累計(jì)方差貢獻(xiàn)率。第五頁,共三十七頁,2022年,8月28日

例:兒童身高和體重兩個(gè)變量之間的關(guān)系。下表表示兒童身高與體重?cái)?shù)據(jù):

變量觀測(cè)量身高h(yuǎn)體重w1h1w12h2w23h3w3┋┋┋nhnwn第六頁,共三十七頁,2022年,8月28日使用散點(diǎn)圖表示兒童身高與體重

y1y2

whθ

i=1,2,┅┅,n第七頁,共三十七頁,2022年,8月28日

以該直線為一個(gè)坐標(biāo)軸y1,以該軸的垂直線為另一個(gè)坐標(biāo)軸y2。因?yàn)樗杏^測(cè)點(diǎn)均在坐標(biāo)軸y1周圍,而y1與y2

是兩個(gè)相互垂直的坐標(biāo)軸,因此彼此不相關(guān)。

上述也可以看成是將h軸和w軸同時(shí)按逆時(shí)針方向旋轉(zhuǎn)θ角度,得到新的坐標(biāo)軸y1和y2

,y1和y2是兩個(gè)新的變量。第八頁,共三十七頁,2022年,8月28日

根據(jù)旋轉(zhuǎn)公式

y1=hcosθ+wsinθy2=-hsinθ+wcosθ

我們看到新變量y1和y2

是原變量h和w的線性組合,它的矩陣表示形式為y1cosθsinθh==U’xy2

一sinθcosθw其中U’為正交矩陣,即有U’=U-1,U’U-1=I第九頁,共三十七頁,2022年,8月28日

旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣本點(diǎn)在y1

軸方向上的離散程度最大,即y1的方差最大。變量y1

代表了原始數(shù)據(jù)的絕大部分信息,即把原始數(shù)據(jù)的信息集中到y(tǒng)1軸上,對(duì)數(shù)據(jù)中包含的信息起到了濃縮作用。

y1和y2可稱為原始變量h和w的綜合變量。由于n個(gè)點(diǎn)在y1

軸上的方差最大,因而將二維空間的點(diǎn)的描述用y1這個(gè)綜合變量來代替,所損失的信息最小,由此稱y1

為第一主成分,y2為第二主成分。

第十頁,共三十七頁,2022年,8月28日

4.1.2主成分分析法與因子分析法主成分分析通過線性組合將原變量綜合成幾個(gè)主成分,用較少的綜合指標(biāo)來代替原來較多的指標(biāo)(變量)。在多變量分析中,某些變量間往往存在相關(guān)性。是什么原因使變量間有關(guān)聯(lián)呢?是否存在不能直接觀測(cè)到的、但影響可觀測(cè)變量變化的公共因子?因子分析法(FactorAnalysis)就是尋找這些公共因子的模型分析方法,它是在主成分的基礎(chǔ)上構(gòu)筑若干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞浚源丝疾煸兞块g的聯(lián)系與區(qū)別。第十一頁,共三十七頁,2022年,8月28日

4.1.2主成分分析法與因子分析法例如,隨著年齡的增長(zhǎng),兒童的身高、體重會(huì)隨著變化,具有一定的相關(guān)性,身高和體重之間為何會(huì)有相關(guān)性呢?因?yàn)榇嬖谥粋€(gè)同時(shí)支配或影響著身高與體重的生長(zhǎng)因子。那么,我們能否通過對(duì)多個(gè)變量的相關(guān)系數(shù)矩陣的研究,找出同時(shí)影響或支配所有變量的共性因子呢?因子分析就是從大量的數(shù)據(jù)中“由表及里”、“去粗取精”,尋找影響或支配變量的多變量統(tǒng)計(jì)方法??梢哉f,因子分析是主成分分析的推廣,也是一種把多個(gè)變量化為少數(shù)幾個(gè)綜合變量的多變量分析方法,其目的是用有限個(gè)不可觀測(cè)的隱變量來解釋原始變量之間的相關(guān)關(guān)系。因子分析主要用于:1、減少分析變量個(gè)數(shù);2、通過對(duì)變量間相關(guān)關(guān)系探測(cè),將原始變量進(jìn)行分類。即將相關(guān)性高的變量分為一組,用共性因子代替該組變量。第十二頁,共三十七頁,2022年,8月28日第十三頁,共三十七頁,2022年,8月28日第十四頁,共三十七頁,2022年,8月28日

4.2主成分分析的一般數(shù)學(xué)模型

變量觀測(cè)量X1X2X3X4┅┅Xm1X11X12X13X14┅┅X1m2X21X22X23X24┅┅X2m┋┋┋┋┋┅┅┋nXn1Xn2Xn3Xn4┅┅Xnm

推廣到一般情況,實(shí)測(cè)變量X1——Xm,共測(cè)得n個(gè)樣品:第十五頁,共三十七頁,2022年,8月28日原始數(shù)據(jù)矩陣為:

X11X12┅┅X1mX21X22┅┅X2m┋┋┋Xn1

Xn2

┅┅XnmX=

第十六頁,共三十七頁,2022年,8月28日

在原始變量的m維空間中,找到新的m個(gè)坐標(biāo)軸,新變量與原始變量的關(guān)系可以表示為:y1=u11x1+u12x2+┅┅+u1mxmy2=u21x1+u22x2+┅┅+u2mxm┅┅┅┅┅┅┅┅ym=um1x1+um2x2+┅┅+ummxm

并且滿足uk12+uk22+┅┅+ukm2=1k=1,2,┅┅,m第十七頁,共三十七頁,2022年,8月28日系數(shù)uij由下列原則來確定:

(1)yi與yj(i≠j,i,j=1,2,┅┅,p)相互無關(guān)。(2)y1是x1、x2、┅┅、xp的一切線性組合中方差最大者;y2是與y1不相關(guān)的x1、x2、┅┅、xp的所有線性組合中方差最大者;yp是與y1、y2、┅┅、yp-1都不相關(guān)的x1、x2、┅┅、xp的所有線性組合中方差最大者。如此決定的綜合變量y1、y2、┅┅、yp分別稱為原始變量的第1、第2、┅、第p個(gè)主成分。其中y1在總方差中占的比重最大,綜合變量y1、y2、┅┅、yp的方差依次遞減,在具體分析時(shí)只挑選前幾個(gè)方差最大的主成分,從而達(dá)到簡(jiǎn)化系統(tǒng)結(jié)構(gòu)的目的。第十八頁,共三十七頁,2022年,8月28日4.3主成分分析法的算法

主成分分析法原理應(yīng)用于實(shí)際課題,必須解決兩個(gè)問題:一是隨機(jī)向量x的協(xié)方差陣T或相關(guān)系數(shù)陣R通常是未知的,需借助于隨機(jī)抽樣的途徑,對(duì)T或R作出極大似然估計(jì);二是隨機(jī)向量x的各個(gè)分量通常是不同的自然科學(xué)量或社會(huì)科學(xué)量,需通過標(biāo)準(zhǔn)化變換的方法,以解決不可公度的問題。

第十九頁,共三十七頁,2022年,8月28日

步驟1:采集p維隨機(jī)向量x=(x1,x2,…,xp)T的n個(gè)樣品xi=(xi1,xi2,…,xip)T,i=1,2,…,n,n>p,構(gòu)造樣本陣X

x1Tx11x12┅x1px2Tx21

x22

┅x2pX=┇=┇┇┇xnTxn1xn2

┅xnp

第二十頁,共三十七頁,2022年,8月28日

步驟2

對(duì)樣本陣X中的元進(jìn)行如下變換

xij,對(duì)正指標(biāo)

Yij=-xij,對(duì)逆指標(biāo)

Y=Yij

n×p

第二十一頁,共三十七頁,2022年,8月28日步驟3

對(duì)Y正中元進(jìn)行如下標(biāo)準(zhǔn)化變換

其中得標(biāo)準(zhǔn)化矩陣Z:Z=

z1Tz11z12┅z1pz2T=z21z22┅z2p┇┇┇┇znTzn1zn2┅znp第二十二頁,共三十七頁,2022年,8月28日步驟4對(duì)標(biāo)準(zhǔn)化陣Z求樣本相關(guān)系數(shù)陣

其中第二十三頁,共三十七頁,2022年,8月28日步驟5解樣本相關(guān)系數(shù)陣R的特征方程

得p個(gè)特征值第二十四頁,共三十七頁,2022年,8月28日步驟6按

得單位特征向量:使信息的利用率達(dá)到85%以上。確定m值。對(duì)每個(gè)

解方程組第二十五頁,共三十七頁,2022年,8月28日

步驟7求出zi=(zi1,zi2,┅,zip)T,i=1,2,┅,n的m個(gè)主成分量

uij=ziTbj0

,j=1,2,┅,m

得主成分決策陣

U=

=

其中ui為第i個(gè)樣品的主成分向量,i=1,2,┅,n,它的第j個(gè)分量uij是向量zi在單位特征向量bj0

上的投影,j=1,2,┅,m。

第二十六頁,共三十七頁,2022年,8月28日

步驟8選擇適當(dāng)?shù)闹鞒煞謨r(jià)值函數(shù)模型,進(jìn)一步把m維系統(tǒng)降成一維系統(tǒng)。一般評(píng)價(jià)函數(shù)模型為:

Fi=,i=1,2,┅,n。

其中

,j=1,2,┅,m。第二十七頁,共三十七頁,2022年,8月28日

4.4實(shí)例分析:企業(yè)經(jīng)濟(jì)效益的主成分分析企業(yè)經(jīng)濟(jì)效益是指企業(yè)在一定的計(jì)劃期內(nèi),以盡量少的資金占用、生產(chǎn)出盡量多的符合社會(huì)需求的產(chǎn)品。對(duì)企業(yè)經(jīng)濟(jì)效益的考核、分析和評(píng)價(jià),是國(guó)家發(fā)展經(jīng)濟(jì)、實(shí)施宏觀調(diào)控和科學(xué)管理所必須的,也是企業(yè)自我認(rèn)識(shí)、自我發(fā)展、進(jìn)行科學(xué)決策和科學(xué)管理的依據(jù)。第二十八頁,共三十七頁,2022年,8月28日

4.4.1評(píng)價(jià)指標(biāo)體系設(shè)計(jì)

(1)銷售利潤(rùn)率(2)總資產(chǎn)報(bào)酬率

(3)資本收益率(4)資本保值增值率

(5)資產(chǎn)負(fù)債率(6)速動(dòng)比率

(7)應(yīng)收帳款周轉(zhuǎn)率(8)存貨周轉(zhuǎn)率

(9)社會(huì)貢獻(xiàn)率(10)社會(huì)積累率第二十九頁,共三十七頁,2022年,8月28日

4.4.2建立數(shù)學(xué)模型

(1)根據(jù)調(diào)查研究,取n個(gè)樣本,每個(gè)樣本觀測(cè)p項(xiàng)指標(biāo),從十個(gè)企業(yè)的財(cái)務(wù)報(bào)表中計(jì)算出所需的十個(gè)評(píng)價(jià)指標(biāo),得出原始數(shù)據(jù)矩陣如表1

Book1.xls第三十頁,共三十七頁,2022年,8月28日(2)為了消除原來各指標(biāo)的量綱,使各指標(biāo)之間具有可比性,對(duì)原始數(shù)據(jù)作標(biāo)準(zhǔn)化處理,其計(jì)算公式為:(i=1,2,….n;j=1,2,…p)

標(biāo)準(zhǔn)化原始數(shù)據(jù)矩陣所得結(jié)果如表2

Book1.xls

XIj*=第三十一頁,共三十七頁,2022年,8月28日(3)計(jì)算相關(guān)系數(shù)矩陣:R=

其中,rij=

(i=1,2,3,…p;j=1,2,3,…p)

根據(jù)標(biāo)準(zhǔn)化矩陣計(jì)算相關(guān)矩陣,結(jié)果如表3

Book1.xls第三十二頁,共三十七頁,2022年,8月28日(5)根據(jù)特征根計(jì)算主成分的貢獻(xiàn)率和主成分的累計(jì)貢獻(xiàn)率,選擇m個(gè)主分量。當(dāng)其達(dá)到一定水平時(shí),說明前r個(gè)主成分來描述原樣本所包含的信息量已經(jīng)達(dá)到要求。計(jì)算公式如下:

第k個(gè)主主成分的貢獻(xiàn)率=,

前r個(gè)主成分的累計(jì)貢獻(xiàn)率=

計(jì)算結(jié)果如表4(Book1.xls)第三十三頁,共三十七頁,2022年,8月28日

選擇的4個(gè)主分量的方差和占全部方差總和的比例為0.9070接近1,即基本保留了原來的信息,而因子由10個(gè)減少為4個(gè)。故主成分為4個(gè),根據(jù)Z=CX計(jì)算4個(gè)主成分的值z(mì)1,z2,z3,z4,

如下:

第一主成分:

z1=0.062

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論