化學(xué)計(jì)量學(xué)-主成分分析-倪力軍_第1頁
化學(xué)計(jì)量學(xué)-主成分分析-倪力軍_第2頁
化學(xué)計(jì)量學(xué)-主成分分析-倪力軍_第3頁
化學(xué)計(jì)量學(xué)-主成分分析-倪力軍_第4頁
化學(xué)計(jì)量學(xué)-主成分分析-倪力軍_第5頁
已閱讀5頁,還剩100頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主成分分析及其在回歸分析中的應(yīng)用

PrincipalComponentAnalysis(PCA)AndItsApplicationinRegression主成分分析的直觀譬喻小學(xué)各科成績(jī)的總體評(píng)估:a1×語文+a2×數(shù)學(xué)+a3×自然+a4×社會(huì)科學(xué)

確定權(quán)重系數(shù)的過程就可以看作是主成分分析的過程,得到的加權(quán)成績(jī)總和就相當(dāng)于新的綜合變量——主成分什么是主成分分析?推而廣之,當(dāng)某一問題需要同時(shí)考慮好幾個(gè)因素時(shí),我們并不對(duì)這些因素個(gè)別處理而是將它們綜合起來處理,這就是PCA。

這樣綜合處理的原則是使新的綜合變量能夠解釋大部分原始數(shù)據(jù)方差。什么是主成分分析?主成分分析(PrincipalComponentAnalysis,簡(jiǎn)稱PCA)是一種常用的基于變量協(xié)方差矩陣(相關(guān)矩陣)對(duì)信息進(jìn)行處理、壓縮和抽提的多元統(tǒng)計(jì)方法。為什么要進(jìn)行主成分分析?有時(shí)這些信息往往是重疊與冗余的:即數(shù)據(jù)矩陣中存在相關(guān)的行或列測(cè)試數(shù)據(jù)矩陣表示信息的載體PCA能將許多相關(guān)性很高的變量轉(zhuǎn)化成彼此互相獨(dú)立的變量:即用個(gè)數(shù)較少的、能解釋大部分原始數(shù)據(jù)方差的變量去替代大部分原始變量一個(gè)例子例6-1:亮氨酸和異亮氨酸是同分異構(gòu)體,在合成亮氨酸的反應(yīng)中副產(chǎn)物異亮氨酸的的分離十分困難,希望采用紫外分光光度法分析反應(yīng)產(chǎn)物中目標(biāo)化合物亮氨酸的含量。

亮氨酸、異亮氨酸溶液在適當(dāng)條件下可與茚三酮反應(yīng),生成有色絡(luò)合物。以試劑空白作參比,采用口徑為1cm的比色皿、在530nm到590nm間每隔4nm可測(cè)得亮氨酸和異亮氨酸溶液的紫外光譜如下圖所示。步驟1—構(gòu)造建模樣品、采集其光譜配制不同濃度的亮氨酸、異亮氨酸組成的16個(gè)混合樣品(設(shè)其濃度矩陣為),測(cè)得其在546-594nm間12個(gè)波長(zhǎng)點(diǎn)下的紫外吸光度(記其吸光度矩陣為)。根據(jù)多組分、多通道Lamber-beer定律2-4(b)有(6-2)步驟2—求吸光度系數(shù)矩陣由(4-14)可得上式的最小二乘多元線性回歸解為:(6-3)將16個(gè)建模樣品的濃度矩陣X與吸光度矩陣Y代入上式可得:步驟3—模型的檢驗(yàn)配制3個(gè)混合樣本(記其濃度矩陣為,測(cè)定這3個(gè)樣本在對(duì)應(yīng)波長(zhǎng)下的吸光度矩陣則求解上式,有:(6-5)將B矩陣及代入上式可得3個(gè)檢驗(yàn)集樣本的濃度矩陣如下表為什么根據(jù)Lamber-beer定律

建立的多元線性回歸模型誤差很大16個(gè)建模樣本由光學(xué)性質(zhì)非常接近的兩個(gè)物質(zhì)混合而成,故其濃度矩陣的行向量之間高度線性相關(guān);因此由(6-3)求得的吸光度系數(shù)矩陣B的行向量高度相關(guān);造成(6-5)中的逆矩陣計(jì)算誤差很大。本例說明,當(dāng)原始數(shù)據(jù)矩陣中的信息存在較高的相關(guān)性時(shí),不對(duì)其進(jìn)行信息壓縮和抽提、不消除原始信息間的相關(guān)性就直接用其建模和預(yù)測(cè)會(huì)造成分析結(jié)果的荒謬與不可信。

主成分分析是一種非常常用的、有效的信息壓縮方法,可以消除原始信息的冗余和相關(guān)性。為什么要根據(jù)方差確定主成分?情形II下總分的方差為0,顯然不能反映三個(gè)學(xué)生各科成績(jī)各有所長(zhǎng)的實(shí)際情形。對(duì)主成分的要求希望能用一個(gè)或少數(shù)幾個(gè)綜合指標(biāo)(分?jǐn)?shù))來代替原來分?jǐn)?shù)表做統(tǒng)計(jì)分析,而且希望新的綜合指標(biāo)能夠盡可能地保留原有信息,并具有最大的方差。

主成分與原始變量間的關(guān)系選擇加權(quán)系數(shù)a11,a12,…a1p是要能使PC(1)得到最大解釋方差的能力,而PC(2)則是能對(duì)原始數(shù)據(jù)中尚未被PC(1)解釋的差異部分擁有有最大解釋能力,若以此類推,我們可以找出m個(gè)PC出來(m≦p)

主成分軸(載荷向量)

與主成分得分原始數(shù)據(jù)前的加權(quán)系數(shù)決定了新的綜合變量主成分(得分)的大小和性質(zhì),通常稱為主成分軸或者載荷向量(載荷軸、載荷系數(shù))。主成分分析的關(guān)鍵就是確定這些系數(shù),這些系數(shù)構(gòu)成了新的坐標(biāo)系,將原始變量在新的坐標(biāo)系下投影就可求得新坐標(biāo)系下的變量值(主成分得分)。對(duì)三個(gè)變量構(gòu)成的n個(gè)樣本進(jìn)行主成分分析示意圖PC1(i)PC2(i)主成分變換將三維空間的樣本壓縮到二維空間表示基本概念協(xié)方差(covariance)

方差標(biāo)準(zhǔn)差基本概念相關(guān)系數(shù)(correlationcoefficient)原始數(shù)據(jù)矩陣的每一列對(duì)應(yīng)一個(gè)變量的n個(gè)量測(cè)值,任意兩列之間可以計(jì)算兩變量間的協(xié)方差cov(i,j),i=j時(shí),即為變量j(i)的方差:

協(xié)方差矩陣Z與相關(guān)矩陣R

主成分的求解步驟:

i)對(duì)原始數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理

相當(dāng)于對(duì)原始變量進(jìn)行坐標(biāo)平移與尺度伸縮:

自標(biāo)度化預(yù)處理ii)求協(xié)方差矩陣Ziii)特征分解

相當(dāng)于將原來的坐標(biāo)軸進(jìn)行旋轉(zhuǎn)得到新的坐標(biāo)軸U:

—Z的特征值組成的對(duì)角陣

U—Z的特征向量按列組成的正交陣,它構(gòu)成了新的矢量空間,作為新變量(主成分)的坐標(biāo)軸,又稱為載荷軸。

iv)確定主成分個(gè)數(shù)(1)根據(jù)累積貢獻(xiàn)率

當(dāng)大于某個(gè)閾值時(shí),可認(rèn)為主成分?jǐn)?shù)目為m。(2)根據(jù)其它準(zhǔn)則*特征值大于1.0的因子數(shù)定為主成分?jǐn)?shù)。*利用特征值與因子數(shù)目的曲線,到某一因子數(shù)后,特征值減小幅度變化不大,此轉(zhuǎn)折點(diǎn)的因子數(shù)即為主成分?jǐn)?shù)m。*保留那些與一個(gè)以上變量有重大關(guān)系的因子。

v)求主成分得分-新的變量值

F陣的每一行相當(dāng)于原數(shù)據(jù)矩陣的對(duì)應(yīng)行(即原始變量構(gòu)成的向量)在m個(gè)主成分坐標(biāo)軸(載荷軸)上的投影組成的行向量,該向量稱為主成分得分向量。主成分分析原理概括根據(jù)方差最大化原理,用一組新的、線性無關(guān)且相互正交的向量來表征原來數(shù)據(jù)矩陣的行(或列)。這組新向量(主成分)是原始數(shù)據(jù)向量的線性組合。通過對(duì)原始數(shù)據(jù)的平移、尺度伸縮(減均值除方差)和坐標(biāo)旋轉(zhuǎn)(特征分解),得到新的坐標(biāo)系(特征向量)后,用原始數(shù)據(jù)在新坐標(biāo)系下的投影(點(diǎn)積)來替代原始變量。PCA中的重要概念載荷軸(載荷向量、主成分軸、特征矢量)主成分得分(原始數(shù)據(jù)在載荷向量上的投影)主成分的方差(原始數(shù)據(jù)協(xié)方差矩陣的特征值)協(xié)方差矩陣、相關(guān)系數(shù)矩陣(相關(guān)矩陣)例6-2:有3個(gè)變量X1,X2與X3(m=3),其16次(n=16)觀測(cè)值見下表:

相關(guān)矩陣為:相關(guān)陣R的特征值分別為2.077,0.919,0.004,

這說明第三個(gè)主成分所起作用非常小,可以只要兩個(gè)主成分。

本例在MATLAB下的詳細(xì)主成分分析過程及結(jié)果演示、分析見教材6-2例。例6-3:8個(gè)樣品中苯和二甲苯的含量見下表:#BTBmc

Tmc14826131224420963402451043818345329-3-56286-7-87265-9-98244-11-10mean351400B:苯,T:二甲苯;Bmc和Tmc為減去平均值后的值原始數(shù)據(jù)矩陣中含有8(n=8)個(gè)樣品、兩個(gè)變量,其協(xié)方差矩陣為:求解該方程得到如下兩個(gè)特征值:根據(jù)PC1求得的苯與二甲苯含量及其實(shí)際值主成分得分的平方和、特征值與方差(17.67)2+(10.58)2+(10.64)2+(4.96)2+(-5.67)2+(-10.61)2+(-12.73)2+(-14.84)2=1089(8-1)×155.59=1089主成分的平方和=(n-1)×對(duì)應(yīng)特征值由于主成分的均值為零,所以主成分的平方和=(n-1)×方差特征值反映的是相應(yīng)主成分的方差大小主成分的特點(diǎn)與優(yōu)點(diǎn)(1)主成分得分是原變量的線性組合;(2)各個(gè)主成分之間互不相關(guān);(3)如果原始數(shù)據(jù)矩陣有p個(gè)變量,n個(gè)樣本,則最多有min(p,n)個(gè)主成分。(4)第一主成分的方差最大,越向后主成分的方差越小。(5)主成分的方差等于原始數(shù)據(jù)的相關(guān)矩陣的對(duì)應(yīng)特征值。(6)通過主成分得分能直觀地考察樣本之間的關(guān)系。PC1PC2主成分分析新、舊變量間的連接紐帶-

載荷軸(特征矢量、主成分軸)新變量——主成分得分,是原始變量在主成分軸上的投影,是原始變量的線性組合,其線性組合系數(shù)是對(duì)應(yīng)特征向量的元素例如,第k個(gè)樣本的第一主成分得分

=第k個(gè)樣本的原始變量在第一特征向量上的投影例6-2原始數(shù)據(jù)文件的導(dǎo)入:在Excel文件中生成數(shù)據(jù)矩陣X并將其保存在MATLAB\work子目錄下;然后在MATLAB界面選擇“openfile”圖標(biāo)雙擊,在“文件類型”框中選擇“AllFiles(*.*)”,選擇work子目錄下的X.xls文件,會(huì)出現(xiàn)如下界面:點(diǎn)擊圖中的“Finish”按鈕,出現(xiàn)如下文字:ImportWizardcreatedvariablesinthecurrentworkspace.(2)對(duì)變量進(jìn)行自標(biāo)度化預(yù)處理:在MATLAB的commandwindow下鍵入如下命令:

xx=autoscaling(X);%對(duì)原始變量進(jìn)行自標(biāo)度化預(yù)處理并存放在xx矩陣中在MATLAB的view窗口下打開“workspace”欄,會(huì)出現(xiàn)如下界面:(3)求協(xié)方差矩陣:在MATLAB下鍵入如下命令:Zxx=xx'*xx/(16-1);%求經(jīng)過預(yù)處理后的數(shù)據(jù)矩陣xx的協(xié)方差矩陣并保持在Zxx中Rx=corrcoef(X);%計(jì)算原始數(shù)據(jù)的相關(guān)系數(shù)矩陣并保存在Rx中會(huì)得到如下結(jié)果:經(jīng)過自標(biāo)度化預(yù)處理的數(shù)據(jù)矩陣xx的協(xié)方差矩陣和其原始數(shù)據(jù)的相關(guān)矩陣相等

在MATLAB下鍵入如下命令:

dx=(x-repmat(mean(X),size(X,1),1));

%將X中每個(gè)變量減去其均值并賦給dx

Zx=dx’dx/(16-1);%求原始數(shù)據(jù)矩陣X的協(xié)方差矩陣并存放在Zx中

Rxx=corrcoef(XX);%求自標(biāo)度化預(yù)處理后數(shù)據(jù)矩陣XX的相關(guān)矩陣并存放在Rxx中Rx=Zxx=Rxx,說明無論原始數(shù)據(jù)是否進(jìn)行了自標(biāo)度化處理,其相關(guān)系數(shù)矩陣不變,但其協(xié)方差矩陣不相等。

(4)進(jìn)行主成分分析:在MATLAB下鍵入如下命令:

[pc,score,latent]=princomp(xx);

%采用MATLAB中princomp函數(shù)對(duì)矩陣xx進(jìn)行主成分分析在workspace界面打開latent得xx的協(xié)方差矩陣Zxx(相關(guān)矩陣Rxx)的特征值latent=2.07010.925720.0042246(5)求主成分均值、方差和相關(guān)系數(shù):在MATLAB下鍵入命令:

mx=mean(score);%求每個(gè)主成分的平均值并賦給mx

var_score=var(score);%求每個(gè)主成分的方差并賦給var_score

Rpc=corrcoef(score);%求主成分的相關(guān)矩陣并賦給Rpc

在MATLAB的workspace界面打開mx、var_score

與Rpc可得根據(jù)本例分析結(jié)果可以得出(1)每一主成分得分的均值=0;(2)各個(gè)主成分(得分)之間互不相關(guān);(3)每個(gè)主成分(得分)的方差=原始數(shù)據(jù)矩陣相關(guān)矩陣的特征值。(4)第一主成分的方差最大,最后一個(gè)主成分的方差最小。例6-2自標(biāo)度化與中心化

預(yù)處理后PCA結(jié)果比較

中心化預(yù)處理特征值:5604.5,12.781,2.8112

三個(gè)主成分的貢獻(xiàn)率:99.72%,0.23%和0.05%——取1個(gè)主成分自標(biāo)度化預(yù)處理特征值:2.0701,0.9257,0.0042

三個(gè)主成分的貢獻(xiàn)率:69.00%,30.87%和0.13%——取2個(gè)主成分

例6-3自標(biāo)度化與中心化

預(yù)處理后PCA結(jié)果比較結(jié)論對(duì)于原始變量量級(jí)差異大的情況,一定要進(jìn)行自標(biāo)度化預(yù)處理后再進(jìn)行PCA,才能得出正確的結(jié)果(如例6-2)。而原始變量之間量級(jí)相同時(shí),是否進(jìn)行自標(biāo)度化預(yù)處理對(duì)PCA結(jié)果無影響(如例6-3)。思考題主成分分析的目的是什么?主成分分析在什么情況下有意義?換言之,什么情況下可以用數(shù)目較少的主成分替代數(shù)目較多的原始變量?解釋PCA中特征值、特征向量(載荷軸)、主成分得分的含義。主成分(得分)具有哪些特性(就其均值、方差、獨(dú)立性或相關(guān)性幾個(gè)方面開展討論)?主成分軸(載荷向量)有哪些特性?課堂練習(xí)題填空題(1)當(dāng)變量間存在較強(qiáng)的相關(guān)性時(shí),通過主成分分析(PCA)可以對(duì)變量進(jìn)行信息壓縮和抽提,消除原始變量間的相關(guān)性,得到新的變量及新坐標(biāo)系。新的坐標(biāo)系由

組成;新的變量稱為

;其中主成分(得分)是原變量的

、是原始變量在新坐標(biāo)系(載荷向量、特征向量、主成分軸)上的

。

填空題(2)

第i,j個(gè)主成分之間

;主成分按照

從大到小依次排列;每個(gè)主成分的

為0、其

為變量協(xié)方差矩陣(或相關(guān)矩陣)對(duì)應(yīng)的特征值。

(3)

在m個(gè)主成分中,第一主成分的方差

;第m個(gè)主成分的方差

。(4)原始數(shù)據(jù)矩陣的協(xié)方差矩陣的

反映了其對(duì)應(yīng)主成分方差的大小。

填空題(5)設(shè)數(shù)據(jù)矩陣的協(xié)方差矩陣的特征值從大到小依次為λ1,λ2,…,λp

,則前m個(gè)主成分的累積貢獻(xiàn)率ηm=,根據(jù)ηm的大小可以確定主成分的

,主成分的個(gè)數(shù)m

min(n,p)。填空題(6)根據(jù)相關(guān)矩陣的特征分解關(guān)系,U是

矩陣,U的列與列之間

;Λ是由R的

組成的對(duì)角陣。(7)不同主成分之間的協(xié)方差(或相關(guān)系數(shù))=

;每個(gè)載荷軸(主成分軸)都是

向量;不同的載荷軸(主成分軸、特征向量)之間的點(diǎn)積=

。主成分空間的坐標(biāo)系由

構(gòu)成。

主成分分析在上市公司

財(cái)務(wù)報(bào)表分析中的應(yīng)用

樣本—40家上市公司原始變量—2001年中報(bào)中的7個(gè)財(cái)務(wù)指標(biāo):主營(yíng)業(yè)收入(X1)、凈利潤(rùn)(X2)、總資產(chǎn)(X3)、股東權(quán)益(X4)、每股收益(X5)、每股凈資產(chǎn)(X6)和凈資產(chǎn)收益率(X7)

目的—

對(duì)40家公司進(jìn)行評(píng)價(jià)前4個(gè)主成分與7個(gè)財(cái)務(wù)指標(biāo)的關(guān)系如下:采用前4個(gè)主成分加權(quán)求和所得的綜合得分(其中權(quán)重系數(shù)為對(duì)應(yīng)主成分的特征值):部分上市公司的綜合排名主成分回歸(PrincipalComponentRegression,PCR)問題的提出:例6-1例6-1的原理(K矩陣法)缺點(diǎn):需要2次求逆,吸光度矩陣存在較高的相關(guān)性時(shí),第二步求逆會(huì)帶來很大誤差。

(6-3)P矩陣法缺點(diǎn):(1)需要構(gòu)造多于p個(gè)的建模樣本,或者挑選小于n的波長(zhǎng)通道;(2)吸光度矩陣Y中的行或列存在較高的相關(guān)性時(shí),P的求解仍不可避免地有很大誤差!問題的提出:另一個(gè)例子直接采用原始數(shù)據(jù)回歸分析在MATLAB中導(dǎo)入數(shù)據(jù)矩陣X(11行4列,第一列為單位向量)與Y(11行1列),然后鍵入命令:[b,bz,s,sz,rf]=regress(Y,X);

根據(jù)向量b可得:

Y=-10.128-0.0514X1+0.587X2+0.2869X3

從rf的第1個(gè)值可知R2=0.9919,從rf的第2個(gè)值可知統(tǒng)計(jì)變量F=285.61>F0.01(3,7)=8.4513>F0.05(3,7)=4.3468

上述回歸方程雖然通過了統(tǒng)計(jì)檢驗(yàn),但其反映的規(guī)律——進(jìn)口原料總額Y與GDP成負(fù)相關(guān)關(guān)系,與實(shí)際數(shù)據(jù)間的規(guī)律不符。原因:自變量間的高度線性相關(guān)性導(dǎo)致矩陣XTX病態(tài)(計(jì)算發(fā)現(xiàn),矩陣XTX的條件數(shù)=35719,一般認(rèn)為條件數(shù)大于30即為病態(tài)矩陣)

對(duì)本例中的X矩陣(即例6-2)自標(biāo)度化處理后進(jìn)行PCA,其協(xié)方差矩陣的特征值為1.9992,0.9982與0.0027,累積貢獻(xiàn)率分別為:66.64%,99.91%與100%

說明X矩陣中的三個(gè)變量只有2個(gè)獨(dú)立,故只取前2個(gè)主成分進(jìn)行回歸分析在MATLAB下輸入如下命令ax=autoscaling(X(:,2:4));[pc,sc,la]=princomp(ax);

tx=[ones(11,1)sc(:,1:2)];[Bt,bin,rt,bf,St]=regress(Y,tx);由Bt可知:Y=21.891+3.135*sc(1)+0.869*sc(2)由St可知:R2=0.98828,F(xiàn)=337.23故上述主成分回歸方程通過統(tǒng)計(jì)檢驗(yàn)

打開特征向量矩陣pc可得:故第1,2主成分得分為:將上式代入主成分回歸方程,可得用自標(biāo)度化處理后的變量表示的回歸方程如下:如用原始變量X1,X2,X3表示上式,有:顯然上面的方程符合實(shí)際數(shù)據(jù)間的規(guī)律主成分回歸(PCR)

的原理與步驟假設(shè)原始自變量矩陣為,因變量構(gòu)成的數(shù)據(jù)矩陣為,對(duì)X矩陣進(jìn)行自標(biāo)度化預(yù)處理后調(diào)用MATLAB中的Princomp函數(shù),可以求得主成分得分矩陣。取的前m列作為自變量,再調(diào)用MATLAB中的多元線性回歸函數(shù)Regress即可得到自變量與因變量間的回歸系數(shù)矩陣,則為主成分回歸方程

PCR的MATLAB函數(shù)function[Mpc,pc,t,Tcrit,b,Re,R,F,Fcrit,yt,yu]=pcr(xreg,yreg,cum,xpre,alpha)%xreg為建模集自變量;yreg為建模集因變量;alpha為置信水平,取0.05或0.01;cum為設(shè)定的累積貢獻(xiàn)率閾值(<=1),可取0.9或0.95;%xpre為預(yù)測(cè)集的自變量矩陣(如果不做預(yù)測(cè),xpre輸入xreg即可)

%輸出變量:Mpc為對(duì)應(yīng)cum所確定的主成分個(gè)數(shù),pc為前Mpc列載荷向量;t為按照6-19計(jì)算的m個(gè)主成分的回歸系數(shù)統(tǒng)計(jì)檢驗(yàn)量,Tcrit為t分布的臨界值;b為m+1個(gè)回歸系數(shù)組成的列向量;Re為主成分回歸模型給出的建模集樣本的殘差向量;R為前m個(gè)主成分進(jìn)行多元線性回歸所得回歸模型的復(fù)相關(guān)系數(shù);F為前m個(gè)主成分進(jìn)行多元線性回歸所得回歸模型的F統(tǒng)計(jì)量,F(xiàn)crit為F分布的臨界值;yu為主成分回歸模型給出的未知樣本的因變量值;yt為主成分累計(jì)貢獻(xiàn)率向量PCR用于藥物的紫外分光分析例6-5:曲馬氨酚緩釋片中,鹽酸曲馬多(A,25mg)和對(duì)乙酰氨基酚(B,230mg)的劑量相差接近9倍,普通的紫外分光度法難以測(cè)定鹽酸曲馬多組分含量。為了快速確定該復(fù)方緩釋制劑的釋放度,本例采用主成分回歸方法建立樣品紫外光譜與其中物質(zhì)A、B濃度間的定量模型,以實(shí)現(xiàn)兩組分含量的快速、同時(shí)測(cè)定。

根據(jù)下表配制不同濃度的鹽酸曲馬多和對(duì)乙酰氨基酚復(fù)方溶液19個(gè):在200~295nm波長(zhǎng)范圍內(nèi)測(cè)定19個(gè)樣品的紫外吸收光譜如下圖所示在Matlab下對(duì)19個(gè)建模樣品的吸光度矩陣進(jìn)行主成分分解,前2個(gè)主成分的累積貢獻(xiàn)率達(dá)到了99.94%,而實(shí)際樣品亦為兩個(gè),故取前2個(gè)主成分進(jìn)行PCR。用主成分得分和樣品的實(shí)際濃度對(duì)建模集進(jìn)行多元線性回歸,得到樣品濃度矩陣與吸光度矩陣間的關(guān)系。采用該模型對(duì)19個(gè)樣品濃度進(jìn)行預(yù)測(cè),所得預(yù)測(cè)濃度與實(shí)際濃度間的關(guān)系如下圖:鹽酸曲馬多濃度分析結(jié)果

對(duì)乙酰氨基酚濃度分析結(jié)果

樣的樣品濃度,C為完全釋放時(shí)樣品濃度

思考與填空題

主成分回歸法(PCR)有哪些優(yōu)點(diǎn)?

PCA與PCR有什么區(qū)別?

PCR(主成分回歸)是先對(duì)自變量進(jìn)行

后,采用前m個(gè)

作為新的自變量代替原來的自變量,再

建立主成分得分與因變量之間的數(shù)學(xué)關(guān)系。

主成分回歸(PCR)的不足在PCR中無法消除因變量所包含的噪聲并且在主成分分解過程中并未考慮X與Y之間的相關(guān)性,因此PCR所建立的模型雖比MLR有所改善但還不是最佳的線性模型。偏最小二乘回歸

(PartialLeastSquareRegression)PLSR既對(duì)自變量矩陣X進(jìn)行主成分分解(設(shè)其載荷向量和得分向量分別為v與t)又對(duì)因變量矩陣Y進(jìn)行主成分分解(設(shè)其載荷向量與得分向量分別為u與s)并且在分解X和Y的同時(shí)考慮了s與t間應(yīng)有的線性相關(guān)性(其回歸系數(shù)記為r)。PLS通常采用NIPALS方法對(duì)X和Y進(jìn)行主成分分解,且通過迭代時(shí)交換迭代矢量的方法使兩個(gè)分解過程合二為一。在分解Y時(shí)考慮了矩陣X對(duì)Y的影響,分解X時(shí)又考慮了矩陣Y對(duì)X的影響,兩類變量間的相互影響通過交換迭代矢量得到交互檢驗(yàn)。PLSR的優(yōu)點(diǎn)PLSR最終確定的得分向量t與s間有最大的線性相關(guān),從而使得自變量X矩陣與因變量Y矩陣的最大相關(guān)性得到了保證。

PLSR有以下的優(yōu)點(diǎn):

(1)能排除原始變量相關(guān)性;

(2)既能過濾自變量的噪聲,也能過濾因變量的噪聲;

(3)描述模型所需特征變量數(shù)目比PCR少,預(yù)報(bào)能力更強(qiáng),更穩(wěn)定。PLSR中各變量間的關(guān)系交叉驗(yàn)證(Cross-validation)用PLSR建模時(shí),取幾個(gè)PLS成分(稱為L(zhǎng)atentVariable—LV)模型預(yù)測(cè)性能最好?依次取1~m個(gè)LV,在每個(gè)LV下建模時(shí),取第1個(gè)做檢驗(yàn),其余n-1個(gè)樣本建模;然后取第2個(gè)樣本做檢驗(yàn),其余n-1個(gè)樣本建模。。。將n個(gè)留一樣本的模型預(yù)測(cè)值與實(shí)際值的誤差平方求和,稱為PRESS(predictionresidualerrorsumofsquares)。對(duì)應(yīng)PRESS最小的PLS成分個(gè)數(shù)即為最佳LV個(gè)數(shù)。這一過程叫交叉驗(yàn)證。PLSR的MATLAB實(shí)現(xiàn)[theta,w,cw,ssq,yres]=plsr(xreg,yreg,nu,lv)xreg與yreg分別為建模集中自變量和因變量矩陣;nu:自變量個(gè)數(shù)(即矩陣xreg的列數(shù));lv為潛變量(PLS成分)的個(gè)數(shù)。theta:n*nu維響應(yīng)系數(shù)矩陣,plsr模型給出的因變量yfit=xreg*theta’(n為因變量個(gè)數(shù),plsr函數(shù)默認(rèn)n=1,故theta實(shí)際是一個(gè)元素個(gè)數(shù)=自變量個(gè)數(shù)的行向量)。ssq:plsr解釋的自變量和因變量方差百分率;yres:因變量殘差。plsr.m文件在MATLAB\toolbox\mpc\mpccmds

目錄基于MATLAB自帶函數(shù)plsr.m進(jìn)行的偏最小二乘回歸存在如下局限:(1)不能自動(dòng)優(yōu)化最佳PLS成分(潛變量LV);(2)未對(duì)plsr回歸系數(shù)進(jìn)行檢驗(yàn),無法判斷回歸系數(shù)是否有統(tǒng)計(jì)學(xué)顯著性。優(yōu)化潛變量LV并進(jìn)行plsr回歸系數(shù)檢驗(yàn)的自編MATLAB函數(shù)function[lv,theta,ycal,t,Tcrit,STATUS,ypre]=pressf(X,Y,xpre,alpha)%pressf:根據(jù)留一交叉驗(yàn)證法確定潛變量個(gè)數(shù)的自編MATLAB函數(shù)%X,Y-自變量與因變量矩陣;xpre為預(yù)測(cè)集自變量矩陣。

%lv-優(yōu)化的潛變量個(gè)數(shù),theta含義同plsr.m函數(shù);ycal-根據(jù)優(yōu)化的lv所確定的plsr模型給出的因變量值;t-各plsr回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)量(不含常數(shù)項(xiàng)),其個(gè)數(shù)=X的列數(shù);Tcrit為t的臨界值(置信水平=alpha)%STATUS存儲(chǔ)最佳lv值下所得plsr模型的評(píng)價(jià)指標(biāo):其第一個(gè)元素r為建模樣本的模型值與實(shí)測(cè)值之間的相關(guān)系數(shù);第2個(gè)元素為建模樣本的均方根誤差RMSEC;第3個(gè)元素e為模型給出的因變量值與實(shí)際值的絕對(duì)平均殘差;第4個(gè)元素R為plsr回歸模型的復(fù)相關(guān)系數(shù);第5,6個(gè)元素為模型檢驗(yàn)的統(tǒng)計(jì)量F比及其臨界值%ypre是模型根據(jù)xpre計(jì)算的預(yù)測(cè)樣本的因變量值對(duì)例4-3進(jìn)行plsr并自動(dòng)優(yōu)化潛變量LV在MATLAB下輸入命令:

》[lv,theta,ycal,t,Tcrit,STATUS,ypre]=pressf(x,y,x,0.05)可以得到如下結(jié)果:PercentVarianceCapturedbyPLSModel----X-Block----------Y-Block------LV#ThisLVTotalThisLVTotal1.000022.294122.294197.698897.6988

2.000042.954165.24812.228699.92743.00003.939169.18720.022799.9502PRESS隨潛變量的變化最佳LV=3根據(jù)theta向量得y=95.66+7.78x1+4.19x2-0.96x3-6.26x4(6-75)打開STAUS得:STATU

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論