偏最小二乘法基本知識_第1頁
偏最小二乘法基本知識_第2頁
偏最小二乘法基本知識_第3頁
偏最小二乘法基本知識_第4頁
偏最小二乘法基本知識_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上偏最小二乘法(PLS)簡介-數理統(tǒng)計偏最小二乘法partial least square method是一種新型的多元統(tǒng)計數據分析方法,它于1983年由伍德(S.Wold)和阿巴諾(C.Albano)等人首次提出。近幾十年來,它在理論、方法和應用方面都得到了迅速的發(fā)展。偏最小二乘法長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚。而偏最小二乘法則把它們有機的結合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數據結構簡化(主成分分析)以及兩組變量之間的相關性分析(典型相關分析)。這是多元統(tǒng)計數據分析中的一個飛躍。偏最小二乘法在統(tǒng)計應用中的重要性體

2、現(xiàn)在以下幾個方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數據分析方法的綜合應用。主成分回歸的主要目的是要提取隱藏在矩陣X中的相關信息,然后用于預測變量Y的值。這種做法可以保證讓我們只使用那些獨立變量,噪音將被消除,從而達到改善預測模型質量的目的。但是,主成分回歸仍然有一定的缺陷,當一些有用變量的相關性很小時,我們在選取主成分時就很容易把它們漏掉,使得最終的預測模型可靠性下降,如果我們對每一個成分進行挑選,那樣又太困難了。偏最小二乘回歸可以解決這個問題。它采用

3、對變量X和Y都進行分解的方法,從變量X和Y中同時提取成分(通常稱為因子),再將因子按照它們之間的相關性從大到小排列?,F(xiàn)在,我們要建立一個模型,我們只要決定選擇幾個因子參與建模就可以了基本概念偏最小二乘回歸是對多元線性回歸模型的一種擴展,在其最簡單的形式中,只用一個線性模型來描述獨立變量Y與預測變量組X之間的關系:    Y= b0 + b1X1 + b2X2 + . + bpXp 在方程中,b0是截距,bi的值是數據點1到p的回歸系數。例如,我們可以認為人的體重是他的身高、性別的函數,并且從各自的樣本點中估計出回歸系數,之后,我們從測得的身高及性別中可以預測出某人的大致體重

4、。對許多的數據分析方法來說,最大的問題莫過于準確的描述觀測數據并且對新的觀測數據作出合理的預測。多元線性回歸模型為了處理更復雜的數據分析問題,擴展了一些其他算法,象判別式分析,主成分回歸,相關性分析等等,都是以多元線性回歸模型為基礎的多元統(tǒng)計方法。這些多元統(tǒng)計方法有兩點重要特點,即對數據的約束性:    1.變量X和變量Y的因子都必須分別從X'X和Y'Y矩陣中提取,這些因子就無法同時表示變量X和Y的相關性。    2.預測方程的數量永遠不能多于變量Y跟變量X的數量。偏最小二乘回歸從多元線性回歸擴展而來時卻不需要這些對數據的約束。在偏最小二

5、乘回歸中,預測方程將由從矩陣Y'XX'Y中提取出來的因子來描述;為了更具有代表性,提取出來的預測方程的數量可能大于變量X與Y的最大數。簡而言之,偏最小二乘回歸可能是所有多元校正方法里對變量約束最少的方法,這種靈活性讓它適用于傳統(tǒng)的多元校正方法所不適用的許多場合,例如一些觀測數據少于預測變量數時。并且,偏最小二乘回歸可以作為一種探索性的分析工具,在使用傳統(tǒng)的線性回歸模型之前,先對所需的合適的變量數進行預測并去除噪音干擾。因此,偏最小二乘回歸被廣泛用于許多領域來進行建模,象化學,經濟學,醫(yī)藥,心理學和制藥科學等等,尤其是它可以根據需要而任意設置變量這個優(yōu)點更加突出。在化學計量學上,

6、偏最小二乘回歸已作為一種標準的多元建模工具。計 算 過 程基本模型作為一個多元線性回歸方法,偏最小二乘回歸的主要目的是要建立一個線性模型:Y=XB+E,其中Y是具有m個變量、n個樣本點的響應矩陣,X是具有p個變量、n個樣本點的預測矩陣,B是回歸系數矩陣,E為噪音校正模型,與Y具有相同的維數。在通常情況下,變量X和Y被標準化后再用于計算,即減去它們的平均值并除以標準偏差。偏最小二乘回歸和主成分回歸一樣,都采用得分因子作為原始預測變量線性組合的依據,所以用于建立預測模型的得分因子之間必須線性無關。例如:假如我們現(xiàn)在有一組響應變量Y(矩陣形式)和大量的預測變量X(矩陣形式),其中有些變量嚴重線性相關

7、,我們使用提取因子的方法從這組數據中提取因子,用于計算得分因子矩陣:T=XW,最后再求出合適的權重矩陣W,并建立線性回歸模型:Y=TQ+E,其中Q是矩陣T的回歸系數矩陣,E為誤差矩陣。一旦Q計算出來后,前面的方程就等價于Y=XB+E,其中B=WQ,它可直接作為預測回歸模型。偏最小二乘回歸與主成分回歸的不同之處在于得分因子的提取方法不同,簡而言之,主成分回歸產生的權重矩陣W反映的是預測變量X之間的協(xié)方差,偏最小二乘回歸產生的權重矩陣W反映的是預測變量X與響應變量Y之間的協(xié)方差。在建模當中,偏最小二乘回歸產生了pxc的權重矩陣W,矩陣W的列向量用于計算變量X的列向量的nxc的得分矩陣T。不斷的計算

8、這些權重使得響應與其相應的得分因子之間的協(xié)方差達到最大。普通最小二乘回歸在計算Y在T上的回歸時產生矩陣Q,即矩陣Y的載荷因子(或稱權重),用于建立回歸方程:Y=TQ+E。一旦計算出Q,我們就可以得出方程:Y=XB+E,其中B=WQ,最終的預測模型也就建立起來了。非線性迭代偏最小二乘法用于計算偏最小二乘回歸的一種標準算法是非線性迭代偏最小二乘法(NIPALS),在這種算法中有許多變量,有些被規(guī)范化了,有些卻沒有。下面提到的算法被認為是非線性迭代偏最小二乘法中最有效的一種。對h=1.c,且A0=X'Y,M0=X'X, C0=I,變量c已知。計算qh,Ah'Ah的主特征向量。

9、    wh=GhAhqh,wh=wh/|wh|,并將wh作為W的列向量。    ph=Mhwh,ch=wh'Mhwh, ph=ph/ch,并將ph作為P的列向量。    qh=Ah'wh/ch,并將qh作為Q的列向量。    Ah+1=Ah- chphqh',Bh+1=Mh - chphph'     Ch+1=Ch- whph' 得分因子矩陣T可以計算出來:T=XW,偏最小二乘回歸系數B也可由公式B=WQ計算出。    SIMPLS

10、算法還有一種對偏最小二乘回歸組分的估計方法,被稱為SIMPLS算法。對h=1.c,且A0=X'Y,M0=X'X, C0=I,變量c已知。計算qh,Ah'Ah的主特征向量。    wh=Ahqh,ch=wh'Mhwh, wh=wh/sqrt(ch),并將wh作為W的列向量。    ph=Mhwh,并將ph作為P的列向量。    qh=Ah'wh,并將qh作為Q的列向量。    vh=Chph,vh=vh/|vh|     Ch+1=Ch- vhvh'

11、,Mh+1=Mh - phph'     Ah+1=ChAh與NIPALS相同,SIMPLS的T由公式T=XW計算出,B由公式B=WQ'計算。其他的簡介:偏最小二乘法是一種新型的多元統(tǒng)計數據分析方法,它于1983年由伍德(S.Wold)和阿巴諾(C.Albano)等人首提示來的,偏最小二乘法有機的結合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數據結構簡化(主成分分析)以及兩組變量之間的相關性分析(典型相關分析)。這是多元統(tǒng)計數據分析中的一個飛躍。偏最小二乘法在統(tǒng)計應用中的重要性體現(xiàn)在以下幾個方面: 偏最小二乘法是一種多因變量對多自變量的回歸

12、建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。 偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數據分析方法的綜合應用。 主成分回歸的主要目的是要提取隱藏在矩陣X中的相關信息,然后用于預測變量Y的值。這種做法可以保證讓我們只使用那些獨立變量,噪音將被消除,從而達到改善預測模型質量的目的。但是,主成分回歸仍然有一定的缺陷,當一些有用變量的相關性很小時,我們在選取主成分時就很容易把它們漏掉,使得最終的預測模型可靠性下降,如果我們對每一個成分進行挑選,那樣又太困難了。偏最小二乘回歸可以解決這個問題。它采用對變量X和Y都進行分解的方法,從變量X和Y中同時提取成分

13、(通常稱為因子),再將因子按照它們之間的相關性從大到小排列。現(xiàn)在,我們要建立一個模型,我們只要決定選擇幾個因子參與建模就可以了基本概念 偏最小二乘回歸是對多元線性回歸模型的一種擴展,在其最簡單的形式中,只用一個線性模型來描述獨立變量Y與預測變量組X之間的關系:Y = b0 + b1X1 + b2X2 + . + bpXp 在方程中,b0是截距,bi的值是數據點1到p的回歸系數。 例如,我們可以認為人的體重是他的身高、性別的函數,并且從各自的樣本點中估計出回歸系數,之后,我們從測得的身高及性別中可以預測出某人的大致體重。對許多的數據分析方法來說,最大的問題莫過于準確的描述觀測數據并且對新的觀測數

14、據作出合理的預測。多元線性回歸模型為了處理更復雜的數據分析問題,擴展了一些其他算法,象判別式分析,主成分回歸,相關性分析等等,都是以多元線性回歸模型為基礎的多元統(tǒng)計方法。這些多元統(tǒng)計方法有兩點重要特點,即對數據的約束性:變量X和變量Y的因子都必須分別從X'X和Y'Y矩陣中提取,這些因子就無法同時表示變量X和Y的相關性。 預測方程的數量永遠不能多于變量Y跟變量X的數量。 偏最小二乘回歸從多元線性回歸擴展而來時卻不需要這些對數據的約束。在偏最小二乘回歸中,預測方程將由從矩陣Y'XX'Y中提取出來的因子來描述;為了更具有代表性,提取出來的預測方程的數量可能大于變量X與Y的最大數。簡而言之,偏最小二乘回歸可能是所有多元校正方法里對變量約束最少的方法,這種靈活性讓它適用于傳統(tǒng)的多元校正方法所不適用的許多場合,例如一些觀測數據少于預測變量數時。并且,偏最小二乘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論