第16章主成分_第1頁
第16章主成分_第2頁
第16章主成分_第3頁
第16章主成分_第4頁
第16章主成分_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第第16章章 主成分分析主成分分析中國疾病預防控制中心學習目標v了解主成分分析的數(shù)學模型;v熟悉主成分分析的方法步驟;v掌握主成分分析的作用和應用領域;v掌握PRINCOMP過程并運用此過程進行數(shù)據(jù)分析。概述v主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數(shù)幾個綜合指標。在實證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在統(tǒng)計分析中也稱為變量。因為每個變量都不同程度地反映了所研究問題的某些信息,并且指標之間有一定的相關性,因而所得的統(tǒng)計數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計方法研究多變量問題時,變量太多會增加計算量和增加分析問

2、題的復雜性,人們希望在進行定量分析的過程中,涉及的變量較少,得到的信息量較多。 概述v科學研究所涉及的課題往往比較復雜,是因為影響客觀事物的因素多,需要考察的變量多。例如,糖尿病、動脈硬化等疾病的病因是多種多樣的,收集的資料中包含的信息是豐富多彩的。再如,在心理學研究中,描述兒童氣質的指標可以有9個,描述兒童活動能力的指標可以有6個,;在臨床醫(yī)學研究中,描述兒童生長發(fā)育的的可以有12個指標,鑒別闌尾炎病型的可以有27個指標。然而,重疊的、低質量的信息越多,越不利于醫(yī)生作出診斷。指標較多時,給資料分析帶來很多麻煩,增加了分析問題的復雜性和難度。例如,在線性回歸分析中,要求模型中的自變量是相互獨立

3、的,否則,估計的結果是不準確的,甚至是相反的結論,產(chǎn)生誤導。概述v在大部分實際問題中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。比如描述兒童生長發(fā)育的指標中,身高、腿長和臂長這三個指標可能是相關的,而胸圍、大腿圍和臂圍這三個圍度指標也會有一定的相關性。如果分別用每一個指標對兒童的生長發(fā)育做出評價,那么這種評價就是孤立的、片面的,而不是綜合的。僅選用幾個“重要的”或“有代表性”的指標來評價,就失去了許多有用的信息,容易得出片面的結論。所以,我們需要一種綜合性的分析方法,既可減少指標變量的個數(shù),又盡量不損失原指標變量所包含的信息,對

4、資料進行全面的綜合分析。主成分分析正是適應這一要求產(chǎn)生的,是解決這類題的理想工具。概述v主成份分析的基本思想就是將彼此相關的一組指標變量轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息,符合專業(yè)含義。何為主成分?簡而言之,主成分實際上就是由原變量X1Xm線性組合出來的個互不相關、且未丟失任何信息的新變量,也稱為綜合變量。多指標的主成分分析常被用來尋找判斷某種事物或現(xiàn)象的綜合指標,并給綜合指標所蘊藏的信息以恰當解釋,以便更深刻地揭示事物內在的規(guī)律。主成分分析簡介 v主成分分析法是一種數(shù)學變換的方法, 它把給定的一組相關變量通過線性變換轉成

5、另一組不相關的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關,稱為第二主成分。依次類推,I個變量就有I個主成分。v主成分分析是把原來多個變量劃為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法,是一種降維處理技術。主成分分析的方法步驟 v主成分分析的過程,就是確定原來變量xj( )在各主成分zi( )上的載荷lij。v從主成分分析的基本原理和數(shù)學模型可以看出,主成分分析的任務是估計主成分,確定主成分的個數(shù),解釋主成分的實際意義和計算主成分得分。v假設有k個指標x1,x2,xk,每一個指標有n個

6、觀測值,它們的標準化指標變量是 ,kj, 2 , 1 ki, 2 , 1kXXX,21主成分分析的方法步驟v對原始指標數(shù)據(jù)進行標準化變換:v將原始數(shù)據(jù)標準化,然后利用標準化的數(shù)據(jù)計算主成分。X為標準化后的數(shù)據(jù)矩陣,則:kjsxxXjjijij, 2 , 1,nknnkkXXXXXXXXXX212222111211主成分分析的方法步驟v計算相關系數(shù)矩陣:v其中,111)(21221112212222111211kkkkkkkkkkrrrrrrrrrrrrrrrXCovRnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(主成分分析的方法步驟v計算相關矩陣的特征值和特征

7、值所對應的特征向量:v求主成分的問題,實際上就是要求出標準化指標變量X的協(xié)方差矩陣Cov(X)的特征值和特征向量。X的協(xié)方差矩陣為:)(0)(0)()(21kZVarZVarZVarLLXCov主成分分析的方法步驟v求得k個非負特征值 ,將這些特征值按從小到大的順序排列為:v再由v解得每一特征值對應的特征向量,從而求得各主成分:), 2 , 1(kii021kkilllIRiii, 2 , 110)(1kikiiiiXlXlXlXlZ2211主成分分析的方法步驟v計算主成分貢獻率及累計貢獻率v各主成分互不相關,即的相關系數(shù):v于是,各主成分間的相關系數(shù)矩陣為單位矩陣。v一般地,主成分Zi的貢獻

8、率為:)(0),(),(),(,jiZZCovZZCovZZCovrjjiijiZZji), 2 , 1(1kikikiii主成分分析的方法步驟v確定主成分的個數(shù)v當?shù)玫搅薻個主成分后,要根據(jù)確定主成分個數(shù)的準則和主成分的實際意義來確定主成分的個數(shù)。一般說,確定主成分個數(shù)的準則有兩個:以累積貢獻率來確定:當前P個主成分的累積貢獻率達到某一特定值時(一般采用70%85%為準則),則保留前P個主成分。根據(jù)特征值大小來確定,一般地,取特征值大于或等于1為準則。若有s個特征值大于或等于1,那么就可以確定主成分的個數(shù)為s個。一般可以將兩種確定主成分個數(shù)的方法結合起來,選出有實際意義的主成分。主成分分析的

9、方法步驟v計算主成分載荷v第i個主成分Zi的特征值的平方根與第j原始指標Xj的系數(shù)lij的乘積v為因子載荷。由因子載荷所構成的矩陣為因子載荷陣。實際數(shù),因子載荷qij就是第i主成分Zi與第j原始指標Xj之間的相關系數(shù),它反映了主成分Zi與原始指標Xj之間聯(lián)系的密切程度與作用方向。ijiijlq主成分分析的方法步驟v計算主成分得分v如果標準化指標變量 的第i個主成分是:v其中, ,v是xj的標準化指標變量。那么,第i個主成分可以轉換為原始指標變量的線性組合:v v kXXX,21kikiiiiXlXlXlXlZ2211kjsxxXjjijij, 2 , 1,kisxlsxlsxlxslxslxs

10、lzkkikiikkikiii, 2 , 1),(222111222111主成分分析的應用 v研究多個指標變量之間的依存關系,是醫(yī)學研究中很重要的一件事情。但是,在研究多個指標變量之間的依存關系時,經(jīng)常會遇到兩個問題:指標變量過多,使得分析難度增加;變量之間的共線性存在,即變量之間不完全獨立,這種情況造成分析結果不穩(wěn)定或不正確。因此,解決自變量之間的多重共線性和減少變量個數(shù)對依存關系的分析就很重要了。主成分分析的應用v根據(jù)主成分分析原理,它一方面可以將k個不獨立的指標變量通過線性變換變成k個相互獨立的新變量,這是解決多重共線性問題的一個重要方法。另一方面,主成分分析可以用較少的變量取代較多的不

11、獨立的原變量,減少分析中變量的個數(shù)。概括地說,主成分分析有以下幾方面的應用:主成分分析的應用v對原始指標進行綜合:主成分分析的主要作用是在基本保留原始指標信息的前提下,以互不相關的較少個數(shù)的綜合指標來反映原來指標所提供的信息。v探索多個原始指標對個體特征的影響:對于多個原始指標,求出主成分后,可以利用因子載荷陣的結構,進一步探索各主成分與多個原始指標之間的相互關系,分析各原始指標對各主成分的影響作用。v對樣本進行分類:求出主成分后,如果各主成分的專業(yè)意義較為明顯,可以利用各樣品的主成分得分來進行樣品的分類。主成份分析SAS程序 vSAS系統(tǒng)中利用PRINCOMP過程對數(shù)據(jù)進行主成分分析。vPR

12、INCOMP過程的語法格式如下:vPROC PRINCOMP DATA= OUT= OUTSTAT= NOINT COV N STD VARDEF 選項;vVAR 變量/選項;vPARTIAL 變量;vRUN;主成份分析SAS程序vDATA語句指定要分析的數(shù)據(jù)集名及一些選項,它可以是原SAS數(shù)據(jù)集,也可以是corr、cov、ucorr、ucov等矩陣。vOUT選擇項指定統(tǒng)計量的輸出數(shù)據(jù)集名,該數(shù)據(jù)集保存的是樣本的原始指標變量和主成分得分變量。vOUTSTAT指定輸出結果的SAS數(shù)據(jù)集名,該數(shù)據(jù)集保存的是每一個指標的均值、標準差、樣本數(shù)、相關系數(shù)矩陣、特征值和得分系數(shù)。vNOINT選擇項指令系統(tǒng)

13、使用未對均值校正的相關系數(shù)矩陣或方差協(xié)方差矩陣進行主成分分析,它等價于主成分模型中不含常數(shù)項。主成份分析SAS程序vCOV選擇項指令系統(tǒng)用方差協(xié)方差矩陣計算主成分,如果該選擇項缺省,系統(tǒng)用相關系數(shù)矩陣計算主成分。vN選擇項給出主成分的個數(shù)。vSTD選擇項指令系統(tǒng)在輸出數(shù)據(jù)集中,主成分得分變量的方差被標準化為1。vVAR語句用于列出要分析的原始變量。如果該語句缺省,系統(tǒng)分析其它語句中未涉及到的所有指標變量。vPARTIAL語句用于列出混雜變量,指定系統(tǒng)使用偏相關系數(shù)或偏方差、協(xié)方差來計算主成分。例如,PARTIAL X;它表示偏相關系數(shù)或偏方差、協(xié)方差是以變量X為混雜變量的,即所有的相關系數(shù)都表

14、示的是在X不變的情況下,兩個變量之間的關聯(lián)程度。但是,該語句列出的變量不能出現(xiàn)在VAR語句中。本章小節(jié) v在大部分實際問題中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。本章介紹了主成分分析的數(shù)學模型、方法步驟以及主成分分析的應用。我們需要一種綜合性的分析方法,既可減少指標變量的個數(shù),又盡量不損失原指標變量所包含的信息,對資料進行全面的綜合分析。主成分分析正是適應這一要求產(chǎn)生的,是解決這類題的理想工具。主成份分析的基本思想就是將彼此相關的一組指標變量轉化為彼此獨立的一組新的指標變量,并用其中較少的幾個新指標變量就能綜合反應原多個指標變量中所包含的主要信息,符合專業(yè)含義。本章小節(jié)v本章對主成分分析的數(shù)學模型、分析方法步驟以及應用問題進行了詳細地闡述。我們在學習的過程中,要熟悉主成分分析的方法步驟:對原始指標數(shù)據(jù)進行標準化變換、計算相關系數(shù)矩陣、計算相關矩陣的特征值和特征值所對應的特征向量、計算主成分貢獻率及累計貢獻率、確定主成分的個數(shù)、計算主成分載荷和計算主成分得分。本章小節(jié)v主成分分析有以下幾方面的應用:對原始指標進行綜合:主成分分析的主要作用是在基本保留原始指標信息的前提下,以互不相關的較少個數(shù)的綜合指標來反映原來指標所提供的信息。探索多個原始指標對個體特征的影響:對于多個原始指標,求出主成分后,可以利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論