主成分分析與因子分析.ppt_第1頁
主成分分析與因子分析.ppt_第2頁
主成分分析與因子分析.ppt_第3頁
主成分分析與因子分析.ppt_第4頁
主成分分析與因子分析.ppt_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十三章主成分分析和因子分析,介紹: 1、主成分分析和因子分析的概念2、主成分分析和因子分析的過程、主成分分析和因子分析的概念、需求和可能性:在各領域的科學研究中,往往需要大量觀測反映事物的多個變量,收集大量的數(shù)據(jù)進行分析尋找規(guī)則。 多變量大樣本無疑為科研提供了豐富的信息,但在一定程度上增加了數(shù)據(jù)采集工作量,更重要的是,多數(shù)變量之間存在相關性,增加了問題分析的復雜性,同時可能給分析帶來不便。 如果單獨分析每個指標,則分析可能是孤立的,而不是集成的。 盲目減少指標會失去很多信息,容易得出錯誤的結論。 因此,在減少分析指標的同時,應盡量減少原指標所含信息的損失,找到對收集資料進行全面分析的合理方法

2、。 由于各變量間具有一定的相關關系,因此能夠以較少的綜合指標分別統(tǒng)合各變量中存在的各種信息。 主成分分析和因子分析就是降低這種維數(shù)的方法。 主成分分析和因子分析將多個實測變量轉化為少數(shù)不相關綜合指標的多變量統(tǒng)一修正分析方法直線綜合指標往往不能直接觀測,但它更能反映事物的本質。 因此廣泛應用于醫(yī)學心理學經(jīng)濟學等科學領域和社會化生產。 主成分分析和因子分析的概念(接下來),由于實測的變量之間存在一定的相關關系,所以能夠以少數(shù)的綜合指標分別綜合整合各變量中存在的各種信息,但是綜合指標之間沒有相關,也就是說各指標所代表的信息不重疊。 綜合指標被稱為因子或主成分(提取若干因子),一般特征值1的累積貢獻率

3、為0.8,主成分分析事例P316使用旋轉的缺省值進行最簡單的主成分分析(缺省主成分分析法:Principal components ) 示例P316 :對美國洛杉磯12人口普查區(qū)的5個經(jīng)濟學變量的數(shù)據(jù)進行因子分析,data13-01a,數(shù)據(jù)請參閱下一張幻燈片)菜單: analyzedatareductionfactorvariables:pop,School,employ house其他缺省值(主成分分析法principal不旋轉)比較有用的結果: 2個主成分(因子) f1、f2和因子載荷矩陣(Component Matrix ),根據(jù)該表,各原始變量(標準化值) 的因子表達式: pop0.

4、581 f1. 806 f2school0. 767 f1-0. 545 f2employ0. 672 f1. 726 f 2服務0.932 f1-0. 104 f2house0. 799。 各個原變量都是5個因子的線性組合,可以提取兩個因子f1和f2,可以概括原變量中包含的信息的93.4%。 f1和f2之前的系數(shù)表示此系數(shù)對變量的影響程度,也稱為變量系數(shù)的載荷。 但是,因為各因子(主成分)的系數(shù)(負荷)沒有大的差異,所以命名困難。 因此,為了命名因子,旋轉可以使系數(shù)分成0和1兩極,這使用可選項。洛奇將12個人口調查區(qū)的數(shù)據(jù)編號總人口中等學校平均總員工數(shù)專業(yè)服務中等住宅價格no pop學齡Sc

5、hool employ項目數(shù)services house 1570012.82500250002100010.9600100033400.8100 . 61700140250005400012.8160014025000682008.326006012007120011.44001016008910011.53300601400990012.534001800180010960013 1200012940011.4400010013000、因子分析例322旋轉Rotation由于系數(shù)沒有顯著的差異,所以將進行旋轉的(Rotation:method一般用Varimax )系數(shù)分化為0和1的兩極,

6、 示例相同的菜單: analyzedatareductionfactorvariables:pop、School、employ、Services、house Extraction :使用默認值選擇特征值1 )1) Rotation:method選擇varimax score : save as variables和displayfactorscorecoefficientmatrix,并選擇兩個主要成分(因子) f1。 f2和旋轉后的因子載荷矩陣,根據(jù)該表,各原始變量(標準化值)的因子表達式: pop0. 01602 f1. 9946 f2school0. 941 f1-0. 00882 f2

7、employ0. 137 f1. 9 0605f2第一主因子對中等學校的平均學齡、專業(yè)服務項目、中等住房價格有絕對值大的負荷(代表一般社會福利條件因子)。 第二主因子是總人口和總員工人數(shù)有很大負荷(表示人口-人口因子).P326是比較有用的結果:因子得分fac1_1、fac2_1。 其校正公式:因子得分系數(shù)與原變量的歸一化值之積的和(P326 )。 然后,因子得分可以用來執(zhí)行分簇p 327 (分析分簇-水平分簇)。 主成分分析實例P330不旋轉市場研究中的顧客偏好分析,而是在市場研究中,分析顧客的偏好和當前市場的產品與顧客的偏好之間的差異,尋找新產品開發(fā)的方向。 顧客偏好分析常用主成分分析方法

8、(因子不旋轉)。 例P330 :數(shù)據(jù)來自SAS公司,1980年汽車制造商從競爭對手中選出了17種車型,訪問了25位顧客,要求他們根據(jù)自己的喜好評分17種車型。 評分范圍09.9、9.9表示最高水平的偏好。 data13-02a(1725:17個case,25個變量V1-V25 ) 菜單: analyzedatareductionfactorvariables:v1- v 25 extraction :方法: principalcomponentsextracces 360 save as variables相對有用的結果: 3個nt Matrix :第一和第二主成分的載荷圖比較有用的結果:因子

9、得分fac1_1,faaac之后,可以利用因子得分進行各種分析:制作偏好圖:在fac1_1,fac2_1制作散點圖假設你是公司的財務管理者,掌握公司的所有數(shù)據(jù),如固定資產、流動資金、借款金額和期限、各種稅、工資支出、原料消費、產值、利潤、折舊、員工人數(shù)、員工分工和教育程度等。 如果能讓我介紹上述公司的狀況的話,能照原樣提出這些指標和數(shù)字嗎? 當然不能。 要高度概括各個方面,用一兩個指標簡單明了地說明情況。 主成分分析,每個人都會遇到有很多變量的數(shù)據(jù)。 例如全國和各地區(qū)的多數(shù)經(jīng)濟和社會變量的數(shù)據(jù)各學校的研究、教育等各種變量的數(shù)據(jù)等。這些數(shù)據(jù)的共同特征是變量多,這樣的多個變量中有很多相關的。 人們

10、想找到那些少數(shù)的“代表”進行說明。 在本章中,降低主成分分析和因子分析這兩個變量次元數(shù),介紹使說明、理解、分析變得容易的方法。 實際上主成分分析可以說是因子分析的特例。 在引入主成分分析之前,讓我們看一下以下示例。 成績數(shù)據(jù)(student.sav )、100名學生的數(shù)學、物理、化學、國語、歷史、英語成績如下表(一部分)所示。 本例可以提出的問題是,當前的問題是,這個數(shù)據(jù)的6個變量是否可以用一個或兩個綜合變量來表現(xiàn),這一、兩個綜合變量中包含多少原始信息呢? 可以使用找到的綜合變量對學生進行排序嗎? 這種與數(shù)據(jù)相關的問題可以推廣到企業(yè)、學校的分析、排名、判別、分類等問題上。主成分分析、例子中的數(shù)

11、據(jù)點是6維,也就是說,各觀測值是6維空間中的1點。 我們想用低維空間表現(xiàn)6維空間。 首先,假設只有兩個變量(橫軸和縱軸表示)是二維的。因此,每個觀測值都有兩個坐標值,與這兩個坐標軸對應。如果這些數(shù)據(jù)形成橢圓形格子(這可以在變量的二維正則假設下進行),則橢圓的長軸和短軸在短軸方向上數(shù)據(jù)的變化少的極端的狀況下,短軸稍微退化的話,那么只能在長軸的方向上說明這些點的變化,這樣,從二維向一維的維簡并自然就完成了。 在主成分分析中,如果坐標軸與橢圓的長軸平行,則表示長軸的變量表示數(shù)據(jù)的主要變化,表示短軸的變量表示數(shù)據(jù)的次要變化。 但是,坐標軸通常不與橢圓的短軸平行。 因此,必須找到橢圓的長軸,并將其轉換為

12、新變量與橢圓的長軸平行。 如果長軸變量代表數(shù)據(jù)中的大部分信息,則將原始兩個變量替換為該變量(截斷二維)即可完成降維。 橢圓(球)的長軸越大,降維也是理所當然的。 主成分分析在多維變量的情況下與二維類似,也有高維的橢圓體,但只是直觀上看不到。 首先找到高維橢球體的主軸,把表示多個數(shù)據(jù)信息的最長的幾個軸作為新變量,這樣主成分分析就基本完成了。 請注意,高維橢球體的主軸也與二維的情況相同,相互垂直。 這些相互正交的新變量是原始變量的線性組合,稱作主要組件。 主成分分析有幾個變量和幾個主成分,就像二維橢圓有兩個主軸,三維橢圓體有三個主軸一樣。 選擇的主要成分越少,降低維度越好。 什么是標準? 這就是這

13、些選出的主成分所代表的主軸長度之和占主軸長度總和的大部分。 有些文獻提出,所選主軸的全長約占所有主軸長度之和的85%即可,但實際上,這只不過是粗略的說法,具體選擇幾個取決于實際情況。 同時,對于我們的數(shù)據(jù),SPSS輸出在這里的Initial Eigenvalues在這里的6個主軸的長度上也被稱為特征值(數(shù)據(jù)相關陣列的特征值)。 前兩個成分特征值的累積占總方差的81.142%。 后特征值的貢獻越來越少。 特征值的貢獻從SPSS的所謂碎石圖也可以看出,如何解釋這2個主要成分。 前面所述的主要成分是原6個變量的線性組合。 是什么樣的組合? SPSS可以輸出下表。 的雙曲馀弦值。 其中,每列表示將主要

14、成分線性組合為原始變量的系數(shù)(百分比)。 例如,作為第一主要成分是數(shù)學、物理、化學、語文、歷史、英語這6個元變量的線性組合,系數(shù)(比例)為-0.806、-0.674、-0.674、0.893、0.825、0.0如果用x1,x2,x3,x4,x5,x6分別表示原來的6個變量,用y1,y2,y3,y4,y5,y6表示新的主成分,則原來的6個變量x1, 關于x2、y2的關系,x1=-0.806 y1. 353 y2x2=-0.674 y1. 531 y2x3=-0.675 y1. 513 y2x4=0. 893 y1. 306 y2x5=0. 825 y10.435 y2x 6例如,x1式中的y 1

15、的系數(shù)為-0.806 相關系數(shù)(絕對值)越大,主要成分相對于該變量的代表性成分也越大。 可以看出,第一主要成分對各變量有充分的解釋。 最后幾個主要成分和原變量沒有多大關系。 可以將第一和第二主要成分的載荷點繪制成二維圖形,以直觀地顯示原始變量的解釋方式。 這個圖叫做負荷圖。 該圖左邊的三個點是數(shù)學、物理、化學三科,右邊的三個點是語文、歷史、外語三科。 圖中的6個點比較混亂并不易看出,但將認識到這些點的坐標是前面的第一二主要成分載荷,坐標是前面表中的第一一二列中的整數(shù),仍然能夠識別。 因子分析、主成分分析在原理上是尋找橢球體的所有主軸。 因此,本來就有一些變量,也有一些主要成分。 因子分析預先決定要搜索若干成分,在此稱為因子(factor ) (如兩個),并且它要搜索兩個。 由此,數(shù)學模型在因子分析和主成分分析上存在很多差異。 另外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論