主成分分析與因子分析_第1頁
主成分分析與因子分析_第2頁
主成分分析與因子分析_第3頁
主成分分析與因子分析_第4頁
主成分分析與因子分析_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主成分分析和因子分析

整理課件匯報什么?假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動地擺出去嗎?

當(dāng)然不能。你必須要把各個方面作出高度概括,用一兩個指標(biāo)簡單明了地把情況說清楚。

整理課件對眾多變量進行降維每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的,即有很多重疊信息。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。整理課件成績數(shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑U碚n件從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學(xué)校進行分析、排序、判別和分類等問題。整理課件主成分分析

(PrincipalComponentsAnalysis)

整理課件???????????????????????????????????????????例中的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。由于6維空間無法直接觀察,因此,我從2維空間開始解釋主成分分析的原理。整理課件主成分分析原理當(dāng)散點呈橢圓狀分布時,代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。整理課件?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸整理課件?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?整理課件????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?整理課件?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????????????????????????????????????整理課件樣本數(shù)據(jù)的標(biāo)準化可解決平移問題根據(jù)旋轉(zhuǎn)變換的公式:整理課件主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

整理課件

主成分分析的數(shù)學(xué)模型

假設(shè)我們所討論的實際問題中,有p個指標(biāo),我們把這p個指標(biāo)看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻損個指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨立。整理課件

這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。整理課件滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即整理課件樣本數(shù)據(jù)的標(biāo)準化可解決平移問題根據(jù)旋轉(zhuǎn)變換的公式:整理課件主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。整理課件對于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。整理課件特征值的貢獻還可以從SPSS的所謂碎石圖看出整理課件因子載荷反映的是主成分與變量間的相關(guān)系數(shù)。

(因子載荷陣)主成分載荷與因子載荷整理課件可以把第一和第二因子的載荷點出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個圖叫做載荷圖。整理課件該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史、外語三科。整理課件因子分析

(FactorAnalysis)

整理課件主要內(nèi)容一、什么是因子分析二、因子分析模型三、因子載荷矩陣中的幾個統(tǒng)計特征四、因子旋轉(zhuǎn)五、因子得分六、在SPSS上進行因子分析的步驟整理課件

因子分析(factoranalysis)是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。例如,在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標(biāo)構(gòu)成的評價體系,評價百貨商場的24個方面的優(yōu)劣。一、什么是因子分析整理課件

但消費者主要關(guān)心的是三個方面,即商店的環(huán)境、商店的服務(wù)和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)境、商店服務(wù)水平和商品價格的三個潛在的因子,對商店進行綜合評價。而這三個公共因子可以表示為:

稱是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子。整理課件二、因子分析模型

數(shù)學(xué)模型

設(shè)個變量,如果表示為整理課件注:

因子分析與回歸分析不同,因子分析中的因子是一個比較抽象的概念,而回歸因子有非常明確的實際意義;

主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構(gòu)造因子模型。主成分分析:原始變量的線性組合表示新的綜合變量,即主成分,無誤差項;因子分析:潛在的假想變量和隨機影響變量的線性組合表示原始變量,有誤差項。整理課件主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分整理課件

三、因子載荷矩陣中的幾個統(tǒng)計特征1、因子載荷aij的統(tǒng)計意義

因子載荷是第i個變量與第j個公共因子的相關(guān)系數(shù)

模型為

因子載荷構(gòu)成的k×m矩陣稱為“因子矩陣”(factormatrix)或“因子模式”(factorpattern),因為它反映了因子與變量關(guān)系中因子的性質(zhì)。“因子結(jié)構(gòu)”(factorstructure)是指因素與變量間的相關(guān)關(guān)系,可以證明,在正交模型中,因子模式等于因素結(jié)構(gòu),因子負荷就是變量與因素間的相關(guān)系數(shù)。因此在正交模型中不加區(qū)別地統(tǒng)稱為“因子載荷”。整理課件2、變量共同度(communality)的統(tǒng)計意義定義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統(tǒng)計意義:兩邊求方差

所有的公共因子和特殊因子對變量的貢獻為1。如果非??拷?,非常小,則因子分析的效果好,從原變量空間到公共因子空間的轉(zhuǎn)化性質(zhì)好。整理課件3、公共因子方差貢獻(Contributions)的統(tǒng)計意義因子載荷矩陣中各列元素的平方和稱為所有的對的方差貢獻和。衡量的相對重要性。整理課件

四、因子旋轉(zhuǎn)

建立了因子分析的目的不僅僅要找出公共因子以及對變量進行分組,更重要的要知道每個公共因子的意義,以便進行進一步的分析,如果每個公共因子的含義不清,則不便于進行實際背景的解釋。求初始解是按照因子解釋變量方差的多少順序提取因子的,因此,絕大多數(shù)變量在第一個因子上肯定都有顯著的負荷,其后的因子解釋方差比例逐漸遞減。這時的因素負荷矩陣中大多數(shù)因子都和許多變量相關(guān),尤其是靠前的第一因素,負載了過多的變量,很不便于解釋。這時就需要借助“因子旋轉(zhuǎn)”改變因子軸的位置,重新分配各因子所解釋的方差比例,從而得到易于解釋的“簡單結(jié)構(gòu)”。根據(jù)矩陣代數(shù)的知識,因子旋轉(zhuǎn)實際上是對因素解進行的一個變換(正交旋轉(zhuǎn)是標(biāo)準正交變換),得到的模型對數(shù)據(jù)的擬合程度不發(fā)生改變,同時也不改變每個變量的共同度。(一)為什么要旋轉(zhuǎn)因子整理課件旋轉(zhuǎn)前與旋轉(zhuǎn)后的因子載荷圖整理課件旋轉(zhuǎn)前后的因子載荷比較這里,第一個因子主要和語文、歷史、英語三科有很強的正相關(guān);而第二個因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強的正相關(guān)。因此可以給第一個因子起名為“理科因子”,而給第二個因子起名為“文科因子”。整理課件變換后因子的共同度設(shè)正交矩陣,做正交變換變換后因子的共同度沒有發(fā)生變化?。ǘ┱恍D(zhuǎn)(orthogonalrotation)

整理課件變換后因子貢獻設(shè)正交矩陣,做正交變換變換后因子的貢獻發(fā)生了變化!整理課件1、方差最大法(Varimax)

方差最大法從簡化因子載荷矩陣的每一列出發(fā),使和每個因子有關(guān)的載荷的平方的方差最大。當(dāng)只有少數(shù)幾個變量在某個因子上有較高的載荷時,對因子的解釋最簡單。方差最大的直觀意義是希望通過因子旋轉(zhuǎn)后,使每個因子上的載荷盡量拉開距離,一部分的載荷趨于

1,另一部分趨于0。此法便于解釋因子,因此最常用。整理課件2、四次方最大旋轉(zhuǎn)(Quartimax)

四次方最大旋轉(zhuǎn)是從簡化載荷矩陣的行出發(fā),通過旋轉(zhuǎn)初始因子,使每個變量只在一個因子上有較高的載荷,而在其它的因子上盡可能低的載荷。如果每個變量只在一個因子上有非零的載荷,這時的因子解釋是最簡單的。四次方最大法通過使因子載荷矩陣中每一行的因子載荷平方的方差達到最大。整理課件

3、等量最大法(Equamax)

等量最大法把四次方最大法和方差最大法結(jié)合起來求Q和V的加權(quán)平均最大。

權(quán)數(shù)等于m/2,因子數(shù)有關(guān)。整理課件(三)斜交旋轉(zhuǎn)(obliquerotation)如果因子間存在相關(guān)(斜交模型),理論上應(yīng)考慮斜交旋轉(zhuǎn)以更好地形成簡單結(jié)構(gòu)和解釋因子。由于沒有因子正交條件的限制,斜交旋轉(zhuǎn)實際上就是盡可能將因素軸調(diào)整到各組變量附近或者更有利于解釋因子的位置。f1f2f’1f’2x1x2x3x4x5x6整理課件

五、因子得分

(一)因子得分的概念

前面我們主要解決了用公共因子的線性組合來表示一組觀測變量的有關(guān)問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,這就需要我們對公共因子進行測度,即給出公共因子的值。整理課件計算因子得分于是可以根據(jù)前面的公式,算出每個學(xué)生的第一個因子和第二個因子的大小,即算出每個學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩套因子得分對學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個選項。整理課件因子分析和主成分分析的一些注意事項

可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。整理課件在SPSS上進行因子分析的步驟一、樣本數(shù)據(jù)的適當(dāng)性考察二、選擇提取因子的方法及確定公因子數(shù)三、確定因子旋轉(zhuǎn)的方法四、選擇因子得分的計算方法整理課件樣本數(shù)據(jù)的適當(dāng)性考察考察數(shù)據(jù)適當(dāng)性,首先可以看樣本相關(guān)矩陣,如果變量之間相關(guān)程度普遍較低則不大可能找到便于解釋的公因子或者達不到簡化數(shù)據(jù)的目的,一般大部分相關(guān)系數(shù)應(yīng)當(dāng)不低于0.3。介紹兩種考察方法:(1)Bartlett球度檢驗(Bartlett’stestofsphericity)

(2)KMO取樣適當(dāng)性度量(Kaiser-Meyer-Olkinmeasureofsamplingadequacy)

整理課件Bartlett球度檢驗通過構(gòu)造一個近似χ2統(tǒng)計量從整體上檢驗相關(guān)矩陣,即Ho:“相關(guān)矩陣是一個單位陣”,顯然,其顯著性水平要至少小于0.05,才能拒絕Ho,說明各個變量間存在相關(guān),適宜進行因素分析。整理課件KMO取樣適當(dāng)性度量

用于比較觀測變量間的簡單相關(guān)系數(shù)與偏相關(guān)系數(shù)的相對大小,它是變量間簡單相關(guān)系數(shù)平方和占這兩種系數(shù)平方和的比率。顯然,KMO值越接近1越好。一般規(guī)定:0.9以上,極好;0.8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論