第十章-中財課件-統(tǒng)計學_第1頁
第十章-中財課件-統(tǒng)計學_第2頁
第十章-中財課件-統(tǒng)計學_第3頁
第十章-中財課件-統(tǒng)計學_第4頁
第十章-中財課件-統(tǒng)計學_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

中央財經(jīng)大學統(tǒng)計學院第10章

主成分分析與因子分析主成分分析因子分析中央財經(jīng)大學統(tǒng)計學院2學習目標1.主成分分析的基本思想2.主成分分析的軟件實現(xiàn)和結果分析3.因子分析的基本思想4.因子分析的軟件實現(xiàn)和結果分析中央財經(jīng)大學統(tǒng)計學院主成分分析中央財經(jīng)大學統(tǒng)計學院4例:斯通關于國民經(jīng)濟的研究一項十分著名的工作是美國的統(tǒng)計學家斯通(Stone)在1947年關于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。在進行主成分分析后,竟以97.4%的精度,用3個新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。中央財經(jīng)大學統(tǒng)計學院5中央財經(jīng)大學統(tǒng)計學院6

指標年份雇主補貼消費資料生產(chǎn)資料……x1x2x3x1719291930……1938

指標年份F1F2F319291930……1938主成分分析在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關性。人們希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。

zhi主成分分析的原理主成分分析(PrincipalComponentsAnalysis,簡記為PCA)是由Hotelling于1933年首先提出的,是把各變量之間互相關聯(lián)的復雜關系進行簡化分析的方法。主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對多變量數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。中央財經(jīng)大學統(tǒng)計學院8中央財經(jīng)大學統(tǒng)計學院9原變量樣本點x1x2……xp12……n主成分分析

新變量樣本點F1F2……Fk12……n(k<p)具體地說,主成分分析研究指標體系的少數(shù)幾個線性組合,這幾個線性組合所構成的綜合指標稱為主成分;并且要求主成分盡可能多地保留原來指標變異方面的信息。當原變量的第一個主成分(線性組合)不能提取更多的信息時,再考慮用第二個主成分繼續(xù)這個提取的過程,……,直到提取足夠多的信息為止。中央財經(jīng)大學統(tǒng)計學院11主成分分析適用于原有變量之間存在較高相關程度的情況。在主成分分析適用的場合,一般可以用較少的主成分得到較多的信息量,從而得到一個更低維的向量。通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。中央財經(jīng)大學統(tǒng)計學院12主成分分析的數(shù)學模型方程滿足下列條件:(1)(2)Fi與Fj不相關。(3)F1到Fp方差依次遞減。中央財經(jīng)大學統(tǒng)計學院13主成分分析的數(shù)學模型主成分分析的基本任務是計算系數(shù)矩陣a11……app。有p個x,相應可以計算出p個主成分。但一般只使用少數(shù)幾個主成分就可以提取大部分信息。中央財經(jīng)大學統(tǒng)計學院14?????????????????????????????????????主成分分析的幾何意義原始p=2個變量提取k=1個主成分中央財經(jīng)大學統(tǒng)計學院15主成分分析的幾何意義平移、旋轉坐標軸?????????????????????????????????????對坐標軸進行旋轉,n個點在F1軸上的方差達到最大,即在此方向上包含了有關n個樣品的最大量信息。因此,欲將二維空間的點投影到某個一維方向上,則選擇F1軸方向能使信息的損失最小。中央財經(jīng)大學統(tǒng)計學院16主成分分析的幾何意義第一主成分的效果與橢圓的形狀有關。橢圓越扁平,n個點在F1軸上的方差就相對越大,在F2軸上的方差就相對越小,用第一主成分代替所有樣品造成的信息損失就越小。中央財經(jīng)大學統(tǒng)計學院17????????????????????????????????????????????????????????????????????????????????????????????????????主成分分析的幾何意義原始變量不相關時,主成分分析沒有效果。中央財經(jīng)大學統(tǒng)計學院18?????????????????????????????????????主成分分析的幾何意義原始變量相關程度越高,主成分分析效果越好。中央財經(jīng)大學統(tǒng)計學院19主成分求解的步驟主成分可以按以下步驟計算得出:計算原始變量的相關系數(shù)矩陣R。計算相關系數(shù)矩陣R的特征值,并按從大到小的順序排列,記為計算特征值對應的特征向量,即為主成分F1……Fp相應的系數(shù)。中央財經(jīng)大學統(tǒng)計學院20主成分得分把原始變量的值代入主成分表達式中,可以計算出主成分得分。注意在計算主成分得分時需要先對原始變量進行標準化。得到的主成分得分后,可以把各個主成分看作新的變量代替原始變量,從而達到降維的目的。中央財經(jīng)大學統(tǒng)計學院21主成分的貢獻率對于第k個主成分,其對方差的貢獻率為前k個主成分貢獻率的累計值稱為累計貢獻率。中央財經(jīng)大學統(tǒng)計學院22主成分個數(shù)的確定通常有兩種方式:1、根據(jù)大于1的特征值的個數(shù)確定主成分的個數(shù);2、根據(jù)主成分的累計貢獻率確定主成分的個數(shù),使累計貢獻率>85%或者其他值。最常見的情況是主成分的個數(shù)為2-3個。中央財經(jīng)大學統(tǒng)計學院23主成分分析的應用主成分回歸。即把各主成分作為新自變量代替原來自變量x做回歸分析。還可以進一步還原得到Y與x的回歸方程(可以避免多重共線性的問題)。用于綜合評價。按照單個的主成分(例如第一主成分)可以對個體進行排序。按照幾個主成分得分的加權平均值對個體進行排序也是一種評價方法。一般用各個主成分的方差貢獻率加權。由于加權得分缺少實際意義,這種方法理論上有爭議。中央財經(jīng)大學統(tǒng)計學院24主成分分析在SPSS中的實現(xiàn)SPSS沒有直接提供主成分分析的功能,需要借助于“因子分析”的模塊實現(xiàn)。用SPSS進行主成分分析有幾個操作環(huán)節(jié)需要特別注意。下面我們以講義中應聘的例子加以說明。中央財經(jīng)大學統(tǒng)計學院25主成分分析在SPSS中的實現(xiàn)1、在SPSS中打開數(shù)據(jù)文件(或者錄入數(shù)據(jù))。中央財經(jīng)大學統(tǒng)計學院26主成分分析在SPSS中的實現(xiàn)2、選擇“分析”“降維”“因子分析”。3、把除了“編號”以外的變量選入“變量”框;4、單擊“描述”按鈕,在彈出的對話框中選中“系數(shù)”,以輸出相關系數(shù)。其余選項使用默認值。單擊“確定”。SPSS結果分析:相關系數(shù)表相關系數(shù)表中有較大的相關系數(shù),主成分分析可能有效。

自信心洞察力誠信度推銷能力工作經(jīng)驗簡歷格式.092.228-.107.271.548外貌.431.371.354.490.141研究能力.001.077-.030.055.266興趣愛好.302.483.645.362.141自信心1.000.808.410.800.015洞察力.8081.000.356.818.147誠信度.410.3561.000.240-.156推銷能力.800.818.2401.000.255工作經(jīng)驗.015.147-.156.2551.000工作魄力.704.698.280.815.337志向抱負.842.758.215.860.195理解能力.721.883.386.782.299潛能.672.777.416.754.348求職渴望度.482.527.448.563.215適應力.250.416.003.558.693特征值和貢獻率前4個特征值為7.51,2.05,1.46,1.20。默認提取4個主成分,累計貢獻率為81.49%。因子載荷矩陣這個表是因子分析的因子載荷矩陣,不是特征向量矩陣。要得到特征向量,需要將各列除以對應特征值的平方根。第1列除以根號7.5,第二列除以根號2.05,等等。特征向量這是根據(jù)SPSS的結果在Excel計算出的特征向量。根據(jù)這個表可以寫出4個主成分的表達式。

成份

1234簡歷格式0.1620.4290.315-0.094外貌0.213-0.035-0.0230.262研究能力0.0400.237-0.4300.636興趣愛好0.225-0.1300.4660.345自信心0.290-0.249-0.241-0.173洞察力0.315-0.131-0.150-0.071誠信度0.158-0.4050.2840.416推銷能力0.324-0.029-0.186-0.198工作經(jīng)驗0.1340.5530.0830.068工作魄力0.3150.046-0.080-0.156志向抱負0.318-0.068-0.209-0.199理解能力0.331-0.023-0.1170.075潛能0.3330.022-0.0730.188求職渴望度0.259-0.0820.467-0.201適應力0.2360.4210.089-0.020中央財經(jīng)大學統(tǒng)計學院31主成分表達式F1=0.162簡歷格式*+0.213外貌*+0.040學習能力*+……+0.236適應力*。式中帶星號的變量表示標準化后的變量其余主成分的表達式依此類推。中央財經(jīng)大學統(tǒng)計學院32用SPSS計算的主成分得分把原始變量標準化;按照主成分的計算公式可以計算出主成分得分。注:SAS、S-plus、R等軟件可以直接給出主成分的系數(shù)表和主成分得分。中央財經(jīng)大學統(tǒng)計學院33主成分分析案例2100個學生的六門成績(數(shù)學、物理、化學、語文、歷史、英語)見STUDENT.SAV。根據(jù)數(shù)據(jù)進行主成分分析。中央財經(jīng)大學統(tǒng)計學院34SPSS結果分析有比較高的相關系數(shù),可以使用主成分分析方法。中央財經(jīng)大學統(tǒng)計學院35特征值和貢獻率前2個主成分的貢獻率為81.42%。中央財經(jīng)大學統(tǒng)計學院36成分矩陣和特征向量成分矩陣各列除以相應的特征值可以得出特征向量。第1主成分第2主成分數(shù)學-0.41700.3313物理-0.34880.4986化學-0.34910.4818語文0.46190.2877歷史0.42690.4090英語0.43250.3996特征向量除以根號3.735除以根號1.133中央財經(jīng)大學統(tǒng)計學院37主成分得分com1,com2為用公式計算出的主成分得分。中央財經(jīng)大學統(tǒng)計學院因子分析中央財經(jīng)大學統(tǒng)計學院39因子分析因子分析(factoranalysis)是一種數(shù)據(jù)簡化的技術。它通過研究眾多變量之間的內(nèi)部依賴關系,探求觀測數(shù)據(jù)中的基本結構,并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結構。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。中央財經(jīng)大學統(tǒng)計學院40一個例子例如,在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標構成的評價體系,評價百貨商場的24個方面的優(yōu)劣。但消費者主要關心的是三個方面,即商店的環(huán)境、商店的服務和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)境、商店服務水平和商品價格的三個潛在的因子,對商店進行綜合評價。中央財經(jīng)大學統(tǒng)計學院41因子分析的例子這三個公共因子可以表示為:

稱是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分,稱為特殊因子。中央財經(jīng)大學統(tǒng)計學院42因子分析與主成分分析的區(qū)別主成分分析與因子分析不同,主成分分析僅僅是變量變換,而因子分析需要構造因子模型。主成分分析:原始變量的線性組合表示新的綜合變量,即主成分;因子分析:潛在的假想變量和隨機影響變量的線性組合表示原始變量。中央財經(jīng)大學統(tǒng)計學院43因子分析的數(shù)學模型假設有p個變量X,有m個因子(m≤p),則因子分析的數(shù)學模型可以表示如下:

i=1……p稱為公共因子,是不可觀測的變量,他們的系數(shù)aij

稱為因子載荷。是特殊因子,是不能被前m個公共因子包含的部分。中央財經(jīng)大學統(tǒng)計學院44因子分析的數(shù)學模型因子之間互不相關,并且方差等于1。因子載荷是第i個變量與第j個公共因子的相關系數(shù),反映了第j個公共因子對第i個變量的影響程度。

中央財經(jīng)大學統(tǒng)計學院45變量共同度如果對變量X進行了標準化,可以證明定義為變量Xi的共同度。變量的共同度越接近1,說明變量被公共因子解釋的程度越高,因子分析的效果越好。中央財經(jīng)大學統(tǒng)計學院46公共因子Fj的方差貢獻因子載荷矩陣中各列元素的平方和稱為公共因子Fj對原始變量X的方差貢獻??梢院饬恳蜃拥南鄬χ匾浴V醒胴斀?jīng)大學統(tǒng)計學院47因子載荷矩陣的估計因子載荷矩陣的估計方法有多種,估計結果并不唯一。最常用的方法之一是主成分法:求解變量X的前m個主成分,進行簡單的數(shù)學變換就可以得到因子載荷矩陣。與主成分分析類似,可以根據(jù)因子的累計貢獻率確定因子的個數(shù)。中央財經(jīng)大學統(tǒng)計學院48因子旋轉因子分析中得出的各個因子如果有明確的含義,則因子分析的模型會更加易于解釋和有實際意義。在因子分析中可以對因子載荷陣進行旋轉,使每個變量僅在一個公共因子上有較大的載荷,而在其余的公共因子上的載荷比較小。通過旋轉,因子可以有更加明確的含義。常用的一種方法是方差最大旋轉。中央財經(jīng)大學統(tǒng)計學院49因子得分前面我們主要解決了用公共因子的線性組合來表示一組觀測變量的有關問題。如果我們要使用這些因子做其他的研究,比如把得到的因子作為自變量來做回歸分析,對樣本進行分類或評價,就需要計算每個個體在每個因子上的得分。中央財經(jīng)大學統(tǒng)計學院50因子得分的計算要計算因子得分,需要估計以下表達式:因子得分有多種計算方法,常用的一種是回歸法。如果對變量都進行了標準化,則模型中沒有常數(shù)項。()中央財經(jīng)大學統(tǒng)計學院51因子分析的步驟1.根據(jù)問題選取原始變量;2.求其相關陣R,探討其相關性;3.從R求解初始公共因子F及因子載荷矩陣A(主成分法);4.因子旋轉,分析因子的含義;5.計算因子得分函數(shù);6.根據(jù)因子得分值進行進一步分析(例如綜合評價)。中央財經(jīng)大學統(tǒng)計學院52因子分析案例應聘數(shù)據(jù)的例子。步驟:1、在SPSS中打開數(shù)據(jù)文件;2、選擇“分析”“降維”“因子分析”。3、把除了“編號”以外的變量選入“變量”框;4、單擊“描述”按鈕,在彈出的對話框中選中“系數(shù)”,以輸出相關系數(shù)。中央財經(jīng)大學統(tǒng)計學院53SPSS因子分析操作5、單擊“旋轉”,選中“最大方差法”,單擊“繼續(xù)”;中央財經(jīng)大學統(tǒng)計學院54SPSS因子分析操作5、單擊“得分”,選中“保存為變量”,“顯示因子得分系數(shù)矩陣”,單擊“繼續(xù)”;其余選項使用默認值。單擊“確定”。中央財經(jīng)大學統(tǒng)計學院55因子分析結果分析變量的共同度表。除了“外貌”變量外其他變量的共同度都比較高。中央財經(jīng)大學統(tǒng)計學院56貢獻率根據(jù)下表,前4個因子的貢獻率為81.49%。旋轉前后的因子載荷矩陣旋轉后的系數(shù)矩陣中在一行中一般只有一個較大的值。根據(jù)旋轉后的因子載荷矩陣更容易解釋因子的含義。

因子旋轉后1234簡歷格式.116.830.109-.136外貌.440.151.399.227研究能力.064.128.007.928興趣愛好.220.245.871-.081自信心.916-.107.163-.065洞察力.863.097.255.002誠信度.219-.242.863.001推銷能力.910.223.103-.041工作經(jīng)驗.087.851-.055.211工作魄力.800.349.156-.052志向抱負.918.159.100-.041理解能力.811.255.331.143潛能.747.326.413.224求職渴望度.440.363.534-.524適應力.383.797.076.084中央財經(jīng)大學統(tǒng)計學院58各變量的因子表達式標準化的簡歷格式分≈0.116×第一個因子+0.830×第二個因子+0.109×第三個因子-0.136×第四個因子標準化的外貌分≈0.440×第一個因子+0.151×第二個因子+0.399×第三個因子+0.227×第四個因子中央財經(jīng)大學統(tǒng)計學院59因子含義的解釋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論