管理統(tǒng)計與應(yīng)用軟件第6章因子分析_第1頁
管理統(tǒng)計與應(yīng)用軟件第6章因子分析_第2頁
管理統(tǒng)計與應(yīng)用軟件第6章因子分析_第3頁
管理統(tǒng)計與應(yīng)用軟件第6章因子分析_第4頁
管理統(tǒng)計與應(yīng)用軟件第6章因子分析_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第六章因子分析在科學(xué)研究中,往往希望盡可能多地收集反映研究對象的多個變量,以期能對問題有比較全面、完整的把握與認識。多變量的大樣本雖然能為科學(xué)研究提供大量的信息,但是在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性,這意味著表面上看來彼此不同的變量并不能從各個側(cè)面反映事物的不同屬性,而恰恰是事物同一種屬性的不同表現(xiàn)。2如何從眾多相關(guān)的指標中找出少數(shù)幾個綜合性指標來反映原來指標所包含的主要信息,這就需要進行因子分析(FactorAnalysis),它是用少數(shù)幾個因子來描述許多指標或因素之間的聯(lián)系,即:用較少幾個因子反映原始數(shù)據(jù)的大部分信息的統(tǒng)計方法。3第一節(jié)概述一、提出者

因子分析最初是由英國心理學(xué)家C.Spearman提出的。1904年他在美國心理學(xué)刊物上發(fā)表了第一篇有關(guān)因子分析的文章。以后因子分析逐步被發(fā)展完善。50年代以來,由于計算機的發(fā)展,因子分析在社會學(xué)、經(jīng)濟學(xué)、管理學(xué)、醫(yī)學(xué)、地質(zhì)學(xué)、氣象學(xué)中得到了較為廣泛的應(yīng)用。二、因子分析的含義

因子分析,又叫因素分析,就是通過尋找眾多變量的公共因素來簡化變量中存在復(fù)雜關(guān)系的一種統(tǒng)計方法,它將多個變量綜合為少數(shù)幾個“因子”以再現(xiàn)原始變量與“因子”之間的相關(guān)關(guān)系。

比如:分析學(xué)生的各項成績,包括數(shù)學(xué)、語文、英語、百米、跳高和鉛球等,如果一個學(xué)生的學(xué)習(xí)成績之間相關(guān)性很好,體育成績的相關(guān)性也很好,而學(xué)習(xí)成績和體育成績間相關(guān)性很差,那么可以考慮學(xué)生的學(xué)習(xí)成績是否存在一個共同的影響因子,這里暫且稱之為智力因子,用學(xué)生的學(xué)習(xí)成績(數(shù)學(xué)、語文、英語)來指示學(xué)生的智力這個因子,而用體育成績(百米、跳高、鉛球)來指示體力這個因子,本來智力因子和體力因子沒有辦法直接測量,而因子分析可以解決這個問題。5

6三、因子分析的主要作用1、尋找基本結(jié)構(gòu)

在多元統(tǒng)計中,經(jīng)常遇到諸多變量之間存在強相關(guān)的問題,它會對分析帶來許多困難。通過因子分析,可以找出幾個較少的有實際意義的因子,反映出原來數(shù)據(jù)的基本結(jié)構(gòu)。例如:調(diào)查汽車配件的價格中,通過因子分析從20個指標中概括出原材料供應(yīng)商、配件廠商、新進入者、后市場零部件廠商、整車廠和消費者6個基本指標。從而找出對企業(yè)配件價格起決定性作用的幾個指標。72、數(shù)據(jù)化簡

通過因子分析,可以找出少數(shù)的幾個因子來代替原來的變量做回歸分析、聚類分析、判別分析等。8四、因子特點因子個數(shù)遠遠少于原有變量的個數(shù)因子能夠反映原有變量的絕大部分信息因子之間的線性關(guān)系不顯著因子具有命名解釋性第二節(jié)因子分析原理及分析步驟一、因子分析數(shù)學(xué)模型

獨特因子公共因素10因子分析的目的就是以F代替Z,由于一般p<m,從而達到簡化變量維度的愿望。二、因子分析的基本步驟1.確定因子分析的前提條件

因子分析是從眾多的原始變量中綜合出少數(shù)幾個具有代表性的因子,這必定有一個前提條件,即原有變量之間具有較強的相關(guān)性。如果原有變量之間不存在較強的相關(guān)關(guān)系,則無法找出其中的公共因子。因此,在因子分析時需要對原有變量做相關(guān)分析。通常可采用如下幾種方法:

12(1)計算相關(guān)系數(shù)矩陣計算原有變量的簡單相關(guān)系數(shù)矩陣。觀察相關(guān)系數(shù)矩陣,如果相關(guān)系數(shù)矩陣中的大部分相關(guān)系數(shù)值小于0.3,則各個變量之間大多為弱相關(guān),這就不適合做因子分析。如果一個變量與其他變量間相關(guān)度很低,則在下一分析步驟中可考慮剔除此變量。13(2)進行統(tǒng)計檢驗在因子分析過程中提供了幾種檢驗方法來判斷變量是否適合做因子分析。主要統(tǒng)計方法有如下兩種:

4階單位陣1.巴特利球形檢驗(BarlettTestofSphericity)。它是以變量的相關(guān)系數(shù)矩陣為出發(fā)點,零假設(shè):相關(guān)系數(shù)矩陣是一個單位陣。如果巴特利球形檢驗的統(tǒng)計計量數(shù)值較大,且對應(yīng)的相伴概率值小于用戶給定的顯著性水平,則應(yīng)該拒絕零假設(shè);反之,則不能拒絕零假設(shè),認為相關(guān)系數(shù)矩陣可能是一個單位陣,不適合做因子分析。注:單位陣:主對角線上的元素都是1,其余的元素都是零的n階方陣,叫做n階單位矩陣14

(3).KMO(Kaiser-Meyer-Olkin)檢驗。KMO統(tǒng)計量用于檢驗變量間的偏相關(guān)性是否足夠小,是簡單相關(guān)量和偏相關(guān)量的一個相對指數(shù),由下式求得:KMO>0.9非常適合0.8<KMO<0.9適合0.7<KMO<0.8一般0.6<KMO<0.7不太適合KMO<0.5不適合152.提取因子

決定因子提取的方法(即求初始因子)的方法很多,有“主成分分析法”,“主軸因子法”,“極大似然法”,“最小二乘法”,“Alpha因子提取法”和“映象因子提取法”等等。最常用的是“主成分分析法”和“主軸因子法”,其中又以“主成分分析法”的使用最為普遍。在提取因子的過程中涉及下列名詞,現(xiàn)分別說明:16(1)特征值

特征值是指每個變量在某一公共因子上的因子負荷的平方總和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子會最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子維度簡單化,希望以最小的公共因子能對總變異量作最大的解釋,因而提取的因素愈少愈好,而提取因子之累積解釋的變異量則愈大愈好。17每個公共因子對原始數(shù)據(jù)的解釋能力,可以用該因子所解釋的總方差來衡量,通常稱為該因子的貢獻率,它等于和該因子有關(guān)的因子負荷的平方和,實際中常用相對指標來表示。相對指標體現(xiàn)公共因子的相對重要性,即每個公共因子所解釋的方差占所有變量總方差的比例。(2)因子的貢獻率183.確定公共因子數(shù)根據(jù)某種規(guī)則,確定數(shù)據(jù)所需的公共因子數(shù),方法有:根據(jù)公共因子在變量總方差中所占的累計百分比,一般大于85%;特征根大于1的因子將被選入;當變量數(shù)Q為偶數(shù)時,公共因子個數(shù)應(yīng)小于Q/2,為奇數(shù)時,應(yīng)小于(P-1)/2。194.因子的命名因子的命名是因子分析的一個核心問題。旋轉(zhuǎn)后可決定因子個數(shù),并對其進行命名。對于新因子變量的命名要根據(jù)新因子變量與原變量的關(guān)系,即觀察旋轉(zhuǎn)后的因子負荷矩陣中某個新因子變量能夠同時解釋多少原變量的信息。205.計算因子得分計算因子得分是因子分析的最后一步。因子變量確定后,便可計算各因子在每個樣本上的具體數(shù)值,這些數(shù)值就是因子的得分,形成的新變量稱為因子變量,它和原變量的得分相對應(yīng)。有了因子得分,在以后的分析中就可以因子變量代替原有變量進行數(shù)據(jù)建模,或利用因子變量對樣本進行分類或評價等研究,進而實現(xiàn)降維和簡化的目標。21第三節(jié)用SPSS進行因子分析一、因子分析的對話框介紹在FactorAnalysis對話框中,左邊較大的矩形框是源變量框,右邊“Variables”框為選入分析的變量框23各變量的基本統(tǒng)計量(包括均數(shù),標準差和樣本量)因子分析的初始解(包括原變量的公因子方差,與變量數(shù)目相同的因子,各因子的特征值及其所占總方差的百分比和累計百分比)相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣單側(cè)檢驗的概率值相關(guān)系數(shù)矩陣的行列式KMO和巴特利球型檢驗相關(guān)系數(shù)矩陣的逆矩陣反映象協(xié)方差陣和相關(guān)陣再生相關(guān)陣(給出因子分析后的相關(guān)陣及其殘差,下三角為再生相關(guān)陣,上三角為殘差,即再生相關(guān)系數(shù)與原始相關(guān)系數(shù)之差)Descriptives按鈕24“Analyze”指定提取因子的依據(jù):Correlationmatrix:相關(guān)系數(shù)矩陣(系統(tǒng)默認,當原有變量存在數(shù)量級的差異時,通常選擇該選項)Covariancematrix:協(xié)方差矩陣“Extract”提取標準:Eigenvalusover:以特征值大于某數(shù)值為提取標準Numberoffactors:自定義提取因子的數(shù)量(正整數(shù))“Display”輸出內(nèi)容:Unrotatedfactorsolution:未旋轉(zhuǎn)的因子負荷陣Screeplot:碎石圖(以特征值大小排列的原始變量序號為橫軸,特征值為縱軸的加連線的散點圖)MaximumIterationsforConvergence:最大迭代次數(shù)(正整數(shù)),系統(tǒng)默認25次Extraction按鈕25Rotation按鈕“Mothod”因子旋轉(zhuǎn)方法:正交法None:不旋轉(zhuǎn)(系統(tǒng)默認)Varimax:最大方差旋轉(zhuǎn)法Quartimax:四次方最大正交旋轉(zhuǎn)法Equamax:平均正交旋轉(zhuǎn)法“Display”輸出內(nèi)容:Rotatedsolution:旋轉(zhuǎn)后的因子負荷矩陣Loadingplot(s):旋轉(zhuǎn)后的因子負荷散點圖斜交法DirectOblimin:最大斜交旋轉(zhuǎn)法,選此項,下方的Delta框被激活,可填入小等于0.8的值,系統(tǒng)默認0,即產(chǎn)生最高相關(guān)因子。Promax:斜交旋轉(zhuǎn)法,選此項,下方的Kappa框被激活,系統(tǒng)默認4。該法允許因子間相關(guān),遠較最大斜交旋轉(zhuǎn)法計算速度快,適于大型數(shù)據(jù)處理。-----------------------------------------------------------------------26FactorScores按鈕“Method”求因子得分方法:Regression:回歸法(系統(tǒng)默認)Bartlett:Bartlett法Anderson-Rubin:Anderson-Rubin法Displayfactorscorecoefficientmatrix:輸出因子得分系數(shù)矩陣27Option按鈕“MissingValues”缺失值處理:Excludecaseslistwise:剔除含有缺失值的所有觀察單位(系統(tǒng)默認)Excludecasespairwise:剔除各對變量中含有缺失值的觀察單位Replacewithmean:用各變量的均值替代缺失值“CoefficientDisplayFormat”因子矩陣的輸出格式:Sortedbysize:按因子系數(shù)由大到小排列Suppressabsolutevalueslessthan:只列出大于某一數(shù)值的因子系數(shù)(系統(tǒng)默認0.1)28二、實例分析案例X1:每萬人中等職業(yè)教育在校生數(shù)X2:每萬人中等職業(yè)教育招生數(shù)X3:每萬人中等職業(yè)教育畢業(yè)生數(shù)X4:每萬人中等職業(yè)教育專任教師數(shù)X5:本科以上學(xué)校教師占專任教師的比例X6:高級教師占專任教師的比例X7:學(xué)校平均在校生人數(shù)

X8:國家財政預(yù)算中等職業(yè)教育經(jīng)費占國內(nèi)生產(chǎn)總值的比例X9:生均教育經(jīng)費對北京18個區(qū)縣中等職業(yè)教育發(fā)展水平的9個指標進行因子分析,然后進行綜合評價。數(shù)據(jù)如有表所示,9個指標分別表示如下含義:29操作步驟定義變量:變量“qx”為字符型變量,表示區(qū)縣;變量x1,x2,…,x9均為數(shù)值型變量,表示中等教育發(fā)展水平的狀況。

3.從左側(cè)的變量列表中選擇x1,x2,…,x9變量進入“Variables”框中。30313233結(jié)果分析上表顯示原有變量的相關(guān)系數(shù)矩陣及其檢驗。可以看到,大部分的相關(guān)系數(shù)都較高(大于0.3,單邊檢驗值小于0.05),各變量呈較高的線性關(guān)系,能夠從中提取公共因子,適合進行因子分析。大部分的相關(guān)系數(shù)值大于0.3大部分的檢驗值小于0.0534巴特利球形檢驗統(tǒng)計量為131.051,相應(yīng)的概率Sig為0.000,因此可認為相關(guān)系數(shù)矩陣與單位陣有顯著差異。同時,KMO值為0.762,根據(jù)Kaiser給出的KMO度量標準可知原有變量適合作因子分析。35右表是因子分析的初始解,顯示了所有變量的共同方差數(shù)據(jù)?!癐nitial”列是因子分析初始解下的變量共同方差。它表示,對原有9個變量如果采用主成分分析方法提取所有特征值(9個),那么原有變量的所有方差都可被解釋,變量的共同方差均為1(原有變量標準化后的方差為1)?!癊xtraction”列是在按指定提取條件(本例提取3個因子)提取特征值時的共同方差。可以看到,所有變量的共同方差均較高,各個變量的信息丟失都較少。因此本次因子分析提取的總體效果較理想36上表中,第一列是因子編號,以后三列組成一組,每組中數(shù)據(jù)項的含義依次是特征根值,方差貢獻率和累計方差貢獻率。

第一組數(shù)據(jù)項描述了因子初始解的情況??煽吹?,第1個因子的特征值是4.975,解釋原有9個變量總方差的55.275%(4.975÷9×100),累計方差貢獻率為55.275%;其余數(shù)據(jù)含義類似。

第二組數(shù)據(jù)項描述了因子解的情況??煽吹?,由于指定提取3個因子,3個因子共解釋了原有變量總方差的84.466%??傮w上,3個因子反映了原有變量的大部分信息,因子分析效果較理想。第三組數(shù)據(jù)描述了經(jīng)過旋轉(zhuǎn)后最終因子解的情況??梢?,因子旋轉(zhuǎn)后累計方差比沒有改變,但重新分配了各個因子解釋原有變量的方差,改變了各個因子的方差貢獻,使得因子更易于解釋。37右圖中,橫坐標為因子數(shù)目,縱坐標為特征值??梢姡?個因子的特征值很高,對解釋原有變量的貢獻最大;第4個以后的因子特征值都較小,對解釋原有變量的貢獻很小,已經(jīng)成為可被忽略的“高山腳下的碎石”,因此提取3個因子是適合的。3個主要因子38

從表中可以看到,9個變量在第1個因子上的負荷都很高,意味著它們與第1個因子的相關(guān)程度高,其余2個因子與9個變量的相關(guān)性相對較小。另外還可看到,這3個因子的實際含義比較模糊。右表顯示了因子負荷矩陣

是因子分析核心內(nèi)容39從右表可知,用主成分分析法進行方差極大法旋轉(zhuǎn)后,在校生數(shù)、招生數(shù)、畢業(yè)生數(shù)、專任教師數(shù)和經(jīng)費比例5個變量在第1個因子上有較高的負荷,第1個因子主要解釋這5個變量,其意義代表中等職業(yè)教育的相對規(guī)模大小,可解釋為發(fā)展規(guī)模;

發(fā)展規(guī)模學(xué)校規(guī)模辦學(xué)條件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論