版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1
應(yīng)用多元統(tǒng)計分析
第八章因子分析2§8.1引言§8.2因子模型§8.3參數(shù)估計方法§8.4方差最大的正交旋轉(zhuǎn)§8.5因子得分§8.6Q型因子分析第八章因子分析
目錄3第八章因子分析
因子分析是主成分分析的推廣和發(fā)展,它也是多元統(tǒng)計分析中降維的一種方法.因子分析是研究相關(guān)陣或協(xié)差陣的內(nèi)部依賴關(guān)系,它將多個變量綜合為少數(shù)幾個因子,以再現(xiàn)原始變量與因子之間的相關(guān)關(guān)系.
因子分析的形成和早期發(fā)展一般認(rèn)為是從CharlesSpearman在1904年發(fā)表的文章開始.他提出這種方法用來解決智力測驗得分的統(tǒng)計分析.目前因子分析在心理學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科都取得成功的應(yīng)用.4第八章§8.1引言
什么是因子分析
例1
為了了解學(xué)生的學(xué)習(xí)能力,觀測了n個學(xué)生p個科目的成績(分?jǐn)?shù)),用X1,…,Xp表示p個科目(例如代數(shù)、幾何、語文、英語、政治,…),X(t)=(xt1,…,xtp)′(t=1,…,n)表示第t個學(xué)生p個科目的成績,我們對這些資料進(jìn)行歸納分析,可以看出各個科目(即變量)由兩部分組成:
Xi=aiF+εi(i=1,…,p)(8.1.1)其中F是對所有Xi(i=1,…,p)所共有的因子,它表示智能高低的因子;εi是變量Xi特有的特殊因子.這就是一個最簡單的因子模型.5第八章
§8.1引言
什么是因子分析進(jìn)一步可把這個簡單因子模型推廣到多個因子的情況,即全體科目X所共有的因子有m個,如數(shù)學(xué)推導(dǎo)因子、記憶因子、計算因子…等.分別記為F1,…,Fm,即
Xi=ai1
F1
+ai2
F2+…+aimFm+εi
(i=1,…,p)(8.1.2)
用這m個不可觀測的相互獨(dú)立的公共因子F1,…,Fm(也稱為潛因子)和一個特殊因子εi來描述原始可測的相關(guān)變量(科目)X1,…,Xp,并解釋分析學(xué)生的學(xué)習(xí)能力.6第八章§8.1引言
什么是因子分析
例2
調(diào)查青年對婚姻家庭的態(tài)度,抽取了n個青年回答了p=50個問題的答卷,這些問題可歸納為如下幾個方面,對相貌的重視、對孩子的觀點等,這也是一個因子分析的模型,每一個方面就是一個因子.
例3
考察五個生理指標(biāo):收縮壓(X1)、舒張壓(X2)、心跳間隔(X3)、呼吸間隔(X4)和舌下溫度(X5).從生理學(xué)的知識,這五個指標(biāo)是受植物神經(jīng)支配的,植物神經(jīng)又分為交感神經(jīng)和副交感神經(jīng),因此這五個指標(biāo)有兩個公共因子,也可用因子分析的模型去處理它.7第八章§8.1引言
什么是因子分析
例4Linden對二次大戰(zhàn)(1945年以后)奧林匹克十項全能的得分進(jìn)行研究(n=160),用X1-X10表示十項全能的標(biāo)準(zhǔn)化得分?jǐn)?shù)據(jù)(十項全能包括:100米,鋁球,跳高,跳遠(yuǎn),400米,110米跨欄,鐵餅,撐桿,標(biāo)槍,1500米),目的是分析哪些因素決定了十項全能的成績,以此來指導(dǎo)運(yùn)動員的選拔工作.
這些因素可歸納為如下幾類:短跑速度,爆發(fā)性臂力,腿力,耐力等.這也是一個因子分析的模型,每一個因素就是一個公共因子.
8第八章§8.1引言
什么是因子分析
因子分析的主要應(yīng)用有兩方面:
一是尋求基本結(jié)構(gòu),簡化觀測系統(tǒng),將具有錯綜復(fù)雜關(guān)系的對象(變量或樣品)綜合為少數(shù)幾個因子(不可觀測的,相互獨(dú)立的隨機(jī)變量),以再現(xiàn)因子與原變量之間的內(nèi)在聯(lián)系;
二是用于分類,對p個變量或n個樣品進(jìn)行分類.9第八章§8.1引言
什么是因子分析
因子分析根據(jù)研究對象可以分為R型和Q型因子分析.R型因子分析研究變量(指標(biāo))之間的相關(guān)關(guān)系,通過對變量的相關(guān)陣或協(xié)差陣內(nèi)部結(jié)構(gòu)的研究,找出控制所有變量的幾個公共因子(或稱主因子、潛因子),用以對變量或樣品進(jìn)行分類.Q型因子分析研究樣品之間的相關(guān)關(guān)系,通過對樣品的相似矩陣內(nèi)部結(jié)構(gòu)的研究找出控制所有樣品的幾個主要因素(或稱主因子).10第八章§8.1引言
什么是因子分析
因子分析與主成分分析有區(qū)別:
主成分分析一般不用數(shù)學(xué)模型來描述,它只是通常的變量變換,而因子分析需要構(gòu)造因子模型(正交或斜交);
主成分分析中主成分的個數(shù)和變量個數(shù)p相同,它是將一組具有相關(guān)性的變量變換為一組獨(dú)立的綜合變量(注意應(yīng)用主成分分析解決實際問題時,一般只選取m(m<p)個主成分),而因子分析的目的是要用盡可能少的公因子,以便構(gòu)造一個結(jié)構(gòu)簡單的因子模型;11第八章§8.1引言
什么是因子分析
主成分分析是將主成分表示為原變量的線性組合,而因子分析是將原始變量表示為公因子和特殊因子的線性組合.
另一方面這兩種分析方法之間在某些情況下也有一定聯(lián)系.這些我們將從下面的介紹中看到.12第八章§8.2因子模型
正交因子模型
設(shè)X=(X1,…,Xp)′是可觀測的隨機(jī)向量,E(X)=μ,D(X)=Σ.F=(F1,…,Fm)′(m<p)是不可觀測的隨機(jī)向量,E(F)=0,D(F)=Im(即F的各分量方差為1,且互不相關(guān)).
又設(shè)ε=(ε1,…,εp)′與F相互獨(dú)立,且E(ε)=0,
D(ε)=diag(σ21,…,σ2p)=D(對角陣).13第八章§8.2因子模型
正交因子模型假定隨機(jī)向量X滿足以下的模型:
X1-μ1=a11F1+a12F2+…+a1mFm+ε1,
X2-μ2=a21F1+a22F2+…+a2mFm+ε2,
……………
(8.2.1)Xp-μp=ap1F1+ap2F2+…+apmFm+εp,則稱模型(8.2.1)為正交因子模型.用矩陣表示為14第八章§8.2因子模型
正交因子模型其中F=(F1,…,Fm)′,F1,…,Fm稱為X的公共因子;
ε=(ε1,…,εp)′,ε1,…,εp稱為X的特殊因子;
公共因子F1,…,Fm對X每一個分量X1,X2,…,Xp都有作用,而εi只對Xi起作用.而且各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨(dú)立的.15第八章§8.2因子模型
正交因子模型
模型中的矩陣A=(aij)(p×m)是待估的系數(shù)矩陣,稱為因子載荷矩陣.
aij(i=1,…,p;j=1,…,m)稱為第i個變量在第j個因子上的載荷(簡稱為因子載荷),或稱為第j個因子為預(yù)測第i個變量的回歸系數(shù).16第八章§8.2因子模型
正交因子模型
這里有幾個關(guān)鍵性的假設(shè):
1.公共因子Fi互不相關(guān),且
D(F)=Im
2.特殊因子互不相關(guān),且
D(ε)=diag(σ21,…,σ2p)=D3.
特殊因子與公共因子不相關(guān),即
COV(ε,F)=Op×m
.
17第八章§8.2因子模型
正交因子模型
在主成分分析中,當(dāng)討論用前m個主成分表示原始變量的模型時,殘差通常是彼此相關(guān)的.
在因子分析中,特殊因子起著殘差的作用,但被定義為彼此不相關(guān)且和公因子也不相關(guān).而且每個公因子假定至少對兩個變量有貢獻(xiàn),否則它將是一個特殊因子.18第八章§8.2因子模型
正交因子模型
在正交因子模型中,假定公因子彼此不相關(guān)且具有單位方差,即D(F)=Im.
在這種情況下,由
Σ=D(X)=D(AF+ε)=E[(AF+ε)(AF+ε)′]=AD(F)A′+D(ε)=AA′+D,
即Σ-D=AA'
(8.2.3)
(8.2.3)稱為正交因子模型的協(xié)方差結(jié)構(gòu).19第八章§8.2因子模型
正交因子模型
由(8.2.3)可知,X符合正交因子模型意味著第j個變量和第k個變量(j≠k)的協(xié)方差σjk由下式給出:(Σ=AA'+D)
σjk=aj1ak1+aj2ak2+…+ajmakm(j≠k)
σjj=
(aj1)2+(aj2)2+
…+(ajm)2+
σj2
20第八章§8.2因子模型
正交因子模型
如果原始變量已被標(biāo)準(zhǔn)化為單位方差,在(8.2.3)式中將用相關(guān)陣代替協(xié)差陣.在這種意義上,公共因子解釋了觀測變量間的相關(guān)性.
用正交因子模型預(yù)測的相關(guān)與實際的相關(guān)之間的差異就是剩余相關(guān).評估正交因子模型擬合優(yōu)度的好方法就是考察剩余相關(guān)的大小(即誤差平方和Q(m)的大小).21第八章§8.2因子模型
正交因子模型
因子分析的任務(wù)首先是由樣本協(xié)差陣估計Σ,然后由Σ滿足的分解式(8.2.3)求得A和D.
也就是從可以觀測的變量X1,…,Xp給出的樣本資料中,求出載荷矩陣A和D.又COV(X,F)=E[(X-EX)(F-EF)′]=E[(X-μ)F′]=E[(AF+ε)F′]
=AE(FF′)+E(εF′)=A,(8.2.4)可見A中元素aij刻畫變量Xi與Fj之間的相關(guān)性,稱aij為Xi在Fj上的因子載荷.22第八章§8.2因子模型
正交因子模型中各個量的統(tǒng)計意義
1.因子載荷的統(tǒng)計意義由因子模型(8.2.1)及(8.2.4)可知Xi與Fj的協(xié)方差Cov(Xi,Fj)=aij如果變量Xi是標(biāo)準(zhǔn)化變量(即E(Xi)=0,Var(Xi)=1),則這時因子載荷aij就是第i個變量與第j個公共因子的相關(guān)系數(shù).23第八章§8.2因子模型
正交因子模型中各個量的統(tǒng)計意義
2.變量共同度的統(tǒng)計意義因子載荷矩陣A中各行元素的平方和記為hi2
稱為變量Xi的共同度.為了給出hi2的統(tǒng)計意義,下面來計算Xi方差.24第八章§8.2因子模型
正交因子模型中各個量的統(tǒng)計意義Xi的方差由兩部分組成,第一部分hi2是全部(m個)公共因子對變量Xi的總方差所作出的貢獻(xiàn),稱為公因子方差;
第二部分σ2i
由特定因子εi產(chǎn)生的方差,它僅與變量Xi有關(guān),也稱為剩余方差.25第八章§8.2因子模型
正交因子模型中各個量的統(tǒng)計意義顯然,若hi2大,σ2i必小.而hi2大表明Xi對公因子F1,…,Fm的共同依賴程度大.當(dāng)hi2=1(設(shè)Var(Xi)=1)時,σ2i
=0,即Xi能夠由公共因子的線性組合表示;當(dāng)hi2≈0時,表明m個公共因子對Xi影響很小,Xi主要由特殊因子εi來描述.
可見hi2反映了變量Xi對公因子F依賴的程度.故稱公因子方差hi2為變量Xi的共同度.26第八章§8.2因子模型
正交因子模型中各個量的統(tǒng)計意義3.公共因子Fj的方差貢獻(xiàn)的統(tǒng)計意義在因子載荷矩陣A中,求A的各列的平方和,記為qj2,即qj2的統(tǒng)計意義與Xi的共同度h2i恰好相反,qj2表示第j個公因子Fj對X的所有分量X1,…,Xp的總影響,稱為公共因子Fj對X的貢獻(xiàn)(qj2是同一公共因子Fj
對諸變量所提供的方差之總和),它是衡量公共因子相對重要性的指標(biāo).27第八章§8.2因子模型
正交因子模型中各個量的統(tǒng)計意義
qj2愈大,表明Fj對X的貢獻(xiàn)愈大.如果我們把A矩陣的各列平方和都計算出來,使相應(yīng)的貢獻(xiàn)有順序:
我們就能夠以此為依據(jù),提煉出最有影響的公共因子.
要解決此問題,關(guān)鍵是求載荷矩陣A的估計.28第八章§8.2因子模型
因子分析的任務(wù)
1.由樣本(即觀測數(shù)據(jù))得出Σ的估計(樣本協(xié)差陣),假定X符合正交因子模型,則有分解式:Σ=AA'
+D2.由樣本協(xié)差陣估計A和D及公因子個數(shù)m使之滿足:Σ=AA'
+
D
(參數(shù)估計問題)
3.對公共因子給出有實際背景的解釋.4.估計因子得分函數(shù)和因子得分.29第八章§8.2因子模型
例8.2.1
已知X=(X1,...,X4)'的協(xié)差陣Σ:
1930212305752325384712234768試求滿足(8.2.3)式的因子載荷陣A(m=2)和特殊因子的協(xié)差陣D.
解:
比如取A'=47-111268Σ=30第八章§8.2因子模型
例8.2.1
2000040000100003則協(xié)差陣滿足:Σ=AA′+D且有共同度h12=42+12=17Var(ε1)=2,Var(X1)=19分解式:19=17+2即:Var(X1)=h12+Var(ε1)D=31第八章§8.2因子模型
作業(yè)—習(xí)題八8.1
補(bǔ)充1:已知X=(X1,...,X4)'的協(xié)差陣Σ:
2210-1632108-816-16-8852032162081試求滿足(8.2.3)式的因子載荷陣A(m=2)和特殊因子的協(xié)差陣D.
提示:
比如取A'=216842-74Σ=32第八章§8.3參數(shù)估計方法
已知p個相關(guān)變量的觀測數(shù)據(jù)X(i)
=(xi1,…,xip)’(i=1,…,n).因子分析的目的是用少數(shù)幾個公共因子(設(shè)為m個)來描述p個相關(guān)變量間的協(xié)方差結(jié)構(gòu):
Σ=AA′+D(8.2.3)其中A=(aij)為p×m的因子載荷陣;
D=diag(σ21,…,σ2p)為p階對角陣.
因子分析的參數(shù)估計問題就是估計公共因子的個數(shù)m、因子載荷陣A及特殊因子的方差σ2i(i=1,…,p),使得滿足
Σ=AA′+D
或Σ≈AA′+D.33第八章§8.3參數(shù)估計方法
主成分法
由p個相關(guān)變量的觀測數(shù)據(jù)可得到協(xié)差陣Σ的估計(記為S).為了建立公因子模型,首先要估計因子載荷aij和特殊方差σi2
.常用的參數(shù)估計方法有以下三種:主成分法,主因子法和極大似然法.
設(shè)樣本協(xié)差陣S的特征值為λ1≥λ2≥…≥λp≥0,相應(yīng)單位正交特征向量為l1,l2,…,lp.記V=diag(λ1,λ2,…,λp).根據(jù)線性代數(shù)的知識(對稱陣的譜分解式)有以下分解式:34第八章§8.3參數(shù)估計方法
主成分法
S=(l1…
lp)V(l1…
lp)′或S=λ1l1l1′+λ2l2l2′+…+λplplp′
當(dāng)最后p-m個特征值較小時,則S可近似地分解為(A為p×m陣,B為p×p-m陣)35第八章§8.3參數(shù)估計方法
主成分法
其中A==(aij)為p×m陣σ2i=sii-(a2i1+a2i2+….+a2im)(i=1,2,…,p).(8.3.2)(8.3.2)式給出的A和D就是因子模型的一個解.
(D=diag(BB’))(8.3.1)36第八章§8.3參數(shù)估計方法
主成分法
載荷陣A中的第j列(即第j個公共因子Fj在X上的載荷)和第j個主成分的系數(shù)相差一個倍數(shù)(λj
)1/2(j=1,2,…,m).故(8.3.2)式給出的這個解常稱為因子模型的主成分解.37第八章§8.3參數(shù)估計方法
主成分法
若記E=S-(AA′+D)=(εij),可以證明(見習(xí)題8-4)
Q(m)=∑∑ε2ij
≤λ2m+1+…+λ2p(8.3.3)當(dāng)m選擇適當(dāng),則近似式
S=(AA′+D)(8.3.1)的誤差平方和Q(m)很小.38第八章§8.3參數(shù)估計方法
主成分法
公共因子個數(shù)m的確定方法一般有兩種:
一是根據(jù)實際問題的意義或?qū)I(yè)理論知識來確定;
二是用確定主成分個數(shù)的原則.選m為滿足:
λ1+…+λm/
λ1+…+λm
+…+λp≥P0(比如P0=0.70或0.85等)的最小正整數(shù).
當(dāng)相關(guān)變量的量綱不同或所取單位的數(shù)量級相差較大時,我們常常先對變量標(biāo)準(zhǔn)化.標(biāo)準(zhǔn)化變量的樣本協(xié)差陣就是原始變量的樣本相關(guān)陣R.用R代替S,類似可得主成分解.39第八章§8.3參數(shù)估計方法
主因子法
從R出發(fā),下面來介紹主成分法的一種修正.
設(shè)R=AA′+D,則R-D=AA′=R*稱為約相關(guān)陣.如果我們已知特殊方差的初始估計,也就是已知先驗公因子方差(即共同度)的估計為則約相關(guān)陣R*=R-D為40第八章§8.3參數(shù)估計方法
主因子法
計算R*的特征值和特征向量,取前m個正特征值λ1*
≥λ2*
≥…≥λm*
>0,相應(yīng)特征向量為l1*,l2*,…
lm*.則有近似分解式:
R*=AA′,其中令則A和為因子模型的一個解這個解就稱為主因子解.41第八章§8.3參數(shù)估計方法
主因子法
在實際應(yīng)用中特殊因子方差σi2
或公因子方差(也稱為共同度)hi2
是未知的.以上得到的解是近似解.為了得到近似程度更好的解,常常采用迭代主因子法,即利用上面得到的D*=
作為特殊方差的初始估計,重復(fù)上述步驟,直到解穩(wěn)定為止.
因特殊因子方差,故求特殊因子方差的初始估計等價于求公因子方差(或稱共同度)hi2的初始估計.42第八章§8.3參數(shù)估計方法
主因子法
公因子方差(或稱變量的共同度)幾種常用的初始估計方法:①hi2取為第i個變量與其他所有變量的多重相關(guān)系數(shù)的平方(或者取σi2
=1/rii,其中rii是R-1的對角元素,則hi2=1-σi2.PRIORS=ASMC|A).②hi2
取為第i個變量與其他變量相關(guān)系數(shù)絕對值的最大值(PRIORS=MAX|M);③取hi2=1,它等價于主成分解(PRIORS=ONE|O).43第八章§8.3參數(shù)估計方法
極大似然法
假定公因子F和特殊因子ε服從正態(tài)分布,那么我們可得到因子載荷陣和特殊方差的極大似然估計.設(shè)p維觀測向量X(1),…,X(n)為來自正態(tài)總體Np(μ,Σ
)的隨機(jī)樣本,則樣本似然函數(shù)為μ,Σ的函數(shù)L(μ,Σ).
設(shè)Σ=AA′+D,取μ=X,則似然函數(shù)L(X,AA′+D)為A,D的函數(shù):φ(A,D),求A,D使φ達(dá)最大.為保證得到唯一解,可附加計算上方便的唯一性條件:A′D-1A=對角陣,用迭代方法可求得極大似然估計A和D.44第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2
對全國30個省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項指標(biāo)作因子分析.考慮的八項指標(biāo)為:X1--GDPX2--居民消費(fèi)水平
X3--固定資產(chǎn)投資X4---職工平均工資
X5--貨物周轉(zhuǎn)量X6--居民消費(fèi)價格指數(shù)
X7--商品零售價格指數(shù)X8--工業(yè)總產(chǎn)值
(數(shù)據(jù)來源1996年“中國統(tǒng)計年鑒”)45第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2
甘肅553.351007114.815493507.0119.8116.5468.79青海165.31144547.76575361.6118.0116.3105.80北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.904721717.3116.9115.6697.25內(nèi)蒙832.881387250.234134781.7117.5116.8419.39遼寧2793.372397387.9949111371.1116.1114.01840.55吉林1129.201872320.454430497.4115.2114.2762.47黑龍江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.7113.01642.95江蘇5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.581254474.004609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67
X1X2X3X4X5X6X7X846第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2
江西1205.111182282.844211411.7116.9115.9571.84山東5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849.0120.0116.61220.72湖南2195.701408422.6147971011.8119.0115.5843.83廣東5381.7226991639.838250656.5114.0111.61396.35廣西1606.151314382.595105556.0118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川3534.001261822.544645902.3118.5117.01431.81貴州630.07942150.844475301.4121.4117.2324.72云南1206.681261334.005149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陜西1000.031208300.274396500.9119.0117.0600.98寧夏169.75135561.985079121.8117.1115.3114.40新疆834.571469376.955348339.0119.7116.7428.76解
此例中,n=30,p=8.在以上三種估計方法中,主成分解應(yīng)用較廣泛.具體計算步驟如下:47第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2(1)由原始數(shù)據(jù)X計算樣本均值及樣本相關(guān)陣.(2)求樣本相關(guān)陣R的特征值和標(biāo)準(zhǔn)化特征向量.
記λ1≥λ2≥…≥λp≥0為R的特征根,相應(yīng)單位正交特征向量為l1,l2,…,lp.
(3)求因子模型的因子載荷陣.①確定公因子的個數(shù)m.如m為滿足λ1+…+λm/λ1+…+λm
+…+λp≥0.80的最小正整數(shù)②由前m個單位正交特征向量l1,…,lm,令
ai=(λi)1/2
li(i=1,2,…,m),則A=(a1,…,am)為因子載荷陣.
48第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2
Xi的共同度hi2的估計為
(5)
對m個公因子(或稱潛因子,主因子)作解釋.
求出因子載荷陣A后,即得可觀測變量X1,…,Xp可以由m個不可觀測的公因子及各自的特殊因子表示,但這m個公因子的實際意義表示什么?則要結(jié)合專業(yè)知識給出解釋.(4)求特殊因子方差:令49第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2
以下SAS程序首先用DATA步生成SAS數(shù)據(jù)集D832,然后調(diào)用SAS/STAT軟件中的FACTOR過程進(jìn)行因子分析.
在PROCFACTOR語句中,選項METHOD=PRIN和PRIORS=ONE表示用主成分法估計因子載荷陣A和D.因主成分法是常用的參數(shù)估計法,這兩個選項的值為系統(tǒng)的預(yù)置值,可以省略不寫.
選項P=0.80(或P=80)表示選取公因子個數(shù)m,使m為滿足λ1+…+λm
/
p≥0.80的最小正整數(shù).50第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2
選項SIMPLE要求打印輸出原相關(guān)變量的樣本均值和標(biāo)準(zhǔn)差.VAR語句列出進(jìn)行因子分析的相關(guān)變量X1至X8datad832;inputgroup$x1-x8;cards;北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51..................................
;procfactordata=d832method=prinpriors=onep=0.80simple;varx1-x8;run;51第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2的輸出結(jié)果
八項經(jīng)濟(jì)發(fā)展指標(biāo)的均值和標(biāo)準(zhǔn)差(相關(guān)陣R這里省略了)52第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2的輸出結(jié)果
相關(guān)陣R的特征值、相鄰特征值之差、貢獻(xiàn)率和累計貢獻(xiàn)率53第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2的輸出結(jié)果
因子載荷陣A(m=3)=A54第八章§8.3參數(shù)估計方法
應(yīng)用例子8.3.2的輸出結(jié)果
每個公因子解釋的方差及最終選取的三個公因子所估計的總方差和m=3時各變量的共同度A陣中各列的平方和q2k
(k=1,2,3)或相關(guān)陣R的特征值λk(k=1,2,3)A陣中各行的平方和h2j(共同度)
(j=1,2,…,8)55第八章§8.4方差最大的正交旋轉(zhuǎn)
因子分析的目的不僅是求出公共因子,更主要的是知道每個公共因子的實際意義,以便對實際問題作出科學(xué)的分析.
但由§8.3介紹的估計方法所求出的公因子解,初始因子載荷陣并不滿足“簡單結(jié)構(gòu)準(zhǔn)則”,即各個公共因子的典型代表變量不很突出,因而容易使公共因子的意義含糊不清,不利于對因子進(jìn)行解釋.
為此必須對因子載荷陣施行旋轉(zhuǎn)變換,使得各因子載荷的平方按列向0和1兩極轉(zhuǎn)化,達(dá)到其結(jié)構(gòu)簡化的目的.這種變換因子載荷陣的方法稱為因子旋轉(zhuǎn),而旋轉(zhuǎn)變換的方法主要有正交旋轉(zhuǎn),斜交旋轉(zhuǎn)等.56第八章§8.4方差最大的正交旋轉(zhuǎn)
理論依據(jù)
且(8.4.1)(8.4.2)57第八章§8.4方差最大的正交旋轉(zhuǎn)
理論依據(jù)(8.4.1)和(8.4.2)式說明,若F是因子模型的公因子向量,則對任一正交陣Γ,?!銯=Z
也是公因子向量.相應(yīng)的AΓ是公因子Z的因子載荷陣.
利用這一性質(zhì),在因子分析的實際計算中,當(dāng)求得初始因子載荷陣A以后,就反復(fù)右乘正交陣Γ,使AΓ具有更明顯的實際意義.
這種變換載荷矩陣的方法,稱為因子軸的正交旋轉(zhuǎn).
58第八章§8.4方差最大的正交旋轉(zhuǎn)
因子載荷的方差
h2i
如果A的每一列(即因子載荷向量)數(shù)值越分散,相應(yīng)的因子載荷向量的方差越大.59第八章§8.4方差最大的正交旋轉(zhuǎn)
因子載荷的方差
下面來引入度量因子載荷陣分散程度的統(tǒng)計量--因子載荷的方差.
首先
“標(biāo)準(zhǔn)化”:A=a11…a1m…………..ap1…apma211…a21m…………..a2p1…a2pm消除符號的影響a211/h12…a21m/h12…………..a2p1/hp2…a2pm/hp2消除各變量對公因子依賴程度(即共同度)不同的影響=d112…d1m2…………..dp12…dpm260第八章§8.4方差最大的正交旋轉(zhuǎn)因子載荷的方差
為消除aij符號不同的影響及各變量對公因子依賴程度不同的影響,令61第八章§8.4方差最大的正交旋轉(zhuǎn)因子載荷的方差
62第八章§8.4方差最大的正交旋轉(zhuǎn)
因子載荷的方差
則因子載荷陣A的方差為:
若Vj值越大,A的第j個因子載荷向量數(shù)值越分散,如果載荷值或是趨于1或是趨于0,這時相應(yīng)的公因子Fj具有簡化結(jié)構(gòu).我們希望因子載荷陣A的方差盡可能大.63第八章§8.4方差最大的正交旋轉(zhuǎn)
方差最大的正交旋轉(zhuǎn)
設(shè)m=2,因子載荷陣A為:則B=AΓ是Z=?!銯的因子載荷陣.這相當(dāng)于將由F1,F(xiàn)2確定的因子平面旋轉(zhuǎn)一個角度.利用微積分的方法可以確定選擇適當(dāng)?shù)慕嵌龋馆d荷陣的總方差達(dá)最大.64第八章§8.4方差最大的正交旋轉(zhuǎn)
方差最大的正交旋轉(zhuǎn)
當(dāng)m>2時,可以逐次對每兩個因子Fk,Fj(k≠j)進(jìn)行以上旋轉(zhuǎn).選擇正交旋轉(zhuǎn)的角度kj使這兩個因子的方差之和達(dá)最大.
m個因子的全部配對旋轉(zhuǎn),共需旋轉(zhuǎn)Cm2次,全部旋轉(zhuǎn)完畢算一次循環(huán)(或一輪),經(jīng)第一輪旋轉(zhuǎn)后計算旋轉(zhuǎn)后的因子載荷方差V(1)
,此時不能認(rèn)為V(1)就是最大方差,還需從旋轉(zhuǎn)后的載荷陣出發(fā),再進(jìn)行第二輪旋轉(zhuǎn),…,等等.65第八章§8.4方差最大的正交旋轉(zhuǎn)
應(yīng)用例子8.4.2(8.3.2的繼續(xù))
在例8.3.2中,考慮對因子載荷陣作方差最大的正交旋轉(zhuǎn),并由旋轉(zhuǎn)后的因子載荷陣解釋公因子的含義.
解在以下SAS程序中,PROCFACTOR語句的選項ROTATE=VARIMAX(或R=V)表示對因子載荷陣進(jìn)行方差最大正交旋轉(zhuǎn),選項N=3指定公因子個數(shù)m=3.procfactordata=d832rotate=varimaxn=3;varx1-x8;run;66第八章§8.4方差最大的正交旋轉(zhuǎn)
應(yīng)用例子8.4.2(8.3.2的繼續(xù))的輸出結(jié)果
正交變換陣方差最大正交旋轉(zhuǎn)后的因子載荷陣A67第八章§8.4方差最大的正交旋轉(zhuǎn)
應(yīng)用例子8.4.2(8.3.2的繼續(xù))的輸出結(jié)果
變量X1的共同度h12=0.944830=(0.95501)2+(0.12507)2+(-0.13094)2每個公因子解釋的方差,與旋轉(zhuǎn)前稍有些差異.三個公因子估計的總方差7.166754=3.206521+2.217780+1,74245368第八章§8.4方差最大的正交旋轉(zhuǎn)
應(yīng)用例子8.4.2(8.3.2的繼續(xù))的結(jié)果分析
從方差最大正交旋轉(zhuǎn)后的因子載荷陣A中可見,每個因子只有少數(shù)幾個指標(biāo)的因子載荷較大,因此可以由因子載荷陣A對指標(biāo)進(jìn)行分類。八項指標(biāo)按高載荷可以分三類:第一個因子在指標(biāo)X1,X3,X8上有較大的載荷,這些是從GDP,固定資產(chǎn)投資,工業(yè)總產(chǎn)值這三個方面反映經(jīng)濟(jì)發(fā)展?fàn)顩r的,因此命名為總量因子;
69第八章§8.4方差最大的正交旋轉(zhuǎn)
應(yīng)用例子8.4.2(8.3.2的繼續(xù))的結(jié)果分析
第二個因子在指標(biāo)X2,X4,X5上有較大的載荷,這些是從居民消費(fèi)水平,職工平均工資和貨物周轉(zhuǎn)量這三個方面反映經(jīng)濟(jì)發(fā)展?fàn)顩r的,因此命名為消費(fèi)因子;
第三個因子在指標(biāo)X6和X7上有較大的載荷,這些是從居民消費(fèi)價格指數(shù)和商品零售價格指數(shù)這二個方面反映經(jīng)濟(jì)發(fā)展?fàn)顩r的,因此命名為價格因子;
70第八章§8.5因子得分
我們已經(jīng)討論了如何從樣本協(xié)差陣或相關(guān)陣R出發(fā),來獲得公共因子和因子載荷陣,并給出公共因子的實際背景,當(dāng)我們一旦獲得公共因子和因子載荷陣以后,我們應(yīng)當(dāng)反過來考察每一個樣品的公共因子的估計,即所謂的因子得分,因子得分可用于模型的診斷,也可作進(jìn)一步分析的原始數(shù)據(jù).
但請注意,因子得分的計算并不是通常意義下的參數(shù)估計,而是對不可觀測的隨機(jī)向量F(公共因子)取值的估計.71第八章§8.5因子得分
最小二乘法
設(shè)X具有因子模型(不妨設(shè)μ=0)
X=AF+ε
假定因子載荷陣A已知,由A和X來估計F,使得達(dá)最小值
-2A’X+2A’AF=0可得F的估計為:=X’X-2X’AF+F’A’AF72第八章§8.5因子得分
最小二乘法
就是因子得分的最小二乘估計.
對樣品X(i),因子得分值為如果我們用主成分法估計因子載荷陣A,那么在計算因子得分的估計時,通常用最小二乘法.此時A’A=diag(λ1,λ2,…,λm)73第八章§8.5因子得分
最小二乘法
公因子得分向量為:74第八章§8.5因子得分
最小二乘法
對樣品X(i),代入公因子向量F,相應(yīng)的因子得分為因子得分陣F為:其中zij就是主成分得分^75第八章§8.5因子得分
最小二乘法
對照第七章介紹的樣本主成分,可以看到,第i個樣品的因子得分F(i)和樣本主成分得分Z(i)的對應(yīng)分量僅相差一個常數(shù):^76第八章§8.5因子得分
加權(quán)最小二乘法
設(shè)X具有正交因子模型(不妨設(shè)μ=0)
X=AF+ε
假定因子載荷陣A和特殊方差已知,而把特殊因子ε
看作誤差.因Var(εi)=σi2(
i=1,...,p)一般不相等.于是我們用加權(quán)最小二乘法估計公共因子F的值.
用誤差方差的倒數(shù)作為權(quán)數(shù)的誤差平方和77第八章§8.5因子得分
加權(quán)最小二乘法
(8.5.1)式中,A,D已知,X為可觀測的值也是已知的,求F的估計值.(8.5.1)令(由附錄矩陣微商的(8.2)和(8.3)式)78第八章§8.5因子得分
加權(quán)最小二乘法
這就是因子得分的加權(quán)最小二乘估計.(8.5.2)可得到F的估計值:79第八章§8.5因子得分
加權(quán)最小二乘法與最大似然估計
若假定X~Np(AF,D),X的似然函數(shù)的對數(shù)為
L(F)=-0.5(X-AF)′D-1(X-AF)-0.5Ln|2D|由此可得F的極大似然估計仍為(8.5.2)式,這個估計也稱為巴特萊特因子得分.
實際問題中,A,D未知,自然的作法是將它們的某種估計代入(8.5.2),對樣品X(i),因子得分值為80第八章§8.5因子得分
回歸法
在因子模型中,我們也可以反過來將公共因子表示為變量的線性組合,即用
Fj=βj1X1+…+βjpXp(j=1,…,m)(8.5.3)來計算每個樣品的公因子得分.(8.5.3)式稱為因子得分函數(shù).以下用回歸法給出(8.5.3)式中組合系數(shù)βij的估計bij.
假設(shè)變量X為標(biāo)準(zhǔn)化變量,公因子F也已標(biāo)準(zhǔn)化.在最小二乘意義下對因子得分函數(shù)進(jìn)行估計,并記建立的公因子F對變量X的回歸方程為(8.5.4)81第八章§8.5因子得分
回歸法
下面來估計(8.5.4)中的回歸系數(shù)bj1,bj2,…,bjp.
這是多對多的回歸問題.但Fj的值是不可觀測的,為求bij我們利用由樣本得到的因子載荷陣A=(aij).對公共因子Fj,由因子載荷的意義:即
(8.5.5)82第八章§8.5因子得分
回歸法
其中記83第八章§8.5因子得分
回歸法
則有于是利用回歸方法所建立的公因子F對變量X的回歸方程為84第八章§8.5因子得分
回歸法
由于(8.5.3)式中方程的個數(shù)m小于變量個數(shù)p,因此只能在最小二乘意義下對因子得分進(jìn)行估計.
以上利用回歸分析方法所建立的公因子F對變量X的回歸方程為
F=A′R-1X(8.5.6)(8.5.6)式中R為樣本相關(guān)陣.
由樣本值計算相關(guān)陣R,并估計因子載荷A,代入(8.5.6)式,即得因子得分函數(shù)F的計算公式.
此方法是由湯姆森(Thompson)提出來的,所得因子得分在文獻(xiàn)上常稱為湯姆森因子得分.^85第八章§8.5因子得分
回歸法與Bayes統(tǒng)計思想
此估計也可以從Bayes統(tǒng)計的思想來求得.
在因子模型X=AF+ε中,假設(shè)F和ε服從正態(tài)分布.若F有一先驗分布為Nm(0,Im),當(dāng)給定F時,X的條件分布為Np(AF,D).下面用Bayes統(tǒng)計的典型手法可求得當(dāng)X給定時F的條件分布(即后驗分布)仍為正態(tài)分布。已知86第八章§8.5因子得分
回歸法與Bayes統(tǒng)計思想
當(dāng)X給定時F的條件分布仍為正態(tài)分布。且條件期望為E(F|X)=A'(AA'+D)-1X稱條件期望E(F|X)=A'(AA'+D)-1X為F對X的回歸。
當(dāng)X=X(j)(j=1,…,n)得因子得分
Fj=A'(AA'+D)-1X(j)因子得分函數(shù)有表達(dá)式:^87第八章§8.5因子得分
回歸法與Bayes統(tǒng)計思想
用樣本值可以計算樣本協(xié)差陣作為Σ的估計,因子載荷陣的估計仍記為A.于是因子得分的計算公式為當(dāng)變量X為標(biāo)準(zhǔn)化變量時,樣本協(xié)差陣S就是樣本相關(guān)陣R.故有F=A′R-1X^88第八章§8.5因子得分
兩種估計法的比較
以上兩種估計法得到的因子得分在A、D滿足約束條件:A′D-1A=對角形,且對角元素很小時,兩種估計方法得出的因子得分幾乎相等。若從無偏性考慮,第一種估計是無偏的,而湯姆森因子得分(回歸估計)是有偏的。若從平均預(yù)報誤差考慮,第二種估計(湯姆森因子得分)有較小的平均預(yù)報誤差。這兩種估計到底哪一種好,長期以來一直有爭論,至今尚未有定論。89第八章§8.5因子得分
應(yīng)用例子8.5.2(8.4.2的繼續(xù))
在例8.4.2中,用回歸法求因子得分函數(shù),計算30個樣品的因子得分,并繪制第一和第二因子得分的散布圖。
解
在以下SAS程序中,PROCFACTOR語句的選項SCORE要求打印因子得分系數(shù)。選項OUT=O852要求把因子得分值存放到輸出SAS數(shù)據(jù)集O852中。PRINT過程打印輸出集O852中的三個因子得分向量。PLOT過程繪制第二因子得分對第一因子得分的散布圖。90第八章§8.5因子得分
應(yīng)用例子8.5.2(8.4.2的繼續(xù))
procfactordata=d832rotate=vscoren=3out=o852;varx1-x8;run;procprintdata=o852;varfactor1factor2factor3;run;procplotdata=o852;plotfactor2*factor1$n=′*′/href=0vref=0;run;91第八章§8.5因子得分
應(yīng)用例子8.5.2(8.4.2的繼續(xù))的輸出結(jié)果
用回歸法得到的因子得分系數(shù)把30個樣品的觀測值代入以上因子得分函數(shù),即得樣品的因子得分(見下面).由因子得分系數(shù)可以寫出三個因子得分函數(shù)92第八章§8.5因子得分
應(yīng)用例子8.5.2(8.4.2的繼續(xù))的輸出結(jié)果
30個樣品的因子得分(m=3)93第八章§8.5因子得分
應(yīng)用例子8.5.2(8.4.2的繼續(xù))的輸出結(jié)果30個樣品第一,二因子的因子得分的散點圖94第八章§8.6Q型因子分析
根據(jù)研究對象的不同,因子分析可分為R型和Q型兩種.當(dāng)研究對象是變量時,屬于R型因子分析,前幾節(jié)討論的都是以變量作為研究對象,在樣品的基礎(chǔ)上研究變量之間的相關(guān)關(guān)系.而變量之間的相互關(guān)系表現(xiàn)在原始數(shù)據(jù)矩陣的列之間,由相關(guān)陣或協(xié)差陣出發(fā),研究變量的相關(guān)關(guān)系.
當(dāng)研究對象是樣品時,屬于Q型因子分析,它是在變量的基礎(chǔ)上研究樣品之間的相互關(guān)系.而樣品之間的相互關(guān)系則表現(xiàn)在原始數(shù)據(jù)矩陣的行之間.因此進(jìn)行Q型因子分析時只需把在R型因子分析中的變量和樣品的作用調(diào)換過來,其余處理方法是一致的.95第八章§8.6Q型因子分析
在進(jìn)行R型因子分析時,變量間的相互關(guān)系我們常用相關(guān)系數(shù)來描述.
在進(jìn)行Q型因子分析時,應(yīng)當(dāng)選擇樣品間合適的相似性度量.一般用相似系數(shù)(即夾角余弦)作為樣品間相似性的度量.
設(shè)X(i)=(xi1,…,xip)’
X(j)=(xj1,…,xjp)’
是兩個樣品向量,它們夾角的余弦為:96第八章§8.6Q型因子分析
兩樣品向量的夾角余弦反映了這兩個樣品中各變量的觀測值之間的比例關(guān)系.稱為相似系數(shù),相似系數(shù)矩陣Q=(qij)為n×n階方陣,其中qij=Cos<X(i),
X(j)>,
進(jìn)行Q型因子分析時,計算Q的特征值,特征向量,一般n較大,(n>>p).直接計算Q的特征值,特征向量比較困難(如超出計算機(jī)內(nèi)存,或花費(fèi)太多的機(jī)時等).解決的方法是利用線性代數(shù)的結(jié)論:Z’Z和ZZ’有相同的非零特征值,對應(yīng)的特征向量也有一定的關(guān)系.由此得出一種雙重型的因子分析方法--對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度呈現(xiàn)大全員工管理篇
- 七年級英語Writingatouristguide課件
- 《電潛泵管理》課件
- 3.10 建設(shè)中國特色社會主義 課時練習(xí)-2021-2022學(xué)年部編版八年級歷史下冊
- 讓CAR-T細(xì)胞治療更精準(zhǔn)為CAR-T開發(fā)提供綜合性方案
- 《全球化與管理》課件
- 三年級科學(xué)教學(xué)工作計劃(9篇)
- 化工銷售工作總結(jié)
- 能源行業(yè)員工福利體系構(gòu)建
- 2023年項目部安全培訓(xùn)考試題答案滿分必刷
- 《預(yù)測與決策教程第2版》(習(xí)題解答)機(jī)工版
- GT 42456-2023 工業(yè)自動化和控制系統(tǒng)信息安全 IACS組件的安全技術(shù)要求
- 服裝色彩搭配智慧樹知到期末考試答案2024年
- 自動扶梯事故應(yīng)急處置預(yù)案
- 招生人員培訓(xùn)課件
- 2023-2024學(xué)年深圳市羅湖區(qū)七年級(上)期末考試 英語 試題(解析版)
- 中國陰離子交換膜行業(yè)調(diào)研分析報告2024年
- 醫(yī)美行業(yè)監(jiān)管政策與競爭環(huán)境
- 2024年02月湖北武漢市公安局招考聘用輔警267人筆試歷年高頻考題(難、易錯點薈萃)答案帶詳解附后
- 房屋移交的時間和方式
- 北京市西城區(qū)2022-2023學(xué)年七年級(上)期末數(shù)學(xué)試卷(人教版 含答案)
評論
0/150
提交評論