




已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第七章 典型相關(guān)與對應(yīng)分析,7.1 典型相關(guān)分析 7.2 對應(yīng)分析,7.1 典型相關(guān)分析 7.1.1 典型相關(guān)分析的概念與步驟 7.1.2 用INSIGHT模塊實現(xiàn)典型相關(guān)分析 7.1.3 用“分析家”實現(xiàn)典型相關(guān)分析 7.1.4 用CANCORR過程實現(xiàn)典型相關(guān)分析,7.1.1 典型相關(guān)分析的概念與步驟 1. 典型相關(guān)分析的基本思想 典型相關(guān)分析采用主成分的思想濃縮信息,根據(jù)變量間的相關(guān)關(guān)系,尋找少數(shù)幾對綜合變量(實際觀測變量的線性組合),用它們替代原始觀測變量,從而將二組變量的關(guān)系集中到少數(shù)幾對綜合變量的關(guān)系上,通過對這些綜合變量之間相關(guān)性的分析,回答兩組原始變量間相關(guān)性的問題。除了要求所提取的綜合變量所含的信息量盡可能大以外,提取時還要求第一對綜合變量間的相關(guān)性最大,第二對次之,依次類推。,這些綜合變量被稱為典型變量,或典則變量,第1對典型變量間的相關(guān)系數(shù)則被稱為第1典型相關(guān)系數(shù)。典型相關(guān)系數(shù)能簡單、完整地描述兩組變量間關(guān)系的指標(biāo)。當(dāng)兩個變量組均只有一個變量時,典型相關(guān)系數(shù)即為簡單相關(guān)系數(shù);當(dāng)其中的一組只有一個變量時,典型相關(guān)系數(shù)即為復(fù)相關(guān)系數(shù)。,2. 典型相關(guān)系數(shù)與典型相關(guān)變量 設(shè)X = (X1,X2,Xp),Y = (Y1,Y2,Yq)是兩個隨機向量。利用主成分思想尋找第i對典型相關(guān)變量(Ui,Vi): Ui = ai1X1 + ai2X2 + + aipXp = aiX Vi = bi1Y1 + bi2Y2 + + biqYq = biY i = 1,2,m = min(p,q);稱ai和bi為(第i對)典型變量系數(shù)或典型權(quán)重。,記第一對典型相關(guān)變量間的典型相關(guān)系數(shù)為: CanR1 = Corr(U1,V1)(使U1與V1間最大相關(guān)); 第二對典型相關(guān)變量間的典型相關(guān)系數(shù)為: CanR2 = Corr(U2,V2)(與U1、V1無關(guān);使U2與V2間最大相關(guān)) 第m對典型相關(guān)變量間的典型相關(guān)系數(shù)為: CanRm = Corr(Um,Vm)(與U1,V1,Um1,Vm1無關(guān);Um與Vm間最大相關(guān)),3. 典型相關(guān)變量的性質(zhì) 各對典型相關(guān)變量所包括的相關(guān)信息互不交叉,且滿足: 1) U1,U2,Um互不相關(guān),V1,V2,Vm互不相關(guān),即其相關(guān)系數(shù)為,2) 同一對典型相關(guān)變量Ui和Vi之間的相關(guān)系數(shù)為CanRi,不同對的典型相關(guān)變量之間互不相關(guān),即: 3) Ui和Vi的均值為0,方差為1(i = 1,m)。 4) 1 CanR1 CanR2 CanRm 0,4. 典型相關(guān)系數(shù)的求解步驟 1) 求X,Y變量組的相關(guān)陣 R = ; 2) 求矩陣 A = (R11)1R12(R22)1R21 和 B = (R22)1R21(R11)1R12, 可以證明A、B有相同的非零特征值; 3) 求A或B的特征值i與CanRi,A或B的特征值即為典型相關(guān)系數(shù)的平方:i = (CanRi)2,i = 1,m。,4) 求A、B關(guān)于i的特征向量。設(shè)ai為A關(guān)于i的特征向量,bi為B關(guān)于i的特征向量,則ai和bi為(第i對)典型變量系數(shù)。即第i對典型相關(guān)變量(Ui,Vi): Ui = aiX* = ai1X1* + ai2X2* + + aipXp* Vi = biY* = bi1Y1* + bi2Y2* + + biqYq* i = 1,2,m = min(p,q);其中X*,Y*為原變量組的標(biāo)準(zhǔn)化。,5. 特征根 特征根(eigenvalue)是方差分析和多元檢驗的基礎(chǔ),特征根與典型相關(guān)系數(shù)之間的數(shù)量關(guān)系為: 上式可以理解為第i對典型變量表示觀測變量總方差作用的指標(biāo),它的值越大說明表示作用越大。,6. 典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤 7. 典型相關(guān)系數(shù)的假設(shè)檢驗 典型相關(guān)系數(shù)的假設(shè)檢驗包括對全部總體典型相關(guān)系數(shù)的檢驗和對部分總體典型相關(guān)系數(shù)的檢驗。對數(shù)據(jù)的要求: 1) 兩個變量組均應(yīng)服從多維正態(tài)分布: (X,Y)Np+q(,2) 2) n p + q,(1) 全部總體典型相關(guān)系數(shù)為0 H0:CanRi = 0,i = 1,m H1:至少有一個CanRi 0 檢驗的似然比統(tǒng)計量為 對于充分大的n,當(dāng)H0成立時,統(tǒng)計量 近似服從自由度為pq的2分布。,(2) 部分總體典型相關(guān)系數(shù)為0 僅對較小的典型相關(guān)作檢驗: H0:CanRi = 0,i = s,m,2 s m H1:至少有一個CanRi 0 其檢驗的統(tǒng)計量為 對于充分大的n,當(dāng)H0成立時,統(tǒng)計量 近似服從自由度為(p k)(q k)的2分布。,7.1.2 用INSIGHT模塊實現(xiàn)典型相關(guān)分析 1. 實例 【例7-1】1985年中國28省市城市男生(1922歲)的調(diào)查數(shù)據(jù),見表7-1。其中6項形態(tài)指標(biāo):身高(cm)、坐高、體重(kg)、胸圍、肩寬、盆骨寬,分別記為x1,x2,x6;5項機能指標(biāo):脈搏(次/分)、收縮壓(mmHg)、舒張壓(變音)、舒張壓(消音)、肺活量(ml),分別記為y1,y2,y5。,表7-1 城市男生(1922歲)形態(tài)與機能調(diào)查數(shù)據(jù) 設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.xtyjn中,試分析形態(tài)指標(biāo)和機能指標(biāo)這兩組變量間的相關(guān)性。,2. 分析設(shè)置 在INSIGHT模塊中打開數(shù)據(jù)集Mylib.xtyjn。 1) 選擇菜單“Analyze”“Multivariate(Y X)(多元分析)”,打開“Multivariate(Y X)”對話框; 2) 將6項形態(tài)指標(biāo):x1至 x6選為X變量,將5項機能指標(biāo): y1至 y5選為Y變量,如圖7-1左所示。,3) 單擊“Output”按鈕,在打開的對話框中選中“Canonical Correlation Analysis(典型相關(guān)分析)”復(fù)選框,單擊下面的“Canonical Correlation Options(典型相關(guān)選項)”按鈕,打開“Canonical Correlation Options”對話框, 并按下圖右所示設(shè)置。 4) 三次單擊“OK”按鈕,得到分析結(jié)果。,3. 結(jié)果分析 (1) 典型相關(guān)系數(shù) 第1典型相關(guān)系數(shù)為0.939573,校正值為0.908276,標(biāo)準(zhǔn)誤差為0.026207,典型相關(guān)系數(shù)的平方為0.882797;第2典型相關(guān)系數(shù)為0.877842,校正值為0.842459,標(biāo)準(zhǔn)誤差為0.051294,典型相關(guān)系數(shù)的平方為0.770606,如圖所示。 前兩個典型相關(guān)系數(shù)比形態(tài)指標(biāo)和機能指標(biāo)兩組間的任何一個相關(guān)系數(shù)都大。,(2) 典型變量所解釋的變異 第二部分是的5個特征根(Eigenvalues),包括:特征根、相鄰兩個特征根之差、特征根所占方差信息量的比例和累積方差信息量的比例。從中可以看出,前兩對典型變量所能解釋的變異占總變異(方差)的91.18%,如圖7-4所示。其它三個典型相關(guān)變量的作用很小,一共只解釋了總變異的9%,可以不予考慮。,(3) 典型相關(guān)系數(shù)的檢驗 用似然比法檢驗典型相關(guān)系數(shù)與零的差別是否顯著,其原假設(shè)為小于此對典型變量典型相關(guān)系數(shù)的所有典型相關(guān)系數(shù)都為0,其p值依次為0.0010,0.0509和0.5089等等,如圖7-5所示,說明前兩對典型相關(guān)系數(shù)基本具有顯著意義(在 0.0509的顯著水平下)。因此,兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究前兩對典型相關(guān)變量的相關(guān)性。,(4) 典型相關(guān)結(jié)構(gòu) 典型相關(guān)結(jié)構(gòu)(下圖)分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣。從相關(guān)系數(shù)判斷,形態(tài)指標(biāo)中除x5(0.0514)、x6(0.2433)外各變量與第一典型變量間的相關(guān)性都比較高,機能指標(biāo)中除y2(0.0975)外各變量與第一典型變量間的相關(guān)性也都比較高。 x5與第二典型變量間的相關(guān)性比較高,y2與第二典型變量間的相關(guān)性比較高。 y1與前兩個典型變量的相關(guān)系數(shù)為負(fù)值。,說明,第一對典型變量對肩寬x5和收縮壓y2的解釋作用不大。 另外,從形態(tài)指標(biāo)組的變量和機能指標(biāo)組的典型變量之間,以及機能指標(biāo)組的變量和形態(tài)指標(biāo)組的典型變量之間的相關(guān)系數(shù)可見,各組變量與前兩對典型變量之間均有較強的相關(guān)。,(5) 標(biāo)準(zhǔn)化變量的典型相關(guān)變量的系數(shù) 輸出結(jié)果中還給出標(biāo)準(zhǔn)化變量的典型變量系數(shù),如圖所示。 來自機能指標(biāo)的第一典型變量CY1為(原始變量的右上角帶“*”表示為標(biāo)準(zhǔn)化變量): CY1 = 0.071672y1* 0.789642y2* + 0.567178y3*+ 0.508332y4*+ 0.533496y5* 容易看出,CY1主要代表了舒張壓變音、舒張壓消音、肺活量等指標(biāo)。,來自形態(tài)指標(biāo)的第一典型變量CX1為: CX1 = 0.4287x1* 0.09696x2* 0.16210x3* + 0.93745x4* + 0.23498x5* 0.18696x6* 易知,CX1主要代表了胸圍、身高和肩寬等指標(biāo)。 關(guān)于第二典型變量有: CY2 = 0.026533y1* + 1.213436y2* 0.535038y3* 0.186048y4*+ 0.455870y5* CX2 = 0.70270x1* 0.39985x2* + 0.84359x3* 0.99063x4* 0.06829x5* + 0.48310x6* 可見,CY2代表了收縮壓和肺活量等指標(biāo);CX2代表了身高、體重、盆骨寬等指標(biāo)。,(6) 典型冗余分析 典型冗余分析(canonical redundancy analysis)表明,兩對典型變量仍不能全面預(yù)測配對的那組變量。來自形態(tài)指標(biāo)的標(biāo)準(zhǔn)方差被對方兩個典型變量(CY1、CY2)解釋的累積方差比例為55.86%,來自機能指標(biāo)的標(biāo)準(zhǔn)方差被對方兩個典型變量(CX1、CX2)解釋的累積方差比例為44.61%,如圖所示。,7.1.3 用“分析家”實現(xiàn)典型相關(guān)分析 1. 實例 【例7-2】某康復(fù)俱樂部對20名中年人測量了3項生理指標(biāo):體重(weight)、腰圍(waist)、脈搏(pulse)和3項運動指標(biāo):引體向上(chins)、起坐次數(shù)(situps)、跳躍次數(shù)(jumps)。其數(shù)據(jù)列于表7-2中。,表7-2 某康復(fù)俱樂部測量的生理指標(biāo)和運動指標(biāo) 設(shè)表中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.slzb中,試分析生理指標(biāo)和運動指標(biāo)這兩組變量間的相關(guān)性。,2. 分析設(shè)置 1) 在“分析家”中打開數(shù)據(jù)集Mylib.slzb; 2) 選擇菜單“Statistics(統(tǒng)計)”“Multivariate(多元分析)”“Canonical Correlation(典型相關(guān)分析)”,打開“Canonical Correlation”對話框; 3) 在對話框中將生理指標(biāo)選為Set1,運動指標(biāo)選為Set2,如圖所示。,4) 單擊“Statistics(統(tǒng)計)”按鈕,打開“Canonical Correlation:Statistics”對話框; 選中“Canonical redundancy statistics”復(fù)選框,并選擇3個典型變量,如圖所示。兩次單擊“OK”按鈕,得到計算結(jié)果。,3. 結(jié)果分析 (1) 典型相關(guān)系數(shù)及顯著性檢驗 第一部分的4列依次是:典型相關(guān)系數(shù)、校正的典型相關(guān)系數(shù)、近似的標(biāo)準(zhǔn)誤以及典型相關(guān)系數(shù)的平方。從圖7-10中可以看出,本例提取了3個典型相關(guān)系數(shù),第一個典型相關(guān)系數(shù)CanR1 = 0.795608,其校正值為0.754056,標(biāo)準(zhǔn)誤為0.084197,CanR12 = 0.632992,第一典型相關(guān)系數(shù)表示的是第一對典型相關(guān)變量之間的相關(guān)性。第二個典型相關(guān)系數(shù)為0.200556,第三個為0.072570。,第二部分是特征根以及相應(yīng)的統(tǒng)計量,如圖所示。 可以看出,第一對典型變量所能解釋的變異已占總變異的97.34%,其它兩個典型相關(guān)變量的作用很小,一共只解釋了總變異的3%,可以不予考慮。 右邊4列給出對典型相關(guān)系數(shù)的檢驗,結(jié)果表明,第一行的F值2.05,p值為0.0635,在0.07的檢驗水平下,應(yīng)拒絕原假設(shè),認(rèn)為第一相關(guān)系數(shù)以及比它小的兩個相關(guān)系數(shù)不為0;后兩行檢驗的p值都遠(yuǎn)大于顯著水平0.05,故可以認(rèn)為只有第一個典型相關(guān)系數(shù)不為0。,第三部分輸出的是用四種多元統(tǒng)計方法進(jìn)行的所有典型相關(guān)系數(shù)均為0的F檢驗結(jié)果,如圖所示。四種方法中一般參照Wilks Lambda檢驗的結(jié)果。本例中的Wilks Lambda檢驗結(jié)果與前述完全一致,表明至少有一個典型相關(guān)系數(shù)在 = 0.0635的顯著水平下非0。,(2) 典型變量系數(shù)與典型結(jié)構(gòu) 第四部分給出的是用原始變量表達(dá)的典型變量系數(shù)(典型權(quán)重),如圖所示。 因6個變量沒有使用相同單位進(jìn)行測量,因此考慮分析標(biāo)準(zhǔn)化后的系數(shù)。,第五部分給出的是用標(biāo)準(zhǔn)化變量(對原始變量標(biāo)準(zhǔn)化)表達(dá)的典型變量系數(shù),如圖所示。 V1 = 0.7754 weight*+1.5793 waist* 0.0591 pulse* 它近似地是waist*和weight*的加權(quán)差,在waist*上權(quán)重更大些。V1在pulse*上系數(shù)近似為0。 W1 = 0.3495 chins* 1.0540 situps* + 0.7164 jumps* 它在situps*上的系數(shù)最大。這一對典型變量主要是反映waist*和situps*的負(fù)相關(guān)關(guān)系。,第六部分為典型結(jié)構(gòu),分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣,如圖所示。可以看出: 在原始變量與本組的典型變量的相關(guān)關(guān)系(典型載荷)中,生理指標(biāo)的典型變量V1與腰圍waist的相關(guān)系數(shù)最大(0.9254),說明這個典型變量主要反映人的肥胖程度;運動指標(biāo)的典型變量W1與起坐次數(shù)situps和引體向上次數(shù)chins有較大的負(fù)相關(guān)關(guān)系(-0.7276,-0.8177),說明這個典型變量主要反映人不適合運動的程度。,在原始變量與配對組的典型變量的相關(guān)關(guān)系(典型交叉載荷)的分析結(jié)果中,腰圍waist與運動指標(biāo)的第1典型變量W1的相關(guān)性較強,這也說明了腰圍大(體形較胖)則運動能力差;起坐次數(shù)和引體向上與生理指標(biāo)的第1典型變量V1呈一定的負(fù)相關(guān)系數(shù),說明人的體形肥胖程度對這兩種運動能力有負(fù)面影響。,(3) 典型冗余分析 第七部分給出典型冗余分析的結(jié)果 上圖是變量的原始方差通過它的典型變量和配對的典型變量所解釋的方差比例。,下圖是變量的標(biāo)準(zhǔn)化方差通過它的典型變量和配對的典型變量所解釋的方差比例。 圖中看出,生理指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是45.08,而被對方第一個典型變量W1解釋的方差比例為28.54%,其比值28.54/45.08= 0.6330恰為CanR2。運動指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是40.81,而被對方個典型變量V1解釋的方差比例為25.84%,其比值也是0.6330。,第八部分給出各原始變量和配對組的典型變量間的復(fù)相關(guān)系數(shù)(Multiple Correlations)的平方(圖7-18),即原始變量與典型變量的判定系數(shù),如weight與第1典型變量W1的相關(guān)系數(shù)為0.4938(見圖7-15),則其復(fù)相關(guān)系數(shù)平方為0.49382 = 0.2438。,由復(fù)相關(guān)系數(shù)的平方可看出,生理指標(biāo)的第一典型變量W1對chins(0.3351)和situps(0.4233)有一定解釋能力,但對jumps(0.0167)幾乎沒有解釋能力。而來自運動指標(biāo)的第一典型變量V1對waist(0.5421)有相當(dāng)好的解釋能力,對weight(0.2438)較差,而對pulse(0.0701)幾乎沒有解釋能力。其中,運動指標(biāo)的第一典型變量對生理指標(biāo)中的腰圍指標(biāo)解釋能力最強,可以說明運動對體形影響較大,加強體育鍛煉可以減肥。,7.1.4 用CANCORR過程實現(xiàn)典型相關(guān)分析 1. CANCORR過程 CANCORR過程的常用語法格式如下: PROC CANCORR ; WITH ; VAR ; RUN; 其中PROC CANCORR語句、WITH語句是每個過程中必不可少的,其余語句可視情況使用。,下面分別介紹各語句的用法和功能。 (1) PROC CANCORR語句:標(biāo)示典型相關(guān)分析開始,可以規(guī)定輸入輸出數(shù)據(jù)集,指定分析方法和控制輸出結(jié)果的顯示等。語句中可設(shè)置的常用選項及其功能見表7-3。 (2) VAR語句:列出要進(jìn)行典型相關(guān)分析的第一組變量,變量必須是數(shù)值型的。如果VAR語句被忽略,所有未被其他語句提到的數(shù)值型變量都將被視為第一組變量。 (3) WITH語句:列出要進(jìn)行典型相關(guān)分析的第二組變量,變量必須是數(shù)值型的。該語句是每一個PROC CANCORR中必不可少的。,表7-3 常用選項及其功能,2. 使用CANCORR過程 【例7-3】家庭特征與家庭消費之間的關(guān)系。為了了解家庭的特征與其消費模式之間的關(guān)系。調(diào)查了70個家庭的下面兩組變量: x1:每年去餐館就餐的頻率,x2:每年外出看電影的頻率; y1:戶主的年齡,y2:家庭的年收入,y3:戶主受教育程度。,試分析兩組變量之間的關(guān)系。假定變量的相關(guān)系數(shù)陣如表所示。,如下代碼,利用變量的相關(guān)系數(shù)矩陣作典型相關(guān)分析: DATA jt(TYPE=CORR); INPUT NAME $ 1-2 (X1 X2 Y1-Y3) (6.); CARDS; X1 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 Y1 0.26 0.33 1.00 0.37 0.21 Y2 0.67 0.59 0.37 1.00 0.35 Y3 0.34 0.34 0.21 0.35 1.00 ; PROC CANCORR EDF=70 REDUNDANCY; VAR X1 X2; WITH Y1-Y3; RUN;,說明: 1) 在數(shù)據(jù)集名jt后用TYPE = CORR表明數(shù)據(jù)的類型為相關(guān)矩陣,而不是原始數(shù)據(jù)。 2) INPUT語句中用“NAME $”讀取左側(cè)的變量名,“1-2”表示變量名的字符落在第1、2列上,“(X1 X2 Y1-Y4)”表示各列數(shù)據(jù)所對應(yīng)的變量名,“(6.)”表示讀取數(shù)據(jù)的寬度均為6列,其中相關(guān)系數(shù)占4位,其后的空格占2位;,3) 選擇項EDF = n 1,為典型相關(guān)分析提供一個計算誤差自由度的參考值,因為該過程中沒有合適的選擇項可以將原始數(shù)據(jù)的樣本含量n準(zhǔn)確地送入。如果忽略這一選擇項,將以缺省值n = 10000作為樣本含量參與有關(guān)計算和統(tǒng)計檢驗,顯然不妥; 4) 選項REDUNDANCY表示輸出典型冗余分析的結(jié)果。,3. 結(jié)果分析 (1) 典型相關(guān)系數(shù)及顯著性檢驗 第一部分的4列依次是:典型相關(guān)系數(shù)、校正的典型相關(guān)系數(shù)、近似的標(biāo)準(zhǔn)誤以及典型決定系數(shù)(典型相關(guān)系數(shù)的平方)。從中可以看出,本例提取了2個典型相關(guān)系數(shù),第一個典型相關(guān)系數(shù)CanR1 = 0.687948,其校正值為0.673671,標(biāo)準(zhǔn)誤為0.062956,CanR12 = 0.473272;第二個典型相關(guān)系數(shù)為0.186865。,第二部分是特征根以及相應(yīng)的統(tǒng)計量,從中可以看出,第一對典型變量所能解釋的變異已占總變異的96.13%,另一對典型相關(guān)變量的作用很小,只解釋了總變異的3.87%,可以不予考慮。 右邊4列給出對典型相關(guān)系數(shù)的檢驗,具體采用似然比法,所求的似然比統(tǒng)計量近似服從F分布。第一行檢驗的是第一相關(guān)系數(shù)以及比它小的兩個相關(guān)系數(shù)是否為0,第一行的F值8.86,p值0.0001。后一行檢驗的p值遠(yuǎn)大于置信水平0.05,故可以認(rèn)為只有第一個典型相關(guān)系數(shù)有統(tǒng)計學(xué)意義。,第三部分(圖7-21)輸出的是按照多元分析的原理進(jìn)行的所有典型相關(guān)系數(shù)是否為0的檢驗,四種方法中一般參照Wilks Lambda檢驗的結(jié)果。本例中4種方法的檢驗結(jié)果與前述完全一致。,(2) 典型變量系數(shù)與典型結(jié)構(gòu) 第四部分(圖左)給出的是用原始變量表達(dá)的典型變量系數(shù)??紤]標(biāo)準(zhǔn)化后的系數(shù),即第五部分(圖右)給出的典型變量和標(biāo)準(zhǔn)化變量(對原始變量標(biāo)準(zhǔn)化)間的換算公式。由于使用原始變量的相關(guān)系數(shù)陣作為輸入數(shù)據(jù),所以這兩部分相同。,來自消費模式指標(biāo)的第一典型變量V1為(原始變量的右上角帶“*”表示為標(biāo)準(zhǔn)化變量): V1 = 0.7689 x1*+0.2721 x2* 它是x1*(每年去餐館就餐的頻率)和x2*(每年外出看電影的頻率)的加權(quán)和,在x1*上的權(quán)重更大些。 來自家庭特征指標(biāo)的第一典型變量W1為: W1 = 0.0491 y1* + 0.8975 y2* + 0.1900 y3* 它在y2*(家庭的年收入)上的系數(shù)最大。這一對典型變量主要是反映x1*(每年去餐館就餐的頻率)和y2*(家庭的年收入)的相關(guān)關(guān)系。,第六部分(圖7-24)為典型相關(guān)結(jié)構(gòu),分別是各組原始變量與典型變量兩兩之間的相關(guān)系數(shù)矩陣。,可以看出:x1和x2與第1典型變量V1的相關(guān)系數(shù)皆為正值,分別為0.9866和0.8872,可見V1可以作為消費特性的指標(biāo)。 家庭特征指標(biāo)的所有變量與第1典型變量W1的相關(guān)系數(shù)分別為:0.4211,0.9822和0.5145,可見典型變量W1主要代表了了家庭收入。 V1和W1的典型相關(guān)系數(shù)為0.6879,這就說明家庭的消費與一個家庭的收入之間其關(guān)系是很密切的。,第二對典型變量中V2與x2的相關(guān)系數(shù)為0.4614,可以看出V2可以作為文化消費特性的指標(biāo),第二對典型變量中W2與y1和y3之間的分別相關(guān)系數(shù)為0.8464和0.3013,可見典型變量W2主要代表了家庭成員的年齡特征和教育程度,V2和W2的相關(guān)系數(shù)為0.1869,說明文化消費與年齡和受教育程度之間有一定關(guān)系。,(3) 典型冗余分析 第七部分給出典型冗余分析的結(jié)果(圖7-25、7-26),由于本例是對相關(guān)系數(shù)矩陣作分析故兩個結(jié)果相同。 兩對典型變量解釋配對變量組方差的累計比例分別為42.08%和23.157%。,消費指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是88.03,而被對方第一個典型變量W1解釋的方差比例為41.66%,其比值41.66% / 88.03 = 0.4733恰為Can R2(Canonical R-Square),通過它的第二個典型變量解釋的共享方差的比例是11.97,被對方第二個典型變量W2解釋的方差比例為0.42%,其比值為0.0349。家庭特征指標(biāo)通過它的第一個典型變量解釋的共享方差的比例是46.89,而被對方第一個典型變量V1解釋的方差比例為22.19%,通過它的第二個典型變量解釋的共享方差的比例是27.31,而被對方第二個典型變量V2解釋的方差比例為0.95%。,第八部分給出各原始變量和配對組的典型變量間的復(fù)相關(guān)系數(shù)(Multiple Correlations)的平方,即原始變量與典型變量的判定系數(shù),如x1與第1典型變量W1的相關(guān)系數(shù)為0.6787,則其判定系數(shù)為0.67872 = 0.4607。 由復(fù)相關(guān)系數(shù)的平方可看出,消費指標(biāo)的典型變量V1對y2(0.4566)有一些預(yù)測能力,但對y1(0.0839)和y3(0.1253)有微弱的預(yù)測能力。而來自家庭特征指標(biāo)的典型變量W1對x1(0.4607)和x2(0.3725)有較好的預(yù)測能力。,7.2 對應(yīng)分析 7.2.1 對應(yīng)分析的基本概念 7.2.2 使用CORRESP過程實現(xiàn)對應(yīng)分析,7.2.1 對應(yīng)分析的基本概念 1. 對應(yīng)分析的方法概述 對應(yīng)分析,也稱相應(yīng)分析,它是尋求樣品(行)與變量(列)之間聯(lián)系的低維圖示法。其關(guān)鍵是利用一種數(shù)據(jù)變換方法,使含有n個樣品m個變量的原始數(shù)據(jù)矩陣 變成另一個矩陣 , 并使SR = ZZ(分析變量之間關(guān)系的協(xié)方差矩陣)與SQ = ZZ(分析樣品之間關(guān)系的協(xié)方差矩陣)具有相同的非零特征根,它們相應(yīng)的特征向量之間也有密切的關(guān)系。,對協(xié)方差矩陣SR、SQ進(jìn)行因子分析,分別提取兩個最重要的公因子R1、R2與Q1、Q2。由于采取的是一種特殊變換方法,公因子R1與Q1在本質(zhì)上是相同的,同理,R2與Q2在本質(zhì)上也是相同的,故可用dim1作為R1、Q1的統(tǒng)一標(biāo)志,用dim2作為R2、Q2的統(tǒng)一標(biāo)志。于是可將(R1,Q1)和(R2,Q2)兩組數(shù)據(jù)點畫在由(dim2,dim2)組成的同一個直角坐標(biāo)系中,這樣,便于考察變量與樣品之間的相互關(guān)系。,2. 對應(yīng)分析的步驟 設(shè)原始數(shù)據(jù)矩陣X = (xij)nm,i = 1, 2,n(n為樣品數(shù));j =1,2,m(m為變量數(shù))。 1) 計算過渡矩陣Z = (zij)nm: (1) 其中,Xi.為第i行的合計、X.j為第j列的合計、X為全部數(shù)據(jù)的合計。,2) 對SR = ZZ作因子分析。 計算協(xié)差陣SR = ZZ的特征值(又稱為慣量)1 2 m,按其累積百分比 取前p個特征值(主慣量),通常p取2。并計算相應(yīng)的單位特征向量u1,u2,從而得到因子載荷陣: 在兩因子軸平面上作變量點圖。,3) 對SQ = ZZ作因子分析。 對上述2個特征值計算SQ中相應(yīng)的單位特征向量v1 = Zu1,v2 = Zu2,從而得到因子載荷陣: 在上述因子平面上作樣品點圖。 說明:對應(yīng)分析的提出最初是為了研究兩個或多個屬性變量之間的相關(guān)關(guān)系,即用于列聯(lián)表(參見第9章)數(shù)據(jù)的分析。此時行變量的各個水平相當(dāng)于各個樣品,列變量的各個水平相當(dāng)于不同的變量。,7.2.2 使用CORRESP過程實現(xiàn)對應(yīng)分析 1. CORRESP過程 PROC CORRESP : VAR ; TABLES ,; ID ; RUN; 其中的PROC CORRESP語句、TABLES語句或者VAR語句是必須使用的,除了這兩個語句,其他語句都是可以選擇的,下面分別介紹各語句的用法和功能。,(1) PROC CORRESP語句 標(biāo)示對應(yīng)分析開始,可以規(guī)定輸入輸出數(shù)據(jù)集,指定分析方法和控制輸出結(jié)果的顯示等。語句中可設(shè)置的常用選項及其功能見表7-5。 (2) VAR語句 輸入數(shù)據(jù)為表格格式時使用,不能與TABLES同時使用。變量必須是數(shù)值型的。 (3) ID語句 ID語句只能與VAR語句一起使用,如果使用了TABLES或者M(jìn)CA選項,就不能使用該語句。該語句只能規(guī)定一個字符變量。自動用ID語句的變量值作為輸出表格列的標(biāo)簽,并且保存在輸出數(shù)據(jù)集中。,(4) TABLES語句 TABLES語句用行變量和列變量構(gòu)造一個列聯(lián)表,行變量和列變量之間用逗號分隔。不可與ID和VAR語句同時使用。,2. 對二維列聯(lián)表數(shù)據(jù)的對應(yīng)分析 【例7-4】調(diào)查了三個民族的血型分布資料如表7-6所示,試作對應(yīng)分析。 表7-6 三個民族不同血型出現(xiàn)的頻數(shù) 假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.xx中。,(1) SAS代碼 對應(yīng)分析的代碼如下: proc corresp data = Mylib.xx out = result; var DZ WZ TJZ; id Type; run; options ps = 40; proc plot data=result; plot dim2*dim1=“*“$Type/ box haxis=-0.2 to 0.3 by 0.1 vaxis=-0.1 to 0.3 by 0.1 HREF=0 VREF=0; run;,(2) 主要輸出結(jié)果及其解釋 1) 慣量與卡方分解 圖7-28的第一列為Z的奇異值,最有用的是第2列(主慣量),即矩陣SR = ZZ的特征值。原始數(shù)據(jù)有4行3列,這里提取2個特征值,即可完全解釋數(shù)據(jù)的信息量。第一個特征值解釋了信息量的78.07%,第二個特征值解釋了21.93%,前兩個特征值的累積貢獻(xiàn)率已達(dá)100%,以第一維度為主。 自由度 = (變量數(shù) 1) (樣品數(shù) 1) = 6。,2) 樣品點坐標(biāo),如圖7-29所示。相當(dāng)于因子分析中的公因子載荷,表示“樣品”在公因子Dim1和Dim2上的坐標(biāo)。 其結(jié)果可表示為 血型A = 0.1918Dim1 0.0706Dim2 血型B = 0.1283Dim1 + 0.0303Dim2 血型O = 0.1582Dim1 0.0201Dim2 血型AB = 0.1941Dim1 + 0.2528Dim2 在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi),每個樣品就是1個點,如血型A點的坐標(biāo)為( 0.1918, 0.0706)。顯然,血型A在第3象限內(nèi),血型B在第1象限內(nèi),血型O在第4象限內(nèi),血型AB在第2象限內(nèi)。,3) 樣品點的匯總統(tǒng)計量,如圖7-30所示。Quality為每個變量上兩個公因子貢獻(xiàn)率(樣品點的余弦平方值中各行數(shù)值)之和(),若此值接近于1,則表明對應(yīng)的樣品點所包含的信息由兩個公因子就可很好地反映出來;Mass為原始數(shù)據(jù)中各列數(shù)據(jù)之和占總合計的百分比();Inertia為每個樣品對總特征值0.03599貢獻(xiàn)的百分比(),由此列數(shù)值可看出,A、O、AB三種血型貢獻(xiàn)的百分比比較接近。,4) 樣品點局部慣量貢獻(xiàn),如圖7-31所示。A型血對第1公因子貢獻(xiàn)最大;AB型血對第2公因子貢獻(xiàn)最大。 5) 對樣品點慣量貢獻(xiàn)最大的坐標(biāo)標(biāo)號,這是各樣品的坐標(biāo)對特征值貢獻(xiàn)最多的標(biāo)志,貢獻(xiàn)少、中、多依次用0、1、2來表示,如圖7-32所示。,6) 樣品點的余弦平方值,如圖7-33所示。為每個樣品點上兩個公因子各自的貢獻(xiàn)率,各行數(shù)值之和應(yīng)近似為1,因為用兩個公因子已經(jīng)表示所有的信息,故各行之和均為1。由各行數(shù)值可看出:除了AB型之外,其他三個血型的信息主要由第1公因子給出,而AB型的信息則主要由第2個公因子來反映。 以上對樣品的統(tǒng)計又對變量作了一遍,結(jié)果如下: 7) 變量點坐標(biāo)與變量點的匯總統(tǒng)計量,如圖所示。,在以dim1與dim2作為橫軸與縱軸的直角坐標(biāo)系內(nèi),每個變量也是1個點。傣族位于第一象限中,佤族位于第二象限中,土家族位于第三象限中。4個點(變量)中任何兩點之間的歐氏距離如下: 顯然,佤族與土家族之間的距離最短,傣族與佤族之間的距離最長,說明這2個民族在血型的出現(xiàn)頻率上具有較高的正相關(guān)關(guān)系。,8) 變量點局部慣量貢獻(xiàn),如圖左所示,圖左上半部分是每個變量對公因子的貢獻(xiàn)率(),各列數(shù)值之和為1。顯然,傣族對第1公因子貢獻(xiàn)最大;其他兩個民族對第2公因子貢獻(xiàn)較大。 9) 變量點的余弦平方值,如圖右所示。表示公因子對變量的貢獻(xiàn)率。第一公因子主要影響傣族和佤族,分別貢獻(xiàn)了95.28%和75.79,而第二公因子主要影響土家族,貢獻(xiàn)率為86.76%。,(3) 分析結(jié)果 A型血對第1公因子貢獻(xiàn)最大;AB型血對第2公因子貢獻(xiàn)最大。它們的點所對應(yīng)的坐標(biāo)(dim1,dim2)分別為: A( 0.1918, 0.0706),AB( 0.1941,0.2528);,每個分類在坐標(biāo)系中分得很開。佤族和AB型血同在第二象限,而且兩個點在Dim1上差別很小,說明兩者有聯(lián)系;而土家族和A型血同在第三象限,傣族和B型血同在第一象限,在Dim1上差別很小,如圖所示。,說明:對應(yīng)分析的輸出結(jié)果有很多,最主要的是看第一部分中各個維度以及各個維度解釋的百分比,樣品點及變量點的坐標(biāo)。 對圖形的輸出結(jié)果首先要看兩個方向的區(qū)分情況,如三個民族在第一維度上分得很開,區(qū)分很好,而血型則在第二維度上區(qū)分較好。但由于第一維度攜帶了近80%的信息量,遠(yuǎn)大于第二維度,所以解釋以第一維度為主。 還可以比較各個點在空間的分布情況,距離較近的點彼此有聯(lián)系,散點間的距離越近,說明關(guān)聯(lián)的傾向越明顯。,3. 類別數(shù)較多的例子 【例7-5】疾病與人的基因型密切有關(guān),而不同民族各種基因出現(xiàn)的頻率不盡相同。下面是某研究者收集到的資料,試分析各種基因頻率與民族之間的關(guān)系。各民族下面的小數(shù)是36種基因出現(xiàn)的頻率。 表7-7 民族各種基因出現(xiàn)的頻率,(1) SAS代碼 設(shè)數(shù)據(jù)文件名為mzjy,位于邏輯庫Mylib中,對應(yīng)分析的代碼如下: options nodate nonumber ps = 500; proc corresp data = Mylib.mzjy out = result; var z n y h; id jy; run; options ps = 50; proc plot data=result; plot dim2*dim1=“*“$jy/ box haxis=-1.1 to 1.1 by 0.2 vaxis=-1.0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理病房管理
- 盜血綜合征的護(hù)理措施
- 珠寶店管理層培訓(xùn)心得
- 巧設(shè)問題情境 點燃思維火花
- 人員培訓(xùn)定人定崗分層管理
- 員工基礎(chǔ)技能培訓(xùn)
- 呼吸內(nèi)科體格檢查
- 水利設(shè)施測繪成果保密與工程管理合同
- 創(chuàng)新型餐飲企業(yè)勞動合同規(guī)范模板
- 非洲勞務(wù)派遣與醫(yī)療援助合同
- 語文核心素養(yǎng)的培育智慧樹知到期末考試答案2024年
- MOOC 區(qū)塊鏈技術(shù)與應(yīng)用-西南交通大學(xué) 中國大學(xué)慕課答案
- 九三學(xué)社申請入社人員簡歷表
- 7.2 理解父母學(xué)會感恩(高效教案)-【中職專用】中職思想政治《心理健康與職業(yè)生涯》(高教版2023·基礎(chǔ)模塊)
- 高級護(hù)理實踐智慧樹知到期末考試答案2024年
- 印刷采購服務(wù)整體供貨實施方案
- 慢性阻塞性肺疾病診治指南通用課件
- 學(xué)校食堂食品安全事故應(yīng)急處置知識培訓(xùn)課件
- 《鋼筋及焊接件》課件
- 山東大學(xué)2022-2023學(xué)年第二學(xué)期高等數(shù)學(xué)Ⅰ(下)期末統(tǒng)考試題及答案解析
- 展示體驗建筑設(shè)計中英文對照外文翻譯文獻(xiàn)
評論
0/150
提交評論