統(tǒng)計學(xué)典型相關(guān)分析.ppt_第1頁
統(tǒng)計學(xué)典型相關(guān)分析.ppt_第2頁
統(tǒng)計學(xué)典型相關(guān)分析.ppt_第3頁
統(tǒng)計學(xué)典型相關(guān)分析.ppt_第4頁
統(tǒng)計學(xué)典型相關(guān)分析.ppt_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計學(xué),從數(shù)據(jù)到結(jié)論,第十三章 典型相關(guān)分析,13.1兩組變量的相關(guān)問題,我們知道如何衡量兩個變量之間是否相關(guān)的問題;這是一個簡單的公式就可以解決的問題(Pearson相關(guān)系數(shù)、 Kendalls t、 Spearman 秩相關(guān)系數(shù))。公式 如果我們有兩組變量,如何能夠表明它們之間的關(guān)系呢?,例子(數(shù)據(jù)tv.txt),業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點有什么樣的關(guān)系呢?該數(shù)據(jù)是不同的人群對30個電視節(jié)目所作的平均評分。 觀眾評分來自低學(xué)歷(led)、高學(xué)歷(hed)和網(wǎng)絡(luò)(net)調(diào)查三種,它們形成第一組變量; 而業(yè)內(nèi)人士分評分來自包括演員和導(dǎo)演在內(nèi)的藝術(shù)家(arti)、發(fā)行(com)與業(yè)內(nèi)

2、各部門主管(man)三種,形成第二組變量。人們對這樣兩組變量之間的關(guān)系感到興趣。,尋找代表,如直接對這六個變量的相關(guān)進(jìn)行兩兩分析,很難得到關(guān)于這兩組變量之間關(guān)系的一個清楚的印象。 希望能夠把多個變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān)。 現(xiàn)在的問題是為每一組變量選取一個綜合變量作為代表; 而一組變量最簡單的綜合形式就是該組變量的線性組合。,13.2 典型相關(guān)分析,由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。 典型相關(guān)分析(canonical correlation analysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由

3、線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。,典型變量,假定兩組變量為X1,X2,Xp和Y1,Y2,Yq,那么,問題就在于要尋找系數(shù)a1,a2,ap和b1,b2,bq,和使得新的綜合變量(亦稱為典型變量(canonical variable)),之間的相關(guān)關(guān)系最大。這種相關(guān)關(guān)系是用典型相關(guān)系數(shù)(canonical correlation coefficient)來衡量的。,典型相關(guān)系數(shù),這里所涉及的主要的數(shù)學(xué)工具還是矩陣的特征值和特征向量問題。而所得的特征值與V和W的典型相關(guān)系數(shù)有直接聯(lián)系。 由于特征值問題的特點,實際上找到的是多組典型變量(V1, W1), (V2, W2),

4、,其中V1和W1最相關(guān),而V2和W2次之等等,,典型相關(guān)系數(shù),而且V1, V2, V3,之間及而且W1, W2, W3,之間互不相關(guān)。這樣又出現(xiàn)了選擇多少組典型變量(V, W)的問題了。實際上,只要選擇特征值累積總貢獻(xiàn)占主要部分的那些即可。 軟件還會輸出一些檢驗結(jié)果;于是只要選擇顯著的那些(V, W)。 對實際問題,還要看選取的(V, W)是否有意義,是否能夠說明問題才行。至于得到(V, W)的計算,則很簡單,下面就tv.txt數(shù)據(jù)進(jìn)行分析。數(shù)學(xué)原理?,計算結(jié)果,第一個表為判斷這兩組變量相關(guān)性的若干檢驗,包括Pillai跡檢驗,Hotelling-Lawley跡檢驗,Wilks l檢驗和Roy

5、的最大根檢驗;它們都是有兩個自由度的F檢驗。該表給出了每個檢驗的F值,兩個自由度和p值(均為0.000)。,計算結(jié)果,下面一個表給出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累積百分比(Cum. Pct)和典型相關(guān)系數(shù)(Canon Cor)及其平方(Sq. Cor)??磥?,頭兩對典型變量(V, W)的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關(guān)系數(shù)也都在0.95之上。,計算結(jié)果,對于眾多的計算機輸出挑出一些來介紹。下面表格給出的是第一組變量相應(yīng)于上面三個特征根的三個典型變量V1、V2和V3的系數(shù),即典型系數(shù)(canonical coefficient)。注意,S

6、PSS把第一組變量稱為因變量(dependent variables),而把第二組稱為協(xié)變量(covariates);顯然,這兩組變量是完全對稱的。這種命名僅僅是為了敘述方便。 這些系數(shù)以兩種方式給出;一種是沒有標(biāo)準(zhǔn)化的原始變量的線性組合的典型系數(shù)(raw canonical coefficient),一種是標(biāo)準(zhǔn)化之后的典型系數(shù)(standardized canonical coefficient)。標(biāo)準(zhǔn)化的典型系數(shù)直觀上對典型變量的構(gòu)成給人以更加清楚的印象。,可以看出,頭一個典型變量V1相應(yīng)于前面第一個(也是最重要的)特征值,主要代表高學(xué)歷變量hed;而相應(yīng)于前面第二個(次要的)特征值的第二

7、個典型變量V2主要代表低學(xué)歷變量led和部分的網(wǎng)民變量net,但高學(xué)歷變量在這里起負(fù)面作用。,計算結(jié)果,類似地,也可以得到被稱為協(xié)變量(covariate)的標(biāo)準(zhǔn)化的第二組變量的相應(yīng)于頭三個特征值得三個典型變量W1、W2和W2的系數(shù): 。,例子結(jié)論,從這兩個表中可以看出,V1主要和變量hed相關(guān),而V2主要和led及net相關(guān);W1主要和變量arti及man相關(guān),而W2主要和com相關(guān);這和它們的典型系數(shù)是一致的。 由于V1和W1最相關(guān),這說明V1所代表的高學(xué)歷觀眾和W1所主要代表的藝術(shù)家(arti)及各部門經(jīng)理(man)觀點相關(guān);而由于V2和W2也相關(guān),這說明V2所代表的低學(xué)歷(led)及以

8、年輕人為主的網(wǎng)民(net)觀眾和W2所主要代表的看重經(jīng)濟效益的發(fā)行人(com)觀點相關(guān),但遠(yuǎn)遠(yuǎn)不如V1和W1的相關(guān)那么顯著(根據(jù)特征值的貢獻(xiàn)率)。,SPSS的實現(xiàn),對例tv.sav,首先打開例14.1的SPSS數(shù)據(jù)tv.sav, 通過FileNewSyntax打開一個空白文件(默認(rèn)文件名為Syntax1.sps),再在其中鍵入下面命令行: MANOVA led hed net WITH arti com man /DISCRIM ALL ALPHA(1) /PRINT=SIG(EIGEN DIM). 再點擊一個向右的三角形圖標(biāo)(運行目前程序,Run current),就可以得到所需結(jié)果了。 還

9、可以把Syntax1.sps另以其他名字(比如tv.sps)存入一個文件夾。下次使用時就可以通過FileOpenSyntax來打開這個文件了。,SPSS的實現(xiàn),注意1:典型相關(guān)分析是本書內(nèi)容中唯一不能用SPSS的點擊鼠標(biāo)的“傻瓜”方式,而必須用寫入程序行來運行的模型。讀者不必要再去研究語法的細(xì)節(jié),只要能夠舉一反三,套用這個例子的程序即可。 當(dāng)然,如果讀者愿意學(xué)習(xí)SPSS的語法,則在處理數(shù)據(jù)時,肯定會更方便。,SPSS的實現(xiàn),注意2:一些SPSS的輸出很長,這時輸出窗口截去了一些內(nèi)容沒有顯示(這有些隨意性)。這時輸出窗口(SPSS Viewer)中結(jié)果的左下角有一個紅色的三角型。 如果想要看全部

10、內(nèi)容,可以先點擊鼠標(biāo)左鍵,選中輸出結(jié)果,然后從點右鍵得到的菜單中選擇Export,就可以把全部結(jié)果(包括截去的部分)存入一個htm形式的文件了供研究和打印之用。,附錄,兩個變量時,用線性相關(guān)系數(shù)研究兩個變量之間的線性相關(guān)性:,返回,典型相關(guān)分析,目的:研究多個變量之間的相關(guān)性 方法:利用主成分思想,可以把多個變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān). 即找一組系數(shù)(向量)l和m, 使新變量U=lX(1)和V=mX(2)有最大可能的相關(guān)關(guān)系.,數(shù)學(xué): 設(shè)兩組隨機變量,而,的協(xié)方差陣S0,均值向量m=0, S的剖分為:,對于前面的新變量U=lX(1)和V=mX(2) Var(U)=Var(l

11、X(1) )=lS11l Var(V)=Var(mX(2) )=mS22m Cov(U,V)=lS12m, rUV=lS12m/(lS11l)(mS22m) 我們試圖在約束條件Var(U)=1, Var(V)=1下尋求 l和m使rUV= Cov(U,V)=lS12m達(dá)到最大.,這是Lagrange乘數(shù)法求下面f的極大值,經(jīng)過求偏導(dǎo)數(shù)和解方程, 得到l=n=lS12m=Cov(U,V), 及,因此l2既是A又是B的特征值, 而相應(yīng)的特征向量為l,m,可得到p1對線性組合Ui=l(i)X(1), Vi=m(i)X(2),稱每一對變量為典型變量. 其極大值 稱為第一典型相關(guān)系數(shù). 一般只取前幾個影響

12、大的典型變量和典型相關(guān)系數(shù)來分析.,A和B的特征根有如下性質(zhì): (1)A和B有相同的非零特征根, (2)其數(shù)目為p1. A和B的特征根非負(fù). (3) A和B的特征根均在0和1之間. 我們表示這些稱為典型相關(guān)系數(shù)的非零特征值和相應(yīng)的特征向量為,典型變量的性質(zhì): (1)X(1)和X(2)中的一切典型變量都不相關(guān). (2) X(1)和X(2)的同一對典型變量Ui和Vi之間的相關(guān)系數(shù)為li, 不同對的Ui和Vj(ij)之間不相關(guān). 樣本情況, 只要把S用樣本協(xié)差陣或樣本相關(guān)陣R代替. 下面回到我們的例子。,典型相關(guān)系數(shù)的顯著性檢驗: 首先看X(1)和X(2)是否相關(guān),如不相關(guān), 就不必討論.如果,這是

13、為檢驗第1個典型相關(guān)系數(shù)的顯著性 檢驗統(tǒng)計量為,其中 為 的特征根.,如果H0為檢驗第r(rk)個典型相關(guān)系數(shù)的顯著性,檢驗統(tǒng)計量為,當(dāng)然在實際例子中一般并不知道S。因此在只有樣本數(shù)據(jù)的情況下, 只要把S用樣本協(xié)差陣或樣本相關(guān)陣代替就行了。但是這時的特征根可能不在0和1的范圍,因此會出現(xiàn)軟件輸出中的特征根(比如大于1)不等于相關(guān)系數(shù)的平方的情況,這時,各種軟件會給出調(diào)整后的相關(guān)系數(shù)。,典型相關(guān)和回歸分析的關(guān)系 把X(1)和X(2)換成回歸中的X和Y, 這就是因變量和自變量之間的相關(guān)問題. 而Y在X上的投影,就是回歸了.,統(tǒng)計學(xué),從數(shù)據(jù)到結(jié)論,第十四章 對應(yīng)分析,行和列變量的相關(guān)問題,在因子分析

14、中,或者只對變量(列中的變量)進(jìn)行分析,或者只對樣品(觀測值或行中的變量)進(jìn)行分析;而且利用載荷圖來描述各個變量之間的接近程度。 典型相關(guān)分析也只研究列中兩組變量之間的關(guān)系。,行和列變量的相關(guān)問題,然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系; 這就是因子分析等方法所沒有說明的了。先看一個例子。,例子(數(shù)據(jù)ChMath.txt ),為了考察漢字具有的抽象圖形符號的特性能否會促進(jìn)兒童空間和抽象思維能力。該數(shù)據(jù)以列聯(lián)表形式展示在表中: 在研究讀寫漢字能力與數(shù)學(xué)的關(guān)系的研究時,人們?nèi)〉昧?32個美國亞裔學(xué)生的數(shù)學(xué)成績和漢字讀寫能力的數(shù)據(jù)。,例子(數(shù)據(jù)Ch

15、Math.txt ),該數(shù)據(jù)關(guān)于漢字讀寫能力的變量有三個水平: “純漢字”意味著可以完全自由使用純漢字讀寫, “半漢字”意味著讀寫中只有部分漢字(比如日文), 而“純英文”意味著只能夠讀寫英文而不會漢字。而數(shù)學(xué)成績有4個水平(A、B、C、D)。,人們可以對這個列聯(lián)表進(jìn)行前面所說的c2檢驗來考察行變量和列變量是否獨立。結(jié)果在下面表中(通過AnalyzeDescriptive StatisticsCrosstabs),所有的檢驗都很顯著,看來兩個變量的確不獨立。,對應(yīng)分析,但是如何用象因子分析的載荷圖那樣的直觀方法來展示這兩個變量各個水平之間的關(guān)系呢?這就是對應(yīng)分析(correspondence

16、analysis)方法。 對應(yīng)分析方法被普遍認(rèn)為是探索性數(shù)據(jù)分析的內(nèi)容,因此,讀者只要能夠會用數(shù)據(jù)畫出描述性的點圖,并能夠理解圖中包含的信息即可。,對應(yīng)分析,處理列聯(lián)表的問題僅僅是對應(yīng)分析的一個特例。一般地, 對應(yīng)分析常規(guī)地處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有如在主成分分析、因子分析、聚類分析等時所處理的數(shù)據(jù)形式。,對應(yīng)分析,在對應(yīng)分析中,根據(jù)各行變量的因子載荷和各列變量的因子載荷之間的關(guān)系,行因子載荷和列因子載荷之間可以兩兩配對。 如果對每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點圖。 由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,

17、并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。,對應(yīng)分析,由于列聯(lián)表數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對應(yīng)分析的數(shù)學(xué)方法來研究行變量各個水平和列變量各個水平之間的關(guān)系; 雖然對不同數(shù)據(jù)類型所產(chǎn)生結(jié)果的解釋有所不同,數(shù)學(xué)的原理是一樣的。下面通過對ChMath.txt數(shù)據(jù)的計算和結(jié)果分析來介紹對應(yīng)分析。,首先看對應(yīng)分析結(jié)果的一個主要SPSS展示,然后再解釋該圖的來源和解釋。,運用純漢字的點和最好的數(shù)學(xué)成績A最接近,而不會漢字只會英文的點與最差的數(shù)學(xué)成績F(或者D,雖然在縱坐標(biāo)稍有差距)最接近,而用部分漢字的和數(shù)學(xué)成績B接近。,對應(yīng)分析的數(shù)學(xué)原理是什么?,結(jié)果解釋,根據(jù)SPSS對

18、數(shù)據(jù)ChMath.sav的計算,得到一些表格。 其中第一個就是下面的各維的匯總表。這里所涉及的是行與列因子載荷之間的關(guān)系;選擇行和列變量的顯著的因子載荷的標(biāo)準(zhǔn)是一樣的。選擇多少就涉及幾維。為了畫出散點圖,就至少要選擇兩維了。,表中的術(shù)語,Inertia慣量, 為每一維到其重心的加權(quán)距離的平方。它度量行列關(guān)系的強度。 Singular Value奇異值(是慣量的平方根),反映了是行與列各水平在二維圖中分量的相關(guān)程度,是對行與列進(jìn)行因子分析產(chǎn)生的新的綜合變量的典型相關(guān)系數(shù)。 Chi Square就是關(guān)于列聯(lián)表行列獨立性c2檢驗的c2統(tǒng)計量的值,和前面表中的相同。其后面的Sig為在行列獨立的零假設(shè)下

19、的p-值,注釋表明自由度為(4-1)(3-1)=6,Sig.值很小說明列聯(lián)表的行與列之間有較強的相關(guān)性。 Proportion of Inertia慣量比例,是各維度(公因子)分別解釋總慣量的比例及累計百分比,類似于因子分析中公因子解釋能力的說明。,解釋,從該表可以看出,由于第一維的慣量比例占了總比例的93.9%,因此,其他維的重要性可以忽略(雖然畫圖時需要兩維,但主要看第一維橫坐標(biāo))。 在SPSS的輸出中還有另外兩個表分別給出了畫圖中兩套散點圖所需要的兩套坐標(biāo)。,解釋,該表給出了圖中三個漢字使用點的坐標(biāo):純漢字(-.897,-.240),半漢字(.102,.491),純英文(.970,-.3

20、38),以及四個數(shù)學(xué)成績點的坐標(biāo):數(shù)學(xué)A(-.693,-.345),數(shù)學(xué)B(-.340,.438),數(shù)學(xué)C(.928,.203),數(shù)學(xué)C(1.140,-.479)。 兩表中的概念不必記;其中Mass為行與列的邊緣概率;Score in Dimension是各維度的分值 (二維圖中的坐標(biāo));Inertia:就是前面所提到的慣量,為每一行/列到其重心的加權(quán)距離的平方。,SPSS的實現(xiàn),打開ChMath.sav數(shù)據(jù),其形式和本章開始的列聯(lián)表有些不同。其中ch列代表漢字使用的三個水平;而math列代表數(shù)學(xué)成績的四個水平;第一列count實際上是ch和math兩個變量各個水平組合的出現(xiàn)數(shù)目,也就是列聯(lián)表中間的數(shù)目。 由于count把很大的本應(yīng)有232行的原始數(shù)據(jù)簡化成只有12行的匯總數(shù)據(jù),在進(jìn)行計算之前必須進(jìn)行加權(quán)。也就是點擊圖標(biāo)中的小天平,再按照count加權(quán)即可。,SPSS的實現(xiàn),加權(quán)之后,選擇AnalyzeData ReductionCorrespondence Analysis, 然后把“漢字使用”選入Row(行),再點擊Define Range來定義其范圍為1(Minimum value

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論