典型相關(guān)分析方法研究_第1頁
典型相關(guān)分析方法研究_第2頁
典型相關(guān)分析方法研究_第3頁
典型相關(guān)分析方法研究_第4頁
典型相關(guān)分析方法研究_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、典型相關(guān)分析方法研究 摘要:典型相關(guān)分析是研究兩組變量(或兩個(gè)隨機(jī)向量)之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。與僅研究二個(gè)變量間線性關(guān)系的簡單相關(guān)分析相比,典型相關(guān)分析能揭示出兩組變量之間的內(nèi)在聯(lián)系,且兩組變量的數(shù)目可以改變,這確定了它的重要性。隨著計(jì)算機(jī)技術(shù)的發(fā)展,典型相關(guān)分析在各個(gè)行業(yè)試驗(yàn)研究中應(yīng)用日漸廣泛。本文主要介紹典型相關(guān)分析的基本原理與步驟并舉例說明其應(yīng)用。 關(guān)鍵詞:典型相關(guān)分析;基本原理;步驟;應(yīng)用 Abstract:Canonical correlation analysis is the study of two groups of variables (or two random

2、vectors) a statistical method the relationship between the. Compared with only the simple correlation analysis of linear relationship between two variables and canonical correlation analysis can reveal the internal relations between two sets of variables, and the number of two groups of variables ca

3、n change, this determines the importance of it. With the development of computer technology, the canonical correlation analysis system has been widely used in various industries in experimental study. This paper mainly introduces the basic principle and procedure of canonical correlation analysis an

4、d examples of its application. Key words:Canonical correlation analysis; basic principle; step; application一、引言典型相關(guān)分析(Canonical Correlation Analysis 簡稱CCA)是處理兩個(gè)隨機(jī)矢量之間相關(guān)性的統(tǒng)計(jì)方法,在多元統(tǒng)計(jì)分析中占有非常重要的地位。典型相關(guān)分析可有效反映兩組統(tǒng)計(jì)數(shù)據(jù)之間的關(guān)系,有著重要的應(yīng)用背景1。在實(shí)際分析問題中,當(dāng)我們面臨兩組多變量數(shù)據(jù),并希望研究兩組變量之間的關(guān)系時(shí),就要用到典型相關(guān)分析。 例如,為了研究擴(kuò)張性財(cái)政政策實(shí)施以后對宏觀經(jīng)濟(jì)

5、發(fā)展的影響,就需要考察有關(guān)財(cái)政政策的一系列指標(biāo)如財(cái)政支出總額的增長率、財(cái)政赤字增長率、國債發(fā)行額的增長率、稅率降低率等與經(jīng)濟(jì)發(fā)展的一系列指標(biāo)如國內(nèi)生產(chǎn)總值增長率、就業(yè)增長率、物價(jià)上漲率等兩組變量之間的相關(guān)程度。二、典型相關(guān)分析的國內(nèi)外研究現(xiàn)狀典型相關(guān)分析及其改進(jìn)算法已成功的應(yīng)用到計(jì)算機(jī)視覺、模式識(shí)別、電子通信、生物醫(yī)學(xué)、文本和圖像檢索和社會(huì)統(tǒng)計(jì)學(xué)等眾多學(xué)科或領(lǐng)域。很多學(xué)者都在從事這方面的研究,并取得了良好的效果。孫權(quán)森2等將典型相關(guān)分析應(yīng)用到特征融合中,利用典型相關(guān)分析達(dá)到了信息冗余的目的。陳拓3等利用典型相關(guān)分析方法來抑制主動(dòng)聲吶直達(dá)波干擾并取得了很好的效果。王磊4將多集典型相關(guān)分析用于雷達(dá)

6、輻射源指紋識(shí)別,與其他的方法相比具有更好的識(shí)別性能。張潔玉5結(jié)合廣義典型相關(guān)分析,提出一種新的仿射不變特征提取方法,且在視點(diǎn)變換圖形識(shí)別中得到很高的識(shí)別率。Kim6將張量典型相關(guān)分析應(yīng)用于判別特征選擇和動(dòng)作檢測,并取得很好的效果。Hwang7將多重集典型相關(guān)分析與主分量分析相結(jié)合,并將這種新方法應(yīng)用到功能神經(jīng)影像學(xué)中。Raul8提出一種新型正規(guī)化CCA方法,并將其應(yīng)用于NCL-60微小核糖核酸癌癥數(shù)據(jù),取得了更穩(wěn)定和更正確的結(jié)果。Wang9利用典型相關(guān)分析進(jìn)行多元回歸的收縮和選擇。隨著研究的深入,典型相關(guān)分析及其改進(jìn)算法的理論知識(shí)越來越完善,應(yīng)用的領(lǐng)域和學(xué)科越來越廣。三、典型相關(guān)分析的基本思想

7、典型相關(guān)分析是研究兩組變量間整體線性相關(guān)關(guān)系的多元統(tǒng)計(jì)方法,它借助于主成分分析的思想,對于每一組變量分別尋找線性組合,使生成的新綜合變量能代表原始變量大部分的信息,同時(shí)與另一組變量生成的新的綜合變量的相關(guān)程度最大,這樣的一組新的綜合變量稱為第一對典型相關(guān)變量,同樣的方法可以找到第二對、第三對,使各對典型相關(guān)變量之間不相關(guān),典型相關(guān)變量之間的簡單相關(guān)系數(shù)稱為典型相關(guān)系數(shù)10。四、典型相關(guān)的數(shù)學(xué)描述考慮兩組變量的向量 其協(xié)方差陣為 其中11是第一組變量的協(xié)方差矩陣11;22是第二組變量的協(xié)方差矩陣;是X 和Y 的協(xié)方差矩陣。如果我們記兩組變量的第一對線性組合為: 其中: 所以,典型相關(guān)分析就是求a

8、1和b1,使uv達(dá)到最大。五、典型相關(guān)系數(shù)和典型變量 1.求法在約束條件: 下,求a1和b1,使uv達(dá)到最大。根據(jù)數(shù)學(xué)分析中條件極值的求法,引入Lagrange乘數(shù),求極值問題,則可以轉(zhuǎn)化為求 的極大值,其中和v是 Lagrange乘數(shù)12。 將上面的3式分別左乘a1和b1 得 第一對典型變量提取了原始變量X與Y之間相關(guān)的主要部分,如果這部分還不能足以解釋原始變量,可以在剩余的相關(guān)中再求出第二對典型變量和他們的典型相關(guān)系數(shù)13。 在剩余的相關(guān)中再求出第二對典型變量和他們的典型相關(guān)系數(shù)。設(shè)第二對典型變量為: 在約束條件 求使 達(dá)到最大的a2和b22.典型變量的性質(zhì)(1)同一組變量的典型變量之間互

9、不相關(guān) 因?yàn)樘卣飨蛄恐g是正交的。故X組的典型變量之間是相互獨(dú)立的: Y組的典型變量之間是相互獨(dú)立的: (2) 不同組變量的典型變量之間的相關(guān)性 不同組內(nèi)一對典型變量之間的相關(guān)系數(shù)為: 同對相關(guān)系數(shù)為i,不同對則為零。3、 原始變量與典型變量之間的相關(guān)系數(shù)原始變量相關(guān)系數(shù)矩陣 X典、型變量系數(shù)矩陣 y典型變量系數(shù)矩陣 6、 典型相關(guān)分析適用性檢驗(yàn)和典型相關(guān)系數(shù)的顯著性檢驗(yàn) 典型相關(guān)分析是研究兩組變量之間相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,但是并非所有的截面數(shù)據(jù)都適合于典型相關(guān)分析。典型相關(guān)分析是在原始數(shù)據(jù)滿足一定條件和假設(shè)的前提下進(jìn)行的,這些條件包括原始變量要服從多元正態(tài)分布,樣本容量至少要大于原始變量個(gè)

10、數(shù),這些假設(shè)包括兩組變量之間要具有相關(guān)性,每組原始變量中能夠綜合出典型變量,即原始變量組內(nèi)要有一定的相關(guān)性等14。若這些條件和假設(shè)無法滿足,就不能進(jìn)行典型相關(guān)分析。所以,應(yīng)用典型相關(guān)分析時(shí),首先要對其適用性進(jìn)行檢驗(yàn)分析。1.原始變量組內(nèi)相關(guān)性檢驗(yàn)進(jìn)行典型相關(guān)分析時(shí),既要求原始變量組內(nèi)存在一定相關(guān)性,但是又不能存在高度的多重共線性。為此,典型相關(guān)分析適用性的檢驗(yàn),首先是從原始變量組內(nèi)相關(guān)性檢驗(yàn)開始的。具體包括:(1)原始變量組內(nèi)存在一定相關(guān)性的假設(shè)檢驗(yàn)。檢驗(yàn)的方法可以借鑒主成分分析適用性的檢驗(yàn)方法,運(yùn)用巴特萊特球性檢驗(yàn)來進(jìn)行。巴特萊特球性檢驗(yàn)是從原始數(shù)據(jù)整個(gè)相關(guān)矩陣出發(fā)進(jìn)行的檢驗(yàn),檢驗(yàn)的原假設(shè)是

11、相關(guān)矩陣為單位矩陣,如果不能拒絕原假設(shè),說明原始變量之間相互獨(dú)立,不適合進(jìn)行典型相關(guān)分析。事實(shí)上,如果原始數(shù)據(jù)的相關(guān)矩陣是一個(gè)單位矩陣,各個(gè)原始變量之間互不相關(guān),這時(shí)進(jìn)行典型相關(guān)分析,則得到和原始變量個(gè)數(shù)一樣的典型變量,而且典型變量就是各原始變量自身,顯然是不適合進(jìn)行典型相關(guān)分析的。(2)原始變量組內(nèi)變量高度多重共線性的檢驗(yàn)。典型相關(guān)分析要求原始變量組內(nèi)要存在一定的相關(guān)性,但同時(shí)又要求原始變量之間不能有高度的多重共線性,否則也將不能產(chǎn)生典型變量,導(dǎo)致不能進(jìn)行典型相關(guān)分析。檢驗(yàn)原始變量組內(nèi)是否存在高度的多重共線性,可以采用如下的檢驗(yàn)方法:可決系數(shù)和方差膨脹因子法15。對于每組變量,分別以其中的每

12、個(gè)變量為被解釋變量(因變量),其他變量為解釋變量做回歸,用R2j表示任意xj為被解釋變量,其他變量為解釋變量做線性回歸的可決系數(shù),由于R2j度量了xj與其他解釋變量的線性相關(guān)程度,這種相關(guān)程度越強(qiáng),說明變量間多重共線性越嚴(yán)重,反之,xj與其他變量的線性相關(guān)程度越弱,說明變量間的多重共線性越弱。病態(tài)指數(shù)法。根據(jù)矩陣行列式的性質(zhì),矩陣的行列式等于其特征根的連乘積。因而當(dāng)行列式|XX|0時(shí),矩陣XX至少有一個(gè)特征根近似于零。反之,可以證明,當(dāng)矩陣XX至少有一個(gè)特征根近似為零時(shí),X必存在多重共線性。多重共線性的程度常常用病態(tài)指數(shù)來衡量。 為特征根的病態(tài)指數(shù),其中,這里的Km是XX的最大特征根。病態(tài)指數(shù)

13、度量了矩陣XX的特征根散布程度,可以用來判斷多重共線性是否存在以及多重共線性的嚴(yán)重程度。一般認(rèn)為,0<CI<10時(shí),認(rèn)為X沒有多重共線性;10CI<100時(shí),認(rèn)為X存在較強(qiáng)的多重共線性;當(dāng)CI 100時(shí),則認(rèn)為存在嚴(yán)重的多重共線性。 除上述外,還可以根據(jù)簡單相關(guān)系數(shù)矩陣來判斷原始變量內(nèi)部是否存在嚴(yán)重多種共線性。一般而言,如果每兩個(gè)解釋變量的簡單相關(guān)系數(shù)比較高,如大于019,則可認(rèn)為存在著較嚴(yán)重的多重共線性。2.原始變量組間線性相關(guān)性檢驗(yàn) 典型相關(guān)分析中,原始變量總體Z中的兩組變量X,Y如果不相關(guān),即COV(X,Y)=212=0,則有關(guān)兩組變量典型相關(guān)的討論以及典型相

14、關(guān)系數(shù)的計(jì)算就毫無意義了。原始變量組間相關(guān)性檢驗(yàn),即是典型相關(guān)分析適用性的檢驗(yàn),同時(shí)又是對典型相關(guān)系數(shù)的整體檢驗(yàn)。所謂整體檢驗(yàn)是同時(shí)檢驗(yàn)所有的典型相關(guān)系數(shù)看是否有一個(gè)是顯著的。 3.典型相關(guān)系數(shù)的顯著性檢驗(yàn)計(jì)算典型相關(guān)系數(shù)是典型相關(guān)分析中最重要的環(huán)節(jié),但是并不是所有求出的典型相關(guān)系數(shù)都是顯著相關(guān)的,這就必須要對典型相關(guān)系數(shù)的顯著性進(jìn)行檢驗(yàn)。典型相關(guān)系數(shù)的本質(zhì)上是兩組原始變量中所提取的典型變量之間的相關(guān),并不是兩組原始變量之間的相關(guān),典型相關(guān)系數(shù)是有多個(gè)維度的。所以典型相關(guān)系數(shù)檢驗(yàn)采取的是維度遞減檢驗(yàn),即從第一個(gè)典型相關(guān)系數(shù)的顯著性檢驗(yàn)開始,然后是第二、第三,一直到所有的各典型相關(guān)系數(shù)的顯著性檢

15、驗(yàn)。這種維度遞減檢驗(yàn)實(shí)際是對部分總體典型相關(guān)系數(shù)為0的假設(shè)進(jìn)行檢驗(yàn),仍然是一種多元檢驗(yàn)。檢驗(yàn)的原假設(shè)是,H(r)0:Kr=0(r=2,3,m,m=min(p,q),備擇假設(shè)H1:至少一個(gè)典型相關(guān)系數(shù)。維度遞減檢驗(yàn)具體有兩種做法:一是采用巴特萊特大樣本的V2檢驗(yàn),一是采用近似的F檢驗(yàn)16。七、對典型變量代表性的檢驗(yàn)分析典型變量是由原始變量進(jìn)行綜合得到的,典型變量的代表性如何也關(guān)系著典型相關(guān)分析的效果好壞,因此還需要對典型變量代表性進(jìn)行檢驗(yàn)分析。典型變量代表性的檢驗(yàn)分析是通過典型變量與原始變量的相關(guān)程度以及一組典型變量代表另一組原始變量的能力來反映的。即通過計(jì)算X、Y變量組由自己的典型變量解釋與由

16、對方的典型變量解釋的方差百分比與累計(jì)百分比。8、 應(yīng)用舉例在這里我們舉例說明典型相關(guān)分析方法的應(yīng)用,我們根據(jù)調(diào)查數(shù)據(jù)來分析家庭特征與家庭消費(fèi)之間的關(guān)系。為了了解家庭的特征與其消費(fèi)模式之間的關(guān)系。調(diào)查了70個(gè)家庭的下面兩組變量:分析兩組變量之間的關(guān)系。 變量間的相關(guān)系數(shù)矩陣如下: X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00 典型相關(guān)分析如下:典型相關(guān)分析 典型相關(guān)系數(shù)調(diào)整典型相關(guān)系

17、數(shù)近似方差 典型相關(guān)系數(shù)的平方10.687948480.6878480.0052680.47327220.1868650.1866380.0096510.034919 各組變量系數(shù)如下:X組典型變量的系數(shù) U1U2X1(就餐)0.7689-1.4787 X2(電影)0.27211.6443Y組典型變量的系數(shù) V1V2Y1(年齡)0.04911.0003 Y2(收入)0.8975-0.5837 Y3(文化)0.19000.2956 由表可以得出,兩個(gè)反映消費(fèi)的指標(biāo)與第一對典型變量中u1的相關(guān)系數(shù)分別為0.9866和0.8872,可以看出u1可以作為消費(fèi)特性的指標(biāo),第

18、一對典型變量中v1與Y2之間的相關(guān)系數(shù)為0.9822,可見典型變量v1主要代表了了家庭收入, u1和 v1的相關(guān)系數(shù)為0.6879,這就說明家庭的消費(fèi)與一個(gè)家庭的收入之間其關(guān)系是很密切的;典型變量的結(jié)構(gòu)(相關(guān)系數(shù)) U1U2X10.9866-0.1632X20.87220.4614  V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型變量的結(jié)構(gòu)(相關(guān)系數(shù)) V1V2X10.6787-0.0305X20.61040.0862  U1U2Y10.28970.1582Y20.6757-0.02

19、06Y30.35390.0563第二對典型變量中u2與x2的相關(guān)系數(shù)為0.4614,可以看出u2可以作為文化消費(fèi)特性的指標(biāo),第二對典型變量中v2與Y1和Y3之間的分別相關(guān)系數(shù)為0.8464和0.3013,可見典型變量v2主要代表了家庭成員的年齡特征和教育程度, u2和 v2的相關(guān)系數(shù)為0.1869,說明文化消費(fèi)與年齡和受教育程度之間的相關(guān)性。9、 典型相關(guān)分析方法注意事項(xiàng)因?yàn)榈湫拖嚓P(guān)分析可以看做是多元線性回歸分析的延伸,有很多注意事項(xiàng),在使用時(shí)應(yīng)當(dāng)注意以下幾點(diǎn): (1)對調(diào)查者想做出推斷的總體來說,樣本必需具有代表性。一個(gè)簡單的隨機(jī)樣本就具有這種性質(zhì)。如果做不到這一點(diǎn),調(diào)查者至少應(yīng)確保所選擇的

20、樣本點(diǎn)包含了總體中能夠發(fā)生的各種情況。如果人為地限制了樣本的取值范圍,會(huì)影響相關(guān)系數(shù)的估計(jì)結(jié)果。  (2)計(jì)量可靠性低的話,會(huì)導(dǎo)致X變量之間和Y變量之間的相關(guān)系數(shù)估計(jì)值偏低。 (3)應(yīng)該通過繪制變量序?qū)Φ闹狈綀D和散點(diǎn)圖找出離群點(diǎn)。 (4)調(diào)查者應(yīng)該核對的一點(diǎn)是,典型相關(guān)系數(shù)要足夠大到值得考察這些系數(shù)的程度。尤為重要的是,這個(gè)相關(guān)系數(shù)不是只因?yàn)橐粋€(gè)因變量和一個(gè)自變量。應(yīng)該考察方差的比例,如果比例小的話,減少模型中變量的個(gè)數(shù)可能是合理的。  (5)如果樣本量足夠大,建議將樣本分拆,對拆成兩半的兩個(gè)樣本分別做典型相關(guān)分析,再把結(jié)果進(jìn)行比較,看看結(jié)果是

21、否類似。 (6)如果典型相關(guān)系數(shù)和典型變量載荷差異相當(dāng)大(即如果它們符號(hào)不同),那么,應(yīng)該對兩者都進(jìn)行認(rèn)真考察,以幫助解釋結(jié)果。與解釋第一個(gè)典型相關(guān)變數(shù)相比,第二或第三個(gè)典型相關(guān)變數(shù)的解釋更困難。要求以后陸續(xù)得出的變量線性組合與已獲得的線性組合相獨(dú)立,這個(gè)條件對結(jié)果所施加的限制可能難于理解。 (7)關(guān)于典型相關(guān)的假設(shè)檢驗(yàn),是以X變量和Y變量的聯(lián)合分布是多元正態(tài)分布為前提的17。如果要研究需要報(bào)告這種檢驗(yàn),就應(yīng)該檢查這個(gè)假設(shè)。(8)因?yàn)榈湫拖嚓P(guān)既用到X變量集合,也用到Y(jié)變量集合,分析中包含的變量總數(shù)可能會(huì)相當(dāng)多。這可能會(huì)使因缺失值而沒用上很多樣本點(diǎn)的問題變得嚴(yán)重起來。此時(shí),要

22、么需認(rèn)真選擇變量,要么需要利用推算技術(shù)。,來反映典型變量與原始變量的相關(guān)程度。參考文獻(xiàn):1 王正群,孫興華,郭麗等.基于 Fisher準(zhǔn)則的多特征融合J. 計(jì)算機(jī)工程, 2002, 28(3): 41-42.2 孫權(quán)森,曾生根,王平安等.典型相關(guān)分析的理論及其在特征融合中的應(yīng)川 J  .計(jì)算機(jī)學(xué)報(bào),2005,28( 9) :1524.1533.3 陳拓,蔡惠智.采用典型相關(guān)分析實(shí)現(xiàn)主動(dòng)聲納直達(dá)波干擾抑制叨應(yīng)用聲學(xué),2012,2( 31):130一134.4 王磊,史亞,姬紅兵.基于多集典型相關(guān)分析的雷達(dá)輻射源指紋識(shí)別 J ,西安電子科技人學(xué)學(xué)報(bào),2013( 2):164,171.5

23、張潔玉,陳強(qiáng),白小晶等基于廣義典型相關(guān)分析的仿射不變特征提取方法 J 電子與信息學(xué)報(bào),2009,31( 10) :246524696 TaeKyun Kim,KwanYee Kenne kenneth WongTensor Canonical Correlation Analysis for Action Classification J Computer Vision and Pattern Recognition,2007,33:l -87 Heungsun Hwang,Kwanghee Jung Br J Mam Stat Psychol,2103,66( 2) :308-3218 Raul Cruzcano,Mei

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論