版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十講典型相關(guān)分析演示文稿當(dāng)前第1頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)優(yōu)選第十講典型相關(guān)分析當(dāng)前第2頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)兩個(gè)變量時(shí),用線性相關(guān)系數(shù)研究?jī)蓚€(gè)變量之間的線性相關(guān)性:返回當(dāng)前第3頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)
典型相關(guān)是研究?jī)山M變量之間相關(guān)性的一種統(tǒng)計(jì)分析方法。也是一種降維技術(shù)。
典型相關(guān)分析方法最早源于荷泰林(H,Hotelling)于1936年在《生物統(tǒng)計(jì)》期刊上發(fā)表的一篇論文《兩組變式之間的關(guān)系》。他所提出的方法經(jīng)過(guò)多年的應(yīng)用及發(fā)展,逐漸達(dá)到完善,在70年代臻于成熟。如CooleyandLohnes(1971)、Kshirsagar(1972)和Mardia,Kent,andBibby(1979)推動(dòng)了它的應(yīng)用。
當(dāng)前第4頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)5第一節(jié)典型相關(guān)分析的基本思想如何研究?jī)山M變量之間的相關(guān)關(guān)系呢?如何進(jìn)一步確定兩組變量在整體上的相關(guān)程度呢?當(dāng)前第5頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)
通常情況下,為了研究?jī)山M變量的相關(guān)關(guān)系,可以用最原始的方法,分別計(jì)算兩組變量之間的全部相關(guān)系數(shù),一共有pq個(gè)簡(jiǎn)單相關(guān)系數(shù),這樣又煩瑣又不能抓住問(wèn)題的本質(zhì)。如果能夠采用類似于主成分的思想,分別找出兩組變量的各自的某個(gè)線性組合,討論線性組合之間的相關(guān)關(guān)系,則更簡(jiǎn)捷。當(dāng)前第6頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)
在解決實(shí)際問(wèn)題中,這種方法有廣泛的應(yīng)用。如,在工廠里常常要研究產(chǎn)品的q個(gè)質(zhì)量指標(biāo)和p個(gè)原材料的指標(biāo)之間的相關(guān)關(guān)系;可以采用典型相關(guān)分析來(lái)解決。如果能夠采用類似于主成分的思想,分別找出兩組變量的線性組合既可以使變量個(gè)數(shù)簡(jiǎn)化,又可以達(dá)到分析相關(guān)性的目的。當(dāng)前第7頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)例子(數(shù)據(jù)tv.txt)
業(yè)內(nèi)人士和觀眾對(duì)于一些電視節(jié)目的觀點(diǎn)有什么樣的關(guān)系呢?該數(shù)據(jù)是不同的人群對(duì)30個(gè)電視節(jié)目所作的平均評(píng)分。觀眾評(píng)分來(lái)自低學(xué)歷(led)、高學(xué)歷(hed)和網(wǎng)絡(luò)(net)調(diào)查三種,它們形成第一組變量;而業(yè)內(nèi)人士分評(píng)分來(lái)自包括演員和導(dǎo)演在內(nèi)的藝術(shù)家(arti)、發(fā)行(com)與業(yè)內(nèi)各部門主管(man)三種,形成第二組變量。人們對(duì)這樣兩組變量之間的關(guān)系感到興趣。當(dāng)前第8頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)當(dāng)前第9頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)尋找代表
如直接對(duì)這六個(gè)變量的相關(guān)進(jìn)行兩兩分析,很難得到關(guān)于這兩組變量之間關(guān)系的一個(gè)清楚的印象。希望能夠把多個(gè)變量與多個(gè)變量之間的相關(guān)化為兩個(gè)變量之間的相關(guān)?,F(xiàn)在的問(wèn)題是為每一組變量選取一個(gè)綜合變量作為代表;而一組變量最簡(jiǎn)單的綜合形式就是該組變量的線性組合。當(dāng)前第10頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)利用主成分分析的思想,可以把多個(gè)變量與多個(gè)變量之間的相關(guān)轉(zhuǎn)化為兩個(gè)變量之間的相關(guān)。主成分綜合變量找出系數(shù)和使得新變量和之間有最大可能的相關(guān)系數(shù)。(典型相關(guān)系數(shù))即使當(dāng)前第11頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)例家庭特征與家庭消費(fèi)之間的關(guān)系為了了解家庭的特征與其消費(fèi)模式之間的關(guān)系。調(diào)查了70個(gè)家庭的下面兩組變量:分析兩組變量之間的關(guān)系。當(dāng)前第12頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)
X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00變量間的相關(guān)系數(shù)矩陣當(dāng)前第13頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)y2y3y1x2x1當(dāng)前第14頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)分析的基本理論由于一組變量可以有無(wú)數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonicalcorrelationanalysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個(gè)由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。
當(dāng)前第15頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型變量假定兩組變量為X1,X2…,Xp和Y1,Y2,…,Yq,那么,問(wèn)題就在于要尋找系數(shù)a1,a2…,ap和b1,b2,…,bq,和使得新的綜合變量(亦稱為典型變量(canonicalvariable))之間的相關(guān)關(guān)系最大。這種相關(guān)關(guān)系是用典型相關(guān)系數(shù)(canonicalcorrelationcoefficient)來(lái)衡量的。當(dāng)前第16頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)系數(shù)
這里所涉及的主要的數(shù)學(xué)工具還是矩陣的特征值和特征向量問(wèn)題。而所得的特征值與V和W的典型相關(guān)系數(shù)有直接聯(lián)系。由于特征值問(wèn)題的特點(diǎn),實(shí)際上找到的是多組典型變量(V1,W1),(V2,W2),…,其中V1和W1最相關(guān),而V2和W2次之等等,當(dāng)前第17頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)系數(shù)
而且V1,V2,V3,…之間及而且W1,W2,W3,…之間互不相關(guān)。這樣又出現(xiàn)了選擇多少組典型變量(V,W)的問(wèn)題了。實(shí)際上,只要選擇特征值累積總貢獻(xiàn)占主要部分的那些即可。軟件還會(huì)輸出一些檢驗(yàn)結(jié)果;于是只要選擇顯著的那些(V,W)。對(duì)實(shí)際問(wèn)題,還要看選取的(V,W)是否有意義,是否能夠說(shuō)明問(wèn)題才行。至于得到(V,W)的計(jì)算,則很簡(jiǎn)單,下面就tv.txt數(shù)據(jù)進(jìn)行分析。數(shù)學(xué)原理?當(dāng)前第18頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)計(jì)算結(jié)果
第一個(gè)表為判斷這兩組變量相關(guān)性的若干檢驗(yàn),包括Pillai跡檢驗(yàn),Hotelling-Lawley跡檢驗(yàn),Wilksl檢驗(yàn)和Roy的最大根檢驗(yàn);它們都是有兩個(gè)自由度的F檢驗(yàn)。該表給出了每個(gè)檢驗(yàn)的F值,兩個(gè)自由度和p值(均為0.000)。當(dāng)前第19頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)計(jì)算結(jié)果
下面一個(gè)表給出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累積百分比(Cum.Pct)和典型相關(guān)系數(shù)(CanonCor)及其平方(Sq.Cor)。看來(lái),頭兩對(duì)典型變量(V,W)的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關(guān)系數(shù)也都在0.95之上。當(dāng)前第20頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)計(jì)算結(jié)果
對(duì)于眾多的計(jì)算機(jī)輸出挑出一些來(lái)介紹。下面表格給出的是第一組變量相應(yīng)于上面三個(gè)特征根的三個(gè)典型變量V1、V2和V3的系數(shù),即典型系數(shù)(canonicalcoefficient)。注意,SPSS把第一組變量稱為因變量(dependentvariables),而把第二組稱為協(xié)變量(covariates);顯然,這兩組變量是完全對(duì)稱的。這種命名僅僅是為了敘述方便。這些系數(shù)以兩種方式給出;一種是沒(méi)有標(biāo)準(zhǔn)化的原始變量的線性組合的典型系數(shù)(rawcanonicalcoefficient),一種是標(biāo)準(zhǔn)化之后的典型系數(shù)(standardizedcanonicalcoefficient)。標(biāo)準(zhǔn)化的典型系數(shù)直觀上對(duì)典型變量的構(gòu)成給人以更加清楚的印象。當(dāng)前第21頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)可以看出,頭一個(gè)典型變量V1相應(yīng)于前面第一個(gè)(也是最重要的)特征值,主要代表高學(xué)歷變量hed;而相應(yīng)于前面第二個(gè)(次要的)特征值的第二個(gè)典型變量V2主要代表低學(xué)歷變量led和部分的網(wǎng)民變量net,但高學(xué)歷變量在這里起負(fù)面作用。當(dāng)前第22頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)計(jì)算結(jié)果
類似地,也可以得到被稱為協(xié)變量(covariate)的標(biāo)準(zhǔn)化的第二組變量的相應(yīng)于頭三個(gè)特征值得三個(gè)典型變量W1、W2和W2的系數(shù)。當(dāng)前第23頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)當(dāng)前第24頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)例子結(jié)論
從這兩個(gè)表中可以看出,V1主要和變量hed相關(guān),而V2主要和led及net相關(guān);W1主要和變量arti及man相關(guān),而W2主要和com相關(guān);這和它們的典型系數(shù)是一致的。由于V1和W1最相關(guān),這說(shuō)明V1所代表的高學(xué)歷觀眾和W1所主要代表的藝術(shù)家(arti)及各部門經(jīng)理(man)觀點(diǎn)相關(guān);而由于V2和W2也相關(guān),這說(shuō)明V2所代表的低學(xué)歷(led)及以年輕人為主的網(wǎng)民(net)觀眾和W2所主要代表的看重經(jīng)濟(jì)效益的發(fā)行人(com)觀點(diǎn)相關(guān),但遠(yuǎn)遠(yuǎn)不如V1和W1的相關(guān)那么顯著(根據(jù)特征值的貢獻(xiàn)率)。當(dāng)前第25頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)SPSS的實(shí)現(xiàn)對(duì)例tv.sav,首先打開(kāi)例14.1的SPSS數(shù)據(jù)tv.sav,通過(guò)File-New-Syntax打開(kāi)一個(gè)空白文件(默認(rèn)文件名為Syntax1.sps),再在其中鍵入下面命令行:MANOVAledhednetWITHarticomman/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM).再點(diǎn)擊一個(gè)向右的三角形圖標(biāo)(運(yùn)行目前程序,Runcurrent),就可以得到所需結(jié)果了。還可以把Syntax1.sps另以其他名字(比如tv.sps)存入一個(gè)文件夾。下次使用時(shí)就可以通過(guò)File-Open-Syntax來(lái)打開(kāi)這個(gè)文件了。當(dāng)前第26頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)SPSS的實(shí)現(xiàn)注意1:典型相關(guān)分析是本書(shū)內(nèi)容中唯一不能用SPSS的點(diǎn)擊鼠標(biāo)的“傻瓜”方式,而必須用寫入程序行來(lái)運(yùn)行的模型。讀者不必要再去研究語(yǔ)法的細(xì)節(jié),只要能夠舉一反三,套用這個(gè)例子的程序即可。當(dāng)然,如果讀者愿意學(xué)習(xí)SPSS的語(yǔ)法,則在處理數(shù)據(jù)時(shí),肯定會(huì)更方便。當(dāng)前第27頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)SPSS的實(shí)現(xiàn)注意2:一些SPSS的輸出很長(zhǎng),這時(shí)輸出窗口截去了一些內(nèi)容沒(méi)有顯示(這有些隨意性)。這時(shí)輸出窗口(SPSSViewer)中結(jié)果的左下角有一個(gè)紅色的三角型。如果想要看全部?jī)?nèi)容,可以先點(diǎn)擊鼠標(biāo)左鍵,選中輸出結(jié)果,然后從點(diǎn)右鍵得到的菜單中選擇Export,就可以把全部結(jié)果(包括截去的部分)存入一個(gè)htm形式的文件了供研究和打印之用。當(dāng)前第28頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)附錄當(dāng)前第29頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)分析目的:研究多個(gè)變量之間的相關(guān)性方法:利用主成分思想,可以把多個(gè)變量與多個(gè)變量之間的相關(guān)化為兩個(gè)變量之間的相關(guān).即找一組系數(shù)(向量)l和m,使新變量U=l’X(1)和V=m’X(2)有最大可能的相關(guān)關(guān)系.當(dāng)前第30頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)數(shù)學(xué):設(shè)兩組隨機(jī)變量而的協(xié)方差陣S>0,均值向量m=0,S的剖分為:對(duì)于前面的新變量U=l’X和V=m’YVar(U)=Var(l’X)=l’S11lVar(V)=Var(m’Y)=m’S22mCov(U,V)=l’S12m,rUV=l’S12m/[(l’S11l)(m’S22m)]?我們?cè)噲D在約束條件Var(U)=1,Var(V)=1下尋求l和m使rUV=Cov(U,V)=l’S12m達(dá)到最大.當(dāng)前第31頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)這是Lagrange乘數(shù)法求下面f的極大值經(jīng)過(guò)求偏導(dǎo)數(shù)和解方程,得到l=n=l’S12m=Cov(U,V),及因此l2既是A又是B的特征值,而相應(yīng)的特征向量為l,m當(dāng)前第32頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)可得到p1對(duì)線性組合Ui=l(i)’X,Vi=m(i)’Y,稱每一對(duì)變量為典型變量.其極大值稱為第一典型相關(guān)系數(shù).
一般只取前幾個(gè)影響大的典型變量和典型相關(guān)系數(shù)來(lái)分析.A和B的特征根有如下性質(zhì):(1)A和B有相同的非零特征根,(2)其數(shù)目為p1.A和B的特征根非負(fù).(3)A和B的特征根均在0和1之間.我們表示這些稱為典型相關(guān)系數(shù)的非零特征值和相應(yīng)的特征向量為當(dāng)前第33頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型變量的性質(zhì):
(1)X和Y中的一切典型變量都不相關(guān).(2)X和Y的同一對(duì)典型變量Ui和Vi之間的相關(guān)系數(shù)為li,不同對(duì)的Ui和Vj(i≠j)之間不相關(guān).樣本情況,只要把S用樣本協(xié)差陣或樣本相關(guān)陣R代替.下面回到我們的例子。當(dāng)前第34頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)系數(shù)的顯著性檢驗(yàn):首先看X和Y是否相關(guān),如不相關(guān),就不必討論.如果這是為檢驗(yàn)第1個(gè)典型相關(guān)系數(shù)的顯著性檢驗(yàn)統(tǒng)計(jì)量為其中為 的特征根.當(dāng)前第35頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)如果H0為檢驗(yàn)第r(r<k)個(gè)典型相關(guān)系數(shù)的顯著性檢驗(yàn)統(tǒng)計(jì)量為當(dāng)前第36頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)當(dāng)然在實(shí)際例子中一般并不知道S。因此在只有樣本數(shù)據(jù)的情況下,只要把S用樣本協(xié)差陣或樣本相關(guān)陣代替就行了。但是這時(shí)的特征根可能不在0和1的范圍,因此會(huì)出現(xiàn)軟件輸出中的特征根(比如大于1)不等于相關(guān)系數(shù)的平方的情況,這時(shí),各種軟件會(huì)給出調(diào)整后的相關(guān)系數(shù)。當(dāng)前第37頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)和回歸分析的關(guān)系把X和Y換成回歸中的X和Y,這就是因變量和自變量之間的相關(guān)問(wèn)題.而Y在X上的投影,就是回歸了.當(dāng)前第38頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)典型相關(guān)分析計(jì)算步驟
當(dāng)前第39頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)當(dāng)前第40頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)補(bǔ)充:典型相關(guān)系數(shù)和典型變量的數(shù)學(xué)描述當(dāng)前第41頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)考慮兩組變量的向量其協(xié)方差陣為其中11是第一組變量的協(xié)方差矩陣;22是第二組變量的協(xié)方差矩陣;是X和Y的協(xié)方差矩陣。當(dāng)前第42頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)如果我們記兩組變量的第一對(duì)線性組合為:其中:所以,典型相關(guān)分析就是求a1和b1,使uv達(dá)到最大。當(dāng)前第43頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)在約束條件:下,求a1和b1,使uv達(dá)到最大。令當(dāng)前第44頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)根據(jù)數(shù)學(xué)分析中條件極值的求法,引入Lagrange乘數(shù),求極值問(wèn)題,則可以轉(zhuǎn)化為求的極大值,其中和是
Lagrange乘數(shù)。當(dāng)前第45頁(yè)\共有52頁(yè)\編于星期六\17點(diǎn)將上
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度智能化窗戶安裝與維護(hù)安全協(xié)議書(shū)4篇
- 2025年度災(zāi)害預(yù)防慈善捐贈(zèng)執(zhí)行合同范本4篇
- 二零二五版旅行社環(huán)保旅游推廣合作框架協(xié)議3篇
- 二零二五年度櫥柜安裝及家居安全檢測(cè)合同4篇
- 工業(yè)互聯(lián)網(wǎng)平臺(tái)核心技術(shù)與創(chuàng)新發(fā)展方案
- 2025年度個(gè)人綠色消費(fèi)貸款展期服務(wù)合同4篇
- 小學(xué)數(shù)學(xué)課堂中的合作學(xué)習(xí)與互動(dòng)實(shí)踐
- 職場(chǎng)安全教育如何保護(hù)老年員工的財(cái)產(chǎn)安全
- 二零二五年度房地產(chǎn)項(xiàng)目采購(gòu)人員廉潔行為規(guī)范3篇
- 2025年度個(gè)人吊車租賃合同爭(zhēng)議解決及仲裁協(xié)議2篇
- 《縣域腫瘤防治中心評(píng)估標(biāo)準(zhǔn)》
- 做好八件事快樂(lè)過(guò)寒假-2024-2025學(xué)年上學(xué)期中學(xué)寒假家長(zhǎng)會(huì)課件-2024-2025學(xué)年高中主題班會(huì)課件
- 人員密集場(chǎng)所消防安全培訓(xùn)
- 液晶高壓芯片去保護(hù)方法
- 使用AVF血液透析患者的護(hù)理查房
- 拜太歲科儀文檔
- 2021年高考山東卷化學(xué)試題(含答案解析)
- 2020新譯林版高中英語(yǔ)選擇性必修一重點(diǎn)短語(yǔ)歸納小結(jié)
- GB/T 19668.7-2022信息技術(shù)服務(wù)監(jiān)理第7部分:監(jiān)理工作量度量要求
- 品管圈活動(dòng)提高氧氣霧化吸入注意事項(xiàng)知曉率
- 連續(xù)鑄軋機(jī)的工作原理及各主要參數(shù)
評(píng)論
0/150
提交評(píng)論