版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析摘要典型相關(guān)分析(CCA是一種尋找兩個多維變量之間相關(guān)性的著名 的技術(shù)。它是一項把兩組變量化到一個低維空間中并且使他們之間的相關(guān)性最大 的工作。CCA!常在兩組變量分別的是來源于數(shù)據(jù)和類標(biāo)簽上申請監(jiān)督降維。眾 所周知,CCA可以制定作為在二進(jìn)制類案件中的一個最小二乘問題。然而,擴(kuò)展到更一般的變量尚不清楚。在本文中,我們表明,在傾向于保持高維數(shù)據(jù)的溫和條 件,CCA在多元變量的情況下可以制定作為一個最小二乘問題。在此基礎(chǔ)上等價 關(guān)系,高效的算法求解最小二乘問題可以應(yīng)用于非常大的數(shù)據(jù)集規(guī)模CCA'可題。此外,我們提出幾個CCAT展,包括基
2、于1規(guī)范正規(guī)化的稀疏CCA方程式。我們進(jìn) 一步擴(kuò)展最小二乘方程式為偏最小二乘法。此外 ,我們表明,投影,讓一群CCA變 量是獨立的,正則化在另組多維變量,提供新的見解的影響CCA勺正規(guī)化。我們 使用基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗。實驗數(shù)據(jù)集確認(rèn)建立了等價關(guān)系。結(jié)果也證明了 CCAT展的有效性和效率的提議。關(guān)鍵字一一典型相關(guān)分析、最小二乘法、多元變量學(xué)習(xí),偏最小二乘法、正規(guī)化。1引言典型相關(guān)分析(CCA)1是一個眾所周知的尋找兩套多維變量之間的相關(guān)性 的技術(shù)。它使用兩個視圖相同的組對象和項目到一個與他們最相關(guān)的低維空間中 去。CCA已經(jīng)成功應(yīng)用在各種應(yīng)用中2、3。一個流行的使用CCA是監(jiān)督式學(xué) 習(xí),它其中
3、一個觀點是來源于數(shù)據(jù)并且其他的觀點來源于類標(biāo)簽。在這種背景, 數(shù)據(jù)可以用標(biāo)簽信息定向的被投影到一個低維空間。這樣的一個方程式在對多元 變量進(jìn)行降維的情況下是非常的吸引人的。多元線性回歸(多元)即最小平方和成本函數(shù)是一種專門研究回歸問題的技術(shù)。它還可以被應(yīng)用于通過定義一個合適的類指標(biāo)矩陣的分類問題5,6。多元的解決方案基于最小二乘法通過求解一個線性方程組來獲得。一個數(shù)量的算法包括共軛梯度算法,可以應(yīng)用到它有效地解決7。此外,最小二乘方程式可以很 容易使用正則化技術(shù)進(jìn)行擴(kuò)展。例如,1規(guī)范可以被納入正規(guī)化最小二乘方程式 來控制模型復(fù)雜性和提高稀疏8。稀疏常常會導(dǎo)致容易解釋和良好的泛化能力。 它已經(jīng)被
4、成功地應(yīng)用在幾個算法中,包括主成分分析9和支持向量機(jī)10。與最小二乘法相比,CCA涉及廣義特征值問題,它解決時,計算更加費時 11。此外,它是具有挑戰(zhàn)性的,因為它獲得稀疏CCA時涉及到一個困難稀疏的廣 義特征值問題。凸松弛的稀疏 CCA勺研究12放在,確切的稀疏的CCA配方一直 放松在幾個步驟上。另一方面,最小二乘法和CCA已經(jīng)建立在文學(xué)上建立起一個 有趣的聯(lián)系。特別是,CCA被證明是相當(dāng)于Fisher線性判別分析(LDA)的二進(jìn)制 類問題13。與此同時,眾所周知,在這種情況下LDA相當(dāng)于最小二乘法5,6。因此,CCA可以作為一個對于二進(jìn)制類問題制定最小二乘問題。在實踐中,多元變量問題非常普遍
5、。因此研究它們在更一般的變量中的關(guān)系更具誘惑。在本文中,我們研究CCA和最小二乘在多元變量問題之間的關(guān)系。我們表明, 在傾向于保持高維數(shù)據(jù)的溫和條件下,CCA可以作為一個通過制定構(gòu)造一個特殊 類指標(biāo)矩陣的最小二乘問題。在此等價關(guān)系的基礎(chǔ)上,我們提出幾個CCA擴(kuò)展,包括使用1規(guī)范正規(guī)化的稀疏CCA我們表明,最小二乘方程式及其擴(kuò)展的 CCA 可以有效地解決。例如,相當(dāng)于2規(guī)范的最小二乘配方和正規(guī)化的擴(kuò)展可以通過 計算迭代共軛梯度算法LSQF進(jìn)行處理14,這種算法可以處理非常大規(guī)模的問 題。我們通過建立OPLS和CCA之間的等價關(guān)系使最小二乘方程式擴(kuò)展到正交最 小二乘(OPLS)和偏最小二乘法(PL
6、S)。此外,我們分析正則化在CCAh的效果。特 別是,我們表明,CCA投影,讓一群變量是獨立的正規(guī)化另組多維變量,闡明正規(guī) 化在CCA上的影響。此外,它能顯示出我們的分析可以擴(kuò)展到內(nèi)核誘導(dǎo)功能空間。 提供更多細(xì)節(jié)的補充文件,可以發(fā)現(xiàn)在計算機(jī)協(xié)會數(shù)字圖書館在 http:/doi 。 /10.1109/TPAMI.2010.160 。注釋:訓(xùn)練樣本的數(shù)量,數(shù)據(jù)維數(shù),數(shù)量的標(biāo)簽分別用n、d、k。R表 示第i個觀察。并且% R表示編碼對應(yīng)的標(biāo)簽信息。讓 X J%,,xj R °是數(shù)據(jù)矩陣,丫二M,,yR °是類標(biāo)簽矩陣。我們假設(shè)所有的
7、*爲(wèi)和 yi二是集中的,ni£yi=0A F弗羅貝尼烏斯的規(guī)范表示矩陣A° I是12單位矩陣和e是一個單位向量2背景和相關(guān)工作在本節(jié)中,我們回顧C(jī)CA最小二乘法,和一些相關(guān)的工作2.1 典型相關(guān)分析在CCA兩種不同造型的同一組對象,給出了一個投影計算了每個表示這樣 的,他們是最大的維度降低空間相關(guān)。正式,CCA計算兩個投影向量 叫 R和這樣的相關(guān)系數(shù)W;XYTWy(1).(w;XXTWx)(w;YYTWy)是最大化 因為"是叫和Wy不變的縮放,CCA可以相等的變換為max w; XYT Wy(2)Wx,Wy'stw;XX TWx = 1,w;YYTwy =
8、 1.以下,我 們假設(shè)YYT是滿秩的。這表明Wx以下問題的最優(yōu)解來獲得:max wT XY T (YYT 尸 YX T wxWx's.t w:XXTwx=1兩種方法在(2)和(3)中試圖找到所對應(yīng)的特征向量與特征值的頂部以下廣 義特征值問題:XYT(YYT)YXTwx 二 XXTwx(4)特征值 與特征向量wx是相對應(yīng)的。它也表明,多個投影向量在某些正規(guī)化約束由頂部的特征向量的廣義特征值問題 2在正規(guī)化CCA(rCCA),兩個正則化條件xI和yI,并且,x 01 y 0被添加在 來防止過度擬合,避免奇點XXT和YYT的2, 15。具體來說,解決了以下商 資歸農(nóng)廣義特征值問題:XXT(Y
9、YTy|)YXTWx = (XXT xl)Wx飛、(5)2.2最小二乘法的回歸和分類在回歸,我們就有了一種訓(xùn)練集人花和,其中R是觀察數(shù)據(jù),R是 相應(yīng)的目標(biāo)。我們假設(shè)兩把觀察結(jié)果和目標(biāo)集中。結(jié)果,攔截在回歸可以被消除。在這種情況下,最小二乘方法可以用于計算投影矩陣W通過最小化以下平方和 成本功能:2 二 wTx-t:(6)nmin f (W) =E |wTxi W其中T二和,tR no眾所周知,最優(yōu)投影矩陣給出了,6Wls =(XXt) XTt其中(XXj代表雅可比矩陣XXT的偽偽逆。最小二乘公式也可應(yīng)用于分類問題。在一般的多級情況下,我們是給定一個 n樣品組成的數(shù)據(jù)集'xiy為,其中R
10、d,% H2,乙表示第i類標(biāo)號的樣本,k>2。應(yīng)用最小二乘的多類配方情況下,1 k的二進(jìn)制編碼方案通常是把向量 值類代碼應(yīng)用于每個數(shù)據(jù)點5。解決方案取決于選擇類指標(biāo)矩陣。幾類指標(biāo)矩 陣的提出在文獻(xiàn)6。2.3 相關(guān)工作最小二乘法的內(nèi)在關(guān)系和其他幾個模型在過去已經(jīng)建立。特別是,它是一個 經(jīng)典的效果,最小二乘問題是等價的LDA對二進(jìn)制類問題 。最近,這種等價關(guān) 系是延伸到通過定義一個特定的類指標(biāo)矩陣的多類案件16。CCA已被證明是相當(dāng)于LDA對多類問題13。因此,CCA相當(dāng)于最小二乘法在多類案件。我們顯示 在接下來的部分,在溫和條件下,可作為制定CCA最小二乘問題的更一般的設(shè)置, 即,多元變量
11、問題當(dāng)一個用來源于標(biāo)簽的CCA的視圖。3 CCA和最小二乘對于Multilabel之間的關(guān)系分類在本節(jié)中,我們的相關(guān)關(guān)系和最小二乘法的 CCAmultilabel案例,由于空間 限制,所有的證據(jù)是提供在補充文件,可以在計算機(jī)協(xié)會數(shù)字圖書館中找到/10.1109/TPAMI.2010.160首先為我們的推導(dǎo)定義四個矩陣:1TTH Y (YY ) 2Rnk(8)Cxx =XXTRd d(9)CHH 二 xhhtxtRd d(10)CdD - Cxx - Chh Rd d(11)1T 2注意,我們假設(shè)nk并且rank(Y)=k為多元變
12、量的問題。這樣(YY)就很明 確了。遵循上面的定義,解決CCA可以表達(dá)為特征值所對應(yīng)的特征向量與矩陣CxxChh的頂部。3.1 基本矩陣屬性在本節(jié)中,我們研究的基本性質(zhì)的矩陣參與下面的討論。以下定義在(8)中的H,我們有:引理3.1讓H被定義為在(8),并且讓yi復(fù)集中的,這樣,我們有:(1) H已經(jīng)正規(guī)化的列,hth =Ik' HTe=0。鑒于H Rnk與列正交,存在DRn(n"使得H,D1. Rnn是正交矩陣,簡而言之In Jh , D 1H , D T =HH T DDT于是就出現(xiàn)了 CDD =Cxx CHH =XDD的結(jié)果,讓奇異值分解計算 X且XVT rUilkdi
13、agC r,0)Vi,V2 T =Ui' rViT其中r二rank(X),U,V是正交矩陣,、Rdn,Ui Rdr,U2 Rd(dM RnM £2Rr r很明顯 U2位于零空間XT中,簡而言之XTU2 =0(12)3.2通過特征分解計算CCA回想一下,解決CCA由矩陣cxxChh的頂部特征向量.我們下一個展示如何計算這些特征向量。定義了矩陣 A Rr k且(13)讓奇異值分解A,使A二Pi心,其中P RrrQ Rkk是正交的一 R *是 對角線的。這樣AAtA、APT(14)矩陣CXXCHH的特征分解總結(jié)了下面的定理: 定理3.1矩陣Cxxchh有k個非零特征值。具體來說,C
14、CA的解決辦法是由與矩陣CXXCHH最頂端的特征值(:k)相對應(yīng)的特征向量組成的,可以得到:WccA 二 (15)其中P在包含第一列的P o3.3和最小二乘法等價的CCA考慮類指標(biāo)矩陣T定義如下:T 1tT =(YY 廠 Y 二 H(16)它遵循從(7),解決最小二乘問題給定T(17)Wls =(XXT) XH 二 U1'aQT從(15)和(17)中可以很明顯的看出之間(CCA)和最小二乘法的區(qū)別在于A和qT 我們下一個顯示所有的對角元素 a A的在溫和的條件下,即rank(X) = n -1,rank(YHk .注意,第一個條件是相當(dāng)于要求原始數(shù)據(jù)點是線性獨立前定心,傾向于保持高維數(shù)
15、據(jù)。出示之前主要結(jié)果總結(jié)在定理3.2下面,我們有以下引理:引理3.2我們假設(shè)ran k(CXX) s = ra nk(CHH) ran k(CDD)A對于一些非負(fù)整數(shù)S 有0那么對于矩陣V A八 八A =diag(a1,a2 ,ar R r, 我們有1= 二af af_s1- af af1=0其中 f 二 rank(,a)。定理3.2假設(shè)rank(X)二n-1,rank(Y)二k為多元變量問題,這樣我們有rank(Cxx) =n -1,rankg ) =k,rank(CDD)=n-k-1,因此 S在引理 3.2 中的定義 相當(dāng)于零,并且有1 二 ar = akak 彳=ar = 00這就意味著
16、v A的所有的對角元素是單位的0既然ranA)二k , CXXCHH包含k個非零特征值。如果我們令密=k,貝U有(18)Wls和Wdca唯一的區(qū)別在于正交矩陣在QT和Wls 。在實踐中,我們可以使用Wdca和Wls兩個項目的原始數(shù)據(jù)到一個低維空間在 分類之前。對于分類器基于歐幾里得距離,正交變換qt不會影響分類性能,任何 正交轉(zhuǎn)換歐幾里得距離是不變的。一些著名的算法滿足這個屬性包括 k最近鄰(k 最近鄰)算法6基于歐氏距離和線性支持向量機(jī)(SVM)17。在下面,相當(dāng)于最小 二乘CCA配方被稱為“ IS-CCA?!?. 擴(kuò)展最小二乘的CCA基于等價關(guān)系建立在上一節(jié)中,古典CCA配方可以擴(kuò)展使用正
17、則化技術(shù),它常用于控制的復(fù)雜性和提高模型的泛化性能。類似于嶺回歸6,我們得到2規(guī)范正則化最小二乘CCA配方(稱為“LS-CCA2),從而減少以下目標(biāo)函數(shù)通過使用目標(biāo)矩陣T (16):k n2L2(W*=2:任(x:Wj Tj)2+舛Wj|2)j£ y其中Wg wj 0是正則化參數(shù)。眾所周知,稀疏通??梢酝ㄟ^懲罰1規(guī)范變量的8得到。它已經(jīng)被引入最小 二乘配方,由此產(chǎn)生的模型被稱為套索8。基于等價關(guān)系的建立(CCA)和最小二 乘法,我們推導(dǎo)出1規(guī)范正則化最小二乘CCA配方(稱為“ LS-CCA1 ),從而減少 以下目標(biāo)函數(shù):k nL.W,耐=送(送(xTwTij)X|w1)。LS-CCA
18、1使用最先進(jìn)的算法18、19可以有效地解決。此外,整個解決方案的 路徑用最小角回歸算法20計算所有值。5. 高效實現(xiàn)的CCA回想一下,我們處理問題的廣義特征值在 來解決CCA雖然,在我們的理 推導(dǎo),等價特征值問題是代替。大規(guī)模的廣義特征值問題是已知的比常規(guī)的特征 值問題11、21來的更難。有兩個選項轉(zhuǎn)換中的問題(4)成一個標(biāo)準(zhǔn)的特征值 問題21:1)因素XXT和2)使用標(biāo)準(zhǔn)的蘭索斯算法矩陣(XXjXHH TXT使用XXT內(nèi)積。在對于高維問題與一個小正則化這種情況下,第二個選擇都有它自己的奇異矩陣的問題。因此,在本文中,我們XXT因素和解決對稱特征值問題使 用蘭索斯算法。相當(dāng)于導(dǎo)致一個有效的最小
19、二乘制定實施。 該算法的偽代碼,給出了算法1復(fù)雜的第一步是O(nk2)。在第二步中,我們解決最小二乘問題的k。在我們的實 現(xiàn)中,我們使用LSQR算法在14,這是一個實現(xiàn)了共軛梯度式法求解稀疏最小二 乘問題。注意,原始矩陣 X Rd n很稀少在應(yīng)用在程序中,如文本文檔建模。然而, 在中心,X不再是稀疏的。為了保持X稀疏的,向量x是由一個額外的組件作為增強xT = 1, xT。這個新組件充當(dāng)對最小二乘法的攔截。擴(kuò)展X來標(biāo)示 人R(d 1) k,min WT X -T二 _ rg申)琢修訂后的最小二乘問題表示為w IIF,其中W R 。對于一個新的數(shù)據(jù)點xRd,它的投影給出了WT1; x算法1。高效
20、的實現(xiàn)通過LSQR CCA輸入:X,丫1計算矩陣診H二YT(YYT)P斷基于奇異值分解的丫。用LSQF在T =Ht上回歸X。對于一個密集的數(shù)據(jù)矩陣,計算成本參與每個迭代的是0(3n 5d 2dn) 14。因為最小二乘問題解決了 k次,總體成本是 0(NK(3n 5d 2d n),其中N是迭代的總數(shù)。當(dāng)矩陣X是稀疏的,成本明顯降低。假設(shè)非零元素的數(shù)量在 X中是z。總成本減少到O(NK(3n - 5d - 2z)??傊?,總 時間復(fù)雜度為解決最小二乘配方通過 LSQF是 0(nk2 NK(3n - 5d - 2z)當(dāng)是X稀 疏的。6.擴(kuò)展最小二乘的配方回想一下,CCA尋求一對線性變換,一個用于每一組
21、變量,這樣數(shù)據(jù)最相關(guān) 轉(zhuǎn)換空間。相比之下,偏最小二乘法(PLS)發(fā)現(xiàn)方向最大協(xié)方差。協(xié)方差和相關(guān)性 是兩種不同的統(tǒng)計措施為如何共變的量化的變量。CCA和PLS已被證明是有密切 聯(lián)系22。在23和24, 一個統(tǒng)一的框架,請和CCA勺開發(fā),并正交(CCA)和偏最 小二乘法(OPLS)25的一個變體,可視為特殊情況的統(tǒng)一框架,通過選擇不同的 正則化參數(shù)值。然而,0PLS和CCA內(nèi)在的等價關(guān)系尚未研究過。在本節(jié)中,我們 證明了 0PLS和CCA等價關(guān)系,從而擴(kuò)展最小二乘0PLSE方。以下優(yōu)化問題被認(rèn) 為是在0PLS:max tr(WTXYTYXTW)W (20)stWT XX TW =1給出了最優(yōu)W以
22、下的特征向量的廣義特征值問題:XHpisH;XTw 二 XXTw(21)矩陣H pis被定義為Hpis 二丫丁.二 Rn k(22)20回想一下,在CCA矩陣A二V/H定義在(13)中和奇異值分解給出了A = pv aQT。同樣的,我們定義Apls二V/Hpb,允許細(xì)微的Ap|s奇異分解值為在范圍的空間VHpisApis = Ppis 遲 plsQ;is 其中 Ppis E R吠任 pis E RX,Q;is E R哄我們有下面的結(jié)果:引理6.1讓A二V/H定義在(13)中,Api廠H恥 R這樣R(A) = Re),其中r(a)和R(Apis)是A和ap|s的列空間。此外,存在一種像這樣Ppi
23、s = pk R的正交矩陣R,pk由p的第k列組成。本節(jié)的主要結(jié)果總結(jié)了以下定理:定理6.1讓W(xué)pis是最優(yōu)解的優(yōu)化問題(20)和讓W(xué)Cca是最佳CCA變換定義在(18)。然后,Wpis譏caR為正交矩陣Ro它遵循從定理6.1,0PLS可以很容易為一個等價的最小二乘問題的新配方使 用相同的類指標(biāo)矩陣定義在(16)o7.分析正則化在CCA在本節(jié)中,我們調(diào)查在CCA正規(guī)化的影響。最小二乘 CCA制定建立在本文 假設(shè)沒有正則化應(yīng)用。然而,正則化通常用于控制復(fù)雜性的學(xué)習(xí)模式,它已應(yīng) 用于各種機(jī)器學(xué)習(xí)算法。使用正則化在CCA自然統(tǒng)計解釋15,26 o在實踐 中,正則化通常在CCA中執(zhí)行兩種多維變量,因為
24、它一般認(rèn)為的解決方案是依 賴于CCA正規(guī)化兩變量。從前面部分后的推導(dǎo),我們表明投影,讓一群CCA 變量是獨立的正規(guī)化另組多維變量,提供新的影響CCA正規(guī)化的見解。7.1正規(guī)化在丫在CCA中對丫使用正則化導(dǎo)致下列廣義特征值問題:XYT(YYTyQYXTwyXXjw(23)y 0是正則化參數(shù)。廣義特征值問題在(23)可以表示為:XHrHTxTw (XXT)wn :k矩陣HR為正規(guī)化CCA的定義是:1(25)Hr 二YT(YYT主要結(jié)果概括如下定理:定理7.1讓W(xué)CCA是矩陣組成的主要特征向量的廣義特征值問題在(24)的非零特征值對應(yīng)。然后,WCCA 沁C為正交矩陣R。它很容易檢查在在(8)中H的和
25、在(25)中的Hr的范圍的空間一致。證明遵循相同的參數(shù)在引理6.1和定理6.1。定理7.1表明CCA配方被認(rèn)為是可以制定作為一個最小二乘問題相當(dāng)于當(dāng)Y正則化。注意,丫可以是任意矩陣(不一定是類標(biāo)簽矩陣)。一個重要的結(jié)果從等 價關(guān)系的投影為一個視圖是獨立的 CCA的正規(guī)化的其他視圖。一個類似的結(jié)果 能夠獲取內(nèi)核CCA。7.2正規(guī)化在X對Y自正則化不影響投影的X,我們接下來考慮正則化在 X分開。由此產(chǎn)生 的廣義特征值問題在CCA可以制定如下:(XHHTXT)w二(XXT xl)w(26)x 0是參數(shù)X正則化。同樣,我們可以推導(dǎo)出正交矩陣(XXTxQhXHHTxT), 結(jié)果總結(jié)了以下引理:引理7.1
26、定義矩陣B Rr k為1B=(E 12+扎xl)E MHH(2刀B V bQb為他的奇異分解,PB RrR,QBRrR是正交的R k是對角 線的。然后,與矩陣(XXxl)'(XHHTxT)的特征值最高所對應(yīng)的特征向量給出 了(28)pb由FB的第一列(汀ank(B)組成。它可以觀察到,B的空間范圍與A不是同于一個;因此,CCA和最小二乘的等 價關(guān)系被認(rèn)為是不持有當(dāng)正則化在 X。然而,OPLS CCA的等價關(guān)系仍然持有當(dāng) 正則化在X是應(yīng)用。主要結(jié)果總結(jié)在定理 7.2以下(證明遵循類似的參數(shù)在引理6.1):1定理7.2 Bpis十1 J) J M Hp.,讓b和Bpb少量的奇異分解值為B
27、二PB'b(Qb)tBpls = Ppls Ipls (Qpls )PB,PpBs Rrk,rB 二rank(B) = rank(Bpls)。然后,這個B和Bpls范圍的空間一致。此BB B外,還存在一個像P二PplsR這樣的正交矩陣RB,RrB rB。因此,CCA和OPLS是等價的任何x 0.回想一下,制定可歸納為CCA廣義特征值問題如(5),這就需要計算矩陣的逆 YYtRkk。計算逆可能計算量大,當(dāng)維數(shù)k的數(shù)據(jù)丫是很大的。這種情況在基于 內(nèi)容的圖像檢索27,兩個視圖對應(yīng)的文本和圖像數(shù)據(jù),都是高維度。一個重要的 結(jié)果,建立了 OPLS和CCA的等價關(guān)系是逆的大型矩陣可以有效避免計算投
28、影 一個視圖。8.實驗我們在實驗中使用三種類型的數(shù)據(jù)?;虮磉_(dá)模式圖像datal描述果蠅的基因表達(dá)譜28。每個圖像標(biāo)注一個變量數(shù)量的文本術(shù)語(標(biāo)簽)從受控詞匯表。 我們應(yīng)用伽柏過濾器中提取一個 384維的特征向量從每個圖像。我們用五個 數(shù)據(jù)集和不同數(shù)量的術(shù)語(類標(biāo)簽)。我們也評估擬議的方法在現(xiàn)場數(shù)據(jù)集29, 這是常用的作為一個基準(zhǔn)數(shù)據(jù)集對多元變量的學(xué)習(xí)。研究提出了最小二乘的可伸縮性配方,一個文本文檔數(shù)據(jù)集與高維度從雅虎!使用30。這些數(shù)據(jù)集的 統(tǒng)計歸納如表1 0表1匯總統(tǒng)計的數(shù)據(jù)集Data SetntotdkGene Image 186338410Gene Image 2104138415Ge
29、ne Image 3113838420Gene Image 412223842Gene Image 5134938430Scene24072946Yahoo、Arts&Hum 日 nitiES37122314626表2比較不同的CCA配方意思是中華民國方面得分Data setnCCALS-CCArCCAls-cca2LS-CCA!Gene 13680,5420,5420.6170.6190.722Gene 23620.5340.5340.6020.6030.707Gene 3372053805380.6090.6100.714Gene 436905400.5400.6030.6050.
30、704Gene 53540,54805480.6060.6080.709Scene19807100,7100.8640,9000.900Vahoo200005210.5210.7990*8010.784所有的數(shù)據(jù)集,報告10個隨機(jī)數(shù)據(jù)的分區(qū)訓(xùn)練集和測試集生成和平均性能 。 對于高維文本文檔的數(shù)據(jù)集,我們遵循特征選擇方法研究31文本文檔和提取不 同數(shù)量的術(shù)語(特性)調(diào)查性能的算法。與算法5進(jìn)行比較,包括在(5)中CCA和正 規(guī)化的版本(指示為商資歸農(nóng)),提出了最小二乘CCA配方(指示為Is CCA)及其2 規(guī)范和1規(guī)范正規(guī)化的版本(指示為LS-CCA2和LS-CCA1分別)。所有的方法都 是用于
31、項目數(shù)據(jù)到一個低維空間中線性支持向量機(jī)進(jìn)行分類為每個不同的標(biāo)簽。 接受者操作特性(ROC得分計算為每個不同的標(biāo)簽,在標(biāo)簽和平均性能報告所有 剝片。8.2 等價關(guān)系的評估和性能比較我們首先對(CCA)和最小二乘法的等價關(guān)系進(jìn)行評估。我們觀察到,當(dāng)數(shù)據(jù)維數(shù)d遠(yuǎn)遠(yuǎn)大于樣本大小n,在定理3.2的條件往往持有。它遵循從定理3.2, rank(Cxx)等于rank(CHH) rank(CDD)A所有對角元素是單位的,這是符 合觀測的實驗。在表2中,我們報告的平均分?jǐn)?shù)超過所有的標(biāo)簽和中華民國為每個數(shù)據(jù)集都 剝片。主要的觀察包括:1)CCA和Is CCA達(dá)到同樣的性能,所有的數(shù)據(jù)集,這是符 合我們的理論結(jié)果,
32、2)正規(guī)化CCAT展包括商資歸農(nóng)丄S-CCA2,LS-CCA1執(zhí)行更好 的比他們的同行CCA和Is CCA沒有正規(guī)化,3)LS-CCA2比得上在所有的數(shù)據(jù)集商 資歸農(nóng),而LS-CCA1達(dá)到最好的性能對于所有基因圖像數(shù)據(jù)集。這些觀察結(jié)果證 明用正則化最小二乘擴(kuò)展技術(shù)的有效性使。8.3 敏感性研究在這個實驗中,我們調(diào)查Is CCA勺性能相比CCA當(dāng)在定理3.2的條件中并不 持有,這種情況存在許多真實世界的應(yīng)用程序中。 具體來說,我們使用一個基因數(shù) 據(jù)集基因圖像2維數(shù)固定在d=384和k= 15的標(biāo)簽,而訓(xùn)練集的大小變化從100 年到900年與步長約100。不同的線性算法的性能作為訓(xùn)練集規(guī)模的增加呈
33、現(xiàn)在圖a1。我們可以發(fā)現(xiàn),總體而言,所有算法的性能增加的培訓(xùn)規(guī)模增加。當(dāng)n是很小,條件在定理3.2成立,因此CCA和 ls CCA是等價的,它們達(dá)到同樣的性能。當(dāng)n進(jìn)一步增加,CCA 和ls CCA實現(xiàn)不同的變動率指標(biāo)數(shù),雖然在我們的實驗差異分?jǐn)?shù)總是非常小的。 類似于上次的實驗,我們可以從圖觀察到,正則化方法能夠比CCA和 ls-CCA,LS-CCA2與rCCA更好地執(zhí)行。這個數(shù)據(jù)集稀疏配方LS-CCA1執(zhí)行的最好。實驗的靈敏度也表現(xiàn)在現(xiàn)場數(shù)據(jù)集。結(jié)果總結(jié)在圖b1,可以類似的觀察。(b)8.4可擴(kuò)展性研究在這個實驗中,我們研究相比最小二乘原CCA配方的可伸縮性配方。因為正 規(guī)化算法是首選在實踐
34、中,我們比較正規(guī)化CCA配方(rCCA)和2規(guī)范正規(guī)化最小乘配方(LS-CCA2)。最小二乘問題是解決LSQR算法14圖a2一個顯示了計算時間的兩個配方的高維文本文檔數(shù)據(jù)集雅虎Arts&Humanities作為數(shù)據(jù)維數(shù)隨著訓(xùn)練集的大小固定為 1000。它可以觀察到兩 種算法隨著數(shù)據(jù)維數(shù)不斷增加,計算時間不斷增加。然而 ,計算時間的最小二乘 配方(LS-CCA2)是大大低于原來的配方(rCCA)。事實上丄S-CCA2所有測試數(shù)據(jù) 維數(shù)計算時間小于5秒。我們也評估兩個配方的可伸縮性方面的訓(xùn)練樣本大小。圖b2陰謀計算時間的兩個公式在文本文件數(shù)據(jù)集當(dāng)訓(xùn)練樣本大小隨數(shù)據(jù)維數(shù)固 定為2000,可以
35、類似的觀察。訓(xùn)練集的大小由于高計算成本的原始特征值問題是 沒有進(jìn)一步增加。從圖2,我們得出了最小二乘配方是比原來 CCA配方更加可伸 縮。4(1LS-CCA2rCCA501I0OI0O 05 0 52 11(-SU0U制 一eampLS-CCA rCCA2000 3000 4000 5000 6000 7000 800Q 9000Uiinensionalityism2000250()Size cf Training Scl(b)但)8.5正則化分析在這個實驗中,我們研究的影響為CCA正規(guī)化。此外,我們比較OPLS和 CCA在不同正則化參數(shù)值下得性能。具體來說,我們隨機(jī)選擇700樣本數(shù)據(jù)集進(jìn) 行
36、訓(xùn)練的場景,不同的正則化參數(shù)值從1e- 6到1e4首先,我們考慮只在X正規(guī)化。CCA的性能和OPLS現(xiàn)場數(shù)據(jù)設(shè)置為變量 - 總結(jié)了圖3。我們可以觀察到從圖,在所有的x值,(CCA)和OPLS的性能是相同 的。這證實了 CCA和OPLS的等價關(guān)系定理7.2成立。我們還觀察到 OPLS和 CCA的性能可以提高,通過使用一個適當(dāng)?shù)娘@著正則化參數(shù),證明了利用正則化在X。接下來,我們考慮正則化只在丫。CCA和OPLS的性能的不同值 厶總結(jié)了圖3 b。我們可以觀察到CCA的表現(xiàn)依然是y變化,驗證正則化在y不影響其性能。 另外,我們觀察到兩種方法的性能在所有的情況下是相同的 ,這是符合我們的理論 分析。(a
37、)(b)9.總結(jié)在本文中,我們在溫和條件下為CCA建立一個等價的最小二乘配方,傾向于保 持高維數(shù)據(jù)。在本文中基于等價關(guān)系建立,我們提出幾個CCA擴(kuò)展包括稀疏 CCA。一個高效的算法擴(kuò)展CCA配方非常大的數(shù)據(jù)集。我們進(jìn)一步擴(kuò)展的 等價關(guān)系正交偏最小二乘法。此外,我們表明,投影一視圖CCA獨立的正規(guī)化 的其他視圖。我們進(jìn)行了多元變量數(shù)據(jù)集的集合的實驗。我們的實驗表明,最小二乘法CCA配方和原始CCA配方的性能非常接近甚至當(dāng)條件是違反 的。版權(quán)聲明這項研究是由美國國家科學(xué)基金會組織 (NSF)iis - 0612069,- 0812551,iisiis - 0953662,NIH,hm1582 R0
38、1-HG002516 NGA - 08 - 1 - 0016。參考文獻(xiàn):1 H. Hotelling,“Relations between Two Sets of Variables, Biometrika,vol. 28,pp. 312-377, 1936.2 D. Hardoon, S. Szedmak, and J. Shawe-Taylor, “Canonical Correlation Analysis: An Overview with Application to Learning Methods, ” Neural Computatio n, vol. 16, no. 12,
39、2004.3 J.-P. Vert and M. Kan ehisa, “ Graph-Drive n Feature Extract ion from Microarray Data Using Diffusion Kernels and Kernel CCA, ” Proc. Ann.Conf. Neural In formation Processi ng Systems, vol. 15, pp. 1425-1432, 2003.4 S. Yu, K. Yu, V. Tresp, and H.-P. Kriegel, “Multi-Output Regularized Feature
40、Projection” IEEE Trans. Knowledge and Data Eng., vol. 18, no. 12, pp. 1600-1613, Dec. 2006.5 C. Bishop, Pattern Recognition and Machine Learning. Springer, 2006.6 T. Hastie, R. Tibshira ni, and J. Friedma n. The Eleme nts of Statistical Lear ning:Data Mining, Inferen ce, and Predicti on. Sprin ger, 2001.7 G. Golub and C.V Loa n, Matrix Computati ons. Joh ns Hopk ins Press, 1996.8 R. Tibshirani, “Regression Shrinkage and Selection via the Lass”, J. RoyalStatistical Soc.: Series B, vol. 58, no. 1, pp. 267-288, 1996.9 A. d ' Aspremont, L. Ghaoui, M. Jordan, and GLan
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度外派工程師專項勞動合同精要3篇
- 2025年度特許經(jīng)營權(quán)授予與行使合同3篇
- 海南外國語職業(yè)學(xué)院《交通信息系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度旅游度假村合作協(xié)議范本
- 2025年度綠色蔬菜直銷合作協(xié)議范本6篇
- 二零二五年度大型超市連鎖加盟經(jīng)營合同2篇
- 二零二五年度教育機(jī)構(gòu)教師兼職工作合同2篇
- 課程設(shè)計批閱意見
- 二零二五年度季度銷售獎杯采購與市場調(diào)研與競爭分析合同3篇
- 二零二五年度ROHS認(rèn)證服務(wù)及產(chǎn)品保證合同模板2篇
- 2025屆高考數(shù)學(xué)一輪復(fù)習(xí)建議 概率與統(tǒng)計專題講座
- 廣東省公務(wù)員考試筆試真題及答案
- 吸入療法在呼吸康復(fù)應(yīng)用中的中國專家共識2022版
- 風(fēng)險分級管控和隱患排查治理體系培訓(xùn)考試題參考答案
- 部編版二年級下冊語文第四單元教學(xué)設(shè)計含語文園地四
- 江西省第一屆職業(yè)技能大賽分賽場項目技術(shù)文件(世賽選拔)網(wǎng)絡(luò)安全
- GB/T 18029.22-2024輪椅車第22部分:調(diào)節(jié)程序
- NB-T32042-2018光伏發(fā)電工程建設(shè)監(jiān)理規(guī)范
- 垃圾焚燒行業(yè)經(jīng)營分析報告
- 合同審查報告模板
- JBT 14589-2024 敷膠雙螺桿泵(正式版)
評論
0/150
提交評論