機器學(xué)習(xí)基礎(chǔ)教程課件:數(shù)據(jù)維度歸約方法_第1頁
機器學(xué)習(xí)基礎(chǔ)教程課件:數(shù)據(jù)維度歸約方法_第2頁
機器學(xué)習(xí)基礎(chǔ)教程課件:數(shù)據(jù)維度歸約方法_第3頁
機器學(xué)習(xí)基礎(chǔ)教程課件:數(shù)據(jù)維度歸約方法_第4頁
機器學(xué)習(xí)基礎(chǔ)教程課件:數(shù)據(jù)維度歸約方法_第5頁
已閱讀5頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)維度歸約方法

6.1單類數(shù)據(jù)降維6.2非線性降維算法簡介6.1單類數(shù)據(jù)降維6.1.1主成分分析主成分分析,是要在數(shù)據(jù)集中找到“主要的成分”,然后通過這些主成分來認(rèn)識整個數(shù)據(jù)集的特點。很顯然,主成分分析可以降低數(shù)據(jù)集的維度,實現(xiàn)對于數(shù)據(jù)量的壓縮。在數(shù)學(xué)上,主成分分析通常將數(shù)據(jù)集中的一組變量通過線性組合的方法轉(zhuǎn)化成另一組線性無關(guān)的變量,然后對這些新的變量按照其方差的次序進行排列。方差最大的那個變量就成為第一主成分,然后隨之遞減分別稱為第二主成分,……,第k主成分。其數(shù)學(xué)表達如下:如果有n個變量所組成的數(shù)據(jù)集:。其協(xié)方差陣為Σ,該協(xié)方差陣的特征值為,且有:將數(shù)據(jù)集中的分量進行線性組合,產(chǎn)生新的變量:6.1單類數(shù)據(jù)降維則新變量Y的方差/協(xié)方差陣為:式中對角線元素為方差,即:非對角線元素為協(xié)方差,即:

接下來需要求出方差/協(xié)方差陣的特征值和特征向量。已知初始數(shù)據(jù)集的特征值為,與之相對應(yīng)的特征向量為:,而P是由特征向量所組成的正交陣,則根據(jù)矩陣?yán)碚摰南嚓P(guān)知識,有:6.1單類數(shù)據(jù)降維式中,為由特征值作為對角線元素的對角陣。則由,可知式有:而特征向量進行正交化和單位化后,有因為進行正交化后特征向量兩兩之間相互正交,故有:。這樣不論特征值是否相等,新變量的方差陣一定是對角型矩陣,不會出現(xiàn)約當(dāng)塊(JordanBlock)。也就是新變量的協(xié)方差為零:6.1單類數(shù)據(jù)降維由此可知,式(6-2)應(yīng)為:新變量所構(gòu)成的新數(shù)據(jù)集方差陣的跡為:從式也可以看出,舊數(shù)據(jù)集中數(shù)據(jù)的特征值和經(jīng)過變換之后新數(shù)據(jù)集中數(shù)據(jù)的特征值并沒有改變。這是因為在整個變換過程中進行的是非奇異線性變換,該變換不會改變特征值。6.1單類數(shù)據(jù)降維將新數(shù)據(jù)集中每組數(shù)據(jù)的方差與總的方差和作對比,就可以得出每組數(shù)據(jù)方差占數(shù)據(jù)總體方差的比例。即:式中,即為每組數(shù)據(jù)方差占數(shù)據(jù)總體方差的比例。如果有某個或某幾個方差的比例很大,足以占到數(shù)據(jù)總體方差的絕大部分(例如占到80%以上,可以根據(jù)情況人為指定),那么就可以認(rèn)為在數(shù)據(jù)集中這些因素是整個數(shù)據(jù)的“主成分”,可以用這些數(shù)據(jù)來代表整個數(shù)據(jù)集,用這些數(shù)據(jù)來解釋整個數(shù)據(jù)集。那些只占很少部分的因素就可以幾乎忽略不計了。這就是主成分分析的基本思想。下面從幾何的角度來解釋主成分分析的意義。6.1單類數(shù)據(jù)降維如圖所示,有一組三維數(shù)據(jù)在空間中表示。這組數(shù)據(jù)比較雜亂,我們看不出在哪個方向上占優(yōu)勢。于是,可以進行坐標(biāo)變換,將數(shù)據(jù)集重新安置在新的坐標(biāo)中。這時,就可以看出數(shù)據(jù)集中的數(shù)據(jù)主要集中在哪個坐標(biāo)軸的方向上了,以此作為數(shù)據(jù)集的主成分。主成分分析的幾何表示6.1單類數(shù)據(jù)降維為了能更清楚地用數(shù)學(xué)語言說明主成分分析的特點,不妨設(shè)數(shù)據(jù)集中的數(shù)據(jù)是滿足正態(tài)分布的。在分析時先以2維情況為例進行,在2維情況下,不妨設(shè)數(shù)據(jù)集中的數(shù)據(jù)滿足正態(tài)分布,即:式中,為兩維數(shù)據(jù)的期望,即:;為這兩維數(shù)據(jù)的協(xié)方差矩陣,即:。有。另可知,而二維正態(tài)分布隨機向量概率密度函數(shù)如圖所示。6.1單類數(shù)據(jù)降維將各維數(shù)據(jù)標(biāo)準(zhǔn)化:對于數(shù)據(jù)向量,它與期望向量的廣義距離為:其平方為:6.1單類數(shù)據(jù)降維從圖及式中可以看出,對于概率密度的表面是一個橢球面。其中心為,長短軸為協(xié)方差陣。一般的數(shù)據(jù)集中,方差陣并不是一個對角陣,這說明橢球的各“長短軸”并不在坐標(biāo)軸的軸線上。很難對比這些“長短軸”的長度。進行坐標(biāo)變換,將坐標(biāo)進行旋轉(zhuǎn),使這些“長短軸”能夠位于坐標(biāo)軸上,然后對比橢球面“長短軸”的長度,長度越長則越能代表這個數(shù)據(jù)集的主成分。那么進行旋轉(zhuǎn)變換以后,主成分(或其他成分)與原有的數(shù)據(jù)之間關(guān)系,這就需要研究主成分與原有變量之間的相關(guān)程度,即相關(guān)系數(shù)。將上述分析,經(jīng)坐標(biāo)變換后的數(shù)據(jù)可以表示為:6.1單類數(shù)據(jù)降維另設(shè),(第k個元素為1)則有,XK=akX。由此可以求出原數(shù)據(jù)集中第k個分量與經(jīng)過變換后的新數(shù)據(jù)集中第i個分量之間的相關(guān)系數(shù)。首先計算其協(xié)方差:式中,為變換后新數(shù)據(jù)集的特征值。為一標(biāo)量,是行向量ak與新數(shù)據(jù)集中第i個特征向量(列向量)的乘積,也就是保留了這個特征向量的第k個分量,其余全部清零。式中,為原數(shù)據(jù)集中方差陣對角線元素中第i個分量。6.1單類數(shù)據(jù)降維例6.1有數(shù)據(jù)集包含三維數(shù)據(jù),其協(xié)方差陣為(由于需要有較多數(shù)據(jù)才能計算協(xié)方差陣,而且計算協(xié)方差陣并不是主成分分析的核心內(nèi)容,故在此直接給出協(xié)方差陣):試給出對該數(shù)據(jù)集的主成分分析。6.1單類數(shù)據(jù)降維解:首先,計算協(xié)方差陣的特征值及其對應(yīng)的特征向量,特征值為:對應(yīng)的特征向量為:經(jīng)變換后的新變量為:從式中可以看出,X3與其他兩個向量不相關(guān),應(yīng)該為主成分之一。6.1單類數(shù)據(jù)降維可以看出,在新的數(shù)據(jù)集中,Y1和Y2不相關(guān)。新數(shù)據(jù)集的方差特征值之和:新數(shù)據(jù)集中各變量所占比重為:從這里可以看出,使用新數(shù)據(jù)集中的Y2和Y3兩個主成分占總體方差的0.856,具有很大的比重,可以在很大程度上代表數(shù)據(jù)的基本情況。進一步地,還可以新舊數(shù)據(jù)集中各分量的相關(guān)程度。舊數(shù)據(jù)中的X3分量與新數(shù)據(jù)集中的Y2分量相等,其相關(guān)系數(shù)為1。下面分析新變量中所占成分最大的Y3與舊數(shù)據(jù)中兩個分量的情況。6.1單類數(shù)據(jù)降維從此兩式可以看出,舊數(shù)據(jù)中X1的分量又占到新數(shù)據(jù)主成分Y3的94.3%,而X2分量僅占Y3的56.4%。說明舊數(shù)據(jù)中X1的分量對于新數(shù)據(jù)主成分Y3的影響很大,而X2分量對Y3的影響則在其次。在本題中,主成分分量Y2=X3與其他兩個向量不相關(guān),可直接分離出來,但更多情況下并不是這樣。6.1單類數(shù)據(jù)降維例6.2有數(shù)據(jù)集包含三維數(shù)據(jù),其協(xié)方差陣為問題?

6.1單類數(shù)據(jù)降維解:先來計算協(xié)方差陣的特征值及其對應(yīng)的特征向量,特征值為:對應(yīng)的特征向量為:經(jīng)變換后的新變量為:很明顯,這個例子和上一個例子不同,新變量沒有不相關(guān)的情況。但是這并不妨礙從其中提取主成分。新數(shù)據(jù)集的方差特征值之和:6.1單類數(shù)據(jù)降維新數(shù)據(jù)集中各變量所占比重為:從這里可以看出,使用新數(shù)據(jù)集中的Y1和Y2兩個主成分占總體方差的0.858。除了進行計算分析以外,主成分分析還常常通過圖形化的表示給出。這主要是指碎石圖,如下圖所示。碎石圖的橫坐標(biāo)為經(jīng)過變換后的新數(shù)據(jù)“成分”,縱坐標(biāo)為經(jīng)主成分分析后各分量的特征值。碎石圖可以很形象直觀地反映出各個變量在總體中所占的比重。6.1單類數(shù)據(jù)降維

碎石圖示意Q-Q圖示意除了使用碎石圖來直觀觀察主成分分析中各成分所占比例的情況外,通常還使用Q-Q圖來觀測和檢驗新的數(shù)據(jù)變量與原數(shù)據(jù)變量之間的相關(guān)性。6.1單類數(shù)據(jù)降維6.1.2因子分析因子分析與主成分分析有一定的相似之處,是用一組構(gòu)造的變量來描述數(shù)據(jù)集中各變量之間的協(xié)方差的關(guān)系。一般來講,這些構(gòu)造的變量不能被觀測,稱為“因子”。因子分析的主要思想是:如果在數(shù)據(jù)集中有一些變量之間的相關(guān)性很高,說明他們之間很相似,擁有相同的“結(jié)構(gòu)”,那么就將其歸為一類,使用一個結(jié)構(gòu)變量來代表這組變量,這個結(jié)構(gòu)變量就是因子,分析的過程就稱為因子分析??梢钥闯?,經(jīng)過這樣的分析過程后同樣也實現(xiàn)了數(shù)據(jù)維度的歸約。下面來討論因子分析的方法和過程。對于數(shù)據(jù)集X,其中的數(shù)據(jù)有n個分量:;各分量的均值為:;協(xié)方差矩陣為。設(shè)定數(shù)據(jù)集有m個因子:。將數(shù)據(jù)集中的各數(shù)據(jù)分量中心化,并用因子線性表達,有:6.1單類數(shù)據(jù)降維與式(6.1)相比,該式多了誤差項,這是主成分分析與因子分析的不同之處之一。因子分析中,因子的數(shù)量在很大程度上是人為指定的,而不僅僅是旋轉(zhuǎn)變換,因此數(shù)據(jù)集中的數(shù)據(jù)各分量可能會存在不同程度的誤差。將式寫成矩陣表達形式:式中,A稱為因子載荷陣(n*m),其各分量aij為第i個變量在第j個因子上的載荷。F為因子向量(m*1),為誤差向量(n*1)。對于這種線性表達,有一定的條件約束,即:6.1單類數(shù)據(jù)降維說明各因子之間是相互正交的,因此在這種條件下的因子分析也稱為正交因子分析。如果該條件不滿足,就成為了斜交因子分析。對于數(shù)據(jù)集中數(shù)據(jù)經(jīng)中心化后的方差結(jié)構(gòu),有:數(shù)據(jù)經(jīng)中心化后與因子之間的協(xié)方差結(jié)構(gòu):6.1單類數(shù)據(jù)降維由式可以看出,經(jīng)中心化后的各分量的方差由兩部分組成:一部分是由因子載荷的平方和所組成的,即,稱為共性方差。另一部分是由誤差的方差所給出的,即,稱為特殊方差。共性方差可以表示為于是有:在得到方差的基本結(jié)構(gòu)后,接下來的任務(wù)就是如何求取這些參數(shù)了。這些參數(shù)包含因子載荷和誤差方差。前面提到,因子分析與主成分分析有一定的相似之處,因此求取這些參數(shù)的方法之一就是借助于主成分分析的方法。首先利用主成分分析方法的相應(yīng)結(jié)論求取因子載荷的系數(shù),然后再得出特殊方差。6.1單類數(shù)據(jù)降維對于式(6.25)先忽略其特殊方差,就剩下陣AAT,容易得知這是一個n*n的對稱陣,不妨將其記作R。將R的n個特征值排列,,對應(yīng)的特征向量所組成的矩陣為:,由特征值組成的對角陣為,。根據(jù)矩陣特征值分解,有:從式中,各特征向量可以看作是數(shù)據(jù)集的因子,而為尺度因子。對照式(6.19),可以看作是第i個因子的主成分系數(shù)。更進一步地,如果尺度因子很小時,可以將其略去,將因子的數(shù)量縮減為p個,這時式化為:6.1單類數(shù)據(jù)降維從式中可以看出,在縮減了n-p個因子后,共性方差陣仍然保持了n階方陣的形式。這樣因子分析和主成分分析就幾乎一致了,在保持?jǐn)?shù)據(jù)維度歸約的基礎(chǔ)上,對于方差分析并沒有影響。此時如果想進一步提高精度的話,可以考慮將特殊方差考慮進來,由式有:6.1單類數(shù)據(jù)降維式中,。需要說明的是,這時的特殊方差已經(jīng)和原先的特殊方差已經(jīng)有所不同了。以上過程可以總結(jié)如下:因子分析的因子載荷矩陣為:因子分析的特殊方差矩陣為:因子分析中,因子數(shù)量的選定可以由人為指定,也可以根據(jù)主成分分析的方法來進行選定。根據(jù)主成分分析方法來進行選定時,通常通過考察因子對于樣本方差的貢獻大小來進行,即可以參照式來進行,將貢獻小的因子忽略。由于這種參數(shù)確定的方法與主成分分析方法非常類似,因此也稱為因子分析的主成分解。6.1單類數(shù)據(jù)降維除了上述的主成分分析方法外,對于因子分析還可以使用極大似然估計的方法進行。極大似然估計方法需要獲得估計對象的概率分布(或概率密度)函數(shù)的情況。在實際的估計分析過程中,常常將因子向量(有時也稱作公共因子)F和誤差向量(也稱特殊因子)的分布情況設(shè)定為正態(tài)分布。當(dāng)兩者為聯(lián)合正態(tài)分布時,可以得到其似然函數(shù)為:所求的極大似然估計就是要在上式的條件下,使式能夠達到最大值。在此基礎(chǔ)上,需要考慮約束條件:6.1單類數(shù)據(jù)降維從而可以得出極大似然估計值和??紤]到極大似然估計的不變性,共性方差的極大似然估計為:而歸因于某個因子i的樣本占總方差的比例為:下面試舉一例來說明因子分析方法的情況(以主成分解為例)例6.3某數(shù)據(jù)集的相關(guān)系數(shù)矩陣如下:試求其因子分析。6.1單類數(shù)據(jù)降維解:首先求出其特征值:相對應(yīng)的特征向量為:從計算的結(jié)果可以看出,其中兩個特征值,大于其他3個特征值很多,因此可以將其作為公共因子。這兩個公共因子累積占到樣本總方差的比例為:6.1單類數(shù)據(jù)降維由式(6.33)有:可以看出,使用兩個因子的模型就可以對整個數(shù)據(jù)集進行描述。其共性方差:(0.904,0.882,0.661,0.942,0.947)表明了這兩個因子在數(shù)據(jù)集中的各變量方差占有很大比例。可以將因子分析的結(jié)果用表格表示出來,如表6.1所示。6.1單類數(shù)據(jù)降維在因子分析中,除了要得出公共因子機器變量的分組以外,在很多情況下還需要能夠給出每個因子的含義。而且因子載荷陣不是唯一的,還需要對其進行旋轉(zhuǎn)變換,將因子的分布能夠盡量地靠近各坐標(biāo)軸,這樣可以更直觀地看到因子分析的結(jié)構(gòu)。6.1單類數(shù)據(jù)降維即對于因子分析過程中的矩陣A,有:其中,有:可以保證在因子載荷陣旋轉(zhuǎn)前后的范數(shù)保持不變。這樣,就變?yōu)榱耍簭纳鲜娇梢钥闯?,特殊方差并沒有改變;同時由于保證了共性方差也沒有改變,僅僅是做了一個繞坐標(biāo)原點的旋轉(zhuǎn)(在隨后的分析中將會看到這一點)。從表中可以看到,對于因子f1其載荷均為正值,這說明五個變量的整體響應(yīng)都基本位于同一方向上;而對于因子f2來講,其載荷有正有負(fù),說明變量對于響應(yīng)出現(xiàn)了兩種情況,故而將其稱為兩極因子。6.1單類數(shù)據(jù)降維可以將二維坐標(biāo)順時針旋轉(zhuǎn)21°可得到一個新的坐標(biāo)系,如圖所示。圖中,實線為原坐標(biāo)系,而虛線為進行旋轉(zhuǎn)過后的坐標(biāo)系。由矩陣?yán)碚摰闹R可知,順時針旋轉(zhuǎn)的坐標(biāo)變換陣為:由此可以得到新的載荷陣為:6.1單類數(shù)據(jù)降維這樣一來,所有的載荷配對點全部都落在了第一象限,而且還非??拷鼉蓚€坐標(biāo)軸分布。顯示出了獨特的方向性。同樣的,將旋轉(zhuǎn)變換后的載荷情況繪制成表6.2。從該表中的數(shù)據(jù)可以清楚地看到因子的優(yōu)勢情況,如帶框的數(shù)據(jù)就說明了這一點。而且與圖6.5的圖示情況也是一致吻合的。6.1單類數(shù)據(jù)降維那么,具體應(yīng)該旋轉(zhuǎn)多大的角度呢?一般是由最大方差準(zhǔn)則來決定的。所謂的最大方差準(zhǔn)則是指要使旋轉(zhuǎn)后的A*陣的總方差達到最大,即:在對因子分布的情況有了直觀感性的認(rèn)識后,還需要給出對因子的估計,這稱為因子得分。從估計理論的角度來看,雖然不能把因子得分看作是普通的參數(shù)估計,但可以進行類比:因子得分是對不能直觀進行觀測的因子的“參數(shù)”估計。6.1單類數(shù)據(jù)降維對于所給出的因子分析表達式中,為誤差向量??梢钥紤]將誤差向量平方和最小化,利用最小二乘估計的思想來求取因子得分。由式(6.21)做變換有:誤差平方和為:使其最小化,有:根據(jù)矩陣?yán)碚摰南嚓P(guān)知識,可以求得:6.1單類數(shù)據(jù)降維對比可以得知,這是一個最小二乘解。還可以在此基礎(chǔ)上對結(jié)果進行修正,例如可以添加一個權(quán)系數(shù),構(gòu)成加權(quán)最小二乘估計。在實際的處理過程中通常取誤差方差陣的倒數(shù)作為權(quán)矩陣,這樣的估計結(jié)果如下:求得:除了通過最小二乘類方法可以得到因子得分以外,還可以通過其他方法得到,例如回歸方法、極大似然估計的方法等等。在得出因子得分后,可以構(gòu)建各個因子與數(shù)據(jù)集中的數(shù)據(jù)的線性表達,并借此繪制出因子得分圖。如下圖所示。從因子得分圖中可以很直觀地看到數(shù)據(jù)集中相關(guān)因子的分布情況。當(dāng)然,如果有三個因子的話,也可以繪制三維圖形。四個以上的因子,可以兩兩繪制表示進行分析。6.1單類數(shù)據(jù)降維因子分析似乎與精確地科學(xué)分析有一定的距離,但不能否認(rèn)的是,因子分析作為數(shù)據(jù)降維的一種方法在統(tǒng)計分析和機器學(xué)習(xí)中是非常有效的一種工具。6.1單類數(shù)據(jù)降維6.1.3相關(guān)分析相關(guān)分析主要是研究兩組數(shù)據(jù)集之間的關(guān)系,并能夠給出其定量的說明。相關(guān)分析是對兩組變量的線性組合進行研究:首先得到一對線性組合,其相關(guān)系數(shù)最大;然后再從其他的數(shù)據(jù)中選出最大相關(guān)系數(shù)的一組;接著進行往復(fù)循環(huán)迭代,漸次進行完畢。這些逐次選出的線性相關(guān)的組合成為典型變量(向量),其相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。因此,相關(guān)分析也稱作典型相關(guān)分析。目前,相關(guān)分析是研究兩組數(shù)據(jù)集相關(guān)關(guān)系的非常有效的方法。設(shè)有兩個數(shù)據(jù)集X,Y,其中數(shù)據(jù)集X有p個分量,數(shù)據(jù)集Y有q個分量,不妨考慮p<q,且兩組數(shù)據(jù)選取的樣本數(shù)相同,均為n,即:6.1單類數(shù)據(jù)降維另,在上述的兩個數(shù)據(jù)集中,還可以看作是由隨機向量組成的,即:這兩組隨機向量(數(shù)據(jù)集)的數(shù)字特征如下:將這兩個數(shù)據(jù)集合并為一個數(shù)據(jù)集,則其數(shù)字特征為:相關(guān)分析的基本任務(wù)是要在中選擇幾個協(xié)方差來表達數(shù)據(jù)集X和Y之間的關(guān)系。6.1單類數(shù)據(jù)降維再將原先的兩個隨機向量分別進行線性組合,形成新的向量:則新向量的(協(xié))方差為:相關(guān)分析就是求取系數(shù)向量a和b,使得相關(guān)系數(shù):能夠取得最大。同時還需要保持有:6.1單類數(shù)據(jù)降維及這樣問題就成為了在條件約束下,求最大值的條件極值問題。由此得出的U和V稱為典型相關(guān)變量,其相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。根據(jù)高等數(shù)學(xué)的相關(guān)知識,條件極值問題的求解一般使用拉格朗日乘子法進行。因此可以構(gòu)造輔助函數(shù):式中,λ、τ為拉格朗日乘子??紤]到數(shù)據(jù)標(biāo)準(zhǔn)化的情況,可以使用相關(guān)系數(shù)代替方差,于是變?yōu)椋?.1單類數(shù)據(jù)降維對上式求極值,有:對第1式左乘aT,第2式左乘bT,有:因為拉格朗日乘子均為標(biāo)量系數(shù),因此,令,并代入求解,可得:6.1單類數(shù)據(jù)降維從以上兩式可以看出,r為矩陣的特征值,且介于0和1之間,是為相關(guān)系數(shù)。需要指出的是矩陣與矩陣并不是對稱陣,因此其特征向量也不相同。將矩陣的特征向量記為,將矩陣的特征向量記為。然后將這兩組特征向量分別組合在一起,形成一個個特征向量對,即就是典型相關(guān)變量的典型系數(shù)。典型相關(guān)變量一般由人為定義,但相關(guān)系數(shù)并沒有指出原始變量對于典型相關(guān)分析的貢獻情況。下面就來討論這方面的問題。令,并考慮V中前m個典型變量,有:又可得:6.1單類數(shù)據(jù)降維式中,為矩陣的對角線元素。于是有:由變換可知,相關(guān)分析也是一種旋轉(zhuǎn)變換,是由方差陣的一種正交變換。例6.4有兩組標(biāo)準(zhǔn)化變量Z1,Z2其中,。這兩組變量合并成為一組變量,有:。其方差陣為:試對其進行相關(guān)分析。6.1單類數(shù)據(jù)降維解:根據(jù)相關(guān)理論,對于標(biāo)準(zhǔn)化變量使用相關(guān)系數(shù)代替方差。可先計算得:則,求得其特征值:對應(yīng)的特征向量為:由此可求出:6.1單類數(shù)據(jù)降維先求出b1的大致線性范圍,將其歸一化后,有:由此可得,第一對典型變量為:其典型相關(guān)系數(shù)為:從這兩個典型相關(guān)系數(shù)可以看出,對于第一組典型相關(guān)系數(shù)而言,是這兩組變量的最大相關(guān)系數(shù);而第二組典型相關(guān)系數(shù)無疑很小,反映了這兩組變量之間沒有太多的相關(guān)性。6.1單類數(shù)據(jù)降維接著進行典型變量與各成分變量之間相關(guān)系數(shù)的計算。從上面可以看到,典型變量實際上是各變量的綜合。如果綜合良好的話,則各變量的之間的聯(lián)系可以使用其相關(guān)系數(shù)來進行描述。典型相關(guān)分析可以度量兩組變量之間的聯(lián)系強度,可以將兩組變量的高維關(guān)系縮減到幾對典型變量來進行表示,在數(shù)據(jù)降維分析方面有廣泛的應(yīng)用。6.2非線性降維算法簡介前面幾節(jié)所涉及到的降維都是在線性的范疇內(nèi)展開的,屬于線性降維的算法。但是在很多情況下,需要進行非線性降維處理。在非線性數(shù)據(jù)降維算法中流形學(xué)習(xí)算法是一類常用的非線性降維算法。所謂流形是對一般的幾何空間的描述,在局部具有歐幾里得空間的性質(zhì)。流形學(xué)習(xí)降維的基本思路與線性降維思路類似,也是通過一定的映射關(guān)系將高維空間的數(shù)據(jù)降到低維空間來進行處理,所不同的是,使用的變換方法不再是線性變換了,也不是僅僅進行坐標(biāo)旋轉(zhuǎn)那樣的處理。由于流形學(xué)習(xí)所需要的數(shù)學(xué)知識比較多,因此在這里僅作概略性的介紹。6.2.1等距映射(ISOMAP:IsometricMapping)等距映射涉及到多維標(biāo)度變換(MDS,Multi-DimensionalScaling)的問題,它可以保持所處理空間上的歐氏距離。多維尺度變換將原始數(shù)據(jù)“映射”到低維空間的坐標(biāo)系中,在此過程中需要保持降維引起的變形達到最小。而變形的衡量則通過原始的數(shù)據(jù)點之間的距離來進行。多維標(biāo)度變換所涉及的問題是:如果有N個數(shù)據(jù)“點”在高維空間中,而這些數(shù)據(jù)不便進行分析,需要將其變換到低維空間;那么在多維標(biāo)度變換過程中需要使得原來高維空間中數(shù)據(jù)“點”之間的“距離”與變換后到低維空間中的數(shù)據(jù)“點”之間的“距離”基本保持對應(yīng)關(guān)系或者能夠相互匹配。對于有N個數(shù)據(jù)“點”的話,可以得知其共有個“距離”。先設(shè)定這些距離均不相等,然后進行升序排列,即:6.2.1等距映射(ISOMAP:IsometricMapping)然后尋找一個映射結(jié)構(gòu),將各點之間的距離結(jié)構(gòu)保持排序不變,并使其維數(shù)降低,成為一種新的低維的排序(也可構(gòu)成降序排列):這里需要說明的有兩點:一、首先變換后的維度需要比變換前的維度降低;二、在變換過程中主要強調(diào)的是排序!也就是說要在變換前后保持嚴(yán)格的排序結(jié)構(gòu),至于變換前后的值的大小則不予考慮,只要保持嚴(yán)格的單調(diào)關(guān)系就可以了。那么怎樣衡量原先的數(shù)據(jù)和變換后的數(shù)據(jù)距離的結(jié)構(gòu)(相似性)能夠保持閆哥單調(diào)呢?Kruskal.J.B提出了一個衡量其偏離匹配程度的量,將其稱為“應(yīng)力”:6.2.1等距映射(ISOMAP:IsometricMapping)以此來衡量非單調(diào)性的情況。應(yīng)力的大小和擬合優(yōu)度密切相關(guān),基本呈負(fù)相關(guān):擬合優(yōu)度越好應(yīng)力就小,反之則越大。對于多維標(biāo)度變換算法一般有一下幾個步驟:Step1:對于N個數(shù)據(jù),求出其間的N(N-1)/2個距離,然后按照式(6.68)排序;Step2:設(shè)定一組降維后的初值點,這組點dik滿足式(6.69)的單調(diào)性要求,然后使應(yīng)力指標(biāo)最??;Step3:如果應(yīng)力指標(biāo)最小則轉(zhuǎn)下一步,如應(yīng)力沒有達到最小則調(diào)整dik進行迭代;Step4:對于最小應(yīng)力進行作圖,并選擇最佳維數(shù)。從以上的分析來看,多維標(biāo)度變換仍然是一種線性變換。在非線性降維處理過程中,要保持式(6.68)到式(6.69)的歐式距離單調(diào)性有很大困難,因此需要引入等距映射IsometricMapping

(ISOMAP)算法。6.2.1等距映射(ISOMAP:IsometricMapping)等距映射就是一種改進的多維尺度變換方法。這種方法將原來的高維空間中的歐氏距離換成了流形上的測地線距離。所謂測地線距離是大地測量學(xué)的一種名詞,可以定義為空間中兩點的局域最短或最長的路徑,主要運用在地圖的測繪上。這種變換就如同將一個三維的地球儀映射到兩位平面的地圖一樣。如圖6.6所示。在這種映射變換中,各地之間的距離保持了嚴(yán)格的單調(diào)性,但是其距離定義已經(jīng)遠不是歐氏距離了,等距映射6.2.1等距映射(ISOMAP:IsometricMapping)等距映射的降維方法就是用測地線距離來代替歐氏距離,然后運用多維尺度變換的方法進行的。在有了上述的準(zhǔn)備后就可以進行等距映射的數(shù)據(jù)降維了。等距映射的算法步驟如下:Step1:首先建立一個近鄰圖G。然后按照多維標(biāo)度變換的方法進行排序,在此過程中距離的定義可以使用歐氏距離;Step2:利用測地線距離的方法進行非線性的等距映射,建立低維情況下的距離關(guān)系;Step3:按照多維標(biāo)度變換的方法對應(yīng)力指標(biāo)進行最小化,迭代運算;Step4:得到相應(yīng)的降維結(jié)果(如有必要可以進行逆變換,還原為高維情況下的簡化結(jié)果);等距映射是一種無監(jiān)督的學(xué)習(xí)算法,同時也是降維學(xué)習(xí)算法,可以通過降維方法在低位空間內(nèi)揭示數(shù)據(jù)集的基本特征。6.2.2拉普拉斯特征映射(LE:LaplacianEigenmaps)拉普拉斯特征映射是建立在譜圖理論上的一種降維算法,需要借助離散的拉普拉斯算子進行。這種算子實際上是一個矩陣,這種矩陣在電路理論里也叫導(dǎo)納矩陣,基爾霍夫矩陣。下面先來介紹一下譜圖和離散拉普拉斯算子。如圖6.7給出的圖。圖中各個頂點給出標(biāo)號,各個頂點連接的數(shù)目稱為度,于是可以得出該圖的度矩陣D如下:6.2.2拉普拉斯特征映射(LE:LaplacianEigenmaps)拉度矩陣D是一個對角陣。再定義鄰接矩陣W,也稱為權(quán)重矩陣,用來表示頂點之間的連接情況,如果兩個頂點相連,則對應(yīng)的元素為1。如果連接的強度有分別的話,則乘以權(quán)重系數(shù)wij。有,拉普拉斯矩陣定義為:L=D-W。則有:由此可以看出,拉普拉斯矩陣為對稱陣,對角線元素為頂點的度數(shù),非對角線元素均為-1。而且,在該矩陣中各行、列的元素之和均為0。6.2.2拉普拉斯特征映射(LE:LaplacianEigenmaps)拉普拉斯特征映射的基本思想是使用圖論的方法來描述流形,然后通過圖的嵌入來進行低維表示。在保持圖的局部鄰接關(guān)系不變的條件下,將高維數(shù)據(jù)向低維空間進行映射。設(shè)原樣本集,經(jīng)過拉普拉斯特征映射后的樣本集為。為了使數(shù)據(jù)在流形上的學(xué)習(xí)能夠得到平滑的輸入輸出函數(shù),可引入高斯核函數(shù):其中,優(yōu)化學(xué)習(xí)的目標(biāo)函數(shù)由下式給出:6.2.2拉普拉斯特征映射(LE:LaplacianEigenmaps)式中,前兩項為正則化最小二乘學(xué)習(xí),第三項為拉普拉斯特征映射學(xué)習(xí)。為拉格朗日乘子,wij為權(quán)重系數(shù),v是一個非負(fù)系數(shù),用來調(diào)整流形學(xué)習(xí)的平滑性。將拉普拉斯矩陣的運算關(guān)系代入,則式(6.76)第三項可以得到如下結(jié)果:式中,D為度矩陣,Dii為度矩陣對角線元素。將式(6.77)代入式(6.76)可得到更為簡潔的形式:對上式求導(dǎo),可以得到:6.2.2拉普拉斯特征映射(LE:LaplacianEigenmaps)在有了上述準(zhǔn)備后,就可以使用如下步驟進行拉普拉斯特征映射進行降維學(xué)習(xí)。Step1:輸入數(shù)據(jù)集樣本,構(gòu)建鄰接圖;Step2:計算鄰接圖各邊的權(quán)重,不相互連接的記為0;其他權(quán)重(核函數(shù))取為:計算拉普拉斯矩陣;Step3:求解特征向量方程;Step4:將原數(shù)據(jù)集中的數(shù)據(jù)進行特征映射降維,將最小的n個非零特征值對應(yīng)的特征向量作為降維結(jié)果輸出。從廣義的角度來看,拉普拉斯特征映射也是一種“等距”的映射。其思想是在原數(shù)據(jù)集中相互之間有關(guān)聯(lián)的點能夠在進行降維后仍然保持盡可能地接近,能夠反映出原數(shù)據(jù)集中數(shù)據(jù)的非線性流形結(jié)構(gòu)。6.2.3局部線性嵌入(LLE:LocallyLinearEmbedding)在處理非線性問題時,常常采用分段線性化的方法來進行處理:將全局的非線性情況逐段進行分割,然后在局部小范圍內(nèi)進行線性化處理。局部線性嵌入的降維方法與這種分段小范圍線性化的思想很類似。這種方法將流形上的每個局部小范圍進行線性化近似,并使用大量數(shù)據(jù)來對其進行描述;這樣一來,每個數(shù)據(jù)點都可以用其近鄰數(shù)據(jù)的線性加權(quán)和(線性組合)來表示。距離該數(shù)據(jù)點遠的數(shù)據(jù)樣本對于局部的線性關(guān)系并沒有影響。在高維空間的線性關(guān)系映射到低維空間保持不變,僅僅是實現(xiàn)了維數(shù)的降低。首先要確定局部鄰域的大小。在原來高維數(shù)據(jù)空間中的點xi,與該點的相鄰的k個點的近鄰關(guān)系,可以使用最小二乘法獲得其重構(gòu)的權(quán)重系數(shù)wij??蓪⒕讲钭鳛樾阅苤笜?biāo)函數(shù),有:6.2.3局部線性嵌入(LLE:LocallyLinearEmbedding)式中,n為高維空間中的數(shù)據(jù)點數(shù),k為高維空間中該點的鄰接點。對權(quán)重系數(shù)wij進行歸一化,并作為約束條件。在約束條件的約束下,對的性能指標(biāo)進行優(yōu)化,求取權(quán)重的表達。將式進行變形,有:根據(jù)范數(shù)的等價性,可以將上式中的范數(shù)看作2-范數(shù)。為了計算方便,可以將式寫作向量/矩陣形式,有:式中,。在權(quán)重系數(shù)的約束條件下,并使用拉格朗日乘子法。可以求權(quán)重極值,有:6.2.3局部線性嵌入(LLE:LocallyLinearEmbedding)求得,。代入即可得到優(yōu)化指標(biāo)函數(shù)的值。綜上所述,局部線性嵌入學(xué)習(xí)的流程如下:Step1:輸入數(shù)據(jù)集樣本,確定鄰接數(shù)目,計算和原始數(shù)據(jù)集樣本點最靠近的k個最近鄰接點;Step2:得到局部方差矩陣,并利用式(6.82)求出其權(quán)重系數(shù);Step3:求出最小特征值所對應(yīng)的特征向量Step4:由相應(yīng)的特征向量構(gòu)建在低位空間的樣本數(shù)據(jù)。6.2.3局部線性嵌入(LLE:LocallyLinearEmbedding)直觀得知,有n個鄰接點可以生成n-1維空間,因此可以利用線性局部嵌入進行降維。n的選擇會影響到學(xué)習(xí)的效果:一方面,如果n的值太小,可能會使鄰接圖不再連通;另一方面,如果n選擇的值太大,則局部線性的條件就不成立,線性嵌入與原數(shù)據(jù)集相比就沒有足夠的相似度。局部線性嵌入是小范圍、局部的線性,全局是非線性的方法處理高維的數(shù)據(jù),保證了在原始數(shù)據(jù)集的基本結(jié)構(gòu)。與等距映射(ISOMAP)相比,局部線性嵌入保持了數(shù)據(jù)的局部結(jié)構(gòu)。在降維學(xué)習(xí)過程中,首先考慮局部近鄰點及鄰域的信息;而等距映射則是保持了原數(shù)據(jù)集中各數(shù)據(jù)點之間的測地線距離關(guān)系映射到低位空間中保持不變,等距映射更像是一種全局算法。6.3多類數(shù)據(jù)特征選擇與提取多類數(shù)據(jù)特征選擇與提取也是一種降維學(xué)習(xí),但其本身也帶有自身的特點。除了降維這個效果之外,主要是需要對于多類的數(shù)據(jù)提取其特征,這些特征既包含從原來的數(shù)據(jù)集中篩選其固有特征,也包含根據(jù)數(shù)據(jù)集自身的特點歸納總結(jié)出“新”的特征(這一點上與因子分析有些類似)。特征性提取的算法主要通過對多類數(shù)據(jù)進行適當(dāng)?shù)淖儞Q或映射。而特征選擇是要從一組特征中,選擇最能夠代表原來數(shù)據(jù)集中的主要、有效特征。對于特征的區(qū)分,通常的做法是考量其“距離”,根據(jù)其相距的“遠近”來進行分析。但是在實際的工作中,常常存在對特征識別的錯誤,也就是錯誤的分類,因此需要對出現(xiàn)錯誤分類的概率進行評價,這就涉及到了根據(jù)散度準(zhǔn)則的特征提取,根據(jù)熵最小化準(zhǔn)則的特征提取等等。6.3多類數(shù)據(jù)特征選擇與提取一、根據(jù)距離度量的特征提取根據(jù)距離度量的特征提取方法在很大程度上與根據(jù)距離度量的分類方法類似,前已述及,這里不再重復(fù)。二、根據(jù)散度準(zhǔn)則的特征提取對于多類數(shù)據(jù)特征提取與選擇可以先簡化為兩類數(shù)據(jù)的情況。對于兩類數(shù)據(jù),首先設(shè)兩類數(shù)據(jù)服從正態(tài)分布,其概率密度函數(shù)為p(X1,PX2),期望分別為:;方差為。可得到其對數(shù)似然比為:定義其類間的散度矩陣為:6.3多類數(shù)據(jù)特征選擇與提取在兩類數(shù)據(jù)的均值相等、方差不等的情況下,有:式中,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論