一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法_第1頁
一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法_第2頁
一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法_第3頁
一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法_第4頁
一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法

近年來,半監(jiān)測學(xué)習(xí)方法是機(jī)械學(xué)習(xí)領(lǐng)域的研究重點(diǎn)。先后設(shè)計(jì)了模型、合作培訓(xùn)、半監(jiān)測圖像和直推支持向量機(jī)的方法。區(qū)別于有監(jiān)督和無監(jiān)督學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)同時(shí)從已標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)中學(xué)習(xí),使得最終的目標(biāo)函數(shù)在全部數(shù)據(jù)(包括已標(biāo)簽和無標(biāo)簽數(shù)據(jù))上滿足流形或者聚類等假設(shè)。多數(shù)情況下,如果無標(biāo)簽數(shù)據(jù)有助于對(duì)數(shù)據(jù)分布或者結(jié)構(gòu)的學(xué)習(xí),半監(jiān)督學(xué)習(xí)方法比純粹的有監(jiān)督或無監(jiān)督學(xué)習(xí)方法有更好的學(xué)習(xí)效果,因此在已標(biāo)簽數(shù)據(jù)獲得困難,且又存在大量無標(biāo)簽數(shù)據(jù)的應(yīng)用中,半監(jiān)督學(xué)習(xí)方法的作用顯得尤其重要。多標(biāo)簽學(xué)習(xí)(multi-labellearning)是目前機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)熱點(diǎn)問題。傳統(tǒng)的分類學(xué)習(xí)包括多類學(xué)習(xí)(multi-classlearning)問題,每個(gè)樣本只屬于一個(gè)類別。然而在很多實(shí)際問題中,一個(gè)樣本可能同時(shí)屬于多個(gè)類別。例如,一篇文檔可能屬于多個(gè)預(yù)定義的主題;一張圖片可能同時(shí)具有多個(gè)語義;一個(gè)基因可能具有多種功能。至今,研究者們已經(jīng)提出了多種多標(biāo)簽學(xué)習(xí)方法,大致可以分為問題轉(zhuǎn)換方法,包括ClassifierChains、Randomk-labelsets,以及算法改進(jìn)方法,包括MLKNN(multi-labelk-nearestneighbor)多標(biāo)簽圖半監(jiān)督學(xué)習(xí)方法。MLKNN作為近鄰法在多標(biāo)簽情況下的推廣,在多篇報(bào)道中的多個(gè)數(shù)據(jù)集上都有略好于其他方法的表現(xiàn),是多標(biāo)簽學(xué)習(xí)中最好的方法之一。與以往的所有半監(jiān)督學(xué)習(xí)方法相比,筆者提出的最大化依賴性多標(biāo)簽半監(jiān)督學(xué)習(xí)方法以最大化所有樣本特征集(包括已標(biāo)簽和未標(biāo)簽樣本)和標(biāo)簽集之間的依賴程度作為學(xué)習(xí)的假設(shè)前提和目標(biāo),與傳統(tǒng)半監(jiān)督學(xué)習(xí)方法將聚類假設(shè)或流形假設(shè)等作為利用無標(biāo)簽樣本的方式不同。樣本特征集和標(biāo)簽集之間的依賴性可以采用CCA(canonicalcorrelationanalysis)、KCC(KernelConstrainedCovariance)以及HSIC(Hilbert-SchmidtIndependenceCriterion)。HSCI對(duì)再生核希爾伯特空間(RKHS)上的希爾伯特-施密特算子進(jìn)行統(tǒng)計(jì)估計(jì),提出的依賴性經(jīng)驗(yàn)估計(jì)值在理論上具有收斂速度快和計(jì)算簡單等特點(diǎn)。因此,筆者選用HSIC作為樣本特征集和標(biāo)簽集之間依賴程度的度量和優(yōu)化目標(biāo),并在添加樣本已有標(biāo)簽作為約束的情況下,將DMMS轉(zhuǎn)換為線性系統(tǒng)求解問題,具有實(shí)現(xiàn)簡單、無參的特點(diǎn)。本質(zhì)上,無論樣本點(diǎn)有多少個(gè)標(biāo)簽,DMMS總是將其所有的標(biāo)簽看成一個(gè)點(diǎn)映射至標(biāo)簽集所在的再生核希爾伯特空間。類似地,每個(gè)樣本的樣本值也映射至樣本集所在的再生核希爾伯特空間,進(jìn)而通過最大化該兩個(gè)空間的互協(xié)方差(cross-covariance)算子對(duì)應(yīng)統(tǒng)計(jì)量的估計(jì)值得到未標(biāo)簽樣本所有可能的標(biāo)簽。因此,DMMS不僅是一個(gè)半監(jiān)督學(xué)習(xí)方法,而且不需做任何改進(jìn),本身就是多標(biāo)簽學(xué)習(xí)方法。筆者在多個(gè)真實(shí)多標(biāo)簽數(shù)據(jù)庫對(duì)比了DMMS、MLKNN和同樣適用于多標(biāo)簽學(xué)習(xí)的圖半監(jiān)督學(xué)習(xí)方法,實(shí)驗(yàn)結(jié)果表明,DMMS作為一種新的多標(biāo)簽半監(jiān)督學(xué)習(xí)方法是可行的。1hsic的基本原理HSIC是一種基于核的獨(dú)立性度量方法。該類方法總的原則是在再生核希爾伯特空間上定義互協(xié)方差算子,進(jìn)而從這些算子中推導(dǎo)出適合度量獨(dú)立性的統(tǒng)計(jì)量來決定獨(dú)立性的大小。HSIC采用的是Hilbert-Schmidt互協(xié)方差算子,通過對(duì)該算子范數(shù)的經(jīng)驗(yàn)估計(jì)得到獨(dú)立性判斷準(zhǔn)則。假設(shè)M和N都是可分度量空間。令F為M的再生核希爾伯特空間,F中元素f是M到R的函數(shù)。M到F上的映射記為Φ:M→F,于是核函數(shù)可以寫為式中,〈·,·〉F表示空間F上的內(nèi)積。類似地,將N的再生核希爾伯特空間記為G,有N到G的映射Ψ:N→G,相應(yīng)的核函數(shù)為假設(shè)PrX×Y是(M×N,?!力?上的聯(lián)合分布,Γ和Λ分別是M和N的Borel集。相應(yīng)的邊緣分布分別記為PrX和PrY,互協(xié)方差算子Cxy:G→F定義為式中,μx和μy分別表示Φ(x)和Ψ(y)的期望,ue3c1表示張量積,對(duì)任意f∈F和g∈G,有fue3c1g:G→F為Cxy可以看成Hilbert-Schmidt算子,而所謂的HSIC即定義為Cxy的Hilbert-Schmidt算子范數(shù),也即在觀察得到數(shù)據(jù)Z=((x1,y1),(x2,y2),…,(xn,yn))的基礎(chǔ)上,可以給出HSIC的經(jīng)驗(yàn)估計(jì)值為式中,H,K,L∈Rn×n,H=I-(1/n)eeT,I為單位矩陣,e是元素值全為1的列向量,K和L分別是核k和l關(guān)于Z觀測值的Gram矩陣,即Kij=k(xi,xj)以及Lij=l(yi,yj)。HSIC的經(jīng)驗(yàn)估計(jì)值在理論上已經(jīng)被證明具有收斂速度快以及計(jì)算簡單等優(yōu)點(diǎn),其值越大說明M和N的關(guān)聯(lián)性越強(qiáng),等于0時(shí)說明M和N相互獨(dú)立。2學(xué)習(xí)目標(biāo)與方法考慮到樣本特征與其標(biāo)簽具有一定聯(lián)系的基本假設(shè),本文利用HSIC量化樣本特征集與標(biāo)簽集之間的關(guān)聯(lián)程度,并通過最大化HSIC為無標(biāo)簽樣本打上標(biāo)簽。給定已標(biāo)簽數(shù)據(jù)集和未標(biāo)簽數(shù)據(jù)集分別為:式中,M和N分別是樣本特征集和標(biāo)簽集所在空間。假設(shè)樣本可能的類別總數(shù)為m,則已標(biāo)簽樣本xi(i=1,2,…,l)的標(biāo)簽yi是一個(gè)m維列向量,且:假設(shè)無標(biāo)簽數(shù)據(jù)xj(j=v+1,v+2,…,v+u)的標(biāo)簽yj∈Rm已知(與已標(biāo)簽樣本的標(biāo)簽表示方法類似,yj也是m維列向量,只是其中元素是實(shí)數(shù),可以看成是樣本的“軟標(biāo)簽”,本文目標(biāo)即是求得這些“軟標(biāo)簽”),記:給定M和N上的核函數(shù)分別為k(x,x′)(x,x′∈M)和l(y,y′)(y,y′∈N),則可得到它們關(guān)于X和Y的Gram矩陣K和L,從而有式中,F和G分別是M和N的再生核希爾伯特空間,H的定義同式(6),n=v+u表示樣本總數(shù)。簡單起見,標(biāo)簽集上的核函數(shù)取為線性核,即l(y,y′)=y′Ty(y,y′∈N),重寫式(9)的跡,有DMMS方法的目標(biāo)就是求解Y,使得樣本特征集和標(biāo)簽集的關(guān)聯(lián)性即式(10)的值最大。然而,因?yàn)镵是一個(gè)半正定的Gram矩陣,而H又是對(duì)稱矩陣,因此HKH同樣是個(gè)半正定矩陣,如果沒有其他的限制條件,式(10)事實(shí)上沒有最大值。針對(duì)該問題,常見的方法是對(duì)Y進(jìn)行限制,比如限制YTY=I,但可能會(huì)對(duì)求解帶來一些麻煩。本文的方法是添加正則項(xiàng),修改式(10)為優(yōu)化目標(biāo):式中,D是對(duì)角矩陣,且。顯然,H(K+D)H是半負(fù)定矩陣,因此式(11)有最大值。注意到Y(jié)對(duì)應(yīng)于已標(biāo)簽樣本部分是已知的,本文將已知標(biāo)簽作為邊界條件。記YV為Y中對(duì)應(yīng)于已標(biāo)簽樣本部分,并令DMMS最終寫為以下優(yōu)化問題:顯然,DMMS的學(xué)習(xí)效果取決于對(duì)依賴性進(jìn)行估計(jì)的準(zhǔn)確程度。從式(3)和(5)可知,依賴性取決于對(duì)互協(xié)方差算子的估計(jì),而互協(xié)方差算子是張量積的期望和μx的和。大量無標(biāo)簽樣本的加入對(duì)于該兩項(xiàng)的估計(jì)無疑都有幫助。因此,可以期望DMMS能夠利用無標(biāo)簽樣本提高對(duì)依賴性估計(jì)的準(zhǔn)確程度,從而提高學(xué)習(xí)準(zhǔn)確率。此外,從式(7)可知DMMS對(duì)于標(biāo)簽集中元素的維數(shù)和值并沒有限制,且無論樣本的標(biāo)簽是多少維和值是多少,都只能將其看Y中一個(gè)點(diǎn)映射至再生核希爾伯特空間,因此DMMS同時(shí)也是一種多標(biāo)簽學(xué)習(xí)方法。3解析解求解為了求解具有邊界條件的最優(yōu)化問題式(13),將A按照已標(biāo)簽和無標(biāo)簽樣本的劃分分成4部分,有式中,AV和AU分別對(duì)應(yīng)已標(biāo)簽和未標(biāo)簽樣本,ATUV=AVU。類似地有于是有YV=[y1,y2,…,yv]是固定值,優(yōu)化問題進(jìn)一步轉(zhuǎn)換為由式(12)和(14)可知,AU是半負(fù)定矩陣,因此式(17)存在解析解。令可得求解上述線性方程組可以得到無標(biāo)簽樣本的“軟標(biāo)簽”YU?!败洏?biāo)簽”可以認(rèn)為是給出了無標(biāo)簽樣本屬于某類的置信值,比如Yij是第j個(gè)樣本屬于第i類的置信值,其值越大就越有理由相信其是屬于第i類。此外,從DMMS的求解步驟來看,DMMS具有實(shí)現(xiàn)簡單以及無參的特點(diǎn),求解主要可分成兩步:1)根據(jù)指定的核函數(shù)求出樣本特征集的Gram矩陣以及相應(yīng)的A矩陣;2)求解線性方程組式(20)。4反k折交叉驗(yàn)證為了凸顯無標(biāo)簽樣本對(duì)學(xué)習(xí)效果的影響,實(shí)驗(yàn)評(píng)測采取本文提出的反k折交叉驗(yàn)證(reversek-foldcrossvalidation)的方式。所謂反k折交叉驗(yàn)證指樣本集被分成k組,每一組輪流當(dāng)訓(xùn)練集,剩下的k-1組作為測試集,與k折交叉驗(yàn)證正好相反。通過反k折交叉驗(yàn)證,本文對(duì)比了DMMS、MLKNN和圖半監(jiān)督學(xué)習(xí)方法在多標(biāo)簽學(xué)習(xí)問題方面的學(xué)習(xí)效果。4.1基于近鄰圖的監(jiān)督學(xué)習(xí)方法DMMS在樣本特征集上的核函數(shù)選為常用的高斯核,即另外,MLKNN和圖半監(jiān)督學(xué)習(xí)方法均需要構(gòu)建近鄰圖。設(shè)近鄰數(shù)目統(tǒng)一為15,并將式(21)作為構(gòu)圖過程中任意兩個(gè)樣本特征之間的相似度(距離)計(jì)算公式。最后,取定MLKNN中的平滑參數(shù)值為1。4.2清體現(xiàn)代機(jī)械系統(tǒng)實(shí)驗(yàn)所用的數(shù)據(jù)集可以從開源項(xiàng)目mulan下載得到。這些數(shù)據(jù)集被廣泛用于多標(biāo)簽學(xué)習(xí)中[6,7,8,9,10,11,12,13],如表1所示。4.3單標(biāo)記類預(yù)測結(jié)果傳統(tǒng)的單標(biāo)簽分類問題中的評(píng)測指標(biāo)包括的準(zhǔn)確率、查準(zhǔn)率、查全率和F-measure等都不適用于多標(biāo)簽學(xué)習(xí)問題。多標(biāo)簽學(xué)習(xí)問題中的評(píng)測要比單標(biāo)簽學(xué)習(xí)的評(píng)測復(fù)雜很多。文獻(xiàn)定義了目前多標(biāo)記學(xué)習(xí)中的5種常用評(píng)價(jià)指標(biāo),具體公式可參見原文。簡介如下:1)漢明損失:指定閾值后,可以通過樣本類屬置信值預(yù)測得到任意未標(biāo)簽樣本的類屬,比如yji大于閾值,則認(rèn)為第i個(gè)樣本屬于第j類。漢明損失可衡量預(yù)測結(jié)果與樣本實(shí)際類屬之間的不一致程度,即樣本屬于某類但未被識(shí)別出,或不屬于某類卻被誤判的可能性。2)1-錯(cuò)誤率:描述對(duì)任一樣本類屬置信值最高的類屬不是其實(shí)際類別的平均可能性,在單標(biāo)記學(xué)習(xí)中,演化成普通的分類錯(cuò)誤率。3)覆蓋率:將任意樣本對(duì)應(yīng)的類屬置信值降序排序,覆蓋率衡量從置信值最高的類別開始,平均需要跨越多少個(gè)類屬才能覆蓋樣本所屬的全部類別。4)排序損失:表明預(yù)測結(jié)果里真實(shí)所屬類別的置信值低于非所屬類別置信值的可能性。5)平均精度:平均精度反映置信值大于真實(shí)類別置信值的類屬全是樣本所屬真實(shí)類別的可能性。5項(xiàng)指標(biāo)值中,只有平均精度是越大越好(最大為1),其他指標(biāo)都是越小說明學(xué)習(xí)方法越有效。4.4dmms和gsl在sc環(huán)境保護(hù)基本參數(shù)下的差異本文在Emotions、Yeast、Scene三個(gè)真實(shí)數(shù)據(jù)庫上對(duì)比了圖半監(jiān)督學(xué)習(xí)(GSL)、MLKNN和DMMS三種方法的分類效果。實(shí)驗(yàn)分為兩組:第一組實(shí)驗(yàn)是反5折交叉驗(yàn)證,即已標(biāo)簽數(shù)據(jù)占總數(shù)據(jù)的1/5,實(shí)驗(yàn)結(jié)果分別如表2、3和4所示,分別是Emotions,Yeast和Scene三個(gè)數(shù)據(jù)庫上的結(jié)果;第二組實(shí)驗(yàn)是反10折交叉驗(yàn)證,已標(biāo)簽數(shù)據(jù)只占總數(shù)據(jù)的1/10,類似地,實(shí)驗(yàn)結(jié)果分別如表5、6和7所示。表中的黑體表示在某指標(biāo)里表現(xiàn)最好的值。從第一組的實(shí)驗(yàn)結(jié)果可以看到,DMMS在Scene數(shù)據(jù)集中的各項(xiàng)指標(biāo)都要好于其他兩個(gè)方法,Emotions數(shù)據(jù)集上DMMS方法要好于MLKNN方法,略差于GSL方法。Yeast數(shù)據(jù)集是DMMS表現(xiàn)最差的一個(gè)數(shù)據(jù)集,盡管如此,DMMS在該數(shù)據(jù)集的one-error指標(biāo)上依然得到了一個(gè)最小值,說明如果只返回一個(gè)類屬,則DMMS的結(jié)果最可信。MLKNN的結(jié)果在Emotions數(shù)據(jù)集上的效果不理想,可能的原因是在反5折交叉驗(yàn)證實(shí)驗(yàn)里,該數(shù)據(jù)集用于實(shí)驗(yàn)的已標(biāo)簽樣本只有一百多個(gè),對(duì)MLKNN影響很大,而對(duì)屬于半監(jiān)督學(xué)習(xí)方法的GSL和DMMS的影響則小很多。類似的結(jié)果可以從第二組實(shí)驗(yàn)看到,DMMS在Scene數(shù)據(jù)集上的各項(xiàng)指標(biāo)值依然都要略好于其他兩個(gè)方法,并且在Yeast數(shù)據(jù)集的hammingloss指標(biāo)上取得了略好于其他方法的結(jié)果,由原來的第二位上升到了第一位。此外,因?yàn)榈诙M實(shí)驗(yàn)中已標(biāo)簽數(shù)據(jù)的數(shù)目下降為原來的一半,所有方法在各個(gè)指標(biāo)上的值都略為變差。DMMS和GSL作為半監(jiān)督學(xué)習(xí)方法,相較于MLKNN受該方面的影響比較輕微。比如,對(duì)比DMMS方法在Scene數(shù)據(jù)集上兩次的實(shí)驗(yàn)結(jié)果,基本上沒有很大變化,平均精度都維持在了0.83上。總之,上述實(shí)驗(yàn)說明DMMS作為多標(biāo)簽半監(jiān)督學(xué)習(xí)方法可以有效地從無標(biāo)簽樣本中學(xué)習(xí),并且適用于多標(biāo)簽學(xué)習(xí)問題。5最大化依賴多標(biāo)簽半監(jiān)督學(xué)習(xí)方法的局限性在希爾伯特-施密特獨(dú)立性(Hilbert-Schmidtindependencecriterion,HSIC)的基礎(chǔ)上提出了最大化依賴性多標(biāo)簽半監(jiān)督學(xué)習(xí)方法。該方法是一種多標(biāo)簽半監(jiān)督學(xué)習(xí)方法,具有實(shí)現(xiàn)簡單且無參等特點(diǎn)。在Scene等真實(shí)數(shù)據(jù)庫上的實(shí)驗(yàn)表明,最大化依賴性多標(biāo)簽半監(jiān)督學(xué)習(xí)方法具有類似于其他多標(biāo)簽方法的學(xué)習(xí)效果,甚至有可能在已標(biāo)簽樣本稀少的情況下略

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論