版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
畢業(yè)設(shè)計(jì)(論文)--文獻(xiàn)翻譯原文題目Combinginstance-basedlearningAndLogisticregressionformultilabelclassification譯文題目結(jié)合基于實(shí)例的學(xué)習(xí)和邏輯回歸多標(biāo)簽分類專業(yè)信息與計(jì)算科學(xué)姓名學(xué)號(hào)指導(dǎo)教師結(jié)合基于實(shí)例的學(xué)習(xí)和邏輯回歸多標(biāo)簽分類魏偉偉·EykeHüllermeier收到日期:2009年6月12日/修訂日期:2009年6月12日/接受日期:2009年6月16日/在線發(fā)布:2009年7月23日SpringerScience+BusinessMedia,LLC2009摘要:多標(biāo)簽分類是常規(guī)分類的擴(kuò)展,其中單個(gè)實(shí)例可以與多個(gè)標(biāo)簽相關(guān)聯(lián)。最近的研究表明,就像常規(guī)分類一樣,依賴于最近鄰估計(jì)原理的基于實(shí)例的學(xué)習(xí)算法在這種情況下可以相當(dāng)成功地使用。然而,由于迄今為止現(xiàn)有的算法不考慮標(biāo)簽之間的相關(guān)性和相互依賴性,因此它們的潛力尚未得到充分利用。在本文中,我們提出了一種新的多標(biāo)簽分類方法,該方法基于將基于實(shí)例的學(xué)習(xí)和邏輯回歸相結(jié)合的框架,包括兩種方法作為特殊情況。這種方法允許捕獲標(biāo)簽之間的相互依賴關(guān)系,而且結(jié)合基于模型和基于相似性的多標(biāo)簽分類推理。如實(shí)驗(yàn)研究所示,我們的方法能夠提高多標(biāo)簽預(yù)測的幾個(gè)評(píng)估標(biāo)準(zhǔn)的預(yù)測準(zhǔn)確性。Keywords:Multilabelclassification·Instance-basedlearning·Nearestneighborclassification·Logisticregression·Bayesianinference1介紹在常規(guī)分類中,假設(shè)每個(gè)實(shí)例屬于有限的一組候選類別中的一個(gè)。與此相反,多標(biāo)簽分類的設(shè)置允許一個(gè)實(shí)例同時(shí)屬于多個(gè)類,或者說,將多個(gè)標(biāo)簽附加到一個(gè)實(shí)例上。這種類型的問題在日常生活中是普遍存在的:在IMDb中,一部電影可以分為行動(dòng),犯罪和驚悚片;CNN新聞報(bào)道可以同時(shí)標(biāo)注為人民政治;在生物學(xué)中,典型的多標(biāo)簽學(xué)習(xí)示例是基因功能預(yù)測問題,其中基因可以與多種功能類相關(guān)聯(lián),例如代謝,轉(zhuǎn)錄和蛋白質(zhì)合成。
多標(biāo)簽分類近年來越來越受到機(jī)器學(xué)習(xí)的關(guān)注,不僅是因?yàn)樗膶?shí)際意義,而且從理論的角度來看也是有趣的。事實(shí)上,盡管可以通過某種方式將多標(biāo)簽分類的問題減少到常規(guī)分類,因此,為了應(yīng)用現(xiàn)有的方法來解決前者,這種類型的直接解決方案通常不是最佳。特別是,由于不同類別標(biāo)簽的存在或不存在必須同時(shí)預(yù)測,所以顯而易見的是利用這些標(biāo)簽之間的相關(guān)性和相互依賴性。這通常不能通過對(duì)標(biāo)準(zhǔn)分類的簡單轉(zhuǎn)換來實(shí)現(xiàn)。盡管在文獻(xiàn)中已經(jīng)提出了相當(dāng)多的更復(fù)雜的多標(biāo)簽分類方法,但到目前為止,還沒有深入研究基于實(shí)例的學(xué)習(xí)(IBL)的應(yīng)用。鑒于基于最近鄰估計(jì)原理的IBL算法在分類和模式識(shí)別中已經(jīng)很長時(shí)間地被應(yīng)用得相當(dāng)成功(Aha等,1991),這是有點(diǎn)令人驚訝的。一個(gè)顯著的例外是張和周(2007)最近提出的多標(biāo)簽k-最近鄰(MLKNN)方法,它被證明是與最先進(jìn)的機(jī)器學(xué)習(xí)方法有競爭力的。在本文中,我們提出了一種多標(biāo)簽分類的新方法,該方法基于將基于實(shí)例的學(xué)習(xí)和邏輯回歸相結(jié)合的框架,包括兩種方法作為特例。這種方法克服了現(xiàn)有的基于實(shí)例的多標(biāo)簽分類方法的一些限制,包括MLKNN。特別地,它允許以正確的方式捕獲類標(biāo)簽之間的相互依賴關(guān)系。本文的其余部分組織如下:多分類分類的問題以更正式的方式在Sect中引入。2,有關(guān)工作在第我們的新方法在Sect。第5節(jié)專門用于幾個(gè)基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)。本文結(jié)束于Sect的總結(jié)和一些結(jié)語。6。2多標(biāo)簽分類令X表示一個(gè)實(shí)例空間,令L={λ1,λ2...λm}成為一類有限類的標(biāo)簽。此外,假設(shè)每個(gè)實(shí)例x∈X可以與標(biāo)簽L∈2L的子集相關(guān)聯(lián);該子集通常稱為相關(guān)標(biāo)簽集,而補(bǔ)碼L\L被認(rèn)為與x無關(guān)。給定以元組(x,Lx)∈X×2L形式的有限集合T的形式的訓(xùn)練數(shù)據(jù),通常假定是獨(dú)立于X×2L上的(未知)概率分布繪制的,多標(biāo)簽中的目標(biāo)分類是學(xué)習(xí)一個(gè)分類器h:X→2L,其概括在超出這些觀察的意義上,在最小化相對(duì)于特定損失函數(shù)的預(yù)期預(yù)測損失的意義上;常用損失函數(shù)將在Sect。5.3。注意,多標(biāo)簽分類可以以簡單的方式,即通過將每個(gè)標(biāo)簽子集L∈2L視為不同(元)類來減少到常規(guī)分類問題。這種方法在文獻(xiàn)中被稱為標(biāo)簽功率(LP)。這種方法的一個(gè)明顯的缺點(diǎn)是在新生成的問題中必須處理的潛在的大量類;顯然,這個(gè)數(shù)字是2|L|(或如果空集合被排除作為預(yù)測,則為2|L|-1)。這就是為什么如果原始標(biāo)簽集L很小但是對(duì)于較大的標(biāo)簽組而言,LP通常很好地劣化,則LP通常工作良好的原因。然而,LP通常被用作基準(zhǔn),我們稍后也將其納入我們的實(shí)驗(yàn)(參見第5節(jié))。通過二進(jìn)制相關(guān)性方法提供了將多標(biāo)簽降低到常規(guī)分類的另一種方法。這里,針對(duì)每個(gè)標(biāo)簽λi∈L訓(xùn)練單獨(dú)的二進(jìn)制分類器hi,減少對(duì)忽略其他標(biāo)簽的有關(guān)該標(biāo)簽的存在或不存在的信息的監(jiān)督。對(duì)于查詢實(shí)例x,該分類器應(yīng)該預(yù)測λi是否與x(hi(x)=1)相關(guān)(hi(x)=0))。然后由h(x)={λi∈L|hi(x)=1}給出x的多標(biāo)簽預(yù)測。由于二進(jìn)制關(guān)聯(lián)學(xué)習(xí)獨(dú)立于所有其他標(biāo)簽來處理每個(gè)標(biāo)簽,因此這種方法的一個(gè)明顯的缺點(diǎn)是它忽略了標(biāo)簽之間的相關(guān)性和相互依賴性。一些更復(fù)雜的方法通過一個(gè)刻畫函數(shù)f:X×L→R以間接方式學(xué)習(xí)多標(biāo)簽分類器h,它為每個(gè)實(shí)例/標(biāo)簽組合分配一個(gè)實(shí)數(shù)。這個(gè)想法是,得分f(x,λ)與λ與x相關(guān)的概率直接對(duì)應(yīng)。給定這種類型的評(píng)分函數(shù),可以通過閾值實(shí)現(xiàn)多標(biāo)簽預(yù)測:其中t∈R是閾值。作為副產(chǎn)品,評(píng)分功能提供了產(chǎn)生類別標(biāo)簽排名的可能性,只需通過根據(jù)他們的分?jǐn)?shù)進(jìn)行排序。有時(shí)候,這個(gè)排名作為一個(gè)預(yù)測是更可取的,實(shí)際上,有幾個(gè)評(píng)估指標(biāo)將真實(shí)的標(biāo)簽子集與預(yù)測的排名進(jìn)行比較,而不是預(yù)測的標(biāo)簽子集(參見5.3節(jié))。3相關(guān)工作多標(biāo)簽分類近年來受到機(jī)器學(xué)習(xí)的關(guān)注,并且開發(fā)了許多方法,通常是由文本分類(Schapire和Singer2000;Ueda和Saito2003;Kazawa等人2005;ZhangandZhou2006),計(jì)算機(jī)視覺(Boutelletal。2004)和生物信息學(xué)(Clare和King2001;Elisseeff和Weston2002;Zhang和Zhou2006)。此外,常規(guī)分類方法已經(jīng)擴(kuò)展到多標(biāo)簽案例,包括支持向量機(jī)(Godbole和Sarawagi2004;Elisseeff和Weston2002;Boutell等2004),神經(jīng)網(wǎng)絡(luò)(ZhangandZhou2006)和決策樹(Vensetal。2008)。在本文中,我們特別關(guān)注基于實(shí)例的多標(biāo)簽分類方法,即基于最近鄰估計(jì)原理的方法(Dasarathy1991;Aha等,1991)。這種興趣主要是由張和周(2007)最近提出的多標(biāo)簽k-最近鄰(MLKNN)方法。在該文中,作者表明,MLKNN在實(shí)踐中表現(xiàn)相當(dāng)好。在提出的具體實(shí)驗(yàn)中,MLKNN甚至超過了一些最先進(jìn)的基于模型的多標(biāo)簽分類方法,包括RankSVM和AdaBoost.MH(Elisseeff和Weston2002;Comite等2003)。MLKNN是一個(gè)二進(jìn)制相關(guān)學(xué)習(xí)者,即,它為每個(gè)標(biāo)簽λi∈L學(xué)習(xí)一個(gè)單一的分類器hi。然而,代替使用標(biāo)準(zhǔn)k-最近鄰(KNN)分類器作為基礎(chǔ)學(xué)習(xí)者,它通過一個(gè)KNN和貝葉斯推理的組合:給定具有未知多標(biāo)簽分類L?L的查詢實(shí)例x,它在訓(xùn)練數(shù)據(jù)中找到x的k個(gè)最近鄰,并計(jì)算這些鄰居中出現(xiàn)的λi的數(shù)量??紤]到這個(gè)數(shù)字y,作為隨機(jī)變量Y的實(shí)現(xiàn)形式的信息,λi∈L的后驗(yàn)概率由這導(dǎo)致了決策規(guī)則先驗(yàn)概率P(λi∈L)和P(λi∈L)以及條件概率P(Y=y|λi∈L)和P(Y=y|λi∈L)數(shù)據(jù)在相應(yīng)的相對(duì)頻率方面。除此之外,我們注意到,這些估計(jì)具有相對(duì)較高的計(jì)算復(fù)雜性,因?yàn)樗鼈兩婕八杏?xùn)練實(shí)例的所有跪坐的考慮。4結(jié)合IBL和邏輯回歸在本節(jié)中,我們介紹一種機(jī)器學(xué)習(xí)方法,其基本思想是考慮與類似于查詢實(shí)例的示例的信息作為該實(shí)例的特征,從而在一定程度上模糊了基于實(shí)例和基于模型的學(xué)習(xí)之間的區(qū)別。這種想法通過實(shí)現(xiàn)基于實(shí)例的分類作為邏輯回歸的學(xué)習(xí)算法付諸實(shí)踐。4.1KNN分類假設(shè)要用特征φi,i=1,2...n進(jìn)行描述的實(shí)例x,其中φi(x)表示例如x的第i個(gè)特征的值。實(shí)例空間X具有距離度量:?(x,x?)是實(shí)例x和x?之間的距離。我們將首先關(guān)注二進(jìn)制分類的情況,從而通過Y={-1,+1}定義類標(biāo)簽集。元組(x,y)∈X×Y稱為標(biāo)記的實(shí)例或示例。D表示由N個(gè)標(biāo)記的實(shí)例(xi,yi),1≤i≤N組成的樣本。最后,給出了一個(gè)新的實(shí)例x0∈X(一個(gè)查詢),其標(biāo)號(hào)為y0∈{-1,+1}為估計(jì)。最近鄰(NN)原則規(guī)定通過最近(最不遠(yuǎn))的樣本實(shí)例的標(biāo)簽來估計(jì)尚未分類的查詢x0的標(biāo)簽。KNN方法是一個(gè)輕微的泛化,其考慮到x0的k≥1個(gè)最近鄰居。也就是說,y0的估計(jì)y0從x0的k個(gè)最近鄰居的集合Nk(x0)導(dǎo)出,通常通過多數(shù)投票:4.2IBL作為邏輯回歸我們的方法的一個(gè)關(guān)鍵思想是將鄰居實(shí)例的標(biāo)簽視為要估計(jì)其標(biāo)簽的查詢x0的“特征”。值得一提的是,最近在關(guān)系學(xué)習(xí)(Getoor和Taskar2007)和集體分類(Lu和Getoor2003;Ghamrawi和McCallum2005)中已經(jīng)開發(fā)了類似的想法。由p0表示y0=+1的先驗(yàn)概率和相應(yīng)的后驗(yàn)概率π0。此外,令δidf=α(x0,xi)為x0和xi之間的距離。將已知標(biāo)簽yi作為關(guān)于未知標(biāo)簽y0的信息,我們可以考慮后驗(yàn)概率更具體地說,貝葉斯的規(guī)則產(chǎn)量其中ρ是似然比。我們得到兩邊的對(duì)數(shù)和ω0=log(p0)-log(1-p0)。模型(3)仍然需要規(guī)定似然比ρ。為了遵守IBL的基本原則,后者應(yīng)該是距離δi的函數(shù)。實(shí)際上,如果yi=+1,對(duì)于δi→0,如果yi=-1,則ρ應(yīng)該變大;如果yi=-1,則小于ρ=1:用標(biāo)號(hào)yi=+1(yi=-1)觀察非常接近的實(shí)例xi使y0=+1)可能與yi=-1相比。此外,ρ應(yīng)傾向于1作為δi→∞:如果xi太遠(yuǎn),其標(biāo)簽不提供任何證據(jù),既不贊成y0=+1也不贊成y0=-1。滿足這些性質(zhì)的參數(shù)化函數(shù)是其中α>0是常數(shù)。注意,對(duì)于ρ的特殊功能形式的選擇與在(非參數(shù))基于內(nèi)核的密度估計(jì)中使用的核函數(shù)的規(guī)范以及加權(quán)NN估計(jì)中權(quán)重函數(shù)的選擇相當(dāng)。ρ(δ)實(shí)際上確定了距離由δ=?(x0,xi)給出的兩個(gè)實(shí)例具有相同的標(biāo)簽的概率?,F(xiàn)在,考慮到x0的完整樣本鄰域N(x0),并且如在樸素貝葉斯方法中所做出的-使條件獨(dú)立性的簡化假設(shè)得到其中ω+(x0)可以看作有利于標(biāo)簽+1的證據(jù)的總結(jié)。如可以所述,后者簡單地由具有標(biāo)號(hào)為+1的鄰居的總和給出,其距離加權(quán),減去具有標(biāo)號(hào)-1的鄰居的加權(quán)和。關(guān)于查詢x0的分類,決定由(4)右側(cè)的標(biāo)志。從這個(gè)角度來看,(4)基本上實(shí)現(xiàn)了加權(quán)NN估計(jì),或者說,它是基于實(shí)例的學(xué)習(xí)的“基于模型”的版本。然而,它與簡單的NN方案不同之處在于它包括偏置項(xiàng)ω0,其在貝葉斯推理中起先前概率的作用。從統(tǒng)計(jì)學(xué)的角度來說,(4)不是邏輯回歸方程。換句話說,以基于實(shí)例的學(xué)習(xí)為基礎(chǔ)的“基于特征”的觀點(diǎn),并應(yīng)用貝葉斯方法進(jìn)行推理歸結(jié)為實(shí)現(xiàn)IBL作為邏輯回歸。通過引入與距離函數(shù)α成反比的相似性度量κ,(4)可以以形式寫入注意,作為一種特殊情況,該方法可以模擬標(biāo)準(zhǔn)KNN分類器(2),即通過設(shè)置ω0=0并根據(jù)(數(shù)據(jù)相關(guān))“KNN內(nèi)核”定義κ4.3估算和分類中的參數(shù)α決定了證據(jù)的權(quán)重因此,其對(duì)后驗(yàn)概率估計(jì)的影響為π0。實(shí)際上,α扮演平滑(正則化)參數(shù)的角色。選擇較小的α,估計(jì)概率函數(shù)(通過應(yīng)用(5)到所有點(diǎn)x0∈X獲得)的平滑化將是。在α=0的極端情況下,得到一個(gè)常數(shù)函數(shù)(等于ω0)??梢酝ㄟ^使用最大似然法(ML)的方法將該參數(shù)適配到數(shù)據(jù)D來實(shí)現(xiàn)α的最優(yōu)規(guī)范。對(duì)于每個(gè)采樣點(diǎn),xj表示為樣本證據(jù)支持yj=+1。然后通過映射給出對(duì)數(shù)似然函數(shù)最優(yōu)參數(shù)α*是(8)的最大值。后者可以通過邏輯回歸的標(biāo)準(zhǔn)方法計(jì)算。然后給出查詢的后驗(yàn)概率π0要對(duì)x0進(jìn)行分類,應(yīng)用決策規(guī)則隨后,我們將參考上面所述的方法作為IBLR(基于邏輯回歸的實(shí)例學(xué)習(xí))。4.4包括其他功能在上一節(jié)中,基于實(shí)例的學(xué)習(xí)已被嵌入到邏輯回歸中,使用來自查詢x0的鄰居的信息作為該查詢的“特征”。在本節(jié)中,我們考慮可能推廣這種方法,即通過考慮x0的進(jìn)一步特征來擴(kuò)展模型(5)的想法:其中F={φ0,φ1...φr}是可用特征{φ0,φ1...φn}和φ0=φ0≡1的子集,這意味著β0起ω0的作用。方程(9)是常用的邏輯回歸模型,除了ω+(x0)是“非標(biāo)準(zhǔn)”特征。我們稱之為IBLR+的方法(9)集成了基于實(shí)例和基于模型(基于屬性的)學(xué)習(xí),并且通過估計(jì)(9)中的回歸系數(shù),實(shí)現(xiàn)了兩種方法之間的最佳平衡。擴(kuò)展模型(9)可以解釋為IBL的邏輯回歸模型,如第3節(jié)所述。4.2,其中偏差ω0不再恒定:其中ω0(x0)df=ββsφs(x0)是由(9)的基于模型的部分確定的實(shí)例特定偏差。4.5擴(kuò)展到多標(biāo)簽分類到目前為止,我們只考慮了二進(jìn)制分類的情況。為了將標(biāo)簽集L={λ1,λ2...λm}擴(kuò)展到多標(biāo)簽分類的方法,該思想是為每個(gè)標(biāo)簽訓(xùn)練一個(gè)分類器hi。對(duì)于第i個(gè)標(biāo)簽λi,該分類器來源于模型其中π(i)0表示λi與x0相關(guān)的(后)概率,是在x0附近存在第j個(gè)標(biāo)簽λj的總結(jié);這里,如果λj存在(相關(guān)),對(duì)于鄰居x,yj(x)=+1,并且如果不存在(不相關(guān)),則yj(x)=-1。顯然,方法(11)能夠考慮類標(biāo)簽之間的相互依賴關(guān)系。更具體地,估計(jì)系數(shù)α(i)j表示標(biāo)簽λi的相關(guān)性在何種程度上受到λj的相關(guān)性的影響。值α(i)j0意味著λj的存在使得λi的相關(guān)性更可能,即存在正相關(guān)。相應(yīng)地,負(fù)系數(shù)將表示負(fù)相關(guān)。注意,估計(jì)概率π(i)0自然可以被認(rèn)為是標(biāo)簽λi的分?jǐn)?shù)。因此,標(biāo)簽的排名通過根據(jù)其概率以降序排列而獲得。此外,通過在t=0.5處的閾值,從該排名導(dǎo)出對(duì)x0的純多標(biāo)簽預(yù)測。當(dāng)然,也可以將模型(11)與Sect提出的擴(kuò)展相結(jié)合。4.4。這導(dǎo)致一個(gè)模型我們將分別將IBLR的擴(kuò)展(11)和(13)引用為IBLRML和IBLR-ML+的多標(biāo)簽分類。5實(shí)驗(yàn)結(jié)果本節(jié)專門針對(duì)我們進(jìn)行的實(shí)驗(yàn)研究,以獲得我們方法性能的具體構(gòu)想。在介紹我們的實(shí)驗(yàn)結(jié)果之前,我們提供一些關(guān)于學(xué)習(xí)算法和數(shù)據(jù)集的信息,以及用于評(píng)估的標(biāo)準(zhǔn)。5.1學(xué)習(xí)算法由于前面提到的原因,我們的主要興趣集中在MLKNN,這可以說是最先進(jìn)的基于實(shí)例的多標(biāo)簽排名;我們將其實(shí)現(xiàn)用于MULAN包(Tsoumakas和Katakis2007)。MLKNN由鄰域的大小進(jìn)行參數(shù)化,我們采用值k=10。這個(gè)值在張和周(2007)推薦,發(fā)現(xiàn)性能最好。為了公平起見,我們使用與KNN內(nèi)核(6)相同的鄰域大小作為我們的方法。在這兩種情況下,簡單的歐幾里德度量(在完整屬性空間上)用作距離函數(shù)。對(duì)于我們的方法,我們嘗試了兩種變體,純基于實(shí)例的版本(11)和擴(kuò)展模型(13),F(xiàn)包括所有可用的功能。直觀地,人們可以預(yù)期后者IBLR-ML+對(duì)前者IBLR-ML有利,因?yàn)樗梢砸愿`活的方式使用特征。然而,應(yīng)該注意的是,由于我們簡單地將所有屬性都包含在F中,所以每個(gè)屬性在IBLR-ML+中將基本上被使用兩次,從而產(chǎn)生一種冗余。此外,模型歸納當(dāng)然會(huì)變得更加困難,因?yàn)樾枰烙?jì)更多的參數(shù)。作為一個(gè)額外的基線,我們使用三種不同的基礎(chǔ)學(xué)習(xí)者進(jìn)行二元相關(guān)學(xué)習(xí)(BR):邏輯回歸,C4.5(在默認(rèn)設(shè)置下的WEKA(Witten和Frank2005)實(shí)現(xiàn)J48)和KNN(再次用k=10)。最后,我們還將C4.5的標(biāo)簽功率(LP)作為基礎(chǔ)學(xué)習(xí)者。5.2數(shù)據(jù)集用于多標(biāo)簽分類的基準(zhǔn)數(shù)據(jù)不如常規(guī)分類那樣豐富,實(shí)際上,這一領(lǐng)域的實(shí)驗(yàn)往往被限制在很少甚至只有一個(gè)數(shù)據(jù)集。對(duì)于我們的實(shí)驗(yàn)研究,我們收集了來自不同領(lǐng)域的相對(duì)較多的七個(gè)數(shù)據(jù)集;表1.1給出了一個(gè)概述數(shù)據(jù)集域?qū)嵗龑傩詷?biāo)簽基數(shù)情緒音樂5937261.87圖片視力200013551.24Genbase生物學(xué)6621186’274.27Mediamill多媒體50001201014.27路透社文本711924371.24現(xiàn)場視力240729461.07酵母生物學(xué)2417103144.24情緒數(shù)據(jù)是從233首音樂專輯中選出的歌曲(Trohidisetal。2008)創(chuàng)作的。從每首歌曲中,提取最初30秒后30秒的序列。所得到的聲音剪輯被存儲(chǔ)并轉(zhuǎn)換為22050Hz采樣率的波形文件,每個(gè)樣本為16位和單聲道。從每個(gè)波形文件中,提取了72個(gè)特征,分為兩類:節(jié)奏和音色。然后,在情感標(biāo)注過程中,6個(gè)主要的情感集群被保留,與Tellegen-Watson-Clark模式的情緒相對(duì)應(yīng):令人驚訝的,高興的,放松的蛤蜊,安靜的,悲傷的孤獨(dú)和憤怒的侵略。圖像和場景分別由Zhou和Zhang(2007)和Boutell等人提出的語義場景分類數(shù)據(jù)集(2004),其中圖片可以分為一個(gè)或多個(gè)類。例如,在場景數(shù)據(jù)中,圖片可以具有以下類別:沙灘,日落,樹葉,田野,山脈和城市。該數(shù)據(jù)集的特征對(duì)應(yīng)于LUV空間中的空間色彩時(shí)刻。已經(jīng)顯示出顏色和空間信息在區(qū)分某些類型的室外場景方面是相當(dāng)有效的:圖片頂部的明亮和暖色可以對(duì)應(yīng)于日落,而底部的顏色可以對(duì)應(yīng)于沙漠巖石。圖像數(shù)據(jù)集的特征由SBN方法(Maron和Ratan1998)生成,并且基本上對(duì)應(yīng)于RGB顏色空間中的屬性。從生物領(lǐng)域,我們選擇了兩個(gè)數(shù)據(jù)集酵母和基因。酵母數(shù)據(jù)集關(guān)于預(yù)測酵母釀酒酵母中基因的功能分類。每個(gè)基因通過微陣列表達(dá)數(shù)據(jù)和系統(tǒng)發(fā)育譜的連接來描述,并與一組14個(gè)功能類相關(guān)聯(lián)。數(shù)據(jù)集總共含有2417個(gè)基因,每個(gè)基因由103維特征向量表示。在基因數(shù)據(jù)中,考慮了27個(gè)重要的蛋白質(zhì)家族,包括例如PDOC00064(一類氧化還原酶)和PDOC00154(一類異構(gòu)酶)。在預(yù)處理期間,出口了一套訓(xùn)練集,其中包括屬于這二十七類一個(gè)或多個(gè)的662個(gè)蛋白質(zhì)。從文本處理領(lǐng)域,我們選擇了廣泛研究的路透社21578集合的一個(gè)子集(Sebastiani2002)??紤]了七個(gè)最常見的類別。刪除其標(biāo)簽集或主文本為空的文檔后,保留8866個(gè)文檔,其中只有3.37%的文檔與多個(gè)類標(biāo)簽相關(guān)聯(lián)。隨機(jī)刪除只有一個(gè)標(biāo)簽的文檔后,可以獲得包含2000個(gè)文檔的文本分類數(shù)據(jù)集。每個(gè)文檔使用標(biāo)準(zhǔn)滑動(dòng)窗口技術(shù)表示為一袋實(shí)例,其中每個(gè)實(shí)例對(duì)應(yīng)于一個(gè)包含在尺寸為50的一個(gè)滑動(dòng)窗口(與25個(gè)字母重疊)的文本段。“功能詞”從詞匯中被刪除,剩下的單詞被阻止。行李箱中的實(shí)例采用基于術(shù)語頻率的“手提袋”表示。在不損失有效性的情況下,通過保留具有最高文檔頻率的前2%字來執(zhí)行降維。此后,每個(gè)實(shí)例被表示為243維特征向量。Mediamill數(shù)據(jù)集來自多媒體索引領(lǐng)域,起源于美國國家標(biāo)準(zhǔn)技術(shù)研究所(NIST)發(fā)起的知名TREC視頻檢索評(píng)估數(shù)據(jù)(TRECVID2005/2006),其中包含85小時(shí)的國際廣播新聞數(shù)據(jù)。該數(shù)據(jù)集中的任務(wù)是視頻中自動(dòng)檢測101個(gè)語義概念的詞典。該數(shù)據(jù)集的每一個(gè)實(shí)例都有120個(gè)數(shù)字特征,包括視覺,文本以及融合信息。訓(xùn)練有素的分類器應(yīng)該能夠?qū)⒁粋€(gè)看不見的實(shí)例分類到這101個(gè)標(biāo)簽中的一些,例如面部,汽車,男性,足球等等。有關(guān)此數(shù)據(jù)集的更多詳細(xì)信息,請(qǐng)參見Snoek等。(2006年)。5.3評(píng)估措施為了評(píng)估多標(biāo)簽分類方法的性能,文獻(xiàn)中提出了一些標(biāo)準(zhǔn)和指標(biāo)。對(duì)于分類器h,令h(x)?L表示其對(duì)于實(shí)例x的多標(biāo)簽預(yù)測,并且令Lx表示相關(guān)標(biāo)簽的真實(shí)集合。此外,在定義相關(guān)評(píng)分函數(shù)f的情況下,令f(x,λ)表示分配給例如x的標(biāo)簽λ的分?jǐn)?shù)。最常用的評(píng)估措施定義如下:?漢明損失計(jì)算相關(guān)性預(yù)測不正確的標(biāo)簽的百分比:在哪里?是兩組之間的對(duì)稱差異。?一個(gè)錯(cuò)誤計(jì)算排名最高的標(biāo)簽不相關(guān)的次數(shù):?覆蓋范圍決定了標(biāo)簽列表中需要進(jìn)行多遠(yuǎn)的任務(wù),以覆蓋實(shí)例的所有相關(guān)標(biāo)簽。這一措施與完美召回程度的精確度松散相關(guān):其中rankf(x,λ)表示由f引起的順序中的標(biāo)簽x的位置。?等級(jí)丟失計(jì)算未正確排序的標(biāo)簽對(duì)的平均分?jǐn)?shù):其中Lx=L\Lx是不相關(guān)標(biāo)簽的集合。?每個(gè)相關(guān)標(biāo)簽的平均精度確定λ∈Lx在所有標(biāo)記之上的所有標(biāo)簽中的相關(guān)標(biāo)簽的百分比,并將所有相關(guān)標(biāo)簽的百分比平均:請(qǐng)注意,只有漢明的損失只評(píng)估多重標(biāo)簽預(yù)測(即多標(biāo)簽分類器h),而其他度量則評(píng)估基本的排序函數(shù)f。此外,較小的值表示除平均精度以外的所有措施的更好的性能。最后,除了覆蓋范圍之外,所有的度量都被歸一化,并且假定0到1之間的值。5.4結(jié)果與討論交叉驗(yàn)證研究的結(jié)果(10倍,5個(gè)重復(fù))總結(jié)在表2中??梢钥闯?,基線方法BR和LP通常不具有競爭力??纯雌骄琶?,IBLR-ML始終優(yōu)于所有其他方法,不管評(píng)估指標(biāo)如何,表明它是最強(qiáng)的方法。三種基于實(shí)例的方法中的排名是IBLR-ML?IBLR-ML+?除了OneError之外的所有措施,MLKNN,后兩者改變位置。為了更全面地分析結(jié)果,我們遵循Demsar(2006)推薦的兩步統(tǒng)計(jì)測試程序,其中包括對(duì)所有學(xué)習(xí)者具有相同表現(xiàn)的零假設(shè)的弗里德曼測試,并且在該假設(shè)被拒絕的情況下,Nemenyi測試以成對(duì)的方式比較學(xué)習(xí)者。兩種測試均基于表2中底線所示的平均排名。盡管Friedman測試表明方法之間存在顯著性差異,但大多數(shù)成對(duì)比較仍保持統(tǒng)計(jì)學(xué)無顯著性(顯著性水平為5%);見圖。然而,這并不奇怪,鑒于實(shí)驗(yàn)中包含的數(shù)據(jù)集數(shù)量遠(yuǎn)高于通常數(shù)量,從統(tǒng)計(jì)學(xué)的角度來看仍然相當(dāng)有限。然而,從實(shí)驗(yàn)中得出的總體情況顯然有利于IBLR-ML。對(duì)于MLKNN,將此方法與BRN版本的KNN進(jìn)行比較很有意思。事實(shí)上,由于MLKNN也是二進(jìn)制的相關(guān)學(xué)習(xí)者,所以這兩者之間的唯一區(qū)別圖。1所有分類器與Nemenyi測試的對(duì)比。沒有顯著差異的分類器組(p=0.05)被連接表2不同評(píng)價(jià)措施的實(shí)驗(yàn)結(jié)果。性能值后面的括號(hào)中的數(shù)字是相應(yīng)數(shù)據(jù)集上的方法的等級(jí)(對(duì)于每個(gè)數(shù)據(jù)集,方法按性能降序排列)。平均排名是所有數(shù)據(jù)集中的排名的平均值iblr-ml+iblr-mlmlknnlpbr-lrbr-c4.5br-knnHammingEmotions0.213(3)0.185(1)0.263(6)0.265(7)0.214(4)0.253(5)0.191(2)Genbase0.002(2)0.002(3)0.005(7)0.002(4)0.002(5)0.001(1)0.004(6)Image0.182(1)0.189(2)0.195(4)0.257(7)0.202(5)0.245(6)0.193(3)Mediamill0.03(6)0.028(3)0.027(2)0.039(7)0.029(4)0.032(5)0.027(1)Reuters0.044(1)0.084(6)0.073(5)0.067(4)0.049(2)0.058(3)0.09(7)Scene0.126(4)0.084(1)0.087(2)0.142(7)0.14(6)0.133(5)0.093(3)Yeast0.199(4)0.194(1)0.194(2)0.28(7)0.206(5)0.25(6)0.196(3)Averagerank32.4346.144.434.433.57OneErrorEmotions0.278(3)0.257(1)0.393(5)0.43(7)0.278(4)0.422(6)0.265(2)Genbase0.014(5)0.007(2)0.009(3)0.01(4)0.015(6)0.003(1)0.017(7)Image0.328(1)0.367(2)0.382(4)0.507(6)0.37(3)0.512(7)0.386(5)Mediamill0.356(5)0.185(3)0.136(2)0.367(6)0.277(4)0.381(7)0.133(1)Reuters0.076(1)0.22(6)0.185(5)0.162(4)0.086(2)0.145(3)0.233(7)Scene0.349(4)0.224(2)0.223(1)0.394(6)0.364(5)0.411(7)0.26(3)Yeast0.249(5)0.227(1)0.228(2)0.351(6)0.241(4)0.389(7)0.234(3)Averagerank3.432.433.145.5745.434CoverageEmotions1.844(4)1.689(1)2.258(5)2.576(6)1.836(3)2.608(7)1.771(2)Genbase0.356(1)0.422(4)0.561(7)0.529(6)0.391(3)0.372(2)0.436(5)Image0.963(1)1.056(3)1.129(5)1.589(6)1.052(2)1.615(7)1.102(4)Mediamill16.681(4)15.161(3)12.757(1)49.469(7)14.323(2)47.996(6)21.344(5)Reuters0.411(1)0.758(4)0.676(3)0.986(7)0.44(2)0.852(6)0.82(5)Scene0.911(5)0.466(1)0.472(2)1.145(6)0.871(4)1.288(7)0.551(3)Yeast6.289(3)6.203(1)6.273(2)9.204(6)6.492(4)9.353(7)6.517(5)Averagerank2.712.433.576.292.8664.14RankLossEmotions0.168(2)0.146(1)0.258(5)0.499(7)0.168(3)0.372(6)0.183(4)Genbase0.002(1)0.004(2)0.006(4)0.017(7)0.005(3)0.006(5)0.01(6)Image0.175(1)0.197(3)0.214(4)0.537(7)0.196(2)0.409(6)0.252(5)Mediamill0.05(4)0.043(3)0.037(1)0.451(7)0.041(2)0.187(6)0.117(5)Reuters0.026(1)0.083(4)0.069(3)0.18(7)0.03(2)0.092(5)0.113(6)Scene0.15(4)0.076(1)0.077(2)0.393(7)0.157(5)0.299(6)0.109(3)Yeast0.168(3)0.164(1)0.167(2)0.545(7)0.176(4)0.362(6)0.204(5)Averagerank2.292.143735.714.86Ave.Prec.Emotions0.794(3)0.816(1)0.71(5)0.683(6)0.794(4)0.683(7)0.805(2)Genbase0.989(3)0.99(2)0.989(4)0.986(6)0.988(5)0.993(1)0.982(7)Image0.789(1)0.763(2)0.748(5)0.653(6)0.763(3)0.649(7)0.752(4)Mediamill0.694(5)0.731(3)0.751(1)0.498(7)0.722(4)0.582(6)0.739(2)Reuters0.951(1)0.859(6)0.881(4)0.871(5)0.944(2)0.889(3)0.848(7)Scene0.773(4)0.867(1)0.867(2)0.734(6)0.769(5)0.715(7)0.844(3)Yeast0.763(3)0.769(1)0.764(2)0.621(6)0.754(5)0.619(7)0.761(4)Averagerank2.862.293.29645.434.14表3二進(jìn)制分類問題的分類誤差。性能值后面的括號(hào)中的數(shù)字是相應(yīng)數(shù)據(jù)集上的方法的等級(jí)(對(duì)于每個(gè)數(shù)據(jù)集,方法按性能降序排列)。平均排名是所有數(shù)據(jù)集中的排名的平均值DatasetIBLR-ML+IBLR-MLMLKNNBR-KNNbreast-cancer.280(4).252(1).259(2).262(3)breast-w.037(3.5).037(3.5).036(2).034(1)colic.195(3).176(1).350(4).182(2)credit-a.135(2).132(1).328(4).138(3)credit-g.229(1).265(3).306(4).261(2)diabetes.233(1).263(4).259(3).256(2)heart-statlog.170(1).193(2.5).363(4).193(2.5)hepatitis.175(1).192(2).204(4).199(3)ionosphere.117(2.5).117(2.5).108(1).171(4)kr-vs-kp.018(1).044(2.5).044(2.5).046(4)labor.210(3).130(1).270(4).150(2)mushroom.000(1.5).000(1.5).001(3.5).001(3.5)sick.030(1).039(2).061(4).040(3)sonar.250(2).245(1).327(4).284(3)tic-tac-toe.125(1).137(3).136(2).317(4)vote.044(1).060(2).074(3).076(4)Averagerank1.842.093.192.88兩種方法涉及將全球信息納入MLKNN,這是通過貝葉斯更新(1)關(guān)于標(biāo)簽相關(guān)性的本地信息來完成的。從表2可以看出,MLKNN在所有排名措施方面優(yōu)于BR-KNN,而不是Hamming損失方面的差距,甚至更差。因此,在相關(guān)性預(yù)測方面,MLKNN似乎沒有提供特殊的優(yōu)勢。我們對(duì)這一發(fā)現(xiàn)的解釋是,整合信息對(duì)于簡單的0/1預(yù)測確實(shí)沒有用。在某種意義上,這可能不是非常令人驚訝,因?yàn)槿蛐畔⒌氖褂迷谀撤N程度上與最近鄰近預(yù)測的地方估計(jì)的基本原則相沖突。但是,利用這些信息,提供了一種合理的方式來打破階級(jí)標(biāo)簽之間的聯(lián)系,從而解釋了排名表現(xiàn)的積極影響。實(shí)際上,應(yīng)該注意的是,當(dāng)簡單地通過查詢的k個(gè)鄰居中的出現(xiàn)次數(shù)對(duì)標(biāo)簽進(jìn)行評(píng)分時(shí),這種關(guān)系很有可能;特別是所有不相關(guān)的標(biāo)簽將不會(huì)有0分,因此將被綁定。隨著全球范圍內(nèi)的關(guān)聯(lián)信息顯然比打破關(guān)系更為合理。為了驗(yàn)證我們的猜想,在MLKNN中納入全球信息實(shí)際上對(duì)于相關(guān)性預(yù)測并不十分有用,我們還使用UCI存儲(chǔ)庫中的16個(gè)二進(jìn)制分類問題進(jìn)行了另外的實(shí)驗(yàn)。使用這種類型的數(shù)據(jù)是有意義的,因?yàn)閷?duì)于二進(jìn)制相關(guān)學(xué)習(xí)者來說,最小化漢明丟失等于相互獨(dú)立解決的二進(jìn)制分類問題的0/1丟失。表3中總結(jié)的5次10倍交叉驗(yàn)證的結(jié)果與我們以前的研究完全一致。MLKNN確實(shí)顯示出最差的表現(xiàn),甚至超過了簡單的BR-KNN。有趣的是,IBLR-ML+現(xiàn)在比IBLR-ML好一點(diǎn)。對(duì)這一發(fā)現(xiàn)的合理解釋是,與多標(biāo)簽情況相比,來自二進(jìn)制分類中查詢的鄰居的相關(guān)性信息僅涉及單個(gè)標(biāo)簽,因此相當(dāng)稀疏。相應(yīng)地,重新評(píng)估有關(guān)附加功能的信息6總結(jié)和結(jié)論我們提出了一種基于實(shí)例的學(xué)習(xí)(稱為IBLR)的新穎方法,可以用于一般的分類和特別是多標(biāo)簽分類。將相鄰示例的標(biāo)簽信息作為查詢實(shí)例的特征,IBLR的思想是將基于實(shí)例的學(xué)習(xí)正式地減少到邏輯回歸。然后可以通過估計(jì)最優(yōu)回歸系數(shù)來實(shí)現(xiàn)全局和局部推理之間的最佳平衡,以及在基于實(shí)例和基于模型(屬性導(dǎo)向)學(xué)習(xí)之間的擴(kuò)展版本IBLR+。對(duì)于多標(biāo)簽分類,這個(gè)想法特別有吸引力,因?yàn)樗试S人們考慮不同標(biāo)簽之間的相互依賴關(guān)系。這些依賴關(guān)系被相關(guān)回歸系數(shù)的符號(hào)和數(shù)量直接反映。這種能力將IBLR與迄今為止基于實(shí)例的多標(biāo)簽分類方法區(qū)分開來,可能是其卓越性能的主要因素之一。事實(shí)上,我們廣泛的實(shí)證研究清楚地表明,IBLR改進(jìn)了現(xiàn)有的方法,特別是可以被認(rèn)為是基于實(shí)例的多標(biāo)簽分類中最先進(jìn)的MLKNN方法。有趣的是,我們的研究結(jié)果還表明,MLKNN的基本思想,即將基于實(shí)例的學(xué)習(xí)和貝葉斯推理結(jié)合起來,對(duì)于排名表現(xiàn)有好處,但并不僅僅局限于相關(guān)性預(yù)測。更詳細(xì)地研究對(duì)具體績效指標(biāo)的影響,并詳細(xì)闡述基于實(shí)例的方法來最小化特定的損失函數(shù),這是未來工作的一個(gè)有趣的話題。此外,對(duì)于IBLR+,我們計(jì)劃利用更復(fù)雜的方法來組合基于實(shí)例和模型的推論的可能性,例如通過為兩個(gè)部分選擇最優(yōu)特征子集,而不是簡單地使用所有特征兩次。參考Aha,D.,Kibler,D.,&Alber,M。(1991)。基于實(shí)例的學(xué)習(xí)算法。機(jī)器學(xué)習(xí),6(1),37-66。Boutell,M.R.,Luo,J.,Shen,X.,&Brown,C.M。(2004)。學(xué)習(xí)多標(biāo)簽場景分類。模式識(shí)別,37(9),1757-1771。Clare,A.,&King,R.D。(2001)。多標(biāo)簽表型數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)。在L.D.Raedt&A.Siebes(Eds。),“計(jì)算機(jī)科學(xué)講義”(第2168卷,第42-53頁)。柏林:斯普林格Comite,F(xiàn).D.,Gilleron,R.,&Tommasi,M。(2003)。從文本和數(shù)據(jù)學(xué)習(xí)多標(biāo)簽交替決策樹。在P.Perner和A.Rosenfeld(Eds。),“計(jì)算機(jī)科學(xué)”講義(Vol。2734,pp。35-49)中。柏林:斯普林格Dasarathy,B.V.,editor(1991)。最近鄰(NN)規(guī)范:NN模式分類技術(shù)。LosAlamitos:IEEEComput。SOC。Demsar,J。(2006)。多個(gè)數(shù)據(jù)集分類器的統(tǒng)計(jì)比較。機(jī)器學(xué)習(xí)研究雜志,7,1-30。Elisseeff,A.,&Weston,J.(2002)。一種用于多標(biāo)簽分類的核心方法。在T.G.Datterich,S.Becker,&Z.Ghahramani(Eds。),Advancesinneuralinf
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 外包安保服務(wù)協(xié)議書(2篇)
- 多元文化社區(qū)活動(dòng)合同(2篇)
- 14《故都的秋》《荷塘月色》對(duì)比閱讀說課稿 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊(cè)
- 2024戊己雙方城市供水供電供氣合同
- 建筑安裝工程承包合同
- 2024年門窗制作及施工承攬協(xié)議版B版
- 超高清數(shù)字內(nèi)容生產(chǎn)與合作推廣合同
- 2024年環(huán)保植樹活動(dòng)組織與實(shí)施合同3篇
- 2025高考生物備考說課稿:第二章 細(xì)胞的基本結(jié)構(gòu)和物質(zhì)的運(yùn)輸 課時(shí)4 物質(zhì)出入細(xì)胞的方式及影響因素
- 2 祖父的園子 說課稿-2024-2025學(xué)年語文五年級(jí)下冊(cè)統(tǒng)編版
- 2025年部編版一年級(jí)語文上冊(cè)期末復(fù)習(xí)計(jì)劃
- 2024高考物理一輪復(fù)習(xí):觀察電容器的充、放電現(xiàn)象(練習(xí))(學(xué)生版+解析)
- 地理2024-2025學(xué)年人教版七年級(jí)上冊(cè)地理知識(shí)點(diǎn)
- 2024年度內(nèi)蒙古自治區(qū)國家電網(wǎng)招聘之電工類綜合練習(xí)試卷A卷附答案
- 零售服務(wù)質(zhì)量提升
- 2024 消化內(nèi)科專業(yè) 藥物臨床試驗(yàn)GCP管理制度操作規(guī)程設(shè)計(jì)規(guī)范應(yīng)急預(yù)案
- 2024-2030年中國電子郵箱行業(yè)市場運(yùn)營模式及投資前景預(yù)測報(bào)告
- 基礎(chǔ)設(shè)施零星維修 投標(biāo)方案(技術(shù)方案)
- 新型電力系統(tǒng)背景下新能源發(fā)電企業(yè)技術(shù)監(jiān)督管理體系創(chuàng)新
- 北京市海淀區(qū)2023-2024學(xué)年高二上學(xué)期期末考試 英語 含答案
- 幼小銜接-認(rèn)識(shí)植物-課件
評(píng)論
0/150
提交評(píng)論