基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)_第1頁(yè)
基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)_第2頁(yè)
基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)_第3頁(yè)
基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)_第4頁(yè)
基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi) 基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)內(nèi)容提要 隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,電子文檔很多需要被標(biāo)記為多個(gè)類(lèi)標(biāo)簽,即劃分到多個(gè)類(lèi)別范疇中。當(dāng)前,對(duì)多標(biāo)簽文本分類(lèi)的研究主要針對(duì)特征的選取和分類(lèi)算法。本文借鑒處理不確定性問(wèn)題的軟模糊粗糙集模型,將其應(yīng)用于多標(biāo)簽文本的分類(lèi)問(wèn)題。通過(guò)將多標(biāo)簽文本語(yǔ)料根據(jù)文檔頻率進(jìn)行特征提取,采用TF-IDF特征表示方法,將特征詞集表示成向量空間模型的形式,使數(shù)據(jù)更加結(jié)構(gòu)化。同時(shí),基于粗糙集理論,采用了軟模糊粗糙集模型,并對(duì)其加以改進(jìn),使其具有處理多標(biāo)簽問(wèn)題的能力。然后利用這種模型對(duì)文本進(jìn)行類(lèi)別的劃分,得到每個(gè)測(cè)試文檔的類(lèi)標(biāo)簽集合。最后采

2、用多標(biāo)簽分類(lèi)特有的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)估。關(guān)鍵詞 軟模糊粗糙集,多標(biāo)簽,文本表示,分類(lèi)算法1 引言 隨著網(wǎng)絡(luò)信息傳播的高效性以及人們對(duì)電子文檔使用的頻繁性,各類(lèi)論壇、門(mén)戶(hù)網(wǎng)站、電子商務(wù)網(wǎng)站,以及近年發(fā)展起來(lái)的微博等,都處于蓬勃發(fā)展的狀態(tài)。同時(shí),各類(lèi)電子文檔已成為這些網(wǎng)絡(luò)信息傳播的有效載體。然而,現(xiàn)實(shí)世界中,很多電子文檔的內(nèi)容都是包含多個(gè)主題類(lèi)別的,從文本分類(lèi)的角度來(lái)看,就是文本的多標(biāo)簽問(wèn)題。面對(duì)各類(lèi)微博網(wǎng)站的蓬勃發(fā)展,微博短文本內(nèi)容與日俱增,更加嚴(yán)峻的任務(wù)需要我們來(lái)解決。由于微博內(nèi)容的復(fù)雜性,主題的多樣性,用戶(hù)興趣的廣泛性,當(dāng)我們需要對(duì)這類(lèi)網(wǎng)絡(luò)文本數(shù)據(jù)的主題進(jìn)行分析處理,為得到用戶(hù)的關(guān)注類(lèi)

3、型及偏好提供幫助時(shí),首先需要研究這類(lèi)多標(biāo)簽文本的分類(lèi)問(wèn)題。對(duì)于一篇微博、博客或是新聞文檔,考慮它的主題類(lèi)別時(shí),可能會(huì)認(rèn)為它談?wù)摰氖钦畏矫娴膬?nèi)容,但它卻延伸到軍事或是經(jīng)濟(jì)方面的內(nèi)容。在對(duì)這類(lèi)文本進(jìn)行分類(lèi)時(shí),就需要為它標(biāo)定多個(gè)類(lèi)別標(biāo)簽,然后再對(duì)它進(jìn)行分析處理。文本分類(lèi)技術(shù)對(duì)于大量文檔的歸類(lèi)問(wèn)題提供了很好的推動(dòng)作用。因此,研究多標(biāo)簽文本分類(lèi)問(wèn)題具有非常重要的現(xiàn)實(shí)意義。 當(dāng)前,對(duì)于多標(biāo)簽分類(lèi),大多數(shù)是理論算法的研究。關(guān)于分類(lèi)方法,主要有兩種方式,一是問(wèn)題的轉(zhuǎn)換,二是算法的適應(yīng)性。大多數(shù)情況下,多標(biāo)簽文本分類(lèi)算法都是用在英文文本語(yǔ)料上?,F(xiàn)今網(wǎng)絡(luò)上的中文電子文檔等數(shù)據(jù)中也存在著大量需要被當(dāng)作多標(biāo)簽問(wèn)題來(lái)

4、解決的文本語(yǔ)料。因此,能夠從網(wǎng)絡(luò)上的電子文檔中抽取大量的多標(biāo)簽文本語(yǔ)料,用于對(duì)中文文本的多標(biāo)簽分類(lèi)研究,這對(duì)自然語(yǔ)言的學(xué)習(xí)研究是必要的。 粗糙集理論已經(jīng)在特征選擇、屬性約簡(jiǎn)、規(guī)則學(xué)習(xí)等實(shí)際應(yīng)用中取得了很好的實(shí)際效果。大量實(shí)驗(yàn)表明,基于模糊粗糙集的軟模糊粗糙集模型在處理噪聲和錯(cuò)誤標(biāo)記的樣本方面具有很好的效果。本文通過(guò)對(duì)軟模糊粗糙分類(lèi)器的改進(jìn),使其擴(kuò)展為可以處理多標(biāo)簽分類(lèi)問(wèn)題的模型,并將其應(yīng)用于中文多標(biāo)簽文本分類(lèi)中,拓寬了粗糙集理論在自然語(yǔ)言處理領(lǐng)域的應(yīng)用。2 相關(guān)工作 文本分類(lèi)是自然語(yǔ)言處理的一個(gè)重要分支領(lǐng)域,它通過(guò)分析文本內(nèi)容并運(yùn)用統(tǒng)計(jì)學(xué)方法加以處理,使得計(jì)算機(jī)能夠?qū)Υ诸?lèi)文檔實(shí)現(xiàn)自動(dòng)劃分到若

5、干個(gè)較合適的類(lèi)別中的目的,從而達(dá)到便于文本組織管理、智能檢索以及信息過(guò)濾等應(yīng)用的結(jié)果。隨著電子文本信息量的急劇增長(zhǎng),文本內(nèi)容的多樣化,只能確定文本單一類(lèi)別的單標(biāo)簽學(xué)習(xí)已經(jīng)難以滿(mǎn)足人們對(duì)分類(lèi)的需求。因此,多標(biāo)簽文本分類(lèi)以其特有的靈活性與實(shí)用性吸引了大多數(shù)研究學(xué)者的注意力。 近年來(lái),多標(biāo)簽分類(lèi)作為多標(biāo)記學(xué)習(xí)中的一個(gè)重要問(wèn)題,越來(lái)越受到研究學(xué)者的關(guān)注。Tsoumakas等人1將現(xiàn)有的多標(biāo)簽分類(lèi)算法歸結(jié)為兩類(lèi):算法適應(yīng)方法和問(wèn)題轉(zhuǎn)化方法。典型的算法適應(yīng)方法有AdaBoost.MH算法2、人工神經(jīng)元網(wǎng)絡(luò)3、Boosting 算法4等。典型的問(wèn)題轉(zhuǎn)化方法有:LP(Label Powerset)算法5、BR

6、(Binary Relevance)算法16、RAKEL(Random k-labelsets)算法6等。 一些學(xué)者已經(jīng)對(duì)粗糙集理論進(jìn)行了較為深入的研究,提出了軟粗糙集、軟模糊粗糙集等概念。為了能夠好的解決模糊粗糙集模型對(duì)噪聲敏感的問(wèn)題,胡清華等人78在軟間隔SVM的啟發(fā)下,將基于軟閾值的抗噪方式引入到模糊粗糙集模型中,給出了軟距離的概念,提出了軟模糊粗糙集模型,并基于軟模糊下近似隸屬度設(shè)計(jì)了一種單標(biāo)簽的分類(lèi)模型,被稱(chēng)為軟模糊粗糙分類(lèi)器。 由于軟模糊粗糙分類(lèi)器是通過(guò)取得待分類(lèi)樣本對(duì)某一類(lèi)別的下近似隸屬度,從中選取具有最大隸屬度的類(lèi)標(biāo)簽來(lái)標(biāo)定該樣本的類(lèi)別,對(duì)多標(biāo)簽分類(lèi)來(lái)說(shuō),將該模型做一定的改造,

7、賦予隸屬度合適的閾值,即可把這種針對(duì)單標(biāo)簽數(shù)據(jù)的分類(lèi)模型改造為可以對(duì)多標(biāo)簽數(shù)據(jù)進(jìn)行分類(lèi)的有效分類(lèi)模型。 當(dāng)前,粗糙集理論在文本分類(lèi)方面的應(yīng)用,大多數(shù)是利用粗糙集在屬性約簡(jiǎn)方面的優(yōu)越性。盧嬌麗、鄭家恒等曾利用粗糙集理論對(duì)屬性?xún)?yōu)越的約簡(jiǎn)特性將其應(yīng)用于文本分類(lèi)方面9,并取得了很好的效果。但由于只是針對(duì)單標(biāo)簽文本的分類(lèi),限制了粗糙集的應(yīng)用范圍。安爽10在其博士論文中,以穩(wěn)健的軟模糊粗糙集理論為基礎(chǔ),將其應(yīng)用于太陽(yáng)耀斑預(yù)報(bào)模型的研究。鑒于軟模糊下近似隸屬度的特殊性,同時(shí),考慮到多標(biāo)簽分類(lèi)的實(shí)用性,本文將軟模糊粗糙集理論應(yīng)用于文本分類(lèi)中,給出了一種基于軟模糊粗糙集模型的多標(biāo)簽文本分類(lèi)算法。3 文本結(jié)構(gòu)化表

8、示3.1 文本預(yù)處理 在文本信息處理中通??梢圆捎枚喾N粒度的特征,但在文本分類(lèi)中,普遍采用基于詞的文本特征選擇方法,其分類(lèi)效果通常要好于字和短語(yǔ)。由于中文語(yǔ)言的特殊性,需要對(duì)中文文檔進(jìn)行分詞處理,本文使用中科院ICTCLAS分詞軟件對(duì)全部文檔進(jìn)行分詞。分詞結(jié)果以文本形式存儲(chǔ)。3.2 特征提取 首先,對(duì)分詞后的文本建立停用詞表,去除停用詞,結(jié)果仍以文本形式存儲(chǔ)。經(jīng)過(guò)去除停用詞等步驟的處理后,文本已經(jīng)得到了初步的降維。然而,為了得到好的分類(lèi)效果,需要從這些詞集中選出具有較好區(qū)分性和代表性的詞作為分類(lèi)特征集,從而達(dá)到對(duì)特征集縮減降維的效果。現(xiàn)在需要對(duì)這些文檔詞集進(jìn)行特征提取。 特征選擇的方法有很多,

9、常用的方法有:文檔頻率(DF)、信息增益(IG)、統(tǒng)計(jì)量法(CHI-2)和互信息法(MI)等11。信息增益、互信息等特征選擇的方法都是與類(lèi)別相關(guān)的,而本文研究的多標(biāo)簽文本分類(lèi)中,文本的類(lèi)別是多個(gè)的而不是單一的,由于本文使用的DF特征選擇方法簡(jiǎn)單,不受類(lèi)別影響,因此它比較適用于多標(biāo)簽文本的研究。 根據(jù)文檔頻率的特征選擇方法,歸納所有文檔的分詞結(jié)果,會(huì)得到文檔集中所有詞的文檔頻率信息,將這些詞按照頻率大小排序,去掉在文檔中出現(xiàn)很少次數(shù)的詞。選取出現(xiàn)頻率較高的部分詞作為文本分類(lèi)過(guò)程中的特征項(xiàng)。這樣,減小了特征噪聲對(duì)分類(lèi)結(jié)果的影響。3.3 權(quán)重表示 特征權(quán)重通常用來(lái)界定特征項(xiàng)在文檔表示中的代表性和重要

10、性。文本分類(lèi)中特征權(quán)值計(jì)算方法有:布爾權(quán)重、絕對(duì)詞頻(TF)權(quán)重、TF-IDF權(quán)重等12。本文采用文本分類(lèi)中常用的TF-IDF權(quán)重表示方法對(duì)所有文檔的特征詞進(jìn)行表示13。TF-IDF權(quán)重不僅考慮特征詞在一篇文本中出現(xiàn)的頻次,也考慮了它在所有文本中的頻率。其計(jì)算方法見(jiàn)公式1-2。 1 2 其中,wij是特征詞tj在文檔Dj中的權(quán)重,tfij為特征詞tj在文本Dj中出現(xiàn)的頻率,nj表示包含特征項(xiàng)的文檔在整個(gè)文檔集中的頻率,N為文檔總數(shù)。3.4 文本表示 文本特征表示是文本分類(lèi)的基礎(chǔ),指將所有文檔中的不同文本以及特征項(xiàng)用模型進(jìn)行表示。文本分類(lèi)中常用的兩種文本表示模型為布爾模型(Boolean Mod

11、e)和向量空間模型(VSM)14。由于VSM對(duì)文本的表示形式效果好,且具有廣泛的應(yīng)用,本文采用VSM對(duì)文本進(jìn)行表示。 整個(gè)文檔集的表示見(jiàn)下圖1:圖1 文檔集表示形式其中,矩陣D的每一行表示一篇文檔,每一列表示一個(gè)特征項(xiàng),每一個(gè)值表示對(duì)應(yīng)特征在相應(yīng)文檔中的權(quán)值,權(quán)值越大,表示該特征項(xiàng)在這篇文檔中的相對(duì)重要程度越大。 通過(guò)文本的預(yù)處理,將非結(jié)構(gòu)化的文本表示為結(jié)構(gòu)化的數(shù)據(jù),即可將這些數(shù)據(jù)用于分類(lèi)器的訓(xùn)練。4 軟模糊粗糙集模型4.1 軟模糊粗糙集 軟模糊粗糙集理論將軟間隔SVM中選取軟閾值的思想引入模糊粗糙集理論中,提出了一種不同于原有的計(jì)算樣本最近距離方法的軟距離的概念8。定義1 給定一個(gè)樣本實(shí)例x

12、和一個(gè)樣本實(shí)體集,x和Y之間的軟距離被定義為 3) 其中是與之間的距離函數(shù),C是懲罰因子,是滿(mǎn)足條件的樣本數(shù)量。 圖2給出了一個(gè)確定軟距離的例子。假定樣本x屬于類(lèi)1,其他樣本屬于類(lèi)2,用Y表示該樣本集。如果把y1當(dāng)作一個(gè)噪聲樣本并忽略它,SD(x,Y)應(yīng)該是d2。因此要有一個(gè)懲罰項(xiàng)來(lái)判定需要忽略多少個(gè)噪聲樣本。如果忽略一個(gè)樣本,dx,yj將會(huì)減去C。對(duì)于所有的候選距離dx,yj,取作為x和Y之間的軟距離。也就是說(shuō),距離dx,yj是懲罰了所有被忽略樣本之后的最大值。關(guān)于參數(shù)C的選取,參見(jiàn)4.3節(jié)。圖2 軟距離示意圖 在軟距離的基礎(chǔ)上,軟模糊粗糙集的定義如下:定義2 把U作為一個(gè)非空論域,R是U上

13、的一個(gè)模糊等價(jià)關(guān)系,且F(U)是U的模糊冪集。FF(U)的軟模糊上下近似被定義為 4其中,5C是一個(gè)懲罰因子,m是在計(jì)算時(shí)被忽略的樣本的數(shù)量,n是計(jì)算時(shí)被忽略的樣本的數(shù)量。如果集合A是一個(gè)清晰集,那么樣本x對(duì)于A的軟模糊下近似的隸屬度就表示為 6其中,7顯然,等于樣本x到U-A的軟距離。4.2 軟模糊粗糙分類(lèi)器 胡清華等人在上述軟模糊下近似定義的基礎(chǔ)上設(shè)計(jì)了一個(gè)穩(wěn)健的分類(lèi)器8,可以用來(lái)解決單標(biāo)簽分類(lèi)問(wèn)題。 它的原理概括為:計(jì)算一個(gè)待分類(lèi)樣本對(duì)于每個(gè)類(lèi)的軟模糊下近似隸屬度的值。給定一個(gè)具有k個(gè)類(lèi)的訓(xùn)練樣本集和一個(gè)待分類(lèi)樣本x。首先,假定x屬于每個(gè)類(lèi)。計(jì)算出樣本x對(duì)于k類(lèi)的軟模糊下近似隸屬度的值,

14、然后將x劃分到最大隸屬度的類(lèi)別中。用公式表示為 (8)其中,是x對(duì)于類(lèi)的軟模糊下近似隸屬度。 算法描述如下:輸入:訓(xùn)練樣本集,測(cè)試樣本集;輸出:每個(gè)測(cè)試樣本xi的類(lèi)別classi。Step1:計(jì)算類(lèi)別個(gè)數(shù);Step2:對(duì)于每個(gè)測(cè)試樣本xiX,做如下處理:對(duì)每個(gè)類(lèi)classjYYy1,y2,yk,計(jì)算xi與其異類(lèi)中每個(gè)樣本的距離,得到候選距離。對(duì)得到的候選距離排序,再根據(jù)公式3計(jì)算類(lèi)classj對(duì)應(yīng)的軟距離。由公式6-7可知,1中的得到的xi對(duì)異類(lèi)樣本的軟距離的值與其對(duì)應(yīng)的下近似隸屬度的值相等。于是得到樣本xi對(duì)每個(gè)類(lèi)的軟模糊下近似隸屬度。選取隸屬度取最大值時(shí)對(duì)應(yīng)的類(lèi)標(biāo)簽classt并將其返回,

15、即可得到樣本xi的類(lèi)別。Step3:重復(fù)step2直到得到每個(gè)測(cè)試樣本的類(lèi)標(biāo)簽。4.3參數(shù)設(shè)置 由4.1節(jié)中的圖2可以看出,軟模糊粗糙集中懲罰因子C的值對(duì)其穩(wěn)健性具有重要意義。對(duì)于參數(shù)的設(shè)置在文獻(xiàn)8中給出了一種方法。 假定以一個(gè)樣本x為例,給出以該樣本為球心的軟超球的信任度f(wàn)。當(dāng)以x為球心計(jì)算軟超球的信任度時(shí),如果其值大于或等于f,那么當(dāng)信任度等于f時(shí),軟超球與硬超球的半徑的差比上軟超球中少數(shù)幾個(gè)異類(lèi)樣本的個(gè)數(shù),比值即為以樣本x為球心得到的C的值。同時(shí),也確保了軟模糊下近似的信任度。對(duì)于一個(gè)含有n個(gè)樣本的數(shù)據(jù)集,取以每個(gè)樣本為球心計(jì)算的C的平均值,即可得到這個(gè)數(shù)據(jù)集的參數(shù)C的值。 對(duì)于本文中的

16、多標(biāo)簽數(shù)據(jù)集,通過(guò)將多標(biāo)簽數(shù)據(jù)轉(zhuǎn)化為多個(gè)二分類(lèi)數(shù)據(jù)集來(lái)選取每個(gè)類(lèi)的參數(shù)。BR方法對(duì)于不同的類(lèi)會(huì)有不同的參數(shù)值,可由公式(9)得出。由SFRC改造后的算法通過(guò)取各參數(shù)的加權(quán)平均值作為它的懲罰因子C的值,權(quán)值為每個(gè)類(lèi)中的標(biāo)簽數(shù)占所有標(biāo)簽的比重,可由公式10得出。 計(jì)算參數(shù)C的公式如下: 9 10其中,L為標(biāo)簽總數(shù),wi為類(lèi)i的權(quán)值。 本文實(shí)驗(yàn)中選取軟模糊下近似的可信度大于或等于95%,即軟超球中的樣本錯(cuò)誤率小于5%。5 多標(biāo)簽分類(lèi)模型的構(gòu)建5.1 多標(biāo)簽學(xué)習(xí) 現(xiàn)有的分類(lèi)學(xué)習(xí)中,大部分是對(duì)單標(biāo)簽數(shù)據(jù)的研究。然而,在某些實(shí)際應(yīng)用中,一個(gè)訓(xùn)練樣本往往可以歸屬于多個(gè)類(lèi),即一個(gè)標(biāo)簽的集合。這樣的數(shù)據(jù)稱(chēng)為多標(biāo)

17、簽multi-label數(shù)據(jù)。 假定D為一個(gè)多標(biāo)簽數(shù)據(jù)集,其中包含|D|個(gè)樣本。表示訓(xùn)練樣本集,表示該樣本集中的樣本所屬類(lèi)標(biāo)簽的集合,其中,n表示訓(xùn)練樣本總數(shù),m表示標(biāo)簽總數(shù)。那么,數(shù)據(jù)集D可以表示為:,其中,xiX, ,xi為一個(gè)多標(biāo)簽樣本,Yj為該樣本對(duì)應(yīng)的類(lèi)標(biāo)簽的集合。多標(biāo)簽數(shù)據(jù)集在文獻(xiàn)16中已給出了詳細(xì)說(shuō)明。5.2 基于問(wèn)題轉(zhuǎn)換的多標(biāo)簽分類(lèi)模型的構(gòu)建 問(wèn)題轉(zhuǎn)換的分類(lèi)方法的主要思想是,將每一個(gè)多標(biāo)簽樣本xi,Yi處理成|Yi|個(gè)單標(biāo)簽數(shù)據(jù)xi,yi,其中,yiYi,然后再利用已有的分類(lèi)模型對(duì)轉(zhuǎn)化后的單標(biāo)簽數(shù)據(jù)集進(jìn)行分類(lèi),將會(huì)得到每個(gè)測(cè)試樣本的一個(gè)標(biāo)簽的集合。 本文采用Binary rel

18、evance BR方法對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。它訓(xùn)練了|L|個(gè)二分類(lèi)器,每個(gè)分類(lèi)器只劃分L中的一個(gè)類(lèi)別,|L|表示類(lèi)標(biāo)簽總數(shù)。它將原有的多標(biāo)簽數(shù)據(jù)集轉(zhuǎn)化為|L|個(gè)只存在兩個(gè)類(lèi)別的單標(biāo)簽數(shù)據(jù)集Dp。如果轉(zhuǎn)化后的單標(biāo)簽數(shù)據(jù)樣本Dxi的類(lèi)標(biāo)簽集合Yi中包含yi,則將其記為“1”,否則將其記為“0”。對(duì)于一個(gè)多標(biāo)簽樣本,BR方法輸出的集合中的標(biāo)簽是由|L|個(gè)基分類(lèi)器輸出中標(biāo)簽為“1”的類(lèi)標(biāo)簽組成的。 通過(guò)對(duì)處理后的多標(biāo)簽文本數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使用4.2節(jié)中給出的單標(biāo)簽分類(lèi)算法訓(xùn)練學(xué)習(xí)若干二分類(lèi)器,就構(gòu)成了一種基于軟模糊粗糙集模型的多標(biāo)簽分類(lèi)器。5.3 基于算法適應(yīng)的多標(biāo)簽分類(lèi)模型的構(gòu)建 算法適應(yīng)的分類(lèi)方法的主要思

19、想是,通過(guò)對(duì)已有算法的改進(jìn),使之具有直接處理多標(biāo)簽數(shù)據(jù)的能力,結(jié)果以一個(gè)類(lèi)標(biāo)簽集合的形式給出,集合中的標(biāo)簽即為該樣本所屬的類(lèi)別。本文通過(guò)對(duì)現(xiàn)有的處理單標(biāo)簽數(shù)據(jù)的軟模糊粗糙集模型進(jìn)行改造,將其用于多標(biāo)簽文本的分類(lèi)處理。 對(duì)于現(xiàn)有的軟模糊粗糙集模型,其樣本的軟模糊下近似隸屬度是依據(jù)待分類(lèi)樣本與異類(lèi)中樣本之間的軟距離得出的。與軟模糊粗糙分類(lèi)器的原理相同,需要計(jì)算一個(gè)待分類(lèi)樣本相對(duì)于各個(gè)類(lèi)的軟模糊下近似隸屬度的值。 假定一個(gè)多標(biāo)簽數(shù)據(jù)集共有|L|個(gè)類(lèi)標(biāo)簽,樣本xi是待分類(lèi)樣本,Yi表示該樣本所屬的類(lèi)標(biāo)簽集合。得到xi的標(biāo)簽集的過(guò)程如下: Step1:輸入一個(gè)多標(biāo)簽數(shù)據(jù)集。對(duì)其類(lèi)標(biāo)簽的表示形式進(jìn)行處理,

20、使得每個(gè)類(lèi)標(biāo)簽中,“1”表示樣本屬于該類(lèi)別,“0”表示不屬于。 Step2:先假定多標(biāo)簽樣本xi屬于每個(gè)類(lèi),根據(jù)軟模糊下近似隸屬度的計(jì)算方法,可以得出|L|個(gè)樣本xi對(duì)于每個(gè)類(lèi)的下近似隸屬度的值。這些隸屬度是對(duì)樣本xi隸屬于每個(gè)類(lèi)的重要性的度量。 Step3:給出一個(gè)界限,劃分出對(duì)樣本xi有著較高的貢獻(xiàn)度的類(lèi)別。 Step4:輸出這些類(lèi)別的集合,就是樣本xi的類(lèi)標(biāo)簽集Yi。 Step5:對(duì)每個(gè)樣本重復(fù)24步,即可得到所有樣本的類(lèi)標(biāo)簽集合。 公式表示如下: 11其中,表示樣本的隸屬度的界限值。 對(duì)于界限值的選取,給出兩種方法。一種是給定一個(gè)固定的閾值。用表示類(lèi)別相關(guān)度,將每個(gè)隸屬度的值轉(zhuǎn)換后用表

21、示,。首先,假定最大隸屬度的相關(guān)度為1,則其他所有類(lèi)的隸屬度與該最大值的比值,即為每個(gè)類(lèi)的相關(guān)度。然后設(shè)定一個(gè)閾值如90%,大于這個(gè)閾值的,則判定該樣本屬于相應(yīng)的類(lèi)別,將xi對(duì)應(yīng)的標(biāo)簽集中的位置置“1”,否則判定為不屬于,將其置“0”??紤]到每個(gè)樣本的特殊性,總體閾值的選擇可能對(duì)部分樣本不適用。因此,給出了另一種可以考慮到每個(gè)樣本特殊性的閾值選取方法。即直接取這|L|個(gè)下近似隸屬度的期望值Mi,以此作為類(lèi)別判定界限。如果一個(gè)樣本相對(duì)于類(lèi)yj的下近似隸屬度的值大于Mi,則判定該樣本屬于類(lèi)yj,否則判定為不屬于類(lèi)yj。6 數(shù)據(jù)準(zhǔn)備與評(píng)價(jià)指標(biāo)6.1 數(shù)據(jù)準(zhǔn)備 實(shí)驗(yàn)數(shù)據(jù)使用從網(wǎng)絡(luò)上搜集的微博、博客、新

22、聞等文檔構(gòu)成的1000篇文本語(yǔ)料,其中包含10個(gè)類(lèi)別,分別為:科技、體育、經(jīng)濟(jì)、軍事、國(guó)際、政治、健康、飲食、電子、娛樂(lè)。每篇文檔至少包含兩個(gè)類(lèi)別信息。將所有文檔平均分成4份(每份250篇文檔),每次實(shí)驗(yàn)都從中選取三份作為訓(xùn)練集,一份作為測(cè)試集,做四次交叉驗(yàn)證,結(jié)果取四次實(shí)驗(yàn)的平均值。表1給出了每個(gè)訓(xùn)練集中文檔類(lèi)別的統(tǒng)計(jì)信息。 表1 多標(biāo)簽文本訓(xùn)練集的統(tǒng)計(jì)信息訓(xùn)練集文檔標(biāo)簽數(shù)數(shù)TrainSet1TrainSet2TrainSet3TrainSet426766806766773434043424313031316.2 多標(biāo)簽分類(lèi)的評(píng)價(jià)指標(biāo) 在多標(biāo)簽分類(lèi)中,由于每個(gè)測(cè)試樣本對(duì)應(yīng)的類(lèi)別不再是單一的,

23、因此,其性能評(píng)價(jià)指標(biāo)與傳統(tǒng)的單標(biāo)簽分類(lèi)有所不同。 有效的評(píng)估方法也是文本分類(lèi)的一個(gè)重要過(guò)程。多標(biāo)簽分類(lèi)器有多種評(píng)價(jià)指標(biāo)17,本文采用常用的六種指標(biāo)對(duì)所使用的多標(biāo)簽分類(lèi)器的性能作出評(píng)價(jià)21516。 假設(shè)S是一個(gè)多標(biāo)簽測(cè)試數(shù)據(jù)集,Sx1,Y1, x2, Y2, xs, Ys,包含了S個(gè)多標(biāo)簽樣本xi,Yi,i1s, 。把H當(dāng)作一個(gè)多標(biāo)簽分類(lèi)器,表示由分類(lèi)器H預(yù)測(cè)的樣本xi的標(biāo)簽集。 (1)基于實(shí)例的精度匹配度量表示為: 12這是一個(gè)非常嚴(yán)格的評(píng)價(jià)方法,因?yàn)楫?dāng)測(cè)試樣本的預(yù)測(cè)標(biāo)簽集中多一個(gè)標(biāo)簽或者少一個(gè)標(biāo)簽,都會(huì)被判別為錯(cuò)誤。 (2)Schapire 和 Singer 2在2000年提出了Hammin

24、g Loss的評(píng)價(jià)指標(biāo),該指標(biāo)重在考慮樣本在單個(gè)類(lèi)別中的分類(lèi)誤差,即原應(yīng)出現(xiàn)在該樣本的標(biāo)簽集中的的類(lèi)不在標(biāo)簽集中,而不該出現(xiàn)的卻在標(biāo)簽集中這樣的情況,該指標(biāo)取值越小表示分類(lèi)器的性能越好。它的定義如下: 13其中,表示兩個(gè)集合的對(duì)稱(chēng)差分,相當(dāng)于布爾邏輯中的異或XOR操作。(3)Godbole和Sarawagi于2004年提出了多標(biāo)簽精度測(cè)量標(biāo)準(zhǔn),表示形式如下: 14它是通過(guò)對(duì)每個(gè)樣本真實(shí)的和預(yù)測(cè)的標(biāo)簽集的交集與并集大小的比值的宏平均來(lái)度量的,結(jié)果越大表示分類(lèi)性能越好。 下面三種指標(biāo)是從傳統(tǒng)的文本分類(lèi)領(lǐng)域中的評(píng)價(jià)指標(biāo)查準(zhǔn)率、查全率以及F值度量所派生出的,文獻(xiàn)15曾使用過(guò)這樣的評(píng)價(jià)指標(biāo)。 (4)Pr

25、ecision考慮了一個(gè)標(biāo)簽集中準(zhǔn)確預(yù)測(cè)的標(biāo)簽在原始預(yù)測(cè)的標(biāo)簽集中所占的比重,計(jì)算公式如下:15 (5)Recall考慮了一個(gè)標(biāo)簽集中準(zhǔn)確預(yù)測(cè)的標(biāo)簽在真實(shí)標(biāo)簽集中所占的比重,計(jì)算公式如下: 16 (6)F值的度量方式是準(zhǔn)確率Precision和召回率Recall的一種權(quán)衡表示,常用于信息檢索領(lǐng)域。對(duì)于文本分類(lèi)也是一種很好的評(píng)估指標(biāo)。F值度量的表示形式如下: 177 實(shí)驗(yàn)結(jié)果及分析 在第3節(jié)對(duì)文本預(yù)處理后得到的文本結(jié)構(gòu)化表示和第5節(jié)構(gòu)建的分類(lèi)模型的基礎(chǔ)上,本節(jié)通過(guò)實(shí)驗(yàn),采用BR方法構(gòu)建的SVM和SFRC兩種多標(biāo)簽分類(lèi)器,以及由算法適應(yīng)方法構(gòu)建的ML_SFRC分類(lèi)器得出實(shí)驗(yàn)結(jié)果。所有實(shí)驗(yàn)結(jié)果均取四

26、次交叉實(shí)驗(yàn)的平均值,以保證數(shù)據(jù)集對(duì)分類(lèi)性能的穩(wěn)定性。在實(shí)驗(yàn)結(jié)果的基礎(chǔ)上,對(duì)基于軟模糊粗糙集模型改造后的兩種分類(lèi)器進(jìn)行比較分析。7.1 特征項(xiàng)數(shù)目對(duì)分類(lèi)結(jié)果的影響 文本分類(lèi)中,特征詞的選取對(duì)分類(lèi)結(jié)果是有影響的。為了得到更好的分類(lèi)效果,本次實(shí)驗(yàn)分別選取文檔頻率較高的前400、600、800、1000個(gè)特征詞作為特征項(xiàng),采用BR_SFRC和ML_SFRC中以期望值作為界限的ML_SFRC_Mean兩種分類(lèi)器得出實(shí)驗(yàn)結(jié)果。分類(lèi)性能僅以精度匹配度量和海明損失、F值三個(gè)指標(biāo)作為參考。 表2 選取不同數(shù)目的特征詞時(shí)BR_SFRC分類(lèi)器的分類(lèi)結(jié)果特征數(shù)指標(biāo)4006008001000Exact Match0.6

27、0600.53500.47800.4220Hamming Loss0.10060.12280.13870.1563F-measure0.76050.70580.66640.6215 表3 選取不同數(shù)目的特征詞時(shí)ML_SFRC_Mean分類(lèi)器的分類(lèi)結(jié)果特征數(shù)指標(biāo)4006008001000Exact Match0.60000.52400.47100.4200Hamming Loss0.10030.12170.13810.1563F-measure0.75830.70670.66780.6223 由表2-表3中結(jié)果可以看出,特征詞數(shù)量為400時(shí)得到的結(jié)果最好。因此,后續(xù)的實(shí)驗(yàn)中我們采用文檔頻率統(tǒng)計(jì)結(jié)

28、果中前400個(gè)特征詞作為向量空間模型中的特征項(xiàng)。7.2 分類(lèi)算法對(duì)分類(lèi)結(jié)果的影響 文本分類(lèi)的實(shí)驗(yàn)效果與分類(lèi)算法的選取有關(guān)。SVM是一種常用的分類(lèi)模型17,文中實(shí)驗(yàn)采用SVM以及5.2節(jié)中構(gòu)建的BR_SFRC多標(biāo)簽分類(lèi)模型和5.3節(jié)中構(gòu)建的ML_SFRC多標(biāo)簽分類(lèi)模型對(duì)多標(biāo)簽文本進(jìn)行分類(lèi)。分類(lèi)性能以6.2節(jié)中給出的六種多標(biāo)簽分類(lèi)的評(píng)價(jià)指標(biāo)表示。 表4 基于問(wèn)題轉(zhuǎn)換的BR方法下的多標(biāo)簽分類(lèi)器的分類(lèi)結(jié)果 算法指標(biāo)BRSVMSFRCExactMatch0.62800.6060Hamming Loss0.05370.1006Accuracy0.79570.7173Precision0.92290.775

29、6Recall0.81540.7563F-measure0.84750.7605 由表4可以看出,在BR方法下,使用SVM分類(lèi)器得到的分類(lèi)結(jié)果中各項(xiàng)指標(biāo)均優(yōu)于SFRC。 表5 算法適應(yīng)方法下的ML _SFRC多標(biāo)簽分類(lèi)器在選取不同閾值時(shí)的分類(lèi)結(jié)果 算法指標(biāo)ML _SFRC90%92%94%96%98%MeanExact Match0.29900.35100.38700.38700.30900.6000Hamming Loss0.51280.43730.35880.27600.19880.1003Accuracy0.46300.51410.55770.58420.56060.7143Precis

30、ion0.48110.54890.62340.70470.77020.7806Recall0.96940.93920.89240.81740.68270.7507F-measure0.55890.60330.64250.67040.65740.7583 由表5可以看出,基于算法適用得到的ML_SFRC中,界限取期望值時(shí)得到的分類(lèi)結(jié)果優(yōu)于給定一個(gè)固定閾值時(shí)的結(jié)果。7.3結(jié)果分析 從實(shí)驗(yàn)數(shù)據(jù)結(jié)果進(jìn)行分析,分為以下幾種情況: (1)在特征選取方面,并不是特征詞越多分類(lèi)效果越好。判斷特征詞集合選擇的是否合理,主要看所選詞是否具有類(lèi)別標(biāo)識(shí)性。能夠?qū)⑽臋n歸為某一類(lèi)別,或是由于其中出現(xiàn)了一個(gè)具有很強(qiáng)的代表性

31、的詞,或是由于一個(gè)詞在它標(biāo)識(shí)的類(lèi)別中的頻率很高。由表2-表3可以看出,選取文檔頻率較高的前400個(gè)特征詞,使得分類(lèi)結(jié)果較好,說(shuō)明這些詞的類(lèi)別標(biāo)識(shí)性相對(duì)較高。 (2)從多標(biāo)簽分類(lèi)方法上看,BR方法由于沒(méi)有考慮到每個(gè)樣本所屬標(biāo)簽之間的關(guān)系,往往會(huì)對(duì)其泛化性能有所影響。少部分測(cè)試樣本最終的分類(lèi)結(jié)果可能出現(xiàn)沒(méi)有標(biāo)識(shí)的情況,因此無(wú)法判定其類(lèi)別。此外,BR方法需要構(gòu)建等同于標(biāo)簽數(shù)目的分類(lèi)器個(gè)數(shù),這無(wú)疑增加了算法的復(fù)雜度。然而,算法適應(yīng)方法能夠很好地解決這兩個(gè)問(wèn)題。如ML_SFRC考慮到各標(biāo)簽之前的相關(guān)性,根據(jù)隸屬度的大小,每個(gè)樣本被標(biāo)注上各自該有的標(biāo)簽。 (3)單純就BR方法轉(zhuǎn)換的SVM和SFRC分類(lèi)器來(lái)

32、講,由于BR方法是將多標(biāo)簽問(wèn)題轉(zhuǎn)化二分類(lèi)問(wèn)題來(lái)解決的,而SVM在二分類(lèi)問(wèn)題上有顯著的實(shí)驗(yàn)效果,因此,SVM的各項(xiàng)指標(biāo)優(yōu)于SFRC是可以理解的。然而,經(jīng)實(shí)驗(yàn)驗(yàn)證,SVM的分類(lèi)結(jié)果中,有0.8%的測(cè)試樣本被標(biāo)注為無(wú)標(biāo)簽樣本,一定程度上影響了其泛華性能。這對(duì)多標(biāo)簽分類(lèi)有很大影響。 (4)對(duì)于ML_SFRC,界限的選取很重要。從表5可以看出,選取期望值作為界限值的結(jié)果相對(duì)較好。當(dāng)根據(jù)類(lèi)別相關(guān)度選取固定值作為界限時(shí),由于各個(gè)樣本對(duì)于類(lèi)別的隸屬程度不同,如果選取的閾值較大,一部分本該屬于某些標(biāo)簽的樣本被忽略,如果選取的閾值較小,一部分不該屬于某些標(biāo)簽的樣本將被標(biāo)識(shí)為相關(guān)類(lèi)別,最差結(jié)果為樣本被標(biāo)識(shí)上全部標(biāo)簽

33、。因此,應(yīng)該考慮到樣本個(gè)體的特殊性,選取具有參照意義的期望值作為閾值。 綜上所述,雖然SFRC的指標(biāo)劣于SVM,但就復(fù)雜度和泛化性能來(lái)講,ML_SFRC還是有一定優(yōu)勢(shì)的。通過(guò)后續(xù)的改善,軟模糊粗糙集模型對(duì)多標(biāo)簽文本的分類(lèi)將會(huì)有更好的效果。8 結(jié)論與展望 本文通過(guò)搜集整理得到多標(biāo)簽文本的數(shù)據(jù)集,采用DF特征選擇方法,選取詞頻較高的多種數(shù)量的特征詞構(gòu)成特征詞集,選擇TF-IDF權(quán)重表示方法,將文本數(shù)據(jù)表示成向量空間模型的形式?;谲浤:植诩P?構(gòu)建出基于問(wèn)題轉(zhuǎn)換方法和算法適應(yīng)方法的BR_SFRC和ML_SFRC兩種分類(lèi)模型,結(jié)合BR方法得到的SVM分類(lèi)器,對(duì)多標(biāo)簽文本數(shù)據(jù)進(jìn)行分類(lèi),并采用多種指

34、標(biāo)對(duì)分類(lèi)結(jié)果進(jìn)行評(píng)估。實(shí)驗(yàn)表明,特征詞的選擇方面,選取400個(gè)特征詞作為特征項(xiàng)較好;對(duì)于ML_SFRC,選取隸屬度的期望值作為界限的結(jié)果最好;相對(duì)于BR方法,從復(fù)雜度和泛化性能等方面考慮,SFRC算法的適應(yīng)更好。 DF特征選擇方法在對(duì)特征詞進(jìn)行選擇操作時(shí)可能會(huì)去掉一部分文檔頻率低卻能很好反映類(lèi)別信息的特征詞,而且它只考慮了特征詞是否在文檔中出現(xiàn)過(guò)而忽略了出現(xiàn)次數(shù)這一信息。因此,后續(xù)工作中,對(duì)于文本特征的選擇,可以參考信息增益等其他方法,通過(guò)適當(dāng)?shù)母倪M(jìn),使其適用于多標(biāo)簽文本的特征選擇,對(duì)得到的數(shù)據(jù)集做出更好的簡(jiǎn)化。 由于多標(biāo)簽數(shù)據(jù)的獨(dú)特性,多標(biāo)簽分類(lèi)在很多方面還需要作進(jìn)一步的研究。本文使用的多標(biāo)

35、簽數(shù)據(jù)集標(biāo)簽維度較低,現(xiàn)實(shí)中,對(duì)于標(biāo)簽維度較高的的多標(biāo)簽分類(lèi)學(xué)習(xí)還是有很大困難的。標(biāo)簽的數(shù)量會(huì)極大地影響一個(gè)多標(biāo)簽分類(lèi)器模型的復(fù)雜性,BR方法的復(fù)雜度就與標(biāo)簽的數(shù)量有很大關(guān)系。在后續(xù)工作中,需要不斷擴(kuò)充完善多標(biāo)簽文本語(yǔ)料庫(kù),使用已構(gòu)建的分類(lèi)器訓(xùn)練學(xué)習(xí),改善分類(lèi)算法,以期望得到更高的分類(lèi)準(zhǔn)確率。9 致謝 參考文獻(xiàn)1Tsoumakas G. Multi-label classificationJ.International Journal of Data Warehousing &Mining. 2007, 33:12-16.2Schapire R,Singer Y. BoosTexter:A b

36、oosting-based system for text categorizationJ. Machine Learning.2000, 39 2:135-168.3M-L Zhang,Z-H Zhou. Multi-label neural net-works with applications to functional genomics and text categorizationJ. IEEE Transactions on Knowledge and Data Engineering. 2006,18:1338?1351.4Schapire R E,Singer Y. Boost

37、exter: A boosting-based system for text categorization J.Machine Learning. 2000, 392/3 :135?168.5Dimou A, Tsoumakas G, et al. An Empirical Study of Multi-Label Learning Methods for Video AnnotationC.Proc of the Seventh International Workshop on Content-Based Multimedia Indexing.2009.6Tsoumakas G,Vla

38、havas I.Random k-labelsets:An ensemble method for multi-label classificationC. Proc of the 18th European conference on Machine Learning.2007: 406?417.7Q.H. Hu, S. An, D.R. Yu. Soft fuzzy rough sets for robust feature evaluation and selectionJ. Information Sciences.2010, 180:4384?44008 Qinghua Hu, Sh

39、uang An, Xiao Yu, Daren Yu. Robust fuzzy rough classifiersJ. Fuzzy Sets and Systems2011, 183: 26?439盧嬌麗,鄭家恒.基于粗糙集的文本分類(lèi)方法研究J.中文信息學(xué)報(bào).2005,19:66-7010安爽.穩(wěn)健模糊粗糙集模型研究D.黑龍江省哈爾濱工業(yè)大學(xué)博士學(xué)位論文.201111周茜,趙明生.中文文本分類(lèi)中的特征選擇研究J.中文信息學(xué)報(bào).2004,181:26-32.12Salton G, Buckley C. Term-weighting approaches in automatic text re

40、trievalJ.Information Processing and Management.1988: 513-523.13F.Sebastiani. Machine learning in automated text categorizationJ. ACM Computing Surveys. 2002:341: 1-47.14salton,G.The smart retrieval system: experiments in automatic document processing. Upper Saddle River: Prentice-Hall. 1971:115-414.

41、15Godbole S,Sarawagi S. Discriminative methods for multi-labeled classicationJ. Proceedings of the 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2004:22-30.16Grigorios Tsoumakas, Ioannis Katakis. Multi-Label Classification: An OverviewJ. International Journal of Data Warehousing and

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論