數(shù)據(jù)挖掘文本分類(lèi)實(shí)驗(yàn)報(bào)告_第1頁(yè)
數(shù)據(jù)挖掘文本分類(lèi)實(shí)驗(yàn)報(bào)告_第2頁(yè)
數(shù)據(jù)挖掘文本分類(lèi)實(shí)驗(yàn)報(bào)告_第3頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、北京郵電大學(xué)*學(xué)年第1學(xué)期實(shí)驗(yàn)報(bào)告課程名稱(chēng):數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)名稱(chēng):文本的分類(lèi)實(shí)驗(yàn)完成人:姓名:姓名:學(xué)號(hào):學(xué)號(hào):*&日 期:實(shí)驗(yàn)一:文本的分類(lèi)1. 實(shí)驗(yàn)?zāi)康恼莆諗?shù)據(jù)預(yù)處理的方法,對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行預(yù)處理;掌握文本分類(lèi)建模的方法,對(duì)語(yǔ)料庫(kù)的文檔進(jìn)行建模;掌握分類(lèi)算法的原理,基于有監(jiān)督的機(jī)器學(xué)習(xí)方法,訓(xùn)練文本分類(lèi)器;了解SVM機(jī)器學(xué)習(xí)方法,可以運(yùn)用開(kāi)源工具完成文本分類(lèi)過(guò)程。2. 實(shí)驗(yàn)分工*(1) 對(duì)經(jīng)過(guò)分詞的文本進(jìn)行特征提取并用 lisvm 進(jìn)行訓(xùn)練(2) 用訓(xùn)練的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)* (1)數(shù)據(jù)采集和預(yù)處理(2)分詞3. 實(shí)驗(yàn)環(huán)境Ubuntu 13.04+jdk1.74. 主要設(shè)

2、計(jì)思想4.1 實(shí)驗(yàn)工具介紹1NLPIR_ICTCLAS2013NLPIR(又名ICTCLAS2013)是由中科院張華平博士?jī)A力打造 的漢語(yǔ)分詞系統(tǒng)。其主要功能包括中文分詞、詞性標(biāo)注、命名實(shí) 體識(shí)別、用戶(hù)詞典功能、支持 GBK編碼、UTF8編碼、BIG5編碼 等。從NLPIR官網(wǎng)可以下載其最新版的 Java發(fā)布包,然后導(dǎo)入 Eclipse配置運(yùn)行環(huán)境,實(shí)現(xiàn)對(duì)于語(yǔ)料庫(kù)的分詞。最新的NLPIR可以通過(guò)更改源代碼實(shí)現(xiàn)新增新詞識(shí)別、關(guān)鍵詞提取、微博分詞等功能,極大地方便了使用。2. Eclipse for JavaEclipse是一個(gè)開(kāi)放源代碼的、基于 Java的可擴(kuò)展開(kāi)發(fā)平臺(tái)。就其本 身而言,它只是一

3、個(gè)框架和一組服務(wù),用于通過(guò)插件組件構(gòu)建開(kāi)發(fā)環(huán) 境。幸運(yùn)的是,Eclipse附帶了一個(gè)標(biāo)準(zhǔn)的插件集,包括 Java開(kāi)發(fā)工 具(Java Development Kit JDK)。3. LibSVM本次實(shí)驗(yàn)中我們采用的是臺(tái)灣大學(xué)林智仁博士等開(kāi)發(fā)設(shè)計(jì) 的LIBSVM方法。這是一個(gè)操作簡(jiǎn)單、易于使用、快速有效的通 用SVM軟件包,可以解決分類(lèi)問(wèn)題(包括C-SVC、v -SVC )回 歸問(wèn)題(包括 一 SVR、v- SVR )以及分布估計(jì)(one - class -SVM )等問(wèn)題,提供了線(xiàn)性、多項(xiàng)式、徑向基和 S形函數(shù)四種常 用的核函數(shù)供選擇, 可以有效地解決多類(lèi)問(wèn)題、 交叉驗(yàn)證選擇參 數(shù)、對(duì)不平衡樣

4、本加權(quán)、多類(lèi)問(wèn)題的概率估計(jì)等。4.2 特征提取與表達(dá)方法的設(shè)計(jì)特征提取是在初始特征集基礎(chǔ)上提取出一個(gè)特征子集的過(guò) 程,能夠起到降低向量空間維數(shù)、簡(jiǎn)化計(jì)算、防止過(guò)擬合作用。 首先根據(jù)特征提取算法對(duì)特征的重要性進(jìn)行評(píng)估,然后進(jìn)行重 要度排序,最后根據(jù)提取閾值或提取比率完成提取。提取后的 特征集將用于之后的訓(xùn)練和分類(lèi)過(guò)程。常用特征提取算法有文 檔頻數(shù)(Document Frequency、信息增益(information Gain)、期望 交叉熵(expected cross entropy) 互信息(Mutual Information)等。本次實(shí)驗(yàn)采用信息增益法進(jìn)行特征詞提取,它是一個(gè)基于 嫡的

5、評(píng)價(jià)方法,涉及嫡理論公式,定義為某特征在文檔中出現(xiàn) 前后的信息嫡之差。根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)單詞的信息增 益,刪除信息增益很小的詞,其余的按照信息增益從大到小排 序。采用TF-IDF建立文本向量,TF-IDF是由兩部分組成,一部 分是 TF(Token Frequency,) 表示一個(gè)詞在文檔中出現(xiàn)的次數(shù), 即 詞頻。另一部分是 IDF(InverseDocument Frequency),表示某個(gè) 詞出現(xiàn)在多少個(gè)文本中 (或者解釋為有多少個(gè)文本包含了這個(gè) 詞 ),即逆向文檔頻率。4.3 分類(lèi)算法的選擇我們選擇 svm 的原因如下:(1) 非線(xiàn)性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函

6、數(shù)代替向高 維空間的非線(xiàn)性映射;(2) 對(duì)特征空間劃分的最優(yōu)超平面是 SVM的目標(biāo),最大化分類(lèi)邊際的思 想是SVM方法的核心;(3) 支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類(lèi)決策中起決定作用的是支 持向量。(4) SVM 是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上 不涉及概率測(cè)度及大數(shù)定律等 ,因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì) 上看,它避開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程 ,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到 預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理” ,大大簡(jiǎn)化了通常的分類(lèi)和回歸等問(wèn)題。(5) SVM 的最終決策函數(shù)只由少數(shù)的支持向量所確定 ,計(jì)算的復(fù)雜性 取決于支持向量的數(shù)目 ,而不是樣本空間的維數(shù) ,這在某種意義上

7、避免 了“維數(shù)災(zāi)難”。(6) 少數(shù)支持向量決定了最終結(jié)果 ,這不但可以幫助我們抓住關(guān)鍵樣 本、“剔除”大量冗余樣本 ,而且注定了該方法不但算法簡(jiǎn)單 ,而且具有 較好的“魯棒”性。這種“魯棒”性主要體現(xiàn)在 : 增、刪非支持向量樣本對(duì)模型沒(méi)有影響; 支持向量樣本集具有一定的魯棒性 ; 有些成功的應(yīng)用中 ,SVM 方法對(duì)核的選取不敏感4.4 性能評(píng)估方法在性能評(píng)估中,我們采用的是計(jì)算分類(lèi)器對(duì)于不同分類(lèi)的準(zhǔn)確 率和召回率。4.4.1 準(zhǔn)確率 (Precision)準(zhǔn)確率:指的是在所有被判斷為正確的文檔中,有多大比例是確 實(shí)正確的。例如: 我們把文件分類(lèi)這樣四類(lèi):A:系統(tǒng)檢測(cè)到的相關(guān)的文檔B:系統(tǒng)檢測(cè)到

8、的不相關(guān)的文檔C:系統(tǒng)沒(méi)有檢測(cè)到的相關(guān)的文檔D:系統(tǒng)沒(méi)有檢測(cè)到的不相關(guān)的文檔那么我們的計(jì)算公式為:準(zhǔn)確率 P=A/ A B4.4.2 召回率 (Recall)召回率:指的是在所有確實(shí)正確的文檔中,有多大比例被我們判 斷為正確。例如:我們繼續(xù)參照上述的例子。那么我們的計(jì)算公式為:召回率 R=A/ A C根據(jù)上述的兩個(gè)公式,我們計(jì)算出每一類(lèi)的準(zhǔn)確率和召回率,進(jìn) 行比較,今兒對(duì)分類(lèi)器的分類(lèi)效果進(jìn)行評(píng)估。5實(shí)驗(yàn)過(guò)程5.1 文本分類(lèi)語(yǔ)料庫(kù)的采集我們直接使用搜狗語(yǔ)料庫(kù)的新聞?lì)A(yù)料,共有十個(gè)類(lèi)別,每個(gè)類(lèi)別取2000 篇作為訓(xùn)練集,另取 2000 篇作為測(cè)試集。這樣我們就獲得了20000 篇的訓(xùn)練集和 2000

9、0篇的測(cè)試集。5.2 數(shù)據(jù)預(yù)處理5.2.1 文本格式預(yù)處理原始的新聞按文件夾劃分類(lèi)別,同一個(gè)類(lèi)別在同一個(gè)文件夾下, 每篇新聞?wù)家粋€(gè)文件。 首先我們把所有文章整理到一個(gè)文件中, 并標(biāo) 上類(lèi)型號(hào),這樣便于后期處理。5.2.2 分詞和去停用詞處理對(duì)語(yǔ)料庫(kù)進(jìn)行分詞處理階段,我們采用中科院研發(fā)的漢語(yǔ)分詞軟件 NLPIR。我們?yōu)榱藢?duì)大量的文本進(jìn)行分詞,在NLPIR中又添加了一個(gè)批處理函數(shù),對(duì)NLPIR進(jìn)行調(diào)用,對(duì)大量文本進(jìn)行分詞處理。通過(guò)更改NLPIR的參數(shù),我們獲取了帶有詞性標(biāo)注的大量分詞后的文本文件。然后我們利用模式匹配的方法把所有分名詞過(guò)濾掉, 然后根據(jù)停用詞 表除去停用詞。5.3 特征提取和表達(dá)5

10、.3.1 特征詞提取本次實(shí)驗(yàn)我們采用信息增益法進(jìn)行特征詞提取。 提取特征詞 1000 個(gè)。將分詞,取名詞,去停用詞后的每篇文章統(tǒng)一整理到一篇文本中。 每篇文章作為一行記錄出現(xiàn),這樣便于采用信息增益法計(jì)算每個(gè)單詞 的信息增益值。它是一個(gè)基于嫡的評(píng)價(jià)方法,涉及較多的數(shù)學(xué)理論和 復(fù)雜的嫡理論公式,定義為某特征在文檔中出現(xiàn)前后的信息嫡之差。 根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)單詞的信息增益,刪除信息增益很小的詞, 其余的按照信息增益從大到小排序。信息增益評(píng)估函數(shù)被定義為IG(t) = P(t)*P(Ci|t)*log(P( Ci |t)/P( Ci)+ P(t n)* 藝(P(Ci|tn)*logP(Ci|t)

11、/P(i),式中, P(Ci|t) 表示文本中出現(xiàn)特征 t 時(shí),文本屬于 Ci 類(lèi)的概率 ;P(Ci|tn)表示文本中不出現(xiàn)單詞t時(shí),文本屬于Ci類(lèi)的概率;P(Ci)表 示類(lèi)別出現(xiàn)的概率 ; P(t) 表示 t 在整個(gè)文本訓(xùn)練集中出現(xiàn)的概率。計(jì)算完每個(gè)單詞的信息增益值后,采用堆排序方法選取前 5000個(gè)單詞作為特征詞,即詞典5.3.2 建立文本向量根據(jù)提取的特征詞采用TF-IDF法建立文本向量。TF-IDF是一種加權(quán)技術(shù),它通過(guò)統(tǒng)計(jì)的方法來(lái)計(jì)算和表達(dá)某個(gè)關(guān) 鍵詞在文本中的重要程度。TF-IDF是由兩部分組成,一部分是TF(Token Freque ncy),表示一個(gè)詞在文檔中出現(xiàn)的次數(shù),即詞頻

12、。另一部分是 IDF(I nverse Docume nt Freque ncy)表示某個(gè)詞出現(xiàn)在多少個(gè)文本中(或 者解釋為有多少個(gè)文本包含了這個(gè)詞 ),即逆向文檔頻率,通常由公 式IDFt= log(1+|D|)/|Dt|),其中|D|表示文檔總數(shù),|Dt|表示包含關(guān) 鍵詞 t 的文檔數(shù)量。根據(jù)上述原理,我們把訓(xùn)練集轉(zhuǎn)化為 libsvm 所支持的向量格式。LIBSV M的訓(xùn)練集格式如下:lable1index1:featureValue1index2:featureValue2index3:featureValue3 .lable2index1:featureValue1index2:fea

13、tureValue2index3:featureValue3 .對(duì)應(yīng)到文本分類(lèi)上就是:類(lèi)別ID特征序號(hào):特征值(TFIDF值)5.4 訓(xùn)練過(guò)程我們利用 libsvm 提供的 grid.py 工具對(duì)訓(xùn)練集進(jìn)行參數(shù)尋優(yōu),并得到 參數(shù): c=128.0 g=3.0517578125e-05 ,然后利用這組參數(shù)對(duì)訓(xùn)練集進(jìn) 行訓(xùn)練,得到模型文件。5.5測(cè)試過(guò)程我們對(duì)測(cè)試集進(jìn)行同樣的分詞與去停用詞等操作,然后根據(jù)訓(xùn)練 得到的模型文件,對(duì)其進(jìn)行預(yù)測(cè)。然后,分析預(yù)測(cè)輸出文件和初始的 測(cè)試文件,得到相關(guān)統(tǒng)計(jì)數(shù)據(jù)。5.6實(shí)驗(yàn)結(jié)果和性能評(píng)估訓(xùn)練集:20000篇測(cè)試集:20000篇特征提取后字典大?。?000詞訓(xùn)練時(shí)間:92.7s測(cè)試時(shí)間:80s 平均準(zhǔn)確率:83%具體準(zhǔn)確率與召回率如圖5-1所示:n.60.4圖5-1預(yù)測(cè)結(jié)果準(zhǔn)確率與召回率預(yù)測(cè)結(jié)果混淆矩陣

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論