![數(shù)據(jù)挖掘文本分類實(shí)驗(yàn)報(bào)告_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/20/26c11ae6-0b26-462a-a3f8-ef6fbc420205/26c11ae6-0b26-462a-a3f8-ef6fbc4202051.gif)
![數(shù)據(jù)挖掘文本分類實(shí)驗(yàn)報(bào)告_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/20/26c11ae6-0b26-462a-a3f8-ef6fbc420205/26c11ae6-0b26-462a-a3f8-ef6fbc4202052.gif)
![數(shù)據(jù)挖掘文本分類實(shí)驗(yàn)報(bào)告_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/20/26c11ae6-0b26-462a-a3f8-ef6fbc420205/26c11ae6-0b26-462a-a3f8-ef6fbc4202053.gif)
![數(shù)據(jù)挖掘文本分類實(shí)驗(yàn)報(bào)告_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-3/20/26c11ae6-0b26-462a-a3f8-ef6fbc420205/26c11ae6-0b26-462a-a3f8-ef6fbc4202054.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精品文檔北京郵電大學(xué)* 學(xué)年第 1 學(xué)期實(shí)驗(yàn)報(bào)告課程名稱:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)名稱:文本的分類實(shí)驗(yàn)完成人:姓名:*學(xué)號(hào):*&*姓名:*學(xué)號(hào):*日期:。1歡迎下載精品文檔實(shí)驗(yàn)一:文本的分類1. 實(shí)驗(yàn)?zāi)康恼莆諗?shù)據(jù)預(yù)處理的方法,對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行預(yù)處理;掌握文本分類建模的方法,對(duì)語(yǔ)料庫(kù)的文檔進(jìn)行建模;掌握分類算法的原理,基于有監(jiān)督的機(jī)器學(xué)習(xí)方法,訓(xùn)練文本分類器;了解 SVM機(jī)器學(xué)習(xí)方法,可以運(yùn)用開(kāi)源工具完成文本分類過(guò)程。2. 實(shí)驗(yàn)分工*:(1) 對(duì)經(jīng)過(guò)分詞的文本進(jìn)行特征提取并用 lisvm 進(jìn)行訓(xùn)練(2) 用訓(xùn)練的模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)* :(1) 數(shù)據(jù)采集和預(yù)處理(2) 分詞3. 實(shí)驗(yàn)環(huán)境
2、Ubuntu 13.04+jdk1.7。2歡迎下載精品文檔4. 主要設(shè)計(jì)思想4.1實(shí)驗(yàn)工具介紹1NLPIR_ICTCLAS2013NLPIR ( 又名 ICTCLAS2013),是由中科院張華平博士?jī)A力打造的漢語(yǔ)分詞系統(tǒng)。其主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、用戶詞典功能、支持GBK編碼、 UTF8編碼、 BIG5 編碼等。從 NLPIR 官網(wǎng)可以下載其最新版的Java 發(fā)布包,然后導(dǎo)入Eclipse ,配置運(yùn)行環(huán)境,實(shí)現(xiàn)對(duì)于語(yǔ)料庫(kù)的分詞。最新的 NLPIR可以通過(guò)更改源代碼實(shí)現(xiàn)新增新詞識(shí)別、關(guān)鍵詞提取、微博分詞等功能,極大地方便了使用。2. Eclipse for JavaEcli
3、pse是一個(gè)開(kāi)放源代碼的、基于Java 的可擴(kuò)展開(kāi)發(fā)平臺(tái)。就其本身而言,它只是一個(gè)框架和一組服務(wù), 用于通過(guò)插件組件構(gòu)建開(kāi)發(fā)環(huán)境。幸運(yùn)的是, Eclipse附帶了一個(gè)標(biāo)準(zhǔn)的插件集,包括Java 開(kāi)發(fā)工具( Java Development Kit,JDK)。3. LibSVM本次實(shí)驗(yàn)中我們采用的是臺(tái)灣大學(xué)林智仁博士等開(kāi)發(fā)設(shè)計(jì)的 LIBSVM方法。這是一個(gè)操作簡(jiǎn)單、易于使用、快速有效的通用 SVM 軟件包,可以解決分類問(wèn)題 ( 包括 C- SVC 、- SVC) ,回歸問(wèn)題 ( 包括 - SVR 、v- SVR )以及分布估計(jì) (one - class。3歡迎下載精品文檔- SVM) 等問(wèn)題,提
4、供了線性、多項(xiàng)式、徑向基和 S 形函數(shù)四種常用的核函數(shù)供選擇, 可以有效地解決多類問(wèn)題、 交叉驗(yàn)證選擇參數(shù)、對(duì)不平衡樣本加權(quán)、多類問(wèn)題的概率估計(jì)等。4.2特征提取與表達(dá)方法的設(shè)計(jì)特征提取是在初始特征集基礎(chǔ)上提取出一個(gè)特征子集的過(guò)程,能夠起到降低向量空間維數(shù)、簡(jiǎn)化計(jì)算、防止過(guò)擬合作用。首先根據(jù)特征提取算法對(duì)特征的重要性進(jìn)行評(píng)估,然后進(jìn)行重要度排序,最后根據(jù)提取閾值或提取比率完成提取。提取后的特征集將用于之后的訓(xùn)練和分類過(guò)程。常用特征提取算法有文檔頻數(shù) (Document Frequency) 、信息增益 (information Gain) 、期 望 交 叉 熵 (expected cross
5、entropy) 、 互 信 息 (Mutual Information) 等。本次實(shí)驗(yàn)采用信息增益法進(jìn)行特征詞提取,它是一個(gè)基于嫡的評(píng)價(jià)方法,涉及嫡理論公式,定義為某特征在文檔中出現(xiàn)前后的信息嫡之差。根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)單詞的信息增益,刪除信息增益很小的詞,其余的按照信息增益從大到小排序。采用 TF-IDF 建立文本向量, TF-IDF 是由兩部分組成, 一部分是 TF(Token Frequency) ,表示一個(gè)詞在文檔中出現(xiàn)的次數(shù),即詞頻。另一部分是 IDF(Inverse Document Frequency) ,表示某個(gè)詞出現(xiàn)在多少個(gè)文本中 ( 或者解釋為有多少個(gè)文本包含了。4歡
6、迎下載精品文檔這個(gè)詞 ) ,即逆向文檔頻率。4.3分類算法的選擇我們選擇 svm的原因如下:(1) 非線性映射是 SVM方法的理論基礎(chǔ) ,SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;(2) 對(duì)特征空間劃分的最優(yōu)超平面是 SVM的目標(biāo) , 最大化分類邊際的思想是 SVM方法的核心;(3) 支持向量是 SVM的訓(xùn)練結(jié)果 , 在 SVM分類決策中起決定作用的是支持向量。(4)SVM 是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測(cè)度及大數(shù)定律等 , 因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì)上看 , 它避開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程 , 實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理” , 大
7、大簡(jiǎn)化了通常的分類和回歸等問(wèn)題。(5)SVM 的最終決策函數(shù)只由少數(shù)的支持向量所確定 , 計(jì)算的復(fù)雜性取決于支持向量的數(shù)目 , 而不是樣本空間的維數(shù) , 這在某種意義上避免了“維數(shù)災(zāi)難”。(6) 少數(shù)支持向量決定了最終結(jié)果 , 這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本 , 而且注定了該方法不但算法簡(jiǎn)單 , 而且具有較好的“魯棒”性。這種“魯棒”性主要體現(xiàn)在 :增、刪非支持向量樣本對(duì)模型沒(méi)有影響;。5歡迎下載精品文檔支持向量樣本集具有一定的魯棒性;有些成功的應(yīng)用中 ,SVM 方法對(duì)核的選取不敏感4.4性能評(píng)估方法在性能評(píng)估中,我們采用的是計(jì)算分類器對(duì)于不同分類的準(zhǔn)確率和召回率。4.4
8、.1準(zhǔn)確率 (Precision)準(zhǔn)確率:指的是在所有被判斷為正確的文檔中,有多大比例是確實(shí)正確的。例如:我們把文件分類這樣四類:A:系統(tǒng)檢測(cè)到的相關(guān)的文檔B:系統(tǒng)檢測(cè)到的不相關(guān)的文檔C:系統(tǒng)沒(méi)有檢測(cè)到的相關(guān)的文檔D:系統(tǒng)沒(méi)有檢測(cè)到的不相關(guān)的文檔那么我們的計(jì)算公式為:準(zhǔn)確率 P=A/AB4.4.2召回率 (Recall)召回率:指的是在所有確實(shí)正確的文檔中,有多大比例被我們判斷為正確。6歡迎下載精品文檔例如:我們繼續(xù)參照上述的例子。那么我們的計(jì)算公式為:召回率 R=A/ AC根據(jù)上述的兩個(gè)公式,我們計(jì)算出每一類的準(zhǔn)確率和召回率,進(jìn)行比較,今兒對(duì)分類器的分類效果進(jìn)行評(píng)估。5實(shí)驗(yàn)過(guò)程5.1 文本分
9、類語(yǔ)料庫(kù)的采集我們直接使用搜狗語(yǔ)料庫(kù)的新聞?lì)A(yù)料,共有十個(gè)類別,每個(gè)類別取2000 篇作為訓(xùn)練集,另取2000 篇作為測(cè)試集。這樣我們就獲得了20000 篇的訓(xùn)練集和20000 篇的測(cè)試集。5.2 數(shù)據(jù)預(yù)處理5.2.1文本格式預(yù)處理原始的新聞按文件夾劃分類別,同一個(gè)類別在同一個(gè)文件夾下,每篇新聞?wù)家粋€(gè)文件。 首先我們把所有文章整理到一個(gè)文件中, 并標(biāo)上類型號(hào),這樣便于后期處理。5.2.2分詞和去停用詞處理對(duì)語(yǔ)料庫(kù)進(jìn)行分詞處理階段,我們采用中科院研發(fā)的漢語(yǔ)分詞軟件 NLPIR。我們?yōu)榱藢?duì)大量的文本進(jìn)行分詞,在NLPIR中又添加了一個(gè)批處。7歡迎下載精品文檔理函數(shù),對(duì) NLPIR 進(jìn)行調(diào)用,對(duì)大量文
10、本進(jìn)行分詞處理。通過(guò)更改 NLPIR 的參數(shù),我們獲取了帶有詞性標(biāo)注的大量分詞后的文本文件。然后我們利用模式匹配的方法把所有分名詞過(guò)濾掉, 然后根據(jù)停用詞表除去停用詞。5.3 特征提取和表達(dá)5.3.1特征詞提取本次實(shí)驗(yàn)我們采用信息增益法進(jìn)行特征詞提取。提取特征詞 1000個(gè)。將分詞,取名詞,去停用詞后的每篇文章統(tǒng)一整理到一篇文本中。每篇文章作為一行記錄出現(xiàn), 這樣便于采用信息增益法計(jì)算每個(gè)單詞的信息增益值。 它是一個(gè)基于嫡的評(píng)價(jià)方法,涉及較多的數(shù)學(xué)理論和復(fù)雜的嫡理論公式,定義為某特征在文檔中出現(xiàn)前后的信息嫡之差。根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)單詞的信息增益, 刪除信息增益很小的詞,其余的按照信息增益
11、從大到小排序。信息增益評(píng)估函數(shù)被定義為IG(t)= P(t)*P(Ci|t)*log(P(Ci|t)/P(Ci)+P(tn)* (P(Ci|tn)*logP(Ci|t)/P(i),式中 , P(Ci|t) 表示文本中出現(xiàn)特征 t 時(shí), 文本屬于 Ci 類的概率 ; P(Ci|tn) 表示文本中不出現(xiàn)單詞 t 時(shí), 文本屬于 Ci 類 的概率 ; P(Ci)表示類別出現(xiàn)的概率 ; P(t)表示 t 在整個(gè)文本訓(xùn)練集中出現(xiàn)的概率。計(jì)算完每個(gè)單詞的信息增益值后,采用堆排序方法選取前5000。8歡迎下載精品文檔個(gè)單詞作為特征詞,即詞典。5.3.2建立文本向量根據(jù)提取的特征詞采用TF-IDF 法建立文本
12、向量。TF-IDF 是一種加權(quán)技術(shù), 它通過(guò)統(tǒng)計(jì)的方法來(lái)計(jì)算和表達(dá)某個(gè)關(guān)鍵詞在文本中的重要程度。TF-IDF 是由兩部分組成,一部分是TF(Token Frequency) ,表示一個(gè)詞在文檔中出現(xiàn)的次數(shù),即詞頻。另一部分是 IDF(Inverse Document Frequency),表示某個(gè)詞出現(xiàn)在多少個(gè)文本中 ( 或者解釋為有多少個(gè)文本包含了這個(gè)詞) ,即逆向文檔頻率,通常由公式IDFt log(1+|D|)/|Dt|),其中 |D| 表示文檔總數(shù), |Dt| 表示包含關(guān)鍵詞t 的文檔數(shù)量。根據(jù)上述原理,我們把訓(xùn)練集轉(zhuǎn)化為libsvm 所支持的向量格式。LIBSVM的訓(xùn)練集格式如下:l
13、able1index1:featureValue1index2:featureValue2index3:featureValue3 .lable2index1:featureValue1index2:featureValue2index3:featureValue3 .對(duì)應(yīng)到文本分類上就是:類別ID 特征序號(hào):特征值(TFIDF值) .。9歡迎下載精品文檔5.4 訓(xùn)練過(guò)程我們利用 libsvm 提供的 grid.py工具對(duì)訓(xùn)練集進(jìn)行參數(shù)尋優(yōu),并得到參數(shù):c=128.0 g=3.0517578125e-05 ,然后利用這組參數(shù)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得到模型文件。5.5 測(cè)試過(guò)程我們對(duì)測(cè)試集進(jìn)行同樣的
14、分詞與去停用詞等操作,然后根據(jù)訓(xùn)練得到的模型文件,對(duì)其進(jìn)行預(yù)測(cè)。然后,分析預(yù)測(cè)輸出文件和初始的測(cè)試文件,得到相關(guān)統(tǒng)計(jì)數(shù)據(jù)。5.6 實(shí)驗(yàn)結(jié)果和性能評(píng)估訓(xùn)練集: 20000 篇測(cè)試集: 20000 篇特征提取后字典大?。?000 詞訓(xùn)練時(shí)間: 92.7s測(cè)試時(shí)間: 80s平均準(zhǔn)確率: 83%具體準(zhǔn)確率與召回率如圖5-1 所示:。10歡迎下載精品文檔1.210.80.6準(zhǔn)確率召回率0.40.20軍事文化教育經(jīng)濟(jì)女性體育汽車娛樂(lè)軍事IT圖 5-1預(yù)測(cè)結(jié)果準(zhǔn)確率與召回率預(yù)測(cè)結(jié)果混淆矩陣如圖5-2 所示:軍事文化教育經(jīng)濟(jì)女性體育汽車娛樂(lè)軍事IT軍事0352185000182411文化440192338365694518教育2333016253323836經(jīng)濟(jì)11160202433女性48564420033162818體育34551
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑工程保溫材料環(huán)保性能檢測(cè)與認(rèn)證合同
- 淮南安徽淮南市中醫(yī)院招聘專業(yè)技術(shù)人員40人筆試歷年參考題庫(kù)附帶答案詳解
- 曲靖云南曲靖市馬龍區(qū)應(yīng)急管理局招聘10名綜合應(yīng)急救援隊(duì)員筆試歷年參考題庫(kù)附帶答案詳解
- 惠州廣東惠州市惠東縣吉隆鎮(zhèn)人民政府招聘治安聯(lián)防隊(duì)員13人筆試歷年參考題庫(kù)附帶答案詳解
- 2025年輕便傻瓜機(jī)項(xiàng)目可行性研究報(bào)告
- 2025年色織絲油提花面料項(xiàng)目可行性研究報(bào)告
- 2025至2031年中國(guó)纏繞膜復(fù)卷機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年電動(dòng)式潤(rùn)滑泵項(xiàng)目可行性研究報(bào)告
- 2025年洗甲護(hù)甲水項(xiàng)目可行性研究報(bào)告
- 2025年有線電視鄰頻調(diào)制器項(xiàng)目可行性研究報(bào)告
- 小學(xué)數(shù)學(xué)六年級(jí)解方程練習(xí)300題及答案
- 大數(shù)據(jù)在化工行業(yè)中的應(yīng)用與創(chuàng)新
- 光伏十林業(yè)可行性報(bào)告
- 小學(xué)綜合實(shí)踐《我做環(huán)保宣傳員 保護(hù)環(huán)境人人有責(zé)》
- 鋼煤斗內(nèi)襯不銹鋼板施工工法
- 公司人事招聘面試技巧培訓(xùn)完整版課件兩篇
- 出國(guó)勞務(wù)派遣合同(專業(yè)版)電子版正規(guī)范本(通用版)
- 公路工程安全風(fēng)險(xiǎn)辨識(shí)與防控手冊(cè)
- 供應(yīng)商評(píng)估報(bào)告范本
- 職業(yè)生涯規(guī)劃-自我認(rèn)知-價(jià)值觀
- 建筑集團(tuán)公司商務(wù)管理手冊(cè)(投標(biāo)、合同、采購(gòu))分冊(cè)
評(píng)論
0/150
提交評(píng)論