《機(jī)器學(xué)習(xí)建模分析案例綜述》3200字_第1頁(yè)
《機(jī)器學(xué)習(xí)建模分析案例綜述》3200字_第2頁(yè)
《機(jī)器學(xué)習(xí)建模分析案例綜述》3200字_第3頁(yè)
《機(jī)器學(xué)習(xí)建模分析案例綜述》3200字_第4頁(yè)
《機(jī)器學(xué)習(xí)建模分析案例綜述》3200字_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)建模分析案例綜述1.1數(shù)據(jù)預(yù)處理本文數(shù)據(jù)集是來(lái)自于數(shù)據(jù)平臺(tái),但數(shù)據(jù)平臺(tái)所得數(shù)據(jù)是通過(guò)網(wǎng)上爬蟲(chóng)獲得的微博情感數(shù)據(jù),這些數(shù)據(jù)往往不標(biāo)準(zhǔn),里面含有很多的符號(hào),表情等噪音。如果不將其去掉,就會(huì)使得數(shù)據(jù)不準(zhǔn)確,分析的效果變差。具體的過(guò)程如下圖3.3所示。圖3.3文本預(yù)處理(1)文本正則化為了降低噪聲數(shù)據(jù)對(duì)文本的影響,本文利用python下的re模塊對(duì)中文微博文本進(jìn)行正則匹配,做了以下清洗處理:①去除網(wǎng)址的url鏈接,去掉不在所有中文、大小寫(xiě)字母、數(shù)字范圍內(nèi)的非法字符②去掉一些微博常用的評(píng)論轉(zhuǎn)發(fā)痕跡:“轉(zhuǎn)發(fā)微博”、“0網(wǎng)絡(luò)鏈接?”、“?展開(kāi)全文c”等,將它們置為空字符③通過(guò)爬蟲(chóng)爬取的微博用戶評(píng)論的文本信息同時(shí)也記錄了其他人對(duì)某事的看法,為了保留轉(zhuǎn)發(fā)者真實(shí)的情感,將其之前的轉(zhuǎn)發(fā)內(nèi)容進(jìn)行刪除。表3-1是對(duì)其中兩條語(yǔ)料進(jìn)行處理的案例。表3-1文本正則化含有噪聲的原始語(yǔ)料正則化后的文本發(fā)燒情頭嗎@二花女士2西寧?發(fā)燒情頭嗎二花女士西寧#元旦快樂(lè)##枇杷手法小結(jié)#每個(gè)娃都是有故事的娃。每個(gè)大人也是有故事的大人。小枇杷有茶有手法,靜待每個(gè)有需求的大人和孩子的到來(lái)~開(kāi)始記?展開(kāi)全文c元旦快樂(lè)枇杷手法小結(jié)#每個(gè)娃都是有故事的娃每個(gè)大人也是有故事的大人小枇杷有茶有手法靜待每個(gè)有需求的大人和孩子的到來(lái)(2)文本分詞中文分詞REF_Ref68557661\r\h[43]是把完整句子拆分開(kāi)來(lái),打個(gè)比方:我來(lái)自湖南,經(jīng)過(guò)切分后就變成了我、來(lái)自、湖南三個(gè)詞語(yǔ)。在情感詞庫(kù)上進(jìn)行的分詞是較為簡(jiǎn)單的,而且學(xué)者也可以自己去更新情感詞庫(kù),使得分詞更加準(zhǔn)確,比如:中華人民共和國(guó),我們可以把這個(gè)詞定義為一個(gè)詞,但是如果你不定義,他就可能切分為中華、人民、共和國(guó)。而基于統(tǒng)計(jì)的分詞REF_Ref68557674\r\h[44]主要是根據(jù)相鄰字的共現(xiàn)頻率來(lái)進(jìn)行分詞,一起出現(xiàn)得越多,關(guān)聯(lián)程度就越大。比較經(jīng)典的分詞方法就是jieba分詞,這個(gè)方法的理論就是動(dòng)態(tài)算法找到對(duì)應(yīng)的分詞路線。Jieba分別有搜索引擎模型和全模式,以及文本所用的精確模式,精確模式顧名思義就是用嘴精細(xì)的方法切分,顆粒度比較小。本文將采用基于統(tǒng)計(jì)的結(jié)巴分詞技術(shù),具體的分詞效果如表3-2。表3-2文本分詞示例表原文(分詞前)分詞后寫(xiě)在年末冬初孩子流感的第五天新年的第一天感冒又發(fā)燒的也太衰了寫(xiě)/在/年末/冬初/孩子/流感/的/第五天新年/的/第一天/感冒/又/發(fā)燒/的/也/太衰/了(3)去除停用詞停用詞就是大多為一下語(yǔ)氣助詞,沒(méi)有實(shí)際意義,只是為了句子的一個(gè)連貫性以及完整度而存在。比如:“額”,“的”,“咦”等。就是主要是這些沒(méi)什么意思的詞語(yǔ),但是當(dāng)這些詞出現(xiàn)很多的時(shí)候,對(duì)本文有多多少少的影響。本文主要研究中文文本情感分析。停用詞版本很多,本文用哈工大停用詞。利用分詞技術(shù)將所需要處理的文本進(jìn)行切分,去停用詞就是把分出來(lái)的詞與停用詞表做比對(duì),相同的就去掉,如果當(dāng)前詞語(yǔ)在停用詞表中沒(méi)有出現(xiàn),就保留改詞語(yǔ),本文自己添加了網(wǎng)絡(luò)詞匯等特定場(chǎng)景詞。具體清洗效果如表3-3。表3-3數(shù)據(jù)清洗過(guò)程示例原始語(yǔ)料發(fā)燒情頭嗎@二花女士2西寧?正則化后的語(yǔ)料分詞后的語(yǔ)料去停用詞后的語(yǔ)料發(fā)燒情頭嗎二花女士西寧發(fā)燒/情頭/嗎/二花/女士/西寧發(fā)燒/情頭/二花/女士/西寧通過(guò)對(duì)本文的微博數(shù)據(jù)集進(jìn)行預(yù)處理結(jié)束后,可以繪制如圖3.4所示的詞云圖。圖3.4微博數(shù)據(jù)集詞云圖1.2特征處理(1)詞袋模型詞袋模型就是把句子混在一起,不考慮順序。打個(gè)比方:,文本1:“小明喜歡足球,小王也喜歡”,文本2:“小明可能也喜歡打籃球”。下面構(gòu)造出詞典:{1:“小明”,2:“喜歡”,3:“足球”,4:“可能”,5:“也”,6:“小王”,7:“打”,8:“籃球”}。上面兩個(gè)文本一共包含7個(gè)詞語(yǔ),對(duì)于每個(gè)詞語(yǔ)都有唯一的索引,那么對(duì)于兩個(gè)文本我們有如下的表示方法:文本1:[1,2,1,0,1,1,0,0];文本2:[1,1,0,1,1,0,1,1]。詞袋很適合離散、高維、稀疏的數(shù)據(jù),但是也存在三個(gè)問(wèn)題:1、維度災(zāi)難,可以看到每個(gè)不同的詞語(yǔ)都需要一個(gè)維度。兩萬(wàn)個(gè)詞就需要兩萬(wàn)個(gè)維度;2、無(wú)法保留詞序信息,對(duì)于文本處理來(lái)說(shuō),上文和下文的信息對(duì)這個(gè)詞語(yǔ)的判斷是很重要的,而詞袋模型直接去掉了這個(gè)信息;3、存在語(yǔ)義鴻溝的問(wèn)題。(2)TF-IDFTF-IDF算法[51]用來(lái)量化詞語(yǔ)重要性。詞的重要性就是在這個(gè)文本出現(xiàn)得多,但是在其他文本中少,那么這個(gè)詞語(yǔ)對(duì)于這個(gè)文本的作用性很大,那么tf-idf就是這么一個(gè)作用,利用這些重要詞匯去區(qū)分開(kāi)這些文本,所以tf-idf的應(yīng)用原理就是上述所說(shuō)。計(jì)算如3.1式。(3.1)其中:為詞語(yǔ)出現(xiàn)次數(shù),為詞總和數(shù)。IDF逆文檔頻率,計(jì)算如下。(3.2)其中:為反文檔頻率,為所有文件數(shù),為含的總文件數(shù)。(3)特征提取方法和特征選擇方法特征提取方法較多,這里不一一介紹,僅僅介紹文本所用的4種特征提取方法:1.把所有詞作為特征,記為bag_of_words;2.把雙詞搭配作為特征,雙詞搭配的好處及時(shí)考慮了上文邏輯,如:我喜歡中國(guó),分詞之后是:我/來(lái)自/湖南省,那么我/喜歡作為一個(gè)詞;3.把所有詞和雙詞搭配一起作為特征;4.使用結(jié)巴分詞作為特征。特征選擇是計(jì)算沒(méi)個(gè)詞的信息量,并且按照信息量從大到小進(jìn)行排列,最后設(shè)置向量維度就可以從高往低選取所設(shè)置的值數(shù)。1.3評(píng)價(jià)指標(biāo)的建立評(píng)價(jià)指標(biāo)的目的就是為了去判斷所用模型的好壞,針對(duì)不同的實(shí)際情形,采用不同評(píng)價(jià)指標(biāo)。(1)基本性能評(píng)價(jià)指標(biāo)評(píng)價(jià)指標(biāo)有很多,本文主要使用的評(píng)價(jià)指標(biāo)是準(zhǔn)確率和F1值表3-4二分類混淆矩陣PositiveNegativeTrueTPTNFalseFPFN其中:為真正類,表示真實(shí)值和實(shí)際值一樣;真負(fù)類,真實(shí)值是正類卻被分為負(fù)類;假正類,真實(shí)值是負(fù)類卻預(yù)測(cè)為正類;假負(fù)類,真實(shí)值是正類,預(yù)測(cè)為負(fù)類。準(zhǔn)確率指正確值除以總數(shù),其定義如(3.3)所示。(3.3)精準(zhǔn)率表示的是預(yù)測(cè)為正樣本中正樣本比例,其定義如(3.4)所示。(3.4)召回率表示預(yù)測(cè)正確比例,其定義如(3.5)所示。(3.5)F-Measure是和的加權(quán)平均,其定義如(3.6)所示。(3.6)1.4機(jī)器學(xué)習(xí)模型建立有關(guān)模型的理論已在第二章重點(diǎn)介紹,這里不再贅敘。下面將重點(diǎn)介紹機(jī)器學(xué)習(xí)模型的具體建立。(1)特征選取特征就是一個(gè)事物獨(dú)特的地方,能讓我們判斷其所屬類別。打個(gè)比方,我看到一個(gè)中年人,穿著短袖,戴著安全帽,身上還有很多的灰塵,我們肯定會(huì)覺(jué)得他是一個(gè)工人,而“安全帽”、“灰塵”都是我們的判斷依據(jù)。但是不是所有特征都有用,比如中年人這個(gè)無(wú)法讓我們判斷他的職業(yè),只能說(shuō)他讓我們考慮是工作的可能性更大,換成是個(gè)孩子,我肯定只會(huì)判斷為他是去鍛煉或者去工地玩了。所以不是所有特征都有用,但是每個(gè)特征都會(huì)成為我們判斷的依據(jù)。而在情感分類中,一般從“詞”這個(gè)層次來(lái)選擇特征。例如:米飯香甜可口。我們?cè)谂袛嗥漕悇e的時(shí)候可以分為很多種,比如從可口判斷為吃的,從米飯這個(gè)名詞判斷為主食,所以每個(gè)詞都對(duì)其分類情況有所影響,都可以作為判斷類別的依據(jù)。所以從幾個(gè)詞語(yǔ)來(lái)說(shuō),都可以看出是正類積極的。同樣的,如果使用的是雙詞搭配。比如“米飯香甜”,“香甜可口”,“可口!”以上搭配都可以作為分類特征。(2)特征降維特征降維最簡(jiǎn)單來(lái)說(shuō)就是讓特征數(shù)量減少降低。對(duì)于特征數(shù)量減少意義非常重大,第一個(gè)就是我可以讓噪聲減少,提高分類準(zhǔn)確率,但是不是說(shuō)越少越好,雖然特征維度越少,噪聲越少,但是有用信息也會(huì)丟失很多。第二個(gè)意義就是減少計(jì)算量,讓速度加快。(3)特征表示在使用機(jī)器學(xué)習(xí)算法時(shí),需要把所有原始文本用計(jì)算機(jī)所能識(shí)別的方式表示出來(lái)。(4)切分?jǐn)?shù)據(jù)集數(shù)據(jù)集的切分使用python中的sklearn進(jìn)行切分,數(shù)據(jù)集總共39300條,劃分為訓(xùn)練集和測(cè)試集,按照0.75:0.25比例劃分,具體劃分效果如圖3.4。圖3.5數(shù)據(jù)劃分圖(5)構(gòu)建分類器本文采用了支持向量機(jī),樸素貝葉斯,XGBoost以及KNN算法四種經(jīng)典機(jī)器學(xué)習(xí)算法作為分類器,并對(duì)其準(zhǔn)確率在不同特征提取方法和特征維度上作對(duì)比。具體步驟如下:1.使用分類算法訓(xùn)練其測(cè)試集,得出分類器。2用分類器得出測(cè)試

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論