




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)實(shí)驗(yàn)報(bào)告樸素貝葉斯學(xué)習(xí)和分類文本(2015年度秋季學(xué)期)、實(shí)驗(yàn)內(nèi)容問(wèn)題:通過(guò)樸素貝葉斯學(xué)習(xí)和分類文本目標(biāo):可以通過(guò)訓(xùn)練好的貝葉斯分類器對(duì)文本正確分類二、實(shí)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)原理與設(shè)計(jì):在分類(classification)問(wèn)題中,常常需要把一個(gè)事物分到某個(gè)類別。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即x=(x1,x2,x3,…,xn),用x這個(gè)向量來(lái)代表這個(gè)事物。類別也是有很多種,用集合Y=y1,y2,...ym表示。如果x屬于y1類別,就可以給x打上y1標(biāo)簽,意思是說(shuō)x屬于y1類別。這就是所謂的分類(Classification)。x的集合記為X,稱為屬性集。一般X和丫的關(guān)系是不確定的,你只能在某種程度上說(shuō)x有多大可能性屬于類y1,比如說(shuō)x有80%的可能性屬于類y1,這時(shí)可以把X和Y看做是隨機(jī)變量,P(Y|X)稱為Y的后驗(yàn)概率(posteriorprobability),與之相對(duì)的,P(Y)稱為Y的先驗(yàn)概率(priorprobability)1。在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對(duì)X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y|X)。分類時(shí),來(lái)了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y|x),其中最大的那個(gè)y,即為x所屬分類。根據(jù)貝葉斯公式,后驗(yàn)概率為P(Y\X)=在比較不同Y值的后驗(yàn)概率時(shí),分母P(X)總是常數(shù),因此可以忽略。先驗(yàn)概率P(Y)可以通過(guò)計(jì)算訓(xùn)練集中屬于每一個(gè)類的訓(xùn)練樣本所占的比例容易地估計(jì)。在文本分類中,假設(shè)我們有一個(gè)文檔dEX,X是文檔向量空間(d。cumentspace),和一個(gè)固定的類集合C={c1,c2,…,cj},類別又稱為標(biāo)簽。顯然,文檔向量空間是一個(gè)高維度空間。我們把一堆打了標(biāo)簽的文檔集合<d,c>作為訓(xùn)練樣本,<d,c>EXxC。例如:<d,c>={BeijingjoinstheWorldTradeOrganization,China}對(duì)于這個(gè)只有一句話的文檔,我們把它歸類到China,即打上china標(biāo)簽。我們期望用某種訓(xùn)練算法,訓(xùn)練出一個(gè)函數(shù)Y,能夠?qū)⑽臋n映射到某一個(gè)類別:Y:X玲C這種類型的學(xué)習(xí)方法叫做有監(jiān)督學(xué)習(xí),因?yàn)槭孪扔幸粋€(gè)監(jiān)督者(我們事先給出了一堆打好標(biāo)簽的文檔)像個(gè)老師一樣監(jiān)督著整個(gè)學(xué)習(xí)過(guò)程。樸素貝葉斯分類器是一種有監(jiān)督學(xué)習(xí)。實(shí)驗(yàn)主要代碼:1、由于中文本身是沒(méi)有自然分割符(如空格之類符號(hào)),所以要獲得中文文本的特征變量向量首先需要對(duì)文本進(jìn)行中文分詞。這里采用極易中文分詞組件
pLblicclassChineseSpliter(/**k培啟的立手K行三■可paramtejct培定的玨splitToken用于出"『‘^return疔河兆辛的文本publicstaticStringsplitfStringtejctjStringsplitTokerStringresult=null;MMAnalyzeranalyzer=n,MMAnal,yzer();tryresult=analyzer.segment(texrtsplitToken);catch(lOExceptione)e.printStackTracef);returnresultj先驗(yàn)概率計(jì)算,N表示訓(xùn)練文本集總數(shù)量。zzlaaarrz.DrFrcbatilitir工二:對(duì)己二已a(bǔ)-dtizTraininj^ataKanag's^加=neT.<7rairLingDataKaziage"();/***先驗(yàn)概率。?頻am;給定的分類*Oretum給定條件下的先喊概率*/p.;bli2a:白;二二:二二百t匚@Ljulet之FtfEt二:ng匚!zL?atrez=OF;士二catITc=T±n,getT]?aiziingFileCcLin-^z^la35i^icdtiQQ{ci;zlsatIT=3im.gstlrainingFileCcunt();re7-HefIT;returnre-;條件概率計(jì)算,為在條件A下發(fā)生的條件事件B發(fā)生的條件概率。x給定的文本屬性,c給定的分類
(3LibLi2 Z1O33ca二uu二atzcPKC《Ettin」KrStrinjcj?—四?I二1二日:ITzc=t±n.geTCGU^L^Q[irainEfeyC'=2;l^fsiJiQatiGcifc,總);zloatlie=tin.getZEainingFile^QuntDf?lassizic.atiDrLfc^;zloatV=tim.jetTraningClasaiziLations().length;涂=小乂匕-1)/<Mc-M-%;〃為了避免出現(xiàn)二這樣極端情況,進(jìn)行加權(quán)處理returnret;對(duì)給定的文本進(jìn)行分類publicstringclasaiiyI'SzringzextJ:―一tenn3=ChineseSdIi.ter.spLlt(text,"").splLtf,:一中文分詞處理[分詞后結(jié)果可能還包含有僖用詞〕口-iKCpEt匚網(wǎng)口工d3<比53,;“占掉信用同,I乂免鼻口向幺,類S7rinj["Classes=tim,gm;二rmriing二1己msi.:ication3();?'/1畀考flc-atprehility=0..OF-LL3L<Cld331T^-Re3UlL>CI'S=HSWAC&L131X匚1日BNlRReSUlI;〉();//分類結(jié)果fDr(inti=0;i<0133323.,length;i++)StringCi-Cluh-n[1];“第i個(gè)分類”■比■二二=ca上PeB{二Ems,匚斗;;計(jì)算哈定的史本屬性向里止53在給定的分類二中的今英條件概率“限存方類結(jié)果ClassizyEeaultcr=newClassizyResult();cr.elassiricaLion=二;"一類cr.prQtiLity=prc±i二卬;"矢健字在分類的條件概率System..out,print.1n("Inprocess--Pn)jSy13tem“out.p工izit;二n(匚it":"十probility);crs.add(cr);三、測(cè)試數(shù)據(jù)訓(xùn)練集文本:數(shù)據(jù)樣例選用Sogou實(shí)驗(yàn)室的文本分類數(shù)據(jù)的mini版本
2O16/V32018文件夾2016/1/320:18文件夾2O16/V32018文性?shī)A2O1&/1/320:18文件夾2O1&/1/320:18文件夾2016/1/330:1S文件夾2O16/V32018文件夾2015/1/320:18文件夾2016/1/320:18文件夾2016/1/320:18文件夾2006/10/2611:27文杰文檔.C000007.cooooos.C000007.cooooos.COOOO1O.COOOO130000014C00D016.C000020COOOO22.COO0O23C00D024C000007汽車(chē)C000008財(cái)經(jīng)C000010ITC000013健度C000014他肓C000016旅游C000020教直C000022招聘C000023文化C000024軍事測(cè)試數(shù)據(jù)文本:微較W司提出K相e憶美的價(jià)咯收期是虐口國(guó)區(qū)二月二日布指蓑森社消息,微軟幺同堤出占.三七1?蓑元現(xiàn)會(huì)加股票的價(jià)咯收見(jiàn)理索網(wǎng)站弗良公司,徽較壺巴以每段5姜元的仆格收皮推克,徵依的收期出f較程點(diǎn)二月匚日才收鉆價(jià):9,1=美元溢價(jià)腔名,微依苗司和起虎公司的段宗可以選提以觀食至眼里進(jìn)行交易,微較本雅虎苗司在方完年箕制因「H列已在M至雙方3作■:而近兩H,邪反一f處于困境:書(shū)/色題下碧、運(yùn)營(yíng)業(yè)既不隹、到f五幅下跋■:可于刁圜在豆璘網(wǎng)市哥麗作為的蹴來(lái)說(shuō),姬也版舞是一條解:因?yàn)闅v具導(dǎo)莒胃的互辛喏…標(biāo)通過(guò)觀察可知,該文本預(yù)期為IT類文章三、實(shí)驗(yàn)結(jié)果運(yùn)行結(jié)果如下圖Inprocess....C0^097:4.&S54457E-7Inprocess....C^000S=B.73B709BE-9Inprocess....C^e010:3.9367328E-4Inprocess....C^W@13:4.&4&3947E-11Inproce5s....C^^014:1.395S&7BE-2.?Inprocess....C&W016:L,4360195E-1.5Inprocess....。眄眄工以6.3035146E-1.&Inprocess....C&0O022:5,2257925E-1.6Inprocess....9.&S93B7E-22Inp
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高考語(yǔ)文二輪復(fù)習(xí)語(yǔ)言文字運(yùn)用模擬題匯編
- 建設(shè)工程施工合同說(shuō)明
- 外墻維修施工合同
- 2025年醫(yī)用真空負(fù)壓機(jī)項(xiàng)目合作計(jì)劃書(shū)
- 航空航天部件精密制造要求
- 培訓(xùn)協(xié)議與勞動(dòng)合同關(guān)系
- 《地球的運(yùn)動(dòng)規(guī)律:高中地理必修課程教案》
- 玻璃棉板吸聲墻施工方案
- 《初中歷史人物故事:孔子生平教學(xué)計(jì)劃》
- 園區(qū)物業(yè)管理服務(wù)合同
- CVP中心靜脈壓CVP監(jiān)測(cè)
- 13詩(shī)第十二-整本書(shū)閱讀系列《經(jīng)典常談》名著閱讀與練習(xí)
- 小學(xué)美術(shù)-湘美版四年級(jí)下冊(cè)第10課中國(guó)龍教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 一年級(jí)下冊(cè)勞技教案
- 部編版四年級(jí)語(yǔ)文下冊(cè)第4單元大單元整體教學(xué)作業(yè)設(shè)計(jì)(教案配套)
- 大一邏輯學(xué)全部
- 游戲法緩解小班幼兒入園焦慮的個(gè)案研究
- 2023年包頭輕工職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)題庫(kù)及答案解析
- 地下室頂板裂縫防水處理方案(完整資料)
- 宮頸錐切日間手術(shù)臨床路徑(婦科)及表單
- GB/T 23111-2008非自動(dòng)衡器
評(píng)論
0/150
提交評(píng)論