決策樹(shù)算法在商標(biāo)分類(lèi)中的應(yīng)用_第1頁(yè)
決策樹(shù)算法在商標(biāo)分類(lèi)中的應(yīng)用_第2頁(yè)
決策樹(shù)算法在商標(biāo)分類(lèi)中的應(yīng)用_第3頁(yè)
決策樹(shù)算法在商標(biāo)分類(lèi)中的應(yīng)用_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能原理姓名:成軍學(xué)好:510061813論文題目:決策樹(shù)算法在商標(biāo)分類(lèi)中的應(yīng)用中文摘要:釀決策樹(shù)一般靜都是自上而北下的來(lái)生成烘的。每個(gè)決遇策或事件(吐即自然狀態(tài)或)都可能引畏出兩個(gè)或多句個(gè)事件,導(dǎo)撒致不同的結(jié)貝果,把這種急決策分支畫(huà)陽(yáng)成圖形很像太一棵樹(shù)的枝濃干模。本文將使基用決策樹(shù)算態(tài)法對(duì)給定的害商標(biāo)進(jìn)行分成類(lèi)。其中有云三大類(lèi)商標(biāo)典數(shù)據(jù),每大踢類(lèi)贏使用五分之潛三的數(shù)據(jù)進(jìn)攔行訓(xùn)練,使篩用五分之二菜的數(shù)據(jù)進(jìn)行渴測(cè)試雀。我們應(yīng)用徹Java和鍵MySQl唯數(shù)據(jù)庫(kù)進(jìn)行遙測(cè)試。用c溜4.5算法世構(gòu)造決策樹(shù)跨。最終對(duì)數(shù)善據(jù)進(jìn)行準(zhǔn)確袋率計(jì)算。榮關(guān)鍵詞:余決策樹(shù)粥分類(lèi)陷商標(biāo)刃測(cè)試陣Title菊:盟Deci澆sion靠tree畢algor例ithm庫(kù)饒ofth罷eapp知licat程ionf唱ortr晉adema莫rkcl幻assif夜icati伙on虎A典bstra圓ct抽:隔辨Thed蓮ecisi膠ontr學(xué)eeis和comm槍only斯top-d駕ownt作ogen掀erate毀.Eac運(yùn)hdec器ision炒ore情vents貢(nam布elyn筋atura蹦lsta烈te)a脈reli喪kely窮toel何icit度twoo仰rmor濤eeve雙nts,磁lead澆todi乎ffere于ntre挪sults趟,唇put跡this抹decis薪ionb騎ranch貴lo擾ser吹grap頁(yè)hics霞isli碧kea哭tree過(guò)branc閘hes.惹This免artic喉lewi季llus煉ethe展deci素sion起tree犯algor撤ithm脹forg西iven筒thet螺radem理arko店fcla誼ssifi晶catio筐n.Th漢erea帽reth叛reek鋼inds跳oftr州adema音rkda佛ta,e軋acho璃fthe兔grou弄psus福ingt啟hree耍fifth勿sof眠thed管atat琴otra喇in,u伶setw烏ofif變thso斤fthe鑄expe嫂rime撐ntal蠢data.胃Weu攔seJa反vaan的dMy矛SQL膽data屈base感testi饞ng.U齡sec4豬.5de而cisio攔ntre豪ealg值orith德m'sc貞onstr寄uc更tion.歸Fina策lly砍,cal萬(wàn)culat垮e(cuò)乏thed境ataa拐ccura總cy冤.營(yíng)K濤eywor兄ds:顏Decis慚iont移ree虎class肚ifica言tion總bran殼dte俱st引言:忙機(jī)器學(xué)習(xí)一博般分為主3煌種類(lèi)型:有趣監(jiān)督的、無(wú)峽監(jiān)督的以及倘強(qiáng)化學(xué)習(xí)斷【1】量。樓有監(jiān)督學(xué)習(xí)賭問(wèn)題涉及從恢它的輸入和砍輸出的實(shí)例季中學(xué)習(xí)一個(gè)遙函數(shù)忠。銀對(duì)于完全可頌觀察的環(huán)境半,智能體總敞能夠觀察到奉它的行動(dòng)所汽帶來(lái)的影響看,因此有監(jiān)免督學(xué)習(xí)是可瀉行的,否則皮會(huì)困難一些還。薪獻(xiàn)無(wú)監(jiān)督學(xué)習(xí)魔問(wèn)題涉及在碎未提供明確憐的輸出值的戴情況下,學(xué)兼習(xí)輸入的模紫式鵝。爛純粹的無(wú)監(jiān)亭督學(xué)習(xí)智能刷體無(wú)法學(xué)習(xí)摸要做什么,偉因?yàn)樗鼪](méi)有掘信息說(shuō)明什耐么能構(gòu)成正燥確的行動(dòng)或豆者所期望的地狀態(tài)千。浩止盜強(qiáng)化學(xué)習(xí)問(wèn)麗題,是三類(lèi)用問(wèn)題中最普淚遍的一個(gè)。豐強(qiáng)化學(xué)習(xí)是吵從強(qiáng)化物(魂起加強(qiáng)作用春的事物)中辯進(jìn)行學(xué)習(xí),天而不是根據(jù)澡教師所說(shuō)的各應(yīng)該做什么幫進(jìn)行學(xué)習(xí)姓。正文:頑決策樹(shù)方法灘是挖掘分類(lèi)外規(guī)則的有效核方法,通常稈包括兩個(gè)部咸分:臣①喉樹(shù)的生成,鎖開(kāi)始時(shí)所有誕的數(shù)據(jù)都在蛾根節(jié)點(diǎn),然召后根據(jù)設(shè)定僻的標(biāo)準(zhǔn)選擇派測(cè)試屬性,獨(dú)用不同的測(cè)枯試屬性遞歸頃進(jìn)行數(shù)據(jù)分風(fēng)割。絨②吵樹(shù)的修剪,動(dòng)就是除去一杜些可能是噪草音或異常的歐數(shù)據(jù)?;谲埿畔㈧氐墓螴D3怪算法、牛C4鑒.濫5姥算法都能有寨效地生成決熊策樹(shù),建決隊(duì)策樹(shù)的關(guān)鍵壓在于建立分這支時(shí)對(duì)記錄獻(xiàn)字段不同取介值的選擇。芬選擇不同的任字段值使劃豪分沉出來(lái)的記錄婆子集不同友影響決策樹(shù)時(shí)生長(zhǎng)的快慢忍及決策樹(shù)的凳結(jié)構(gòu),從而積可尋找到規(guī)聲則信息的優(yōu)蝕劣。可見(jiàn),彎決策樹(shù)算法壘的技術(shù)難點(diǎn)納就是選擇一闊個(gè)好的分支鑄取值。利用偽好的取值產(chǎn)賢生分支可加脆快決策樹(shù)的護(hù)生長(zhǎng),更重膛要是產(chǎn)生好惹結(jié)構(gòu)的決策瀉樹(shù),并可得諸到較好的規(guī)劈則信息。相過(guò)反,若根據(jù)抹一個(gè)差的取再值產(chǎn)生分支李,不但減慢快決策樹(shù)的生鹿長(zhǎng)速度,而慰且使產(chǎn)生的想決策樹(shù)分支鉛過(guò)細(xì)、結(jié)構(gòu)零差,從而難業(yè)以發(fā)現(xiàn)有用賺的規(guī)則信息廟。隨著訓(xùn)練黑樣本集中樣器本個(gè)數(shù)的不譯斷增多孔(論即樣本集規(guī)挖模不斷擴(kuò)大洋)督,訓(xùn)練樣本推集在主存中兵換進(jìn)換出就龍耗費(fèi)了大量災(zāi)的時(shí)間,嚴(yán)錄重影響了算已法效率。因焰此使算法能嫁有效處理大滋規(guī)模的訓(xùn)練友樣本集已成勺為決策樹(shù)算批法研究的一劣個(gè)重要問(wèn)題溫,也是目前折國(guó)內(nèi)對(duì)決策峰樹(shù)算法研究土的熱點(diǎn)。鑄本文利用決劇策樹(shù)C4.風(fēng)5算法來(lái)解肺決圖像的分時(shí)類(lèi)問(wèn)題。志現(xiàn)在我們引包用下c4.滅5算法的實(shí)臘例快【2】絹。淺C4.5救莊算法是構(gòu)造晌決策樹(shù)分類(lèi)推規(guī)則的一種眾算法,它是彎ID3恥算法的擴(kuò)展數(shù)。杜ID3騙算法只能處階理離散型的江描述性屬競(jìng)性透而丈C4.5刮算法還能夠籌處理描述屬漁性取值為連互續(xù)型的情況右。選取節(jié)點(diǎn)趁的標(biāo)準(zhǔn)是最慶大信息增益旋率,具體的債算法步驟如貴下佩:如Stepl欣:耽數(shù)據(jù)源進(jìn)行煤數(shù)據(jù)預(yù)處理味,將連續(xù)型景的屬性變量驕進(jìn)行離散化竿處理形成決桑策樹(shù)的訓(xùn)練榮集酬(扛如果堤連續(xù)取值的胡屬性則忽略博);帝(1齊)破根據(jù)原始數(shù)垮據(jù),找到該思連續(xù)型屬性勢(shì)的最小取值策a減0從大取值安a羅n+1偵;陡(2)盾在款贊區(qū)挨陸間岸[a雖,繪b]插人n己數(shù)值等分為賞n+l巡個(gè)小區(qū)間距;蒸(3)兵分別以慧a旦i副,i=1袍,晴2,科?控,監(jiān)n郊。為分段點(diǎn)健,將區(qū)間平[a折0誠(chéng),a晴n+1植]越劃分為兩個(gè)懷子區(qū)間懂:裹接[a逆0抬,a器j墊]破,膝[(壓a泥i+1拐,a量n+1現(xiàn))婦]攏對(duì)應(yīng)該連續(xù)莖型的屬性變復(fù)量的兩類(lèi)取育值,有途n吊種劃分方式漂;揭Step餅2駕:罷計(jì)算每個(gè)屬眨性的信息增泥益和信息增狗益率者;揚(yáng)(1)饑計(jì)算屬性模A雪的信息增益值Gain(墓A)蒜信息增益潮Gain俱(A)牌的計(jì)算和辰ID3兼算法中的完哭全一致勤;呼(2)悼計(jì)習(xí)赤算挖粱屬性販A慶的信息增益證率蜂G壺ain特一猾Ratio肝(A)G貪ain糧一梁Ratio舞(A)創(chuàng)=脊G斜a銜in(A)廢/I械(A)纏對(duì)于取值連浩續(xù)的屬性而亡言,分別計(jì)柜算以垮a珠i雕(狐i=個(gè)1,2,鞭…毅,伴n)啄為分割點(diǎn),司對(duì)應(yīng)分類(lèi)的謙信息增益率廁,選擇最大悲信息增益率錯(cuò)對(duì)應(yīng)的懼a么i救,作為該屬異性分類(lèi)的分緒割點(diǎn)。選擇刺信息里歪增益率最大愧的屬性,作短為當(dāng)前的屬猴性節(jié)點(diǎn),得歇到?jīng)Q策樹(shù)的雹根節(jié)點(diǎn)。捆Step3訴:客根節(jié)點(diǎn)屬性碑每一個(gè)可能罪的取值對(duì)應(yīng)怕一個(gè)子集,末對(duì)樣本子集魄遞歸地執(zhí)行邁以上駝Step2靜過(guò)程,直到臺(tái)劃分的每個(gè)奮子集中的觀綿測(cè)數(shù)據(jù)在分塌類(lèi)屬性上取巖值都相同,烤生成決策樹(shù)娘。酬Step4蛾:飽根據(jù)構(gòu)造的骨決策樹(shù)提取紙分類(lèi)規(guī)則,討對(duì)新的數(shù)據(jù)哨集進(jìn)行分類(lèi)綁。鞏類(lèi)似算法的條主要思想都她是,逐步找脫出能夠?yàn)楦鞔纻€(gè)層次的分尤類(lèi)提供最大不信息量的變股量,由此可凱以確定決策夫樹(shù)從根到枝沃,再?gòu)闹Φ接?xùn)葉的結(jié)構(gòu)。撥決策樹(shù)生成疊的過(guò)程也就夫是對(duì)訓(xùn)練數(shù)刪據(jù)集迸行分普類(lèi)的過(guò)程紹。奶現(xiàn)在分析給狡出的商標(biāo),頓建立數(shù)據(jù)庫(kù)僚。并建立表氣:慈其中id是默主鍵。屬性懂包括:ci價(jià)rcle、幟recta喉ngle、勻trian胡gle、c維onnec劣t、obj井ect。材分別是圓、潑長(zhǎng)方形、三席角形、組合沙行、所屬分撇類(lèi)。群接著用3/盟5的數(shù)據(jù)作結(jié)為訓(xùn)練集,冠2/5的數(shù)肝據(jù)集作為測(cè)偉試集。鬼對(duì)所有商標(biāo)蒜進(jìn)行定義屬共性,并保存踢到數(shù)據(jù)庫(kù)中曉。如下:歡由于數(shù)據(jù)量悔比較大,這峽里就不全部心列出,接著暖用sql語(yǔ)嚇句對(duì)數(shù)據(jù)查蜂詢(xún),比如要?jiǎng)e查詢(xún)從id做1蠟—肝id100橫中circ具le屬性都幟是1的個(gè)數(shù)手是多少:泰S赴elect失西sum勻(circ衫le)封F腹romb獻(xiàn)rand新W搶here愚id<10賴(lài)1and特id>0涂and戰(zhàn)circl燕e=1攔接著根據(jù)c塑4.5算法沖計(jì)算得到:嘆GainR洞ati貪栽circl穗e愛(ài)(A)=藝透0.232踐12131是GainR治ati孝族Recta即nge防(A)=站源6.441領(lǐng)23121脹GainR禮ati含喝trian辨gle蔑(A)=是沖2臥.9189織2837爐GainR直atio哥conne罩ct磨(A)=管5.324萬(wàn)12321結(jié)論:鑄根據(jù)c4擇.產(chǎn)5算法,增鄙益率高的作務(wù)為分界點(diǎn),待則我們可以五得到?jīng)Q策樹(shù)賭的結(jié)構(gòu):RRectangle嗎賀淹居鏈浴芒紛R藥=0裝可R圈=1Object2Object2connect饞父爽拌瘦新感為叉婆伐C首=1嚼咸C=偶0Object3Object3Object1延最后結(jié)對(duì)訓(xùn)練集和供測(cè)試測(cè)試集縫進(jìn)行準(zhǔn)確率設(shè)計(jì)算:祥在數(shù)據(jù)庫(kù)中絮使用查詢(xún):蹄S縫elect買(mǎi)*伸F喇romb筑rand歸W關(guān)here牙recta達(dá)ngle=架0and扣obje肯ct=2羊用球的值除澤以測(cè)試集的所60,就是繡正確率。最糖終的結(jié)果是漢:還類(lèi)搞第一類(lèi)羽第二類(lèi)扭第三類(lèi)彼正確率愈71.76撲%敘78.65塊%醋86.6%訓(xùn)練集勾接著用同樣艘的方法對(duì)測(cè)羞試集進(jìn)行測(cè)喝試,得:槳類(lèi)鋸第一類(lèi)誕第二類(lèi)鉛第三類(lèi)謝正

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論