決策樹(shù)分類(lèi)算法在教學(xué)分析中的應(yīng)用論文_第1頁(yè)
決策樹(shù)分類(lèi)算法在教學(xué)分析中的應(yīng)用論文_第2頁(yè)
決策樹(shù)分類(lèi)算法在教學(xué)分析中的應(yīng)用論文_第3頁(yè)
決策樹(shù)分類(lèi)算法在教學(xué)分析中的應(yīng)用論文_第4頁(yè)
決策樹(shù)分類(lèi)算法在教學(xué)分析中的應(yīng)用論文_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、安徽新華學(xué)院2015屆本科畢業(yè)論文(設(shè)計(jì)) 緒 論1.1研究究背景與與意義無(wú)論在企業(yè)業(yè)應(yīng)用領(lǐng)領(lǐng)域,還還是在科科學(xué)領(lǐng)域域,數(shù)據(jù)據(jù)挖掘技技術(shù)有著著廣泛的的應(yīng)用價(jià)價(jià)值。在企業(yè)應(yīng)用用領(lǐng)域,用用于制定定好的市市場(chǎng)策略略以及企企業(yè)的關(guān)關(guān)鍵性決決策。在在商業(yè)方方面,數(shù)據(jù)挖掘技技術(shù)可以以增強(qiáng)企企業(yè)的競(jìng)競(jìng)爭(zhēng)優(yōu)勢(shì)勢(shì),縮短短銷(xiāo)售周周期,降降低生產(chǎn)產(chǎn)成本,有有助于制定市場(chǎng)計(jì)計(jì)劃和銷(xiāo)銷(xiāo)售策略略,并已已經(jīng)成為為電子商商務(wù)中的的關(guān)鍵技技術(shù)。近年來(lái),隨隨著我國(guó)國(guó)高等教教育的飛飛速發(fā)展展,高校校的教學(xué)學(xué)管理信信息不斷斷增多。教教學(xué)工作作信息化化有了很很大的進(jìn)進(jìn)步,好好多高校校在管理理學(xué)生和和教師信信息方面面有了很很好的方方式。

2、比比如我校校的教務(wù)務(wù)系統(tǒng),這這些系統(tǒng)統(tǒng)為老師師和學(xué)生生提供了了很好的的幫助。這這些系統(tǒng)統(tǒng)中積累累了大量量的數(shù)據(jù)據(jù)。目前前的這些些數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)雖雖然基本本上都可可以實(shí)現(xiàn)現(xiàn)數(shù)據(jù)的的錄入、修修改、統(tǒng)統(tǒng)計(jì)、查查詢(xún)等功功能,但但是這些些數(shù)據(jù)所所隱藏的的價(jià)值并并沒(méi)有被被充分的的挖掘和和利用,信信息資源源的浪費(fèi)費(fèi)還是比比較嚴(yán)重重的。隨著數(shù)據(jù)挖挖掘技術(shù)術(shù)的不斷斷擴(kuò)展,許許多高校校為了避避免信息息浪費(fèi),已已經(jīng)將數(shù)數(shù)據(jù)挖掘掘技術(shù)應(yīng)應(yīng)用于高高校的教教學(xué)分析析中。數(shù)數(shù)據(jù)挖掘掘技術(shù)的的應(yīng)用將將對(duì)提高高學(xué)生成成績(jī)和提提高教學(xué)學(xué)水平起起到很好好的指導(dǎo)導(dǎo)作用。為了提高教教學(xué)質(zhì)量量,將數(shù)數(shù)據(jù)挖掘掘技術(shù)引引入到高高校學(xué)生生成績(jī)分

3、分析中,對(duì)對(duì)這些數(shù)數(shù)據(jù)進(jìn)行行深入的的挖掘和和合理的的分析,從從而挖掘掘出傳統(tǒng)統(tǒng)的分析析方法所所無(wú)法得得出的結(jié)結(jié)論。進(jìn)進(jìn)而利用用分析結(jié)結(jié)果引導(dǎo)導(dǎo)教學(xué)的的開(kāi)展,從從而有利利于提高高教學(xué)質(zhì)質(zhì)量。本文主要是是基于如如下背景景開(kāi)展的的:以安安徽新華華學(xué)院歷歷屆學(xué)生生成績(jī)?yōu)闉楸尘?,首首先學(xué)習(xí)習(xí)數(shù)據(jù)挖挖掘的理理論知識(shí)識(shí)以及決決策樹(shù)技技術(shù),然然后建立立新華學(xué)學(xué)院學(xué)生生成績(jī)數(shù)數(shù)據(jù)庫(kù),并并利用數(shù)數(shù)據(jù)挖掘掘技術(shù)中中的決策策樹(shù)對(duì)自自己建立立的數(shù)據(jù)據(jù)庫(kù)進(jìn)行行深入的的挖掘。最最后對(duì)自自己的挖挖掘結(jié)果果進(jìn)行分分析,得得到影響響學(xué)生成成績(jī)的因因素。從從而更好好的輔助助今后學(xué)學(xué)校的教教學(xué)分析析工作。1.2數(shù)據(jù)據(jù)挖掘的的國(guó)內(nèi)外外

4、研究現(xiàn)現(xiàn)狀1989年年8月在在美國(guó)召召開(kāi)的第第十一屆屆國(guó)際人人工智能能聯(lián)合會(huì)會(huì)議的專(zhuān)專(zhuān)題討論論會(huì)上,與與數(shù)據(jù)挖挖掘(DDatee Miininng)極極為相似似的術(shù)語(yǔ)語(yǔ)從數(shù)數(shù)據(jù)庫(kù)中中發(fā)現(xiàn)知知識(shí)一詞詞被提出出。19993年年以后,美美國(guó)計(jì)算算機(jī)協(xié)會(huì)會(huì)美年都都舉行了了專(zhuān)門(mén)研研究探討討數(shù)據(jù)挖挖掘技術(shù)術(shù)的會(huì)議議,會(huì)議議的規(guī)模模也發(fā)展展成為國(guó)國(guó)際學(xué)術(shù)術(shù)大會(huì),并并且在各各個(gè)領(lǐng)域域里取得得了很多多研究成成果。最最近,GGarttnerr Grroupp的一次次高級(jí)技技術(shù)調(diào)查查將數(shù)據(jù)據(jù)挖掘和和人工智智能列為為“未來(lái)來(lái)三到五五年內(nèi)將將對(duì)工業(yè)業(yè)產(chǎn)生深深遠(yuǎn)影響響的五大大關(guān)鍵技技術(shù)”之之首,并并且還將將并行處處理體系

5、系和數(shù)據(jù)據(jù)挖掘列列為未來(lái)來(lái)五年內(nèi)內(nèi)投資焦焦點(diǎn)的十十大新興興技術(shù)前前兩位。1根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,大型系統(tǒng)用戶(hù)將更多地需要采用新技術(shù)來(lái)挖掘市場(chǎng)以外的價(jià)值,采用更為廣闊的并行處理系統(tǒng)來(lái)創(chuàng)建新的商業(yè)增長(zhǎng)點(diǎn)?!眹?guó)外研究數(shù)數(shù)據(jù)挖掘掘的組織織、機(jī)構(gòu)構(gòu)或大學(xué)學(xué)很多。比比較著名名的如卡卡內(nèi)基梅梅隆大學(xué)學(xué)、斯坦坦福大學(xué)學(xué)、麻省省理工學(xué)學(xué)院。著著名的研研究機(jī)構(gòu)構(gòu)如:AACM、KDNNet、NCDDM等。國(guó)國(guó)外比較較著名的的挖掘工工具:IBMM公司的的Inttellligeent Minner 、SASS公司的的Entterpprisse MMineer、

6、SGII公司的的SettMinner、SPSSS公司司的Cllemeentiine、Oraaclee Daarwiin等。不少的軟件在國(guó)外得到了廣泛的應(yīng)用,并收到了明顯的效益。與國(guó)外相比比,國(guó)內(nèi)內(nèi)對(duì)DMMKD的的研究稍稍晚,沒(méi)沒(méi)有形成成整體力力量。119933年國(guó)家家自然科科學(xué)基金金首次支支持我們們對(duì)該領(lǐng)領(lǐng)域的研研究項(xiàng)目目。目前前,國(guó)內(nèi)內(nèi)的許多多科研單單位和高高等院校校競(jìng)相開(kāi)開(kāi)展知識(shí)識(shí)發(fā)現(xiàn)的的基礎(chǔ)理理論及其其應(yīng)用研研究,這這些單位位包括清清華大學(xué)學(xué)、中科科院計(jì)算算技術(shù)研研究所、空空軍第三三研究所所、海軍軍裝備論論證中心心等。其其中,北北京系統(tǒng)統(tǒng)工程研研究所對(duì)對(duì)模糊方方法在知知識(shí)發(fā)現(xiàn)現(xiàn)中的應(yīng)應(yīng)用

7、進(jìn)行行了較深深入的研研究,北北京大學(xué)學(xué)也在開(kāi)開(kāi)展對(duì)數(shù)數(shù)據(jù)立方方體代數(shù)數(shù)的研究究,華中中理工大大學(xué)、復(fù)復(fù)旦大學(xué)學(xué)、浙江江大學(xué)、中中國(guó)科技技大學(xué)、中中科院數(shù)數(shù)學(xué)研究究所、吉吉林大學(xué)學(xué)等單位位開(kāi)展了了對(duì)關(guān)聯(lián)聯(lián)規(guī)則開(kāi)開(kāi)采算法法的優(yōu)化化和改造造;南京京大學(xué)、四四川聯(lián)合合大學(xué)和和上海交交通大學(xué)學(xué)等單位位探討、研研究了非非結(jié)構(gòu)化化數(shù)據(jù)的的知識(shí)發(fā)發(fā)現(xiàn)以及及Webb數(shù)據(jù)挖挖掘。1.3論文文研究?jī)?nèi)內(nèi)容及結(jié)結(jié)構(gòu)安排排本課題的主主要工作作是將數(shù)數(shù)據(jù)挖掘掘技術(shù)和和學(xué)校的的信息管管理系統(tǒng)統(tǒng)相結(jié)合合,新華華學(xué)院多多年來(lái)的的信息化化教學(xué)管管理工作作積累了了大量的的教學(xué)數(shù)數(shù)據(jù),從從新華學(xué)學(xué)院的數(shù)數(shù)據(jù)庫(kù)中中收集學(xué)學(xué)生的考考試成績(jī)

8、績(jī)信息。利利用數(shù)據(jù)據(jù)挖掘技技術(shù)對(duì)這這些數(shù)據(jù)據(jù)進(jìn)行分分析,獲獲得影響響學(xué)生成成績(jī)的因因素,更更好的輔輔助學(xué)校校如何提提高學(xué)生生成績(jī)以以及提高高教學(xué)質(zhì)質(zhì)量。本課題根據(jù)據(jù)指導(dǎo)老老師提供供的111級(jí)學(xué)生生成績(jī)的的信息,建建立安徽徽新華學(xué)學(xué)院111級(jí)學(xué)生生成績(jī)庫(kù)庫(kù),采用用數(shù)據(jù)挖挖掘技術(shù)術(shù)對(duì)成績(jī)績(jī)庫(kù)進(jìn)行行挖掘。通通過(guò)對(duì)實(shí)實(shí)驗(yàn)結(jié)果果進(jìn)行深深入分析析,獲得得影響學(xué)學(xué)生考試試成績(jī)的的因素,輔輔助教師師在以后后的教學(xué)學(xué)工作中中采用更更恰當(dāng)?shù)牡慕虒W(xué)方方式,指指導(dǎo)學(xué)生生應(yīng)該具具有什么么樣的學(xué)學(xué)習(xí)態(tài)度度,從而而提高學(xué)學(xué)生考試試成績(jī)。 論論文結(jié)構(gòu)構(gòu)如下:第一章 緒論。 主要介介紹了論論文的研研究背景景與意義義,敘述述了國(guó)

9、內(nèi)內(nèi)外數(shù)據(jù)據(jù)挖掘技技術(shù)的研研究現(xiàn)狀狀。第二章 數(shù)據(jù)挖挖掘的基基礎(chǔ)知識(shí)識(shí)。 主要敘敘述了數(shù)數(shù)據(jù)挖掘掘的定義義、數(shù)據(jù)據(jù)挖掘的的過(guò)程以以及數(shù)據(jù)據(jù)挖掘的的方法。第三章 決策樹(shù)樹(shù)。 主主要簡(jiǎn)要要介紹了了決策樹(shù)樹(shù)以及決決策樹(shù)的的經(jīng)典算算法。第四章 決策樹(shù)樹(shù)在計(jì)算算機(jī)等級(jí)級(jí)考試成成績(jī)分析析中的應(yīng)應(yīng)用第五章 總結(jié)與與展望??偪偨Y(jié)本篇篇論文并并展望今今后論文文的繼續(xù)續(xù)研究方方向內(nèi)容容方向。2 數(shù)據(jù)挖挖掘技術(shù)術(shù)2.1數(shù)據(jù)據(jù)挖掘的的概念2.1.11數(shù)據(jù)挖挖掘的背背景隨著信息技技術(shù)的高高速發(fā)展展,人們們積累的的數(shù)據(jù)量量急劇增增長(zhǎng),如如何從海海量的數(shù)數(shù)據(jù)中提提取有用用的知識(shí)識(shí)成為當(dāng)當(dāng)務(wù)之急急。數(shù)據(jù)據(jù)庫(kù)技術(shù)術(shù)的成熟熟以及

10、數(shù)數(shù)據(jù)應(yīng)用用的普及及,雖然然目前的的數(shù)據(jù)庫(kù)庫(kù)系統(tǒng)可可以高效效的實(shí)現(xiàn)現(xiàn)數(shù)據(jù)的的錄入、查查詢(xún)、統(tǒng)統(tǒng)計(jì)的功功能,但但無(wú)法發(fā)發(fā)現(xiàn)數(shù)據(jù)據(jù)中潛在在的信息息和價(jià)值值,無(wú)法法利用這這些數(shù)據(jù)據(jù)來(lái)預(yù)測(cè)測(cè)未來(lái)的的發(fā)展趨趨勢(shì)。于于是,新新的問(wèn)題題就被提提出來(lái)了了:人類(lèi)類(lèi)如何在在這浩瀚瀚的數(shù)據(jù)據(jù)中及時(shí)時(shí)發(fā)現(xiàn)有有用的知知識(shí),提提高數(shù)據(jù)據(jù)的利用用率呢?在不懈懈的努力力下,從從數(shù)據(jù)庫(kù)庫(kù)中發(fā)現(xiàn)現(xiàn)知識(shí)(KKnowwleddge Disscovveryy inn Daatebbasees)及及其核心心技術(shù)數(shù)據(jù)據(jù)挖掘(DDatee Miininng)便便應(yīng)運(yùn)而而生,并并得以蓬蓬勃的發(fā)發(fā)展,越越來(lái)越顯顯出其強(qiáng)強(qiáng)大的生生命力。2.1.1

11、1 數(shù)據(jù)據(jù)挖掘的的定義數(shù)據(jù)挖掘(Datta MMiniing),又譯譯為資料料探勘、數(shù)數(shù)據(jù)采礦礦。它是是數(shù)據(jù)庫(kù)庫(kù)中的知知識(shí)發(fā)現(xiàn)現(xiàn)(Knnowlledgge DDisccoveery in Dattebaasess,簡(jiǎn)稱(chēng)稱(chēng):KDDD),是是目前人人工智能能和數(shù)據(jù)據(jù)庫(kù)領(lǐng)域域研究的的熱點(diǎn)問(wèn)問(wèn)題,數(shù)數(shù)據(jù)挖掘掘一般是是指從大大量的數(shù)數(shù)據(jù)中通通過(guò)算法法搜索隱隱藏于其其中信息息的過(guò)程程。所謂謂數(shù)據(jù)挖挖掘是指從大量量的、不不完全的的、有噪噪聲的、模模糊的、隨隨機(jī)的數(shù)數(shù)據(jù)中自自動(dòng)搜索索隱藏于于其中的的有著特特殊關(guān)系系的信息息,提取取隱含在在其中的的,人們事事先不知知道的、但但又是潛潛在有用用的信息息和知識(shí)識(shí)的過(guò)

12、程程5。2.2 數(shù)數(shù)據(jù)挖掘掘的過(guò)程程數(shù)據(jù)挖掘(Datta MMiniing)的過(guò)程程可以分分為以下下幾個(gè)部部分:理理解數(shù)據(jù)據(jù)和數(shù)據(jù)據(jù)的來(lái)源源(unnderrstaandiing)、 獲取相相關(guān)知識(shí)識(shí)與技術(shù)術(shù)(accquiisittionn)、 整合與與檢查數(shù)數(shù)據(jù)(iinteegraatioon aand cheeckiing)、 去除錯(cuò)錯(cuò)誤或不不一致的的數(shù)據(jù)(ddataa clleanningg)、 建立模模型和假假設(shè)(mmodeel aand hyppothhesiis ddeveeloppmennt)、 實(shí)際數(shù)數(shù)據(jù)挖掘掘工作(ddataa miininng)、測(cè)測(cè)試和驗(yàn)驗(yàn)證挖掘掘結(jié)果、解解

13、釋和應(yīng)應(yīng)用(iinteerprretaatioon aand usee)。大大概可以以四個(gè)部部分?jǐn)?shù)據(jù)據(jù)對(duì)象的的確立(Datte OObjeect Dettermmineed)數(shù)數(shù)據(jù)預(yù)處處理(DDatee Prreprroceessiing)、數(shù)據(jù)據(jù)挖掘(Datte MMiniing)及結(jié)果果的解釋釋和評(píng)估估(Innterrpreetattionn annd EEvalluattionn)。圖2.1 數(shù)據(jù)挖挖掘的過(guò)過(guò)程2.2.11 數(shù)據(jù)據(jù)對(duì)象的的確立明確我們研研究問(wèn)題題所需要要的數(shù)據(jù)據(jù),理解解數(shù)據(jù)并并提出問(wèn)問(wèn)題,需需要進(jìn)行行數(shù)據(jù)挖挖掘的數(shù)數(shù)據(jù)信息息,明確確數(shù)據(jù)挖挖掘的目目標(biāo)的定定義。確確定數(shù)據(jù)據(jù)

14、挖掘目目標(biāo)是數(shù)數(shù)據(jù)挖掘掘重要的的一步。我我們進(jìn)行行數(shù)據(jù)挖挖掘時(shí),挖挖掘的結(jié)結(jié)果往往往是不可可預(yù)測(cè)的的,但對(duì)對(duì)要進(jìn)行行挖掘的的目標(biāo)是是可預(yù)見(jiàn)見(jiàn)的,即即明確數(shù)數(shù)據(jù)挖掘掘的最終終目標(biāo)7。 數(shù)據(jù)對(duì)對(duì)象的確確立,包包括對(duì)大大量數(shù)據(jù)據(jù)的選取取、數(shù)據(jù)據(jù)屬性的的確定等等。本文文是安徽徽新華學(xué)學(xué)院學(xué)生生成績(jī)的的數(shù)據(jù)挖挖掘技術(shù)術(shù)應(yīng)用,這這些數(shù)據(jù)據(jù)包含新新華學(xué)院院歷屆的的學(xué)生考考試成績(jī)績(jī)數(shù)據(jù),數(shù)數(shù)據(jù)屬性性包括學(xué)學(xué)生姓名名、性別別。年齡齡、專(zhuān)業(yè)業(yè)、成績(jī)績(jī)等。2.2.22數(shù)據(jù)預(yù)預(yù)處理階階段現(xiàn)實(shí)世界中中數(shù)據(jù)大大體上都都是不完完整的、含含有噪聲聲的、甚甚至不一一致的臟臟數(shù)據(jù),我我們無(wú)法法直接對(duì)對(duì)其進(jìn)行行數(shù)據(jù)挖挖掘,或或者挖

15、掘掘結(jié)果會(huì)會(huì)差強(qiáng)人人意。為為了提高高數(shù)據(jù)挖挖掘的質(zhì)質(zhì)量,人人們提出出了數(shù)據(jù)據(jù)預(yù)處理理技術(shù)7。數(shù)據(jù)預(yù)處理理是數(shù)據(jù)據(jù)挖掘過(guò)過(guò)程中的的一個(gè)很很重要的的步驟,數(shù)數(shù)據(jù)預(yù)處處理有很很多種方方法,一一般將數(shù)數(shù)據(jù)預(yù)處處理又分分為四個(gè)個(gè)步驟:數(shù)據(jù)清清洗、數(shù)數(shù)據(jù)集成成、數(shù)據(jù)據(jù)變換、數(shù)數(shù)據(jù)歸約約。數(shù)據(jù)清洗處處理過(guò)程程通常包包括:填填補(bǔ)遺漏漏的數(shù)據(jù)據(jù)值、光光滑有噪噪聲數(shù)據(jù)據(jù)、識(shí)別別或刪除除異常值值、以及及解決不不一致問(wèn)問(wèn)題。數(shù)據(jù)集成就就是將多多個(gè)數(shù)據(jù)據(jù)源的數(shù)數(shù)據(jù)合并并到一起起并統(tǒng)一一存儲(chǔ),建建立數(shù)據(jù)據(jù)倉(cāng)庫(kù)的的過(guò)程實(shí)實(shí)際上就就是數(shù)據(jù)據(jù)集成。在在數(shù)據(jù)集集成時(shí)要要特別注注意消除除數(shù)據(jù)的的冗余。數(shù)據(jù)變換主主要是對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行

16、規(guī)格格化操作作,將數(shù)數(shù)據(jù)轉(zhuǎn)換換成適用用于數(shù)據(jù)據(jù)挖掘的的形式。數(shù)據(jù)挖掘時(shí)時(shí)對(duì)應(yīng)的的數(shù)據(jù)量量往往是是非常大大的,數(shù)數(shù)據(jù)歸約約是縮小小所挖掘掘數(shù)據(jù)的的規(guī)模,但但保持?jǐn)?shù)數(shù)據(jù)的完完整性。2.2.33數(shù)據(jù)挖挖掘階段段數(shù)據(jù)挖掘階階段是數(shù)數(shù)據(jù)挖掘掘的核心心步驟,也也是技術(shù)術(shù)難點(diǎn)所所在。而而數(shù)據(jù)挖挖掘階段段的核心心就是模模式的發(fā)發(fā)現(xiàn)13。此階段主要要是確定定對(duì)數(shù)據(jù)據(jù)進(jìn)行分分類(lèi)還是是聚類(lèi),確確定數(shù)據(jù)據(jù)的關(guān)聯(lián)聯(lián)規(guī)則等等等。然然后確定定用什么么數(shù)據(jù)挖挖掘算法法對(duì)數(shù)據(jù)據(jù)進(jìn)行挖挖掘,再再利用數(shù)數(shù)據(jù)挖掘掘的工具具和一系系列方法法對(duì)之前前所確定定以及轉(zhuǎn)轉(zhuǎn)換后的的數(shù)據(jù)進(jìn)進(jìn)行分析析、產(chǎn)生生一個(gè)特特定的有有意義的的模式以以更好的的

17、對(duì)已處處理好的的數(shù)據(jù)進(jìn)進(jìn)行分析析,獲取取有用信信息。2.2.44結(jié)果的的解釋和和評(píng)估階階段數(shù)據(jù)挖掘階階段會(huì)產(chǎn)產(chǎn)生的模模式或數(shù)數(shù)據(jù)集經(jīng)經(jīng)過(guò)評(píng)估估存在冗冗余或多多余的模模式,這這時(shí)需要要將其剔剔除,過(guò)過(guò)濾出有有用的知知識(shí)。過(guò)過(guò)濾后用用于呈現(xiàn)現(xiàn)給用戶(hù)戶(hù);一般般情況下下,為了了方便用用戶(hù)理解解產(chǎn)生的的模式,處處理員應(yīng)應(yīng)該利用用可視化化技術(shù)將將數(shù)據(jù)挖挖掘產(chǎn)生生的有意意義模式式以圖形形或者其其他可視視化的形形式表示示,讓用用戶(hù)更容容易理解解。例如如把分類(lèi)類(lèi)決策樹(shù)樹(shù)轉(zhuǎn)換為為“iftheen”的形式式。如果數(shù)據(jù)挖挖掘過(guò)程程中的發(fā)發(fā)現(xiàn)的知知識(shí)不能能滿(mǎn)足用用戶(hù)的需需求,我我們則需需要重新新對(duì)數(shù)據(jù)據(jù)進(jìn)行處處理,選選

18、擇一些些其他的的數(shù)據(jù)挖挖掘方法法、算法法對(duì)數(shù)據(jù)據(jù)進(jìn)行再再次挖掘掘,并分分析結(jié)果果,直到到滿(mǎn)足用用戶(hù)的需需求。2.3數(shù)據(jù)據(jù)挖掘的的主要方方法(1)關(guān)聯(lián)聯(lián)規(guī)則在數(shù)據(jù)挖掘掘的知識(shí)識(shí)模式中中,關(guān)聯(lián)聯(lián)規(guī)則模模式是比比較重要要的一種種。關(guān)聯(lián)聯(lián)規(guī)則的的概念由由Agrrawaal、IImieelinnskii、Swwamii 提出出,是數(shù)數(shù)據(jù)中一一種簡(jiǎn)單單但很實(shí)實(shí)用的規(guī)規(guī)則。關(guān)關(guān)聯(lián)規(guī)則則模式屬屬于描述述型模式式,發(fā)現(xiàn)現(xiàn)關(guān)聯(lián)規(guī)規(guī)則的算算法屬于于無(wú)監(jiān)督督學(xué)習(xí)的的方法。關(guān)聯(lián)規(guī)則是描述了數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。

19、(2)決策策樹(shù)所謂決策樹(shù)樹(shù),顧名名思義,是是一種樹(shù)樹(shù),一種種依托于于策略抉抉擇而建建立起來(lái)來(lái)的樹(shù)。一種用樹(shù)枝枝狀展現(xiàn)現(xiàn)數(shù)據(jù)受受各變量量的影響響情況的的分析預(yù)預(yù)測(cè)模型型,根據(jù)據(jù)對(duì)目標(biāo)標(biāo)變量產(chǎn)產(chǎn)生效應(yīng)應(yīng)的不同同而制定定分類(lèi)規(guī)規(guī)則,它它是建立立在信息息論基礎(chǔ)礎(chǔ)之上,對(duì)對(duì)數(shù)據(jù)進(jìn)進(jìn)行分類(lèi)類(lèi)的一種種方法。它它首先通通過(guò)一批批已知的的訓(xùn)練數(shù)數(shù)據(jù)建立立一棵決決策樹(shù),然然后采用用建好的的決策樹(shù)樹(shù)對(duì)數(shù)據(jù)據(jù)進(jìn)行預(yù)預(yù)測(cè)。決決策樹(shù)的的建立過(guò)過(guò)程是數(shù)數(shù)據(jù)規(guī)則則的生成成過(guò)程,因因此這種種方法實(shí)實(shí)現(xiàn)了數(shù)數(shù)據(jù)規(guī)則則的可視視化,其其輸出結(jié)結(jié)果容易易理解,精精確度較較好,效效率較高高,因而而較常用用。常用用的方法法有分類(lèi)類(lèi)及回歸歸

20、樹(shù)法、卡卡方自動(dòng)動(dòng)交互探探測(cè)法等等。決策樹(shù)是是一個(gè)預(yù)預(yù)測(cè)模型型;他代代表的是是對(duì)象屬屬性與對(duì)對(duì)象值之之間的一一種映射射關(guān)系。樹(shù)樹(shù)中每個(gè)個(gè)節(jié)點(diǎn)表表示某個(gè)個(gè)對(duì)象,而而每個(gè)分分叉路徑徑則代表表的某個(gè)個(gè)可能的的屬性值值,而每每個(gè)葉結(jié)結(jié)點(diǎn)則對(duì)對(duì)應(yīng)從根根節(jié)點(diǎn)到到該葉節(jié)節(jié)點(diǎn)所經(jīng)經(jīng)歷的路路徑所表表示的對(duì)對(duì)象的值值。決策策樹(shù)僅有有單一輸輸出,若若欲有復(fù)復(fù)數(shù)輸出出,可以以建立獨(dú)獨(dú)立的決決策樹(shù)以以處理不不同輸出出。決策樹(shù)算法法是一種種逼近離離散函數(shù)數(shù)值的方方法。它它是一種種典型的的分類(lèi)方方法,首首先對(duì)數(shù)數(shù)據(jù)進(jìn)行行處理,利利用歸納納算法生生成可讀讀的規(guī)則則和決策策樹(shù),然然后使用用決策對(duì)對(duì)新數(shù)據(jù)據(jù)進(jìn)行分分析。本本質(zhì)上決

21、決策樹(shù)是是通過(guò)一一系列規(guī)規(guī)則對(duì)數(shù)數(shù)據(jù)進(jìn)行行分類(lèi)的的過(guò)程。(3)神經(jīng)經(jīng)網(wǎng)絡(luò)一種模仿人人腦思考考結(jié)構(gòu)的的數(shù)據(jù)分分析模式式,由輸輸入變量量或數(shù)值值中自我我學(xué)習(xí)并并根據(jù)學(xué)學(xué)習(xí)經(jīng)驗(yàn)驗(yàn)所得的的知識(shí)不不斷調(diào)整整參數(shù),以以期得到到資料的的模式。是是建立在在自學(xué)習(xí)習(xí)的數(shù)學(xué)學(xué)模型基基礎(chǔ)之上上,它可可以對(duì)大大量復(fù)雜雜的數(shù)據(jù)據(jù)進(jìn)行分分析,并并能完成成對(duì)人腦腦或計(jì)算算機(jī)來(lái)說(shuō)說(shuō)極為復(fù)復(fù)雜的模模式抽取取及趨勢(shì)勢(shì)分析。神神經(jīng)網(wǎng)絡(luò)絡(luò)的處理理過(guò)程主主要是通通過(guò)網(wǎng)絡(luò)絡(luò)的學(xué)習(xí)習(xí)功能找找到一個(gè)個(gè)恰當(dāng)?shù)牡倪B接加加權(quán)值來(lái)來(lái)得到最最佳結(jié)果果。比較較典型的的學(xué)習(xí)方方法是回回溯法。通通過(guò)將輸輸出結(jié)果果同一些些已知值值進(jìn)行一一系列比比較,加加權(quán)值

22、不不斷調(diào)整整,得到到一個(gè)新新的輸出出值,再再經(jīng)過(guò)不不斷的學(xué)學(xué)習(xí)過(guò)程程,最后后該神經(jīng)經(jīng)網(wǎng)絡(luò)得得到一個(gè)個(gè)穩(wěn)定的的結(jié)果。 (4)相關(guān)關(guān)規(guī)則是一種簡(jiǎn)單單而實(shí)用用的關(guān)聯(lián)聯(lián)分析規(guī)規(guī)則,它它描述一一個(gè)事物物中某些些屬性同同時(shí)出現(xiàn)現(xiàn)的規(guī)律律和模式式,由一一連串的的“如果則”的邏輯輯規(guī)則對(duì)對(duì)資料進(jìn)進(jìn)行細(xì)分分的技術(shù)術(shù)。關(guān)聯(lián)聯(lián)規(guī)則一一般應(yīng)用用在事物物數(shù)據(jù)庫(kù)庫(kù)中,其其中每個(gè)個(gè)事物都都由一個(gè)個(gè)記錄集集合組成成。這種種事物數(shù)數(shù)據(jù)庫(kù)通通常都包包括極為為龐大的的數(shù)據(jù),因因此當(dāng)前前的關(guān)聯(lián)聯(lián)規(guī)則發(fā)發(fā)現(xiàn)技巧巧正努力力根據(jù)基基于一定定考慮的的記錄支支持度來(lái)來(lái)削減搜搜索空間間。其中中的支持持度是一一種基于于用戶(hù)事事物在事事物日志志中出

23、現(xiàn)現(xiàn)的數(shù)目目的度量量。(5)遺傳傳算法一種新的最最佳化空空間搜索索方法,它它應(yīng)用算算法的適適應(yīng)函數(shù)數(shù)來(lái)決定定搜索的的方向,運(yùn)運(yùn)用一些些擬生物物化的人人工運(yùn)算算過(guò)程進(jìn)進(jìn)行一代代一代的的周而復(fù)復(fù)始的演演化,求求得一個(gè)個(gè)最佳結(jié)結(jié)果。特特點(diǎn)是具具有強(qiáng)固固形與求求值空間間的獨(dú)立立性。強(qiáng)強(qiáng)固形使使問(wèn)題的的限制條條件降到到最低,并并大幅度度提高系系統(tǒng)的容容錯(cuò)能力力;而求求值空間間的獨(dú)立立性則使使遺傳算算法的設(shè)設(shè)計(jì)單一一化,且且適用于于多種不不同性質(zhì)質(zhì)、領(lǐng)域域的問(wèn)題題。將遺遺傳算法法運(yùn)用于于數(shù)據(jù)挖挖掘,可可以開(kāi)采采出與眾眾不同的的信息,是是別的算算法所不不能替代代的。(6)連機(jī)機(jī)分析處處理簡(jiǎn)稱(chēng)OLAAP,是是

24、基于大大型數(shù)據(jù)據(jù)庫(kù)或數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的信息息分析過(guò)過(guò)程,是是大型數(shù)數(shù)據(jù)庫(kù)或或數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的用用戶(hù)接口口部分,其其目的是是滿(mǎn)足決決策支持持或多維維環(huán)境特特定的查查詢(xún)和報(bào)報(bào)表要求求。OLAP具具有快速速性、可可分析性性、多維維性、信信息性和和共享性性等特點(diǎn)點(diǎn),它是是跨部門(mén)門(mén)、面向向主題的的。OLLAP不不同于傳傳統(tǒng)的連連機(jī)事物物處理的的應(yīng)用。OLAP主要是用來(lái)完成客戶(hù)的事務(wù)處理,如民航、車(chē)船的訂票系統(tǒng)等,通常要進(jìn)行大量的更新操作,對(duì)響應(yīng)時(shí)間要求也比較高。而OLAP主要是對(duì)用戶(hù)當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析,輔助決策。其典型的應(yīng)用有對(duì)銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測(cè)等,主要是進(jìn)行大量的查詢(xún)操作,對(duì)時(shí)間的要求不太嚴(yán)格。(

25、7)粗糙糙集粗糙集算法法將知識(shí)識(shí)理解為為對(duì)數(shù)據(jù)據(jù)的劃分分,每一一被劃分分的集合合稱(chēng)為概概念,主主要思想想是利用用已知的的知識(shí)庫(kù)庫(kù),將不不精確或或不確定定的知識(shí)識(shí)用已知知的知識(shí)識(shí)庫(kù)中的的知識(shí)來(lái)來(lái)近似刻刻劃處理理粗糙集集理論,是是繼概率率論、模模糊集、證證據(jù)理論論之后的的又一個(gè)個(gè)處理不不確定性性的數(shù)學(xué)學(xué)工具。作作為一種種較新的的軟計(jì)算算方法,粗粗糙集近近年來(lái)越越來(lái)越受受到重視視,其有有效性已已在許多多科學(xué)與與工程領(lǐng)領(lǐng)域的成成功應(yīng)用用中得到到證實(shí),是是當(dāng)前國(guó)國(guó)際上人人工智能能理論及及其應(yīng)用用領(lǐng)域中中的研究究熱點(diǎn)之之一。在在很多實(shí)實(shí)際系統(tǒng)統(tǒng)中均不不同程度度地存在在著不確確定性因因素,采采集到的的數(shù)據(jù)常

26、常常包含含著噪聲聲,不精精確甚至至不完整整。它將知識(shí)理理解為對(duì)對(duì)數(shù)據(jù)的的劃分,每每一被劃劃分的集集合稱(chēng)為為概念,主主要思想想是利用用已知的的知識(shí)庫(kù)庫(kù),將不不精確或或不確定定的知識(shí)識(shí)用已知知的知識(shí)識(shí)庫(kù)中的的知識(shí)來(lái)來(lái)近視刻刻劃處理理。2.4數(shù)據(jù)據(jù)挖掘的的功能數(shù)據(jù)挖掘的的功能是是從大型型數(shù)據(jù)集集中提取取人們感感興趣的的知識(shí),這這些知識(shí)識(shí)是隱含含的、具具有一定定可信度度的、對(duì)對(duì)用戶(hù)而而言是新新穎的且且有潛在在價(jià)值的的知識(shí),提提取的知知識(shí)表示示為概念念、規(guī)則則、模式式等多種種形式。一般情況下下,數(shù)據(jù)據(jù)挖掘的的任務(wù)可可以大體體分為兩兩類(lèi):描描述和預(yù)預(yù)測(cè)。描描述性挖挖掘任務(wù)務(wù)描述數(shù)數(shù)據(jù)庫(kù)中中數(shù)據(jù)的的一般性性

27、質(zhì),而而預(yù)測(cè)性性挖掘任任務(wù)是指指對(duì)當(dāng)前前數(shù)據(jù)進(jìn)進(jìn)行處理理、分析析和推斷斷,以做做出相應(yīng)應(yīng)的預(yù)測(cè)測(cè)。數(shù)據(jù)挖掘在在實(shí)際的的工作中中,有時(shí)時(shí)候用戶(hù)戶(hù)并不清清楚自己己需要什什么樣的的數(shù)據(jù),因因此數(shù)據(jù)據(jù)挖掘工工作有必必要挖掘掘出多種種類(lèi)型的的模式,以以達(dá)到滿(mǎn)滿(mǎn)足不同同的用戶(hù)戶(hù)需求和和應(yīng)用。一般情況下下,數(shù)據(jù)據(jù)挖掘的的功能以以及可能能發(fā)現(xiàn)的的模式類(lèi)類(lèi)型如下下:(1)分類(lèi)類(lèi)目的是構(gòu)造造一個(gè)分分類(lèi)函數(shù)數(shù)或分類(lèi)類(lèi)模型(也也常常稱(chēng)稱(chēng)作分類(lèi)類(lèi)器),該該模型能能把數(shù)據(jù)據(jù)庫(kù)中的的數(shù)據(jù)項(xiàng)項(xiàng)映射到到給定類(lèi)類(lèi)別中的的某一個(gè)個(gè)。要構(gòu)構(gòu)造分類(lèi)類(lèi)器,需需要有一一個(gè)訓(xùn)練練樣本數(shù)數(shù)據(jù)集作作為輸入入。訓(xùn)練練集由一一組數(shù)據(jù)據(jù)庫(kù)記錄錄或元組

28、組構(gòu)成,每每個(gè)元組組是一個(gè)個(gè)由有關(guān)關(guān)字段(又又稱(chēng)屬性性或特征征)值組組成的特特征向量量,此外外,訓(xùn)練練樣本還還有一個(gè)個(gè)類(lèi)別標(biāo)標(biāo)記。一一個(gè)具體體樣本的的形式可可表示為為:(vv1,vv2,vnn;c),其其中vii表示字字段值,cc表示類(lèi)類(lèi)別。 例如:銀行行部門(mén)根根據(jù)以前前的數(shù)據(jù)據(jù)將客戶(hù)戶(hù)分成了了不同的的類(lèi)別,現(xiàn)現(xiàn)在就可可以根據(jù)據(jù)這些來(lái)來(lái)區(qū)分新新申請(qǐng)貸貸款的客客戶(hù),以以采取相相應(yīng)的貸貸款方案案。(2)關(guān)聯(lián)聯(lián)分析關(guān)聯(lián)分析就就是從大大量的數(shù)數(shù)據(jù)中發(fā)發(fā)現(xiàn)項(xiàng)集集之間有有趣的關(guān)關(guān)聯(lián)或因因果結(jié)構(gòu)構(gòu)。關(guān)聯(lián)分析展展示了屬屬性與值值頻繁的的在給定定的數(shù)據(jù)據(jù)集中的的一起出出現(xiàn)的條條件。一一般如下下形式: 如如XY,

29、即“|A11AnnB1.Bn”的規(guī)則則。其中中,Aii (ii1,.mm),Bjj (jj1,.nn)是是屬性值對(duì)。關(guān)關(guān)聯(lián)規(guī)則則XY即表示示:“滿(mǎn)足X中條件件的數(shù)據(jù)據(jù)庫(kù)元組組多半也也滿(mǎn)足YY中的條條件”。 簡(jiǎn)簡(jiǎn)而言之之,就是是分析兩兩個(gè)事物物之間的的一些特特性,通通過(guò)一個(gè)個(gè)事物去去預(yù)測(cè)另另外一個(gè)個(gè)事物,這這就是關(guān)關(guān)聯(lián)分析析。(3)概念念/類(lèi)描描述概念描述(concept description)就是通過(guò)對(duì)與某類(lèi)對(duì)象關(guān)聯(lián)數(shù)據(jù)的匯總、分析和比較,對(duì)此類(lèi)對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類(lèi)對(duì)象的有關(guān)特征。這種描述是是匯總的的、簡(jiǎn)潔潔的和精精確的知知識(shí)。 (4)聚類(lèi)類(lèi)分析聚類(lèi)分析就就是將物物理或抽抽象對(duì)象象

30、的集合合分組成成由類(lèi)似似的對(duì)象象組成的的多個(gè)類(lèi)類(lèi)的過(guò)程程。聚類(lèi)是把整整個(gè)數(shù)據(jù)據(jù)庫(kù)分成成不同的的群組。它它的目的的是使群群與群之之間差別別很明顯顯,而同同一個(gè)群群之間的的數(shù)據(jù)盡盡量相似似。這種種方法通通常用于于客戶(hù)細(xì)細(xì)分。在在開(kāi)始細(xì)細(xì)分之前前不知道道要把用用戶(hù)分成成幾類(lèi),因因此通過(guò)過(guò)聚類(lèi)分分析可以以找出客客戶(hù)特性性相似的的群體,如如客戶(hù)消消費(fèi)特性性相似或或年齡特特性相似似等。在在此基礎(chǔ)礎(chǔ)上可以以制定一一些針對(duì)對(duì)不同客客戶(hù)群體體的營(yíng)銷(xiāo)銷(xiāo)方案。對(duì)象根據(jù)最最大化類(lèi)類(lèi)內(nèi)部的的相似性性、最小小化類(lèi)之之間的相相似性的的原則進(jìn)進(jìn)行聚類(lèi)類(lèi)或分組組。也就就是說(shuō),對(duì)對(duì)象的簇簇(cllustter)這這樣形成成,使得

31、得相比之之下在一一個(gè)簇中中的對(duì)象象具有很很高的相相似性,而而與其他他簇中的的對(duì)象很很不相似似。所形形成的每每個(gè)簇可可以看作作一個(gè)對(duì)對(duì)象類(lèi),由由它可以以導(dǎo)出規(guī)規(guī)則。聚聚類(lèi)也便便于分類(lèi)類(lèi)法組織織形式(taxonomy formation),將觀測(cè)組織成類(lèi)分層結(jié)構(gòu),把類(lèi)似的事件組織在一起。通過(guò)聚類(lèi),人人們能夠夠認(rèn)識(shí)到到密集和和稀疏的的區(qū)域,因因而發(fā)現(xiàn)現(xiàn)全局的的分類(lèi)模模式,以以及數(shù)據(jù)據(jù)屬性之之前的相相互關(guān)系系。(5)離群群點(diǎn)分析析數(shù)據(jù)庫(kù)中可可能包含含一些數(shù)數(shù)據(jù)對(duì)象象,它們們與數(shù)據(jù)據(jù)的一般般行為或或模型不不一致。這這些數(shù)據(jù)據(jù)對(duì)象是是離群點(diǎn)點(diǎn)(ouutliier)。大大部分?jǐn)?shù)數(shù)據(jù)挖掘掘方法將將離群點(diǎn)點(diǎn)視為

32、噪噪聲或異異常而丟丟棄。然然而,在在一些應(yīng)應(yīng)用中(如如欺騙檢檢測(cè)),罕罕見(jiàn)的事事件可能能比正常常出現(xiàn)的的事件更更令人感感興趣。離離群點(diǎn)數(shù)數(shù)據(jù)分析析稱(chēng)作離離群點(diǎn)挖挖掘(ooutllierr miininng)??梢约俣ㄒ灰粋€(gè)數(shù)據(jù)據(jù)分布或或概率模模型,使使用統(tǒng)計(jì)計(jì)檢驗(yàn)檢檢測(cè)離群群點(diǎn);或或者使用用距離度度量,將將遠(yuǎn)離任任何簇的的對(duì)象視視為離群群點(diǎn)?;谄畈畹姆椒ǚㄍㄟ^(guò)考考察一群群對(duì)象主主要特征征上的差差別來(lái)識(shí)識(shí)別離群群點(diǎn),而而不是使使用統(tǒng)計(jì)計(jì)或距離離度量。(6) 演演變分析析數(shù)據(jù)演變分分析(eevollutiion anaalyssis)描描述行為為隨時(shí)間間變化的的對(duì)象的的規(guī)律或或趨勢(shì),并并對(duì)其

33、建建模。盡盡管這可可能包括括時(shí)間相相關(guān)數(shù)據(jù)據(jù)的特征征化、區(qū)區(qū)分、關(guān)關(guān)聯(lián)和相相關(guān)分析析、分類(lèi)類(lèi)、預(yù)測(cè)測(cè)或聚類(lèi)類(lèi),這類(lèi)類(lèi)分析的的不同特特點(diǎn)包括括時(shí)間序序列數(shù)據(jù)據(jù)分析、序序列或周周期模式式匹配和和基于相相似性的的數(shù)據(jù)分分析。2.5數(shù)據(jù)據(jù)挖掘應(yīng)應(yīng)用的成成功案例例(1)、中中國(guó)寶鋼鋼集團(tuán)(直直接數(shù)據(jù)據(jù)挖掘,分分類(lèi)分析析方法) 寶鋼自19985年年投產(chǎn)至至今,積積累了大大量的生生產(chǎn)數(shù)據(jù)據(jù),從每每一爐鋼鋼到每一一塊板坯坯到每一一個(gè)鋼圈圈,各級(jí)級(jí)計(jì)算機(jī)機(jī)系統(tǒng)可可以把這這些數(shù)據(jù)據(jù)完整地地收集起起來(lái)。采采用數(shù)據(jù)據(jù)挖掘技技術(shù)對(duì)鋼鋼材生產(chǎn)產(chǎn)的全流流程進(jìn)行行質(zhì)量監(jiān)監(jiān)控和分分析(通通過(guò)全流流程實(shí)時(shí)時(shí)監(jiān)控獲獲得了豐豐富的生

34、生產(chǎn)數(shù)據(jù)據(jù)),構(gòu)構(gòu)建故障障地圖,實(shí)實(shí)時(shí)分析析產(chǎn)品出出現(xiàn)瑕疵疵的原因因,有效效提高了了產(chǎn)品的的優(yōu)良率率。 寶鋼采用了了兩個(gè)數(shù)數(shù)據(jù)挖掘掘工具,一一個(gè)是自自行研發(fā)發(fā)的基于于SASS的prractticaal MMineer,另另一個(gè)是是美國(guó)SSAS公公司的EEnteerprrisee Miinerr。在冷冷軋和熱熱軋的產(chǎn)產(chǎn)品質(zhì)量量控制中中,僅220011年就取取得超過(guò)過(guò)30000萬(wàn)元元的經(jīng)濟(jì)濟(jì)效益。在在配礦優(yōu)優(yōu)化項(xiàng)目目中,通通過(guò)確定定不同鐵鐵礦石的的合理比比例,每每年可為為寶鋼降降低成本本60000萬(wàn)元元。另外外,通過(guò)過(guò)分析軋軋制計(jì)劃劃,分析析和優(yōu)化化庫(kù)存結(jié)結(jié)構(gòu),降降低庫(kù)存存成本和和平衡物物流成本本

35、Creedillogrros Ca FFinaanciieraa S.A. 是阿根根廷第五五大信貸貸公司,資資產(chǎn)估計(jì)計(jì)價(jià)值為為95770萬(wàn)美美元,對(duì)對(duì)于Crrediiloggross而言,重重要的是是識(shí)別與與潛在預(yù)預(yù)先付款款客戶(hù)相相關(guān)的潛潛在風(fēng)險(xiǎn)險(xiǎn),以便便將承擔(dān)擔(dān)的風(fēng)險(xiǎn)險(xiǎn)最小化化。(2)、沃沃爾瑪超超市里的的尿布與與啤酒(間間接數(shù)據(jù)據(jù)挖掘,關(guān)關(guān)聯(lián)規(guī)則則)大家都應(yīng)該該了解這這個(gè)事件件,數(shù)據(jù)據(jù)挖掘中中的經(jīng)典典成功案案例。在一家超市市里,有有一個(gè)有有趣的現(xiàn)現(xiàn)象:尿尿布和啤啤酒赫然然擺在一一起出售售。但是是這個(gè)奇奇怪的舉舉措?yún)s使使尿布和和啤酒的的銷(xiāo)量雙雙雙增加加了。沃沃爾瑪擁?yè)碛惺澜缃缟献畲蟠蟮臄?shù)據(jù)據(jù)

36、倉(cāng)庫(kù)系系統(tǒng),為為了能夠夠準(zhǔn)確了了解顧客客在其門(mén)門(mén)店的購(gòu)購(gòu)買(mǎi)習(xí)慣慣,沃爾爾瑪對(duì)其其顧客的的購(gòu)物行行為進(jìn)行行購(gòu)物籃籃分析,想想知道顧顧客經(jīng)常常一起購(gòu)購(gòu)買(mǎi)的商商品有哪哪些。沃沃爾瑪數(shù)數(shù)據(jù)倉(cāng)庫(kù)庫(kù)里集中中了其各各門(mén)店的的詳細(xì)原原始交易易數(shù)據(jù)。在在這些原原始交易易數(shù)據(jù)的的基礎(chǔ)上上,沃爾爾瑪利用用數(shù)據(jù)挖挖掘方法法對(duì)這些些數(shù)據(jù)進(jìn)進(jìn)行分析析和挖掘掘。一個(gè)個(gè)意外的的發(fā)現(xiàn)是是:跟跟尿布一一起購(gòu)買(mǎi)買(mǎi)最多的的商品竟竟是啤酒酒!經(jīng)過(guò)過(guò)大量實(shí)實(shí)際調(diào)查查和分析析,揭示示了一個(gè)個(gè)隱藏在在尿布布與啤酒酒背后后的美國(guó)國(guó)人的一一種行為為模式:在美國(guó)國(guó),一些些年輕的的父親下下班后經(jīng)經(jīng)常要到到超市去去買(mǎi)嬰兒兒尿布,而而他們中中有300%

37、440%的的人同時(shí)時(shí)也為自自己買(mǎi)一一些啤酒酒。產(chǎn)生生這一現(xiàn)現(xiàn)象的原原因是:美國(guó)的的太太們們常叮囑囑她們的的丈夫下下班后為為小孩買(mǎi)買(mǎi)尿布,而而丈夫們們?cè)谫I(mǎi)尿尿布后又又隨手帶帶回了他他們喜歡歡的啤酒酒。(3)、股股票預(yù)測(cè)測(cè)股票市場(chǎng)是是一個(gè)具具有大量量相互作作用因素素的復(fù)雜雜系統(tǒng),它它受政治治形勢(shì)、金金融政策策、公司司狀況和和重大消消息等多多方面因因素的影影響。股股票價(jià)格格一般要要受一國(guó)國(guó)貨幣、財(cái)財(cái)政政策策、物價(jià)價(jià)、利率率、匯率率、上市市公司重重大事項(xiàng)項(xiàng)、國(guó)際際經(jīng)濟(jì)環(huán)環(huán)境、投投資者心心理等信信息的作作用,其其內(nèi)部規(guī)規(guī)律非常常復(fù)雜,變變化周期期無(wú)序,更更使行情情的走勢(shì)勢(shì)變化莫莫測(cè)。 利用決策策樹(shù)分類(lèi)類(lèi)

38、算法中中的IDD3算法法并適當(dāng)當(dāng)調(diào)整以以對(duì)股票票交易數(shù)數(shù)據(jù)樣本本集進(jìn)行行測(cè)試分分析,由由此生成成決策樹(shù)樹(shù)作為分分類(lèi)器并并對(duì)其結(jié)結(jié)果進(jìn)行行了檢驗(yàn)驗(yàn),最后后根據(jù)決決策樹(shù)分分類(lèi)規(guī)則則開(kāi)發(fā)出出一淘股股票分析析預(yù)測(cè)系系統(tǒng)。更早之前,通通過(guò)相關(guān)關(guān)分析,可可以找出出一支股股票與另另一支股股票走勢(shì)勢(shì)的潛在在規(guī)律,比比如數(shù)據(jù)據(jù)挖掘曾曾經(jīng)得到到過(guò)這個(gè)個(gè)結(jié)論“如果微微軟的股股票下跌跌4%,那那么IBBM的股股票將在在兩周內(nèi)內(nèi)下跌55%”2.7本章章小結(jié)本章在介紹紹數(shù)據(jù)挖挖掘基本本概念的的基礎(chǔ)上上,簡(jiǎn)要要的概括括了數(shù)據(jù)據(jù)挖掘的的過(guò)程、數(shù)數(shù)據(jù)挖掘掘的方法法、數(shù)據(jù)據(jù)挖掘的的功能,并并簡(jiǎn)要介介紹了幾幾個(gè)數(shù)據(jù)據(jù)挖掘應(yīng)應(yīng)用的成

39、成功案例例。這些些基本理理論知識(shí)識(shí)為數(shù)據(jù)據(jù)挖掘的的實(shí)踐應(yīng)應(yīng)用研究究奠定了了理論基基礎(chǔ)。3 決策樹(shù)樹(shù)技術(shù)3.1決策策樹(shù)簡(jiǎn)介介隨著社會(huì)的的發(fā)展,數(shù)數(shù)據(jù)挖掘掘顯的尤尤為的重重要。在在數(shù)據(jù)挖挖掘中決決策樹(shù)算算法是目目前數(shù)據(jù)據(jù)挖掘領(lǐng)領(lǐng)域中應(yīng)應(yīng)用的最最廣泛、最最流行的的推理算算法之一一。決策策樹(shù)分類(lèi)類(lèi)算法是是將數(shù)據(jù)據(jù)分類(lèi)、預(yù)預(yù)測(cè)和規(guī)規(guī)格的提提取。隨隨著IDD3算法法和C44.5算算法的提提出,決決策樹(shù)技技術(shù)在數(shù)數(shù)據(jù)挖掘掘領(lǐng)域得得到了進(jìn)進(jìn)一步的的拓展,并并且在人人們生產(chǎn)產(chǎn)生活中中得到了了廣泛應(yīng)應(yīng)用。決策樹(shù)是一一種根據(jù)據(jù)自變量量的值進(jìn)進(jìn)行遞歸歸劃分以以及預(yù)測(cè)測(cè)因變量量的方法法。決策策樹(shù)的主主要作用用是揭示示數(shù)

40、據(jù)中中的結(jié)構(gòu)構(gòu)化信息息。它提提供一種種在什么么條件下下會(huì)得到到什么值值的類(lèi)似似規(guī)則的的方法。若因變量為分類(lèi)變量,我們稱(chēng)相應(yīng)的決策樹(shù)為分類(lèi)樹(shù);若因變量為連續(xù)變量,我們稱(chēng)相應(yīng)的決策樹(shù)為回歸樹(shù)。分類(lèi)樹(shù)對(duì)離散變量做決策樹(shù),回歸樹(shù)對(duì)連續(xù)變量做決策樹(shù)。一般的數(shù)據(jù)挖掘工具,允許選擇分裂條件和修剪規(guī)則,以及控制參數(shù)(最小結(jié)點(diǎn)的大小,最大樹(shù)的深度等等),來(lái)限制決策樹(shù)的。決策樹(shù)作為一棵樹(shù),樹(shù)的根節(jié)點(diǎn)是整個(gè)數(shù)據(jù)集合空間,每個(gè)分節(jié)點(diǎn)是對(duì)一個(gè)單一變量的測(cè)試,該測(cè)試將數(shù)據(jù)集合空間分割成兩個(gè)或更多塊。每個(gè)葉節(jié)點(diǎn)是屬于一類(lèi)別的記錄。圖3.1為以典型的決策樹(shù)。圖3.1 決策樹(shù)樹(shù)3.2決策策樹(shù)的主主要算法法近年來(lái),決決策樹(shù)方方法

41、在很很多機(jī)器器學(xué)習(xí)、知知識(shí)的探探究等過(guò)過(guò)程中得得到了廣廣泛的應(yīng)應(yīng)用。迄迄今為止止,國(guó)內(nèi)內(nèi)外研究究人員先先后提出出了十幾幾種決策策樹(shù)的分分類(lèi)方法法,因此此決策樹(shù)樹(shù)的算法法還是挺挺多的,本本文介紹紹了兩種種比較經(jīng)經(jīng)典的決決策樹(shù)算算法,分分別是IID3算算法和CC4.55算法。3.2.11 IDD3算法法ID3(iinduuctiion deccisiion-treee)算算法,它它是一種種用來(lái)由由數(shù)據(jù)構(gòu)構(gòu)造決策策樹(shù)的遞遞歸過(guò)程程,是在在19886年由由Quiinlaan首先先提出的的,該算算法以信信息論為為基礎(chǔ),信信息論是是數(shù)學(xué)中中的概率率論和數(shù)數(shù)理統(tǒng)計(jì)計(jì)的一個(gè)個(gè)分支,用用于處理理信息和和信息熵熵

42、、通信信系統(tǒng)、數(shù)數(shù)據(jù)傳輸輸和率失失真理論論、密碼碼學(xué)、信信噪比、數(shù)數(shù)據(jù)壓縮縮和相關(guān)關(guān)課題。以以信息熵熵和信息息增益度度為衡量量標(biāo)準(zhǔn),從從而實(shí)現(xiàn)現(xiàn)數(shù)據(jù)的的歸納分分類(lèi),它它是一個(gè)個(gè)從上到到下、分分而治之之 的歸納納過(guò)程。ID3算法法的大概概過(guò)程是是:我們們?cè)囂叫孕缘倪x擇擇一個(gè)屬屬性放置置在根節(jié)節(jié)點(diǎn),并并對(duì)該屬屬性的每每個(gè)值產(chǎn)產(chǎn)生一個(gè)個(gè)分支。這這樣,分分裂根節(jié)節(jié)點(diǎn)上的的數(shù)據(jù)集集,并一一道子女女節(jié)點(diǎn),產(chǎn)產(chǎn)生一個(gè)個(gè)局部的的樹(shù)。在在決策樹(shù)樹(shù)各級(jí)結(jié)結(jié)點(diǎn)上選選擇屬性性時(shí),通通過(guò)計(jì)算算信息增增益來(lái)選選擇屬性性,以使使得在每每一個(gè)非非葉結(jié)點(diǎn)點(diǎn)進(jìn)行測(cè)測(cè)試時(shí),能能獲得關(guān)關(guān)于被測(cè)測(cè)試記錄錄的最大大的類(lèi)別別信息。其其具體

43、方方法是:我們需需要檢測(cè)測(cè)所有的的屬性,在在它們中中間選擇擇信息增增益最大大的屬性性作為決決策樹(shù)結(jié)結(jié)點(diǎn),由由該屬性性的不同同取值建建立分支支,再對(duì)對(duì)各分支支的子集集遞歸調(diào)調(diào)用該方方法建立立決策樹(shù)樹(shù)結(jié)點(diǎn)的的分支,直直到所有有的子集集僅包含含同一類(lèi)類(lèi)別的數(shù)數(shù)據(jù)為止止。最后后得到的的一棵決決策樹(shù),它它可以用用來(lái)對(duì)新新的樣本本進(jìn)行分分類(lèi)。要想了解IID3算算法,我我們要了了解IDD3算法法中的一一些基本本概念:(1)熵熵是一個(gè)物物理名詞詞,源于于熱力學(xué)學(xué)的概念念,數(shù)值值為溫度度除熱量量所得的的值。119488年Shhannnon提提出并發(fā)發(fā)展了信信息論并并引入了了信息熵熵。一個(gè)訓(xùn)練集集合S根根據(jù)類(lèi)別別

44、屬性的的值被分分成m個(gè)個(gè)互相獨(dú)獨(dú)立的類(lèi)類(lèi)C1、C2、.、Cnn,則識(shí)識(shí)別D的的一個(gè)元元組所屬屬哪個(gè)類(lèi)類(lèi)所需的的信息量量為Innfo(SS)。設(shè)設(shè)Ci,dd 是SS中Cii類(lèi)的元元組的集集合, Cn的概率率分布,PP=PP1,Pn,任任意元組組屬于分分類(lèi)Ci的概率率為Pii,則由由該分布布傳遞的的信息量量稱(chēng)為SS的熵,記記為:Info(S)= Pilogg2(Pi)Peq oac(,)logg2 PPeq oac(,)-Peq oac(,)logg2 PPeq oac(,)上述公式中中,p+代表正正樣例,而而p-則則代表反反樣例。(2)信息息增益度度信息增益度度是兩個(gè)個(gè)信息量量之間的的差值,已經(jīng)

45、有了熵作為衡量訓(xùn)練樣例集合純度的標(biāo)準(zhǔn),現(xiàn)在可以定義屬性分類(lèi)訓(xùn)練數(shù)據(jù)的效力的度量標(biāo)準(zhǔn)。這個(gè)標(biāo)準(zhǔn)被稱(chēng)為“信息增益(informationgain)”。簡(jiǎn)單的說(shuō),一個(gè)屬性的信息增益就是由于使用這個(gè)屬性分割樣例而導(dǎo)致的期望熵降低(或者說(shuō),樣本按照某屬性劃分時(shí)造成熵減少的期望)。更精確地講,一個(gè)屬性A相對(duì)樣例集合S的信息增益Gain(S,A)被定義為:G(S,AA)=IInfoo(D)-Inffo(AA)最后根據(jù)信信息增益益最大的的原則選選擇根節(jié)節(jié)點(diǎn)來(lái)構(gòu)構(gòu)成決策策樹(shù)。3.2.22 C44.5算算法C4.5是是機(jī)器學(xué)學(xué)習(xí)算法法中的另另一個(gè)分分類(lèi)決策策樹(shù)算法法,它是是基于IID3算算法進(jìn)行行改進(jìn)后后的一種種

46、重要算算法,相相比于IID3算算法,改改進(jìn)有如如下幾個(gè)個(gè)要點(diǎn):1、用信息息增益率率來(lái)選擇擇屬性。IID3選選擇屬性性用的是是子樹(shù)的的信息增增益,這這里以用用很多方方法來(lái)定定義信息息,IDD3使用用的是熵熵(enntroopy, 熵是一一種不純純度度量量準(zhǔn)則),也也就是熵熵的變化化值,而而C4.5用的的是信息息增益率率。2、在決策策樹(shù)構(gòu)造造過(guò)程中中進(jìn)行剪剪枝,因因?yàn)槟承┬┚哂泻芎苌僭厮氐慕Y(jié)點(diǎn)點(diǎn)可能會(huì)會(huì)使構(gòu)造造的決策策樹(shù)過(guò)適適應(yīng)(OOverrfitttinng),如如果不考考慮這些些結(jié)點(diǎn)可可能會(huì)更更好。3、對(duì)非離離散數(shù)據(jù)據(jù)也能處處理。4、能夠?qū)?duì)不完整整數(shù)據(jù)進(jìn)進(jìn)行處理理由于ID33算法在在實(shí)際應(yīng)

47、應(yīng)用中的的一些局局限,QQuinnlann再次改改進(jìn)了IID3算算法。CC4.55算法是是ID33算法的的改進(jìn)版版本,CC4.55算法可可以處理理多種數(shù)數(shù)據(jù)類(lèi)型型。此外外,C44.5的的效率相相比于IID3算算法也有有了很多多的提高高。通過(guò)對(duì)IDD3算法法的介紹紹我們已已經(jīng)了解解熵,和和信息增增益。在在C4.5算法法中我們們引入了了新的概概念信息息增益率率。 CC4.55算法的的具體步步驟如下下:(1)創(chuàng)建建節(jié)點(diǎn)NN;(2)如果果訓(xùn)練集集為空,在在返回節(jié)節(jié)點(diǎn)N標(biāo)記為為Faiilurre;(3)如果果訓(xùn)練集集中的所所有記錄錄都屬于于同一個(gè)個(gè)類(lèi)別,則則以該類(lèi)類(lèi)別標(biāo)記記節(jié)點(diǎn)NN;(4)如果果候選屬屬

48、性為空空,則返返回N作為葉葉節(jié)點(diǎn),標(biāo)標(biāo)記為訓(xùn)訓(xùn)練集中中最普通通的類(lèi);(5)foor eeachh 候選選屬性 atttribbutee_liist;(6)iff 候選選屬性是是連續(xù)的的theen;(7)對(duì)該該屬性進(jìn)進(jìn)行離散散化;(8)選擇擇候選屬屬性atttriibutte_llistt中具有有最高信信息增益益的屬性性D;(9)標(biāo)記記節(jié)點(diǎn)NN為屬性性D;(10)ffor eacch 屬屬性D的一致致值d;(11)由由結(jié)點(diǎn)NN長(zhǎng)出一一個(gè)條件件為D=d的分分支;(12)設(shè)設(shè)s是訓(xùn)練練集中DD=d的的訓(xùn)練樣樣本的集集合;(13)iif ss為空;(14)加加上一個(gè)個(gè)樹(shù)葉,標(biāo)標(biāo)記為訓(xùn)訓(xùn)練集中中最普通通

49、的類(lèi);(15)eelsee加上一一個(gè)有CC4.55(R - DD,CC,s)返回回的點(diǎn)。我們以一個(gè)個(gè)典型被被引用多多很多次次的數(shù)據(jù)據(jù)訓(xùn)練集集D為例例,來(lái)說(shuō)說(shuō)明C44.5算算法如何何計(jì)算信信息節(jié)點(diǎn)點(diǎn)并切選選擇決策策樹(shù)結(jié)點(diǎn)點(diǎn)。如圖圖3.22:天氣溫度濕度風(fēng)速活動(dòng)晴炎熱高弱取消晴炎熱高強(qiáng)取消陰炎熱高弱進(jìn)行雨適中高弱進(jìn)行雨寒冷正常弱進(jìn)行雨寒冷正常強(qiáng)取消陰寒冷正常強(qiáng)進(jìn)行晴適中高弱取消晴寒冷正常弱進(jìn)行雨適中正常弱進(jìn)行晴適中正常強(qiáng)進(jìn)行陰適中高強(qiáng)進(jìn)行陰炎熱正常弱進(jìn)行雨適中高強(qiáng)取消圖3.2根據(jù)圖3.2我們們可以看看出上面面的訓(xùn)練練集有44個(gè)屬性性:天天氣,溫溫度,濕濕度,風(fēng)風(fēng)速,而而類(lèi)標(biāo)簽簽有2個(gè)個(gè),即類(lèi)類(lèi)標(biāo)簽

50、集集合C=Yees, No,分別別表示適適合戶(hù)外外運(yùn)動(dòng)和和不適合合戶(hù)外運(yùn)運(yùn)動(dòng)。根據(jù)前面的的介紹,我我們來(lái)計(jì)計(jì)算信息息熵,信信息增益益,以及及信息增增益率。數(shù)據(jù)D中一一共用114個(gè)訓(xùn)訓(xùn)練樣本本,其中中9個(gè)為為正樣例例,5個(gè)個(gè)位反樣樣例。因因此它的的信息熵熵為:IInfoo(D)=-9/14*logg2(99/144)-55/144logg2(55/144)=00.9440下面計(jì)算屬屬性集合合中每個(gè)個(gè)屬性的的信息熵熵:1:Inffo(天天氣) = 55/144 * - 2/55 * logg2(22/5) 3/5 * loog2(3/55) + 44/144 * - 4/4 * loog2(4/4

51、4) - 0/4 * loog2(0/44) + 55/144 * - 3/5 * loog2(3/55) 2/5 * loog2(2/55) = 00.69942:Inffo(溫溫度) = 44/144 * - 2/44 * logg2(22/4) 2/4 * loog2(2/44) + 66/144 * - 4/6 * loog2(4/66) - 2/6 * loog2(2/66) + 44/144 * - 3/4 * loog2(3/44) 1/4 * loog2(1/44) = 00.91113:Inffo(濕濕度 = 7/14 * - 33/7 * llog22(3/7) 4/7 *

52、 loog2(4/77) + 77/144 * - 6/7 * loog2(6/77) - 1/7 * loog2(1/77) = 00.78894:Inffo(風(fēng)風(fēng)速) = 66/144 * - 3/66 * logg2(33/6) 3/6 * loog2(3/66) + 88/144 * - 6/8 * loog2(6/88) - 2/8 * loog2(2/88) = 00.8992根據(jù)上面的的數(shù)據(jù)我我們可以以計(jì)算出出信息增增益:1:Gaiin(天天氣) = IInfoo(D) - Inffo(天天氣) = 00.9440 - 0.6944 = 0.22462:Gaiin(溫溫度) =

53、IInfoo(D) - Inffo(溫溫度) = 00.9440 - 0.9111 = 0.00293:Gaiin(濕濕度) = IInfoo(D) - Inffo(濕濕度) = 00.9440 - 0.7899 = 0.11514:Gaiin(風(fēng)風(fēng)速) = IInfoo(D) - Inffo(風(fēng)風(fēng)速) = 00.9440 - 0.8922 = 0.0048接下來(lái),我我們計(jì)算算分裂信信息度量量H(VV):1、天氣屬屬性屬性天氣有有3個(gè)取取值,其其中晴有5個(gè)個(gè)樣本、雨有5個(gè)樣本、陰有4個(gè)樣本,則H(天氣) = - 55/144 * logg2(55/144) - 5/14 * llog22(5/

54、14) - 4/114 * loog2(4/114) =1.5777406628228522342、溫度屬屬性屬性溫度有有3個(gè)取取值,其其中熱有4個(gè)個(gè)樣本、適中有6個(gè)樣本、寒冷有4個(gè)樣本,則H(溫度) = - 44/144 * logg2(44/144) - 6/14 * llog22(6/14) - 4/114 * loog2(4/114) = 11.5556655670074662822283、濕度屬屬性屬性濕度有有2個(gè)取取值,其其中高有7個(gè)個(gè)樣本、正常有7個(gè)樣本,則H(HUMMIDIITY) = - 77/144 * logg2(77/144) - 7/14 * llog22(7/14)

55、 = 1.004、風(fēng)速屬屬性屬性風(fēng)速有有2個(gè)取取值,其其中強(qiáng)有6個(gè)個(gè)樣本、弱有8個(gè)樣本,則H(風(fēng)速) = - 66/144 * logg2(66/144) - 8/14 * llog22(8/14) = 0.9985222811360034225166根據(jù)上面計(jì)計(jì)算結(jié)果果,我們們可以計(jì)計(jì)算信息息增益率率,如下下所示:IGR(AA)=GGainn(A)/H(A)IGR(天天氣) = GGainn(天氣) / HH(天氣氣) = 0.2466/1.57774066282285223455 = 0.11559952221266127701445IGR(溫溫 度) = Gaiin(溫 度度) / H(

56、溫 度度) = 0.0299 / 1.5556665677074462882288 = 0.001866296669550966420094IGR(濕濕 度) = Gaiin(濕 度度) / H(濕 度度) = 0.1511/1.0 = 0.1511IGR(風(fēng)風(fēng)速) = GGainn(風(fēng)速) / HH(風(fēng)速速) = 0.0488/0.985522881366034425116 = 0.048871996800492269227844根據(jù)計(jì)算得得到的信信息增益益率進(jìn)行行選擇屬屬性集中中的屬性性作為決決策樹(shù)結(jié)結(jié)點(diǎn),對(duì)對(duì)該結(jié)點(diǎn)點(diǎn)進(jìn)行分分裂。3.3決策策樹(shù)剪枝枝決策樹(shù)主要要是基于于ID33算法實(shí)實(shí)現(xiàn)的

57、決決策樹(shù)生生成。IID3算算法的基基本思想想是貪心心算法,采采用自上上而下的的分而治治之的方方法構(gòu)造造決策樹(shù)樹(shù)。首先先檢測(cè)訓(xùn)訓(xùn)練數(shù)據(jù)據(jù)集的所所有特征征,選擇擇信息增增益最大大的特征征A建立立決策樹(shù)樹(shù)根節(jié)點(diǎn)點(diǎn),由該該特征的的不同取取值建立立分枝,對(duì)對(duì)各分枝枝的實(shí)例例子集遞遞歸,用用該方法法建立樹(shù)樹(shù)的節(jié)點(diǎn)點(diǎn)和分枝枝,直到到某一子子集中的的數(shù)據(jù)都都屬于同同一類(lèi)別別,或者者沒(méi)有特特征可以以在用于于對(duì)數(shù)據(jù)據(jù)進(jìn)行分分割。IID3算算法總是是選擇具具有最高高信息增增益(或或最大熵熵壓縮)的屬性性作為當(dāng)當(dāng)前結(jié)點(diǎn)點(diǎn)的測(cè)試試屬性。該該屬性使使得結(jié)果果劃分中中的樣本本分類(lèi)所所需的信信息量最最小,并并反映劃劃分的最最

58、小隨機(jī)機(jī)性或“不純性性”。這種種信息理理論方法法使得對(duì)對(duì)一個(gè)對(duì)對(duì)象分類(lèi)類(lèi)所需的的期望測(cè)測(cè)試數(shù)目目達(dá)到最最小,并并盡量確確保一棵棵簡(jiǎn)單的的(但不不必是最最簡(jiǎn)單的的)樹(shù)來(lái)來(lái)刻畫(huà)相相關(guān)的信信息。在ID3算算法中,計(jì)計(jì)算信息息增益時(shí)時(shí),由于于信息增增益存在在一個(gè)內(nèi)內(nèi)在偏置置,它偏偏袒具有有較多值值的屬性性,太多多的屬性性值把訓(xùn)訓(xùn)練樣例例分割成成非常小小的空間間。因此此,這個(gè)個(gè)屬性可可能會(huì)有有非常高高的信息息增益,而而且被選選作樹(shù)的的根結(jié)點(diǎn)點(diǎn)的決策策屬性,并并形成一一棵深度度只為一一級(jí)但卻卻非常寬寬的樹(shù),這這棵樹(shù)可可以理想想地分類(lèi)類(lèi)訓(xùn)練數(shù)數(shù)據(jù)。但但是這個(gè)個(gè)決策樹(shù)樹(shù)對(duì)于測(cè)測(cè)試數(shù)據(jù)據(jù)的分類(lèi)類(lèi)性能可可能會(huì)相相

59、當(dāng)差,因因?yàn)樗^(guò)過(guò)分地完完美地分分割了訓(xùn)訓(xùn)練數(shù)據(jù)據(jù),不是是一個(gè)好好的分類(lèi)類(lèi)器。在J.Miingeers關(guān)關(guān)于IDD3算法法的研究究中,通通過(guò)對(duì)五五種包含含噪音的的學(xué)習(xí)樣樣例的實(shí)實(shí)驗(yàn)發(fā)現(xiàn)現(xiàn),多數(shù)數(shù)情況下下過(guò)度擬擬合導(dǎo)致致決策樹(shù)樹(shù)的精度度降低了了10%一255%。過(guò)過(guò)度擬合合不僅影影響決策策樹(shù)對(duì)未未知實(shí)例例的分類(lèi)類(lèi)精度,而而且還會(huì)會(huì)導(dǎo)致決決策樹(shù)的的規(guī)模增增大。一一方面,葉葉子節(jié)點(diǎn)點(diǎn)隨分割割不斷增增多。在在極端的的情況下下,在一一棵完成成分割的的決策樹(shù)樹(shù)中,每每個(gè)葉子子節(jié)點(diǎn)中中只包含含一個(gè)實(shí)實(shí)例。此此時(shí)決策策樹(shù)在學(xué)學(xué)習(xí)樣例例上的分分類(lèi)精度度達(dá)到1100%,而其其葉子節(jié)節(jié)點(diǎn)的數(shù)數(shù)目等于于學(xué)習(xí)樣樣例中實(shí)

60、實(shí)例的數(shù)數(shù)目。但但是顯然然這棵決決策樹(shù)對(duì)對(duì)任何未未見(jiàn)的實(shí)實(shí)例都是是毫無(wú)意意義的。另另一方面面,決策策樹(shù)不斷斷向下生生長(zhǎng),導(dǎo)導(dǎo)致樹(shù)的的深度增增加。因因?yàn)槊恳灰粭l自根根節(jié)點(diǎn)到到葉子節(jié)節(jié)點(diǎn)的路路徑都對(duì)對(duì)應(yīng)一條條規(guī)則,所所以樹(shù)的的深度越越大,其其對(duì)應(yīng)的的規(guī)則越越長(zhǎng)。作作為一種種蘊(yùn)含于于學(xué)習(xí)樣樣例中的的知識(shí),這這樣一組組過(guò)長(zhǎng)的的規(guī)則集集合是很很難被人人理解的的。過(guò)度度擬合現(xiàn)現(xiàn)象的存存在,無(wú)無(wú)論是對(duì)對(duì)決策樹(shù)樹(shù)的分類(lèi)類(lèi)精度,還還是對(duì)其其規(guī)模以以及可理理解性都都產(chǎn)生了了不利的的影響。因因此對(duì)與與決策樹(shù)樹(shù)的剪枝枝是非常常有必要要的。3.3.11決策樹(shù)樹(shù)剪枝的的方法一般情況下下可以使使用如下下兩類(lèi)方方法來(lái)減減小決

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論