基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究計(jì)算機(jī)科學(xué)和技術(shù)專業(yè)_第1頁(yè)
基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究計(jì)算機(jī)科學(xué)和技術(shù)專業(yè)_第2頁(yè)
基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究計(jì)算機(jī)科學(xué)和技術(shù)專業(yè)_第3頁(yè)
基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究計(jì)算機(jī)科學(xué)和技術(shù)專業(yè)_第4頁(yè)
基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究計(jì)算機(jī)科學(xué)和技術(shù)專業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

陸軍裝甲兵學(xué)院本科畢業(yè)論文基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究摘要現(xiàn)如今,全球諸多領(lǐng)域均致力于實(shí)現(xiàn)信息化,數(shù)據(jù)體量不斷增加,與之伴隨而來(lái)的是傳統(tǒng)數(shù)據(jù)處理方式的衰退,海量的數(shù)據(jù)不能再以以往的方式進(jìn)行存儲(chǔ)和管理,在此背景下,學(xué)者們紛紛研究出更為優(yōu)良的大數(shù)據(jù)處理技術(shù)。在目前成熟的大數(shù)據(jù)平臺(tái)下,針對(duì)各種類型的數(shù)據(jù)進(jìn)行深入挖掘,已經(jīng)成為當(dāng)前大數(shù)據(jù)領(lǐng)域的主流研究課題。正是由于大數(shù)據(jù)表現(xiàn)出海量的規(guī)模,并且含有可伸縮的基本特性,才可為后期的數(shù)據(jù)挖掘提供極其有力的先決條件。因此,本文選擇基于海量數(shù)據(jù)對(duì)裝備維修保障決策分析算法進(jìn)行研究。本文對(duì)于裝備維修保障決策分析數(shù)據(jù)挖掘算法進(jìn)行了研究。首先,筆者針對(duì)此次設(shè)計(jì)的基本背景及其實(shí)際意義,進(jìn)行較為深入的細(xì)致闡述,并確定本課題在當(dāng)前時(shí)期的發(fā)展現(xiàn)狀;其次,筆者針對(duì)數(shù)據(jù)挖掘自始至終的發(fā)展進(jìn)程,進(jìn)行科學(xué)深入的依次闡述;之后在對(duì)數(shù)據(jù)挖掘中的算法進(jìn)行簡(jiǎn)要分析,最后,結(jié)合數(shù)據(jù)挖掘技術(shù)在裝備維修保障中的運(yùn)用進(jìn)行理性分析和研究。近年來(lái),我軍裝備的絕大部分基本上實(shí)現(xiàn)機(jī)械化,并且伴隨信息化以及裝備維修保障的進(jìn)步和創(chuàng)新,累積下了數(shù)據(jù)龐大的數(shù)據(jù)量。因此當(dāng)前如何利用好這些數(shù)據(jù),為后期的裝備維護(hù)提供極其有力的數(shù)據(jù)支撐,是一個(gè)很是有意義和影響深遠(yuǎn)的課題。在本篇論文中,著重于秉持?jǐn)?shù)據(jù)挖掘的基本準(zhǔn)則,并選擇恰當(dāng)適宜的基本方法,針對(duì)其在裝備維護(hù)方面所能達(dá)到的應(yīng)用效果,進(jìn)行科學(xué)合理的綜合探究。并介紹基于海量數(shù)據(jù)的裝備維修保障的數(shù)據(jù)挖掘的具體理論和方法,為具體的運(yùn)用提供一些參考價(jià)值,也具有一定的指導(dǎo)作用。關(guān)鍵詞:數(shù)據(jù)挖掘;大數(shù)據(jù);裝備維修;保障AbstractWiththeadventofthebigdataage,thescaleandstyleofdataaregettinglargerandlargerandmorecumbersome.Alargenumberofdatahavedifferentqualitiesanddifferentdatacapacities,resultingindifferentvaluedensities.Therefore,itisverydifficultforuserstoobtainvaluableinformationfromtheperiodtomeetindividualneeds.Inordertoreasonablysolveindividualneeds,weshouldanalyzedatamining,Thedefinitionofbigdataandthecharacteristicsofbigdata.Inrecentyears,themainbusinessofvariousunitsinChinahasbasicallybeenmodernized,andwiththedevelopmentandinnovationofinformationtechnologyandbusiness,ahugeamountaccumulated.Therefore,howtomakebetteruseofthesedatatoprovideeffectivedecision-makingsupportinvariousfieldsisafar-reachingissue.Thispaperintroducestheprocessofdataminingbasedonequipmentmaintenanceandthemethodofspecifictheory.Keywords:Datamining;Bigdata;Equipmentmaintenance;Support

第一章緒論1.1課題研究的背景和意義本課題來(lái)源于裝備維修保障決策分析這一科研項(xiàng)目,屬于應(yīng)用學(xué)科的分支。由于以云計(jì)算和物聯(lián)網(wǎng)為例的多樣化信息技術(shù),正逐步充斥于人們生活中的方方面面,故而大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨;我國(guó)軍事能力大幅提升,裝備越來(lái)越精良,但同時(shí)也產(chǎn)生了裝備維修保障困難的問(wèn)題。從本質(zhì)上來(lái)看,多樣化裝備所涉及的維修統(tǒng)計(jì)信息往往相對(duì)復(fù)雜,并且過(guò)于分散,難以實(shí)現(xiàn)信息共享,更遑論對(duì)其進(jìn)行充分的實(shí)際利用,也無(wú)法達(dá)到科學(xué)有效的統(tǒng)籌管理效果。故而,以多樣化數(shù)據(jù)為基礎(chǔ)而構(gòu)建出科學(xué)完善的裝備維修保障信息分析系統(tǒng)勢(shì)在必行,通過(guò)針對(duì)多元化裝備所涉及的維修信息,進(jìn)行較為深入的數(shù)據(jù)挖掘以及科學(xué)合理的統(tǒng)籌分析,將可據(jù)此圍繞一系列業(yè)務(wù)進(jìn)行更深層次的細(xì)致研究。例如:全壽命周期的費(fèi)用分析。不僅如此,還能據(jù)此針對(duì)裝備使用單位等,制定出合理健全的維修保障計(jì)劃,并可持續(xù)完善現(xiàn)有的資源配置。從大數(shù)據(jù)范疇來(lái)看,尤為關(guān)鍵的核心技術(shù)即為數(shù)據(jù)挖掘技術(shù),本課題著重利用數(shù)據(jù)挖掘技術(shù)解決困擾我軍已久的裝備維修保障困難的問(wèn)題,并提出建設(shè)性意見(jiàn)和可行性方案。本課題基于建設(shè)裝備維修保障系統(tǒng),借助尤為典型的數(shù)據(jù)挖掘方法,針對(duì)多樣化裝備所涉及的損壞數(shù)據(jù),進(jìn)行較為細(xì)致的深入研究,并通過(guò)樸素貝葉斯、關(guān)聯(lián)分類等算法對(duì)數(shù)據(jù)進(jìn)行分析,目的在于根據(jù)已有的數(shù)據(jù),找出其中的規(guī)律,以此來(lái)制定出科學(xué)完善的裝備維修保障方案。在本篇論文中,主要基于現(xiàn)有裝備所涉及損壞數(shù)據(jù)的各項(xiàng)基本特征,運(yùn)用如今已有的數(shù)據(jù)挖掘處理方法技術(shù),提出基于海量數(shù)據(jù)的裝備保障維修算法,并進(jìn)行實(shí)例驗(yàn)證??傮w來(lái)說(shuō),本文主要有以下幾點(diǎn)意義:(1)我軍所持有的裝備技術(shù),在近年來(lái)日益獲得相對(duì)穩(wěn)定的迅猛發(fā)展,信息化裝備逐步列裝,故而對(duì)于多樣化裝備所提出的一系列維修保障需求也與日俱增,在此背景下,如何高效地對(duì)裝備維修保障方案進(jìn)行決策分析,是我軍目前裝備保障的重點(diǎn)。在我軍裝備更新日益加快的今天,裝備損壞數(shù)據(jù)就變得越規(guī)模更加龐大、價(jià)值更高,如能運(yùn)用數(shù)據(jù)挖掘技術(shù)準(zhǔn)確高效的分析這些數(shù)據(jù),不僅能直觀的看出裝備損壞的總體情況,還能找出一些隱藏其中的規(guī)律,這對(duì)于裝備保障、宏觀統(tǒng)籌裝備是一個(gè)非常重要的手段。(2)實(shí)際上,全球各國(guó)彼此間圍繞數(shù)據(jù)挖掘技術(shù)而獲得的研究成果相距甚遠(yuǎn),這種差距不僅存在于理論方面,也存在于應(yīng)用方面。相較于西方發(fā)達(dá)國(guó)家現(xiàn)有的研究成果而言,中國(guó)在此方面所開(kāi)展的研究相對(duì)較遲,故而尚未研究出較為成熟的理論予以支撐。在當(dāng)前時(shí)期,中國(guó)主要針對(duì)海量數(shù)據(jù)進(jìn)行較為基礎(chǔ)的初級(jí)處理,其中尤為典型的即為模糊化處理。而在某些西方發(fā)達(dá)國(guó)家中,已經(jīng)在此方面研發(fā)相匹配的軟件。相比之下,中國(guó)在此方面尚未研發(fā)出優(yōu)良的軟件,究其根本,在于研發(fā)主力為國(guó)內(nèi)各大高校,研究經(jīng)費(fèi)均由國(guó)家撥款,故而不具備競(jìng)爭(zhēng)力,這極大制約中國(guó)在此方面的實(shí)際發(fā)展進(jìn)程。海量數(shù)據(jù)挖掘技術(shù)在我軍軍隊(duì)裝備管理中運(yùn)用較少,如本文提出的基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究有所成效,那對(duì)于數(shù)據(jù)挖掘技術(shù)的推廣和裝備數(shù)據(jù)的處理都可以起到積極的作用和效果。1.2課題研究的現(xiàn)狀1.2.1大數(shù)據(jù)的發(fā)展現(xiàn)狀現(xiàn)如今,全球?qū)W者針對(duì)大數(shù)據(jù)技術(shù)所開(kāi)展的各項(xiàng)研究,通常基于四大關(guān)鍵點(diǎn)著手,其中包含基礎(chǔ)理論以及應(yīng)用時(shí)間,與此同時(shí),還涵蓋關(guān)鍵技術(shù)以及相應(yīng)的數(shù)據(jù)安全。以基礎(chǔ)理論為例,其在現(xiàn)今依然存在一系列理論問(wèn)題亟待解決。例如:當(dāng)今學(xué)者并未針對(duì)大數(shù)據(jù)技術(shù)進(jìn)行統(tǒng)一的合理定義,并且尚未在結(jié)構(gòu)模型等方面設(shè)定規(guī)范化的判定標(biāo)準(zhǔn)。以關(guān)鍵技術(shù)為例,當(dāng)前學(xué)者尚未找到可統(tǒng)一轉(zhuǎn)換大數(shù)據(jù)基本格式的有效方法,并尚未針對(duì)以數(shù)據(jù)轉(zhuǎn)移為例的一系列問(wèn)題,進(jìn)行科學(xué)有效的解決。然而,大數(shù)據(jù)卻表現(xiàn)出尤為顯著的異構(gòu)性,這意味著若能有效提高大數(shù)據(jù)格式轉(zhuǎn)化過(guò)程中的實(shí)際效率,則將能大幅提升其所含有的應(yīng)用價(jià)值;值得一提的是,若想有效提高大數(shù)據(jù)的計(jì)算能力,則必須首先提升各項(xiàng)數(shù)據(jù)表現(xiàn)出的轉(zhuǎn)移速率,這須有待于操作者針對(duì)各類數(shù)據(jù)進(jìn)行科學(xué)有效的細(xì)致處理。在此過(guò)程中,數(shù)據(jù)重組以及針對(duì)不正確的數(shù)據(jù)進(jìn)行二次利用等基本方式,均可切實(shí)提升大數(shù)據(jù)所含的應(yīng)用價(jià)值。以應(yīng)用實(shí)踐為例,現(xiàn)如今,大數(shù)據(jù)在各個(gè)領(lǐng)域中的應(yīng)用,大多集中于數(shù)據(jù)管理及其相應(yīng)的數(shù)據(jù)集成等方面。此外,以數(shù)據(jù)安全為例,如何切實(shí)保障數(shù)據(jù)安全,維護(hù)用戶的個(gè)人隱私,已經(jīng)成為該領(lǐng)域亟待解決的根本問(wèn)題。這是由于,如果應(yīng)用大數(shù)據(jù)技術(shù),則將很容易暴露用戶隱私;不僅如此,因?yàn)榇髷?shù)據(jù)在精準(zhǔn)度方面存在一定的偏差,故而將會(huì)不可避免的出現(xiàn)一系列數(shù)據(jù)質(zhì)量問(wèn)題。1.2.2數(shù)據(jù)挖掘技術(shù)在軍隊(duì)中的應(yīng)用最新出現(xiàn)的科學(xué)技術(shù)往往都能在軍事中有所體現(xiàn),并為軍事技術(shù)的發(fā)展起到積極的推進(jìn)作用。毋庸置疑的是,西方發(fā)達(dá)國(guó)家在數(shù)據(jù)挖掘技術(shù)方面開(kāi)展的研究相對(duì)較早,并且技術(shù)也更加趨于成熟。美軍早在2010年就建成了完整的裝備數(shù)據(jù)庫(kù)和倉(cāng)庫(kù)業(yè)務(wù)管理自動(dòng)化系統(tǒng),能夠?qū)崿F(xiàn)裝備數(shù)據(jù)的電子化管理,每件裝備都有對(duì)應(yīng)的電子檔案。以美國(guó)為例的發(fā)達(dá)國(guó)家,已經(jīng)針對(duì)自身的裝備維修保障系統(tǒng)進(jìn)行長(zhǎng)達(dá)半個(gè)世紀(jì)的持續(xù)優(yōu)化,早期即已實(shí)現(xiàn)自動(dòng)化,并日益獲得相對(duì)穩(wěn)定的蓬勃發(fā)展。不僅如此,這些國(guó)家還將極為優(yōu)良的數(shù)據(jù)挖掘技術(shù),均融于自身的裝備維修過(guò)程,此外還應(yīng)用前沿的自動(dòng)檢測(cè)技術(shù),設(shè)定數(shù)字化的高端工具箱,成功構(gòu)建科學(xué)健全的遠(yuǎn)程維修支援系統(tǒng),這將對(duì)多樣化裝備所涉及的后期維護(hù)工作,提供極其有力的技術(shù)保障。相比之下,我軍在裝備管理上一直處于較低水平,其中主要的問(wèn)題在于裝備數(shù)據(jù)的不完整和不健全,沒(méi)有形成完整的裝備數(shù)據(jù)存儲(chǔ)體系,在我軍龐大的裝備量這一背景下。為了充分了解通用裝備現(xiàn)狀,2013年底,完成通用裝備的普查工作,成功構(gòu)建出大規(guī)模的裝備數(shù)據(jù)庫(kù)。在此背景下,應(yīng)當(dāng)怎樣針對(duì)海量數(shù)據(jù)進(jìn)行科學(xué)合理的綜合分析,并有效提高數(shù)據(jù)的實(shí)際利用率特別關(guān)鍵。在本篇論文中,旨在基于數(shù)據(jù)挖掘技術(shù)針對(duì)各種類型的數(shù)據(jù),進(jìn)行較為深入的細(xì)致分析并深入挖掘,以求找到更為良好的應(yīng)用保障法。1.2.3數(shù)據(jù)挖掘技術(shù)的發(fā)展趨勢(shì)在大數(shù)據(jù)時(shí)代的背景下,若能將現(xiàn)今備受青睞的數(shù)據(jù)挖掘技術(shù)引入現(xiàn)有的裝備維修保障系統(tǒng)中,必將可獲得良好成效。這不僅是時(shí)代發(fā)展的必由途徑,而且還可有效提升軍隊(duì)現(xiàn)有的裝備維護(hù)能力。大數(shù)據(jù)作為一個(gè)強(qiáng)大的數(shù)據(jù)庫(kù),其具有巨大的實(shí)用價(jià)值,對(duì)于裝備維修保障系統(tǒng)來(lái)說(shuō),其強(qiáng)大的信息資源供應(yīng)量已經(jīng)為軍隊(duì)信息化建設(shè)的重要支持力量,對(duì)于信息的獲取渠道也必將進(jìn)一步拓展。我軍裝備的發(fā)展正朝著多樣化、智能化、信息化的方向發(fā)展,主要表現(xiàn)在裝備種類多、數(shù)量多、高科技程度高等方面,這將會(huì)給維修保障帶來(lái)了不小的困難,大數(shù)據(jù)、云計(jì)算、人工智能技術(shù)將對(duì)裝備維修保障系統(tǒng)輔助決策提供強(qiáng)有力支持,結(jié)合數(shù)據(jù)挖掘技術(shù),將可針對(duì)多樣化裝備所涉及的一系列維修保障信息,進(jìn)行較為深入的細(xì)致處理,并由此獲得精準(zhǔn)有效的分析結(jié)果。1.3本文研究?jī)?nèi)容在本篇論文中,主要秉持我軍現(xiàn)有裝備涉及各項(xiàng)維護(hù)任務(wù)的基本特征,利用海量數(shù)據(jù)挖掘技術(shù),針對(duì)性提出可行性高的輔助決策。研究?jī)?nèi)容主要有以下幾點(diǎn);(1)深入掌握數(shù)據(jù)挖掘領(lǐng)域的基本知識(shí)。大數(shù)據(jù)作為新興產(chǎn)業(yè),在過(guò)去的一段時(shí)間內(nèi)展現(xiàn)了驚人的活力與生產(chǎn)力,數(shù)據(jù)挖掘技術(shù)知識(shí)繁多復(fù)雜,在研究本課題主要解決的問(wèn)題之前,必須首先對(duì)數(shù)據(jù)挖掘技術(shù)有所了解和掌握。值得一提的是,對(duì)于數(shù)據(jù)挖掘技術(shù)而言,尤為關(guān)鍵的元素即為算法,故而需要據(jù)此進(jìn)行更深層次的細(xì)致研究。(2)深入研究我軍現(xiàn)有裝備所涉及的各項(xiàng)維護(hù)數(shù)據(jù)本課題的算法主要應(yīng)用于裝備維修保障數(shù)據(jù)分析,所以我們首先需要研究我軍裝備維修保障現(xiàn)狀以及收集整理數(shù)據(jù),并進(jìn)行全面細(xì)致的分析。本文介紹了基于海量數(shù)據(jù)的裝備維修保障數(shù)據(jù)挖掘方法研究,并對(duì)其進(jìn)行檢測(cè)。(3)深入研究以多樣化數(shù)據(jù)為基礎(chǔ)而成功構(gòu)建的數(shù)據(jù)挖掘算法現(xiàn)如今,全球?qū)W者圍繞數(shù)據(jù)挖掘技術(shù)而研究的各項(xiàng)算法已經(jīng)逐步趨于成熟。在多種多類的算法中我們需要找出適用于本課題的算法,并對(duì)其進(jìn)行優(yōu)化處理。(4)數(shù)據(jù)處理和可視化處理大數(shù)據(jù)往往不會(huì)直觀的表現(xiàn)出其特點(diǎn)和規(guī)律,對(duì)于算法處理后的數(shù)據(jù),必須對(duì)其進(jìn)行科學(xué)深入的可視化處理,以幫助使用者更加清晰的看出其規(guī)律,更好地輔助決策。1.4本文章節(jié)組織本文在章節(jié)組織上主要分為:第一章,緒論。在此章節(jié)中,旨在針對(duì)本文的基本背景及其實(shí)際意義,進(jìn)行較為深入的細(xì)致闡述,以及通過(guò)對(duì)大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀和趨勢(shì)的介紹,簡(jiǎn)要介紹了本課題所研究的方向。第二章大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)具體介紹了大數(shù)據(jù)技術(shù)的數(shù)據(jù)挖掘技術(shù)這兩個(gè)基本內(nèi)容,通過(guò)對(duì)兩大基本內(nèi)容體系結(jié)構(gòu)和技術(shù)原理的分析,為下文的具體數(shù)據(jù)分析應(yīng)用打下理論基礎(chǔ)。第三章數(shù)據(jù)挖掘方法研究主要介紹了常用的數(shù)據(jù)挖掘方法以及算法第四章數(shù)據(jù)挖掘技術(shù)在裝備維修保障中的運(yùn)用介紹了全軍通用裝備維修保障數(shù)據(jù)的處理和計(jì)算,然后分析了全軍通用裝備維修保障數(shù)據(jù)的特點(diǎn),然后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和簡(jiǎn)化以方便用算法對(duì)數(shù)據(jù)進(jìn)行處理,設(shè)計(jì)出數(shù)據(jù)計(jì)算模型,并詳細(xì)介紹了全軍通用裝備維修保障數(shù)據(jù)的處理過(guò)程,最后,針對(duì)已經(jīng)獲得的處理結(jié)果進(jìn)行科學(xué)合理的可視化分析。第二章大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)2.1大數(shù)據(jù)技術(shù)2.1.1大數(shù)據(jù)技術(shù)簡(jiǎn)介大數(shù)據(jù)的基本定義最先起源于西方發(fā)達(dá)國(guó)家美國(guó)。大數(shù)據(jù)名稱來(lái)自未來(lái)學(xué)鉆研規(guī)模權(quán)勢(shì)巨子未來(lái)學(xué)家托夫勒的書《第三次海潮》。大數(shù)據(jù)的進(jìn)步蓬勃伊始于2009年,“大數(shù)據(jù)”這一名詞在全球范圍內(nèi)廣泛傳播。然而,大數(shù)據(jù)是成熟進(jìn)步經(jīng)歷中的一個(gè)自我進(jìn)步經(jīng)歷和概念。當(dāng)前的崛起和進(jìn)步,是由于其規(guī)模的巨大變換和數(shù)據(jù)積累。在當(dāng)今世界,大數(shù)據(jù)存在于各行各業(yè),衣食住行,充斥于人們生活中的方方面面,并且還將在未來(lái)一段時(shí)期,為人類社會(huì)帶來(lái)極其深遠(yuǎn)的影響。2.1.2大數(shù)據(jù)技術(shù)的特點(diǎn)大數(shù)據(jù)具備以下4個(gè)特點(diǎn):首先,其含有海量數(shù)據(jù)。以印刷材料為例,其至今為止的生產(chǎn)數(shù)據(jù)量累計(jì)高達(dá)200PB。然而,普通的硬盤容量已經(jīng)達(dá)到TB量級(jí),甚至于某些企業(yè)級(jí)數(shù)據(jù)量將達(dá)到EB量級(jí)。中國(guó)具有世界上非常多的網(wǎng)絡(luò)名,每時(shí)每刻產(chǎn)生的數(shù)據(jù)量極大。比如眾所周知的淘寶網(wǎng)站每日產(chǎn)生的數(shù)據(jù)量大于5萬(wàn)CB而存儲(chǔ)量大于4000萬(wàn)GB。百度目前的總數(shù)據(jù)大于10億GB。每時(shí)每刻解決大于60億個(gè)數(shù)據(jù)請(qǐng)求和轉(zhuǎn)發(fā)。一臺(tái)8mbps的相機(jī)可以在兩小時(shí)內(nèi)產(chǎn)生8.0GB的數(shù)據(jù)請(qǐng)求。其次,數(shù)據(jù)的種類趨于多樣化。在當(dāng)前時(shí)期,數(shù)據(jù)并不單單以文本形式呈現(xiàn)出來(lái),而是以圖片以及視頻等各種類型的數(shù)據(jù)加以呈現(xiàn),愈加趨于個(gè)性化。其三,其表現(xiàn)出尤為迅猛的處理速度。甚至可在1s內(nèi),即在多樣化數(shù)據(jù)中獲得自身所需的各項(xiàng)信息。最后,表現(xiàn)出不太高的價(jià)值密度。例如:在1h的視頻中,由于持續(xù)測(cè)試,故而后期可獲得的高價(jià)值數(shù)據(jù),也許僅為1s左右。2.1.3大數(shù)據(jù)技術(shù)的未來(lái)大數(shù)據(jù)技術(shù)極富創(chuàng)新性,故而必將在未來(lái)得到快速地發(fā)展和廣泛的應(yīng)用,其原因有以下幾點(diǎn):首先,大數(shù)據(jù)本身可以產(chǎn)生更多的利潤(rùn)。簡(jiǎn)而言之就是付出和回報(bào)是呈現(xiàn)正比例。重點(diǎn)是數(shù)據(jù)本身,數(shù)據(jù)本身也將為信息社會(huì)提供整體能量。其次,科技規(guī)模在大數(shù)據(jù)的推進(jìn)下正在迅速進(jìn)步。這些進(jìn)步大都在推進(jìn)科學(xué)技能的進(jìn)步。大數(shù)據(jù)正在推進(jìn)科學(xué)技能的快速進(jìn)步,相輔相成構(gòu)成大數(shù)據(jù)特有的產(chǎn)業(yè)鏈。大數(shù)據(jù)經(jīng)過(guò)多年的進(jìn)步,初步構(gòu)成為了自己獨(dú)特的產(chǎn)業(yè)文化和產(chǎn)業(yè)鏈,包括數(shù)據(jù)的采組合、整理、傳輸?shù)?。在大?shù)據(jù)的進(jìn)步中,一些行業(yè)已經(jīng)構(gòu)成為了必然的規(guī)模。相信在未來(lái)伴隨的數(shù)據(jù)的持續(xù)長(zhǎng)足的進(jìn)步,和大數(shù)據(jù)有所聯(lián)系關(guān)系的產(chǎn)業(yè)也將迎來(lái)改變。第三,產(chǎn)業(yè)構(gòu)造的互聯(lián)網(wǎng)將促進(jìn)大數(shù)據(jù)的登陸。互聯(lián)網(wǎng)目前正在產(chǎn)生巨大變換,這是一個(gè)歷史性轉(zhuǎn)折點(diǎn)和過(guò)渡期。2.2數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘的基本含義為:在各種類型的數(shù)據(jù)中迅速挖掘自身所需的高價(jià)值信息,經(jīng)由科學(xué)合理的綜合分析,將可掌握多樣化數(shù)據(jù)彼此間的深入聯(lián)系。數(shù)據(jù)挖掘技術(shù)主要代表為實(shí)現(xiàn)一系列數(shù)據(jù)挖掘任務(wù),而必須采用的所有技術(shù)?,F(xiàn)如今,以金融為例的多樣化領(lǐng)域,已經(jīng)針對(duì)各項(xiàng)數(shù)據(jù)挖掘技術(shù)進(jìn)行較為廣泛的多方位應(yīng)用,并以此針對(duì)用戶更加傾向的購(gòu)物需求,進(jìn)行較為深入的細(xì)致分析。在此過(guò)程中,大部分企業(yè)均研究用戶的短期行為,亦或?yàn)獒槍?duì)某特定問(wèn)題展開(kāi)深入研究,暫時(shí)并不存在規(guī)范化的理論。但須注意的是,對(duì)于以往一直沿用的數(shù)據(jù)挖掘技術(shù)而言,若持續(xù)提高數(shù)據(jù)維度,則亟待挖掘的資源將迅速攀升。故而當(dāng)作用于超過(guò)PB級(jí)的大數(shù)據(jù)時(shí),應(yīng)該針對(duì)性研究出匹配的有效方法。2.2.1數(shù)據(jù)挖掘當(dāng)前時(shí)期,互聯(lián)網(wǎng)領(lǐng)域掀起一陣研發(fā)數(shù)據(jù)庫(kù)系統(tǒng)的浪潮,在此背景下,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。其實(shí)則為交叉性學(xué)科,涉及到諸多領(lǐng)域,其中包含機(jī)器學(xué)習(xí)、人工智能以及相應(yīng)的模式識(shí)別等各個(gè)領(lǐng)域,詳見(jiàn)下圖。數(shù)據(jù)挖掘的基本概念為:基于各種類型的海量數(shù)據(jù),挖掘其中所隱含的關(guān)鍵信息的行為。數(shù)據(jù)挖掘重點(diǎn)涵蓋數(shù)據(jù)融合以及相應(yīng)的決策支持等一系列基本內(nèi)容。值得一提的是,數(shù)據(jù)源的數(shù)量必須足夠,并應(yīng)富含一定的噪聲,還得是絕大多數(shù)用戶均感興趣的各項(xiàng)數(shù)據(jù)。而成功挖掘的數(shù)據(jù)需要含有良好的實(shí)用性,并便于理解。知識(shí)實(shí)則起源于數(shù)據(jù),則主要包含是概念、模式以及約束等各項(xiàng)內(nèi)容。原始數(shù)據(jù)將能設(shè)定為結(jié)構(gòu)化數(shù)據(jù),例如:存在于某特定關(guān)系型數(shù)據(jù)庫(kù)當(dāng)中的一系列數(shù)據(jù);與此同時(shí),還能設(shè)定為也非結(jié)構(gòu)化數(shù)據(jù),例如:文本以及圖像等各項(xiàng)數(shù)據(jù)。除此之外,還能設(shè)定為半結(jié)構(gòu)化數(shù)據(jù),例如:網(wǎng)頁(yè)。不僅如此,挖掘知識(shí)過(guò)程中所應(yīng)用的方法,將能選擇為數(shù)學(xué)方法,但同時(shí)也能選擇為非數(shù)學(xué)方法;此外還能選定為演繹亦或?yàn)闅w納的方法。而通過(guò)挖掘操作所獲得的知識(shí)需要含有一定的應(yīng)用價(jià)值,將能適用于查詢優(yōu)化以及過(guò)程控制等一系列環(huán)節(jié),還能維護(hù)多樣化數(shù)據(jù)。從本質(zhì)上而言,數(shù)據(jù)挖掘?qū)崉t屬于交叉學(xué)科,由于現(xiàn)今用戶提出的一系列需求與日俱增,故而全球?qū)W者紛紛將數(shù)據(jù)庫(kù)技術(shù)、數(shù)理統(tǒng)計(jì)以及并行計(jì)算等諸多領(lǐng)域涉及的專業(yè)知識(shí)融于其中,以求獲得相對(duì)良好的成效。在數(shù)據(jù)挖掘的過(guò)程中,需要首先成功采集自身所需的海量數(shù)據(jù),這些數(shù)據(jù)不僅需要數(shù)量足夠,而且應(yīng)該趨于多樣化,唯有如此,才可進(jìn)行科學(xué)精準(zhǔn)的判斷,并由此構(gòu)建相匹配的認(rèn)知模型。據(jù)此而形成的經(jīng)驗(yàn)若能經(jīng)過(guò)長(zhǎng)期的積累,則將可有助于操作者進(jìn)行科學(xué)的判斷。值得一提的是,認(rèn)知模型表現(xiàn)出尤為顯著的漸進(jìn)發(fā)展特征,一旦認(rèn)識(shí)充分,則將衍生出一系列猜想,據(jù)此將可針對(duì)現(xiàn)有模型進(jìn)行良好的擴(kuò)展,以實(shí)現(xiàn)深度挖掘。2.2.2數(shù)據(jù)挖掘分類通常情況下,數(shù)據(jù)挖掘?qū)⒛芗?xì)分為兩大類別,其中包含直接數(shù)據(jù)挖掘,與此同時(shí),還涵蓋間接數(shù)據(jù)挖掘。(1)直接數(shù)據(jù)挖掘前者主要借助當(dāng)前數(shù)據(jù)構(gòu)建科學(xué)完善的特定模型,并據(jù)此針對(duì)某特定變量進(jìn)行較為深入的細(xì)致描述以及預(yù)估等一系列操作。(2)間接數(shù)據(jù)挖掘后者主要基于全部變量構(gòu)建彼此間的深入關(guān)系模型,其中涉及到關(guān)聯(lián)規(guī)則、可視化等基本內(nèi)容。2.2.3數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)主要針對(duì)多樣化數(shù)據(jù)挖掘方法進(jìn)行科學(xué)融合。事實(shí)上,現(xiàn)有的數(shù)據(jù)挖掘方法種類繁多。如果基于挖掘任務(wù)進(jìn)行細(xì)分,則其將能細(xì)分為預(yù)測(cè)模型、分類回歸、序列模式、依賴模型以及相應(yīng)的離群點(diǎn)檢測(cè)等若干類別。如果基于挖掘?qū)ο筮M(jìn)行細(xì)分,則其將能細(xì)分為關(guān)系數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、異質(zhì)數(shù)據(jù)庫(kù)及其相應(yīng)的環(huán)球網(wǎng)Web等基本類別。與此同時(shí),如果基于挖掘方法進(jìn)行細(xì)分,則其將能細(xì)分為機(jī)器學(xué)習(xí)以及相應(yīng)的神經(jīng)網(wǎng)絡(luò)方法等。如果基于機(jī)器學(xué)習(xí)法進(jìn)行細(xì)分,則其將能細(xì)分為歸納學(xué)習(xí)及其相應(yīng)的遺傳算法等若干類別。除此之外,如果基于統(tǒng)計(jì)方法進(jìn)行細(xì)分,則其將能細(xì)分為回歸分析、判別分析、聚類分析以及相應(yīng)的探索性分析等一系列方法。以神經(jīng)網(wǎng)絡(luò)法為例,其還能細(xì)分為自組織神經(jīng)網(wǎng)絡(luò)法等。而數(shù)據(jù)庫(kù)方法則重點(diǎn)涵蓋OLAP法等。事實(shí)上,數(shù)據(jù)挖掘還融于多樣化領(lǐng)域所涉及的各項(xiàng)算法,其中重點(diǎn)涵蓋:(1)統(tǒng)計(jì)學(xué)所涉及的抽樣算法以及檢驗(yàn)算法等。(2)人工智能以及機(jī)器學(xué)習(xí)領(lǐng)域所涉及的搜索算法等。(3)進(jìn)化計(jì)算、信號(hào)處理以及相應(yīng)的信息檢索算法等。不僅如此,其他諸多領(lǐng)域所含有的技術(shù)也尤為關(guān)鍵。例如:高性能計(jì)算技術(shù)以及優(yōu)良的分布式技術(shù),均可有助于數(shù)據(jù)庫(kù)系統(tǒng)針對(duì)多樣化數(shù)據(jù)進(jìn)行科學(xué)有效的細(xì)致處理,這能實(shí)現(xiàn)融合處理。2.2.4數(shù)據(jù)挖掘的發(fā)展進(jìn)步自20世紀(jì)末期,基于多樣化學(xué)科的前提下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。近年來(lái),由于數(shù)據(jù)庫(kù)所含技能的逐步提升,人工智能領(lǐng)域日益獲得相對(duì)穩(wěn)定的迅猛發(fā)展,并逐步實(shí)現(xiàn)機(jī)械化。在此背景下,人類將兩者彼此間良好銜接,借助數(shù)據(jù)庫(kù)管制系統(tǒng)的作用針對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)存儲(chǔ),與此同時(shí),借助計(jì)算機(jī)的作用針對(duì)海量數(shù)據(jù)進(jìn)行科學(xué)合理的綜合分析,并致力于挖掘各項(xiàng)數(shù)據(jù)隱含的關(guān)鍵信息。正因如此,才衍生出常識(shí)發(fā)明學(xué)科。直至今日,KDD的傾向研究點(diǎn)已經(jīng)由此逐步過(guò)渡至應(yīng)用過(guò)程。自21世紀(jì)起,持續(xù)優(yōu)化的數(shù)據(jù)挖掘已經(jīng)逐步趨于成熟。而在當(dāng)前時(shí)期,由于各種類型的信息技術(shù)日益獲得相對(duì)穩(wěn)定的蓬勃發(fā)展,故而挖掘技術(shù)所發(fā)揮出的作用愈加關(guān)鍵,并通常以法則、概念、法則和模式加以表示。置身于21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為當(dāng)前時(shí)期尤為典型的跨學(xué)科課題之一。隨著信息技能的進(jìn)步,數(shù)據(jù)挖掘技能愈來(lái)愈成熟。自21世紀(jì)起,數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、模式識(shí)別、數(shù)據(jù)可視化及其相應(yīng)的空間數(shù)據(jù)分析等創(chuàng)新性技術(shù)日益興起,而數(shù)據(jù)挖掘恰恰涵蓋這些領(lǐng)域的理論知識(shí),故而顯得至關(guān)重要。第三章數(shù)據(jù)挖掘方法研究3.1算法的概念數(shù)據(jù)挖掘算法的基本含義為:基于多樣化數(shù)據(jù)而成功創(chuàng)建的相匹配數(shù)據(jù)挖掘模型,以此進(jìn)行較為深入的細(xì)致計(jì)算。當(dāng)正式創(chuàng)建模型之前,需要首先針對(duì)亟待挖掘的數(shù)據(jù)進(jìn)行科學(xué)合理的綜合分析,以確定查找類型。當(dāng)獲得分析結(jié)果后,將可針對(duì)挖掘模型所涉及的最佳參數(shù)進(jìn)行跟蹤確定。其次,將其融于某特定的數(shù)據(jù)集,將可獲得可行的各類模式等。基于挖掘模型的多樣化,將可跟蹤選擇相匹配的算法,其中涵蓋:(1)意味著數(shù)據(jù)集所含事例怎樣相互關(guān)聯(lián)的某特定分類。(2)可預(yù)測(cè)后期所得結(jié)果的決策樹(shù)。(3)預(yù)測(cè)數(shù)據(jù)的數(shù)學(xué)模型。伴隨著數(shù)據(jù)挖掘技術(shù)的誕生,產(chǎn)生了它獨(dú)特的理論和算法,在數(shù)據(jù)挖掘發(fā)展歷史中,無(wú)數(shù)的算法被推廣,為了更方便快捷的進(jìn)行挖掘計(jì)算,所產(chǎn)生的算法也成了研究的重中之重。伴隨算法誕生以及其獨(dú)特的聯(lián)系關(guān)系法則。從本質(zhì)上而言,數(shù)據(jù)挖掘算法實(shí)則以多樣化數(shù)據(jù)為基礎(chǔ),以此來(lái)成功構(gòu)建相匹配的數(shù)據(jù)挖掘模型。但當(dāng)正式創(chuàng)建模型之前,需要首先針對(duì)亟待挖掘的數(shù)據(jù)進(jìn)行科學(xué)合理的綜合分析,以確定查找類型。3.2十大數(shù)據(jù)挖掘算法3.2.1C4.5(決策樹(shù))對(duì)于各種類型的機(jī)器學(xué)習(xí)算法來(lái)說(shuō),尤為典型的即為C4.5算法,這項(xiàng)算法實(shí)則為決策樹(shù)算法,其中尤為關(guān)鍵的算法即為ID3算法,其不僅含有ID3算法所含的優(yōu)勢(shì)之處,而且還在下述基本方面,針對(duì)ID3算法進(jìn)行針對(duì)性改進(jìn):1.首先,基于信息增益率選擇與之相對(duì)應(yīng)的屬性;2.其次,在樹(shù)構(gòu)造時(shí)剪枝;3.隨后,將可針對(duì)連續(xù)屬性進(jìn)行必要的離散化處理;4.最后,將能針對(duì)不全面的數(shù)據(jù)進(jìn)行科學(xué)有效的處理。對(duì)于C4.5算法而言,其所含有的基本優(yōu)勢(shì)詳細(xì)如下:由此而形成的分類規(guī)則將很容易進(jìn)行理解,并可達(dá)到相對(duì)較高的精準(zhǔn)率。然而,其依然存在某些不足之處,例如:在構(gòu)造樹(shù)時(shí),必須針對(duì)某特定數(shù)據(jù)集進(jìn)行頻繁掃描,故而算法無(wú)法將保持較為良好的高效性。分類器將可針對(duì)海量數(shù)據(jù)的所屬類別,進(jìn)行恰當(dāng)適宜的精準(zhǔn)分類,而C4.5可將分類器通過(guò)決策樹(shù)的基本形式呈現(xiàn)出來(lái)。必要時(shí)收集組合以C4.5表示的內(nèi)容的分類數(shù)據(jù)。舉例說(shuō)明,假設(shè)一個(gè)涵蓋大量信息的數(shù)據(jù)組合,比如年齡,愛(ài)好等。這些都被稱為數(shù)據(jù)屬性?,F(xiàn)綜合上述基本特征,針對(duì)多樣化數(shù)據(jù)進(jìn)行細(xì)致分類,C4.5根據(jù)數(shù)據(jù)屬性猜測(cè)類型構(gòu)建決策樹(shù)。3.2.2K-Means(k均值聚類)K-Meansalgorithm算法實(shí)為當(dāng)前備受青睞的聚類算法,即K-Means算法,將n個(gè)對(duì)象基于彼此屬性將可細(xì)分為k個(gè),并且k<n。此后,假定對(duì)象屬性均來(lái)源空間向量,并力求使得群組所含的均方誤差累加之和達(dá)到極小值。K-Means算法主要基于已知的某特定目標(biāo),成功創(chuàng)建若干個(gè)組,而這些組別所含的成分基本一致。對(duì)于聚類分析而言,類與組均代表一致。例如,若已知某相關(guān)步兵戰(zhàn)車的數(shù)據(jù)集。則當(dāng)處于聚類分析的過(guò)程中,必須知道這些戰(zhàn)車所涉及的基本信息,如車輛尺寸、最大時(shí)速、油耗、最大速度和車輛全重等。這些信息即為匹配的特征向量。單個(gè)向量將可反應(yīng)出戰(zhàn)車的單列數(shù)據(jù)。也可看作為多維空間的對(duì)應(yīng)坐標(biāo)。在此之中,車輛尺寸主要代表一維坐標(biāo),而油耗主要代表其余維度的所含坐標(biāo)。確定這個(gè)戰(zhàn)車的向量集,K-Means算法可以把具有最大時(shí)速、最大速度和車輛全重等相似數(shù)據(jù)的戰(zhàn)車進(jìn)行聚類。K-Means算法將能基于操作者自身所需的數(shù)據(jù)種類,對(duì)各種變量進(jìn)行恰當(dāng)?shù)纳钊胩幚恚钊氲亟鉀Q了這個(gè)問(wèn)題。1.K-Means算法在多維空間中選取一些點(diǎn)來(lái)表示每個(gè)k類,它們叫做中心點(diǎn)。2.每輛戰(zhàn)車都能從中找到最近的中心點(diǎn)。每輛戰(zhàn)車最靠近的點(diǎn)不是相同的中心點(diǎn),它們圍繞最近的中心點(diǎn)構(gòu)成一個(gè)類。3.現(xiàn)在有k個(gè)類,并且每輛戰(zhàn)車都是屬于同一個(gè)類。4.K-Means算法將可以類成員為基礎(chǔ),并基于戰(zhàn)車所涉及的信息向量,以此來(lái)獲得所有k聚類的中心位置。5此位置即為新的中心點(diǎn)。6因?yàn)橹行狞c(diǎn)所處位置的差異性,故而戰(zhàn)車將會(huì)趨向于其他中心點(diǎn)。這意味著,戰(zhàn)車已經(jīng)針對(duì)自身所含的類成員身份進(jìn)行跟蹤調(diào)整。循環(huán)2-6步驟,直至中心點(diǎn)已經(jīng)保持恒定,則此時(shí)類成員將基本穩(wěn)定。這也叫做收斂性。通常情況下,算法實(shí)則屬于非監(jiān)督學(xué)習(xí)的范疇。以K-Means算法為例,其將會(huì)自行學(xué)習(xí)怎樣進(jìn)行聚類。K-Means算法之所以能夠廣泛運(yùn)用是因?yàn)樗暮?jiǎn)單性。這代表相較于其他各種算法而言,K-Means算法將能達(dá)到尤為迅猛的計(jì)算速度,并且極富有效性。特別在針對(duì)各類海量數(shù)據(jù)集進(jìn)行科學(xué)有效的深入處理時(shí),更能體現(xiàn)其優(yōu)點(diǎn)。不僅如此,K-Means算法還能完成下述優(yōu)化。首先,其可針對(duì)海量數(shù)據(jù)集進(jìn)行較為深入的提前聚類處理;其次,還可針對(duì)某些成本較高的子類進(jìn)行匹配的聚類分析。然而,K-Means算法依然存在某些不足之處,例如:其相對(duì)于異常值表現(xiàn)出尤為顯著的敏感特性,這種特性同樣存在于針對(duì)初始中心點(diǎn)進(jìn)行恰當(dāng)選擇的過(guò)程中。值得一提的是,K-Means算法旨在針對(duì)連續(xù)數(shù)據(jù)進(jìn)行科學(xué)有效的處理。故而若作用對(duì)象為離散數(shù)據(jù),將有必要先通過(guò)其他方法進(jìn)行妥善處理,才可運(yùn)用K-Means算法。3.2.3SVM(支持向量機(jī))支持向量機(jī),英文簡(jiǎn)稱SVM,其實(shí)則屬于監(jiān)督式學(xué)習(xí)的范疇,在統(tǒng)計(jì)分類以及相應(yīng)的回歸分析領(lǐng)域中,已經(jīng)獲得較為廣泛的實(shí)際應(yīng)用。事實(shí)上,支持向量機(jī)可將某特定向量徑直映射至對(duì)應(yīng)的高維空間,并據(jù)此成功構(gòu)建某特定的最大間隔超平面。與此同時(shí),還會(huì)在其兩側(cè)均建立彼此平行的超平面,當(dāng)對(duì)其進(jìn)行分隔時(shí),則將可使得兩者之間的實(shí)際距離達(dá)到極大值,若這項(xiàng)差距越大,則意味著分類器所能達(dá)到的總誤差將會(huì)越小。當(dāng)支持向量機(jī)成功獲得某特定的超平面時(shí),可將數(shù)據(jù)細(xì)分為兩大類別,并選擇高標(biāo)準(zhǔn)對(duì)其進(jìn)行深入分析,此方法和C4.5算法的唯一差別,即并未應(yīng)用到?jīng)Q策樹(shù),除此之外均完全一致。而超平面實(shí)為較為特殊的函數(shù)?;趯?shí)踐結(jié)果將可得知,SVM僅需借助某特定技巧即可將各項(xiàng)數(shù)據(jù)帶至高維度進(jìn)行深入處理,此后還可將這些數(shù)據(jù)成功分離為兩大類別的超平面。例如:若桌上本來(lái)含有一些黑球以及白球,這些球的顏色并未充分混合,則在此情況下,無(wú)需對(duì)此盡數(shù)移動(dòng),僅需借助某根棍子即能將其成功分離。然而,若在桌面添加某特定的新球,則將必須基于棍子兩側(cè)的球體顏色,來(lái)辨別此球的實(shí)際顏色。而SVM算法即可針對(duì)此超平面計(jì)算得知相匹配的方程。如果情況比例子中還要復(fù)雜,兩種球充分混合在一起,那么一根棍子就不能簡(jiǎn)單地把兩種球分開(kāi)了。此時(shí)則應(yīng)借助其他方法對(duì)該問(wèn)題進(jìn)行有效解決。例如:將桌子向上大力掀起,使得所有的球均處于空中,此時(shí)再將某大型紙板基于空中劃分為兩大平面。值得一提的是,這并不違反規(guī)則,而將桌子向上大力掀起,則意味著將數(shù)據(jù)成功映射至對(duì)應(yīng)的高維空間。SVM算法主要基于核函數(shù)來(lái)實(shí)現(xiàn)高維空間的一系列操作。雖然大型紙板仍舊可看作為超平面,然而其所匹配的方程旨在描述某特定的平面,而非單獨(dú)的線。桌面上的任意球均處于自身獨(dú)有的位置,通過(guò)坐標(biāo)即可對(duì)其進(jìn)行直觀表示。例如:某特定球和左方邊緣相距20cm,而和底端相距50cm,此時(shí)即可通過(guò)坐標(biāo)(20,50)對(duì)其進(jìn)行表達(dá)。其中,20與50依次代表球所含的兩大維度。若已知全部戰(zhàn)車的基本信息,則可通過(guò)一系列向量對(duì)其加以描述,如車輛尺寸、最大時(shí)速、油耗、最大速度和車輛全重等,每個(gè)向量都代表一個(gè)維度。SVM通常會(huì)將相關(guān)數(shù)據(jù)徑直映射至對(duì)應(yīng)的高維空間,并由此獲得可進(jìn)行細(xì)致分類的某特定超平面。在此過(guò)程中,往往會(huì)與類間間隔彼此間良好銜接,其中,類間間隔主要代表超平面與某些類中和其相距最小的數(shù)據(jù)點(diǎn)彼此間的實(shí)際距離。例如:和棍子相距最小的紅球,與藍(lán)球間彼此間的實(shí)際距離即為所謂的類間間隔。而SVM則致力于針對(duì)類間間隔進(jìn)行科學(xué)合理的最大化處理,從而使得已經(jīng)分類后的超平面,盡可能和紅球以及藍(lán)球保持較遠(yuǎn)的實(shí)際距離。此舉將能有效減少分類失誤現(xiàn)象的發(fā)生。需要注意的是,超平面和紅球的直線距離,與其到藍(lán)球的實(shí)際距離完全一致。故而這些球?qū)⒖煽醋鳛閿?shù)據(jù)點(diǎn),這是由于,其均支持此特定的超平面,故而這些數(shù)據(jù)點(diǎn)也可被稱之為支持向量。從常理上來(lái)看,SVM應(yīng)當(dāng)納入監(jiān)督式學(xué)習(xí)的范疇。這是由于,有必要借助某特定的數(shù)據(jù)集,使得SVM可針對(duì)若干數(shù)據(jù)類型進(jìn)行深入學(xué)習(xí)。唯有如此,SVM才可針對(duì)新的數(shù)據(jù)進(jìn)行較為合理的細(xì)致分類。實(shí)際上,SVM以及C4.5均屬于二類分類器,而對(duì)于SVM算法而言,其所含有的劣勢(shì)在于核函數(shù)存在一定的選擇性以及相應(yīng)的可解釋性。3.2.4Apriori關(guān)聯(lián)算法Apriori算法所秉持的核心思想即為兩階段頻集思想。而其遵循的關(guān)聯(lián)規(guī)則若從類別上進(jìn)行考量,則將可細(xì)分為單維以及布爾等若干關(guān)聯(lián)規(guī)則。在本篇論文中,將全體支持度超過(guò)最小支持度的相關(guān)項(xiàng)集,統(tǒng)一看作為頻繁項(xiàng)集。對(duì)于Apriori算法而言,尤為突出的基本特征,即遵循學(xué)習(xí)數(shù)據(jù)的關(guān)聯(lián)規(guī)則,故而該算法適合蘊(yùn)含大規(guī)模事務(wù)的數(shù)據(jù)庫(kù)。值得一提的是,學(xué)習(xí)關(guān)聯(lián)規(guī)則主要針對(duì)數(shù)據(jù)庫(kù)當(dāng)中所含多樣化變量彼此間存在的內(nèi)在關(guān)系,進(jìn)行較為深入的數(shù)據(jù)挖掘。例如:存在僅蘊(yùn)含海量裝備維護(hù)數(shù)據(jù)的某特定數(shù)據(jù)庫(kù),此時(shí)可將其看作為大型電子數(shù)據(jù)表,而表中的單行則代表某項(xiàng)裝備當(dāng)前的維修保障情況,單列則代表閑置的裝備項(xiàng)。基于運(yùn)行Apriori算法,即可獲得在同一時(shí)間維護(hù)的裝備項(xiàng),此舉也可看作為關(guān)聯(lián)規(guī)則。它的優(yōu)點(diǎn)在于你能發(fā)現(xiàn)相比較其他裝備項(xiàng)來(lái)說(shuō)有些裝備項(xiàng)維修保障次數(shù)更加頻繁,而頻繁維修的裝備項(xiàng)將可看作為項(xiàng)集。在下述內(nèi)容中,主要針對(duì)Apriori算法所表現(xiàn)出的工作方式,進(jìn)行較為深入的細(xì)致研究,首先要明確以下三各方面:1.明確項(xiàng)集的大小,其類型是1-itemsets、2-itemsets還是3-itemsets。2.選擇可支持的一系列項(xiàng)集,而能夠有效滿足一定支持度的某些項(xiàng)集,則將可看作為頻繁項(xiàng)集。3.基于通過(guò)統(tǒng)計(jì)所得的項(xiàng)集中而含有的數(shù)據(jù)項(xiàng),將可針對(duì)某特定數(shù)據(jù)項(xiàng)所含的條件概率等,進(jìn)行科學(xué)精準(zhǔn)的計(jì)算。例如:若在某特定項(xiàng)集中存在步戰(zhàn)車,則將存在67%的信心水準(zhǔn),此特定項(xiàng)集應(yīng)該會(huì)存在坦克。對(duì)于Apriori算法而言,其將可細(xì)分為下述基本步驟:1.參與。首先,針對(duì)數(shù)據(jù)庫(kù)進(jìn)行全面系統(tǒng)的掃描,以獲得1-itemsets發(fā)生的頻率。2.剪枝。將有效滿足一定支持度的若干1-itemsets,徑直移動(dòng)至下一流程,并找到2-itemsets。3.重復(fù)。針對(duì)處在同一水平的項(xiàng)集進(jìn)行循環(huán)計(jì)算,直至滿足預(yù)先擬定的項(xiàng)集標(biāo)準(zhǔn)。與SVM算法不同,Apriori算法通常被看作為非監(jiān)督類型的學(xué)習(xí)方法,這是由于,其往往作用于針對(duì)特殊的關(guān)系進(jìn)行深入挖掘。而若能對(duì)其進(jìn)行持續(xù)完善,則將可針對(duì)已完成標(biāo)記的各項(xiàng)數(shù)據(jù),進(jìn)行科學(xué)合理的細(xì)致分類。此方法的優(yōu)勢(shì)之處在于很容易進(jìn)行理解和使用,并存在一系列衍生算法;然而,其依然存在某些不足之處,例如:在生成項(xiàng)集的過(guò)程中,往往必須占據(jù)巨大的空間。3.2.5EM最大期望算法通常情況下,當(dāng)處于統(tǒng)計(jì)計(jì)算過(guò)程中,最大期望算法(英文簡(jiǎn)稱EM)主要基于概率模型,以獲得最大后驗(yàn)估計(jì)算法。而在此之中,概率模型主要取決于不能進(jìn)行觀測(cè)的相應(yīng)隱藏變量。值得一提的是,最大期望算法在當(dāng)前已經(jīng)于機(jī)器學(xué)習(xí)等領(lǐng)域中,獲得較為廣泛的多方位應(yīng)用。當(dāng)其作用于數(shù)據(jù)挖掘領(lǐng)域時(shí),此方法通常又被人們稱之為聚類算法,并以此進(jìn)行較為深入的知識(shí)挖掘。當(dāng)處于統(tǒng)計(jì)學(xué)領(lǐng)域中,若針對(duì)不能看出隱藏變量的某特定統(tǒng)計(jì)模型所涉及的參數(shù),進(jìn)行大致的估算時(shí),EM算法將能通過(guò)持續(xù)迭代來(lái)獲得此參數(shù)所涉及的似然估計(jì)值。模型可以反映出觀測(cè)數(shù)據(jù)生成的規(guī)律。例如:在某隨機(jī)的射擊考核過(guò)程中,考生所得的考核成績(jī)或許呈現(xiàn)出正態(tài)分布曲線,此時(shí)可假定該曲線即為模型,而通過(guò)分布可以預(yù)測(cè)可測(cè)量結(jié)果。還是這個(gè)例子,正是因?yàn)榭己顺煽?jī)完全遵從正態(tài)分布曲線,故而此曲線將可涵蓋考核分?jǐn)?shù)的全部可能性。此外,模型所含的分布屬性需要通過(guò)各項(xiàng)參數(shù)進(jìn)行描述。基于若干可測(cè)定的結(jié)果,針對(duì)某特定參數(shù)進(jìn)行相應(yīng)的估算,并據(jù)此獲得的實(shí)際結(jié)果概率,通常又可被稱之為似然性。此時(shí)概率主要代表確定結(jié)果的相應(yīng)假設(shè)概率。繼續(xù)使用上文的例子,若通過(guò)射擊考核所得的分?jǐn)?shù)分布曲線,均值表現(xiàn)為85,方差表現(xiàn)為100。則針對(duì)該曲線進(jìn)行描述的全體參數(shù),均為方差以及對(duì)應(yīng)的均值。若已經(jīng)掌握大量的分?jǐn)?shù)數(shù)據(jù),并且這些數(shù)據(jù)均遵循此曲線,然而,卻并未獲得全部成績(jī),僅獲得某特定的樣本。在此情況下,雖然無(wú)法獲得全部分?jǐn)?shù)的實(shí)際方差亦或?yàn)榫?,然而卻能基于樣本進(jìn)行細(xì)致計(jì)算。通過(guò)EM算法進(jìn)行聚類,需要首先針對(duì)一系列模型參數(shù)進(jìn)行必要的猜測(cè)。然后會(huì)進(jìn)行以下3步的循環(huán):1.首先,以模型參數(shù)為基礎(chǔ),針對(duì)全部數(shù)據(jù)點(diǎn)所含聚類的真實(shí)分配概率,進(jìn)行較為精準(zhǔn)的深入計(jì)算。2.其次,更新現(xiàn)有的模型參數(shù)。3.最后,循環(huán)上述基本流程,直至模型參數(shù)收斂。對(duì)于EM算法而言,其實(shí)則表現(xiàn)出顯著的非監(jiān)督特性。優(yōu)勢(shì)之處在于簡(jiǎn)潔易懂,不僅能針對(duì)現(xiàn)有的模型參數(shù)進(jìn)行持續(xù)完善,而且還可針對(duì)已經(jīng)丟失的數(shù)據(jù),進(jìn)行循環(huán)猜測(cè)和深入分析。同樣,EM算法有以下兩個(gè)缺點(diǎn):1.其在早期迭代過(guò)程中,表現(xiàn)出尤為迅猛的運(yùn)行速度,然而后期卻逐步降低。2.其無(wú)法持續(xù)獲得最優(yōu)參數(shù),故而僅能得到局部最優(yōu)解。3.2.6PageRank算法對(duì)于Google算法而言,尤為關(guān)鍵的算法即為PageRank。2001年,全球著名學(xué)者拉里?佩奇成功研究出PageRank算法。對(duì)于此算法而言,其主要基于網(wǎng)站所含的內(nèi)部以及外部鏈接數(shù)量等,來(lái)評(píng)判該網(wǎng)站所含的實(shí)際價(jià)值。此外,鏈接流行度的基本概念為:針對(duì)愿意和某特定的網(wǎng)站彼此連接的其他網(wǎng)站的實(shí)際數(shù)量,進(jìn)行較為精準(zhǔn)的衡量。PageRank主要以某特定的網(wǎng)絡(luò)為基準(zhǔn),針對(duì)若干對(duì)象與其中所含其余對(duì)象彼此間的重要性,進(jìn)行較為精準(zhǔn)的衡量,該算法實(shí)則為當(dāng)前尤為典型的連接分析算法,旨在針對(duì)多樣化對(duì)象彼此間存在的內(nèi)在關(guān)系進(jìn)行深入挖掘。而存在于萬(wàn)維網(wǎng)中的網(wǎng)頁(yè)則彼此鏈接,若已經(jīng)成功鏈接至CNN當(dāng)中的某特定網(wǎng)頁(yè),則CNN網(wǎng)頁(yè)將會(huì)提高1個(gè)投票,這意味著R與CNN網(wǎng)頁(yè)彼此關(guān)聯(lián)。當(dāng)然,這項(xiàng)投票的關(guān)鍵性將決定于本身的重要性。可這樣認(rèn)為,所有給投票的網(wǎng)頁(yè)也能提升網(wǎng)頁(yè)的關(guān)聯(lián)性。在下述內(nèi)容中,將重點(diǎn)闡述PageRank所涉及的若干創(chuàng)新應(yīng)用:1.學(xué)者DrStefanoAllesina曾經(jīng)將PageRank成功融于生態(tài)學(xué)領(lǐng)域當(dāng)中,從而針對(duì)多樣化物種相對(duì)于生態(tài)系統(tǒng)而表現(xiàn)出的關(guān)鍵性,進(jìn)行較為深入的細(xì)致研究。2.學(xué)者Twitter曾經(jīng)成功研發(fā)WTF算法,其將可向用戶推薦匹配的關(guān)注人。3.學(xué)者BinJiang曾經(jīng)借助于已優(yōu)化的PageRank,針對(duì)倫敦行人表現(xiàn)出的移動(dòng)速率,進(jìn)行較為精準(zhǔn)的預(yù)測(cè)。PageRank算法實(shí)則為尤為典型的非監(jiān)督學(xué)習(xí)算法。若想針對(duì)圖表所含一系列元素的優(yōu)先性等進(jìn)行深入分析,則將能運(yùn)用此類算法。3.2.7AdaBoost迭代算法AdaBoost屬于迭代算法的范疇,其主要以某特定訓(xùn)練集為基礎(chǔ),針對(duì)多樣化分類器進(jìn)行必要的訓(xùn)練,隨后,再將其彼此集合,以構(gòu)建出性能更為優(yōu)良的最終分類器。對(duì)于此算法而言,其主要基于訓(xùn)練集所含全部樣本的分類精準(zhǔn)性進(jìn)行判定,并通過(guò)上次操作所得的精準(zhǔn)性,針對(duì)全部樣本的實(shí)際權(quán)值進(jìn)行及時(shí)確定。其次,將已經(jīng)完成修改的權(quán)值所屬的數(shù)據(jù)集,移送至下層分類器依次訓(xùn)練,隨后,將經(jīng)由全部訓(xùn)練所獲得的分類器進(jìn)行良好銜接,以此構(gòu)建出性能更為優(yōu)良的決策分類器。因?yàn)槿醴诸惼鲀H含有單層決策樹(shù),故而尤其所獲得的結(jié)果,在精準(zhǔn)性方面僅略微高于預(yù)測(cè)值。相比之下,強(qiáng)分類器將能表現(xiàn)出尤為顯著的精準(zhǔn)率,其中SVM的代表性較高。若存在3個(gè)弱分類器,則需要基于蘊(yùn)含海量裝備維護(hù)數(shù)據(jù)的某特定數(shù)據(jù)訓(xùn)練集中,對(duì)其進(jìn)行高達(dá)10輪的依次訓(xùn)練。接下來(lái)對(duì)某件裝備是否需要進(jìn)行維修進(jìn)行預(yù)測(cè):AdaBoost將會(huì)提取一系列訓(xùn)練數(shù)據(jù),并依次針對(duì)所有分類器能夠達(dá)到的精準(zhǔn)率,進(jìn)行較為深入的細(xì)致測(cè)試,以此來(lái)找出最優(yōu)分類器。不僅如此,最優(yōu)分類器也需基于自身的精準(zhǔn)率來(lái)賦予匹配的權(quán)重,并將其融于現(xiàn)有的聯(lián)合分類器當(dāng)中。隨后,AdaBoost將會(huì)致力于找到最優(yōu)分類器。事實(shí)上,分類者僅能確保某些裝備在分類過(guò)程中的精準(zhǔn)性,故而若能針對(duì)誤分類裝備進(jìn)行科學(xué)有效的深入處理,必將可獲得較為良好的效果。當(dāng)最佳分類器二次賦予匹配權(quán)重,并融于聯(lián)合分類器之中,則經(jīng)過(guò)誤分類的相關(guān)裝備也將含有自身的權(quán)重,從而更容易在后期選中,并循環(huán)利用。周而復(fù)始,最終僅會(huì)留存已結(jié)束相應(yīng)訓(xùn)練的性能優(yōu)良的聯(lián)合學(xué)習(xí)分類器。從本質(zhì)上而言,AdaBoost實(shí)則屬于監(jiān)督學(xué)習(xí)方法。其不僅相對(duì)簡(jiǎn)單,而且很容易進(jìn)行編程,并能達(dá)到尤為迅猛的運(yùn)行速度。算法含有較強(qiáng)的靈活性和通用性,當(dāng)處于AdaBoost之中,將能融于多樣化學(xué)習(xí)算法,還可針對(duì)各種類型的數(shù)據(jù),進(jìn)行科學(xué)有效的及時(shí)處理。相較于強(qiáng)學(xué)習(xí)器而言,弱分類器不僅相對(duì)簡(jiǎn)單,而且可達(dá)到尤為迅猛的運(yùn)行速度。這是由于,單輪不間斷的Adaboost回合將可持續(xù)更新最優(yōu)學(xué)習(xí)器的實(shí)際權(quán)重,故而分類者僅需確定運(yùn)行過(guò)程的回合數(shù)即可。3.2.8K最近鄰分類算法K最近鄰分類算法(英文簡(jiǎn)稱KNN),屬于當(dāng)前尤為典型的一類機(jī)器學(xué)習(xí)算法。其所秉持的基本思路詳細(xì)如下:若某特定樣本基于指定特征空間所含的k個(gè)最相似的樣本中,表現(xiàn)出完全一致的類別,則此樣本也在其列。KNN算法屬于懶散學(xué)習(xí)算法的范疇,其在訓(xùn)練時(shí)無(wú)需進(jìn)行深入的細(xì)致處理。僅在輸入全新并且沒(méi)有進(jìn)行分類的數(shù)據(jù)時(shí),KNN算法才會(huì)對(duì)其進(jìn)行必要的分類處理。相比之下,積極學(xué)習(xí)算法則將會(huì)在訓(xùn)練過(guò)程中,構(gòu)建出科學(xué)完善的分類模型,一旦輸入全新并且沒(méi)有進(jìn)行分類的數(shù)據(jù)時(shí),則分類器會(huì)將其會(huì)轉(zhuǎn)移至此分類模型中進(jìn)行深入處理。值得一提的是,C4.5以及SVM算法等均為積極學(xué)習(xí)算法。分析如下:1.C4.5在訓(xùn)練中建立了一個(gè)決策分類樹(shù)模型。2.SVM在訓(xùn)練中建立了一個(gè)超平面分類模型。3.AdaBoost在訓(xùn)練中建立了一個(gè)聯(lián)合分類模型。然而,KNN算法卻并未構(gòu)建出此種分類模型,而是對(duì)已經(jīng)實(shí)現(xiàn)分類的一系列數(shù)據(jù)進(jìn)行及時(shí)存儲(chǔ)。在此情況下,一旦輸入全新數(shù)據(jù),則KNN將會(huì)遵循下述兩項(xiàng)步驟:1.觀察最近的已分類的訓(xùn)練數(shù)據(jù)點(diǎn)——k最臨近點(diǎn)(k-nearestneighbors)2.使用新數(shù)據(jù)最近鄰近點(diǎn)的分類。若作用對(duì)象為連續(xù)數(shù)據(jù),則KNN將會(huì)運(yùn)用相匹配的距離測(cè)度,該測(cè)度的恰當(dāng)選擇主要由數(shù)據(jù)類型所決定;而若作用對(duì)象為離散數(shù)據(jù),則一般會(huì)將其轉(zhuǎn)換成相對(duì)應(yīng)的連續(xù)數(shù)據(jù),下面列舉兩種方法:1.使用漢明距離(HammingDistance)作為兩個(gè)字符串緊密程度的測(cè)度。2把離散數(shù)據(jù)轉(zhuǎn)化為二進(jìn)制表征。KNN算法的本質(zhì)為監(jiān)督學(xué)習(xí)算法,非常便于理解和實(shí)現(xiàn),若運(yùn)用以距離測(cè)度為基礎(chǔ)而構(gòu)建的算法,則此類算法將表現(xiàn)出尤為良好的精確度。下面是需要注意的5點(diǎn):1.當(dāng)試圖在一個(gè)大數(shù)據(jù)集上計(jì)算最臨近點(diǎn)時(shí),KNN算法可能會(huì)耗費(fèi)高昂的計(jì)算成本。2噪聲數(shù)據(jù)(NoisyData)可能會(huì)影響到KNN的分類。3通常情況下,若選擇大規(guī)模的屬性篩選將能獲得顯著的的效果,這一點(diǎn)尤為關(guān)鍵。4由于數(shù)據(jù)處理會(huì)出現(xiàn)延遲,KNN相比積極分類器,一般需要更強(qiáng)大的存儲(chǔ)需求。5選擇一個(gè)合適的距離測(cè)度對(duì)KNN的準(zhǔn)確性來(lái)說(shuō)至關(guān)重要。3.2.9樸素貝葉斯算法在一系列分類模型中,尤為典型的分類模型主要分為兩種,其中包含決策樹(shù)模型,與此同時(shí),還涵蓋樸素貝葉斯模型(英文簡(jiǎn)稱NBC)。后者源自古典數(shù)學(xué)理論,表現(xiàn)出相對(duì)穩(wěn)定的分類效率。不僅如此,其所需的估計(jì)參數(shù)相對(duì)較少,算法也較為簡(jiǎn)單?;诶碚摲矫鎭?lái)看,NBC模型的誤差率較低。然而實(shí)際卻不然,這是由于,NBC模型首先假定多樣化屬性彼此獨(dú)立,但這種理想狀態(tài)并存在。若出現(xiàn)屬性實(shí)際數(shù)量較多的情況下,則NBC模型所能達(dá)到的分類效率將遠(yuǎn)遠(yuǎn)不及。當(dāng)屬性相關(guān)性不大的情況下,NBC模型將可達(dá)到尤為良好的性能?;谏鲜鰞?nèi)容將可得知,樸素貝葉斯實(shí)為針對(duì)分類算法而構(gòu)建的模型,多樣化屬性彼此間的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論