大與數(shù)據(jù)挖掘技術(shù)綜述_第1頁
大與數(shù)據(jù)挖掘技術(shù)綜述_第2頁
大與數(shù)據(jù)挖掘技術(shù)綜述_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

:近年來,數(shù)據(jù)量大量增長,像因特網(wǎng)和大型數(shù)據(jù)庫的出現(xiàn)“信息但知識匱乏”挖掘的常用技術(shù)算法以及數(shù)據(jù)挖掘未來的應用。數(shù)據(jù)挖掘算法,應用 Inrecentyears,withtherapidgrowthofdata,liketheemergenceofInternetandlargedatabases, hasarisenfrom―astronomicalinformationbutpoorknowledge‖.howtodigoutthedatasentbackpotentiallyusefulinformation, eahottopicofconcerntoeverybody,theresultingdataminingtechniques emorepopular,adata-processingtechnology.Thispaperprovidesasurveyfordataminingbrieflyintroducestheconceptofdatamining,classification,method,technology,algorithm,andapplicationinthefuture.Key:datamining,algorithm, 一、數(shù)據(jù)挖掘(datamining)的基本概念: 消費者喜好和行為。從大量的數(shù)據(jù)中抽取以前位置并具有潛在可用的模式。二、數(shù)據(jù)挖掘的主要任務(wù)數(shù)據(jù)挖掘的任務(wù)就是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式其可以發(fā)現(xiàn)的模式一般分為兩類:描述性(descriptive)模式和預測型(predictive)模式,描述型模式是對當前數(shù)據(jù)對于時間序列型數(shù)據(jù),根據(jù)其歷史和當前的值去預測未來的值,細分模式如下1分類模式發(fā)現(xiàn)的模式,參照新的數(shù)據(jù)的變量,將其映射如一直類別中。2聚類用于描述和發(fā)現(xiàn)數(shù)和模式的數(shù)據(jù)元組為一類,是類內(nèi)各元組相似程序最高,類間差異最大。3關(guān)聯(lián) 于發(fā)現(xiàn)給定或記錄中經(jīng)常一起發(fā)生的項目,由此推斷間潛在的關(guān)聯(lián),識別有可能重復發(fā)生的模式。4序列模式 三、數(shù)據(jù)挖掘的方法: 遺傳算法、神經(jīng)網(wǎng)絡(luò)、可視化和聯(lián)機分析等。1決策樹:決策樹是利用信息論的知識,對數(shù)據(jù)進行分類的法,廣泛應用于商業(yè)山個,用于分離和預測,QuinlanID3結(jié)果額度高,作用率高。2神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法通過模仿認得神經(jīng)速擬合非線性數(shù)據(jù),因而被廣泛的應用于數(shù)據(jù)挖掘中。3規(guī)則歸納:規(guī)則歸納是數(shù)據(jù)挖關(guān)的形式表示出了。4遺傳算法遺傳算法根據(jù)生物進化理論,通過模擬自然進化過程,分類挖掘。聯(lián)機分析處理對數(shù)據(jù)進行分析、查詢和報表時組要通過表的形式。通過對用戶現(xiàn)有的和歷史的數(shù)據(jù)精心分析,得出有用的結(jié)論,為做出決策提供依據(jù)。其應用的對象主要是公司市場策略的制定,銀行風險的分析與預測等領(lǐng)域。5傳統(tǒng) 傳統(tǒng)導向系統(tǒng)是針對專業(yè)領(lǐng)域應用的系統(tǒng)。采用的方法從簡單的分析直到給予高深數(shù)學基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗模型為前提。6傳統(tǒng)統(tǒng) 重復進行一系列操作。7神經(jīng)元網(wǎng)路技術(shù) 法在DM的應用方面,當需要復雜或不精確數(shù)據(jù)中到處概念和確定比較時刻利用神經(jīng)網(wǎng)絡(luò)技術(shù)。8數(shù)據(jù)可視化面對大量的數(shù)據(jù),利用數(shù)據(jù)可視化工具可以通過富有成效持數(shù)據(jù)甚至提供動畫功能,可以從多個方向,不同的層次同時對數(shù)據(jù)進行分析。四、數(shù)據(jù)挖掘的算法1.TheApriorialgorithm Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)頻集。2.Thek-meansalgorithm即K-Means算法k-meansalgorithm算法是一個聚類算法,把n的對象根據(jù)他們的屬性分為k個分割,k<n。它與處理混合正態(tài)分布的最大期望算法且目標是使各個群組內(nèi)部的均方誤差總和最小。3.Supportvectormachines 英文為SupportVectorMachine,簡稱SV機( SVM的方法,它廣泛的應用于統(tǒng)計分類以及回歸分析中支持向量機將向量映射到一個更的差距越大,分類器的總誤差越小。一個極好的指南是C.J.CBurges的《模式識別支持向量機指南vanderWalt和Barnard將支持向量機和其他分類器進行了比較。4.最大期望(EM)算法 在統(tǒng)計計算中,最大期望(EM,Expectation– ization)算法是在概率ariabl領(lǐng)域。5.PageRank PageRank是算法的重要內(nèi)容。2001年9月被授予專利,Page頁,而是指佩奇,即這個等級方法是以佩奇來命名的。PageRank根據(jù)的外部和內(nèi)部的數(shù)量和質(zhì)量倆衡量的價值。PageRank背后的概念是,每個到頁面的都謂的―流行度‖——衡量多少人愿意將他們的和你的掛鉤。PageRank這個概念引術(shù)中一篇 性就越高。6.AdaBoost Adaboost是一種迭代算法,其思想是針對同一個訓練集決策分類器。7.kNN:k-nearestneighborclassification K最近鄰(k-NearestNeighbor,KNN)分類算法,是一個理論上比較成方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于 五、數(shù)據(jù)挖掘的應用應用:數(shù)據(jù)挖掘技術(shù)域都是信息量大,環(huán)境發(fā)展,需要知識幫助進行掛歷和決策的領(lǐng)域。主要應用方向:1)顧客歷史記錄,貨物進出,消費與服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源2)在金融數(shù)據(jù)分析中的應用。多數(shù)銀行都提供了豐富多樣的儲蓄,信數(shù)據(jù)挖掘相當有利。3)在醫(yī)學上的應用。最近,生物醫(yī)學迅猛發(fā)展,從新藥的開發(fā)到癌癥的治療通過大模序列式和功能的現(xiàn)進行人類的識和研究人類基因演技領(lǐng)具有性的問是從中出導致種斃鞥的特序模式。4業(yè)生產(chǎn)方面農(nóng)業(yè)產(chǎn)與氣有密切關(guān)系如果數(shù)挖掘技術(shù)用在氣預報中更準確的發(fā)布氣信息為農(nóng)生產(chǎn)提了一個妥的支持5數(shù)據(jù)挖掘產(chǎn)化隨著據(jù)挖掘技術(shù)應用的益普及多大公已經(jīng)把種技術(shù)化開發(fā)出過的挖工具比如AS和IM公推出了自的數(shù)挖掘工具Entrprener和In gentn。這些具的開發(fā)呃是用更方便計的使數(shù)據(jù)挖技術(shù)外數(shù)據(jù)挖掘應用在他領(lǐng)域如科研教育電信事等些充分明書及技術(shù)的重性日益顯有預測它會成為對工業(yè)產(chǎn)生深遠影響的五大關(guān)鍵技術(shù)之首。參考文獻:[1]張保華數(shù)據(jù)挖掘現(xiàn)狀及常規(guī)分類算法科技創(chuàng)新2008NO36 [2]陽,中國數(shù)據(jù)挖掘研究進展大學學報(自然科學)o.47,No.4,201 [3]戴菲,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應用copurkowdgeandchnoogyo.7,No21,y01 [4]孫瓊瓊靜博數(shù)據(jù)挖技術(shù)研究及用couernowedgeandchnooyvo5,No.23agust2009pp.631-6342 []方欣麗淺談數(shù)據(jù)挖掘技術(shù)及其應用copurknwedeandchnoogy o.7.No29Ocoer210,pp812-813 []齊曉鋒.數(shù)據(jù)挖掘技術(shù)在學生成績管理中的應用研究D].阜新:遼寧工程技術(shù)大學,2006 []ang,eanngehodoogydeeopn:afaoncaeudyonarscaerseconandvazaon yssusngaonsMapMasters sInternational2010ISBN:9781124189284[8]Yan,NianNon-additivemeasuresofoptimization-baseddataminingandapplications. sInternational2010ISBM97811097129889]行算法研究科技學院學報2009年3期[10]吳愛華數(shù)據(jù)挖掘在客戶關(guān)系管理中的用研究電腦知識于技術(shù)2008年25期[11]李智輝數(shù)據(jù)挖掘的常用方法及其的問題科技2010年07期[12]MarcosM.Campos,PeterJ.Stengard,BorianaL.novaData-CentricAutomatedDataMiningDec.2005ProceedingsoftheInternationalConferenceonMachineLearningandApplications[13]DavidR.MusicantAdataminingcourseforcomputerscience:primarysourcesandimplementationsMar.2006Proceedingsofthe37thSIGCSEtechnicalsymposiumonComputerscienceeducation[14]RuomingJin,GaganAgrawalAnAlgorithmforIn-CoreFrequentItemsetMiningonStreamingDataNov.2005ProceedingsoftheFifthIEEEInternationalConferenceonDataMining15]200804期[16]NingJiang,RoyVillafane,KienA.Hua,AbhijitSawant,KiranPrabhakaraADMiRe:AnAlgebraicDataMiningApproachtoSystemPerformanceysisJul.2005IEEETransactionsonKnowledgeandDataEngineering卷次:17期:7[17]

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論