數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第1頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第2頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第3頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第4頁
數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告

畢業(yè)都是需要進(jìn)行論文的寫作,數(shù)據(jù)挖掘技術(shù)論文的開題報(bào)告怎么寫?下面是我整理的數(shù)據(jù)挖掘技術(shù)論文開題報(bào)告,歡迎閱讀!

數(shù)據(jù)挖掘技術(shù)綜述

數(shù)據(jù)挖掘(DataMining)是一項(xiàng)較新的數(shù)據(jù)庫技術(shù),它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫,從中發(fā)覺潛在的、有價(jià)值的信息——稱為學(xué)問,用于支持決策。數(shù)據(jù)挖掘是一項(xiàng)數(shù)據(jù)庫應(yīng)用技術(shù),本文首先對(duì)數(shù)據(jù)挖掘進(jìn)行概述,闡明什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的技術(shù)是什么,然后介紹數(shù)據(jù)挖掘的常用技術(shù),數(shù)據(jù)挖掘的主要過程,如何進(jìn)行數(shù)據(jù)挖掘,主要應(yīng)用領(lǐng)域以及國(guó)內(nèi)外現(xiàn)狀分析。

一.討論背景及意義

近十幾年來,隨著數(shù)據(jù)庫系統(tǒng)的廣泛流行以及計(jì)算機(jī)技術(shù)的快速進(jìn)展,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的力量大幅度提高。千萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)討論和工程開發(fā)等,特殊是網(wǎng)絡(luò)系統(tǒng)的流行,使得信息爆炸性增長(zhǎng)。這一趨勢(shì)將持續(xù)進(jìn)展下去。大量信息在給人們帶來便利的同時(shí)也帶來了一大堆的問題:第一是信息過量,難以消化;其次是信息真假難以辨認(rèn);第三是信息安全難以保證;第四是信息形式不全都,難以統(tǒng)一處理。面對(duì)這種狀況,一個(gè)新的挑戰(zhàn)被提出來:如何才能不被信息的汪洋大海所沉沒,從中準(zhǔn)時(shí)發(fā)覺有用的學(xué)問,提高信息利用率呢?這時(shí)消失了新的技術(shù)——數(shù)據(jù)挖掘(DataMining)技術(shù)便應(yīng)用而生了。

面對(duì)海量的存儲(chǔ)數(shù)據(jù),如何從中發(fā)覺有價(jià)值的信息或?qū)W問,成為一項(xiàng)特別艱難的任務(wù)。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并快速進(jìn)展起來的。數(shù)據(jù)挖掘討論的目的主要是發(fā)覺學(xué)問、使數(shù)據(jù)可視化、訂正數(shù)據(jù)。

二.概述

1,數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和學(xué)問的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)覺學(xué)問的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的,可以是演繹的,也可以是歸納的。發(fā)覺了的學(xué)問可以被用于信息管理、查詢優(yōu)化、決策支持、過程掌握等,還可以進(jìn)行

數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計(jì)技術(shù)和人工智能以及學(xué)問工程等領(lǐng)域的討論成果構(gòu)建自己的理論體系,是一個(gè)交叉學(xué)科領(lǐng)域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等技術(shù)。2,數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘就是對(duì)觀測(cè)到的數(shù)據(jù)集進(jìn)行分析,目的是發(fā)覺未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對(duì)其有價(jià)值的新奇方式來總結(jié)數(shù)據(jù)。它利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)覺數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策和猜測(cè)。

數(shù)據(jù)挖掘的過程就是學(xué)問發(fā)覺的過程,其所能發(fā)覺的學(xué)問有如下幾種:廣義型學(xué)問,反映同類事物共同性質(zhì)的學(xué)問;特征型學(xué)問,反映事物各方面的特征學(xué)問;差異型學(xué)問,反映不同事物之間屬性差別的學(xué)問;關(guān)聯(lián)型學(xué)問,反映事物之間依靠或關(guān)聯(lián)的學(xué)問;猜測(cè)型學(xué)問,依據(jù)歷史的和當(dāng)前的數(shù)據(jù)推想將來數(shù)據(jù);偏離型學(xué)問,揭示事物偏離常規(guī)的特別現(xiàn)象。全部這些學(xué)問都可以在不同的概念層次上被發(fā)覺,隨著概念樹的提升,從微觀到中觀再到宏觀,以滿意不同用戶、不同層次決策的需要。

數(shù)據(jù)挖掘是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)械學(xué)、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計(jì)算等的交叉學(xué)科,是目前國(guó)際上數(shù)據(jù)庫和決策支持領(lǐng)域的最前沿的討論方向之一。

3,數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘通過猜測(cè)將來趨勢(shì)及行為,做出猜測(cè)性的、基于學(xué)問的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)覺隱含的、有意義的學(xué)問,按其功能可分為以下幾類。

3.1關(guān)聯(lián)分析(AssociationAnalysis)

關(guān)聯(lián)分析能查找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規(guī)章和序列模式。關(guān)聯(lián)規(guī)章是發(fā)覺一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依靠性。

3.2聚類

輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按肯定的規(guī)章將數(shù)據(jù)劃分為合理的集合,即將對(duì)象分組為多個(gè)類或簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相像度,而在不同簇中的對(duì)象差別很大。聚類增加了人們對(duì)客觀現(xiàn)實(shí)的熟悉,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。

3.3自動(dòng)猜測(cè)趨勢(shì)和行為

數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中進(jìn)行分類和猜測(cè),查找猜測(cè)性信息,自動(dòng)地提出描述重要數(shù)據(jù)類的模型或猜測(cè)將來的數(shù)據(jù)趨勢(shì),這樣以往需要進(jìn)行大量手工分析的問題如今可以快速直接由數(shù)據(jù)本身得出結(jié)論。。

3.4概念描述

對(duì)于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡(jiǎn)潔的描述形式來描述匯合的數(shù)據(jù)集。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述并概括出這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)分性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)分。生成一個(gè)類的特征性只涉及該類對(duì)象中全部對(duì)象的共性。生成區(qū)分性描述的方法許多,如決策樹方法、遺傳算法等。

3.5偏差檢測(cè)

數(shù)據(jù)庫中的數(shù)據(jù)常有一些特別記錄,從數(shù)據(jù)庫中檢測(cè)這些偏差很有意義。偏差包括許多潛在的學(xué)問,如分類中的反常實(shí)例、不滿意規(guī)章的特例、觀測(cè)結(jié)果與模型猜測(cè)值的偏差、量值隨時(shí)間的變化等。偏差檢測(cè)的基本方法是查找觀測(cè)結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測(cè)欺詐行為,或市場(chǎng)分析中分析特別消費(fèi)者的消費(fèi)習(xí)慣。

三.目前的討論現(xiàn)狀及存在的主要問題

自KDD一詞首次消失在1989年8月進(jìn)行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議以來。迄今為止,由美國(guó)人工智能協(xié)會(huì)主辦的KDD國(guó)際研討會(huì)已經(jīng)召開了13次,規(guī)模由原來的專題爭(zhēng)論會(huì)進(jìn)展到國(guó)際學(xué)術(shù)大會(huì),人數(shù)由二三十人到超過千人,論文收錄數(shù)量也快速增加,討論重點(diǎn)也從發(fā)覺方法漸漸轉(zhuǎn)向系統(tǒng)應(yīng)用直到轉(zhuǎn)向大規(guī)模綜合系統(tǒng)的開發(fā),并且注意多種發(fā)覺策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會(huì)議也把數(shù)據(jù)挖掘和學(xué)問發(fā)覺列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。

與國(guó)外相比,國(guó)內(nèi)對(duì)DMKD的討論稍晚,沒有形成整體力氣。1993年國(guó)家自然科學(xué)基金首次支持我們對(duì)該領(lǐng)域的討論項(xiàng)目。目前,國(guó)內(nèi)的很多科研單位和高等院校競(jìng)相開展學(xué)問發(fā)覺的基礎(chǔ)理論及其應(yīng)用討論,這些單位包括清華高校、中科院計(jì)算技術(shù)討論所、空軍第三討論所、海軍裝備論證中心等。其中,北京系統(tǒng)工程

討論所對(duì)模糊方法在學(xué)問發(fā)覺中的應(yīng)用進(jìn)行了較深化的討論,北京高校也在開展對(duì)數(shù)據(jù)立方體代數(shù)的討論,華中理工高校、復(fù)旦高校、浙江高校、中國(guó)科技高校、中科院數(shù)學(xué)討論所、吉林高校等單位開展了對(duì)關(guān)聯(lián)規(guī)章開采算法的優(yōu)化和改造;南京高校、四川聯(lián)合高校和上海交通高校等單位探討、討論了非結(jié)構(gòu)化數(shù)據(jù)的學(xué)問發(fā)覺以及Web數(shù)據(jù)挖掘。

四.討論內(nèi)容

1,數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘從前未知的、有效的、可有用的信息,并使用這些信息做出決策或豐富學(xué)問。

數(shù)據(jù)挖掘的一般過程如下流程圖所示:

圖1,數(shù)據(jù)掘的一般過程

2.1神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)章為基礎(chǔ)。它主要有三種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)。為

2.2決策樹

決策樹學(xué)習(xí)著眼于從一組無次序、無規(guī)章的事中推理出決策樹表示形式的分類規(guī)章。它采納自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并依據(jù)不同的屬性值推斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論。

2.3遺傳算法

遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過程的算法?;谶M(jìn)化理論,并采納遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法。由三個(gè)基本算子組成:繁殖、交叉、變異。

2.4傳統(tǒng)統(tǒng)計(jì)分析

這類技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)的基礎(chǔ)上。在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采納判別分析、因子分析、相關(guān)分析、多元回歸分析及偏最小二乘回歸方法等。

2.5關(guān)聯(lián)規(guī)章

關(guān)聯(lián)規(guī)章是發(fā)覺一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依靠性。關(guān)聯(lián)規(guī)章是展現(xiàn)屬性:值頻繁地在給定數(shù)據(jù)集中一起消失的條件,是數(shù)據(jù)挖掘中作用比較廣泛的學(xué)問之一。

2.6可視化技術(shù)

可視化技術(shù)是利用計(jì)算機(jī)圖形學(xué)和圖像技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)??梢暬瘮?shù)據(jù)挖掘技術(shù)將可視化有機(jī)地融合到數(shù)據(jù)挖掘之中,使用戶對(duì)于數(shù)據(jù)挖掘有一個(gè)更加直接直觀清楚的了解,供應(yīng)讓用戶有效、主動(dòng)參加數(shù)據(jù)挖掘過程的方法。

3,數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

數(shù)據(jù)挖掘技術(shù)從一開頭就是面對(duì)應(yīng)用的。它不僅是面對(duì)特定數(shù)據(jù)庫的簡(jiǎn)潔檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì),分析,綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)覺大事間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)將來的活動(dòng)進(jìn)行猜測(cè)。

一般DataMining較長(zhǎng)被應(yīng)用的領(lǐng)域包括金融業(yè)、保險(xiǎn)業(yè)、零售業(yè)、直效行銷業(yè)、通訊業(yè)、制造業(yè)以及醫(yī)療服務(wù)業(yè)等。更廣義的說法是:數(shù)據(jù)挖掘意味著在一些事實(shí)或觀看數(shù)據(jù)的集合中查找模式的決策支持過程。

4,數(shù)據(jù)挖掘的進(jìn)展方向

目前,數(shù)據(jù)挖掘的討論方面主要有:數(shù)據(jù)庫學(xué)問發(fā)覺方面,將學(xué)問發(fā)覺(KDD)與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)緊密結(jié)合,力圖充分利用Web中的豐富資源;機(jī)器學(xué)習(xí)方面,進(jìn)一步討論學(xué)問發(fā)覺方法,盼望克服現(xiàn)存算法的計(jì)算性瓶頸,如注意對(duì)Bayes(貝葉斯)方法以及Boosting算法的討論和提高;統(tǒng)計(jì)領(lǐng)域,加大傳統(tǒng)統(tǒng)計(jì)方法在數(shù)據(jù)挖掘中的應(yīng)用。數(shù)據(jù)挖掘討論正蓬勃開展,在今后還會(huì)掀起更大的波瀾,其討論焦點(diǎn)集中到以下幾個(gè)方面:討論特地用于學(xué)問發(fā)覺的數(shù)據(jù)挖掘語言,或許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得學(xué)問發(fā)覺的過程能夠被用戶理解,也便于在學(xué)問發(fā)覺過程中的人機(jī)交互;討論在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特殊是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)庫服務(wù)器協(xié)作,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。

5,數(shù)據(jù)挖掘的新技術(shù)

Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。這就必需要有一個(gè)模型來清楚地描述Web上的數(shù)據(jù),而查找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除此之外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。

XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很簡(jiǎn)單地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對(duì)應(yīng)起來,實(shí)施精確地查詢與模型抽取。利用XML.Web設(shè)計(jì)人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。

6,數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)

雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)在各方面都得到了廣泛的應(yīng)用,但數(shù)據(jù)挖掘技術(shù)的討論還不夠成熟,在應(yīng)用上有很大的局限性。正是這些局限性,促使數(shù)據(jù)挖掘技術(shù)進(jìn)一步的進(jìn)展:

(1)挖掘的對(duì)象數(shù)據(jù)庫更大,維數(shù)更高,屬性之間更簡(jiǎn)單,數(shù)據(jù)挖掘處理的數(shù)據(jù)通常非常巨大。

(2)數(shù)據(jù)丟失問題因大部分?jǐn)?shù)據(jù)庫不是為學(xué)問發(fā)覺而定做的,那么它就有可能會(huì)存在一些重要的數(shù)據(jù)和屬性丟失的問題。

(3)多種形式的輸入數(shù)據(jù)目前數(shù)據(jù)挖掘工具能處理的數(shù)據(jù)形式有限,一般只能處理數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)。

(4)網(wǎng)絡(luò)與分布式環(huán)境的KDD問題隨網(wǎng)絡(luò)的進(jìn)展,資源的豐富,技術(shù)人員各自獨(dú)立處理分別數(shù)據(jù)庫的工作方式應(yīng)是可協(xié)作的。

五.討論達(dá)到的預(yù)期結(jié)果

系統(tǒng)的介紹數(shù)據(jù)挖掘技術(shù),使更多的討論人員在數(shù)據(jù)庫中發(fā)覺有用的,有潛在價(jià)值的數(shù)據(jù)學(xué)問。

六.小結(jié)

通過各方面資料的查找,理解了基本的數(shù)據(jù)挖掘概念、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)挖掘的實(shí)際應(yīng)用及國(guó)內(nèi)外現(xiàn)狀。在論文中將對(duì)數(shù)據(jù)挖掘的概念以及進(jìn)展概況進(jìn)行介紹,并總結(jié)數(shù)據(jù)挖掘中使用的技術(shù),主要結(jié)合當(dāng)前的討論成果,分析了數(shù)據(jù)挖掘領(lǐng)域的。討論領(lǐng)域方面,可能主要集中在網(wǎng)絡(luò)信息中的主要應(yīng)用。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論