版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、淺析數(shù)據(jù)挖掘技術(shù)論文導(dǎo)讀:為了適應(yīng)信息處理新需求和社會(huì)發(fā)展各方面的迫切需要而發(fā)展起來(lái)一種新的信息分析技術(shù)。這種技術(shù)稱為數(shù)據(jù)挖掘。提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘的目標(biāo)是從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的知識(shí)。關(guān)鍵詞:數(shù)據(jù)挖掘,信息分析,提取,知識(shí)社會(huì)的發(fā)展進(jìn)入了網(wǎng)絡(luò)信息時(shí)代,各種形式的數(shù)據(jù)海量產(chǎn)生,在這些數(shù)據(jù)的背后隱藏著許多重要的信息,如何從這些數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)有用信息,越來(lái)越受到關(guān)注。為了適應(yīng)信息處理新需求和社會(huì)發(fā)展各方面的迫切需要而發(fā)展起來(lái)一種新的信息分析技術(shù),這種技術(shù)稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的
2、實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。一數(shù)據(jù)挖掘的對(duì)象數(shù)據(jù)挖掘可以在任何類型的數(shù)據(jù)上進(jìn)行,即可以來(lái)自社會(huì)科學(xué),又可以來(lái)自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測(cè)得到的數(shù)據(jù)。論文檢測(cè)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),可以是面向?qū)ο蟮母呒?jí)數(shù)據(jù)庫(kù)系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫(kù),如空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)等,還可以是Web數(shù)據(jù)信息。二數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的目標(biāo)是從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的知識(shí)。它的任務(wù)主要是分類、預(yù)測(cè)、時(shí)間序列模式、聚類分析、關(guān)聯(lián)分析預(yù)測(cè)和偏差分析等。1分類。分類就是按照一定的標(biāo)準(zhǔn)把數(shù)據(jù)對(duì)
3、象劃歸成不同類別的過(guò)程。2預(yù)測(cè)。預(yù)測(cè)就是通過(guò)對(duì)歷史數(shù)據(jù)的分析找出規(guī)律,并建立模型,通過(guò)模型對(duì)未來(lái)數(shù)據(jù)的種類和特征進(jìn)行分析。3時(shí)間序列模式。時(shí)間序列模式就是根據(jù)數(shù)據(jù)對(duì)象隨時(shí)間變化的規(guī)律或趨勢(shì)來(lái)預(yù)測(cè)將來(lái)的值。4聚類分析。聚類分析是在沒有給定劃分類的情況下,根據(jù)數(shù)據(jù)信息的相似度進(jìn)行數(shù)據(jù)聚集的一種方法。5關(guān)聯(lián)分析預(yù)測(cè)。關(guān)聯(lián)分析就是對(duì)大量的數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)滿足一定支持度和可信度的數(shù)據(jù)項(xiàng)之間的聯(lián)系規(guī)則。6偏差分析。偏差分析就是通過(guò)對(duì)數(shù)據(jù)庫(kù)中的孤立點(diǎn)數(shù)據(jù)進(jìn)行分析,尋找有價(jià)值和意義的信息。三數(shù)據(jù)挖掘的過(guò)程數(shù)據(jù)挖掘使用一定的算法從實(shí)際應(yīng)用數(shù)據(jù)中挖掘出未知、有價(jià)值的模式或規(guī)律等知識(shí),整個(gè)過(guò)程由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)
4、挖掘、模式評(píng)估、鞏固知識(shí)和運(yùn)用知識(shí)等步驟組成。1數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)挖掘的處理對(duì)象是數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,首先要清除數(shù)據(jù)噪聲和挖掘主題明顯無(wú)關(guān)的數(shù)據(jù);其次將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合并;然后將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式,這就是數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘的第一步,它是整個(gè)過(guò)程中很重要的一步,數(shù)據(jù)準(zhǔn)備是否合適將影響到數(shù)據(jù)挖掘的效率、準(zhǔn)確率以及最終模式的有效性。2數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)算法及參數(shù),分析準(zhǔn)備好的數(shù)據(jù),產(chǎn)生一個(gè)特定的模式或數(shù)據(jù)集,從而得到可能形成知識(shí)的模式模型。3模式評(píng)估。
5、由挖掘算法產(chǎn)生的模式規(guī)律,存在無(wú)實(shí)際意義或無(wú)實(shí)用價(jià)值的情況,也存在不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義的情況,甚至在某些情況下與事實(shí)相反,因此需要對(duì)其進(jìn)行評(píng)估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律。論文檢測(cè)。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面的某一處理步驟中以反復(fù)提取,從而提取出更有效的知識(shí)。4鞏固知識(shí)。完成對(duì)知識(shí)的一致性檢查,確保發(fā)現(xiàn)的知識(shí)與已知可信的知識(shí)不發(fā)生抵觸。5運(yùn)用知識(shí)。發(fā)現(xiàn)知識(shí)的目的是運(yùn)用。運(yùn)用知識(shí)有兩種方法:一種是直接運(yùn)用知識(shí)來(lái)決策;另一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí),由此可能產(chǎn)生新的問(wèn)題,而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化。四數(shù)據(jù)挖掘的常用方法當(dāng)今先進(jìn)的數(shù)據(jù)挖掘工具都提供了多種可供選擇
6、的數(shù)據(jù)挖掘算法,這是因?yàn)橐环N算法不可能完成所有不同類型的數(shù)據(jù)挖掘任務(wù),每一種數(shù)據(jù)挖掘算法都有各自的特點(diǎn)和應(yīng)用領(lǐng)域,下面介紹幾種常用的數(shù)據(jù)挖掘方法。1決策樹方法。決策樹是一種常用于預(yù)測(cè)模型的算法,它通過(guò)一系列規(guī)則將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類速度快,易于理解、精度較高,特別適合大規(guī)模的數(shù)據(jù)處理,在知識(shí)發(fā)現(xiàn)系統(tǒng)中應(yīng)用較廣。它的主要缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則。在數(shù)據(jù)挖掘中,決策樹方法主要用于分類。2神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)是模擬人類的形象直覺思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過(guò)簡(jiǎn)化、歸納、提煉總結(jié)出來(lái)的一類
7、并行處理網(wǎng)絡(luò),利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)來(lái)表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)是結(jié)構(gòu)復(fù)雜、可解釋性差、訓(xùn)練時(shí)間長(zhǎng)等。但它比較容易解決具有上百個(gè)參數(shù)的問(wèn)題,并且在處理噪聲數(shù)據(jù)方面具有高承受能力和低錯(cuò)誤率、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等優(yōu)點(diǎn),這些特性非常適合解決數(shù)據(jù)挖掘的問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。神經(jīng)網(wǎng)絡(luò)主要用于數(shù)據(jù)挖掘中分類和回歸兩類問(wèn)題的研究。3粗糙集方法。粗糙集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗糙集處理的對(duì)象是類似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗糙集的數(shù)據(jù)挖掘奠定了
8、堅(jiān)實(shí)的基礎(chǔ)。粗糙集理論能夠在缺少先驗(yàn)知識(shí)的情況下,對(duì)數(shù)據(jù)進(jìn)行分類處理。在該方法中知識(shí)是以信息系統(tǒng)的形式表示的,先對(duì)信息系統(tǒng)進(jìn)行歸約,在從經(jīng)過(guò)歸約后的知識(shí)庫(kù)抽取得到更有價(jià)值、更準(zhǔn)確的一系列規(guī)則。因此,基于粗糙集的數(shù)據(jù)挖掘算法實(shí)際上就是對(duì)大量數(shù)據(jù)構(gòu)成的信息系統(tǒng)進(jìn)行約簡(jiǎn),得到一種屬性歸約集的過(guò)程,最后抽取規(guī)則。4遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。論文檢測(cè)。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用的信息。因此,許多數(shù)據(jù)挖掘問(wèn)題可以看成是搜索問(wèn)題,數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)為搜索空間,挖掘算法是搜索策略。應(yīng)用遺傳算法在數(shù)據(jù)庫(kù)中進(jìn)行搜索,對(duì)隨
9、機(jī)產(chǎn)生的一組規(guī)則進(jìn)行進(jìn)化,直到數(shù)據(jù)庫(kù)能被該組規(guī)則覆蓋,就可以挖掘出隱含在數(shù)據(jù)庫(kù)中的規(guī)則。5模糊集方法。模糊集是基于模糊數(shù)學(xué)的一種處理方法,即利用模糊集合理論對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。模糊集和粗糙集都是針對(duì)信息和數(shù)據(jù)的模糊性的處理方法,但兩者存在不同,模糊集強(qiáng)調(diào)集合本身的含混性,粗糙集強(qiáng)調(diào)的是集合對(duì)象的不可分辨性;模糊集研究的是屬于同一類的不同對(duì)象對(duì)集合的隸屬關(guān)系,重在隸屬程度。因此,粗糙集常用于數(shù)據(jù)挖掘中的聚類問(wèn)題研究。粗糙集研究的是不同類別對(duì)象組成的集合之間的關(guān)系,重在分類。因此,粗糙集常用于數(shù)據(jù)挖掘中的分類問(wèn)題的研究。6關(guān)聯(lián)分析。關(guān)聯(lián)分析的目的是尋找隱藏
10、在數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則。尋找關(guān)聯(lián)規(guī)則即在當(dāng)前記錄的各個(gè)特征間尋找內(nèi)在的聯(lián)系。實(shí)現(xiàn)關(guān)聯(lián)分析的技術(shù)主要是統(tǒng)計(jì)學(xué)中的置信度和支持度分析。支持度和置信度是描述連接分析的兩個(gè)重要概念,前者用于衡量連接分析在整個(gè)數(shù)據(jù)集中的統(tǒng)計(jì)重要性,后者用于衡量連接分析的可信程度。一般來(lái)說(shuō),只有支持度和置信度均較高的關(guān)聯(lián)規(guī)則才可能是用戶感興趣的、有用的規(guī)則。五數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘技術(shù)在各個(gè)需要進(jìn)行信息分析的領(lǐng)域得到十分廣泛的應(yīng)用。它可以帶來(lái)顯著的經(jīng)濟(jì)效益,不僅可以控制成本,也可以給企業(yè)帶來(lái)更多效益。在金融業(yè),可以通過(guò)信用卡歷史數(shù)據(jù)的分析,判斷哪些人有風(fēng)險(xiǎn),哪些人沒有;在超市,可以通過(guò)對(duì)超市交易信息分析,安排貨價(jià)貨物擺設(shè),以提高銷售收入;在保險(xiǎn)業(yè),可以通過(guò)對(duì)保險(xiǎn)公司客戶記錄的分析,來(lái)判定哪些客戶是花費(fèi)昂貴的對(duì)象;在學(xué)校,可以通過(guò)分析學(xué)校學(xué)生課程及成績(jī)等信息,來(lái)判斷課程之間的關(guān)系。此外,在醫(yī)學(xué)中,可以利用數(shù)據(jù)挖掘技術(shù)對(duì)疾病發(fā)作前后癥狀的分析,來(lái)對(duì)病癥進(jìn)行診斷;在體育運(yùn)動(dòng)中,利用數(shù)據(jù)挖掘技術(shù)對(duì)對(duì)抗性強(qiáng)的積極運(yùn)動(dòng)進(jìn)行分析,發(fā)現(xiàn)對(duì)方弱點(diǎn),制定有效的戰(zhàn)術(shù)。六結(jié)束語(yǔ)數(shù)據(jù)挖掘技術(shù)作為一個(gè)多學(xué)科交叉的新興學(xué)科,在研究領(lǐng)域和商業(yè)領(lǐng)域得到了越來(lái)越多的應(yīng)用,尤其是在市場(chǎng)營(yíng)銷中取得了成功。企業(yè)每天都有海量數(shù)據(jù)產(chǎn)生,利用數(shù)據(jù)挖掘技術(shù)可以從這些數(shù)據(jù)信息中發(fā)現(xiàn)對(duì)企
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 信訪調(diào)解協(xié)議書
- 2025版住宅小區(qū)消防疏散指示標(biāo)識(shí)安裝合同范本3篇
- 2025年度個(gè)人股權(quán)擔(dān)保貸款合同標(biāo)準(zhǔn)版
- 2025版托老院入住老人安全防護(hù)服務(wù)協(xié)議3篇
- 2025-2030全球1-戊基-1H-吲哚行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025-2030全球電子纖維鼻咽鏡行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 行業(yè)透視對(duì)公業(yè)務(wù)市場(chǎng)細(xì)分與行業(yè)特性
- 二零二五年度廚師勞務(wù)派遣及餐飲企業(yè)員工福利協(xié)議4篇
- 二零二五年度車輛抵押貸款利率調(diào)整與通知合同3篇
- 二零二五年度菜鳥驛站快遞業(yè)務(wù)快遞員招聘與管理協(xié)議3篇
- 江西省部分學(xué)校2024-2025學(xué)年高三上學(xué)期1月期末英語(yǔ)試題(含解析無(wú)聽力音頻有聽力原文)
- 農(nóng)民工工資表格
- 【寒假預(yù)習(xí)】專題04 閱讀理解 20篇 集訓(xùn)-2025年人教版(PEP)六年級(jí)英語(yǔ)下冊(cè)寒假提前學(xué)(含答案)
- 2024年智能監(jiān)獄安防監(jiān)控工程合同3篇
- 2024年度窯爐施工協(xié)議詳例細(xì)則版B版
- 幼兒園籃球課培訓(xùn)
- 基底節(jié)腦出血護(hù)理查房
- 工程公司總經(jīng)理年終總結(jié)
- 【企業(yè)盈利能力探析的國(guó)內(nèi)外文獻(xiàn)綜述2400字】
- 統(tǒng)編版(2024新版)七年級(jí)《道德與法治》上冊(cè)第一單元《少年有夢(mèng)》單元測(cè)試卷(含答案)
- 蘇教版(2024新版)一年級(jí)上冊(cè)科學(xué)全冊(cè)教案教學(xué)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論