![學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/df77cb64-8b7f-4979-8b1b-c90c2b9524cc/df77cb64-8b7f-4979-8b1b-c90c2b9524cc1.gif)
![學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/df77cb64-8b7f-4979-8b1b-c90c2b9524cc/df77cb64-8b7f-4979-8b1b-c90c2b9524cc2.gif)
![學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/df77cb64-8b7f-4979-8b1b-c90c2b9524cc/df77cb64-8b7f-4979-8b1b-c90c2b9524cc3.gif)
![學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/11/df77cb64-8b7f-4979-8b1b-c90c2b9524cc/df77cb64-8b7f-4979-8b1b-c90c2b9524cc4.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)得到的收獲和啟發(fā)中山大學(xué)信科院數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。它是一門涉及面很廣的交叉學(xué)科,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集、模糊數(shù)學(xué)等相關(guān)技術(shù)。一、數(shù)據(jù)挖掘的主要內(nèi)容(一)數(shù)據(jù)挖掘的步驟數(shù)據(jù)挖掘包括四個步驟:(1)確定業(yè)務(wù)對象;(2)數(shù)據(jù)準(zhǔn)備(包括數(shù)據(jù)選擇,數(shù)據(jù)預(yù)處理,數(shù)據(jù)轉(zhuǎn)換);(3)數(shù)據(jù)挖掘(選擇合適的數(shù)據(jù)挖掘算法);(4)結(jié)果的解釋評估(可視化的表示)。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理要占整個數(shù)據(jù)挖掘過程的60%的工作量,數(shù)據(jù)預(yù)處理包括:數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)
2、據(jù)規(guī)約。其中:數(shù)據(jù)清理包括:(1)平滑噪聲數(shù)據(jù)(又稱臟數(shù)據(jù)),包含錯誤或存在偏離期望的孤立點值(可采用分箱、聚類、回歸技術(shù));(2)填寫空缺值或不完整數(shù)據(jù)(有些感興趣的屬性缺少屬性值,或僅包含聚類數(shù)據(jù))(可采用填充平均值、全局常量或者是采用回歸和基于貝葉斯方法的工具來填充);(3)解決數(shù)據(jù)不一致(對同一屬性采用不同的度量單位,比如對于成績采用百分制或是等級制)(可采用知識工程工具處理)。重復(fù)的元組也需要數(shù)據(jù)清理。數(shù)據(jù)集成:將數(shù)據(jù)由多個源合成一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫或數(shù)據(jù)立方體或一般文件。一般需要考慮三個問題:模式的集成,冗余屬性的相關(guān)性分析,數(shù)據(jù)值沖突的檢測與處理。 模式的集成:也是一個實體
3、識別問題。比如數(shù)據(jù)分析者或計算機(jī)如何確信一個數(shù)據(jù)庫中的customer_id和另一個數(shù)據(jù)庫中的customer_number指的是同一實體。通常,數(shù)據(jù)庫和數(shù)據(jù)倉庫的元數(shù)據(jù)可以幫助避免這個錯誤。冗余屬性的相關(guān)性分析:給定兩個屬性,根據(jù)可用的數(shù)據(jù),通過分析可以度量一個屬性可以在多大程度上蘊含另一個屬性。數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。包括:平滑、聚集、數(shù)據(jù)概化、規(guī)范化和屬性構(gòu)造。數(shù)據(jù)規(guī)約:可以用來得到數(shù)據(jù)集的規(guī)約表示,它比原始數(shù)據(jù)小得多,但仍接近于保持原始數(shù)據(jù)的完整性。在規(guī)約后的數(shù)據(jù)集上挖掘?qū)⒏行АV饕椒ㄓ校簲?shù)據(jù)立方體聚簇、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層。DM的數(shù)據(jù)源有:關(guān)
4、系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)(legacy)數(shù)據(jù)庫,以及Web數(shù)據(jù)源等等。(二)數(shù)據(jù)挖掘的主要功能和算法1.關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則挖掘是描述兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。2.分類學(xué)習(xí):分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描
5、述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法模型而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。目前比較常見的分類算法有K最近鄰居算法(K Nearest Neighbor Algorithm)、決策樹算法、貝葉斯分類和支持向量機(jī)算法(Support Vector Machine)等等。3.聚類分析:聚類就是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前聚類分析的的類型和代表算法主要有:(1) 基于劃分的聚類算法:K均值算法。它需要指定聚類個數(shù)K和K個
6、初始點,通過平方差指標(biāo)找出K個聚類,但有時為了減少平方差會將一個大的聚類分裂為幾個小的聚類。(2) 自底向上的層次聚類算法:Cure算法。用一定數(shù)量的記錄來代表一個類,然后將它們縮為類的中心。在每一步,那些有最大相似度的聚類被合并,直到聚類的個數(shù)為k。Cure算法能夠挖掘任意形狀的聚類。(3) 基于密度的聚類算法:Dbscan算法?;舅枷胧菍τ谝粋€聚類中的每一個對象,在其給定半徑的領(lǐng)域中包含的對象不能少于某一給定的最小數(shù)目,然后對具有密度連接特性的對象進(jìn)行聚類。一個聚類能夠被其中的任意一個核心對象所確定。Dbscan算法可以挖掘任意形狀的聚類,對數(shù)據(jù)輸入順序不敏感,并且具有處理異常數(shù)據(jù)(噪聲
7、)的能力。(4) 基于網(wǎng)格和密度的聚類算法:Clique算法。由于把數(shù)據(jù)空間劃分為網(wǎng)格,所以算法效率高,可以處理高維數(shù)據(jù)。但在劃分網(wǎng)格時沒有或者很少考慮數(shù)據(jù)的分布,而且用一個網(wǎng)格內(nèi)的統(tǒng)計信息來代替該網(wǎng)格內(nèi)的所有點,從而降低了聚類質(zhì)量。4.預(yù)測:預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常采用預(yù)測方差來度量。預(yù)測的主要方法有統(tǒng)計學(xué)中的回歸分析等等。5.時序模式:時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。6.偏差分析:在偏差中包括很
8、多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別二、學(xué)習(xí)體會數(shù)據(jù)挖掘的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù);挖掘過程是一個人機(jī)交互、多次反復(fù)的過程。該學(xué)科應(yīng)用廣泛,當(dāng)前主要集中應(yīng)用在電信(客戶分析),零售(銷售預(yù)測),農(nóng)業(yè)(行業(yè)數(shù)據(jù)預(yù)測),網(wǎng)絡(luò)日志(網(wǎng)頁定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫(yī)藥等方面。當(dāng)前它能解決的問題典型在于:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classifi
9、cation)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,在許多領(lǐng)域得到了成功的應(yīng)用。本人在財政部門工作,主要負(fù)責(zé)預(yù)算執(zhí)行分析工作,經(jīng)常要統(tǒng)計海量的財政預(yù)算收支數(shù)據(jù),通過統(tǒng)計結(jié)果反映預(yù)算執(zhí)行的狀況,為領(lǐng)導(dǎo)提供決策參考。例如在分析預(yù)算收入方面需要統(tǒng)計分析各月度各季度收入走勢、各種行業(yè)收入增減情況、各稅種收入變化情況、預(yù)算收入與經(jīng)濟(jì)運行間的關(guān)聯(lián)情況等,分析預(yù)算支出方面需要統(tǒng)計分析預(yù)算執(zhí)行率的快慢、
10、各支出口徑增減變化情況、預(yù)算支出進(jìn)度、民生支出基本支出建設(shè)支出對社會經(jīng)濟(jì)的影響、財政結(jié)余資金的構(gòu)成及其產(chǎn)生的原因等??梢哉f,統(tǒng)計數(shù)據(jù)、分析數(shù)據(jù)、提煉觀點貫穿于本人整個工作過程之中。通過學(xué)習(xí)本課程,給本人工作提供了很大的指導(dǎo)意義,是本人在統(tǒng)計時有了更系統(tǒng)的概念和手段,能解決以前在統(tǒng)計和分析數(shù)據(jù)時遇到的很多問題。例如,收到稅務(wù)、經(jīng)貿(mào)、工商等部門提供的數(shù)據(jù)后,存在大量的噪音數(shù)據(jù)和冗余數(shù)據(jù),很不利于數(shù)據(jù)的準(zhǔn)確分析。因此本人會將各個部門提供的數(shù)據(jù)合并成一張表把不必要的數(shù)據(jù)去掉,這個過程就相當(dāng)于數(shù)據(jù)清理和數(shù)據(jù)集成了。然后根據(jù)需要統(tǒng)計數(shù)據(jù)(如統(tǒng)計各種經(jīng)濟(jì)指標(biāo)與財政執(zhí)行之間的關(guān)聯(lián)等),把統(tǒng)計結(jié)果做成更加直觀的
11、圖表,再綜合各種客觀情況,評價數(shù)據(jù)的質(zhì)量,在此基礎(chǔ)上再利用數(shù)據(jù)起草預(yù)算執(zhí)行報告,這樣報告的可靠性和質(zhì)量會提高很多。數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛,作用很大,很有發(fā)展前景,未來的發(fā)展趨勢主要有:1.專業(yè)開發(fā)語言出現(xiàn)(DMQL)。研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,并使其走向形式化和標(biāo)準(zhǔn)化。2.尋求數(shù)據(jù)挖掘過程中更優(yōu)秀的可視化方法。(EXCEL中的透視圖)3.研究基于網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)。特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)網(wǎng)絡(luò)(遠(yuǎn)程)數(shù)據(jù)挖掘。(WEB數(shù)據(jù)挖掘)4.加強對各種非結(jié)構(gòu)化數(shù)據(jù)的開采(如對圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采)5.挖掘軟件的適用性更加靈活。如果一次挖掘不能實現(xiàn)相應(yīng)的目標(biāo),可以進(jìn)行交互式、動態(tài)性、分層挖掘等,即交互挖掘技術(shù)的發(fā)展。6.出現(xiàn)功能較強大的專用數(shù)據(jù)挖掘軟件。將來的幾個熱點發(fā)展方向包括網(wǎng)站的數(shù)據(jù)挖掘、生物信息或基因的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘等,這些領(lǐng)域具有獨特的數(shù)據(jù)性質(zhì),需要由獨特的專用軟件來支持。7. 空間數(shù)據(jù)挖掘(Spatial Data Mining)將有所突破。在SDM的理論和方法方面,重要的研究方向有:背景知識概念樹的自動生成、不確定性情況下的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、柵格矢量一體化數(shù)據(jù)挖掘、多分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國油田注水泵行業(yè)市場全景監(jiān)測及投資策略研究報告
- 高質(zhì)量提升學(xué)生體質(zhì)健康的全新方案
- 打造產(chǎn)業(yè)集群 + 跨境電商試點的方案
- 2025年鋁合金家具行業(yè)深度研究分析報告
- 空氣凈化設(shè)備出租行業(yè)供需趨勢及投資風(fēng)險研究報告
- 2025年度建筑工程監(jiān)理合同示范文本(2024版)
- 司法救助申請書
- 2025年度交通事故喪葬費援助金發(fā)放協(xié)議
- 2025-2030年中國集成材項目投資可行性研究分析報告
- 2025年度戲劇演出跨區(qū)域合作演出合同
- 《新能源汽車技術(shù)》課件-第二章 動力電池
- 拘留所被拘留人員管理教育
- 河南省天一大聯(lián)考2024-2025學(xué)年高三上學(xué)期1月期末地理含答案
- 2024-2025學(xué)年成都市高一上英語期末考試題(含答案和音頻)
- 三坐標(biāo)考試試題和答案
- 數(shù)字金融 遠(yuǎn)程音視頻手機(jī)銀行技術(shù)規(guī)范
- 《中藥調(diào)劑技術(shù)》課件- 處方調(diào)配
- 2024屆高考語文一輪復(fù)習(xí):論證思路專練(含答案)
- 2024版醫(yī)院布草洗滌承包合同:醫(yī)療設(shè)施布草清洗外包協(xié)議3篇
- 孩子教育金規(guī)劃
- 2024中考病句訓(xùn)練20題附答案 (一)
評論
0/150
提交評論