Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第1章 數(shù)據(jù)挖掘概述_第1頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第1章 數(shù)據(jù)挖掘概述_第2頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第1章 數(shù)據(jù)挖掘概述_第3頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第1章 數(shù)據(jù)挖掘概述_第4頁
Python數(shù)據(jù)挖掘算法與應(yīng)用 課件 第1章 數(shù)據(jù)挖掘概述_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第1章

數(shù)據(jù)挖掘概述什么是數(shù)據(jù)挖掘1.2學(xué)習(xí)目標(biāo)1.11.31.41.51.6數(shù)據(jù)挖掘的基本步驟及方法數(shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系數(shù)據(jù)挖掘與機器學(xué)習(xí)的關(guān)系數(shù)據(jù)挖掘十大經(jīng)典算法數(shù)據(jù)挖掘的典型應(yīng)用1什么是數(shù)據(jù)挖掘WHATISDATAMINING1.1數(shù)據(jù)、信息、知識和智慧01數(shù)據(jù)數(shù)據(jù)是對客觀事物記錄下來的、可以鑒別的符號。數(shù)據(jù)經(jīng)過處理后仍然是數(shù)據(jù),處理數(shù)據(jù)是為了便于更好地解釋,只有經(jīng)過解釋,數(shù)據(jù)才有意義,才能夠成為信息。02信息信息是對客觀世界各種事物的特征的反映,是關(guān)于客觀事實的可通訊的知識。03知識知識是反映各種事物的信息進入人們大腦,對神經(jīng)細胞產(chǎn)生作用后留下的痕跡,知識是由信息形成的智慧智慧是人類做出正確判斷的能力和對知識的正確使用,智慧可以回答為什么的問題,判斷是非、對錯、好壞,關(guān)注未來,試圖理解過去沒有理解的東西04數(shù)據(jù)挖掘的定義數(shù)據(jù)源必須是真實的、大量的、有噪聲的。發(fā)現(xiàn)的知識是可接受、可理解、可運用的。發(fā)現(xiàn)對用戶有價值的知識。并不要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。數(shù)據(jù)挖掘的功能數(shù)據(jù)總結(jié)繼承于數(shù)據(jù)分析中的統(tǒng)計分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。功能分類目的是構(gòu)造一個分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。聚類是把整個數(shù)據(jù)集分成不同的群組,目的是使群組與群組之間差別很明顯,而同一個群組之間的數(shù)據(jù)盡量相似。關(guān)聯(lián)分析尋找數(shù)據(jù)的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。預(yù)測把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。偏差檢測對分析對象中少數(shù)的、極端特例的描述,揭示內(nèi)在的原因。數(shù)據(jù)挖掘的發(fā)展簡史數(shù)據(jù)挖掘起始于20世紀下半葉。這期間計算機領(lǐng)域的人工智能也取得了巨大進展,進入了機器學(xué)習(xí)階段。20世紀下半葉1989年8月召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)了知識發(fā)現(xiàn)(KDD)這個術(shù)語。1989年8月1995年在美國計算機年會上,開始把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)的一個基本步驟。1995年到目前為止,KDD的重點已經(jīng)從發(fā)現(xiàn)方法轉(zhuǎn)向了實踐應(yīng)用。而數(shù)據(jù)挖掘則是知識發(fā)現(xiàn)(KDD)的核心部分。到目前為止數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,并且數(shù)據(jù)挖掘技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來。進入21世紀2數(shù)據(jù)挖掘的基本步驟及方法TheBasicStepsandMethodsofDataMining1.2數(shù)據(jù)挖掘的基本步驟01問題定義02建立數(shù)據(jù)挖掘庫在開始數(shù)據(jù)挖掘之前,最先的也是最重要的要求就是熟悉領(lǐng)域知識,弄清用戶的需求。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。要進行數(shù)據(jù)挖掘必須收集要挖掘的數(shù)據(jù)資源。一般建議把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中,而不是采用原有的數(shù)據(jù)庫或數(shù)據(jù)倉庫。03分析數(shù)據(jù)04調(diào)整數(shù)據(jù)分析數(shù)據(jù)的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。針對問題的需求對數(shù)據(jù)進行增刪,按照對整個數(shù)據(jù)挖掘過程的新認識組合或生成一個新的變量,以體現(xiàn)對狀態(tài)的有效描述。05建立模型06測試模型建立模型是一個反復(fù)的過程。需要仔細考察不同的模型以判斷哪個模型對具體問題最有用。先用一部分數(shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗證這個模型。模型建立好之后,必須評價得到的結(jié)果、解釋模型的價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。07實施模型建立并經(jīng)驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。數(shù)據(jù)挖掘的任務(wù)任務(wù)關(guān)聯(lián)分析關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)(簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián))網(wǎng),用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。聚類分析聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。分類分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示?;貧w分析預(yù)測它是在分析自變量和因變量之間相關(guān)關(guān)系的基礎(chǔ)上,建立變量之間的回歸方程,并將回歸方程作為預(yù)測模型,根據(jù)自變量在預(yù)測期的數(shù)量變化來預(yù)測因變量關(guān)系并表現(xiàn)為相關(guān)關(guān)系。時序模式它是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。偏差分析在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別。數(shù)據(jù)挖掘分析方法估值估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準(zhǔn)備工作。它首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運用數(shù)據(jù)挖掘技術(shù),建立一個分類模型,再將該模型用于對沒有分類的數(shù)據(jù)進行分類。分類預(yù)測其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。相關(guān)性分組或關(guān)聯(lián)規(guī)則它是通過分類或估值來進行,通過分類或估值的訓(xùn)練得出一個模型,如果對于檢驗樣本組而言該模型具有較高的準(zhǔn)確率,可將該模型用于對新樣本的未知變量進行預(yù)測。聚類它是自動尋找并建立分組規(guī)則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。3數(shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系RelationshipbetweenDataMiningandStatistics1.3數(shù)據(jù)挖掘與統(tǒng)計學(xué)的聯(lián)系數(shù)據(jù)挖掘來源于統(tǒng)計分析,而又不同于統(tǒng)計分析。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù),相反,數(shù)據(jù)挖掘是統(tǒng)計分析方法的擴展和延伸。由于數(shù)據(jù)挖掘和統(tǒng)計分析根深蒂固的聯(lián)系,常用的據(jù)挖掘工具都能夠通過可選件或自身提供統(tǒng)計分析功能。這些功能對于數(shù)據(jù)挖掘的前期數(shù)據(jù)探索和數(shù)據(jù)挖掘之后對數(shù)據(jù)進行總結(jié)和分析都是十分必要的。統(tǒng)計分析所提供的諸如方差分析、假設(shè)檢驗、相關(guān)性分析、線性預(yù)測、時間序列分析等功能都有助于數(shù)據(jù)挖掘前期對數(shù)據(jù)進行探索,發(fā)現(xiàn)數(shù)據(jù)挖掘的課題、找出數(shù)據(jù)挖掘的目標(biāo)、確定數(shù)據(jù)挖掘所需涉及的變量、對數(shù)據(jù)源進行抽樣等等。所有這些前期工作會對數(shù)據(jù)挖掘的效果產(chǎn)生重大影響。而數(shù)據(jù)挖掘的結(jié)果也需要統(tǒng)計分析的描述功能(如最大值、最小值、平均值、方差、四分位、個數(shù)、概率分配等)進行具體描述,使數(shù)據(jù)挖掘的結(jié)果能夠被用戶理解。因此,統(tǒng)計分析和數(shù)據(jù)挖掘是相輔相成的過程,兩者的合理配合是數(shù)據(jù)挖掘成功的重要條件。數(shù)據(jù)挖掘與統(tǒng)計學(xué)的區(qū)別數(shù)據(jù)挖掘常常是根據(jù)一個特定屬性去處理一個大數(shù)據(jù)集,這就意味著,傳統(tǒng)統(tǒng)計學(xué)由于可行性的原因,常常是利用一個樣本來分析處理,而所描述的樣本取自于那個大數(shù)據(jù)集。其實數(shù)據(jù)挖掘問題也常常是需要得到數(shù)據(jù)總體,例如關(guān)于一個公司的所有職工數(shù)據(jù),數(shù)據(jù)庫中的所有客戶資料,去年的所有業(yè)務(wù)等。在這種情形下,統(tǒng)計學(xué)的推斷就沒有價值了。很多情況下,數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)、非預(yù)期但很有價值的信息。這說明數(shù)據(jù)挖掘過程本質(zhì)上是實驗性的。這和確定性的分析是不同的,即它不能完全確定一個理論的,而是只能提供證據(jù)和不確定的證據(jù)。確定性分析著眼于最適合的模型,即建立一個推薦模型,這個模型也許不能很好的解釋觀測到的數(shù)據(jù)。而大部分統(tǒng)計分析提出的是確定性的分析。4數(shù)據(jù)挖掘與機器學(xué)習(xí)的關(guān)系RelationshipbetweenDataMiningandMachineLearning1.4數(shù)據(jù)挖掘與機器學(xué)習(xí)的聯(lián)系數(shù)據(jù)挖掘中用到了大量的機器學(xué)習(xí)提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫提供的數(shù)據(jù)管理技術(shù)。學(xué)習(xí)能力是智能行為的一個非常重要的特征。不具有學(xué)習(xí)能力的系統(tǒng)很難稱之為一個真正的智能系統(tǒng),而機器學(xué)習(xí)則希望系統(tǒng)(計算機)能夠利用經(jīng)驗來改善自身的性能,因此該領(lǐng)域一直是人工智能的核心研究領(lǐng)域之一。在計算機系統(tǒng)中,“經(jīng)驗”通常是以數(shù)據(jù)的形式存在的,因此,機器學(xué)習(xí)不僅涉及對人的認知學(xué)習(xí)過程的探索,還涉及對數(shù)據(jù)的分析處理。實際上,機器學(xué)習(xí)已經(jīng)成為計算機數(shù)據(jù)分析技術(shù)的創(chuàng)新源頭之一。由于幾乎所有的學(xué)科都要面對數(shù)據(jù)分析任務(wù),因此機器學(xué)習(xí)已經(jīng)開始影響到計算機科學(xué)的眾多領(lǐng)域,甚至影響到計算機科學(xué)之外的很多學(xué)科。機器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具。然而數(shù)據(jù)挖掘不僅僅要研究、拓展、應(yīng)用一些機器學(xué)習(xí)方法,還要通過許多非機器學(xué)習(xí)技術(shù)解決數(shù)據(jù)倉儲、大規(guī)模數(shù)據(jù)、數(shù)據(jù)噪聲等實踐問題。數(shù)據(jù)挖掘與機器學(xué)習(xí)的區(qū)別數(shù)據(jù)挖掘機器學(xué)習(xí)數(shù)據(jù)挖掘使用了大量的機器學(xué)習(xí)算法,也使用了一系列的工程技術(shù)。機器學(xué)習(xí)是以統(tǒng)計學(xué)為支撐的一門面向理論的學(xué)科,其不需要考慮諸如數(shù)據(jù)倉庫,OLAP等應(yīng)用工程技術(shù)數(shù)據(jù)挖掘是從目的而言的,常用在數(shù)據(jù)挖掘上的方法只是“從數(shù)據(jù)學(xué)習(xí)”機器學(xué)習(xí)是從方法而言的,機器學(xué)習(xí)不僅僅可以用在數(shù)據(jù)挖掘上,一些機器學(xué)習(xí)的子領(lǐng)域甚至與數(shù)據(jù)挖掘關(guān)系不大,如增強學(xué)習(xí)與自動控制等。數(shù)據(jù)挖掘則是使用了包括機器學(xué)習(xí)算法在內(nèi)的眾多知識的一門應(yīng)用學(xué)科,它主要是使用一系列處理方法挖掘數(shù)據(jù)背后的信息。機器學(xué)習(xí)是一門更加偏向理論性學(xué)科,其目的是為了讓計算機不斷學(xué)習(xí)找到接近目標(biāo)函數(shù)f的假設(shè)h。5數(shù)據(jù)挖掘十大經(jīng)典算法TenClassicAlgorithmsforDataMining1.5數(shù)據(jù)挖掘十大經(jīng)典算法01C4.5C4.5算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法.C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導(dǎo)致算法的低效。02K-MeansK-Means算法是一種聚類算法,把n個對象根據(jù)它們的屬性分為k個簇,k<n。它與處理混合正態(tài)分布的最大期望算法很相似,因為它們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標(biāo)是使各個簇內(nèi)部的均方誤差總和最小。03支持向量機支持向量機是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。04AprioriApriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻繁項集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集。然后由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。05EM在統(tǒng)計計算中,最大期望EM(ExpectationMaximization)算法是在概率模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量。最大期望算法經(jīng)常應(yīng)用于機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚領(lǐng)域。數(shù)據(jù)挖掘十大經(jīng)典算法06PageRankPageRank算法又稱網(wǎng)頁排名,它是根據(jù)網(wǎng)站外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量來衡量網(wǎng)站的價值。算法原理為:每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多,這個就是所謂的“鏈接流行度”,由此來衡量多少人愿意將他們的網(wǎng)站和該網(wǎng)站掛鉤。07AdaBoostAdaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器(強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。08KNNKNN算法也稱為K最近鄰分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的原理是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。09NaiveBayes樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ)及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。10CARTCART算法也稱為分類與回歸樹。在分類樹下面有兩個關(guān)鍵的思想。第一個是關(guān)于遞歸地劃分自變量空間的想法(二元切分法);第二個想法是用驗證數(shù)據(jù)進行剪枝(預(yù)剪枝、后剪枝)。在回歸樹的基礎(chǔ)上的模型樹構(gòu)建難度可能增加了,但同時其分類效果也有提升。6數(shù)據(jù)挖掘的典型應(yīng)用TypicalApplicationsofDataMining1.6數(shù)據(jù)挖掘的典型應(yīng)用應(yīng)用于醫(yī)學(xué)方面,提高診斷準(zhǔn)確率眾所周知,人體奧秘?zé)o窮無盡,遺傳密碼、人類疾病等方面都蘊含了海量數(shù)據(jù)信息。而傳統(tǒng)研究模式,單純依靠人工無法探索真正的秘密。而利用數(shù)據(jù)挖掘技術(shù)能夠有效解決這些問題,給醫(yī)療工作者帶來了極大的便利。同時,醫(yī)療體制改革背景下,醫(yī)院內(nèi)部醫(yī)療器具的管理、病人檔案資料整理等方面同樣涉及數(shù)據(jù),引進數(shù)據(jù)挖掘技術(shù),能夠深入分析疾病之間的聯(lián)系及規(guī)律,幫助醫(yī)生診斷和治療,以達到事半功倍的效果,為保障人類健康等提供強大的技術(shù)支持。應(yīng)用于金融方面,提高工作有效性銀行及金融機構(gòu)中涉及儲蓄、信貸等大量數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論