第1章-數據挖掘介紹_第1頁
第1章-數據挖掘介紹_第2頁
第1章-數據挖掘介紹_第3頁
第1章-數據挖掘介紹_第4頁
第1章-數據挖掘介紹_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

*大數據人工智能技術服務部長中石油大學《Hadoop、Spark應用開發(fā)》外聘教師泰克網絡實驗室(北京)華北區(qū)域大數據教學講師泰克教育集團新工科雙創(chuàng)實踐云研發(fā)組核心工程師北京城市學院《數據結構》兼職老師(副教授)軒轅網絡協(xié)同育人師資培訓項目主講老師

重慶工業(yè)職業(yè)技術學院專業(yè)技術顧問北京城市學院《數據結構》兼職教師安徽工程大學大數據實訓負責人賀州學院大數據師資培訓負責人電話Q:2621459975主講教師第一章數據挖掘介紹學完本課程后,您將能夠:了解什么是數據挖掘了解數據挖掘與數據分析的區(qū)別掌握數據挖掘的流程理解數據和屬性類型了解數據挖掘的開發(fā)工具了解數據挖掘的學習路徑數據挖掘概述數據挖掘流程數據、屬性和度量數據挖掘開發(fā)工具數據挖掘學習路徑金融針對商業(yè)銀行中的零售客戶進行細分,基于零售客戶的特征變量(人口特征、資產特征、負債特征、結算特征),計算客戶之間的距離。然后,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。警務大數據信息技術在公安工作中的應用,為公安工作注入了鮮活的血液,迎來了新的發(fā)展機遇。隨著公安信息化建設進程的加快,大部分公安機關已經逐漸形成了案事件管理系統(tǒng)、警用地理信息系統(tǒng)、視頻監(jiān)控系統(tǒng)等信息系統(tǒng),這些信息系統(tǒng)的建設和運用,極大便利了公安工作所涉及到的數據分析、數據挖掘、信息研判的處理效率,為公安機關工作提供了強有力的信息支撐。數字政府數字政府是指在現(xiàn)代計算機、網絡通信等技術支撐下,政府機構日常辦公、信息收集與發(fā)布、公共管理等事務在數字化、網絡化的環(huán)境下進行的國家行政管理形式。包含多方面的內容,如政府辦公自動化、政府實時信息發(fā)布、各級政府間的可視遠程會議、公民隨機網上查詢政府信息、電子化民意調查和社會經濟統(tǒng)計、電子選舉(或稱“數字民主”)等等。智慧園區(qū)智慧園區(qū)主要包含三大模塊:智能化應用系統(tǒng)、綠色節(jié)能管理和政務辦公服務平臺。廣州中國科學院軟件應用技術研究所開發(fā)的智慧園區(qū)信息服務平臺面向的對象包括園區(qū)管理者、運營商、政府部門、企業(yè)和業(yè)主。用戶的多元化對平臺的需求各不相同,因此對不同用戶的需求進行分析,研究各類應用的面向對象和領域,通過統(tǒng)一服務管理平臺實現(xiàn)應用定制化是最終可以面向各類服務對象的關鍵。電商電商中的猜你喜歡,應該是大家最為熟悉的。在網絡上購物,總會有“猜你喜歡”、“根據您的瀏覽歷史記錄精心為您推薦”、“購買此商品的顧客同時也購買了商品”、“瀏覽了該商品的顧客最終購買了商品”,這些都是推薦引擎運算的結果。數據挖掘可以解決哪些問題如何進行金融行業(yè)客戶分群?如何對企業(yè)及法人進行風險預警,維穩(wěn)防范?如何打造政府辦公自動化?如何能降低用戶流失率?如何細分現(xiàn)有目標市場?如何制定交叉銷售策略以提升銷售額?數據挖掘概述數據挖掘是通過對大量的數據進行分析,以發(fā)現(xiàn)和提取隱含在其中的具有價值的信息和知識的過程。與數據挖掘相關聯(lián)的其他名稱:數據庫內知識發(fā)現(xiàn)(KDD-Knowledgediscoveryindatabases)數據/模式分析商業(yè)智能人工智能……大數據概念維基百科:“大數據是指無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數據集合”。麥肯錫:大數據指的是那些大小超過標準數據庫工具軟件能否收集、存儲、管理和分析的數據集。Gartner:“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增產率和多樣化的信息資產。IDC:一般會涉及2種以上數據形式,數據量100T以上,且是高速、實時數據流;或者從小數據開始,但數據每年增長60%。數據挖掘與大數據的關系數據挖掘與數據分析的關系數據分析數據挖掘概念對數據進行分析,重點是觀察數據從大量的數據中,挖掘出未知的、且有價值的信息和知識的過程。重點是從數據中發(fā)現(xiàn)“知識規(guī)則”。分析目的對歷史數據進行統(tǒng)計學上的一些分析數據挖掘更側重于機器對未來的預測分析過程側重于統(tǒng)計學上面的一些方法,經過人的推理演譯得到結論側重由機器進行自學習,直接得到結論分析結果準確的統(tǒng)計量一般是模糊的結果使用工具用到成熟的的分析工具,比如EXCEL、SPSS、SAS等數據挖掘則需要有編程基礎聯(lián)系都跟數據打交道知識技能有很多交叉點在職業(yè)上他們沒有很明顯的界限數據分析與數據挖掘的本質都是一樣的,都是從數據里面發(fā)現(xiàn)關于業(yè)務的知識(有價值的信息),從而幫助業(yè)務運營、改進產品以及幫助企業(yè)做更好的決策。狹義的數據分析與數據挖掘構成廣義的數據分析。數據挖掘覆蓋的學科數據挖掘是多個領域的融合:人工智能數據庫統(tǒng)計學并行計算圖形學……統(tǒng)計學/人工智能機器學習/模式識別圖形學/數據庫數據挖掘數據挖掘模式分類根據訓練數據是否擁有標記信息監(jiān)督學習半監(jiān)督學習非監(jiān)督學習根據應用角度分類回歸聚類神經網絡預處理特征選擇…分類對現(xiàn)有的數據進行學習,得到一個目標函數或規(guī)則,把每個屬性集x映射到一個預先定義的類標號y上。右圖的分類案例為識別手寫數字圖像。回歸回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關系,建立回歸模型,并根據實測數據來求解模型的各個參數,然后評價回歸模型是否能夠很好的擬合實測數據。右圖的回歸案例為將299個增強(300個決策樹)與單個決策樹回歸器進行比較,屬于AdaBoost決策樹回歸算法。聚類將數據對象分組成為多個類或者簇,它的目標是:在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。右圖的聚類案例為查找高密度的核心樣本并從中擴展聚類,屬于DBSCAN聚類算法。神經網絡由眾多的神經元可調的連接權值連接而成,具有大規(guī)模并行處理、分布式信息存儲、良好的自組織自學習能力等特點。右圖的神經網絡案例為在MNIST數據集上訓練的MLPClassifier中的第一層權重。數據預處理在工程實踐中,我們得到的數據會存在有缺失值、重復值、單位不統(tǒng)一等問題,在使用之前需要進行數據預處理。右圖的預處理案例為未縮放的數據與StandardScaler縮放的數據應用PCA之后的可視化圖進行比較

。第一個圖中各個特征的數量級相差很大,第二個圖中所有特征的數量級大致相同。通過樸素貝葉斯分類器后StandardScaler縮放的數據的預測精度遠大于未縮放的數據。特征選擇將高維空間的樣本通過映射或者是變換的方式轉換到低維空間,達到降維的目的,然后通過特征選取刪選掉冗余和不相關的特征來進一步降維。右圖的特征選擇案例為通過交叉驗證選擇特征數量。最佳特征數量是3。數據挖掘誤區(qū)數據挖掘是人們處理商業(yè)問題的某些方法,通過適量的數據挖掘來獲得有價值的結果,最好的數據挖掘工程師往往是那些熟悉和理解業(yè)務的人。一個平臺不會因為數據挖掘就變成金鑰匙,反而一個擁有數據挖掘思維的人員才是關鍵,而且他還必須對業(yè)務數據有深刻的認識,這樣才可能從數據中導出模式指引業(yè)務的改善。數據挖掘概述數據挖掘流程數據、屬性和度量數據挖掘開發(fā)工具數據挖掘學習路徑CRISP-DM模型CRISP-DM(跨行業(yè)數據挖掘標準流程)是CrossIndustryStandardProcess—DataMining的縮寫,是當今數據挖掘業(yè)界通用流行的標準之一。它強調數據挖掘技術在商業(yè)中的應用,是用以管理并指導DataMiner有效、準確開展數據挖掘工作以期獲得最佳挖掘成果的一系列工作步驟的規(guī)范標準。CRISP-DM模型的基本步驟包括:商業(yè)理解數據理解數據準備建立模型模型評估模型實施商業(yè)理解數據理解實施評估建模數據準備商業(yè)理解(BusinessUnderstanding)這一初始階段集中在從商業(yè)角度理解項目的目標和要求,然后把理解轉化為數據挖掘問題的定義和一個旨在實現(xiàn)目標的初步計劃。具體的包括:確定業(yè)務目標:分析項目的背景,從業(yè)務視點分析項目的目標和需求,確定業(yè)務角度的成功標準;項目可行性分析:分析擁有的資源,條件和限制,風險估計,成本和效益估計;確定數據挖掘目標:明確數據挖掘的目標和成功標準,數據挖掘的目標和業(yè)務目標是不一樣的,前者指技術上的,例如生成一棵決策樹等;提出項目計劃:對整個項目做一個計劃,初步估計用到的工具和技術。數據理解(DataUnderstanding)數據理解階段開始于原始數據的收集,然后是熟悉數據,標明數據質量問題,探索數據進而對數據初步理解,發(fā)覺有趣的子集以形成對隱藏信息的假設。具體地,包括:收集原始數據:收集本項目所涉及到的數據,如有必要,把數據裝入數據處理工具,并作一些初步的數據集成的工作,生成相應報告;描述數據:對數據做一些大致的描述,例如記錄數、屬性數等,給出相應報告;探索數據:對數據做簡單的統(tǒng)計分析,例如關鍵屬性的分布等;檢查數據質量:包括數據是否完整、數據是否有錯、是否有缺失值等問題。數據準備(DataPreparation)數據準備階段包括所有從原始的未加工的數據構造最終數據集的活動(這些數據集指將要嵌入建模工具中的數據)。數據準備任務可能被實施多次,而且沒有任何規(guī)定的順序。這些任務包括表格、記錄和屬性的選擇以及按照建模工具要求,對數據的轉換和清洗。具體包括:數據選擇:根據數據挖掘目標和數據質量選擇合適的數據,包括表的選擇、記錄選擇和屬性選擇;數據清潔:提高選擇好的數據的質量,例如去除噪音,填充缺失值等;數據創(chuàng)建:在原有數據的基礎上生成新的屬性或記錄;數據合并:利用表連接等方式將幾個數據集合并在一起;數據格式化:把數據轉換成適合數據挖掘處理的格式。建立模型(Modeling)在此階段,主要是選擇和應用各種建模技術,同時對它們的參數進行校準以達到最優(yōu)值。通常對于同一個數據挖掘問題類型,會有多種模型技術。一些技術對數據格式有特殊的要求。因此,常常需要返回到數據準備階段。具體包括:選擇建模技術:確定數據挖掘算法和參數,可能會利用多個算法;測試方案設計:設計某種測試模型的質量和有效性的機制;模型訓練:在準備好的數據集上運行數據挖掘算法,得出一個或者多個模型;模型測試評估:根據測試方案進行測試,從數據挖掘技術的角度確定數據挖掘目標是否成功。模型評估(Evaluation)進入項目中的這個階段時,你已經建立了一個模型(或者多個),從數據分析的角度來看,該模型似乎有很高的質量。在模型最后發(fā)布前,有一點是很重要的——更為徹底地評估模型和檢查建立模型的各個步驟,從而確保它真正地達到了商業(yè)目標。此階段關鍵目的是決定是否存在一些重要的商業(yè)問題仍未得到充分地考慮。關于數據挖掘結果的使用決定應該在此階段結束時確定下來。具體包括:結果評估:從商業(yè)角度評估得到的模型,甚至實際試用該模型測試其效果;過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤;確定下一步工作:根據結果評估和過程回顧得出的結論,確定是部署該挖掘模型還是從某個階段重新開始。模型實施(Deployment)模型的創(chuàng)建通常并不是項目的結尾。即使建模的目的是增加對數據的了解,所獲得的了解也需要進行組織并以一種客戶能夠使用的方式呈現(xiàn)出來。具體包括:實施計劃:對在業(yè)務運作中部署模型作出計劃;監(jiān)控和維護計劃:如何監(jiān)控模型在實際業(yè)務中的使用情況,如何維護該模型;作出最終報告:項目總結,項目經驗和項目結果;項目回顧:回顧項目的實施過程,總結經驗教訓;對數據挖掘的運行效果做一個預測。數據挖掘標準流程業(yè)務理解數據理解數據準備建立模型模型評價開始是否明確需求否否數據探索結構分析分布特性特征描述……回歸分類關聯(lián)分析結果應用理解業(yè)務背景,評估分析需求是是否滿足要求收集數據否是是建立模型樸素貝葉斯SVM算法決策樹神經網絡K均值算法層次聚類FP-growthApriori……均方根誤差均方誤差正概率統(tǒng)計…………群間差異度群內相似度業(yè)務符合度支持度置信度……均方根誤差均方誤差正概率統(tǒng)計……數據清洗數據轉換KNN算法邏輯回歸聚類線性回歸…………(簡答題)CRISP-DM(跨行業(yè)數據挖掘標準流程)模型的基本步驟有哪些?(單選題)CRISP-DM模型中的數據準備環(huán)節(jié)除了包括數據選擇,數據清洗,數據合并外,還包含以下哪個步驟?()A、確定業(yè)務目標B、數據變換C、選擇建模技術D、模型結果評估

數據挖掘概述數據挖掘流程數據、屬性和度量數據挖掘開發(fā)工具數據挖掘學習路徑數據對象和屬性類別現(xiàn)實中的數據一般有噪聲、數量龐大并且可能來自不同數據源。數據集由數據對象組成,一個數據對象代表一個實體。數據對象:又稱樣本、實例、數據點或對象。數據對象以數據元組的形式存放在數據庫中,數據庫的行對應于數據對象,列對應于屬性。屬性是一個數據字段,表示數據對象的特征,在文獻中,屬性、維度(dimension)、特征(feature)、變量(variance)可以互換的使用。“維”,一般用在數據倉庫中?!疤卣鳌?,一般用在機器學習中。“變量”,一般用在統(tǒng)計學中。一個屬性的類型由該屬性可能具有的值的集合決定,可以是標稱的、二元的、序數的、數值的。標稱屬性特點:標稱屬性的值是一些符號或事物的名稱。每個值代表某種類別、編碼、狀態(tài),因此標稱屬性又被看做是分類的(categorical)。標稱屬性的值不具有有意義的序,而且不是定量的。(也就是說,給定一個對象集,找出這種屬性的均值沒有意義)。二元屬性特點:二元屬性是一種標稱屬性,只有兩個狀態(tài):0或1,其中0通常表示該屬性不出現(xiàn),1表示出現(xiàn)。二元屬性又稱布爾屬性,如果兩種狀態(tài)對應的是true和false。序數屬性特點屬性對應的可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的差是未知的。(也就是對應的值有先后次序)其它例:drink_size,表示飲料杯的大?。盒 ⒅?、大,這些值具有有意義的先后次序。序數屬性可以通過把數值量的值域劃分成有限個有序類別(如,0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意),把數值屬性離散化而得到。可以用眾數和中位數表示序數屬性的中性趨勢,但不能定義均值。標稱、二元和序數屬性都是定性的,即,它們描述對象的特征,而不給出實際大小或數值。數值屬性特點是定量的可度量的量,用整數或實數表示。可以是區(qū)間標度的或比率標度的。區(qū)間標度屬性用相等的單位尺度度量。區(qū)間屬性的值。比例標度屬性具有固定零點的數值屬性。離散屬性與連續(xù)屬性機器學習中的分類算法通常需要把屬性分為離散的和連續(xù)的。離散屬性具有有限個或無限個可數個數,可以用(或不用)整數表示。連續(xù)屬性如果屬性不是離散的,則它是連續(xù)的。數據集的類型數據集(dataset):數據集是指很多數據對象組成的集合。數據對象有時也叫作記錄、點、向量、模式、事件、案例、樣本、觀測或實體。訓練集:用來訓練模型。測試集:用來評估模型和預測數據。數據集的一般特性:維度,稀疏性,分辨率。數據集的維度維度:一組數據的組織形式(一維、二維或多維)。一維數據由對等關系的有序或無序數據構成,采用線性方式組織。二維數據由多個一維數據構成,是一維數據的組合形式,比如說表格就是二維數據的一種。多維數據由一維或二維數據在新維度上擴展形式,比如說加上時間維度。高維數據利用最簡單的二元關系展示數據間的復雜結構,比如說鍵值對。數據集的稀疏性在矩陣中,如果數值為零的元素遠大于非零元素的個數,且非零元素分布沒有規(guī)律時,這樣的矩陣被稱作稀疏矩陣;如果非零元素數目占據絕大多數時,這樣的矩陣被稱作稠密矩陣。稀疏矩陣在工程應用中經常被使用,尤其是在通信編碼和機器學習中。若編碼矩陣或特征表達矩陣是稀疏矩陣時,其計算速度會大大提升。對于機器學習而言,稀疏矩陣應用非常廣,比如在數據特征表示、自然語言處理等領域。數據集的分辨率數字圖像就是能夠在計算機上顯示和處理的圖像。自然界中的圖像都是模擬量,將模擬圖像經過離散化之后,得到用數字表示的圖像,圖像的數字化包括采樣和量化兩個過程。采樣是指將在空間上連續(xù)的圖像轉換成離散的采樣點(即像素)集的操作,即:空間坐標的離散化;把采樣后所得到各像素的灰度值從模擬量到離散量的轉化稱為圖像灰度的量化。即:灰度的離散化??臻g分辨率越高,圖像質量越好,空間分辨率越低,圖像質量越差,會出現(xiàn)棋盤模式;灰度分辨率越高,圖像質量越好,灰度分辨率越低,圖像質量越差數據匯總統(tǒng)計匯總統(tǒng)計是量化,用單個數或數的小集合捕獲可能很大的值集的各種特征。中心趨勢度量:均值、中位數和眾數。度量數據散布:極差、四分位數、方差、標準差和四分位數極差中心趨勢度量均值、中位數和眾數均值:在一組數據中所有數據之和再除以這組數據的個數。加權算術均值:簡稱加權平均值。在對被測定量進行多組測定時,考慮的每組測定結果的“權”后計算出的算術平均值,是全部加權值之和除以總權。截尾均值:丟棄高低極端值后的均值。中位數:有序數據值的中間值。眾數:眾數是樣本觀測值在頻數分布表中頻數最多的那一組的組中值。中列數:最大和最小值的平均值。正傾斜:眾數出現(xiàn)在小于中位數的值上。負傾斜:眾數出現(xiàn)在大于中位數的值上。度量數據散布極差、四分位數、方差、標準差和四分位數極差極差:最大值與最小值之差。分位數:把數據劃分成基本大小相等的連貫集合。四分位數:也稱四分位點,是指在統(tǒng)計學中把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值。百分位數:如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。第一個四分位數:Q1,第25個百分位數。第三個四分位數:Q3,第75個百分位數。四分位數極差IQR:Q3-Q1。數據挖掘概述數據挖掘流程數據、屬性和度量數據挖掘開發(fā)工具數據挖掘學習路徑數據挖掘開發(fā)工具MLSPythonSparkMLlibRapidMinerIBMSPSSModelerOracleDataMiningMLS易用:通過可視化的拖拽式工作流,實現(xiàn)數據建模、分析、預測、可視化。開放:交互式Notebook,支持多種開源建模語言(Python等)。豐富:預置豐富的機器學習算法,滿足從數據導入和處理,到模型訓練和評估、導出,覆蓋預測分析端到端業(yè)務。一站式:提供特征工程、機器學習算法、建模、預測、模型全生命周期管理的機器學習一站式機器學習應用PythonPython是一種解釋型、面向對象、動態(tài)數據類型的高級程序設計語言。Python由GuidovanRossum于1989年底發(fā)明,第一個公開發(fā)行版發(fā)行于1991年。SparkMLlib便于使用:可用于Ja

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論