版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)導(dǎo)論第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項目實訓(xùn) 5.1數(shù)據(jù)分析概念和分類第五章大數(shù)據(jù)分析數(shù)據(jù)分析概念和分類數(shù)據(jù)分析是指收集、處理數(shù)據(jù)并獲取數(shù)據(jù)隱含信息的過程。大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)產(chǎn)生速度快、數(shù)據(jù)價值密度低等特點,這些特點增加了對大數(shù)據(jù)進(jìn)行有效分析的難度,大數(shù)據(jù)分析(BigDataAnalytics,BDA)成為當(dāng)前探索大數(shù)據(jù)發(fā)展的核心內(nèi)容。數(shù)據(jù)分析主要作用包括:●推測或解釋數(shù)據(jù)并確定如何使用數(shù)據(jù);●檢查數(shù)據(jù)是否合法;●給決策制定合理建議;●診斷或推斷錯誤原因;●預(yù)測未來將要發(fā)生的事情。數(shù)據(jù)分析的類型根據(jù)數(shù)據(jù)分析深度,可將數(shù)據(jù)分析分為三個層次:描述性分析(descriptiveanalysis),預(yù)測性(predictiveanalysis)分析和規(guī)則性分析(prescriptiveanalysis)。在統(tǒng)計學(xué)的領(lǐng)域當(dāng)中,數(shù)據(jù)分析可劃分為描述性統(tǒng)計分析、探索性數(shù)據(jù)分析及驗證性數(shù)據(jù)分析三種類型。在人類探索自然的過程中,通常將數(shù)據(jù)分析方法分為定性數(shù)據(jù)分析和定量數(shù)據(jù)分析兩大類。按照數(shù)據(jù)分析的實時性,一般將數(shù)據(jù)分析分為實時數(shù)據(jù)分析和離線數(shù)據(jù)分析。第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘 大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項目實訓(xùn) 數(shù)據(jù)分析是指數(shù)據(jù)收集、處理并獲取數(shù)據(jù)信息的過程。通過數(shù)據(jù)分析,人們可以從雜亂無章的數(shù)據(jù)當(dāng)中獲取有用的信息,從而找出研究對象的內(nèi)在規(guī)律。數(shù)據(jù)作為第四次工業(yè)革命的戰(zhàn)略資源,全球各國都在大力發(fā)展數(shù)據(jù)基礎(chǔ)信息平臺的建設(shè),用以改善數(shù)據(jù)的采集、存儲、傳輸及管理的效率,從而提升信息服務(wù)水平。數(shù)據(jù)分析方法概述數(shù)據(jù)來源大數(shù)據(jù)分析包括五個階段,1)數(shù)據(jù)獲取及儲存2)數(shù)據(jù)信息抽取及無用信息的清洗3)數(shù)據(jù)整合及表示4)數(shù)據(jù)模型的建立和結(jié)果分析5)結(jié)果闡釋數(shù)據(jù)分析活動步驟分析數(shù)據(jù)在完成對數(shù)據(jù)的處理之后,最重要的就是根據(jù)既定目標(biāo)需求對處理結(jié)果進(jìn)行分析。目前,主要依靠四項技術(shù):統(tǒng)計分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和可視化分析。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析大數(shù)據(jù)分析方法的三種體系面向數(shù)據(jù)視角面向流程視角面向信息技術(shù)視角面向數(shù)據(jù)視角的大數(shù)據(jù)分析方法主要是以大數(shù)據(jù)分析處理的對象“數(shù)據(jù)”為依據(jù),從數(shù)據(jù)本身的類型、數(shù)據(jù)量、數(shù)據(jù)處理方式以及數(shù)據(jù)能夠解決的具體問題等方面對大數(shù)據(jù)分析方法進(jìn)行分類。面向流程視角的大數(shù)據(jù)分析方法主要關(guān)注大數(shù)據(jù)分析的步驟和階段。一般而言,大數(shù)據(jù)分析是一個多階段的任務(wù)循環(huán)執(zhí)行過程。面向信息技術(shù)視角的大數(shù)據(jù)分析方法強調(diào)大數(shù)據(jù)本身涉及到的新型信息技術(shù),從大數(shù)據(jù)的處理架構(gòu)、大數(shù)據(jù)系統(tǒng)和大數(shù)據(jù)計算模式等方面來探討具體的大數(shù)據(jù)分析方法。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析巨量的各類機(jī)器產(chǎn)生的數(shù)據(jù)123數(shù)據(jù)來源人為產(chǎn)生的大量數(shù)據(jù)企業(yè)的數(shù)據(jù)5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析大數(shù)據(jù)的來源按照數(shù)據(jù)產(chǎn)生主體可劃分為三層。最外層的是巨量的各類機(jī)器產(chǎn)生的數(shù)據(jù),次外層是人為產(chǎn)生的大量數(shù)據(jù)。最內(nèi)層主要是來自企業(yè)的數(shù)據(jù)。數(shù)據(jù)分析活動步驟1數(shù)據(jù)獲取及儲存2數(shù)據(jù)信息抽取及無用信息的清洗3數(shù)據(jù)整合及表示4數(shù)據(jù)模型的建立和結(jié)果分析5結(jié)果闡釋5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析由于大數(shù)據(jù)復(fù)雜多變的特殊屬性,不同的學(xué)者對大數(shù)據(jù)分析方法的看法各異??偨Y(jié)起來,包括三種體系,分別是面向數(shù)據(jù)視角、面向流程視角和面向信息技術(shù)視角的分析方法。4大必要的活動步驟(4)數(shù)據(jù)挖掘(3)數(shù)據(jù)預(yù)處理(1)識別目標(biāo)需求(2)采集數(shù)據(jù)數(shù)據(jù)挖掘的目的是在現(xiàn)有數(shù)據(jù)基礎(chǔ)之上利用各類有效的算法挖掘出數(shù)據(jù)中隱含的有機(jī)質(zhì)信息,從而達(dá)到分析推理和預(yù)測的效果,實現(xiàn)預(yù)定的高層次數(shù)據(jù)分析需求。對數(shù)據(jù)進(jìn)行必要的預(yù)處理,常用的數(shù)據(jù)預(yù)處理方法包括:數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)去冗余。首先必須明確數(shù)據(jù)分析的目標(biāo)需求,從而為數(shù)據(jù)的收集和分析提供清晰的方向,該步驟是數(shù)據(jù)分析有效性的首要條件。數(shù)據(jù)采集就是運用合適的方法來有效收集盡可能多的相關(guān)數(shù)據(jù),從而為數(shù)據(jù)分析過程的順利進(jìn)行打下基礎(chǔ)。常用的數(shù)據(jù)采集方法包括:系統(tǒng)日志采集方法,這是目前廣泛使用的一種數(shù)據(jù)采集方法。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析數(shù)據(jù)分析活動步驟分析數(shù)據(jù)數(shù)據(jù)挖掘數(shù)據(jù)挖掘可以認(rèn)為是發(fā)現(xiàn)大數(shù)據(jù)集中數(shù)據(jù)模式的一種計算過程。許多數(shù)據(jù)挖掘算法已經(jīng)在機(jī)器學(xué)習(xí)、人工智能、模式識別、統(tǒng)計和數(shù)據(jù)庫領(lǐng)域得到了應(yīng)用。機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)算法從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測。高性能的以機(jī)器學(xué)習(xí)算法為核心的數(shù)據(jù)分析,為實際業(yè)務(wù)提供服務(wù)和指導(dǎo),進(jìn)而實現(xiàn)數(shù)據(jù)的最終變現(xiàn)。統(tǒng)計分析統(tǒng)計分析基于統(tǒng)計理論,屬于應(yīng)用數(shù)學(xué)的一個分支。在統(tǒng)計理論中,隨機(jī)性和不確定性由概率理論建模。統(tǒng)計分析技術(shù)可以分為描述性統(tǒng)計和推斷性統(tǒng)計??梢暬治隹梢暬治雠c信息繪圖學(xué)和信息可視化相關(guān)。數(shù)據(jù)可視化的目標(biāo)是以圖形方式清晰有效地展示信息,從而便于解釋數(shù)據(jù)之間的特征和屬性情況。5.2數(shù)據(jù)分析方法第五章大數(shù)據(jù)分析第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材
習(xí)題5.4上機(jī)與項目實訓(xùn) 5.3數(shù)據(jù)挖掘數(shù)據(jù)挖掘基本概念數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘大數(shù)據(jù)挖掘數(shù)據(jù)挖掘是創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算方法,通過對提供的數(shù)據(jù)進(jìn)行分析,查找特定類型的模式和趨勢,最終形成創(chuàng)建模型。分類樸素貝葉斯算法一種重要的數(shù)據(jù)分析形式,根據(jù)重要數(shù)據(jù)類的特征向量值及其他約束條件,構(gòu)造分類函數(shù)或分類模型,目的是根據(jù)數(shù)據(jù)集的特點把未知類別的樣本映射到給定類別中。支持向量機(jī)SVM算法AdaBoost算法C4.5算法CART算法聚類BIRCH算法目的在于將數(shù)據(jù)集內(nèi)具有相似特征屬性的數(shù)據(jù)聚集在一起,同一個數(shù)據(jù)群中的數(shù)據(jù)特征要盡可能相似,不同的數(shù)據(jù)群中的數(shù)據(jù)特征要有明顯的區(qū)別。K-Means算法期望最大化算法(EM算法)K近鄰算法關(guān)聯(lián)規(guī)則Apriori算法索系統(tǒng)中的所有數(shù)據(jù),找出所有能把一組事件或數(shù)據(jù)項與另一組事件或數(shù)據(jù)項聯(lián)系起來的規(guī)則,以獲得預(yù)先未知的和被隱藏的,不能通過數(shù)據(jù)庫的邏輯操作或統(tǒng)計的方法得出的信息。FP-Growth算法大數(shù)據(jù)挖掘工具Hadoop如此復(fù)雜和龐大的數(shù)據(jù)集面前,傳統(tǒng)的數(shù)據(jù)挖掘分析工具已經(jīng)不能勝任大數(shù)據(jù)的挖掘分析。針對大數(shù)據(jù)龐大的規(guī)模以及復(fù)雜的結(jié)構(gòu),目前業(yè)界已開發(fā)了眾多的大數(shù)據(jù)挖掘分析工具。第五章大數(shù)據(jù)分析MahoutSparkMLlibStormApacheDrillRapidMinerPentahoBI數(shù)據(jù)挖掘常用算法大數(shù)據(jù)挖掘常用的算法有分類、聚類、回歸分析、關(guān)聯(lián)規(guī)則、特征分析、Web頁挖掘、神經(jīng)網(wǎng)絡(luò)等智能算法。5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析
分類就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù),根據(jù)目標(biāo)數(shù)據(jù)的不同特點按照分類模式將其劃分為不同的類別,其作用是通過分類模型,將目標(biāo)數(shù)據(jù)映射到某個特定的類別。分類
聚類分析是把一組數(shù)據(jù)按照差異性和相似性分為幾個類別,使得屬于同一類的數(shù)據(jù)之間相似性盡可能大,不同類之間的相似性盡可能小,跨類的數(shù)據(jù)關(guān)聯(lián)性盡可能低。聚類
5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析
回歸分析是確定兩種或兩種以上變量相互之間依賴性關(guān)系的一種統(tǒng)計分析方法,用以分析數(shù)據(jù)的內(nèi)在規(guī)律,常用于數(shù)值預(yù)報、系統(tǒng)控制等問題?;貧w分析
關(guān)聯(lián)分析最主要的目的就是找出隱藏在數(shù)據(jù)之間的相互關(guān)系和關(guān)聯(lián)性,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導(dǎo)出其他相關(guān)數(shù)據(jù)項的出現(xiàn)。關(guān)聯(lián)分析第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘
特征分析是指從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式即為此數(shù)據(jù)集的總體特征。特征分析
Web網(wǎng)頁挖掘涉及Web技術(shù)、計算機(jī)語言、信息學(xué)等多個領(lǐng)域,是一個綜合性過程。Web網(wǎng)頁挖掘第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)
第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)是一種模擬大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu)來進(jìn)行信息處理的數(shù)學(xué)模型,具有強大的自主學(xué)習(xí)能力和聯(lián)想存儲功能并具有高度容錯性,非常適合處理非線性數(shù)據(jù)以及具有模糊性、不完整性、冗余性特征的數(shù)據(jù)。大數(shù)據(jù)挖掘工具第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡(luò)是一種模擬大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu)來進(jìn)行信息處理的數(shù)學(xué)模型,具有強大的自主學(xué)習(xí)能力和聯(lián)想存儲功能并具有高度容錯性,非常適合處理非線性數(shù)據(jù)以及具有模糊性、不完整性、冗余性特征的數(shù)據(jù)。Hadoop是一種能夠?qū)Υ髷?shù)據(jù)進(jìn)行并行分布式處理的計算框架,以一種可靠、可伸縮、高效的方式對海量數(shù)據(jù)進(jìn)行處理。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS具有高容錯性的特點,并且設(shè)計用來部署在低廉硬件上;而且它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。Mahout第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘Mahout的主要數(shù)據(jù)目標(biāo)集是大規(guī)模數(shù)據(jù),因此Mahout能夠建立運行在ApacheHadoop平臺上的可伸縮的機(jī)器學(xué)習(xí)算法,這些算法通過Mapreduce模式實現(xiàn),但并不局限于Hadoop平臺。SparkMLlibMLlib是構(gòu)建在ApacheSpark上的一個可擴(kuò)展的分布式機(jī)器學(xué)習(xí)庫,充分利用了Spark的內(nèi)存計算和適合迭代型計算的優(yōu)勢,將性能大幅度提升。MLlib支持的分類算法主要有:樸素貝葉斯、邏輯回歸、決策樹和支持向量機(jī).MLlib支持的回歸算法主要有:Lasso、線性回歸、決策樹和嶺回歸。聚類算法屬于非監(jiān)督式學(xué)習(xí),MLlib目前支持廣泛使用的Kmeans算法。MLlib也支持基于模型的協(xié)同過濾,其中用戶和商品通過一小組隱語義因子進(jìn)行表達(dá),并且這些因子也用于預(yù)測缺失元素。StormStorm是一個開源的、分布式的具有高容錯性的實時計算系統(tǒng)。Storm能夠十分可靠地處理龐大的數(shù)據(jù)流,能夠用來處理Hadoop的批量數(shù)據(jù)。Storm應(yīng)用領(lǐng)域廣泛,包括:在線機(jī)器學(xué)習(xí)、實時分析、分布式RPC(遠(yuǎn)過程調(diào)用)、持續(xù)計算、ETL等等。Storm的處理速度非常迅速,每個節(jié)點每秒可以處理上百萬個數(shù)據(jù)元組,Storm支持多種語言編程,具有容錯性高、可擴(kuò)展、易于設(shè)置和操作的特點。5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析
ApacheDrill在基于SQL的數(shù)據(jù)分析和商業(yè)智能(BI)上引入了JSON(JavaScriptObjectNotation,JS對象標(biāo)記)文件模型,使得用戶能查詢固定架構(gòu)、演化架構(gòu)以及各種格式和數(shù)據(jù)存儲中的模式(columnar-free)無關(guān)數(shù)據(jù)。ApacheDrill
RapidMiner是德國多特蒙德工業(yè)大學(xué)于2007年推出的世界領(lǐng)先的數(shù)據(jù)挖掘工具,能夠完成的數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,并且能夠簡化數(shù)據(jù)挖掘過程的設(shè)計和評價。RapidMiner第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘PentahoBI第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘PentahoBI是一個以流程為核心的,面向解決方案(Solution)而非工具組件的框架,其目的在于將一系列企業(yè)級BI產(chǎn)品、API、開源軟件等組件加以集成,方便商務(wù)智能應(yīng)用的開發(fā)。PentahoBI包括多個工具軟件和一個webserver平臺,支持分析、報表、圖表、數(shù)據(jù)挖掘和數(shù)據(jù)集成等功能,允許商業(yè)分析人員或研發(fā)人員分析模型,創(chuàng)建報表,商業(yè)規(guī)則和BI流程。數(shù)據(jù)挖掘算法應(yīng)用第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘決策樹分類算法,只需從樹的根節(jié)點開始,將測試條件用于檢驗記錄,根據(jù)測試結(jié)果選擇合適的分支,一直到最后輸出檢驗結(jié)果。數(shù)據(jù)屬性名稱體溫胎生類標(biāo)號數(shù)據(jù)內(nèi)容太陽鳥恒溫否?數(shù)據(jù)挖掘算法應(yīng)用第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘利用貝葉斯網(wǎng)絡(luò)進(jìn)行病情分析診斷,醫(yī)生可以根據(jù)病例數(shù)據(jù)建立合適的貝葉斯網(wǎng)絡(luò)分類模型,如對心臟病或心口疼痛患者的病例數(shù)據(jù)進(jìn)行建模。造成心臟病(HD)的因素可能有不健康的飲食(D)和缺少鍛煉(E),心臟病帶來的相應(yīng)癥狀包括高血壓(BP)和胸痛(CP)等。與此類似,心口痛(Hb)可能因為飲食不健康,同時也會造成胸痛。K-均值聚類方法
第五章大數(shù)據(jù)分析5.3數(shù)據(jù)挖掘K-均值聚類常用來對異常對象進(jìn)行檢測,如垃圾信息、欺詐性行為等。K-均值算法通過對數(shù)據(jù)集的聚類分析,找出數(shù)據(jù)集合中遠(yuǎn)離集聚簇的那些稀疏數(shù)據(jù),再通過相應(yīng)的處理方法作進(jìn)一步處理,能夠有效清洗不干凈的數(shù)據(jù),剔除惡意用戶。
K-均值目標(biāo)數(shù)據(jù)集關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則常用于發(fā)現(xiàn)事物之間的相關(guān)關(guān)系,通過一種屬性的出現(xiàn)來推斷很可能出現(xiàn)的其他屬性,能夠起到一種預(yù)測作用。通過發(fā)現(xiàn)這種關(guān)聯(lián)關(guān)系能夠指導(dǎo)用戶合理安排事物處理規(guī)則。5.3數(shù)據(jù)挖掘第五章大數(shù)據(jù)分析Tid項目集1{面包,牛奶,雞蛋,麥片}2{面包,牛奶,雞蛋}3{雞蛋,麥片}4{面包,牛奶,花生}第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項目實訓(xùn)
5.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析1.給定特征數(shù)值離散的1組數(shù)據(jù)實例,設(shè)計并實現(xiàn)決策樹算法,對數(shù)據(jù)實例建立決策樹,觀察決策樹是否正確,數(shù)據(jù)樣本如下:TidOutlookTemperatureHumidityWindyPlay1SunnyHotHighFalseNo2SunnyHotHighTrueNo3OvercastHotHighFalseYes4RainyMildHighFalseYes5RainyCoolNormalFalseYes6RainyCoolNormalTrueNo7OvercastCoolNormalTrueYes8SunnyMildHighFalseNo9SunnyCoolNormalFalseYes10RainyMildNormalFalseYes編寫決策樹程序,建立決策樹,輸入實例,輸出預(yù)測類型。5.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析
2.根據(jù)貝葉斯公式,給出在類條件概率密度為正態(tài)分布時具體的判別函數(shù)表達(dá)式,用此判別函數(shù)設(shè)計分類器。數(shù)據(jù)隨機(jī)生成,比如生成兩類樣本(如鱸魚和鮭魚),每個樣本有兩個特征(如長度和亮度),每類有若干個(比如20個)樣本點,假設(shè)每類樣本點服從二維正態(tài)分布,隨機(jī)生成具體數(shù)據(jù),然后估計每類的均值與協(xié)方差,在兩類協(xié)方差相同的情況下求出分類邊界。先驗概率自己給定,比如都為0.5。如果可能,畫出在兩類協(xié)方差不相同的情況下的分類邊界。畫出圖形。標(biāo)號集合數(shù)目中心坐標(biāo)半徑1100(5,5)22100(10,6)23100(8,10)25.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析3.隨機(jī)生成2維坐標(biāo)點,對點進(jìn)行聚類,進(jìn)行k=2聚類,k=3聚類,多次k=4聚類,分析比較實驗結(jié)果,隨機(jī)生成3個點集,點到中心點距離服從高斯分布,相關(guān)數(shù)據(jù)如下:隨機(jī)生成測試點集,分別聚成2,3,4類,觀察實驗結(jié)果。多次4聚類,觀察實驗結(jié)果。
4.使用一種你熟悉的程序設(shè)計語言,如C++或Java,實現(xiàn)Apriori算法,至少在兩種不同的數(shù)據(jù)集上比較算法的性能。在Apriori算法中,尋找頻繁項集的基本思想是:
A.簡單統(tǒng)計所有含一個元素項目集出現(xiàn)的頻率,找出不小于最小支持度的項目集,即頻繁項集;
B.從第二步開始,循環(huán)處理直到再沒有最大項目集生成。循環(huán)過程是:
第k步中,
根據(jù)第k-1步生成的頻繁(k-1)項集產(chǎn)生侯選k項集。根據(jù)候選k項集,算出候選k項集支持度,并與最小支持度比較,
找到頻繁k項集。5.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析實驗5認(rèn)識大數(shù)據(jù)分析工具實驗原理本節(jié)內(nèi)容,主要向讀者簡單介紹使用Mahout軟件來實現(xiàn)K-means程序。ApacheMahout是ApacheSoftwareFoundation(AFS)開發(fā)的一個嶄新的開源項目,主要目的是為了創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,供研發(fā)人員在Apache的許可下免費使用。在Mahout中,包含了分類、聚類、集群和頻繁子項挖掘等實現(xiàn)。另外,用戶可以通過ApacheHadoop庫將Mahout有效地擴(kuò)展到云中。Mahout在開源領(lǐng)域的發(fā)展時間還比較短暫,但是Mahout目前已經(jīng)擁有了大量的功能實現(xiàn),尤其是針對聚類和CF方面。Mahout主要擁有如下特性:(1)TasteCF。Taste是一個針對CF的開源項目,由SeanOwen在SourceForge上發(fā)起的。(2)支持針對Map-Reduce的聚類算法的實現(xiàn),例如K-means、模糊K-means、Canopy、Mean-shift和Dirichlet。(3)分布式貝葉斯網(wǎng)絡(luò)和互補貝葉斯網(wǎng)絡(luò)的分類實現(xiàn)。(4)擁有專門針對進(jìn)化編程的分布式適用性功能。(5)擁有Matrix和矢量庫。5.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析實驗內(nèi)容K-means算法是一種聚類算法,主要功能是用來把目標(biāo)數(shù)據(jù)分成幾個不同的簇,使得簇內(nèi)元素彼此具有最大相似,不同簇間的元素彼此具有最大相異性。算法實現(xiàn)原理比較簡單,容易理解。具體過程如圖所示:K-means實現(xiàn)過程實驗5認(rèn)識大數(shù)據(jù)分析工具5.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析實驗內(nèi)容如上圖所示,圖中有A,B,C,D,E五個點,假設(shè)K值為2圖中灰色點所示,意味著把目標(biāo)數(shù)據(jù)分成兩個集群。具體實現(xiàn)過程如下:(1)在目標(biāo)范圍內(nèi)隨機(jī)取K個分簇點(圖中K=2);(2)求圖中所有個點到 K個分簇點的距離,若Pi離分簇點Si距離最小,則Pi屬于Si的類。從上圖可以看到A,B,C屬于1號分簇點,D,E屬于2號分簇點;(3)移動分簇點到屬于它的類中心;(4)重復(fù)執(zhí)行(2)、(3)步驟到所有分簇點不在改變位置為止。K-means算法具有實現(xiàn)簡單、執(zhí)行速度快,對大數(shù)據(jù)集有較高的效率而且算法可伸縮,時間復(fù)雜度為O(NKt)其中N為數(shù)據(jù)集個數(shù),K為簇數(shù)目,t為算法迭代次數(shù)。K-means非常適合用于大數(shù)據(jù)挖掘,但它也有固有的不足之處,例如K的取值具有隨機(jī)性,非常難以在事先具體給出,并且初始聚類的中心選擇對最后的聚類結(jié)果也有較大影響。實驗5認(rèn)識大數(shù)據(jù)分析工具5.4上機(jī)與項目實訓(xùn)第五章大數(shù)據(jù)分析實驗指導(dǎo)(1)建立HDFS目錄在client機(jī)上操作,首先在HDFS上建立文件目錄;[root@clienthadoop]#bin/hadoopfs–mkdir–p/user/root/testdata(2)準(zhǔn)備實驗數(shù)據(jù)將root/data/33/文件夾下的synthetic_control.data文件上傳到HDFS上面上個步驟新建的目錄下。[root@clienthadoop]#bin/hadoop/fs–putsynthetic_control.data/user/root/testdata(3)添加臨時的JAVA_HOME環(huán)境變量[root@clienthadoop]#exportJAVA_HOME=/usr/local/jdk1.7.0_79(4)提交Mahout的K-means程序[root@clienthadoop]#bin/hadoopjar/usr/cstor/mahout/mahout-examples-0.9-job.jar\>org.apache.mahout.clustering.syntheticcontrol.kmeans.Job(5)查看程序結(jié)果[root@clienthadoop]#bin/hadoopfs–ls/user/root/output。實驗5認(rèn)識大數(shù)據(jù)分析工具第五章大數(shù)據(jù)分析5.1數(shù)據(jù)分析概念和分類5.2數(shù)據(jù)分析方法5.3
數(shù)據(jù)挖掘
大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題5.4上機(jī)與項目實訓(xùn)
1.數(shù)據(jù)挖掘的常用算法有哪幾類?2.數(shù)據(jù)挖掘方法中分類的含義?分類與聚類方法有哪些不同之處?3.根據(jù)數(shù)據(jù)挖掘的應(yīng)用場景,談?wù)剶?shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域。4.簡述決策樹分類的主要步驟。簡略介紹貝葉斯網(wǎng)絡(luò)的構(gòu)建過程,以及如何應(yīng)用先驗概率求得后驗概率的步驟。5.K-均值聚類算法和K-中心點聚類算法都能進(jìn)行有效的聚類分析。概述K-均值和K-中心點算法的優(yōu)缺點;并分別舉出兩個算法各自適用的分析實例。習(xí)題:6.計算決策樹在最壞情況下的計算復(fù)雜度是很有意義的。給定數(shù)據(jù)集D,屬性數(shù)n和訓(xùn)練元組數(shù)|D|,根據(jù)D和n來分析計算復(fù)雜度。7.當(dāng)一個數(shù)據(jù)對象可以同時屬于多個類時,很難評估分類的準(zhǔn)確率,在此種情況之下,您打算使用何種標(biāo)準(zhǔn)在相同數(shù)據(jù)上建立不同的分類器。8.假如銀行想開發(fā)一個分類器,預(yù)防信用卡交易中的欺詐。如果銀行有大量非欺詐數(shù)據(jù)實例和很少的欺詐數(shù)據(jù)實例,考慮如何構(gòu)造高質(zhì)量分類器。習(xí)題:9.考慮如右表的數(shù)據(jù)集:(1)計算條件概率P(A|X),P(B|X),P(C|X),P(A|Y),p(B|Y),P(C|Y);(2)根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測樣本(A=0,B=1,C=0)的類標(biāo)號;(3)比較P(A=1),P(B=1)和P(A=1,B=1),陳述A,B之間的關(guān)系;(4)比較P(A=1,B=1|類=X)與P(A=1|類=X)和P(B=1|類=X),給定類X,變量A,B條件獨立嗎?習(xí)題:10.某醫(yī)院對本院醫(yī)生進(jìn)行服務(wù)態(tài)度的評估,根據(jù)以往的評估顯示,70%的醫(yī)生服務(wù)態(tài)度為良好,30%的醫(yī)生服務(wù)態(tài)度一般。在此次評估中,以前評為良好的醫(yī)生中,有80%的仍然為良好;而在以前評為一般的醫(yī)生,有30%的人達(dá)到了良好?,F(xiàn)在有一名醫(yī)生的評估結(jié)果是良好,請問他在以前評估中是良好的概率是多少。11.假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的8個點(用(x,y)代表位置)聚類為3個簇
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年第一學(xué)期語文教學(xué)總結(jié)
- 《宮頸癌與hpv感染》課件
- 2025池塘清淤合同范本
- 2024年度天津市公共營養(yǎng)師之三級營養(yǎng)師考前自測題及答案
- 2024年度四川省公共營養(yǎng)師之四級營養(yǎng)師全真模擬考試試卷B卷含答案
- 2024年度四川省公共營養(yǎng)師之三級營養(yǎng)師過關(guān)檢測試卷A卷附答案
- 2025油畫加工合同范文
- 花崗巖石制品項目可行性研究報告
- 中國智能型并口診斷卡項目投資可行性研究報告
- 年產(chǎn)4.8萬臺辦公家具項目可行性研究報告申請報告
- 接地電阻測試儀的操作課件
- 《機(jī)修工基礎(chǔ)培訓(xùn)》課件
- 品質(zhì)黃燜雞加盟活動策劃
- DLT 754-2013 母線焊接技術(shù)規(guī)程
- 部編版小學(xué)道德與法治五年級上冊單元復(fù)習(xí)課件(全冊)
- 仙桃市仙桃市2023-2024學(xué)年七年級上學(xué)期期末數(shù)學(xué)檢測卷(含答案)
- 智慧農(nóng)場整體建設(shè)實施方案
- 航空公司個人年終總結(jié)(共12篇)
- 產(chǎn)品供貨方案、售后服務(wù)方案
- 蘇教版小學(xué)數(shù)學(xué)六年級上冊第4單元解決問題的策略重難點練習(xí)【含答案】
- 安徽省池州市貴池區(qū)2023-2024學(xué)年高二數(shù)學(xué)第一學(xué)期期末綜合測試模擬試題含解析
評論
0/150
提交評論