《大數(shù)據(jù)導(dǎo)論》課件 第5章 大數(shù)據(jù)分析與挖掘_第1頁
《大數(shù)據(jù)導(dǎo)論》課件 第5章 大數(shù)據(jù)分析與挖掘_第2頁
《大數(shù)據(jù)導(dǎo)論》課件 第5章 大數(shù)據(jù)分析與挖掘_第3頁
《大數(shù)據(jù)導(dǎo)論》課件 第5章 大數(shù)據(jù)分析與挖掘_第4頁
《大數(shù)據(jù)導(dǎo)論》課件 第5章 大數(shù)據(jù)分析與挖掘_第5頁
已閱讀5頁,還剩94頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章

大數(shù)據(jù)分析與挖掘演講人2024/12/24本章學(xué)習(xí)目標(biāo)了解數(shù)據(jù)分析的常用方法了解數(shù)據(jù)挖掘的典型算法培養(yǎng)分析問題的辯證觀,以及探索未知、追求卓越的品質(zhì)目錄5.1引言5.2描述性數(shù)據(jù)分析5.3回歸分析5.4關(guān)聯(lián)分析的簡介5.5分類算法的簡介5.6聚類算法的簡介5.7分布式數(shù)據(jù)挖掘算法5.8數(shù)據(jù)挖掘的典型應(yīng)用5.9小結(jié)5.1引言數(shù)據(jù)分析是指用傳統(tǒng)的統(tǒng)計(jì)學(xué)方法對(duì)收集的數(shù)據(jù)進(jìn)行分析,提取有用的信息并形成結(jié)論,然后對(duì)數(shù)據(jù)加以詳細(xì)的研究和概括總結(jié)的過程。數(shù)據(jù)分析可以劃分為描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析和驗(yàn)證性數(shù)據(jù)分析。其中,描述性數(shù)據(jù)分析主要是對(duì)數(shù)據(jù)做統(tǒng)計(jì)性描述,包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散趨勢分析等;探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征;而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于對(duì)已有假設(shè)的證實(shí)或證偽。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取隱含的、先前未知的、有價(jià)值的知識(shí)和規(guī)律的過程。數(shù)據(jù)挖掘是深層次的數(shù)據(jù)分析,數(shù)據(jù)分析是淺層次的數(shù)據(jù)挖掘,數(shù)據(jù)挖掘更偏重于探索性數(shù)據(jù)分析,因?yàn)閿?shù)據(jù)挖掘的重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)和規(guī)律。5.1引言數(shù)據(jù)分析與數(shù)據(jù)挖掘的具體區(qū)別如下。(1)數(shù)據(jù)分析主要側(cè)重于通過觀察數(shù)據(jù)來對(duì)歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析;而數(shù)據(jù)挖掘通過從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)和規(guī)律來對(duì)未來的某些可能性做出預(yù)測分析,其更注重分析數(shù)據(jù)間的內(nèi)在聯(lián)系。(2)數(shù)據(jù)分析往往從一個(gè)假設(shè)出發(fā),需要自行建立方程或模型來檢驗(yàn)是否與假設(shè)吻合;而數(shù)據(jù)挖掘一般不需要假設(shè),可以自動(dòng)建立和訓(xùn)練模型,如關(guān)聯(lián)規(guī)則和聚類分析。(3)數(shù)據(jù)分析往往處理常規(guī)的數(shù)據(jù)類型,如數(shù)值型或標(biāo)稱型數(shù)據(jù);而數(shù)據(jù)挖掘能夠處理更多類型的數(shù)據(jù),如圖像、視頻、聲音、文本等多媒體數(shù)據(jù)。5.1引言圖5-1KDD過程示意圖從大量數(shù)據(jù)中提取對(duì)人們有用的信息是一個(gè)知識(shí)挖掘的過程,因此數(shù)據(jù)挖掘也被稱為“基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)”(KnowledgeDiscoveryinDatabase,KDD),是指從數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的過程。圖5-1所示為KDD的過程示意圖,整個(gè)KDD的過程可以被分為數(shù)據(jù)清洗與集成、數(shù)據(jù)選擇與轉(zhuǎn)換、數(shù)據(jù)分析與挖掘、模式評(píng)估與知識(shí)表示4個(gè)階段。5.2描述性數(shù)據(jù)分析所謂描述性數(shù)據(jù)分析是指用統(tǒng)計(jì)學(xué)方法,描述數(shù)據(jù)的統(tǒng)計(jì)特征量,分析數(shù)據(jù)的分布特性。主要包括數(shù)據(jù)的集中趨勢分析(CentralTendency)、數(shù)據(jù)離散趨勢分析(DispersionTendency)、數(shù)據(jù)的頻率分布(FrequencyDistribution)等。5.2描述性數(shù)據(jù)分析5.2.1數(shù)據(jù)的集中趨勢度量1.均值截?cái)嗑担喝サ糇罡咧岛妥畹椭岛笥?jì)算的均值,可以抵消少數(shù)極端值的影響,如薪水的截?cái)嗑悼梢韵呤杖霕O端值對(duì)平均薪資的影響。5.2描述性數(shù)據(jù)分析2.中位數(shù)中位數(shù)指的是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),它是奇數(shù)個(gè)數(shù)據(jù)的中間值,或是偶數(shù)個(gè)數(shù)據(jù)的中間兩個(gè)值的平均值。【案例5-1】求20個(gè)數(shù)57,55,85,24,33,49,94,2,8,51,71,30,91,6,47,50,65,43,41,7的中位數(shù)。首先對(duì)數(shù)據(jù)從小到大排序,結(jié)果為:2,6,7,8,24,30,33,41,43,47,49,50,51,55,57,65,71,85,91,94。中間兩個(gè)數(shù)為47和49,因此該組數(shù)據(jù)的中位數(shù)為48。相較于均值,中位數(shù)有著更好的抗干擾性,例如,在99個(gè)年收入10萬的人中加入一個(gè)年收入1000萬的人,可以把平均年收入提高到19.9萬,但這一均值實(shí)際上并沒有很好地反映出這個(gè)人群的年收入特征,而中位數(shù)對(duì)這個(gè)問題并沒有那么敏感。5.2描述性數(shù)據(jù)分析3.眾數(shù)眾數(shù)是指在一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù),即出現(xiàn)頻率最高的那個(gè)數(shù),眾數(shù)也被稱作數(shù)據(jù)的“?!?。圖5-2所示為對(duì)稱數(shù)據(jù)、右偏數(shù)據(jù)和左偏數(shù)據(jù)的中位數(shù)、均值和眾數(shù)的位置示意圖,可以觀察到以下現(xiàn)象:①對(duì)稱數(shù)據(jù)的中位數(shù)、均值和眾數(shù)是重合的;②右偏態(tài)(正偏態(tài))數(shù)據(jù)的均值位于中位數(shù)和眾數(shù)的右側(cè);③左偏態(tài)(負(fù)偏態(tài))數(shù)據(jù)的均值位于中位數(shù)和眾數(shù)的左側(cè)。5.2描述性數(shù)據(jù)分析3.眾數(shù)圖5-2對(duì)稱數(shù)據(jù)、右偏數(shù)據(jù)和左偏數(shù)據(jù)的中位數(shù)、均值和眾數(shù)的位置示意圖。提示:所謂左偏態(tài)和右偏態(tài)指的是均值相對(duì)于眾數(shù)的位置,均值在眾數(shù)左邊則為左偏態(tài),在眾數(shù)右邊則為右偏態(tài)。5.2描述性數(shù)據(jù)分析5.2.2數(shù)據(jù)的離散趨勢度量1.方差在統(tǒng)計(jì)描述中,方差用來計(jì)算每一個(gè)變量(觀察值)與平均值之間的差異,它是集合中每個(gè)數(shù)據(jù)與均值差的平方和??傮w方差的計(jì)算公式為在實(shí)際計(jì)算中,總體均值難以得到時(shí),應(yīng)用樣本統(tǒng)計(jì)量代替總體均值,經(jīng)校正后,樣本方差的計(jì)算公式為方差的值越大說明該數(shù)據(jù)集的波動(dòng)越大。當(dāng)數(shù)據(jù)分布比較分散時(shí),各個(gè)數(shù)據(jù)與平均值之差的平方和較大,方差就較大;當(dāng)數(shù)據(jù)分布比較集中時(shí),各個(gè)數(shù)據(jù)與平均值之差的平方和較小,方差就較小。5.2描述性數(shù)據(jù)分析2.四分位數(shù)四分位數(shù)也稱四分位點(diǎn),將所有數(shù)值按大小順序排列并分成四等份,處于三個(gè)分割點(diǎn)位置的就是四分位數(shù),如圖5-3所示。(1)第一四分位數(shù)(Q1),又稱下四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。(2)第二四分位數(shù)(Q2),又稱中位數(shù),等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。(3)第三四分位數(shù)(Q3),又稱上四分位數(shù),等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。(4)四分位距(InterQuartileRange,IQR):第三四分位數(shù)與第一四分位數(shù)之差。圖5-3四分位數(shù)的示意圖5.2描述性數(shù)據(jù)分析2.四分位數(shù)例如,有一組數(shù)據(jù):6,7,15,36,39,40,41,42,43,47,49,將其分為四等份,根據(jù)四分位數(shù)的定義可知15是第一四分位數(shù),40是第二四分位數(shù),43是第三四分位數(shù)。5.2描述性數(shù)據(jù)分析3.五數(shù)概括數(shù)據(jù)分布形狀的完整概括可以用“五數(shù)概括”來描述,包括中位數(shù)、第二四分位數(shù)和第三四分位數(shù)、最小值和最大值。五數(shù)概括通常用箱形圖(盒圖)進(jìn)行可視化表示。箱形圖又稱盒圖,其將五數(shù)概括可視化,數(shù)據(jù)分布用一個(gè)盒子來表示,如圖5-4所示。圖5-4箱形圖示例5.2描述性數(shù)據(jù)分析3.五數(shù)概括在箱形圖中,盒子兩端是第一四分位數(shù)和第三“四分位數(shù)”,“中位數(shù)”在盒子里用一條線標(biāo)記出來,“外邊界”是盒子外面延伸到最大值和最小值的兩條線,也稱為“胡須”。例如,圖5-5所示為學(xué)生成績分布的箱形圖示例,可以從圖中觀察到學(xué)生的英語成績相對(duì)其他科目普遍較好,而數(shù)學(xué)成績則大多位于80分以下,成績集中在65~78之間。圖5-5學(xué)生成績分布的箱形圖示例5.2描述性數(shù)據(jù)分析4.離散系數(shù)離散系數(shù)又稱變異系數(shù),樣本的離散系數(shù)是樣本的標(biāo)準(zhǔn)差與樣本的平均值之比:

。在公式中,表示標(biāo)準(zhǔn)差。5.2描述性數(shù)據(jù)分析4.離散系數(shù)【案例5-2】表5-1中有兩組分別代表成人和幼兒身高的數(shù)據(jù),用離散系數(shù)比較這兩組數(shù)據(jù)的分布特性。表5-1成人與幼兒的數(shù)據(jù)兩組數(shù)據(jù)平均值相差很大,標(biāo)準(zhǔn)差不能判斷各自數(shù)據(jù)差異的大小。但通過計(jì)算離散系數(shù)可以看出,雖然成人組的標(biāo)準(zhǔn)差大于幼兒組,但是幼兒組的離散系數(shù)明顯大于成人組,因此可以說明,幼兒組的身高差異比成人組大。組別數(shù)據(jù)/cm均值標(biāo)準(zhǔn)差離散系數(shù)成人166,167,169,169,169,170,170,171,171,171,171,172,173,173,173,175,175,176,177,179171.853.330.0194幼兒67,68,69,70,70,71,71,71,72,72,72,72,72,72,73,74,75,76,76,77722.640.03675.2描述性數(shù)據(jù)分析5.2.3數(shù)據(jù)的偏態(tài)特性度量1.偏度偏度是描述分布偏離對(duì)稱程度的特征數(shù),也稱為偏態(tài)系數(shù),是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征。5.2描述性數(shù)據(jù)分析1.偏度圖5-6所示為是偏度分別等于0、大于0和小于0的三類數(shù)據(jù)分布特性示意圖。圖5-6偏度與數(shù)據(jù)分布特性示意圖偏度大于0為正偏態(tài)(也稱右偏態(tài))分布,這種情況的數(shù)據(jù)平均值大于中位數(shù)(平均值在中位數(shù)右邊),中位數(shù)又大于眾數(shù)。曲線的形態(tài)是右側(cè)偏長、左側(cè)偏短。偏度小于0為負(fù)偏態(tài)(也稱左偏態(tài))分布,這種情況的數(shù)據(jù)平均值小于中位數(shù)(平均值在中位數(shù)左邊),中位數(shù)又小于眾數(shù)。曲線的形態(tài)是左側(cè)偏長、右側(cè)偏短。5.2描述性數(shù)據(jù)分析2.峰度峰度系數(shù)是用來反映頻數(shù)分布曲線頂端尖峭或扁平程度的指標(biāo)。通過對(duì)峰度系數(shù)的測量,我們能夠判定數(shù)據(jù)分布相對(duì)于正態(tài)分布是更陡峭還是平緩。5.2描述性數(shù)據(jù)分析2.峰度圖5-7所示為不同峰度的數(shù)據(jù)曲線的形狀示意圖。圖5-7不同峰度的數(shù)據(jù)曲線的形狀示意圖5.2描述性數(shù)據(jù)分析5.2.4使用Excel軟件對(duì)數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)使用Excel軟件可以很方便地對(duì)數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),在使用該功能前,需要先在“加載項(xiàng)”對(duì)話框中勾選“分析工具庫”復(fù)選框,然后單擊“數(shù)據(jù)”菜單中的“數(shù)據(jù)分析”按鈕,在打開的“數(shù)據(jù)分析”對(duì)話框中選擇“描述統(tǒng)計(jì)”選項(xiàng),完成后即可實(shí)現(xiàn)該功能。在Excel中對(duì)數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)的示意圖如圖5-8所示。圖5-8在Excel中對(duì)數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì)的示意圖5.3回歸分析所謂回歸分析,是在現(xiàn)有觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式(回歸方程)。這種技術(shù)通常用于預(yù)測分析、時(shí)間序列模型以及探索變量之間的因果關(guān)系?!盎貧w”一詞是由英國著名統(tǒng)計(jì)學(xué)家弗朗西斯高爾頓(FrancisGalton,1822—1911年)引入的,他是最先應(yīng)用統(tǒng)計(jì)方法研究兩個(gè)變量之間關(guān)系問題的人。弗朗西斯高爾頓對(duì)父母身高與兒女身高之間的關(guān)系很感興趣,并致力于該方面的研究。弗朗西斯高爾頓發(fā)現(xiàn),雖然有一個(gè)趨勢:父母高,兒女也高;父母矮,兒女也矮,但從平均意義上講,盡管父母雙親都異常高或異常矮,兒女的身高也并非普遍地異常高或異常矮,而是具有“回歸”于人口總平均身高的趨勢。5.3回歸分析在回歸分析中,當(dāng)研究的因果關(guān)系只涉及因變量和一個(gè)自變量時(shí),叫作一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上的自變量時(shí),叫作多元回歸分析。此外,在回歸分析中,又依據(jù)描述自變量與因變量之間關(guān)系的函數(shù)表達(dá)式是線性的還是非線性的,將回歸分析分為線性回歸分析和非線性回歸分析。5.3回歸分析5.3.1一元線性回歸模型回歸模型是用來描述因變量如何依賴自變量和隨機(jī)誤差項(xiàng)的方程,線性回歸通過使用最佳的擬合直線(也就是回歸線)來建立因變量和一個(gè)或多個(gè)自變量之間的聯(lián)系。5-9所示為一元線性回歸示意圖。在圖中,小圓點(diǎn)表示原始數(shù)據(jù),直線表示回歸線。圖5-9一元線性回歸示意圖5.3回歸分析5.3.1一元線性回歸模型5.3回歸分析5.3.1一元線性回歸模型最小二乘估計(jì)是求解線性回歸方程的最常用方法,最小二乘法的原理就是所選的樣本回歸函數(shù)使得所有y的估計(jì)值與真實(shí)值差的平方和最小?!景咐?-3】用Excel軟件進(jìn)行某家公司廣告費(fèi)與銷售額的一元線性回歸分析。某家公司每月的廣告費(fèi)和銷售額如表5-2所示。表5-2某家公司每月的廣告費(fèi)和銷售額廣告費(fèi)/萬元489871261069銷售額/萬元92022151723182510205.3回歸分析5.3.1一元線性回歸模型如果我們把廣告費(fèi)和銷售額畫在二維坐標(biāo)系內(nèi),就能夠得到一個(gè)散點(diǎn)圖,如果想探索廣告費(fèi)和銷售額的關(guān)系,可以利用一元線性回歸做出一條回歸線方程,結(jié)果(取小數(shù)點(diǎn)后4位)為

y=2.2516+1.9808x該例子中的樣本數(shù)據(jù)點(diǎn)與回歸線如圖5-10所示。圖5-10樣本數(shù)據(jù)點(diǎn)與回歸線5.3回歸分析5.3.1一元線性回歸模型我們用Excel軟件對(duì)該例子進(jìn)行回歸分析。首先在Excel表中輸入X和Y兩列數(shù)據(jù)(見圖5-11);接著在“數(shù)據(jù)”菜單中單擊“數(shù)據(jù)分析”按鈕,在打開的“數(shù)據(jù)分析”對(duì)話框中選擇“回歸”選項(xiàng),最后單擊“確定”按鈕,出現(xiàn)如圖5-12所示的對(duì)話框。5.3回歸分析5.3.1一元線性回歸模型圖5-11用Excel進(jìn)行回歸分析示意圖5.3回歸分析5.3.1一元線性回歸模型在“回歸”對(duì)話框中選中“Y值輸入?yún)^(qū)域”和“X值輸入?yún)^(qū)域”數(shù)值框,在“輸出選項(xiàng)”街區(qū)中單擊“新工作表組”單選按鈕,在“殘差”選區(qū)中勾選“線性擬合圖”復(fù)選框,單擊“確定”按鈕,則會(huì)在新工作表中出現(xiàn)計(jì)算結(jié)果,如圖5-12所示。其中Coefficients的兩個(gè)值2.25159915和1.98081023就是線性回歸方程的兩個(gè)系數(shù)(截距和斜率)。圖5-12回歸對(duì)話框5.3回歸分析5.3.1一元線性回歸模型圖5-13回歸分析結(jié)果5.3回歸分析5.3.1一元線性回歸模型表5-3回歸分析結(jié)果中部分參數(shù)的說明注:為了與圖5-13所示的回歸分析結(jié)果一致,表格中的變量均用正體字母表示。參數(shù)含義MultipleR表示自變量X和因變量Y的相關(guān)系數(shù),一般在-1~1之間,絕對(duì)值越靠近1則相關(guān)性越強(qiáng),越靠近0則相關(guān)性越弱RSquare(R2)是擬合優(yōu)度(GoodnessofFit)的統(tǒng)計(jì)量,擬合優(yōu)度是指回歸線對(duì)觀測值的擬合程度。R2的最大值為1。R2的值越接近1,說明回歸直線對(duì)觀測值的擬合程度越好;反之,R2的值越小,說明回歸直線對(duì)觀測值的擬合程度越差FF值越大,越能說明總體回歸關(guān)系越強(qiáng)SignificanceF顯著性指標(biāo),一般以小于0.05為顯著,小于0.01為非常顯著df自由度的個(gè)數(shù)SS離均差平方和MS方差tStatT檢驗(yàn),主要用于樣本含量較?。ㄈ鏽<30)且總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布5.3回歸分析5.3.2其他類型的回歸模型1.多元線性回歸模型在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸分析,多元線性回歸模型可以表示為對(duì)于多元線性回歸模型,同樣可以用最小二乘法估計(jì)回歸方程的參數(shù),具體過程不再贅述。5.3回歸分析5.3.2其他類型的回歸模型【案例5-4】用Excel軟件進(jìn)行多元線性回歸分析。表5-4所示為我國某個(gè)城市的用電量指標(biāo)統(tǒng)計(jì)表,將“年用電量”作為因變量Y,將“GDP”和“全社會(huì)投資額”作為自變量X,進(jìn)行多元線性回歸分析。。表5-4某個(gè)城市的用電量指標(biāo)統(tǒng)計(jì)表5.3回歸分析5.3.2其他類型的回歸模型用Excel軟件中的回歸分析工具,得到如圖5-14所示的結(jié)果。該例子的多元線性回歸方程為 年用電量=28925.98+0.046188×GDP+0.118491×全社會(huì)投資額從結(jié)果可以看到兩個(gè)自變量都通過了T-檢驗(yàn),SignificanceF的值為2.94929E-12,效果非常好。如果回歸模型的因變量是自變量的一次以上函數(shù)形式,回歸規(guī)律在圖形上表現(xiàn)為形態(tài)各異的各種曲線(見圖5-15),那么將其稱為非線性回歸。圖5-15非線性回歸的示意圖5.3回歸分析2.非線性回歸模型5.3回歸分析2.非線性回歸模型求解非線性回歸問題需要預(yù)先選擇適配的曲線類型,基本方法如下:(1)確定變量間的依存關(guān)系,根據(jù)實(shí)際資料做散點(diǎn)圖。(2)按照?qǐng)D形的分布形狀選擇合適的非線性回歸模型(回歸函數(shù)的類型),常見的函數(shù)有多項(xiàng)式回歸、雙曲線函數(shù)、冪函數(shù)、二次函數(shù)和對(duì)數(shù)函數(shù)等。(3)用某種優(yōu)化方法確定回歸模型中的未知參數(shù)。5.4關(guān)聯(lián)分析的簡介關(guān)聯(lián)分析也稱為關(guān)聯(lián)規(guī)則挖掘(AssociationRulesMining),是指在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,發(fā)現(xiàn)對(duì)象之間隱含關(guān)系與規(guī)律的過程。關(guān)聯(lián)分析的一個(gè)典型例子是購物籃分析。商家通過對(duì)顧客購物行為的分析,可以發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,以此分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,挖掘商品之間的聯(lián)系,這種聯(lián)系的發(fā)現(xiàn)可以幫助零售商制定營銷策略。5.4關(guān)聯(lián)分析的簡介5.4.1“啤酒與尿布”的故事“啤酒與尿布”之間的聯(lián)系是關(guān)聯(lián)分析中的經(jīng)典案例,被人津津樂道。這個(gè)故事發(fā)生于20世紀(jì)90年代的美國沃爾瑪超市中,超市管理人員分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)在某些特定的情況下,“啤酒”與“尿布”看上去毫無關(guān)系的兩件商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中,這種獨(dú)特的現(xiàn)象引起了管理人員的注意。經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象時(shí)常出現(xiàn)在年輕的父親身上。在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親負(fù)責(zé)去超市購買尿布。父親在購買尿布時(shí),往往會(huì)順便為自己購買啤酒,這樣就會(huì)出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會(huì)出現(xiàn)在同一個(gè)購物籃中的現(xiàn)象。5.4關(guān)聯(lián)分析的簡介5.4.1“啤酒與尿布”的故事沃爾瑪超市發(fā)現(xiàn)了這一獨(dú)特的現(xiàn)象,開始在賣場嘗試將啤酒與尿布擺放在相同的區(qū)域,讓年輕的父親可以很容易地同時(shí)找到這兩件商品,沒想到這個(gè)舉措居然使啤酒和尿布的銷量都大幅增加了。在這個(gè)故事中,通過分析購物籃中的商品集合數(shù)據(jù),找出商品之間的聯(lián)系,發(fā)現(xiàn)客戶的購買模式,采取相應(yīng)舉措,從而獲得更多的商品銷售收入。5.4關(guān)聯(lián)分析的簡介5.4.2常用的關(guān)聯(lián)分析算法簡介常用的關(guān)聯(lián)分析算法包含Apriori算法、FP-Growth算法、灰色關(guān)聯(lián)分析法和Eclat算法等,表5-5所示為幾種常用的關(guān)聯(lián)分析算法。表5-5幾種常用的關(guān)聯(lián)分析算法算法名稱算法描述Apriori算法關(guān)聯(lián)分析經(jīng)典的算法,它可以用來找出數(shù)據(jù)集中頻繁出現(xiàn)的項(xiàng)集FP-Growth算法FP-Growth算法是一種對(duì)Apriori算法改進(jìn)的算法,它將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到高效的數(shù)據(jù)結(jié)構(gòu)頻繁模式樹(FP-tree)上,減少候選頻繁項(xiàng)集的數(shù)量Eclat算法一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念格理論的基礎(chǔ)上利用基于前綴的等價(jià)關(guān)系將搜索空間劃分為較小的子空間灰色關(guān)聯(lián)分析法分析和確定各個(gè)因素之間的影響程度,或是基于若干個(gè)子因素(子序列)對(duì)主因素(母序列)的貢獻(xiàn)度而進(jìn)行的一種分析方法5.4關(guān)聯(lián)分析的簡介5.4.2常用的關(guān)聯(lián)分析算法簡介接下來用一個(gè)實(shí)例來介紹Apriori算法的基本原理。表5-6所示為去一家超市購物的幾名客戶購買的商品列表,表中的一條記錄被稱為“交易”,每個(gè)物品被稱為“項(xiàng)”。5-6客戶購買的商品列表訂單編號(hào)購買的商品T1牛奶、面包、尿布T2面包、尿布、啤酒、可樂T3牛奶、尿布、啤酒、雞蛋T4牛奶、面包、尿布、啤酒T5牛奶、面包、尿布、可樂5.4關(guān)聯(lián)分析的簡介1.Apriori算法的幾個(gè)術(shù)語首先結(jié)合表5-6中的數(shù)據(jù)介紹在Apriori算法中用到的幾個(gè)術(shù)語。1)支持度支持度指的是某個(gè)商品組合出現(xiàn)的次數(shù)與總次數(shù)之間的比例。在表5-6的5筆訂單中,“牛奶”出現(xiàn)了4次,那么在這5筆訂單中“牛奶”的支持度就是4/5;“牛奶+面包”出現(xiàn)了3次,那么“牛奶+面包”的支持度為3/5,可以表示為support({牛奶,面包})=3/55.4關(guān)聯(lián)分析的簡介2)置信度(confidence)置信度是指購買了商品A,會(huì)有多大的概率購買商品B。置信度是一個(gè)條件概率,就是在A發(fā)生的情況下,B發(fā)生的概率是多少。根據(jù)表5-6的數(shù)據(jù),可以觀察到:置信度(牛奶→啤酒)=2/4;置信度(啤酒→牛奶)=2/3,可以表示為

confidence(啤酒→牛奶)=2/35.4關(guān)聯(lián)分析的簡介3)提升度提升度表示的是A的出現(xiàn),對(duì)B出現(xiàn)的概率提升的程度。

lift(A→B)=confidence(A→B)/support(B)這個(gè)公式是用來衡量在A出現(xiàn)的情況下,是否會(huì)對(duì)B出現(xiàn)的概率有所提升。所以提升度有如下3種可能。(1)提升度

(A→B)>1:代表有提升。(2)提升度

(A→B)=1:代表沒有提升,也沒有下降。(3)提升度

(A→B)<1:代表有下降。5.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程首先我們把上面案例中的商品用ID來代表,將牛奶、面包、尿布、可樂、啤酒、雞蛋的ID分別設(shè)置為1~6,表5-6就變?yōu)楸?-7所示的形式。表5-7物品編號(hào)的客戶購買的商品列表訂單編號(hào)購買的商品T11、2、3T22、3、5、4T31、3、5、6T41、2、3、5T51、2、3、45.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程Apriori算法其實(shí)就是查找頻繁項(xiàng)集的過程,所以首先需要定義什么是頻繁項(xiàng)集。頻繁項(xiàng)集就是支持度大于或等于最小支持度閾值的項(xiàng)集,項(xiàng)集可以是單個(gè)的商品,也可以是商品的組合。小于最小支持度的項(xiàng)集就是非頻繁項(xiàng)集。在這個(gè)例子中,假設(shè)指定的最小支持度是0.5,接下來看Apriori算法是如何運(yùn)算的。首先計(jì)算單個(gè)商品的支持度,也就是得到k=1項(xiàng)的支持度(注:k=1表示項(xiàng)集的事件只包含1個(gè)元素),如表5-8所示。表5-8k=1項(xiàng)的支持度商品項(xiàng)集支持度14/524/535/542/553/561/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程因?yàn)樽钚≈С侄仁?.5,所以商品4、6不屬于頻繁項(xiàng)集,于是經(jīng)過篩選后的頻繁項(xiàng)集如表5-9所示。在這個(gè)基礎(chǔ)上,我們將表5-9中所列的商品(1、2、3和5)兩兩組合,得到k=2項(xiàng)的支持度,如表5-10所示。商品項(xiàng)集支持度14/524/535/553/5表5-9

大于最小支持度的k=1項(xiàng)(頻繁項(xiàng)集)5.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程表5-10k=2項(xiàng)的支持度商品項(xiàng)集支持度1,23/51,34/51,52/52,34/52,52/53,53/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程我們?cè)俸Y掉小于最小值支持度0.5的商品組合,可以得到如表5-11所示的結(jié)果。表5-11大于最小支持度的k=2項(xiàng)商品項(xiàng)集支持度1,23/51,34/52,34/53,53/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程我們?cè)賹⑸唐愤M(jìn)行K=3項(xiàng)的組合,可以得到如表5-12所示的結(jié)果。表5-12

k=3項(xiàng)的支持度商品項(xiàng)集支持度1,2,33/51,3,52/52,3,52/51,2,51/55.4關(guān)聯(lián)分析的簡介2.Apriori算法的工作流程我們?cè)俸Y掉小于最小值支持度0.5的商品組合,可以得到如表5-13所示的結(jié)果。表5-13頻繁項(xiàng)集的最終結(jié)果商品項(xiàng)集支持度1,2,33/5通過上面這個(gè)過程,我們最終可以得到K=3項(xiàng)的頻繁項(xiàng)集{1,2,3},也就是{牛奶、面包、尿布}的組合。5.4關(guān)聯(lián)分析的簡介3.Apriori算法的流程Apriori算法的流程如下。(1)K=1,計(jì)算K項(xiàng)集的支持度。(2)篩選掉小于最小支持度的項(xiàng)集。(3)如果項(xiàng)集為空,則對(duì)應(yīng)K-1項(xiàng)集的結(jié)果為最終結(jié)果。(4)否則K=K+1,重復(fù)1-3步。5.4關(guān)聯(lián)分析的簡介3.Apriori算法的缺點(diǎn)Apriori算法的缺點(diǎn)如下。(1)采用排列組合的方式,把所有可能的項(xiàng)集都組合出來了,可能產(chǎn)生大量的候選集。(2)每次計(jì)算都需要重新掃描數(shù)據(jù)集,來計(jì)算每個(gè)項(xiàng)集的支持度。如果這是一個(gè)大型的數(shù)據(jù)集,這種掃描會(huì)大大增加系統(tǒng)的開銷。為了改進(jìn)Apriori算法的不足,韓嘉煒等人于2000年提出FP-Growth算法,它將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到高效的數(shù)據(jù)結(jié)構(gòu)FP-tree上,減少候選頻繁項(xiàng)集的數(shù)量。5.5分類算法的簡介分類算法的目標(biāo)是找到每個(gè)樣本到類別的對(duì)應(yīng)法則,前提是訓(xùn)練數(shù)據(jù)的類別是已存在的,即是有標(biāo)簽的數(shù)據(jù),屬于有監(jiān)督學(xué)習(xí)類型。其典型的應(yīng)用有信貸審批、故障診斷、欺詐檢測、客戶類型判別等。分類算法的流程分為兩大步驟(見圖5-16)。(1)模型構(gòu)建:用有標(biāo)簽的數(shù)據(jù)構(gòu)建分類模型。(2)預(yù)測:預(yù)測無標(biāo)簽數(shù)據(jù)的類別。圖5-16分類算法的流程示意圖5.5分類算法的簡介

主要的分類算法有:k最近鄰(K-NearestNeighbor,KNN)算法、決策樹(DecisionTree)算法、貝葉斯分類(BayesianClassification)算法、支持向量機(jī)(SupportVectorMachine,SVM)算法、人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)算法和邏輯回歸(LogisticRegression,LR)算法等。5.5分類算法的簡介5.5.1近鄰分類算法近鄰分類算法,或稱為KNN算法,它是數(shù)據(jù)挖掘分類技術(shù)中最經(jīng)典的算法之一。該算法由于簡單有效,已經(jīng)被廣泛應(yīng)用于眾多領(lǐng)域,并派生出了各種改進(jìn)版本,例如基于距離權(quán)重的KNN算法、基于特征權(quán)重的KNN算法和基于代表點(diǎn)的KNN算法(如KNNModel算法)等。5.5分類算法的簡介1.KNN算法的核心思想對(duì)于一個(gè)需要預(yù)測的輸入向量x,我們只需要在訓(xùn)練數(shù)據(jù)集中尋找k個(gè)與x最近的向量集合,然后把x的類別預(yù)測為這k個(gè)樣本中類別數(shù)最多的那一類。KNN算法的流程如下。步驟1:讀取數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。步驟2:設(shè)定參數(shù),如近鄰個(gè)數(shù)k。步驟3:對(duì)于每個(gè)要預(yù)測的測試樣本x,從訓(xùn)練數(shù)據(jù)集中找出最近的k個(gè)樣本,構(gòu)成x的近鄰集合NN。步驟4:確定NN中樣本的多數(shù)類別,并將其作為測試樣本x的類別。步驟5:測試完畢后計(jì)算評(píng)價(jià)指標(biāo),繼續(xù)設(shè)定不同的k值重新進(jìn)行訓(xùn)練,最后取評(píng)價(jià)指標(biāo)最優(yōu)的k值。5.5分類算法的簡介2.k值的設(shè)定k值的設(shè)定在KNN算法中十分關(guān)鍵。k取值過大易產(chǎn)生欠擬合效果,取值過小易產(chǎn)生過擬合效果。例如,在圖5-17中,圓要被決定賦予哪個(gè)類,是三角形還是正方形?如果k=3,由于三角形所占的比例為2/3,圓將被賦予三角形那個(gè)類,如果k=5,由于正方形的比例為3/5,因此圓將被賦予正方形那么類。圖5-17k值對(duì)近鄰分類結(jié)果的影響5.5分類算法的簡介5.k值的設(shè)定為了確定合適的k值,可以通過交叉驗(yàn)證法,從選取一個(gè)較小的k值開始,不斷增加k的值,然后計(jì)算驗(yàn)證集合的方差,最終找到一個(gè)比較合適的k值。如圖5-18所示,該圖為k值(K-Value)與分類錯(cuò)誤率(Errorrate)的關(guān)系圖,圖中的曲線表示驗(yàn)證錯(cuò)誤(Validationerror)曲線,從中可以看出,選擇k=10,可以讓分類效果更好。圖5-18用交叉驗(yàn)證法選擇k值的示意圖5.5分類算法的簡介5.5.2決策樹算法決策樹算法通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對(duì)未知的數(shù)據(jù)進(jìn)行分類。決策樹的每個(gè)內(nèi)部節(jié)點(diǎn)代表在一個(gè)特征上的測試,每個(gè)分枝代表該測試的一個(gè)輸出,而每個(gè)樹葉結(jié)點(diǎn)存放著一個(gè)類標(biāo)號(hào)。對(duì)于一個(gè)決策樹算法,最關(guān)鍵的是節(jié)點(diǎn)的分枝策略(將節(jié)點(diǎn)劃分為子節(jié)點(diǎn)的策略),其中包含兩個(gè)要點(diǎn)。(1)如何選擇最優(yōu)劃分特征。(2)如何在最優(yōu)劃分特征上確定分裂點(diǎn)。節(jié)點(diǎn)的最優(yōu)特征選擇策略,在于選取對(duì)訓(xùn)練數(shù)據(jù)具有最強(qiáng)分類能力的特征,目的是使決策樹的分枝節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的“純度”越來越高。5.5分類算法的簡介5.5.2決策樹算法常見的ID3算法基于信息增益作為最優(yōu)分裂屬性選擇的度量,C4.5算法基于信息增益比作為最優(yōu)分裂屬性選擇的度量,CART算法基于基尼指數(shù)作為最優(yōu)分裂屬性選擇的度量。例如,有如表5-14所示的西瓜數(shù)據(jù)集,用ID3算法構(gòu)建的一個(gè)判斷西瓜好壞的決策樹如圖5-19所示。表5-14西瓜數(shù)據(jù)集5.5分類算法的簡介5.5.2決策樹算法圖5-19用ID3算法構(gòu)建的一個(gè)判斷西瓜好壞的決策樹5.6聚類算法的簡介聚類的目的是把大型數(shù)據(jù)劃分成不同的簇,它所針對(duì)的是無標(biāo)簽類別的數(shù)據(jù),因此聚類屬于無監(jiān)督學(xué)習(xí)類型。所謂“簇”,是指數(shù)據(jù)對(duì)象的集合,同一簇中的對(duì)象之間彼此相似,不同簇之間的對(duì)象相異。圖5-20所示為聚類算法的示意圖。圖5-20聚類算法的示意圖6聚類算法的簡介聚類算法有非常廣泛的應(yīng)用場景,其應(yīng)用示意圖如圖5-21所示。(1)客戶細(xì)分:發(fā)現(xiàn)顧客中獨(dú)特的群組,然后利用他們的特性發(fā)展目標(biāo)營銷項(xiàng)目。(2)土地利用:在土地觀測數(shù)據(jù)庫中發(fā)現(xiàn)相似的區(qū)域。(3)保險(xiǎn):識(shí)別平均索賠額度較高的機(jī)動(dòng)車輛保險(xiǎn)客戶群組。(4)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn):運(yùn)用聚類算法發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。5.6聚類算法的簡介(a)客戶細(xì)分

(b)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)圖5-21聚類算法的應(yīng)用示意圖5.6聚類算法的簡介5.6.1主要的聚類算法類型目前主要的聚類算法可以分為四大類型。1.劃分聚類算法2.層次聚類算法3.基于密度的聚類算法4.基于網(wǎng)格的聚類算法5.6聚類算法的簡介1.劃分聚類算法給定一個(gè)有n個(gè)對(duì)象的數(shù)據(jù)集,劃分聚類算法將構(gòu)造數(shù)據(jù)劃分成k個(gè)(k≤n)。每一個(gè)劃分就代表一個(gè)簇,并要求每一個(gè)簇至少包含一個(gè)對(duì)象,每一個(gè)對(duì)象屬于且僅屬于一個(gè)簇。代表算法:k均值聚類算法、k-medoids聚類算法和CLARANS算法等。5.6聚類算法的簡介2.層次聚類算法層次聚類是將所有的樣本自底向上合并成一棵“樹”,或自頂向下分裂成一棵“樹”的過程,這兩類過程分別被稱為“凝聚的層次聚類”和“分裂的層次聚類”。凝聚的層次聚類:采用自底向上的策略,它首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來越大的簇,直到某個(gè)終結(jié)條件被滿足。分裂的層次聚類:采用自頂向下的策略,它首先將所有對(duì)象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到某個(gè)終結(jié)條件被滿足。代表算法:BRICH算法、CURE算法和ROCK等算法。5.6聚類算法的簡介3.基于密度的聚類算法基于密度的聚類算法的指導(dǎo)思想是,只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)域值,就把它加到與之相近的聚類中去。這類算法能克服基于距離的聚類算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點(diǎn),它可發(fā)現(xiàn)任意形狀的聚類,且對(duì)噪聲數(shù)據(jù)不敏感。代表算法:DBSCAN算法、OPTICS算法和DENCLUE等算法。5.6聚類算法的簡介4.基于網(wǎng)格的聚類算法該算法使用多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),它將對(duì)象的空間量化為有限數(shù)目的單元,這些單元形成了網(wǎng)格結(jié)構(gòu),所有的聚類操作都在該結(jié)構(gòu)上進(jìn)行。代表算法:CLIQUE算法、STING等算法。5.6聚類算法的簡介單擊此處添加文本具體內(nèi)容,簡明扼要的闡述您的觀點(diǎn)。圖5-22所示為目前常見的聚類算法和典型的代表算法的歸類和總結(jié),供讀者參考。圖5-22目前常見的聚類算法和典型的代表算法法的歸類和總結(jié)5.6聚類算法的簡介5.6.2k均值聚類算法k均值聚類算法的每個(gè)簇的中心由簇中對(duì)象的平均值表示,所以稱之為k均值聚類算法。該算法初始確定k個(gè)簇中心,然后把每個(gè)點(diǎn)歸類到其最近的簇中心,然后重新計(jì)算新的簇中心,通過迭代的方法不斷地更新簇中心,其基本流程示意圖如圖5-23所示。圖5-23k均值聚類算法的基本流程示意圖5.6聚類算法的簡介5.6.2k均值聚類算法1.k均值聚類算法的基本流程k均值聚類算法的基本流程如下。算法名稱:k均值聚類算法。輸入:k表示簇?cái)?shù)目,D表示包含n個(gè)樣本的數(shù)據(jù)集。輸出:簇中心集合。算法流程如下。步驟1:從數(shù)據(jù)集中隨機(jī)取k個(gè)對(duì)象,將其作為k個(gè)簇的初始聚類中心。步驟2:計(jì)算剩下的對(duì)象到k個(gè)簇中心的相似度,將這些對(duì)象分別劃分到相似度最高的簇。步驟3:根據(jù)聚類結(jié)果,更新k個(gè)簇的中心,計(jì)算方法是取簇中所有對(duì)象各自維度的算術(shù)平均值。5.6聚類算法的簡介5.6.2k均值聚類算法步驟4:將數(shù)據(jù)集中的全部元素按照新的中心重新聚類。步驟5:滿足算法的停止條件,轉(zhuǎn)至步驟6;否則轉(zhuǎn)至步驟3。步驟6:輸出聚類結(jié)果。k均值聚類算法的停止條件可以有如下多種。(1)設(shè)定迭代次數(shù)。(2)聚類中心不再變化。(3)前后兩次聚類結(jié)果的目標(biāo)函數(shù)(如采用聚類質(zhì)量度量指標(biāo))變化很小。5.6聚類算法的簡介5.6.2k均值聚類算法2.k均值聚類算法的優(yōu)缺點(diǎn)均值聚類算法的優(yōu)點(diǎn)是效率相對(duì)較高,其時(shí)間復(fù)雜度為O(tkn),其中n為樣本數(shù),k為簇?cái)?shù),t為迭代次數(shù),通常情況下,k、t<<n。k均值聚類算法的缺點(diǎn)主要表現(xiàn)在如下方面。(1)只有在數(shù)據(jù)樣本的均值有定義的情況下才能使用。(2)必須事先給定簇的數(shù)量k。(3)不能處理噪聲和離群點(diǎn)。(4)不適于發(fā)現(xiàn)非凸形狀的簇。例如,對(duì)于如圖5-24所示的流形數(shù)據(jù),的效果就很差。圖5-24流形數(shù)據(jù)的聚類示意圖5.6聚類算法的簡介5.6.3層次聚類算法的簡介層次聚類算法通過計(jì)算不同類別數(shù)據(jù)點(diǎn)間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹,不同類別的原始數(shù)據(jù)點(diǎn)是樹的最底層,樹的頂層是一個(gè)聚類的根節(jié)點(diǎn)。層次聚類算法分為兩類:自上而下和自下而上。自下而上的算法在一開始就將每個(gè)數(shù)據(jù)點(diǎn)視為一個(gè)單一的聚類,然后依次合并類,直到所有類合并成一個(gè)包含所有數(shù)據(jù)點(diǎn)的單一聚類。AGNES(AGglomerativeNESting)算法和DIANA(DIvisiveANAlysis)算法分別是傳統(tǒng)的凝聚型層次聚類算法和分裂型層次聚類算法的代表,圖5-25演示了這兩種算法在一個(gè)包含5個(gè)樣本的數(shù)據(jù)集{a,b,c,d,e}上的處理過程。6聚類算法的簡介6.3層次聚類算法的簡介圖5-25中的凝聚型層次聚類算法AGNES算法的流程如下。(1)首先將每個(gè)數(shù)據(jù)點(diǎn)作為一個(gè)單個(gè)簇,如圖5-27中的a、b、c、d和e分別為初始的5個(gè)簇。(2)接著根據(jù)選擇的度量方法計(jì)算兩兩簇之間的相似度(或稱為鄰近度)。圖5-25兩種層次聚類算法的處理過程示意圖5.6聚類算法的簡介5.6.3層次聚類算法的簡介(3)對(duì)所有簇中最為相似的兩個(gè)簇進(jìn)行組合,形成具有最小平均連接的簇,如a和b連接為一個(gè)簇,d和e連接為一個(gè)簇。(4)重復(fù)迭代步驟(2)和(3)直到簇中所有的對(duì)象滿足最開始的簇?cái)?shù)目為止。分裂型層次聚類算法以相反的方法處理。初始時(shí)所有的對(duì)象形成一個(gè)簇,然后根據(jù)某種規(guī)則將該簇分裂;分裂的過程反復(fù)進(jìn)行,直到最終每個(gè)簇只包含一個(gè)樣本。層次聚類算法計(jì)算兩個(gè)簇之間相似度的常用方法有單鏈、全鏈和組平均方法。(1)單鏈:兩個(gè)簇的相似度為兩個(gè)簇中任意兩個(gè)點(diǎn)之間的最短距離。(2)全鏈:兩個(gè)簇的相似度為兩個(gè)簇中任意兩個(gè)點(diǎn)之間的最長距離。5.6聚類算法的簡介5.6.3層次聚類算法的簡介(3)組平均:兩個(gè)簇的相似度為兩個(gè)簇中任意兩個(gè)點(diǎn)之間的平均距離。層次聚類算法的優(yōu)點(diǎn)是比較簡單、容易理解,不需要設(shè)置復(fù)雜的參數(shù)。在某些應(yīng)用中,想把數(shù)據(jù)分成不同層次的組群,使之形成層次結(jié)構(gòu),在這種應(yīng)用場景中,層次聚類算法就很適用。例如,在進(jìn)化研究中,可以利用層次聚類算法按照動(dòng)物的生物學(xué)特征對(duì)它們分組,使其形成物種的層次結(jié)構(gòu),從而發(fā)現(xiàn)進(jìn)化路徑。5.7分布式數(shù)據(jù)挖掘算法將傳統(tǒng)的數(shù)據(jù)挖掘算法應(yīng)用于大數(shù)據(jù)時(shí),數(shù)據(jù)量的劇增,使得計(jì)算時(shí)間和對(duì)內(nèi)存空間的占用量迅速增加,通常難以正常執(zhí)行。為了解決這樣的困境,分布式計(jì)算模型的引入就成為一種必然。分布式計(jì)算將計(jì)算任務(wù)分解成許多個(gè)小部分,分配給多臺(tái)計(jì)算機(jī)協(xié)作處理,這樣就可以節(jié)約整體的計(jì)算時(shí)間,大大提高了計(jì)算效率。Hadoop所提供的MapReduce計(jì)算模型能夠?qū)⒂?jì)算任務(wù)分配到集群中的多臺(tái)服務(wù)器上執(zhí)行,每臺(tái)服務(wù)器可以從本地讀取數(shù)據(jù)完成對(duì)子任務(wù)的計(jì)算,最后將中間結(jié)果進(jìn)行合并計(jì)算。因此,分布式存儲(chǔ)在集群中的大數(shù)據(jù)就不必非得讀取到同一個(gè)節(jié)點(diǎn)進(jìn)行集中處理,大大節(jié)約了數(shù)據(jù)傳輸量,并且可以協(xié)同集群中的多臺(tái)服務(wù)器共同完成計(jì)算任務(wù),減少了計(jì)算時(shí)間。7分布式數(shù)據(jù)挖掘算法MapReduce能夠解決的問題有一個(gè)共同特點(diǎn):任務(wù)可以被分解為多個(gè)子問題,且這些子問題相對(duì)獨(dú)立,可以并行處理這些子問題。在實(shí)際應(yīng)用中,這類問題非常多,在谷歌的相關(guān)論文中提到了MapReduce的一些典型應(yīng)用,包括分布式grep、URL訪問頻率的統(tǒng)計(jì)、Web連接圖的反轉(zhuǎn)、倒排索引的構(gòu)建、分布式排序等問題。Mahout是Apache的一個(gè)開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序,并且Mahout還提供了對(duì)ApacheHadoop的支持,把諸多經(jīng)典的算法轉(zhuǎn)換到MapReduce的計(jì)算框架下,大大提高了算法可處理的數(shù)據(jù)量和處理性能,使這些算法可以更高效地運(yùn)行在分布式環(huán)境中。5.7分布式數(shù)據(jù)挖掘算法Mahout最大的優(yōu)點(diǎn)就是基于Hadoop的實(shí)現(xiàn),把很多以前運(yùn)行在單機(jī)上的算法,轉(zhuǎn)化成了MapReduce模式,這樣大大提升了算法可處理的數(shù)據(jù)量和處理性能。從Mahout所實(shí)現(xiàn)的MapReduce算法可以看出,許多經(jīng)典的數(shù)據(jù)挖掘算法可以被改造成分布式算法在Hadoop平臺(tái)上執(zhí)行,但要求這些算法在執(zhí)行過程中能夠被劃分成多個(gè)相互獨(dú)立的子任務(wù)并行執(zhí)行。5.8數(shù)據(jù)挖掘的典型應(yīng)用經(jīng)過了大約30多年的發(fā)展,數(shù)據(jù)挖掘技術(shù)取得了輝煌的成果,逐步形成了一套基本的理論基礎(chǔ),主要包括:分類、聚類、異常檢測、模式挖掘和規(guī)則提取等。目前,隨著大數(shù)據(jù)時(shí)代的來臨,無論是數(shù)據(jù)的變化速率,還是數(shù)據(jù)的種類都在不斷更新,數(shù)據(jù)挖掘變得越來越復(fù)雜但也越來越重要。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)與其他大數(shù)據(jù)處理技術(shù)之間相輔相成、協(xié)調(diào)發(fā)展,被廣泛應(yīng)用于人類社會(huì)的各個(gè)方面。接下來介紹數(shù)據(jù)挖掘的一些典型應(yīng)用領(lǐng)域和案例。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.1數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用隨著基因測序技術(shù)和生物信息學(xué)的發(fā)展,越來越多的生物信息數(shù)據(jù)產(chǎn)生。生物信息學(xué)是一門存儲(chǔ)、分析和利用生物學(xué)數(shù)據(jù)(如基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、蛋白質(zhì)組數(shù)據(jù)、微生物數(shù)據(jù)、代謝組數(shù)據(jù)、陣列芯片,數(shù)據(jù)以及通過濕法實(shí)驗(yàn)生成的數(shù)據(jù))信息的科學(xué)。目前,通過數(shù)據(jù)挖掘技術(shù)對(duì)生物信息數(shù)據(jù)進(jìn)行挖掘并有效利用,變得越來越重要。在動(dòng)植物研究領(lǐng)域,對(duì)不同的物種數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合分析,研究不同物種之間的進(jìn)化關(guān)系。對(duì)同一物種的不同組學(xué)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合分析,全面系統(tǒng)地對(duì)此物種的生物學(xué)機(jī)制進(jìn)行研究。在生物醫(yī)學(xué)領(lǐng)域,使用數(shù)據(jù)挖掘技術(shù)有助于在生物醫(yī)學(xué)產(chǎn)業(yè)的特定領(lǐng)域內(nèi)進(jìn)行全面的研究,并且使研究人員可以更好地了解生物學(xué)機(jī)制,以便在醫(yī)療保健和生命知識(shí)領(lǐng)域發(fā)現(xiàn)新的治療方法。5.8數(shù)據(jù)挖掘的典型應(yīng)用5.8.2數(shù)據(jù)挖掘在市場營銷領(lǐng)域中的應(yīng)用在市場營銷中,經(jīng)常需要使用數(shù)據(jù)挖掘技術(shù)。例如,利用聚類分析能夠了解消費(fèi)者的消費(fèi)行為,從而推斷出其消費(fèi)動(dòng)機(jī)與消費(fèi)習(xí)慣,進(jìn)而讓企業(yè)實(shí)現(xiàn)精準(zhǔn)營銷。如果要設(shè)計(jì)一款新產(chǎn)品,需要先進(jìn)行市場調(diào)查,以收集消費(fèi)者的偏好和習(xí)慣,根據(jù)市場定位找到合適的目標(biāo)人群,等到產(chǎn)品設(shè)計(jì)出來還需要針對(duì)不同的地點(diǎn)進(jìn)行投放,并收集消費(fèi)者的反饋。所有這些過程都需要使用數(shù)據(jù)挖掘技術(shù)進(jìn)行詳細(xì)分析,以便營銷人員能夠設(shè)計(jì)有針對(duì)性的營銷計(jì)劃。在市場營銷領(lǐng)域中的數(shù)據(jù)挖掘技術(shù),可以實(shí)現(xiàn)客戶細(xì)分、交叉營銷、客戶獲取、客戶維護(hù)等功能。5.8數(shù)據(jù)挖掘的典型應(yīng)用1.客戶細(xì)分客戶細(xì)分是指按照一定的標(biāo)準(zhǔn)或規(guī)范,將企業(yè)所處理的異質(zhì)用戶群體劃分為多個(gè)同質(zhì)的子群體,子群體中的用戶具有相同或相似的價(jià)值或個(gè)人行為特征,而不同群體中的用戶具有不同的價(jià)值或個(gè)人行為特征。很顯然,這可以運(yùn)用數(shù)據(jù)挖掘中的聚類算法,根據(jù)用戶的特性將整個(gè)用戶群體劃分為多個(gè)類別。5.8數(shù)據(jù)挖掘的典型應(yīng)用2.交叉營銷交叉營銷是指企業(yè)向用戶提供當(dāng)前消費(fèi)產(chǎn)品以外的產(chǎn)品的營銷活動(dòng)。數(shù)據(jù)挖掘技術(shù)(如推薦系統(tǒng))可以對(duì)用戶的個(gè)人數(shù)據(jù)進(jìn)行分析,向其推薦可能感興趣的其他商品或服務(wù)。例如,當(dāng)用戶登錄淘寶或京東時(shí),網(wǎng)站會(huì)向用戶推薦可能感興趣的商品,其實(shí)這就是根據(jù)用戶之前購買、評(píng)價(jià)或?yàn)g覽商品的記錄,通過背后的智能推薦算法得出的推薦結(jié)果。5.8數(shù)據(jù)挖掘的典型應(yīng)用3.客戶獲取客戶獲取是公司開拓新市場的關(guān)鍵途徑。雖然營銷人員可以使用許多傳統(tǒng)方法來進(jìn)行大規(guī)模的營銷活動(dòng),但如果他們能夠?qū)@取到的大量市場信息作為其活動(dòng)計(jì)劃的一部分,他們的成功概率肯定會(huì)更大。數(shù)據(jù)挖掘技術(shù)可以幫助營銷人員選擇潛在用戶,營銷人員所要做的就是將數(shù)據(jù)挖掘技術(shù)提供的潛在用戶與他們感興趣的活動(dòng)聯(lián)系起來。5.8數(shù)據(jù)挖掘的典型應(yīng)用4.客戶維護(hù)由于市場需求日益激烈,獲取新用戶的成本越來越高,維護(hù)原有用戶的價(jià)值也越來越高。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論