




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
Python大數(shù)據(jù)挖掘技術(shù)核心知識包括:大數(shù)據(jù)挖掘技術(shù)的相關(guān)概念,實現(xiàn)方法,以及技術(shù)的評價;在Python常用到的方法庫。CONTENTS目錄關(guān)聯(lián)規(guī)則聚類分析分類分析離群點檢測Python常用方法庫01PARTONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則1、基本概念關(guān)聯(lián)規(guī)則的概念最早由Agrawal、Imielinski和Swami(1993年)提出,其主要研究目的是分析超市顧客購買行為的規(guī)律,發(fā)現(xiàn)連帶購買商品,為制定合理的方便顧客選取的貨架擺放方案提供依據(jù)。關(guān)聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性,用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關(guān)關(guān)系,可從數(shù)據(jù)中分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。ONE關(guān)聯(lián)規(guī)則
ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則1、基本概念數(shù)據(jù)集實例:ONE關(guān)聯(lián)規(guī)則TID項集1{面包,牛奶}2{面包,尿布,啤酒,咖啡}3{牛奶,尿布,啤酒,可樂}4{牛奶,面包,尿布,啤酒}5{牛奶,面包,尿布,可樂}3.1關(guān)聯(lián)規(guī)則1、基本概念1)
關(guān)聯(lián)規(guī)則(AssociationRules):關(guān)聯(lián)規(guī)則是形如A→B蘊含的表達式,其中A和B是不相交的項集,A稱為規(guī)則的前件(antecedent),而B稱為規(guī)則的后件(consequent),如{牛奶,尿布}→{啤酒},{牛奶,尿布}為規(guī)則的前件,{啤酒}為規(guī)則的后件。2)
項集(Itemset):包含0個或多個項的集合,如在表中{牛奶}構(gòu)成一個一項集,{牛奶,尿布,啤酒}構(gòu)成一個三項集。ONE關(guān)聯(lián)規(guī)則
ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則1、基本概念5)頻繁項:在多個事務(wù)中頻繁出現(xiàn)的項就是頻繁項。6)頻繁項集(FrequentItemset):假設(shè)有一系列的事務(wù),將這些事務(wù)中同時出現(xiàn)的頻繁項組成一個子集,且子集滿足最小支持度閾值(MinimumSupport),這個集合稱為頻繁項集。假設(shè)最小支持度為0.2,則由于項集{牛奶,尿布,啤酒}的支持度為0.4大于0.2,因此項集{牛奶,尿布,啤酒}為頻繁項集。ONE關(guān)聯(lián)規(guī)則
ONE關(guān)聯(lián)規(guī)則
ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則1、基本概念9)關(guān)聯(lián)規(guī)則的強度:(1)支持度,確定項集的頻繁程度,表示項集的重要程度;(2)置信度,確定B在包含A的事務(wù)中出現(xiàn)的頻繁程度,表示關(guān)系的可信程度;(3)提升度,在含有A的條件下同時含有B的可能性,與沒有這個條件下項集中含有的B的可能性之比。規(guī)則的提升度的意義在于度量項集{A}和項集{B}的獨立性,即Lift(A->B)=1,{A}、{B}相互獨立。1)若該值=1,說明事務(wù)A與事務(wù)B是獨立的。2)若該值<1,說明事務(wù)A與事務(wù)B是互斥的。3)若該值>1,說明事務(wù)A與事務(wù)B是強項關(guān)聯(lián)。一般在數(shù)據(jù)挖掘中當提升度大于3時,我們才承認數(shù)據(jù)挖掘的關(guān)聯(lián)是有價值的。ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則2、實現(xiàn)方法---Apriori算法(1)Apriori算法原理算法的基本思想:先確定候選的所有可能項(即1項集)以及相應的支持度,識別并保留所有高于支持度的1項集,得到頻繁1項集。然后,對剩下的頻繁1項集進行連接,得到候選的頻繁2項集,再次識別并保留高于支持度的候選頻繁2項集,得到真正的頻繁二項集,以此類推,進行迭代,直到無法找到頻繁k+1項集為止,對應的頻繁k項集的集合即為算法的輸出結(jié)果。然后,再利用找到的頻繁項集與預先設(shè)定的最小置信度的閾值生成強關(guān)聯(lián)規(guī)則。ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則2、實現(xiàn)方法---Apriori算法(1)Apriori算法原理算法的目標:找到最大的K-項頻繁集。首先,是要找到符合支持度標準的頻繁集,但是滿足條件的頻繁集可能有很多。因此,接下來要找到最大個數(shù)的頻繁集。比如找到符合支持度的頻繁集AB和ABE,那么一般會拋棄AB,只保留ABE,因為AB是2-項頻繁集,而ABE是3-項頻繁集。算法的性質(zhì):如果一個項集是頻繁的,則它的所有子集也一定是頻繁的;反之,如果一個項集是非頻繁的,則它的所有超集也一定是非頻繁的?;谠撔再|(zhì),一旦發(fā)現(xiàn)某項集是非頻繁的,即可將整個包含該項的超集剪枝。這種基于支持度度量修剪指數(shù)搜索空間的策略稱為基于支持度的剪枝。ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則2、實現(xiàn)方法---Apriori算法(2)Apriori算法具體步驟1)掃描數(shù)據(jù)庫,生成候選1-項集和頻繁1-項集;2)2-項集開始循環(huán),由頻繁(k-1)-項集生成頻繁k-項集,頻繁(k-1)-項集兩兩組合,判定是否可以連接,若能則連接生成k-項集;對k項集中的每個項集檢測其子集是否頻繁,舍棄掉不是頻繁項集的子集;掃描數(shù)據(jù)庫,計算前一步中過濾后的k-項集的支持度,舍棄掉支持度小于閾值的項集,生成頻繁k-項集。3)若當前k-項集中只有一個項集時,循環(huán)結(jié)束。ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則2、實現(xiàn)方法---FP-Growth算法Apriori算法是一個采用候選消除的算法,每一次消除都需要掃描一次所有數(shù)據(jù)記錄,這導致該算法在面臨大數(shù)據(jù)集時效率低下。為了解決該問題,一個新的關(guān)聯(lián)規(guī)則挖掘算法FP-Growth被提出。(1)FP-Growth算法原理算法的基本思路:把數(shù)據(jù)集中的事務(wù)映射到一棵FP-tree上面,再根據(jù)這棵樹找出頻繁項集。FP-Growth算法被用于挖掘頻繁項集,將數(shù)據(jù)集存儲為FP樹的數(shù)據(jù)結(jié)構(gòu),以更高效地發(fā)現(xiàn)頻繁項集或頻繁項對。相比于Apriori算法對每個潛在的頻繁項集都掃描數(shù)據(jù)集,判定是否滿足支持度,F(xiàn)P-Growth算法只需要對數(shù)據(jù)庫進行兩次遍歷,就可以高效發(fā)現(xiàn)頻繁項集,因此,它在大數(shù)據(jù)集上的速度要優(yōu)于Apriori算法。ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則2、實現(xiàn)方法---FP-Growth算法(2)FP-Growth算法步驟FP-Growth算法的步驟,大體上可以分成兩步:第一步,F(xiàn)P-tree的構(gòu)建;第二步,在FP-Tree上挖掘頻繁項集。1)掃描第一遍數(shù)據(jù)庫,找出頻繁項;2)將記錄按照頻繁項集的支持度由大到小順序重新排列;3)掃描第二遍數(shù)據(jù)庫,產(chǎn)生FP-tree;4)從FP-tree挖掘得到頻繁項集。ONE關(guān)聯(lián)規(guī)則
ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)模式的評價1)客觀標準(1)提升度與興趣因子進行度量興趣因子的局限性:當規(guī)則的置信度與規(guī)則后件支持度數(shù)值大小相近時,因為比率的形式掩蓋了分子、分母本身的數(shù)值大小,提升度就不足以說明問題。尤其是當后件的支持度本身很小時,如果再除以后件的支持度,相當于乘了一個很大的數(shù),會讓興趣因子很模糊。ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)模式的評價1)客觀標準(2)相關(guān)分析進行度量相關(guān)分析是一種基于統(tǒng)計學的技術(shù),對于連續(xù)型變量,相關(guān)度可以采用皮爾森相關(guān)系數(shù)表示。相關(guān)度的值從-1(完全負相關(guān))到+1(完全正相關(guān)),如果變量是相互獨立的,那么相關(guān)度為0。如果變量是正相關(guān),相關(guān)度大于0,同理,如果變量負相關(guān),相關(guān)度小于0。相關(guān)分析進行度量的局限性:相關(guān)分析中把事務(wù)記錄中項的出現(xiàn)與不出現(xiàn)視為同等重要,因此相關(guān)分析更適合于分析對稱的二元變量。ONE關(guān)聯(lián)規(guī)則
ONE關(guān)聯(lián)規(guī)則3.1關(guān)聯(lián)規(guī)則3、關(guān)聯(lián)模式的評價2)主觀標準常見的將主觀信息加入到模式發(fā)現(xiàn)任務(wù)的方法有以下幾種:(1)可視化方法:將數(shù)據(jù)中蘊含的信息通過數(shù)據(jù)可視化方法進行呈現(xiàn),需要友好的環(huán)境,以及用戶的參與,允許領(lǐng)域?qū)<医忉尯蜋z驗發(fā)現(xiàn)的模式,只有符合觀察到的信息的模式才被認為是有趣的。(2)基于模板的方法:該方法通過限制提取的模式類型,只有滿足指定模板的模式被認為是有趣的提供給用戶,而不報告所有提取的所有模式。(3)主觀興趣度量:該方法基于領(lǐng)域信息定義一些主觀度量,例如:企業(yè)的利潤,概念的分層等;利用主觀度量來過濾顯而易見和沒有實際價值的模式。ONE關(guān)聯(lián)規(guī)則3.2 聚類分析1、基本概念聚類(Clustering)是一種通過尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)將數(shù)據(jù)對象劃分為多個子集的技術(shù)。每個子集都是一個簇,處于相同簇中的數(shù)據(jù)彼此盡可能的相似;而處于不同簇中的數(shù)據(jù)彼此盡可能的不同。由聚類分析產(chǎn)生的簇的集合稱為一個聚類。聚類技術(shù)通常又被稱為無監(jiān)督學習,與監(jiān)督學習不同的是,簇中的數(shù)據(jù)在劃分之前并沒有表示數(shù)據(jù)類別的分類或者分組信息。聚類分析中通常采用距離和相似系數(shù)作為統(tǒng)計量計算兩個數(shù)據(jù)對象之間的相異度。距離的計算包括:歐幾里得距離(EuclideanDistance)、曼哈頓距離(ManhattanDistance)、明可夫斯基距離(MinkowskiDistance)等;相似系數(shù)包括:余弦相似度(CosineSimilarity)、皮爾森相關(guān)系數(shù)(PearsonCorrelationCoefficient)、Jaccard相似系數(shù)(JaccardCoefficient)、互信息/信息增益等。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法聚類算法主要分為5大類:基于劃分的聚類方法、基于層次的聚類方法、基于密度的聚類方法、基于網(wǎng)格的聚類方法和基于模型的聚類方法。1)
基于劃分的聚類方法基于劃分的聚類方法是一種自頂向下的方法,對于給定的n個數(shù)據(jù)對象的數(shù)據(jù)集D,將數(shù)據(jù)對象劃分成k(k≤n)個分區(qū),其中,每個分區(qū)代表一個簇?;趧澐值木垲惙椒ㄖ?,經(jīng)典的算法包括k-平均(k-means)算法和k-中心(k-medoids)算法。TWO聚類分析K-means算法聚類過程示意圖3.2 聚類分析2、實現(xiàn)方法基于劃分的聚類方法的優(yōu)點是,收斂速度快?;趧澐值木垲惙椒ǖ娜秉c是,聚類前要明確聚類的數(shù)目k,或者能夠?qū)垲惖臄?shù)目k進行合理地估計,并且初始中心的選擇和噪聲會對聚類結(jié)果產(chǎn)生很大影響。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法2)
基于層次的聚類方法基于層次的聚類方法是指對給定的數(shù)據(jù)進行層次分解,即將數(shù)據(jù)對象組織成層次機構(gòu)或“樹”,直到滿足某種條件為止。該算法根據(jù)層次分解的順序分為自底向上的凝聚層次聚類算法,和自頂向下的分裂式層次聚類算法。(1)凝聚層次聚類算法該算法首先,將每個數(shù)據(jù)對象設(shè)置為一個獨立的簇,然后計算數(shù)據(jù)對象之間的距離,將距離最近的點合并到同一個簇。接下來,計算簇與簇之間的距離,將距離最近的簇合并為一個大簇。直到所有的對象全部合并為一個完整的簇,或者達到某個終止條件為止。自底向上法的代表算法是AGNES(AgglomerativeNesing)算法。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法(2)分裂式層次聚類算法該方法與凝聚性的層次聚類算法不同,它首先將所有數(shù)據(jù)對象都放入一個簇,然后逐漸細分為更小的簇,直到每個數(shù)據(jù)對象均形成一個獨立的簇,或者達到某個終止條件為止。自頂向下法的代表算法是DIANA(DivisiveAnalysis)算法?;趯哟蔚木垲愃惴ǖ闹饕獌?yōu)點包括,距離和規(guī)則的相似度容易定義,限制少,不需要預先制定簇的個數(shù),可以發(fā)現(xiàn)簇的層次關(guān)系?;趯哟蔚木垲愃惴ǖ闹饕秉c包括,計算復雜度太高,不適用于大數(shù)據(jù)集,奇異值也能產(chǎn)生很大影響,算法很可能聚類成鏈狀。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法3)
基于密度的聚類方法以上基于劃分和基于層次聚類方法均是基于距離的聚類算法,該類算法的聚類結(jié)果是凸形的簇,難以發(fā)現(xiàn)任意形狀的簇?;诿芏鹊木垲惙椒ǖ闹饕繕耸菍ふ冶坏兔芏葏^(qū)域分離的高密度區(qū)域,與基于距離的聚類算法不同的是,基于密度的聚類算法可以發(fā)現(xiàn)任意形狀的簇。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法3)
基于密度的聚類方法基于密度的聚類方法中最具代表性的是DBSAN(Density-BasedSpatialClusteringofApplicationswithNoise)算法、OPTICS(OrderingPointstoidentifytheclusteringstructure)算法和DENCLUE(Density-Basedclustering)算法。該類算法的優(yōu)點是,能克服基于距離的算法(如K-Means)只能發(fā)現(xiàn)凸聚類的缺點,可以發(fā)現(xiàn)任意形狀的聚類,可以過濾掉異常值對噪聲數(shù)據(jù)不敏感。該類算法的缺點是,找不到具有不同密度的所有簇,僅限于地位數(shù)據(jù)集,計算密度差異大的計算復雜度大,需要建立空間索引來降低計算量。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法4)基于網(wǎng)格的聚類方法基于網(wǎng)格的聚類方法將空間量化為有限數(shù)目的單元,可以形成一個網(wǎng)格結(jié)構(gòu),所有聚類都在網(wǎng)格上進行。基本思想就是將每個屬性的可能值分割成許多相鄰的區(qū)間,并創(chuàng)建網(wǎng)格單元的集合。每個對象落入一個網(wǎng)格單元,網(wǎng)格單元對應的屬性空間包含該對象的值。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法4)基于網(wǎng)格的聚類方法基于網(wǎng)格的聚類方法中最具代表性的算法是STING、Wave-Cluster、CLIQUE等。這些算法用不同的網(wǎng)格劃分方法,將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),并對網(wǎng)格數(shù)據(jù)結(jié)構(gòu)進行了不同的處理?;诰W(wǎng)格的聚類方法的主要優(yōu)點是處理速度快,其處理時間獨立于數(shù)據(jù)對象的數(shù)量,而僅依賴于量化空間中的每一維的單元數(shù)?;诰W(wǎng)格的聚類方法的缺點是只能發(fā)現(xiàn)邊界是水平或垂直的簇,而不能檢測到斜邊界。另外,在處理高維數(shù)據(jù)時,網(wǎng)格單元的數(shù)目會隨著屬性維數(shù)的增長而成指數(shù)級增長。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法5)基于模型的聚類方法基于模型的聚類方法主要是指基于概率模型和基于神經(jīng)網(wǎng)絡(luò)模型的方法,是試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學模型之間的適應性的。該方法給每一個簇假定了一個模型,然后尋找數(shù)據(jù)對給定模型的最佳擬合。假定的模型可能是代表數(shù)據(jù)對象在空間分布情況的密度函數(shù)或者其他函數(shù)。這種方法的基本原理就是假定目標數(shù)據(jù)集是由一系列潛在的概率分布所決定的。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法5)基于模型的聚類方法基于模型的聚類方法中最具代表性的是高斯混合模型(GMM)、自組織映射算法(SOM)。(1)混合高斯模型(GMM)就是指對樣本的概率密度分布進行估計,而估計采用的模型(訓練模型)是幾個高斯模型的加權(quán)和。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然后,可以選取概率最大的類作為判決結(jié)果。(2)SOM是通過發(fā)現(xiàn)質(zhì)心的集合,并將數(shù)據(jù)集中的每個對象指派到提供該對象最佳近似的質(zhì)心。TWO聚類分析3.2 聚類分析2、實現(xiàn)方法5)基于模型的聚類方法基于模型的聚類方法中最具代表性的是高斯混合模型(GMM)、自組織映射算法(SOM)。(1)混合高斯模型(GMM)就是指對樣本的概率密度分布進行估計,而估計采用的模型(訓練模型)是幾個高斯模型的加權(quán)和。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的數(shù)據(jù)分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然后,可以選取概率最大的類作為判決結(jié)果。(2)SOM是通過發(fā)現(xiàn)質(zhì)心的集合,并將數(shù)據(jù)集中的每個對象指派到提供該對象最佳近似的質(zhì)心。TWO聚類分析3.2 聚類分析3、聚類算法評價聚類分析的目標是使組內(nèi)的對象之間盡可能的相似,而不同組之間的對象則相反。組內(nèi)相似性越大,組間差異性越大,則聚類的效果越好。好的聚類算法通常要求:1.具有高度可伸縮性;2.能夠處理不同類型數(shù)據(jù);3.可發(fā)現(xiàn)任意形狀的簇;4.最小化輸入?yún)?shù);TWO聚類分析5.能夠處理噪聲數(shù)據(jù);6.對數(shù)據(jù)輸入順序不敏感;7.具有處理高維度數(shù)據(jù)的能力;8.聚類結(jié)果具有可解釋性和可用性。
TWO聚類分析
TWO聚類分析
TWO聚類分析
TWO聚類分析
TWO聚類分析3.2 聚類分析3、聚類算法評價(2)RI評價法RI評價法用排列組合原理來對聚類進行評價。RI=(TP+TN)/(TP+FP+FN+TN)(3-14)假設(shè)聚類的目標是獲取正例(positive)和負例(negtive),正例為被正確劃分的實例(樣本),負例為被錯誤劃分的實例。其中,TP為被正確地劃分為正例的個數(shù),即實際為正例且被分類器劃分為正例的實例數(shù);FP為被錯誤地劃分為正例的個數(shù),即實際為負例但被分類器劃分為正例的實例數(shù);FN為被錯誤地劃分為負例的個數(shù),即實際為正例但被分類器劃分為負例的實例數(shù);TN為被正確地劃分為負例的個數(shù),即實際為負例且被分類器劃分為負例的實例數(shù)。TWO聚類分析3.2 聚類分析3、聚類算法評價(3)F值評價法F值評價法是基于RI評價法衍生出的一種評價方法。F_α=(α^2+1)PR/(α^2P+R)(3-15)其中,α為調(diào)和參數(shù),P為準確率:P=TP/(TP+FP),R為召回率:R=TP/(TP+FN),在RI方法中是把準確率P和召回率R看得同等重要。事實上有時候我們可能需要某一特性更多一點,這時候可以采用F值方法。外部評價的三個指標均是值越大,表明聚類結(jié)果與參考標準的劃分結(jié)果越吻合,聚類效果越好。TWO聚類分析3.3 分類分析1、基本概念分類是一個有監(jiān)督的學習過程,即在構(gòu)建分類模型過程中使用的訓練集中的記錄的類別是已標識的,分類過程即是將每一條記錄歸到對應的類別之中。分類的目的是確定一個記錄為某一個已知的類別。分類(classification):就是通過學習得到一個目標函數(shù)(targetfunction)f,將每個屬性集x映射到一個預定義類標號y。目標函數(shù)也稱為分類模型(classificationmodel。THR分類分析3.3 分類分析1、基本概念分類模型的目的包含兩個方面:1.描述性建模:分類模型作為解釋性工具,用于區(qū)分不同類中的對象。例如:利用一個描述性模型對數(shù)據(jù)進行概括,并說明哪些特征確定了記錄的類型。2.預測性建模:分類模型用于預測未知記錄的類標號。分類模型可以作為一個黑箱,當給定一條記錄在屬性集上的值時,自動為其賦予一個類標號。注意:分類技術(shù)一般用于預測和描述二元類型的數(shù)據(jù)集,而對于序數(shù)的分類,由于分類技術(shù)未考慮隱含在目標類中的序關(guān)系,因此分類技術(shù)不太有效。此外,形如超類與子類的關(guān)系等,也常被忽略。THR分類分析3.3 分類分析1、基本概念分類模型一般采用一種學習算法進行確定,模型應能夠很好的擬合輸入數(shù)據(jù)中的屬性集與類標號之間的關(guān)系,同時還要能夠正確的預測新樣本的類標號。分類的基本過程,一般通過兩步實現(xiàn):1.在訓練階段,使用訓練數(shù)據(jù)集,通過分析由屬性描述的數(shù)據(jù)庫元組來建立分類模型。2.在測試階段,使用測試數(shù)據(jù)集來評估模型的分類準確率,如果認為可以接受,就可以用該模型對其他數(shù)據(jù)元組進行分類。一般來說,測試階段的代價遠低于訓練階段。
THR分類分析3.3 分類分析2、實現(xiàn)方法分類算法分為二分類算法和多分類算法。二分類算法表示分類標簽只有兩個分類,具有代表性的有支持向量機和梯度提升決策樹;多分類算法表示分類標簽多于兩個分類,比較常見的有邏輯回歸、樸素貝葉斯、決策樹等。本節(jié)主要介紹幾種常用的分類方法:決策樹、貝葉斯分類器、最近鄰分類器以及邏輯回歸等。THR分類分析3.3 分類分析2、實現(xiàn)方法1.決策樹分類器決策樹是一種常用的分類算法,它是一種樹形結(jié)構(gòu),由決策點、分支和葉節(jié)點組成。其中,每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一種類別。對一個新的記錄進行分類時,只需要沿決策樹從上到下,在每個分支節(jié)點進行測試,沿著相應的分支遞歸地進入子樹再測試,一直到達葉子節(jié)點,該葉子節(jié)點所代表的類別即為當前樣本的預測類別,這個過程就是決策歸納的過程。從樹的最頂層的根節(jié)點到每個葉子節(jié)點均形成一條分類的路徑規(guī)則,決策過程轉(zhuǎn)換為一組決策規(guī)則。如圖所示為對汽車購買意愿構(gòu)建的決策樹。THR分類分析3.3 分類分析2、實現(xiàn)方法決策樹分類器決策樹算法的目的即是從訓練集S中建立樹T,決策樹的構(gòu)建過程分為以下3個部分:(1)屬性選擇:是指從訓練數(shù)據(jù)集中的眾多屬性中選擇一個屬性作為當前節(jié)點的決策標準,如何選擇屬性有著很多不同量化評估標準,從而衍生出不同的決策樹算法。選擇最能夠提供信息的屬性,常用的方法是使用基于熵的方法來識別最能夠提供信息的屬性。(2)決策樹生成:根據(jù)選擇的特征評估標準,從上至下遞歸地生成子節(jié)點,直到數(shù)據(jù)集不可再分則停止決策樹的生長。確定決策樹停止增長的方法:一種是通過檢查是否都具有相同的屬性值,或所有的記錄是否都屬于同一類;另一種方法是檢查記錄數(shù)是否小于某個最小閾值,已確定是否終止遞歸函數(shù)。(3)剪枝:決策樹容易過擬合,一般需要剪枝,縮小樹結(jié)構(gòu)規(guī)模、緩解過擬合。THR分類分析3.3 分類分析2、實現(xiàn)方法決策樹分類器剪枝技術(shù)有預剪枝和后剪枝兩種。1)預剪枝:在決策樹生成過程中,通過在每次劃分時,考慮是否能夠帶來決策樹性能的提升。如果可以提升決策樹的性能則會進行劃分,否則停止劃分,決策樹不再生長。常用的方法有:①設(shè)定樹的深度閾值,當達到一定的規(guī)模則停止生長;②設(shè)定節(jié)點的規(guī)模閾值,當節(jié)點的樣本數(shù)量小于某個閾值的時候停止生長。2)后剪枝:首先,由訓練集生成完整的決策樹;然后,自底向上對決策樹進行剪枝。后剪枝與預剪枝最大的不同就是決策樹是否生長完整。常用的方法有:①悲觀剪枝(PEP);②錯誤率降低剪枝(REP);③最小誤差剪枝(MEP)等。THR分類分析3.3 分類分析2、實現(xiàn)方法決策樹分類器目前較為流行的決策樹的構(gòu)建算法包括:ID3、C4.5、CART等。(1)ID3(IterativeDichotomiser3):該算法是JohnRossQuinlan開發(fā)的一種決策樹算法,ID3算法在每個節(jié)點處選擇獲得最高信息增益的分支屬性進行分裂,分支劃分和分支屬性選取的目的是提升整個決策樹樣本純度。在決策樹中用熵來表示樣本集的不純度,如果樣本集只有一個類別,則熵為0;否則,熵越大,越不確定,表示樣本集中的分類越多樣。因此,由于分類后樣本集的純度提高,而熵降低,熵降低的值即為信息增益。THR分類分析3.3 分類分析2、實現(xiàn)方法決策樹分類器目前較為流行的決策樹的構(gòu)建算法包括:ID3、C4.5、CART等。(2)C4.5:該算法是ID3算法的后繼者,總體思路與ID3相似,主要區(qū)別在于分支的處理上,通過引入信息增益率作為分支屬性選擇的度量。從而解決ID3算法在選擇分支屬性時往往選擇取值較多的分支屬性的問題。而且,C4.5算法通過動態(tài)定義將連續(xù)屬性值分割成離散的一組間隔的離散屬性(基于數(shù)值變量)來去除特征必須是分類的限制。C4.5將訓練好的樹轉(zhuǎn)換成if-then規(guī)則的集合,然后評估每個規(guī)則的這些準確性以確定應用它們的順序。如果規(guī)則的準確性沒有改善,則通過刪除規(guī)則的前提條件來完成修剪。THR分類分析3.3 分類分析2、實現(xiàn)方法決策樹分類器目前較為流行的決策樹的構(gòu)建算法包括:ID3、C4.5、CART等。(3)CART(分類和回歸樹):又稱分類回歸樹算法,該算法采用二分循環(huán)分割的方法,每次將當前的樣本集劃分為兩個子集,使決策樹中的每個節(jié)點均有兩個分支,因此構(gòu)建的決策樹為二叉樹。如果選擇的分支屬性具有多個取值,分裂時進行屬性值的組合,選擇最佳的兩個組合進行分支。CART算法中采用的分支屬性選擇的度量指標為Gini指標。THR分類分析3.3 分類分析2、實現(xiàn)方法2.樸素貝葉斯分類器貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),利用預測類隸屬關(guān)系的概率,將元組劃分到一個特定類,故統(tǒng)稱為貝葉斯分類。貝葉斯定理是關(guān)于隨機事件A和B的條件概率(或邊緣概率)的一則定理,其中P(A|B)是在B發(fā)生的情況下A發(fā)生的可能性。貝葉斯統(tǒng)計中的兩個基本概念是先驗分布和后驗分布:(1)先驗分布。先驗分布不必有客觀的依據(jù),可以部分地或完全地基于主觀信念。(2)后驗分布。根據(jù)樣本分布和未知參數(shù)的先驗分布,用概率論中求條件概率分布的方法,求出的在樣本已知下,未知參數(shù)的條件分布。因為這個分布是在抽樣以后才得到的,故稱為后驗分布。THR分類分析3.3 分類分析2、實現(xiàn)方法3.最近鄰分類器基于最近鄰的分類器通過找出和測試樣本的屬性相對接近的所有訓練樣本,這些訓練樣本稱為最近鄰(nearestneighbor),然后使用這些最近鄰中出現(xiàn)次數(shù)最多的類標號作為測試樣本的分類標號。最近鄰分類器將每個樣本作為d維空間上的一個數(shù)據(jù)點,其中d是屬性個數(shù)。通過相似性或距離度量測試樣本與訓練集中其他數(shù)據(jù)點的鄰近度。給定樣本的k-最近鄰是指和樣本距離最近的k個數(shù)據(jù)點。THR分類分析3.3 分類分析2、實現(xiàn)方法3.最近鄰分類器該算法的主要思想是:如果一個樣本在特征空間中的k個最相似的樣本中的大多數(shù)屬于某一類,則該樣本也屬于該類。k-最近鄰分類器中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法指依據(jù)最鄰近的一個或者幾個樣本所屬的類來確定測試樣本所屬的類。最近鄰分類器中的k值的選擇,如果k太小,則最近鄰分類器容易受到訓練集中的噪聲影響而產(chǎn)生過分擬合;相反,如果k太大,最近鄰分類器可能會誤分類測試樣本,因為最近鄰列表中可能包含遠離其近鄰的數(shù)據(jù)點。k-最近鄰算法的特點:(1)不需要事先對訓練數(shù)據(jù)建立樣本分類模型,而是當需要對測試樣本進行分類時,才使用具體的訓練樣本進行預測。(2)基于局部信息(k個最近鄰)進行決策,因此當最近鄰的k很小時,對噪聲非常敏感。THR分類分析3.3 分類分析2、實現(xiàn)方法4.邏輯回歸在線性回歸模型中,利用求輸出特征向量Y和輸入樣本矩陣X之間的線性關(guān)系系數(shù)r,滿足Y=rX。此時的Y是連續(xù)的,所以是回歸模型。假設(shè),Y是離散的,需要對于Y再做一次函數(shù)轉(zhuǎn)換,變?yōu)間(Y)。如果令g(Y)的值在某個區(qū)間的時候是類別A,在另一個區(qū)間的時候是類別B,則就得到了一個分類模型。如果結(jié)果的類別只有兩種,那么就是一個二元分類模型。邏輯回歸(LogisticRegression)雖然被稱為回歸,但其實際上是分類模型。邏輯回歸的目的是對事件進行分類,將事件劃分到最合適的類中。邏輯回歸包含一組自變量和截距的β值,通過β值得出邏輯函數(shù),邏輯函數(shù)可以估計事件屬于某一分類的概率。THR分類分析
THR分類分析混淆矩陣真實值PositiveNegative預測值PositiveTPFPNegativeFNTN3.4離群點檢測1、基本概念離群點(outlier)也稱為異常對象,它是顯著不同于其他數(shù)據(jù)對象的數(shù)據(jù)。離群點不同于噪聲數(shù)據(jù),噪聲是被觀測變量的隨機誤差或方差。離群點則是由于數(shù)據(jù)來源于不同的類、自然變異、數(shù)據(jù)測量等造成的。在離群點檢測時,重要的是搞清楚為什么檢測到的離群點被某種其他機制產(chǎn)生。通常,在其余數(shù)據(jù)上做各種假設(shè),并且證明檢測到的離群點顯著違反了這些假設(shè)。離群點的檢測已經(jīng)被廣泛應用于電信和信用卡的詐騙檢測、貸款審批、電子商務(wù)、網(wǎng)絡(luò)入侵和天氣預報等領(lǐng)域。離群點依據(jù)數(shù)據(jù)范圍、數(shù)據(jù)類型以及屬性的數(shù)量等,可以劃分為不同的類型。1.依據(jù)數(shù)據(jù)范圍,離群點可以分為全局離群點和局部離群點。用于考察整體來看,數(shù)據(jù)對象沒有離群特征,但是從局部來看,卻顯示了一定的離群性。在給定的數(shù)據(jù)集中,如果一個數(shù)據(jù)對象顯著的偏離數(shù)據(jù)集中的其他對象,則稱為全局離群點。局部離群點,則是相對于數(shù)據(jù)對象的局部領(lǐng)域,它是遠離的。2.依據(jù)數(shù)據(jù)類型,離群點可以分為數(shù)值型離群點和分類型離群點。3.依據(jù)屬性的數(shù)量,離群點可以分為一維離群點和多維離群點,一個對象可能有一個或多個屬性。FOUR離群點3.4離群點檢測2、實現(xiàn)方法1.統(tǒng)計學方法離群點檢測的統(tǒng)計學方法是對數(shù)據(jù)的正常性做假定,假定數(shù)據(jù)集中的正常數(shù)據(jù)對象由一個隨機過程(生成模型)產(chǎn)生。因此,正常數(shù)據(jù)對象出現(xiàn)在該隨機模型的高概率區(qū)域中,而處于低概率區(qū)域中的對象是離群點。離群點檢測的統(tǒng)計學方法的一般思想是:學習一個擬合給定數(shù)據(jù)集的生成模型,然后識別該模型低概率區(qū)域中的對象,把它們作為離群點。有許多不同方法來學習生成模型,一般而言,根據(jù)如何指定和如何學習模型,離群點檢測的統(tǒng)計學方法可以劃分成兩個主要類型:參數(shù)方法和非參數(shù)方法。(1)參數(shù)方法假定正常的數(shù)據(jù)對象被一個以δ為參數(shù)的參數(shù)分布產(chǎn)生。該參數(shù)分布的概率密度函數(shù)f(x,δ)給出對象x被該分布產(chǎn)生的概率。該值越小,x越可能為離群點。(2)非參數(shù)方法并不假定先驗統(tǒng)計模型,而是通過從輸入數(shù)據(jù)確定模型。非參數(shù)方法通常假定參數(shù)的個數(shù)和性質(zhì)都是靈活的,不需要預先確定。非參數(shù)方法的常見方法包括直方圖和核密度估計等。FOUR離群點3.4離群點檢測2、實現(xiàn)方法2.基于鄰近性的方法給定特征空間中的對象集,可以使用距離度量來量化對象間的相似性?;卩徑缘姆椒ǎ杭俣ㄒ粋€對象是離群點,如果在特征空間中的最近鄰也遠離它,即該對象與它的最近鄰之間的鄰近性顯著偏離數(shù)據(jù)集中其他對象與它們近鄰之間的鄰近性。常見的基于鄰近性的離群點檢測方法包括:基于距離的和基于密度的離群點檢測方法。(1)基于距離的離群點檢測方法考慮對象給定半徑的鄰域。一個對象被認為是離群點是基于如果它的鄰域內(nèi)沒有足夠多的其他點?;诰嚯x的檢測方法從全局考慮數(shù)據(jù)集,所找到的離群點都是全局離群點。但是,實際上數(shù)據(jù)結(jié)構(gòu)往往比較復雜,數(shù)據(jù)對象可能關(guān)于局部鄰域是離群的,而不是整個數(shù)據(jù)分布的離群點。(2)基于密度的離群點的檢測方法考察對象和它近鄰的密度,假定非離群點對象周圍的密度與其鄰域周圍的密度類似,而離群點對象周圍的密度顯著不同于其鄰域周圍的密度。一個對象被識別為離群點,是基于它的密度相對于它的近鄰低得多。FOUR離群點3.4離群點檢測2、實現(xiàn)方法3.基于聚類的方法基于聚類的方法通過考察對象與簇之間的關(guān)系檢測離群點。直觀地,離群點是一個對象,它屬于小的偏遠簇,或不屬于任何簇。考察一個對象是否為離群點,通過以下三種方法進行。(1)考察對象是否屬于某個簇,如果不屬于任何簇,則被識別為離群點。(2)考察對象與最近的簇之間的距離是否很遠,如果距離很遠,則被識別為離群點。(3)考察對象是否屬于小簇或稀疏簇的一部分,如果是,則該簇中的所有對象都是離群點。基于聚類方法的離群點檢測的優(yōu)點:可以檢測離群點,而不要求數(shù)據(jù)是有類標號的,即可以無監(jiān)督方式檢測。因此,對許多類型的數(shù)據(jù)都有效。簇可以被看成是數(shù)據(jù)的概括,一旦得到簇,基于聚類的方法只需要把對象與簇進行比較,以確定該對象是否是離群點。因為與對象總數(shù)相比,簇的個數(shù)通常很小,因此這一過程通常很快?;诰垲惙椒ǖ碾x群點檢測的缺點:該方法的有效性高度依賴于所使用的聚類方法。這些方法對于離群點檢測而言可能不是最優(yōu)的。此外,對于大型數(shù)據(jù)集,聚類方法通常開銷很大。FOUR離群點3.4離群點檢測2、實現(xiàn)方法4.基于分類的方法如果訓練數(shù)據(jù)具有類標號,則離群點檢測可以作為分類問題。基于分類的離群點檢測方法的一般思想是,訓練一個可以區(qū)分“正?!睌?shù)據(jù)和離群點的分類模型?;诜诸惖碾x群點檢測方法通常使用一類模型(單分類模型SVDD),即構(gòu)造一個僅描述正常類的分類器,不屬于正常類的任何樣本都被視為離群點?;诜诸惖姆椒ê突诰垲惖姆椒梢月?lián)合使用,以半監(jiān)督的方式檢測離群點。FOUR離群點3.5Python常用數(shù)據(jù)分析工具簡介Python本身數(shù)據(jù)分析功能并不強,但是可以通過第三方擴展庫來增強其相應的數(shù)據(jù)分析功能。常用的庫有NumPy、SciPy、Matplotlib、Pandas、StatsModels、scikit-learn、Keras、Gensim等,如表所示。FIVEPython工具擴展庫名簡介NumPy由多維數(shù)組對象和用于處理數(shù)組的例程集合組成的庫SciPy提供矩陣支持,以及矩陣相關(guān)的數(shù)值計算模塊Matplotlib強大的數(shù)據(jù)可視化工具、作圖庫Pandas用于數(shù)據(jù)挖掘和數(shù)據(jù)分析,同時也提供數(shù)據(jù)清洗功能。StatsModels用于擬合多種統(tǒng)計模型,執(zhí)行統(tǒng)計測試以及數(shù)據(jù)探索和可視化Scikit-learn支持分類,回歸,降維和聚類等機器學習算法,還包括了特征提取,數(shù)據(jù)處理和模型評估者三大模塊。Keras用于建立神經(jīng)網(wǎng)絡(luò)模型以及深度學習模型Scrapy爬蟲工具,具有URL讀取、HTML解析、存儲數(shù)據(jù)等功能Gensim強大的自然語言處理工具3.5Python常用數(shù)據(jù)分析工具簡介2.SciPySciPy主要用于數(shù)學、科學和工程計算,是一組專門解決科學計算中各種標準問題域的包的集合,包含的功能有最優(yōu)化、線性代數(shù)、積分、插值、擬合、特殊函數(shù)、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算等。SciPy庫依賴于NumPy,因此安裝之前需要先安裝NumPy。對數(shù)據(jù)進行最小二乘擬合的示例代碼如下:FIVEPython工具importnumpyasnpfromscipy.optimizeimportleastsqX=np.array([8.3,2.4,6.9,8.7,4.7,2.6,3.8])Y=np.array([7.5,2.7,6.7,5.7,4.1,4.3,4.5])#計算以p為參數(shù)的直線和原始數(shù)據(jù)之間的誤差deff(p):
k,b=p
return(Y-(k*X+b))#leastsq使得f的輸出數(shù)組的平方和最小,參數(shù)初始值為[1,0]r=leastsq(f,[1,0])k,b=r[0]print("k=",k,"b=",b)3.5Python常用數(shù)據(jù)分析工具簡介3.MatplotlibMatplotlib是強大的數(shù)據(jù)可視化工具,主要用于二維繪圖,能方便的做出線條圖、餅圖、柱狀圖以及其他專業(yè)圖形,也可以進行簡單的三維繪圖。它提供了繪制各類可視化圖形的命令字庫、簡單的接口,可以方便用戶輕松掌握圖形的格式,繪制各類可視化圖形。并且可以將圖形輸出為常見的矢量圖和圖形測試,如PDF、SVG、JPG、PNG、BMP和GIF等。Matplotlib繪制折線圖的示例代碼如下:FIVEPython工具importmatplotlib.pyplotaspltimportnumpyasnpx=np.arange(9)y=np.sin(x)z=np.cos(x)#marker數(shù)據(jù)點樣式,linewidth線寬,linestyle線型樣式,color顏色plt.plot(x,y,marker="*",linewidth=3,linestyle="--",color="orange")plt.plot(x,z)plt.title("matplotlib")plt.xlabel("height")plt.ylabel("width")#設(shè)置圖例plt.legend(["Y","Z"],loc="upperright")plt.grid(True)plt.show()3.5Python常用數(shù)據(jù)分析工具簡介3.Matplotlib若在圖中使用了中文標簽,則由于matplotlib默認的是英文字體,需要在作圖之前指定默認的字體為中文字體,如仿宋(FangSong),命令如下:plt.rcParams['font.sans-serif']=['FangSong']#指定默認字體為仿宋若在圖中需要正確顯示負號“-”,可以進行如下設(shè)置:plt.rcParams['axes.unicode_minus']=FalseFIVEPython工具3.5Python常用數(shù)據(jù)分析工具簡介4.PandasPandas是Python中強大、靈活的數(shù)據(jù)分析和探索工具。它包含了Series、DataFrame等高級數(shù)據(jù)結(jié)構(gòu)和工具,安裝Pandas可使Python中處理數(shù)據(jù)變得快速和簡單。Pandas建立在NumPy之上,使得NumPy應用變得簡單。Pandas最初被用作金融數(shù)據(jù)分析工具而開發(fā)出來,因此Pandas為時間序列分析提供了很好的支持。Pandas的功能非常強大,支持類似SQL的數(shù)據(jù)增、刪、查、改,并且?guī)в胸S富的數(shù)據(jù)處理函數(shù);支持時間序列分析功能;支持靈活處理缺失數(shù)據(jù);等等。Pandas中的基本操作代碼如下所示:FIVEPython工具importpandasaspdse=pd.series([1,2,3],index=['a','b','c'])#創(chuàng)建一個序列df1=pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns=['a','b','c','d'])#創(chuàng)建一個表df2=pd.DataFrame(se)#利用已有序列創(chuàng)建一個表df1.describe()#描述樣本的基本統(tǒng)計量#注意文件的路徑,存儲路徑不能帶有中文,否則讀取可能出錯pd.read_excel('../temp/data.xls')#讀取excel文件,創(chuàng)建DataFrame3.5Python常用數(shù)據(jù)分析工具簡介5.StatsModelsStatsmodels主要用于擬合多種統(tǒng)計模型、執(zhí)行統(tǒng)計測試以及數(shù)據(jù)探索和可視化。Statsmodels包含有線性模型、廣義線性模型和魯棒線性模型、線性混合效應模型、方差分析(ANOVA)方法、時間序列過程和狀態(tài)空間模型、廣義的矩量法,等。Statsmodels支持與Pandas進行數(shù)據(jù)交互,因此其與Pandas結(jié)合成為Python下強大的數(shù)據(jù)挖掘組合。線性方程擬合的示例代碼如下:FIVEPython工具importstatsmodels.apiassmimportnumpyasnpX=2*np.random.rand(100,1)#生產(chǎn)100個1維隨機數(shù)y=4+3*X+np.random.randn(100,1)#生成滿足y=4+3x的數(shù)據(jù),加入一些隨機值x1=sm.add_constant(X)#X是一維,通過一個簡單的函數(shù),就可以增加一個值為1的特征向量,實現(xiàn)了X2=np.c_[np.ones((100,1)),X]models=sm.OLS(y,x1)rs=models.fit()print(rs.summary())3.5Python常用數(shù)據(jù)分析工具簡介6.Scikit-LearnScikit-Learn是Python常用的機器學習工具庫,它提供了完善的機器學習工具箱,包括數(shù)據(jù)預處理、分類、回歸、聚類、預測和模型分析等。此外,Scikit-Learn還有一些庫,如:Nltk(用于自然語言處理)、Scrappy(用于網(wǎng)站數(shù)據(jù)抓?。attern(用于網(wǎng)絡(luò)挖掘)、Theano(用于深度學習)等。Scikit-Learn依賴于NumPy、SciPy和Matplotlib等,因此,Scikit-Learn的安裝需要提前安裝NumPy、SciPyMatplotlib等模塊。利用Scikit-Learn自帶的鳶尾花數(shù)據(jù)集,進行K最鄰近分類的示例代碼如下:FIVEPython工具fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportdatasets#導入k近鄰函數(shù)fromsklearn.neighborsimportKNeighborsClassifieriris=datasets.load_iris()#導入數(shù)據(jù)和標簽iris_X=iris.datairis_y=iris.targetX_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3)#劃分為訓練集和測試集數(shù)據(jù)#設(shè)置knn分類器knn=KNeighborsClassifier()#進行訓練knn.fit(X_train,y_train)#使用訓練好的knn進行數(shù)據(jù)預測print(knn.predict(X_test))print(y_test)3.5Python常用數(shù)據(jù)分析工具簡介7.KerasKeras是一個高度模塊化的神經(jīng)網(wǎng)絡(luò)庫。利用該模塊可以搭建普通的神經(jīng)網(wǎng)絡(luò),也可以搭建各種深度學習模型,如語言處理、圖像識別、自編碼器、循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸審計網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。Keras是基于Theano之上,依賴于Numpy和Scipy,因此在安裝之前需要先安裝Theano、Numpy和Scipy。Keras有兩種類型的模型,序貫模型(Sequential)和函數(shù)式模型(Model),函數(shù)式模型應用更為廣泛,而序貫模型是函數(shù)式模型的一種特殊情況。(1)序貫模型(Sequential):為單輸入單輸出,一條路通到底,層與層之間只有相鄰關(guān)系,沒有跨層連接。這種模型編譯速度快,操作也比較簡單。(2)函數(shù)式模型(Model):為多輸入多輸出,層與層之間任意連接。這種模型編譯速度慢。FIVEPython工具3.5Python常用數(shù)據(jù)分析工具簡介7.Keras搭建一個MLP(多層感知器)的示例代碼如下:fromkeras.modelsimportSequentialfromkeras.layers.coreimportDense,Dropout,Activationfromkeras.optimizersimportSGD#選擇模型,模型初始化model=Sequential()#構(gòu)建網(wǎng)絡(luò)層model.add(Dense(30,48)#添加輸入層20個節(jié)點,第一隱藏層64個節(jié)點的連接model.add(Activation('tanh'))#第一隱藏層的激活函數(shù)采用tanhmodel.add(Dropout(0.5))#采用50%的dropout防止過擬合model.add(Dense(48,48))#添加第一隱藏層48個節(jié)點、第二隱藏層48個節(jié)點的連接model.add(Activation('tanh'))#第二隱藏層的激活函數(shù)采用tanhmodel.add(Dropout(0.5))#采用50
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年高中語文課時作業(yè)18逍遙游節(jié)選含解析粵教版必修2
- 2024-2025學年高中生物第4章第2節(jié)種群數(shù)量的變化練習含解析新人教版必修3
- 2023年普通高等學校招生全國統(tǒng)一考試(全國乙卷)物理試題含答案
- 污水處理項目可行性研究報告申請備案
- 2025年鋼木家具制作項目投資可行性研究分析報告
- 電路板的實訓報告目的
- “十三五”重點項目-鍛鋁項目節(jié)能評估報告(節(jié)能專)
- 2025年中國抗體對試劑盒行業(yè)市場調(diào)查研究及投資前景展望報告
- 磷化環(huán)評報告
- 2025年中國阿維菌素行業(yè)市場調(diào)查研究及投資策略研究報告
- 2021年消毒供應室護理質(zhì)量檢查表
- 老年人的跌倒預防課件
- 2022年山西省中考物理試題(含答案)
- QC成果:預制扭王字塊體表面缺陷控制知識分享
- 光伏強制性條文執(zhí)行計劃(共25頁)
- 2021新《安全生產(chǎn)法》全面解讀課件(PPT 84頁)
- 企業(yè)、事業(yè)專職消防隊訓練內(nèi)容及操作規(guī)程
- T∕CCCMHPIE 1.2-2016 植物提取物 檳榔多糖多酚
- 脛骨平臺骨折(課堂PPT)
- 歐洲文化入門王精品PPT課件
- 中考復習復分解反應類型方程式書寫訓練題(無答案)
評論
0/150
提交評論