![數(shù)據(jù)分析方法以及模型_第1頁](http://file4.renrendoc.com/view/464bd4f64a925893746b8b8197950898/464bd4f64a925893746b8b81979508981.gif)
![數(shù)據(jù)分析方法以及模型_第2頁](http://file4.renrendoc.com/view/464bd4f64a925893746b8b8197950898/464bd4f64a925893746b8b81979508982.gif)
![數(shù)據(jù)分析方法以及模型_第3頁](http://file4.renrendoc.com/view/464bd4f64a925893746b8b8197950898/464bd4f64a925893746b8b81979508983.gif)
![數(shù)據(jù)分析方法以及模型_第4頁](http://file4.renrendoc.com/view/464bd4f64a925893746b8b8197950898/464bd4f64a925893746b8b81979508984.gif)
![數(shù)據(jù)分析方法以及模型_第5頁](http://file4.renrendoc.com/view/464bd4f64a925893746b8b8197950898/464bd4f64a925893746b8b81979508985.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、關(guān)于數(shù)據(jù)分析方法及模型1第一張,PPT共二百頁,創(chuàng)作于2022年6月2分析技術(shù)及模型數(shù)據(jù)預(yù)處理第二張,PPT共二百頁,創(chuàng)作于2022年6月3數(shù)據(jù)預(yù)處理各種數(shù)據(jù)分析技術(shù)的對象是數(shù)據(jù)源中的數(shù)據(jù)數(shù)據(jù)源中的數(shù)據(jù)可能不完整(如某些屬性的值不確定或空缺)、含噪聲和不一致(如同一個屬性在不同表中的名稱不同) 、量綱不同如果直接在這些未經(jīng)處理的數(shù)據(jù)上進行分析,結(jié)果不一定準(zhǔn)確,效率也可能較低需要使用清理、集成、變換、歸約等預(yù)處理方法改善數(shù)據(jù)質(zhì)量,從而提高數(shù)據(jù)分析的效率與質(zhì)量 主要介紹數(shù)據(jù)清理、集成、變換、規(guī)約等預(yù)處理技術(shù)第三張,PPT共二百頁,創(chuàng)作于2022年6月4數(shù)據(jù)清理數(shù)據(jù)清理用于消除噪聲、數(shù)據(jù)不一致及數(shù)據(jù)
2、不完整噪聲可以通過平滑、識別孤立點等方法進行消除分箱技術(shù):將數(shù)據(jù)排序,根據(jù)等深或等寬分布規(guī)則將數(shù)據(jù)分布到不同箱中,將同一箱中的數(shù)據(jù)用用該箱中數(shù)據(jù)的平均值或中值、邊界值替換(平均值平滑、中值平滑、邊界平滑)每個箱中的數(shù)據(jù)個數(shù)或取值區(qū)間相等設(shè)某屬性的值為18,12,3,9,7,6,15,21,16,采用分箱技術(shù)平滑數(shù)據(jù)消除噪聲。分布規(guī)則為等深、深度為3,平滑規(guī)則為平均值平滑 首先,將屬性的值排序為3, 6, 7, 9, 12, 15, 16, 18, 21箱1:3, 6, 7箱2:9, 12, 15箱3:16, 18, 21箱1:5.3, 5.3, 5.3箱2:12, 12, 12箱3:18.3,
3、 18.3, 18.3第四張,PPT共二百頁,創(chuàng)作于2022年6月5數(shù)據(jù)清理數(shù)據(jù)不完整可以使用下列方法消除:1)使用一個全局常量填充2)使用屬性平均值填充3)使用相同類的屬性平均值填充4)使用最可能的值填充 需要采用預(yù)測算法,預(yù)測給定樣本的最可能的值并填充數(shù)據(jù)不一致可以通過元數(shù)據(jù)消除(描述數(shù)據(jù)的數(shù)據(jù))第五張,PPT共二百頁,創(chuàng)作于2022年6月6數(shù)據(jù)集成數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中這些數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件在數(shù)據(jù)集成時,需要消除冗余能夠由另外的屬性“導(dǎo)出”、命名的不一致的屬性冗余可以通過相關(guān)分析進行檢測屬性A、B之間的相
4、關(guān)性計算:rA,B0,A與B正相關(guān),A的值隨著B的值的增加而增加rA,B0,A與B負(fù)相關(guān),A的值隨著B的值的增加而減少rA,B=0,A與B獨立。因此,|rA,B|很大時,A與B可以去除一個 平均值方差第六張,PPT共二百頁,創(chuàng)作于2022年6月7數(shù)據(jù)變換將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,如1.0到1.0或0.0到1.0 最小-最大規(guī)格化:minA,maxA為數(shù)值屬性A規(guī)格化前的取值區(qū)間new_ minA,new_ maxA 為A規(guī)格化后的取值區(qū)間,最小-最大規(guī)格化根據(jù)下式將A的值v規(guī)格化為值v采用最小-最大規(guī)格化方法將100,100中的66規(guī)格化到區(qū)間0,1 第七張,PPT共二百
5、頁,創(chuàng)作于2022年6月8數(shù)據(jù)變換零-均值規(guī)格化:對均值為 、方差為的數(shù)值屬性A將A的值v規(guī)格化為值v設(shè)某屬性的平均值、標(biāo)準(zhǔn)差分別為80、25,采用零-均值規(guī)格化66 小數(shù)定標(biāo)規(guī)格化 :數(shù)值屬性A的最大絕對值為max|A|A,j為滿足 的最小整數(shù) 將A的值v規(guī)格化為值v規(guī)格化 100,100中的66A的最大絕對值為120,j為3 第八張,PPT共二百頁,創(chuàng)作于2022年6月9數(shù)據(jù)規(guī)約數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近于保持原數(shù)據(jù)集的完整性在歸約后的數(shù)據(jù)集上分析將更有效,并產(chǎn)生相同(或幾乎相同)的分析結(jié)果歸約方法主要有:屬性歸約 、記錄歸約 屬性規(guī)約:刪除不相關(guān)的或冗余
6、的屬性減小數(shù)據(jù)集,目標(biāo)是找出最小屬性集, 使得數(shù)據(jù)在其上的概率分布盡可能地接近在原屬性集上的概率分布 常用方法:粗糙集中的屬性約簡、決策樹記錄規(guī)約:用少量記錄代表或替換原有記錄,從而減小數(shù)據(jù)集常用方法: 抽樣、數(shù)據(jù)概化第九張,PPT共二百頁,創(chuàng)作于2022年6月10數(shù)據(jù)規(guī)約數(shù)據(jù)概化:采用面向?qū)傩詺w納,根據(jù)屬性的概念分層,通過閾值控制,將屬性的低層屬性值用相應(yīng)高層概念替換,并合并由此得到的相同記錄 概念分層一般用樹結(jié)構(gòu)描述,稱為概念層次樹閾值控制面向?qū)傩詺w納過程,每個屬性都有概念層次樹及閾值首先根據(jù)屬性A的概念層次樹,將關(guān)系表中A的屬性值轉(zhuǎn)換為最低層的相應(yīng)概念(葉概念),統(tǒng)計關(guān)系表中A的不同葉概
7、念個數(shù)如果A的不同葉概念個數(shù)大于A的屬性閾值,再根據(jù)A的概念層次樹,將關(guān)系表中A的葉概念轉(zhuǎn)換為上一層的相應(yīng)概念如此重復(fù),直至關(guān)系表中A的不同概念個數(shù)小于等于A的屬性閾值;最后合并相同記錄,并統(tǒng)計重復(fù)記錄數(shù)目第十張,PPT共二百頁,創(chuàng)作于2022年6月11數(shù)據(jù)規(guī)約屬性閾值均為4記錄由6個歸約為3個count的值表示重復(fù)記錄數(shù)目第十一張,PPT共二百頁,創(chuàng)作于2022年6月12屬性概念分層的自動生成 概念分層一般由系統(tǒng)用戶、領(lǐng)域?qū)<姨峁浅:臅r、乏味介紹離散屬性與連續(xù)屬性自動生成概念分層的方法 離散屬性概念分層的自動生成 概念層次樹中高層的概念個數(shù)一般少于低層的概念個數(shù)首先統(tǒng)計各個概念的不同值
8、個數(shù),個數(shù)最少的概念在最高層,依次類推,然后根據(jù)結(jié)構(gòu)的從屬關(guān)系,確定各層的概念及從屬關(guān)系 地址國家省市中國云南省昆明市中國云南省大理市中國四川省成都市中國貴州省貴陽市中國云南省玉溪市中國云南省曲靖市第十二張,PPT共二百頁,創(chuàng)作于2022年6月13屬性概念分層的自動生成 連續(xù)屬性概念分層的自動生成 連續(xù)屬性可以通過離散化遞歸地自動生成概念分層離散化可以基于熵完成,主要步驟:1)計算關(guān)系表r中在屬性A的取值區(qū)間V上的記錄集合S的熵 |c|:S中屬于目標(biāo)類c的記錄數(shù)|S|:S中的記錄數(shù) 2)對A在V上取的每個v,用v劃分V為v1(v)、v2(v),劃分S為S1,S2,計算在此劃分下S的熵 E(S1
9、)、E(S2)分別為S1、S2的熵 第十三張,PPT共二百頁,創(chuàng)作于2022年6月14屬性概念分層的自動生成 連續(xù)屬性概念分層的自動生成 3)對在V上的每個劃分v1(v)、v2(v),計算在此劃分下S的信息增益 4)選擇使S的信息增益最大的劃分作為最佳劃分,記為V1(T)、V2(T)(T是使S的信息增益最大的v)5)遞歸地應(yīng)用步驟1)4)于V1、V2及S1、S2上,直至滿足一定的結(jié)束條件,例如,最大信息增益小于某個閾值 屬性A的取值區(qū)間V作為其概念層次樹的根,形成最高層第一次劃分區(qū)間V1、V2是根的兩個子結(jié)點,形成次高層遞歸地應(yīng)用步驟1)4)就可以得到各層結(jié)點第十四張,PPT共二百頁,創(chuàng)作于2
10、022年6月15屬性概念分層的自動生成 連續(xù)屬性概念分層的自動生成 設(shè)“氣溫”屬性是目標(biāo)屬性,取值區(qū)間為100,100屬性值及記錄數(shù)如表所示屬性值36182226記錄數(shù)69362821劃分區(qū)間100,100第十五張,PPT共二百頁,創(chuàng)作于2022年6月16屬性概念分層的自動生成 連續(xù)屬性概念分層的自動生成 屬性值36182226記錄數(shù)69362821劃分區(qū)間100,100G(100, 100, 3)=2.03782.0378=0G(100, 100, 6)= 2.03781.7465=0.2913G(100, 100, 18)= 2.03781.464=0.5738G(100, 100, 22
11、)= 2.03781.0741=0.9637G(100, 100, 26)= 2.03781.3323=0.7055最佳劃分:V1=100, 22) (llu)不是強關(guān)聯(lián)規(guī)則,則規(guī)則lv=(llv)也不是強關(guān)聯(lián)規(guī)則 證明: sup_count(lv)sup_count(lu)i1i2 i5不是強關(guān)聯(lián)規(guī)則i2i1i5、 i1i2i5都不可能是強關(guān)聯(lián)規(guī)則l=i1i2i5lvi1、i2lui1i2第三十六張,PPT共二百頁,創(chuàng)作于2022年6月37Apriori算法壓縮強關(guān)聯(lián)搜索空間對于每個頻繁項集,第一層產(chǎn)生后件只有一項的強關(guān)聯(lián)規(guī)則,并生成它們的1-后件集合R1第二層產(chǎn)生后件有兩項的強關(guān)聯(lián)規(guī)則,并
12、生成它們的2-后件集合R2R2通過R1中的后件進行連接運算,再通過置信度計算產(chǎn)生依次類推,可以產(chǎn)生所有強關(guān)聯(lián)規(guī)則第三十七張,PPT共二百頁,創(chuàng)作于2022年6月38Apriori算法算法描述輸入:事務(wù)集合T,最小支持度閾值min_sup,最小置信度閾值min_conf輸出:強關(guān)聯(lián)規(guī)則集合SR變量:頻繁k-項集集合Lk,候選k-項集集合Ck,頻繁項集集合L,k-后件集合Rk步驟:/頻繁項集產(chǎn)生(1)for T中的每個事務(wù)t (1.1)for t中的每個項i (1.1.1)i.sup_count=i.sup_count+1 /1-項集支持計數(shù)(2)for 每個項i (2.1)if i.sup_co
13、untnmin_sup then L1=L1i /找出頻繁1-項集第三十八張,PPT共二百頁,創(chuàng)作于2022年6月39Apriori算法算法描述(3)for (k=2;Lk-1;k+) (3.1)for Lk-1中的每個項集lu (3.1.1)for Lk-1中項集lu之后的每個項集lv if (lu1=lv1)(luk-2=lvk-2)(luk-1lvk-1) then /連接 Ck=Ckc /找出候選k-項集 for c中的每個(k-1)-項集s if then Ck=Ck-c /剪枝 (3.2)for T中的每個事務(wù)t (3.2.1)for t中的每個k-項集s if sCk then
14、s.sup_count=s.sup_count+1 /k-項集支持計數(shù)第三十九張,PPT共二百頁,創(chuàng)作于2022年6月40Apriori算法算法描述 (3.3)for Ck中的每個項集c (3.3.1)if c.sup_countnmin_sup then Lk=Lkc /找出頻繁k-項集 (3.4) L=LLk /規(guī)則產(chǎn)生(4)for L中的每個頻繁項集l (4.1)for l中的每個1-項集l1 (4.1.1) if then SR=SR(l-l1)=l1 /找出后件只有1項的強關(guān)聯(lián)規(guī)則 R1=R1l1 /找出1-后件 第四十張,PPT共二百頁,創(chuàng)作于2022年6月41Apriori算法算
15、法描述(4.2)for (j=2;Rj-1;j+) (4.2.1)for Rj-1中的每個后件lu for Rj-1中后件lu之后的每個后件lv if (lu1=lv1)(luj-2=lvj-2)(luj-1lvj-1) then /連接 if then SR=SR(l-lj)=lj /找出后件有j項的強關(guān)聯(lián)規(guī)則 Rj=Rjlj /找出j-后件l=i1i2i5lui1lvi2第四十一張,PPT共二百頁,創(chuàng)作于2022年6月42Apriori算法影響Apriori算法時間復(fù)雜度主要因素(1)事務(wù)集合當(dāng)項數(shù)m增加:候選項集的數(shù)目和長度可能增加,頻繁項集的數(shù)目和長度也可能增加,從而計算頻繁項集及其支
16、持計數(shù)的時間、掃描事務(wù)集合的次數(shù)、計算強關(guān)聯(lián)規(guī)則的時間可能增加事務(wù)數(shù)n、事務(wù)平均寬度w增加:每次掃描事務(wù)集合的時間增加(2)最小支持度閾值min_supmin_sup越小,候選項集和頻繁項集的數(shù)目越多、長度越長,掃描事務(wù)集合的次數(shù)越多,算法的運行時間越長(3)最小置信度閾值min_confmin_conf越小,強關(guān)聯(lián)規(guī)則的數(shù)目越多,產(chǎn)生規(guī)則的運行時間越長第四十二張,PPT共二百頁,創(chuàng)作于2022年6月43頻繁項集的緊湊表示 通常,從現(xiàn)實事務(wù)集合中產(chǎn)生的頻繁項集的數(shù)量龐大為了提高關(guān)聯(lián)規(guī)則挖掘算法的效率,頻繁項集使用緊湊表示最大頻繁項集:一個頻繁項集的所有直接超集都不是頻繁項集由最大頻繁項集可以推
17、導(dǎo)所有頻繁項集 頻繁項集非頻繁項集最大頻繁項集由 ad可以推導(dǎo)頻繁項集a、d和ad由bcd可以推導(dǎo)b、c、d、bc、bd、cd和bcd 第四十三張,PPT共二百頁,創(chuàng)作于2022年6月44頻繁項集的緊湊表示 為了高效找出最大頻繁項集,可以將搜索空間按前綴或后綴變換為樹(前綴樹、后綴樹 ),然后采用寬度或深度優(yōu)先策略進行搜索前綴樹后綴樹第四十四張,PPT共二百頁,創(chuàng)作于2022年6月45頻繁項集的緊湊表示 寬度優(yōu)先是先搜索同一層的頻繁項集,再搜索下一層的頻繁項集 深度優(yōu)先是搜索到某層的一個頻集時,先搜索更深層的頻集,若沒有頻集則回溯,直至沒有頻項集產(chǎn)生也沒有回溯 深度優(yōu)先搜索策略可以更快地檢測到
18、頻繁項集邊界,通常用于搜索最大頻繁項集 深度優(yōu)先與最大頻繁項集搜索第四十五張,PPT共二百頁,創(chuàng)作于2022年6月46頻繁項集的緊湊表示 最大頻繁項集集合是頻繁項集集合的緊湊表示由最大頻繁項集可以推導(dǎo)所有頻繁項集,但由最大頻繁項集不能推導(dǎo)它們的支持計數(shù)閉項集:一個項集的所有直接超集的支持計數(shù)都不等于該項集的支持計數(shù)頻繁閉項集:一個項集是頻繁項集并且是閉項集最小支持計數(shù)閾值是5 第四十六張,PPT共二百頁,創(chuàng)作于2022年6月47頻繁項集的緊湊表示 定理 對于頻繁項集l及其所有直接超集li=li(iI),如果l是最大頻繁項集,則l是頻繁閉項集 sup_count(l) nmin_sup 證明:
19、定理 對于頻繁項集l及其所有直接超集li=li(iI),如果l不是閉項集,則 證明: 基于該定理,頻繁非閉項集的支持計數(shù)可以通過頻繁閉項集的支持計數(shù)確定第四十七張,PPT共二百頁,創(chuàng)作于2022年6月48頻繁項集的緊湊表示 項集c不是閉項集,它的支持計數(shù)等于項集bc的支持計數(shù) 頻繁項集、頻繁閉項集與最大頻繁項集的關(guān)系 : 第四十八張,PPT共二百頁,創(chuàng)作于2022年6月49頻繁項集的緊湊表示通過頻繁閉項集的支持計數(shù)計算其它頻繁非閉項集的支持計數(shù)的算法描述輸入:頻繁閉項集集合CL輸出:頻繁項集集合L步驟:(1) /找出頻繁閉項集的最大長度(2) /找出最長頻繁閉項集(3) /最長頻繁閉項集也是最
20、長頻繁項集(4)for (k=kmax-1;k1;k-) /找出所有頻繁項集 (4.1) /找出由頻繁閉(k+1)-項集推導(dǎo)的頻繁k-項集 (4.2)CLk=l|lCL,|l|=k /找出頻繁閉k-項集第四十九張,PPT共二百頁,創(chuàng)作于2022年6月50頻繁項集的緊湊表示通過頻繁閉項集的支持計數(shù)計算其它頻繁非閉項集的支持計數(shù)的算法描述(4.3)for TLk中每個項集 /計算頻繁非閉k-項集的支持計數(shù) (4.3.1)if then Lk= Lkl(4.4) Lk= LkCLk(4.5)L=LLk第五十張,PPT共二百頁,創(chuàng)作于2022年6月51頻繁項集的緊湊表示最小支持計數(shù)閾值是5,項集b:9
21、、ad:5、bc:7、bd:6和bcd:5是頻繁閉項集。寫出計算頻繁非閉項集的支持計數(shù)的過程 L3 = CL3 = bcd TL2 = bc,bd,cd CL2 = ad,bc,bd cd.sup_count = bcd.sup_count = 5 L2 = ad,bc,bd,cd TL1 = a,b,c,d CL1 = b a.sup_count = ad.sup_count = 5 c.sup_count = bc.sup_count = 7 d.sup_count = bd.sup_count = 6 L1 = a,b,c,d第五十一張,PPT共二百頁,創(chuàng)作于2022年6月52FP-gr
22、owth算法 Apriori算法的不足:1)可能產(chǎn)生大量候選項集2)可能需要重復(fù)掃描數(shù)據(jù)庫,通過模式匹配檢查龐大的候選集合FP-growth算法采用一種稱為FP樹的結(jié)構(gòu)表示事務(wù)集合中項集的關(guān)聯(lián),并在FP樹上遞歸地找出所有頻繁項集,算法并不產(chǎn)生候選基本思想:掃描一次事務(wù)集合,找出頻繁1-項集合L1基于L1,再掃描一次事務(wù)集合,構(gòu)造表示事務(wù)集合中項集關(guān)聯(lián)的FP樹在FP樹上遞歸地找出所有頻繁項集最后在所有頻繁項集中產(chǎn)生強關(guān)聯(lián)規(guī)則 第五十二張,PPT共二百頁,創(chuàng)作于2022年6月53FP-growth算法 1)掃描一次事務(wù)集合,找出頻繁1-項集合L,并按支持計數(shù)降序排序L中的頻繁項FP樹構(gòu)造 事務(wù)項t
23、1i1,i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i5t9i1,i2,i3min_sup=20% L=i2:7, i1:6, i3:5, i4:2, i5:2 2)創(chuàng)建FP樹的根節(jié)點,用“null”標(biāo)記null第五十三張,PPT共二百頁,創(chuàng)作于2022年6月54FP-growth算法 3)再掃描一次事務(wù)集合,對每個事務(wù)找出其中的頻繁項并按L中的順序排序,為每個事務(wù)創(chuàng)建一個分枝,事務(wù)分枝路徑上的節(jié)點就是該事務(wù)中的已排序頻繁項對于各個事務(wù)分枝,如果可以共享路徑則共享并且在各個節(jié)點上記錄共享事務(wù)數(shù)目FP樹構(gòu)造 事務(wù)項t1i1,
24、i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i5t9i1,i2,i3L=i2:7, i1:6, i3:5, i4:2, i5:2 第五十四張,PPT共二百頁,創(chuàng)作于2022年6月55FP-growth算法 FP樹構(gòu)造 事務(wù)項t1i1,i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i5t9i1,i2,i3L=i2:7, i1:6, i3:5, i4:2, i5:2 4)為方便遍歷FP樹,為FP樹創(chuàng)建一個項表項表中每一行表示一個頻繁項,并有一個指針指向它在F
25、P樹中的節(jié)點FP樹中相同頻繁項的節(jié)點通過指針連成鏈表 第五十五張,PPT共二百頁,創(chuàng)作于2022年6月56FP-growth算法 FP樹構(gòu)造 事務(wù)項t1i1,i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i5t9i1,i2,i3第五十六張,PPT共二百頁,創(chuàng)作于2022年6月57FP-growth算法 由長度為1的頻繁模式(初始后綴模式)開始,構(gòu)造它的條件模式基。然后,構(gòu)造它的條件FP樹,并遞歸地在該樹上進行挖掘。模式增長通過后綴模式與由條件FP樹產(chǎn)生的頻繁模式連接實現(xiàn)條件模式基:一個“子數(shù)據(jù)庫”,由FP樹中與后綴模式一起出
26、現(xiàn)的前綴路徑集組成條件FP樹:條件模式基中,由滿足最小支持度閾值的節(jié)點構(gòu)成的樹FP樹挖掘i5:2的條件模式基null,i2,i1:2 i5:2 與條件FP樹 第五十七張,PPT共二百頁,創(chuàng)作于2022年6月58FP-growth算法 遞歸過程:1)如果條件FP樹只有一個分枝,則分枝路徑上的節(jié)點的一個組合就是一個前綴模式,一個前綴模式與后綴模式產(chǎn)生一個頻繁項集(遞歸出口)2)否則用L中的頻繁項i增長后綴模式 (i ,增長時,按逆序方式處理,即先考慮L的最后一項),然后構(gòu)造增長后綴模式i 的條件模式基與條件FP樹,遞歸上述過程初始時,=null,null的條件FP樹就是FP樹FP樹挖掘第五十八張,
27、PPT共二百頁,創(chuàng)作于2022年6月59FP-growth算法 第二層遞歸:FP樹挖掘條件模式基條件FP樹產(chǎn)生的頻繁項集i5:2null,i2,i1:2i2i5:2、i1i5:2、i2i1i5:2i4:2null,i2,i1:1、null,i2:1i2i4 :2i3:5null,i2,i1:1、null,i2:2、null,i1:2、i1:6null,i2:4、null:2i2i1 :4i2:7null:7第一層遞歸:=nullnull的條件FP樹有多個分枝,進入第二層遞歸i3:5的條件FP樹有兩個分枝,進入第三層遞歸 第五十九張,PPT共二百頁,創(chuàng)作于2022年6月60FP-growth算法
28、 第三層遞歸:FP樹挖掘條件模式基條件FP樹產(chǎn)生的頻繁項集i1i3:3null,i2:1、null:2i1i3:3i2i3:3null:3i2i3:3第六十張,PPT共二百頁,創(chuàng)作于2022年6月61FP-growth算法 輸入:事務(wù)集合T,最小支持度閾值min_sup,最小置信度閾值min_conf輸出:強關(guān)聯(lián)規(guī)則集合R_S步驟:(1)掃描T找出頻繁1-項集合L(2)L中的項按支持計數(shù)降序排序(3)創(chuàng)建FP樹的根節(jié)點null /創(chuàng)建FP樹(4)for T中的每個事務(wù)t (4.1)找出t中的頻繁1-項集合Lt (4.2)Lt中的項按L中的順序排序 (4.3)Insert-FP(Lt, null
29、) /創(chuàng)建事務(wù)分枝(5)L_S=Search-FP(FP, null) /找出所有頻繁項集(6)在L_S中產(chǎn)生強關(guān)聯(lián)規(guī)則集合R_S算法描述第六十一張,PPT共二百頁,創(chuàng)作于2022年6月62FP-growth算法 算法:Insert-FP算法(Li, Tr)輸入:已排序頻繁1-項集合Li,F(xiàn)P(子)樹的根節(jié)點Tr輸出:FP樹(1)if Li不空 then (1.1)取出Li中的第1個項i (1.2)if Tr的某個子節(jié)點Node是i then (1.2.1)Node.count=Node.count+1 (1.3)else (1.3.1)創(chuàng)建Tr的子節(jié)點Node為i (1.3.2)Node.c
30、ount=1 (1.3.3)將Node加入項表鏈中(1.4)Insert-FP(Li-i, Node)算法描述第六十二張,PPT共二百頁,創(chuàng)作于2022年6月63FP-growth算法 算法:Search-FP算法(T,)輸入:(條件)FP樹T,后綴模式輸出:頻繁項集集合L_S(1)if T中只有一個分枝P then (1.1)for P上的節(jié)點的每個組合 (1.1.1)= /產(chǎn)生頻繁項集 (1.1.2)L_S= L_S(2)else (2.1)for T中的每個頻繁項i (2.1.1)=i /增長后綴模式 (2.1.2)構(gòu)造的條件模式基及其條件FP樹T (2.1.3) Search-FP(T
31、, )算法描述第六十三張,PPT共二百頁,創(chuàng)作于2022年6月64分析技術(shù)及模型聚類分析第六十四張,PPT共二百頁,創(chuàng)作于2022年6月65將物理或抽象對象的集合分成相似的對象類的過程使得同一個簇中的對象之間具有較高的相似性,而不同簇中的對象具有較高的相異性是數(shù)據(jù)挖掘、模式識別等研究方向的重要研究內(nèi)容之一,在識別數(shù)據(jù)的內(nèi)在結(jié)構(gòu)方面具有極其重要的作用 廣泛應(yīng)用于模式識別、數(shù)據(jù)分析、圖像處理和市場研究等領(lǐng)域,對生物學(xué)、心理學(xué)、考古學(xué)、地質(zhì)學(xué)及地理學(xué)等研究也有重要作用 主要介紹聚類概念、聚類過程、常用聚類算法 聚類分析第六十五張,PPT共二百頁,創(chuàng)作于2022年6月66=o1, o2, , on表示
32、一個對象集合oi表示第i個對象,i=1, 2,nCx表示第x個簇,Cx,x=1,2,kSimilarity(oi, oj)表示對象oi與對象oj之間的相似度若各簇Cx是剛性聚類結(jié)果,則各Cx需滿足如下條件:1)2)對于 有3)聚類分析的形式描述第六十六張,PPT共二百頁,創(chuàng)作于2022年6月67數(shù)據(jù)準(zhǔn)備屬性選擇屬性提取聚類結(jié)果評估聚類過程為聚類分析準(zhǔn)備數(shù)據(jù),包括屬性值標(biāo)準(zhǔn)化從最初的屬性中選擇最有效的屬性通過對所選擇的屬性進行轉(zhuǎn)換形成新的更有代表性的屬性度量對象間的相似性程度,執(zhí)行聚類或分組 聚類分析的三要素是相似性測度、聚類準(zhǔn)則和聚類算法第六十七張,PPT共二百頁,創(chuàng)作于2022年6月68聚類
33、分析中的數(shù)據(jù)類型聚類分析中常用的數(shù)據(jù)類型有:數(shù)據(jù)矩陣、相異度矩陣1)數(shù)據(jù)矩陣:對象在多維空間中通常表示為點(向量),其每一維表示為不同屬性,這些屬性描述出對象數(shù)據(jù)矩陣每行代表一個對象,每列代表對象的一個屬性2)相異度矩陣:存儲n個對象兩兩之間的近似性,d(i,j)是對象i和對象j之間相異性的量化表示第六十八張,PPT共二百頁,創(chuàng)作于2022年6月69聚類分析三要素相似性測度、聚類準(zhǔn)則和聚類算法相似性測度:衡量同簇對象的類似性和不同簇對象的差異性 聚類準(zhǔn)則:評價聚類結(jié)果的好壞 聚類算法:用于找出使準(zhǔn)則函數(shù)取極值的最好聚類結(jié)果 實際上,確定了相似性測度和聚類準(zhǔn)則后,聚類就變成了使準(zhǔn)則函數(shù)取極值的優(yōu)
34、化問題了 沒有任何一種聚類算法可以普遍適用于揭示各種多維數(shù)據(jù)集所呈現(xiàn)出來的多種多樣的結(jié)構(gòu) 因此聚類算法有多種,不同的聚類算法使用不同的相似性度量和準(zhǔn)則第六十九張,PPT共二百頁,創(chuàng)作于2022年6月70對象之間的相似性根據(jù)描述對象的屬性值評估,可以使用距離、密度、連通性或概念度量距離相似性度量:距離越近越相似,不同簇中任意兩個對象間的距離都大于簇內(nèi)任意兩個對象之間的距離 密度相似性度量:密度(單位區(qū)域內(nèi)的對象數(shù) )越相近,相似性越高,簇是對象的稠密區(qū)域,被低密度的區(qū)域環(huán)繞 連通性相似性度量:使用圖的連通性度量相似性,簇定義為圖的連通分支,即互相連通但不與組外對象連通的對象組 概念相似性度量:共
35、性(比如共享最近鄰)越多越相似 ,簇定義為有某種共同性質(zhì)的對象的集合 相似性測度第七十張,PPT共二百頁,創(chuàng)作于2022年6月71主要的聚類算法大致可以分為:劃分式聚類算法、基于密度的聚類算法、層次聚類算法、基于網(wǎng)格的聚類算法和基于模型的聚類算法聚類算法分類劃分式聚類算法(partitioning method)預(yù)先指定聚類數(shù)目或聚類中心,通過反復(fù)迭代運算,逐步優(yōu)化準(zhǔn)則函數(shù)的值,當(dāng)準(zhǔn)則函數(shù)收斂時,得到最終聚類結(jié)果k均值算法、k中心點算法及它們的變種基于密度的聚類算法(density-based method)通過數(shù)據(jù)密度來發(fā)現(xiàn)簇DBSCAN、OPTICS、DENCLUE第七十一張,PPT共二百
36、頁,創(chuàng)作于2022年6月72聚類算法分類基于網(wǎng)格的聚類算法(gridbased method)將對象空間量化為有限數(shù)目的單元,形成網(wǎng)格結(jié)構(gòu),所有的聚類操作都在網(wǎng)格上進行,從而獲得較快的處理速度STING、WaveCluster層次聚類算法(hierarchical method)將數(shù)據(jù)對象組織成一棵聚類樹,使用數(shù)據(jù)的聯(lián)接規(guī)則,透過一種架構(gòu)方式,反復(fù)將數(shù)據(jù)進行分裂或聚合,以形成一個層次序列的聚類問題解 BIRCH、ROCK和Chameleon 等第七十二張,PPT共二百頁,創(chuàng)作于2022年6月73聚類算法分類基于模型的聚類算法(model-based method)基于“數(shù)據(jù)根據(jù)潛在的混合概率分
37、布生成”假設(shè),為每個簇假定一個模型,并尋找數(shù)據(jù)對給定模型的最佳擬合這類算法通過構(gòu)建反映數(shù)據(jù)點空間分布的密度函數(shù)來定位簇,能考慮“噪聲”數(shù)據(jù)和離群點的影響,魯棒性較好 EM 、COBWEB 、SOM 第七十三張,PPT共二百頁,創(chuàng)作于2022年6月74均值聚類算法均值聚類算法假定所有數(shù)據(jù)對象可分為k個簇,每個簇的中心用均值表示對象間的相似性用距離度量聚類的準(zhǔn)則是誤差平方和準(zhǔn)則 核心思想:首先選定k個初始聚類中心,根據(jù)最小距離原則將每個數(shù)據(jù)對象分配到某一簇中然后不斷迭代計算各個簇的聚類中心并依新的聚類中心調(diào)整聚類情況,直至收斂(J 值不再變化)第七十四張,PPT共二百頁,創(chuàng)作于2022年6月75均
38、值聚類算法誤差平方和準(zhǔn)則若Nx是第Cx個簇中的對象數(shù)目,mx是這些對象的均值, J是所有簇的簇中各個對象與均值間的誤差平方和之和對于不同的聚類,J的值不同使J 值極小的聚類是誤差平方和準(zhǔn)則下的最優(yōu)結(jié)果度量了用k個聚類中心m1,mk代表k個簇C1,Ck時所產(chǎn)生的總的誤差平方和第七十五張,PPT共二百頁,創(chuàng)作于2022年6月76均值聚類算法算法描述輸入:數(shù)據(jù)對象集合D,簇數(shù)目k輸出:k個簇的集合步驟:1. 從D中隨機選取k個不同的數(shù)據(jù)對象作為k個簇C1,Ck的中心m1,mk2. repeat1)for D中每個數(shù)據(jù)對象oa. 尋找i,b. 將o分配給簇Ci2)for 每個簇Ci(i=1,k)計算
39、3)計算平方誤差3. Until J不再發(fā)生變化計算新的聚類中心,|Ci|為當(dāng)前簇中的對象數(shù)目第七十六張,PPT共二百頁,創(chuàng)作于2022年6月77均值聚類算法算法簡單,計算復(fù)雜度是O(nkt),其中n是對象的總數(shù),k是簇的個數(shù),t是迭代次數(shù),通常,kn且t ,繼續(xù)計算5步迭代后的結(jié)果:x1x2x3x4x5(0.826,0.961)T(0.501,0.981)T(0.653,0.945)T(3.452,0.038)T(3.811,0.040)T(4.106,0.039)T(3.614,0.019)T(2.720,0.055)T(0.688,0.962)T(0.777,0.960)T第一百張,PP
40、T共二百頁,創(chuàng)作于2022年6月101模糊c-均值聚類算法xi相對于 的隸屬度 x1x2x3x4x50.9610.9810.9460.0380.0400.0390.0190.0540.9620.960聚類過程終止 第一百零一張,PPT共二百頁,創(chuàng)作于2022年6月102分析技術(shù)及模型分類分析第一百零二張,PPT共二百頁,創(chuàng)作于2022年6月103分類與預(yù)測是普遍存在的問題,具有廣泛的應(yīng)用領(lǐng)域分類的任務(wù)是通過分析由已知類別數(shù)據(jù)對象組成的訓(xùn)練數(shù)據(jù)集,建立描述并區(qū)分?jǐn)?shù)據(jù)對象類別的分類函數(shù)或分類模型(分類器)分類的目的是利用分類模型判定未知類別數(shù)據(jù)對象的所屬類別,判定的目標(biāo)是數(shù)據(jù)對象在類別屬性(離散)
41、上的取值預(yù)測也要通過分析訓(xùn)練數(shù)據(jù)集建立預(yù)測模型,然后利用模型預(yù)測數(shù)據(jù)對象,預(yù)測的目標(biāo)是判定數(shù)據(jù)對象在預(yù)測屬性(連續(xù))上的取值或取值區(qū)間分類與聚類有顯著區(qū)別:分類中,訓(xùn)練樣本的類別是已知的(有指導(dǎo)),而聚類中所有數(shù)據(jù)都沒有類別標(biāo)簽(無指導(dǎo))主要介紹分類過程、分類模型評估方法、常用分類算法分類分析第一百零三張,PPT共二百頁,創(chuàng)作于2022年6月104分類過程分為兩個階段:學(xué)習(xí)階段與分類階段分類過程訓(xùn)練樣本輸入分類模型測試樣本輸入新數(shù)據(jù)分類算法學(xué)習(xí)過程分類過程每個訓(xùn)練樣本由m+1個屬性描述,X=(A1, , Am, C)Ai對應(yīng)描述屬性,可以是連續(xù)屬性或離散屬性C表示類別屬性,有k個不同的類別,C
42、=(c1, c2, , ck)從描述屬性矢量(X-C)到類別屬性C的映射函數(shù)H:(X-C)C分類規(guī)則、判定樹等形式X=(A1, , Am)確定CX=(A1, , Am,C)提供X=(A1, , Am),確定C,比較C、C用于尋找映射函數(shù)H第一百零四張,PPT共二百頁,創(chuàng)作于2022年6月105分類算法有多種:決策樹分類算法、神經(jīng)網(wǎng)絡(luò)分類算法、貝葉斯分類算法、k-最近鄰分類算法、遺傳分類算法、粗糙集分類算法、模糊集分類算法等 分類算法可以根據(jù)下列標(biāo)準(zhǔn)進行比較和評估:1)準(zhǔn)確率:分類模型正確地預(yù)測新樣本所屬類別的能力2)速度:建立和使用分類模型的計算開銷3)強壯性:給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),
43、分類模型正確地預(yù)測的能力4)可伸縮性:給定大量數(shù)據(jù),有效地建立分類模型的能力5)可解釋性:分類模型提供的理解和洞察的層次分類算法評估標(biāo)準(zhǔn)第一百零五張,PPT共二百頁,創(chuàng)作于2022年6月106利用測試數(shù)據(jù)集評估分類模型的準(zhǔn)確率分類模型正確分類的測試樣本數(shù)占總測試樣本數(shù)的百分比準(zhǔn)確率可以接受,對新樣本進行分類;否則,重新建立分類模型評估分類模型準(zhǔn)確率的方法有保持、k-折交叉確認(rèn)保持方法將已知類別的樣本隨機地劃分為訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集兩個集合,一般,訓(xùn)練數(shù)據(jù)集占2/3,測試數(shù)據(jù)集占1/3k-折交叉確認(rèn)方法將已知類別的樣本隨機地劃分為大小大致相等的k個子集S1, , Sk,并進行k次訓(xùn)練與測試第i
44、次,Si作為測試數(shù)據(jù)集,其余子集的并集作為訓(xùn)練數(shù)據(jù)集k次訓(xùn)練得到k個分類模型,測試時,將出現(xiàn)次數(shù)最多的分類結(jié)果作為最終的分類結(jié)果分類模型評估方法第一百零六張,PPT共二百頁,創(chuàng)作于2022年6月107適宜多峰分布的分類問題 決策樹以樹結(jié)構(gòu)的形式表示,類似流程圖一棵決策樹由一個根節(jié)點,一組內(nèi)部節(jié)點和一組葉節(jié)點組成決策樹分類算法每個分枝表示一個測試輸出每個葉節(jié)點表示一個類,不同的葉節(jié)點可表示相同的類 根節(jié)點和內(nèi)部節(jié)點表示在一個屬性上的測試第一百零七張,PPT共二百頁,創(chuàng)作于2022年6月108建立了決策樹之后,可以對從根節(jié)點到葉節(jié)點的每條路徑創(chuàng)建一條IF-THEN分類規(guī)則,易于理解沿著路徑,每個內(nèi)
45、部節(jié)點-分枝對形成規(guī)則前件(IF部分)的一個合取項,葉節(jié)點形成規(guī)則后件(THEN部分)決策樹分類算法IF 年齡=41 AND 信譽=中 THEN 購買計算機=是IF 年齡=30 AND 學(xué)生=否 THEN 購買計算機=否-否新顧客:教師,年齡45歲,收入較低但信譽很好該顧客是否會購買計算機?第一百零八張,PPT共二百頁,創(chuàng)作于2022年6月109決策樹分類算法的關(guān)鍵是建立決策樹建立一棵決策樹,需要解決的問題主要有:1)如何選擇測試屬性?測試屬性的選擇順序影響決策樹的結(jié)構(gòu)甚至決策樹的準(zhǔn)確率一般使用信息增益度量來選擇測試屬性2)如何停止劃分樣本?從根節(jié)點測試屬性開始,每個內(nèi)部節(jié)點測試屬性都把樣本空
46、間劃分為若干個(子)區(qū)域一般當(dāng)某個(子)區(qū)域的樣本同類時,就停止劃分樣本,有時也通過閾值提前停止劃分樣本決策樹分類算法第一百零九張,PPT共二百頁,創(chuàng)作于2022年6月110使用遞歸方式完成基本思想:首先,將整個訓(xùn)練數(shù)據(jù)集S、所有描述屬性A1, A2, , Am作為分析對象如果S中的樣本屬于同一類別,則將S作為葉節(jié)點并用其中樣本的類別標(biāo)識,決策樹建立完成否則在S上計算各個屬性的信息增益G(C, Ak),選擇信息增益最大的屬性Ai作為根節(jié)點的測試屬性如果Ai的取值個數(shù)為v(取值記為a1, a2, , av),則Ai將S劃分為v個子集S1, S2, , Sv,同時根節(jié)點產(chǎn)生v個分枝與之對應(yīng)分別在訓(xùn)
47、練數(shù)據(jù)子集S1, S2, , Sv、剩余描述屬性A1, , Ai-1, Ai+1, , Am上采用相同方法遞歸地建立決策樹子樹決策樹分類算法建立決策樹Sv:S中Ai=av的樣本集合第一百一十張,PPT共二百頁,創(chuàng)作于2022年6月111遞歸過程中,某節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù)(子)集由整個訓(xùn)練數(shù)據(jù)集S中滿足從根節(jié)點到該節(jié)點路徑上所有屬性測試的訓(xùn)練樣本組成某節(jié)點對應(yīng)的描述屬性是去除從根節(jié)點到該節(jié)點路徑上所有已選描述屬性后的剩余描述屬性同一層內(nèi)部節(jié)點選擇的測試屬性可能相同也可能不同決策樹分類算法建立決策樹第一百一十一張,PPT共二百頁,創(chuàng)作于2022年6月112遞歸結(jié)束條件:1)某節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù)(子)
48、集中的樣本屬于同一類別2)某節(jié)點對應(yīng)的訓(xùn)練數(shù)據(jù)(子)集為空此時,該節(jié)點作為葉節(jié)點并用父節(jié)點中占多數(shù)的樣本類別標(biāo)識3)某節(jié)點沒有對應(yīng)的(剩余)描述屬性此時,該節(jié)點作為葉節(jié)點并用該節(jié)點中占多數(shù)的樣本類別標(biāo)識決策樹分類算法建立決策樹第一百一十二張,PPT共二百頁,創(chuàng)作于2022年6月113輸入:訓(xùn)練數(shù)據(jù)集S,描述屬性集合A輸出:決策樹步驟:(1)創(chuàng)建對應(yīng)S的節(jié)點Node(2)if S中的樣本屬于同一類別c then 以c標(biāo)識Node并將Node作為葉節(jié)點返回(3)if A為空 then 以S中占多數(shù)的樣本類別c標(biāo)識Node并將Node作為葉節(jié)點返回(4)從A中選擇對S而言信息增益最大的描述屬性Ai作
49、為Node的測試屬性決策樹分類算法算法描述第一百一十三張,PPT共二百頁,創(chuàng)作于2022年6月114(5)for Ai的每個可能取值aj(1jv) (5.1)產(chǎn)生S的一個子集Sj (5.2)if Sj為空 then 創(chuàng)建對應(yīng)Sj的節(jié)點Nj,以S中占多數(shù)的樣本類別c標(biāo)識Nj,并將Nj作為葉節(jié)點形成Node的一個分枝 (5.3)else 由(Sj, A-Ai)創(chuàng)建子樹形成Node的一個分枝決策樹分類算法算法描述第一百一十四張,PPT共二百頁,創(chuàng)作于2022年6月115決策樹分類算法信息增益類別屬性C的無條件熵:給定描述屬性Ak,類別屬性C的條件熵:n:樣本總數(shù) u:C的可能取值個數(shù),即類別數(shù)si:
50、屬于類別ci的記錄集合 |si|:屬于類別ci的記錄總數(shù)v:Ak的可能取值個數(shù) sj:Ak=aj的記錄集合 |sj|:Ak=aj的記錄數(shù)目Sij:Ak=aj且屬于類別ci的記錄集合 |sij|:Ak=aj且屬于類別ci的記錄數(shù)目 給定描述屬性Ak,類別C的信息增益:G(C, Ak)=E(C)-E(C, Ak) G(C, Ak)反映Ak減少C不確定性的程度,G(C, Ak)越大,Ak對減少C不確定性的貢獻越大 第一百一十五張,PPT共二百頁,創(chuàng)作于2022年6月116決策樹分類算法信息增益 蔬菜數(shù)據(jù)表如表所示,“顏色”、“形狀”是描述屬性,“蔬菜”是類別屬性,分別求給定“顏色”、“形狀”屬性時,
51、“蔬菜”屬性的信息增益 顏色形狀蔬菜紅圓蕃茄紫長茄子綠長黃瓜G(蔬菜,顏色)1.5850-0=1.5850G(蔬菜,形狀)1.5850-0.6667=0.9183 G(蔬菜,顏色)G(蔬菜,形狀) 不同描述屬性減少類別屬性不確定性的程度不同第一百一十六張,PPT共二百頁,創(chuàng)作于2022年6月117決策樹分類算法信息增益盡量選擇對減少類別屬性不確定性貢獻最大的描述屬性分類模型包含盡可能少的描述屬性從而使模型簡單 G(蔬菜,顏色)G(蔬菜,形狀) 測試屬性的選擇順序影響決策樹的結(jié)構(gòu)甚至決策樹的準(zhǔn)確率決策樹分類算法要求描述屬性是離散屬性,連續(xù)屬性需要離散化 第一百一十七張,PPT共二百頁,創(chuàng)作于20
52、22年6月118決策樹分類算法噪聲處理如果訓(xùn)練數(shù)據(jù)集含有噪聲,決策樹的某些分枝反映的是噪聲而不是總體,應(yīng)該剪去這些不可靠的分枝,提高決策樹的分類準(zhǔn)確率有兩種剪枝策略: 先剪枝策略:在建立決策樹的過程中,通過某度量標(biāo)準(zhǔn)判斷每個內(nèi)部節(jié)點是否需要進一步劃分,如果進一步劃分將導(dǎo)致建立不可靠的分枝,則停止劃分,從而達到剪枝。此時,該內(nèi)部節(jié)點變成葉節(jié)點并用其中占多數(shù)的記錄類別標(biāo)識 后剪枝策略:首先,建立完整的決策樹;然后,通過某度量標(biāo)準(zhǔn)判斷哪些內(nèi)部節(jié)點分枝是不可靠的,將這些內(nèi)部節(jié)點變成葉節(jié)點并用其中占多數(shù)的記錄類別標(biāo)識,從而達到剪枝第一百一十八張,PPT共二百頁,創(chuàng)作于2022年6月119前饋神經(jīng)網(wǎng)絡(luò)分類
53、算法神經(jīng)網(wǎng)絡(luò)可以模仿人腦,通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)集,生成分類模型適用于數(shù)據(jù)沒有任何明顯模式的情況 樣本屬性可以是連續(xù)的,也可以是離散的神經(jīng)網(wǎng)絡(luò)由許多單元(神經(jīng)元)以適當(dāng)?shù)姆绞竭B接起來構(gòu)成單元模仿人腦的神經(jīng)元,單元之間的連接相當(dāng)于人腦中神經(jīng)元的連接單元之間的連接方式有多種,從而形成了多種神經(jīng)網(wǎng)絡(luò)在分類中,應(yīng)用較多的是前饋神經(jīng)網(wǎng)絡(luò)主要介紹前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)學(xué)習(xí)及網(wǎng)絡(luò)分類方法 第一百一十九張,PPT共二百頁,創(chuàng)作于2022年6月120前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)是分層網(wǎng)絡(luò)模型,具有一個輸入層和一個輸出層,輸入層和輸出層之間有一個或多個隱藏層每個層具有若干單元,前一層單元與后一層單元之間通過
54、有向加權(quán)邊相連 ai:輸入層第i個單元的輸入 Ok:輸出層第k個單元的輸出 wij:隱藏層第j個單元與輸入層第i個單元之間的連接權(quán)wjk:輸出層第k個單元與隱藏層第j個單元之間的連接權(quán) 第一百二十張,PPT共二百頁,創(chuàng)作于2022年6月121前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)結(jié)構(gòu)輸入層單元的數(shù)目與訓(xùn)練樣本的描述屬性數(shù)目對應(yīng),通常一個連續(xù)屬性對應(yīng)一個輸入層單元,一個p值離散屬性對應(yīng)p個輸入層單元輸出層單元的數(shù)目與訓(xùn)練樣本的類別數(shù)目對應(yīng)(兩類時,可以只有一個輸出單元)隱層的層數(shù)及隱層的單元數(shù)尚無理論指導(dǎo),一般通過實驗選取輸入層,各單元的輸出可以等于輸入,也可以按一定比例調(diào)節(jié),使其值落在1和+1之間其他層,每
55、個單元的輸入都是前一層各單元輸出的加權(quán)和,輸出是輸入的某種函數(shù),稱為激活函數(shù)第一百二十一張,PPT共二百頁,創(chuàng)作于2022年6月122前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)結(jié)構(gòu)隱藏層、輸出層任意單元j的輸入: 輸出 : Oj= f (netj) 如果f采用S型激活函數(shù):對于隱藏層、輸出層任意單元j,由輸入計算輸出的過程 : 單元i的輸出單元j與前一層單元i之間的連接權(quán)改變單元j活性的偏置,1,1上取值則第一百二十二張,PPT共二百頁,創(chuàng)作于2022年6月123前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)不同的單元的偏置及單元之間的連接權(quán)會獲得不同的輸出學(xué)習(xí)過程就是調(diào)整各單元的偏置及單元之間的連接權(quán)值,使每個訓(xùn)練樣本在輸出層
56、單元上獲得的輸出與其期望輸出間的誤差最小學(xué)習(xí)使用誤差后向傳播算法基本思想:首先賦予每條有向加權(quán)邊初始權(quán)值、每個隱藏層與輸出層單元初始偏置然后迭代地處理每個訓(xùn)練樣本,輸入它的描述屬性值,計算實際輸出,獲取實際輸出與期望輸出間的誤差將誤差從輸出層經(jīng)每個隱藏層到輸入層“后向傳播”,根據(jù)誤差修改權(quán)值和單元的偏置,使實際輸出與期望輸出之間的誤差最小第一百二十三張,PPT共二百頁,創(chuàng)作于2022年6月124前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)樣本實際輸出與期望輸出的誤差Error: c:輸出層的單元數(shù)目 Tk:輸出層單元k的期望輸出 Ok:單元k的實際輸出 輸出層單元k與前一層單元j之間的權(quán)值wjk的修改量wjk
57、、單元k的偏置修改量為使Error最小,采用使Error沿梯度方向下降的方式單元j的輸出Error對單元k的輸入netk的負(fù)偏導(dǎo)數(shù)學(xué)習(xí)率,l 0, 1,避免陷入局部最優(yōu)解單元k的輸出第一百二十四張,PPT共二百頁,創(chuàng)作于2022年6月125前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)隱藏層單元j與前一層單元i之間的權(quán)值wij的修改量wij、單元j的偏置j的修改量j :單元i的輸出單元j的輸出與單元j相連的后一層單元k的誤差 權(quán)值、偏置的修改 :權(quán)值、偏置的更新有兩種策略:1)實例更新:處理一個訓(xùn)練樣本更新一次,常采用2)周期更新:處理所有訓(xùn)練樣本后再一次更新處理所有訓(xùn)練樣本一次,稱為一個周期第一百二十五張,P
58、PT共二百頁,創(chuàng)作于2022年6月126前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)結(jié)束條件:1)誤差Error小于設(shè)定閾值,此時認(rèn)為網(wǎng)絡(luò)收斂,結(jié)束迭代2)前一周期所有的權(quán)值變化都很小,小于某個設(shè)定閾值3)前一周期預(yù)測的準(zhǔn)確率很大,大于某個設(shè)定閾值3)周期數(shù)大于某個設(shè)定閾值在實際應(yīng)用中,訓(xùn)練樣本很多,學(xué)習(xí)需要很多次迭代才能完成迭代次數(shù)與網(wǎng)絡(luò)結(jié)構(gòu)、初始權(quán)值與偏置、學(xué)習(xí)率的值有很大關(guān)系這些參數(shù)都是憑經(jīng)驗選取 算法特點第一百二十六張,PPT共二百頁,創(chuàng)作于2022年6月127前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)設(shè)訓(xùn)練樣本s的描述屬性值與類別屬性值分別為1, 0, 1與1,前饋神經(jīng)網(wǎng)絡(luò)NT如圖所示,NT中每條有向加權(quán)邊的權(quán)值
59、、每個隱藏層與輸出層單元的偏置如表所示,學(xué)習(xí)率為0.9。寫出輸入s訓(xùn)練NT的過程 x1x2x3w14w15w24w25w34w35w46w564561010.20.30.40.10.50.20.30.20.40.20.1第一百二十七張,PPT共二百頁,創(chuàng)作于2022年6月128前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)x1x2x3w14w15w24w25w34w35w46w564561010.20.30.40.10.50.20.30.20.40.20.1單元j輸入netj輸出Oj40.2*1+0.4*0+(0.5)*1+(0.4)=0.71/(1+e(0.7)=0.3325(0.3)*1+0.1*0+(0.
60、2)*1+0.2=0.11/(1+e0.1)=0.5256(0.3) *0.332+(0.2)*0.525+0.1=0.1051/(1+e(0.105)=0.474單元jErrj60.474*(10.474)*(10.474)=0.131150.525*(10.525)*(0.1311*(0.2)=0.006540.332*(10.332)*(0.1311*(0.3)=0.0087第一百二十八張,PPT共二百頁,創(chuàng)作于2022年6月129前饋神經(jīng)網(wǎng)絡(luò)分類算法網(wǎng)絡(luò)學(xué)習(xí)x1x2x3w14w15w24w25w34w35w46w564561010.20.30.40.10.50.20.30.20.40.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- LY/T 2675-2024石斛
- 五年級下冊聽評課記錄表
- 魯教版地理七年級下冊7.1《自然特征與農(nóng)業(yè)》聽課評課記錄
- 生態(tài)修復(fù)資源共享合同(2篇)
- 甲乙方協(xié)議書(2篇)
- 2025年硫酸黏菌素類產(chǎn)品合作協(xié)議書
- 七年級數(shù)學(xué)上冊第29課時和、差、倍、分問題聽評課記錄新湘教版
- 新版華東師大版八年級數(shù)學(xué)下冊《17.3.2一次函數(shù)的圖象1》聽評課記錄21
- 統(tǒng)編版初中語文八年級下冊第五課《大自然的語言》聽評課記錄
- 七年級(人教版)集體備課聽評課記錄:1.2.1《有理數(shù)》
- 機動車商業(yè)保險條款(2020版)
- 《大小比較》(說課課件)二年級下冊數(shù)學(xué)西師大版
- 張五常子女和婚姻合約中的產(chǎn)權(quán)執(zhí)行問題
- 口腔粘膜常見疾病
- 校園安全派出所
- 餐廳值班管理培訓(xùn)
- XXXX無線維護崗位認(rèn)證教材故障處理思路及案例分析
- 酒店春節(jié)營銷方案
- 營銷管理方案中的定價策略與盈利模式
- 2024年西寧城市職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 2024年臨沂市高三一模(學(xué)業(yè)水平等級考試模擬試題)物理試卷
評論
0/150
提交評論