能源系統(tǒng)人工智能方法 課件 第3、4章 無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)方法_第1頁(yè)
能源系統(tǒng)人工智能方法 課件 第3、4章 無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)方法_第2頁(yè)
能源系統(tǒng)人工智能方法 課件 第3、4章 無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)方法_第3頁(yè)
能源系統(tǒng)人工智能方法 課件 第3、4章 無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)方法_第4頁(yè)
能源系統(tǒng)人工智能方法 課件 第3、4章 無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)方法_第5頁(yè)
已閱讀5頁(yè),還剩267頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

無監(jiān)督學(xué)習(xí)—Clustering&AssociationRule能源系統(tǒng)人工智能方法

第三節(jié)能源系統(tǒng)運(yùn)行過程中會(huì)產(chǎn)生海量的數(shù)據(jù)數(shù)據(jù)特點(diǎn):變量種類多、數(shù)據(jù)體量大、價(jià)值密度低、數(shù)據(jù)標(biāo)簽稀缺背景如何從繁雜的數(shù)據(jù)中提取有用的信息?2數(shù)據(jù)挖掘技術(shù)被認(rèn)為是解決這一問題的方法背景DataminingHVACsystemoperationdata高價(jià)值數(shù)據(jù)3背景無監(jiān)督學(xué)習(xí)算法是常用的數(shù)據(jù)挖掘方法:無監(jiān)督學(xué)習(xí):樣本的標(biāo)記信息未知,通過對(duì)樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律的過程對(duì)數(shù)據(jù)做進(jìn)一步分析有價(jià)值知識(shí)4背景無監(jiān)督學(xué)習(xí)算法典型能源應(yīng)用場(chǎng)景:5背景無監(jiān)督學(xué)習(xí)的一般流程:數(shù)據(jù)預(yù)處理無監(jiān)督數(shù)據(jù)挖掘知識(shí)后挖掘6背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱7聚類的定義數(shù)據(jù)聚類結(jié)果示意圖聚類結(jié)果:算法自動(dòng)生成簇的意義:由使用者定義聚類(Clustering):將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱為一個(gè)“簇”(cluster)三個(gè)聚類簇8數(shù)學(xué)表達(dá)樣本集D:包含m個(gè)樣本每個(gè)樣本xi:為一個(gè)包含n個(gè)數(shù)的向量聚類過程:基于樣本間的相似程度將樣本集中的樣本劃分為k個(gè)子集(聚類簇)聚類目的:得到包含每個(gè)樣本歸屬于哪個(gè)簇的簇標(biāo)記向量

x聚類簇?cái)?shù)目k=2x1x3x2x4x5x6聚類算法1x2x3x4x5x6樣本集(樣本數(shù)m=6)聚類簇1聚類簇2x11x12含n=2個(gè)數(shù)9相似性度量相似性度量:用于定量估計(jì)樣本間的相似程度分類:幾何距離的性質(zhì):非負(fù)性:樣本之間的距離大于等于0同一性:相同樣本間的距離為0對(duì)稱性:樣本互相交換位置不改變結(jié)果直遞性:兩點(diǎn)之間直線距離最短10相似性度量-幾何距離-閔可夫斯基距離閔可夫斯基距離:范圍∈(0,∞),越大越不相似樣本和的距離計(jì)算公式:p值不同時(shí),具有不同的名稱以及計(jì)算公式:幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)

p=∞:切比雪夫距離p=2:歐式距離p=1:曼哈頓距離11二維空間中的三種距離展示紅色點(diǎn)劃線:曼哈頓距離,溫濕度差值絕對(duì)值之和黃色直線:歐氏距離,兩點(diǎn)之間的直線距離藍(lán)色虛線:切比雪夫距離,溫濕度差值絕對(duì)值的最大值相似性度量-幾何距離-閔可夫斯基距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)12馬拉哈諾比斯距離:適用于衡量量綱存在顯著差異的樣本間的相似度實(shí)例展示:相似性度量-幾何距離-馬拉哈諾比斯距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)使用歐氏距離進(jìn)行聚類d1

將納入綠點(diǎn)使用馬拉哈諾比斯距離進(jìn)行聚類d2

將納入綠點(diǎn)d1d2d1d2d1<d2d1>d225~35℃40~90%40~90%可看作是歐氏距離的推廣取值差異過大13馬拉哈諾比斯距離計(jì)算示例:數(shù)據(jù)來源:7個(gè)房間同一天的室內(nèi)信息房間平均溫度(oC)平均相對(duì)濕度(%)房間123.969.0房間227.361.0房間325.170.1房間428.365.2房間526.267.0房間624.872.4房間727.766.5相似性度量-幾何距離-馬拉哈諾比斯距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)計(jì)算公式:樣本向量樣本矩陣的協(xié)方差矩陣14馬拉哈諾比斯距離計(jì)算示例:將表中數(shù)據(jù)寫入一個(gè)7×2的矩陣計(jì)算Xt的協(xié)方差矩陣S以及它的逆S-1:計(jì)算xi和xj之間的馬拉哈諾比斯距離相似性度量-幾何距離-馬拉哈諾比斯距離幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)15余弦距離:通過計(jì)算兩個(gè)樣本向量的夾角余弦值評(píng)估兩者相似度幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)相似性度量-幾何距離-余弦距離三個(gè)樣本計(jì)算公式實(shí)例展示:角α<角β→cos(α)>cos(β)→distS(x1

,x2)<

distS(x1

,x3)→x1與x2更相似相似不相似16余弦距離計(jì)算示例:余弦距離的計(jì)算公式房間1的室內(nèi)環(huán)境向量:x1=

(23.9,69)

房間2的室內(nèi)環(huán)境向量:x2=(27.3,61)x1與x2的余弦距離:幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)相似性度量-幾何距離-余弦距離17皮爾遜相關(guān)系數(shù):衡量?jī)蓚€(gè)樣本之間的線性相關(guān)性取值∈(-1,1)

正值表示正相關(guān),負(fù)值表示負(fù)相關(guān)相似性度量-相關(guān)系數(shù)-皮爾遜相關(guān)系數(shù)幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)相關(guān)性強(qiáng)相關(guān)性弱18協(xié)方差Cov(Xi,Xj)標(biāo)準(zhǔn)差σXi*σXj皮爾遜相關(guān)系數(shù)計(jì)算示例:時(shí)間建筑1能耗(kW)建筑2能耗(kW)9:005.89.210:007.611.211:007.813.912:0010.414.813:008.915.614:005.911.515:004.19.2建筑1的能耗向量x1建筑1的能耗向量x2相似性度量-相關(guān)系數(shù)-皮爾遜相關(guān)系數(shù)相關(guān)系數(shù):19斯皮爾曼相關(guān)系數(shù):用途:衡量樣本之間的單調(diào)相關(guān)性幾何距離:閔可夫斯基距離馬拉哈諾比斯距離余弦距離相關(guān)系數(shù):皮爾遜相關(guān)系數(shù)斯皮爾曼相關(guān)系數(shù)單調(diào)性與線性的區(qū)別:計(jì)算示例:房間1溫度房間2溫度滿足點(diǎn)調(diào)性不滿足線性原始樣本元素轉(zhuǎn)化為降序位置作差相似性度量-相關(guān)系數(shù)-斯皮爾曼相關(guān)系數(shù)20斯皮爾曼相關(guān)系數(shù)計(jì)算示例:時(shí)間建筑1能耗(kW)建筑1能耗降序位次建筑2能耗(kW)建筑2能耗降序位次9:005.869.26.510:007.6411.2511:007.8313.9312:0010.4114.8213:008.9215.6114:005.9511.5415:004.179.26.5相似性度量-相關(guān)系數(shù)-斯皮爾曼相關(guān)系數(shù)建筑2原始能耗向量x2,位次向量x2’

建筑1原始能耗向量x1,位次向量x1’

計(jì)算式:21相似性度量-總結(jié)相似性度量總結(jié):距離度量閔可夫斯基距離:基礎(chǔ)的距離指標(biāo),p值不同計(jì)算公式不同曼哈頓距離:折線距離歐氏距離:直線距離切比雪夫距離:橫向距離馬拉哈諾比斯距離:在閔可夫斯基距離的基礎(chǔ)上,消除了由于變量取值范圍不同造成的影響余弦距離:兩個(gè)樣本向量的夾角,與位置無關(guān)相關(guān)系數(shù)度量皮爾遜相關(guān)系數(shù):衡量線性相關(guān)性斯皮爾曼相關(guān)系數(shù):衡量正負(fù)相關(guān)性(包括線性與非線性相關(guān))22三個(gè)聚類簇23聚類性能評(píng)價(jià)如何用數(shù)學(xué)公式(或者程序流程)來定義什么是好的聚類?聚類性能評(píng)價(jià):對(duì)聚類結(jié)果進(jìn)行評(píng)估內(nèi)部評(píng)價(jià)指標(biāo):根據(jù)聚類簇之間的相似度來評(píng)價(jià)聚類結(jié)果外部評(píng)價(jià)指標(biāo):根據(jù)聚類結(jié)果與真實(shí)結(jié)果進(jìn)行比較來評(píng)價(jià)聚類結(jié)果指標(biāo)分類:聚類性能評(píng)價(jià)24輪廓系數(shù)(SilhouetteCoefficient):對(duì)于一個(gè)樣本集合,它的輪廓系數(shù)是所有樣本輪廓系數(shù)的平均值。輪廓系數(shù)的取值范圍是[-1,1],同類別樣本距離越相近不同類別樣本距離越遠(yuǎn),分?jǐn)?shù)越高。聚類性能評(píng)價(jià)-內(nèi)部評(píng)價(jià)指標(biāo)-輪廓系數(shù)樣本i的輪廓系數(shù)計(jì)算式ai:樣本i與簇內(nèi)其他樣本的平均距離(圖中紅色線段長(zhǎng)度的均值)bi:樣本i與其他簇樣本的平均距離(圖中綠色線段長(zhǎng)度的均值)樣本i與其他簇樣本的距離i內(nèi)部評(píng)價(jià)指標(biāo):輪廓系數(shù)戴維森堡丁指數(shù)鄧恩指數(shù)外部評(píng)價(jià)指標(biāo)純度蘭德系數(shù)F值樣本i與簇內(nèi)其他樣本的距離25計(jì)算示例:使用輪廓系數(shù)評(píng)價(jià)聚類結(jié)果的好壞10個(gè)樣本的聚類結(jié)果如下評(píng)價(jià)指標(biāo)中樣本間距離計(jì)算均使用歐式距離房間平均溫度(oC)平均相對(duì)濕度(%)聚類簇房間137.868.61房間237.268.51房間336.769.91房間423.974.62房間522.876.12房間621.185.22房間720.081.72房間830.163.73房間928.367.13房間1027.865.23聚類性能評(píng)價(jià)-計(jì)算示例26輪廓系數(shù)計(jì)算示例:以聚類簇1中的樣本1為例:樣本1與同簇其他樣本的平均距離為:聚類性能評(píng)價(jià)-計(jì)算示例-輪廓系數(shù)與聚類簇2(C2)內(nèi)樣本的平均距離為:與聚類簇3(C3)內(nèi)樣本的平均距離為:與聚類簇2和3的平均距離的最小值為:樣本1的輪廓系數(shù):27所有樣本的輪廓系數(shù)計(jì)算結(jié)果樣本序號(hào)aibisi11.169.770.8821.059.180.8931.599.320.8346.9710.470.3355.7912.310.5367.9621.290.6376.0118.560.6883.308.920.6392.919.160.68102.3610.200.77聚類性能評(píng)價(jià)-計(jì)算示例-輪廓系數(shù)聚類結(jié)果的輪廓系數(shù)等于si列的平均值:28兩個(gè)聚類簇中心的距離:戴維森堡丁指數(shù)(Davies-bouldinIndex,DBI):該指標(biāo)用來衡量任意兩個(gè)簇的簇內(nèi)距離之后與簇間距離之比。該指標(biāo)越小表示簇內(nèi)距離越小,簇內(nèi)相似度越高,簇間距離越大,簇間相似度低。取值∈(0,∞),值越小聚類效果越好聚類性能評(píng)價(jià)-內(nèi)部評(píng)價(jià)指標(biāo)-戴維森堡丁指數(shù)簇內(nèi)樣本與簇中心距離,其均值:內(nèi)部評(píng)價(jià)指標(biāo):輪廓系數(shù)戴維森堡丁指數(shù)鄧恩指數(shù)外部評(píng)價(jià)指標(biāo)純度蘭德系數(shù)F值29計(jì)算示例:使用戴維森堡丁評(píng)價(jià)聚類結(jié)果的好壞10個(gè)樣本的聚類結(jié)果如下評(píng)價(jià)指標(biāo)中樣本間距離計(jì)算均使用歐式距離房間平均溫度(oC)平均相對(duì)濕度(%)聚類簇房間137.868.61房間237.268.51房間336.769.91房間423.974.62房間522.876.12房間621.185.22房間720.081.72房間830.163.73房間928.367.13房間1027.865.23聚類性能評(píng)價(jià)-計(jì)算示例30戴維森堡丁指數(shù)計(jì)算示例:各聚類簇的中心點(diǎn):聚類性能評(píng)價(jià)-計(jì)算示例-戴維森堡丁指數(shù)每個(gè)聚類簇內(nèi)各樣本到該簇中心點(diǎn)的平均距離:31各聚類簇中心點(diǎn)之間的距離:聚類性能評(píng)價(jià)-計(jì)算示例-戴維森堡丁指數(shù)該聚類結(jié)果的戴維森堡丁指數(shù):32簇內(nèi)的最遠(yuǎn)距離:鄧恩指數(shù):(DunnIndex)如果一個(gè)簇的質(zhì)心與該簇中的點(diǎn)之間的距離很小,則意味著這些點(diǎn)彼此靠近。取值∈(0,∞),值越大聚類效果越好聚類性能評(píng)價(jià)-內(nèi)部評(píng)價(jià)指標(biāo)-鄧恩指數(shù)簇間的最近距離:內(nèi)部評(píng)價(jià)指標(biāo):輪廓系數(shù)戴維森堡丁指數(shù)鄧恩指數(shù)外部評(píng)價(jià)指標(biāo)純度蘭德系數(shù)F值33計(jì)算示例:使用鄧恩指數(shù)評(píng)價(jià)聚類結(jié)果的好壞10個(gè)樣本的聚類結(jié)果如下評(píng)價(jià)指標(biāo)中樣本間距離計(jì)算均使用歐式距離房間平均溫度(oC)平均相對(duì)濕度(%)聚類簇房間137.868.61房間237.268.51房間336.769.91房間423.974.62房間522.876.12房間621.185.22房間720.081.72房間830.163.73房間928.367.13房間1027.865.23聚類性能評(píng)價(jià)-計(jì)算示例34鄧恩指數(shù)指數(shù)計(jì)算示例:計(jì)算兩兩聚類簇樣本間距離的最小值,以聚類簇1和聚類簇2為例聚類簇1樣本序號(hào)聚類簇2樣本序號(hào)4567115.1416.7723.5522.10214.6316.2823.2021.68313.6415.2221.8520.45聚類性能評(píng)價(jià)-計(jì)算示例-鄧恩指數(shù)最小值不同簇樣本間的最小值:各聚類簇內(nèi)樣本間的最遠(yuǎn)距離:聚類結(jié)果的鄧恩指數(shù):35基本原理——聚類性能聚類性能總結(jié):內(nèi)部評(píng)價(jià)指標(biāo):僅從聚類結(jié)果的角度評(píng)價(jià)聚類效果輪廓系數(shù):范圍∈(-1~1),值越大聚類效果越好戴維森堡丁指數(shù):范圍∈(0~∞),值越小聚類效果越好鄧恩指數(shù):范圍∈(0~∞),值越大聚類效果越好外部評(píng)價(jià)指標(biāo):需要有標(biāo)準(zhǔn)的分類結(jié)果作參考純度蘭德系數(shù)F值36在能源領(lǐng)域,聚類任務(wù)的性能基本不采用外部評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估,因此不再詳細(xì)展開介紹背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱37原型聚類原型:樣本空間中具有代表性的點(diǎn)簇中心的十字表示原型位置定義:原型聚類旨在找到一組能夠最大可能刻畫原始樣本分布的原型原理:隨機(jī)選取一組原型。然后對(duì)原型進(jìn)行迭代更新,直到得到一組穩(wěn)定的原型適用領(lǐng)域:不同類型的樣本間差異較大的任務(wù),如識(shí)別控制策略、區(qū)分運(yùn)行狀態(tài)、劃分系統(tǒng)用能水平、揭示不同的用能行為代表算法:k-means算法、學(xué)習(xí)向量量化、高斯混合聚類原型38原型聚類聚類目標(biāo):最小化各簇內(nèi)的點(diǎn)與其原型間的歐氏距離之和39示例分析:基于k-means的建筑用能模式識(shí)別數(shù)據(jù)來源:某辦公建筑30個(gè)樣本數(shù)據(jù),樣本由2個(gè)維度組成聚類目的:揭露建筑不同室外溫度下的建筑用能模式樣本序號(hào)室外溫度(oC)建筑冷負(fù)荷(kW)014.961201115.891224………2930.178318量綱差異過大,聚類前需先進(jìn)行歸一化樣本序號(hào)室外溫度建筑冷負(fù)荷00.060.0410.110.05………290.930.9940示例分析:基于k-means的建筑用能模式識(shí)別不同聚類簇?cái)?shù)量下聚類結(jié)果輪廓系數(shù)曲線基于k-means算法的建筑用能模式識(shí)別結(jié)果聚類數(shù)目∈(2,9)最佳輪廓系數(shù)三種常見的用能模式聚類步驟:確定聚類數(shù)量、分析聚類結(jié)果41背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱42密度聚類定義:基于密度的聚類簡(jiǎn)稱密度聚類原型聚類結(jié)果與密度聚類結(jié)果的區(qū)別原理:根據(jù)樣本密度分布,將相鄰的樣本聚合到一起,形成多個(gè)聚類簇適用領(lǐng)域:密度聚類算法能夠發(fā)現(xiàn)任意形狀的聚類簇,具有更高的靈活性,常應(yīng)用于離群點(diǎn)異常檢測(cè)任務(wù)代表算法:DBSCAN、OPTICS、DENCLUE43密度聚類:DBSCAN算法基本概念:

ε鄰域:對(duì)某樣本點(diǎn),以其為圓心,半徑為ε的領(lǐng)域MinPts=3

x3由x2密度直達(dá)x3由x1密度可達(dá)x3與x4密度相連ε鄰域噪聲核心對(duì)象:ε鄰域內(nèi)包含的樣本點(diǎn)數(shù)量大于等于某一閾值(MinPts)的樣本密度直達(dá):若樣本p是核心對(duì)象,樣本q在其ε鄰域內(nèi),則稱q由p密度直達(dá)密度可達(dá):若樣本p與q之間存在一組可連續(xù)密度直達(dá)的樣本,稱p與q密度可達(dá)密度相連:若存在樣本o使得p與q均由o密度可達(dá),稱p與q密度相連注:密度直達(dá)與密度可達(dá)均有方向,密度相連無方向核心對(duì)象44密度聚類:DBSCAN算法DBSCAN算法的步驟:DBSCAN算法流程圖DBSCAN將聚類簇的定義為最大的密度相連的樣本集合45示例分析:基于DBSCAN的建筑異常用能模式識(shí)別數(shù)據(jù)來源:某辦公建筑30個(gè)樣本數(shù)據(jù),聚類目的:找出該建筑的異常用能模式樣本序號(hào)室外溫度(oC)建筑冷負(fù)荷(kW)022.513165122.443182………2924.028318量綱差異過大,聚類前需先進(jìn)行歸一化樣本序號(hào)室外溫度建筑冷負(fù)荷00.080.2310.060.23………290.560.9046示例分析:基于DBSCAN的建筑異常用能模式識(shí)別綠色叉號(hào):正常樣本點(diǎn)橙色圓形:異常用能點(diǎn)基于DBSCAN算法的建筑異常用能模式識(shí)別結(jié)果47示例分析:基于DBSCAN的建筑異常用能模式識(shí)別對(duì)比k-means算法和DBSCAN算法的差異僅能識(shí)別一個(gè)異常用能模式k-means算法聚類結(jié)果輪廓系數(shù)曲線基于k-means算法的建筑異常用能模式識(shí)別最佳輪廓系數(shù)正常用能模式異常用能模式48背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱49樣本的空間位置基于層次樹的聚類過程進(jìn)行可視化層次聚類定義:基于層次的聚類簡(jiǎn)稱層次聚類原理:將每個(gè)樣本視作一個(gè)簇,不停合并最相似的兩個(gè)簇,直至收斂123123適用領(lǐng)域:需要可視化聚類過程的問題,應(yīng)用場(chǎng)景與原型聚類基本一致代表算法:AGNES、DIANA50層次聚類簇間距離計(jì)算方法:最小連接距離:兩個(gè)簇中距離最近的兩個(gè)樣本間的距離最大連接距離:兩個(gè)簇中距離最遠(yuǎn)的兩個(gè)樣本間的距離平均連接距離:兩個(gè)簇中所有樣本間的距離平均值最小連接距離最大連接距離平均連接距離51層次聚類:AGNES算法AGNES算法:采用自下向上的策略收斂條件:所有樣本都被劃分成一個(gè)簇聚類簇的數(shù)量等于某一閾值最相似的兩個(gè)簇之間的距離大于等于某一閾值A(chǔ)GNES算法流程圖123123樣本的空間位置基于層次樹的聚類過程進(jìn)行可視化52層次聚類:DIANA算法DIANA算法:采用自上向下的策略123基于層次樹的聚類過程進(jìn)行可視化123樣本的空間位置53示例分析:基于AGNES的區(qū)域供熱系統(tǒng)控制策略識(shí)別數(shù)據(jù)來源:某區(qū)域供熱系統(tǒng)熱源處采集的30個(gè)樣本數(shù)據(jù)聚類目的:識(shí)別該建筑的異常用能模式樣本序號(hào)供水溫度(oC)供水流量(kg/s)室外溫度(oC)094.10886.11-3.00194.00850.00-4.00…………2979.00850.4020.00量綱差異過大,聚類前需先進(jìn)行歸一化樣本序號(hào)供水溫度供水流量室外溫度00.940.530.1510.940.120.11…………290.300.121.0054示例分析:基于AGNES的區(qū)域供熱系統(tǒng)控制策略識(shí)別AGNES生成的層次樹1234聚類順序(倒數(shù))5聚類簇1聚類簇2聚類簇3根據(jù)經(jīng)驗(yàn)可劃分為三個(gè)聚類簇層次聚類結(jié)果展示55示例分析:基于AGNES的區(qū)域供熱系統(tǒng)控制策略識(shí)別基于AGNES的區(qū)域供熱系統(tǒng)熱源控制策略識(shí)別結(jié)果室外溫度降低供水溫度升高通過調(diào)整供水溫度來增加供熱量稱作“質(zhì)調(diào)節(jié)”56背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱57關(guān)聯(lián)規(guī)則起源美國(guó)中西部的一家連鎖店發(fā)現(xiàn),男人們會(huì)在周四購(gòu)買尿布和啤酒。這樣商店可以將尿布與啤酒放在一塊,以確保在周四全價(jià)銷售從而獲利典型的例子是購(gòu)物籃分析,從大量的訂單中發(fā)現(xiàn)商品潛在的關(guān)聯(lián)聚類算法當(dāng)前的相似性度量難以有效量化高維變量之間的相關(guān)性,無法自動(dòng)抽取出有效變量,因此對(duì)能源領(lǐng)域的復(fù)雜數(shù)據(jù)挖掘場(chǎng)景無法適用58關(guān)聯(lián)規(guī)則定義關(guān)聯(lián)規(guī)則挖掘算法被廣泛用于高維變量的數(shù)據(jù)挖掘任務(wù),其核心思想為通過遍歷所有可能發(fā)現(xiàn)其中存在強(qiáng)相關(guān)性的變量組合。項(xiàng)(i)是關(guān)聯(lián)規(guī)則挖掘中的最小分析單元,通常為變量本身或者變量和數(shù)值的組合。通??捎肐={i1,i2,…,im}表示項(xiàng)的全集。e.g“冷水機(jī)組”或“冷水機(jī)組出水溫度7.1oC”

e.g.

{“冷機(jī)功率653.1kW”,“冷機(jī)冷凍出水溫度6.9oC”,“冷機(jī)冷凍回水

溫度12.3oC”}事務(wù)(T)是關(guān)聯(lián)規(guī)則挖掘中數(shù)據(jù)庫(kù)的最小采樣單元,通常為多個(gè)項(xiàng)的集合(T?I)。D={T1,T2,…,Tn}表示數(shù)據(jù)挖掘任務(wù)的事務(wù)集合。

e.g

{“冷機(jī)功率653.1kW”}→{“冷機(jī)冷凍出水溫度6.9oC”,“冷機(jī)冷凍回水溫度12.3oC”}

59關(guān)聯(lián)規(guī)則定義,

項(xiàng)集I={milk,bread,butter,beer,diapers}{butter,bread}?{milk}是一條關(guān)聯(lián)規(guī)則,表示如果butter和bread同時(shí)被購(gòu)買了,milk也會(huì)被購(gòu)買。每一個(gè)條目中,1表示項(xiàng)出現(xiàn)在相應(yīng)的事務(wù)中,0表示項(xiàng)沒有出現(xiàn)在事務(wù)中。練習(xí)在實(shí)際應(yīng)用中,數(shù)據(jù)庫(kù)通常包含成千上萬的事務(wù),一條規(guī)則需要上百個(gè)事務(wù)的支持才能被認(rèn)為是統(tǒng)計(jì)顯著的。60關(guān)聯(lián)規(guī)則屬性

支持度(support)是一種衡量關(guān)聯(lián)規(guī)則重要程度的指標(biāo)。關(guān)聯(lián)規(guī)則“A→B”的支持度為事務(wù)集D中A和B同時(shí)存在的事務(wù)T所占的比例。為了從所有可能的規(guī)則集中選出有用的規(guī)則需要用到各種性能指標(biāo),如:支持度、置信度、提升度、重要度、興趣度等。置信度(confidence)是一種衡量關(guān)聯(lián)規(guī)則可信程度的指標(biāo)。關(guān)聯(lián)規(guī)則“A→B”的置信度為事務(wù)集D中同時(shí)包含A和B的事務(wù)占只包含A的事務(wù)的比例。支持度范圍介于0%~100%之間,某關(guān)聯(lián)規(guī)則的支持度越大,則該規(guī)則在事務(wù)集合中出現(xiàn)的概率越大。反之,該規(guī)則出現(xiàn)的概率越小。置信度范圍介于0%至100%之間,某關(guān)聯(lián)規(guī)則的置信度越大,則該規(guī)則的結(jié)論與前提之間的相關(guān)性越強(qiáng)。反之,該規(guī)則的結(jié)論與前提之間的相關(guān)性越弱。61關(guān)聯(lián)規(guī)則屬性,

關(guān)聯(lián)規(guī)則{“冷機(jī)功率1200-1300kW”}→{“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”}練習(xí):事務(wù)序號(hào)事務(wù)內(nèi)容1“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”2“冷機(jī)功率1100-1200kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度11-12oC”3“冷機(jī)功率1600-1700kW”,“冷機(jī)冷凍出水溫度8-9oC”,“冷機(jī)冷凍回水溫度9-10oC”4“冷機(jī)功率1100-1200kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”5“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”6“冷機(jī)功率1600-1700kW”,“冷機(jī)冷凍出水溫度6-7oC”,“冷機(jī)冷凍回水溫度9-10oC”7“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”8“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度10-11oC”9“冷機(jī)功率1200-1300kW”,“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”10“冷機(jī)功率1100-1200kW”,“冷機(jī)冷凍出水溫度6-7oC”,“冷機(jī)冷凍回水溫度9-10oC”支持度計(jì)算:統(tǒng)計(jì)該關(guān)聯(lián)規(guī)則在事務(wù)集合中出現(xiàn)的次數(shù):4次(事務(wù)1,5,7和9)該關(guān)聯(lián)規(guī)則的支持度等于該規(guī)則出現(xiàn)次數(shù)4除以事務(wù)總數(shù)10,即support=40%。置信度計(jì)算:統(tǒng)計(jì)該關(guān)聯(lián)規(guī)則前提{“冷機(jī)功率1200-1300kW”}在事務(wù)集合中出現(xiàn)的次數(shù):5次(事務(wù)1,5,7,8和9)。統(tǒng)計(jì)該關(guān)聯(lián)規(guī)則在事務(wù)集合中出現(xiàn)的次數(shù):4次(事務(wù)1,5,7和9)。該關(guān)聯(lián)規(guī)則的置信度等于該關(guān)聯(lián)規(guī)則在事務(wù)集合中出現(xiàn)的次數(shù)4除以前提在事務(wù)集合中出現(xiàn)的次數(shù)5,即confidence=80%。62關(guān)聯(lián)規(guī)則屬性

強(qiáng)/弱關(guān)聯(lián)規(guī)則依據(jù)支持度閾值和置信度的閾值進(jìn)行區(qū)分。例3-9:設(shè)支持度閾值0.8,置信度閾值0.9。關(guān)聯(lián)規(guī)則1-3的支持度和置信度分別為0.85和0.95、0.25和0.55、0.45和0.95。答:關(guān)聯(lián)規(guī)則1為強(qiáng)關(guān)聯(lián)規(guī)則;關(guān)聯(lián)規(guī)則2、3為弱關(guān)聯(lián)規(guī)則(非)頻繁項(xiàng)集、頻繁項(xiàng)依據(jù)支持度閾值區(qū)分。頻繁項(xiàng)集兩個(gè)重要的性質(zhì)性質(zhì)1:頻繁項(xiàng)集的所有非空子集也是頻繁的性質(zhì)2:非頻繁項(xiàng)集的所有超集也是非頻繁的例3-10:設(shè)支持度閾值為60%。項(xiàng){“冷機(jī)冷凍出水溫度7-8oC”}支持度為70%,大于支持度閾值,是頻繁項(xiàng)。項(xiàng)集{“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”}支持度為50%,小于支持度閾值,不是頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則挖掘的步驟:(1)找出事務(wù)集合中所有的頻繁項(xiàng)集

(2)由頻繁項(xiàng)集組成強(qiáng)關(guān)聯(lián)規(guī)則。63背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱64Apriori算法

1.設(shè)支持度閾值為50%,置信度閾值為80%。2.生成所有1項(xiàng)集的集合構(gòu)成候選1項(xiàng)集,并構(gòu)成頻繁1項(xiàng)集的集合。3.對(duì)頻繁1項(xiàng)集的集合進(jìn)行連接,生成候選2項(xiàng)集的集合。對(duì)候選2項(xiàng)集的集合進(jìn)行剪枝和遍歷計(jì)數(shù),產(chǎn)生頻繁2項(xiàng)集的集合。4.判斷頻繁2項(xiàng)集的集合是否為空集,若為空集則停止迭代,若不為空集則進(jìn)入迭代(k=k+1)。65Apriori算法

5.k=2,因此對(duì)所有頻繁2項(xiàng)集進(jìn)行連接,生成候選3項(xiàng)集的集合。對(duì)候選3項(xiàng)集的集合進(jìn)行剪枝,產(chǎn)生頻繁3項(xiàng)集的集合。

8.根據(jù)每個(gè)頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。66Apriori算法

通過“自底向上”的逐層搜索策略對(duì)事務(wù)集合進(jìn)行遍歷以生成強(qiáng)關(guān)聯(lián)規(guī)則。其兩大核心:“連接”和“剪枝”

67基于Apriori的冷機(jī)控制策略識(shí)別

采用Apriori算法對(duì)以上25個(gè)樣本進(jìn)行關(guān)聯(lián)規(guī)則挖掘以揭示該冷機(jī)的冷凍閥控制策略和出水溫度設(shè)定點(diǎn)。練習(xí):樣本序號(hào)采樣時(shí)間冷機(jī)啟停冷凍閥啟停冷凍水出水溫度(oC)010/3016:20OffOff15.42110/3016:30OffOff15.43210/3016:40OffOn11.96310/3016:50OnOn8.16410/3017:00OnOn7.68510/3017:10OnOn7.58610/3017:20OnOn7.51710/3017:30OnOn7.51810/3017:40OnOn7.51910/3017:50OnOn7.511010/3018:00OnOn7.511110/3018:10OnOn7.521210/3018:20OnOn7.511310/3018:30OnOn7.491410/3018:40OnOn7.521510/3018:50OnOn7.511610/3019:00OnOn7.521710/3019:10OffOff9.31810/3019:20OffOff9.61910/3019:30OffOff10.032010/3019:40OffOff10.472110/3019:50OffOff10.792210/3020:00OffOff11.132310/3020:10OffOff11.472410/3020:20OffOff11.79由于Apriori算法僅對(duì)分類型變量有效,而表中的冷凍水出水溫度為連續(xù)型變量。因此,需要對(duì)冷凍水出水溫度進(jìn)行離散化,本例采用等寬法將該變量的數(shù)值劃分到間隔為1oC的區(qū)間。同時(shí),為便于理解,將部分變量名直接與其采樣值進(jìn)行拼接。例如若冷機(jī)啟停的采樣值為On,可以將其被轉(zhuǎn)換為“冷機(jī)On”。轉(zhuǎn)換后的冷機(jī)運(yùn)行數(shù)據(jù)見表3-21。68基于Apriori的冷機(jī)控制策略識(shí)別

69基于Apriori的冷機(jī)控制策略識(shí)別

支持度和置信度的閾值分別設(shè)置為40%和90%。70基于Apriori的冷機(jī)控制策略識(shí)別

最終得到的所有頻繁項(xiàng)集見表3-22。由頻繁項(xiàng)集生成的強(qiáng)關(guān)聯(lián)規(guī)則見表3-23。揭示出冷凍閥門的控制策略和冷凍出水溫度的設(shè)定點(diǎn):1)根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則0和5:冷凍閥門隨冷機(jī)的啟動(dòng)而打開,隨冷機(jī)的停機(jī)而關(guān)閉。2)根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則8:冷機(jī)的冷凍出水溫度設(shè)定點(diǎn)介于7-8oC之間。71背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱72頻繁模式增長(zhǎng)算法

Apriori算法本質(zhì)是時(shí)間換空間,在計(jì)算的過程中有以下缺點(diǎn):可能產(chǎn)生大量的候選集。因?yàn)椴捎门帕薪M合的方式,把可能的項(xiàng)集都組合出來了;每次計(jì)算都需要重新掃描數(shù)據(jù)集,來計(jì)算每個(gè)項(xiàng)集的支持度。Han等提出了FP-Growth算法(空間換時(shí)間):只進(jìn)行2次數(shù)據(jù)庫(kù)掃描;無候選集;直接壓縮數(shù)據(jù)庫(kù)成?個(gè)頻繁模式樹FP-tree;通過這棵樹生成關(guān)聯(lián)規(guī)則相比Apriori算法的重復(fù)掃描,它具有更高的計(jì)算效率(約快1個(gè)數(shù)量級(jí))。73頻繁模式增長(zhǎng)算法

1.設(shè)置支持度閾值為40%,置信度閾值為80%。2.遍歷事務(wù)集合,找出所有項(xiàng)并計(jì)算它們?cè)谑聞?wù)集合中的支持度,找出所有支持度大于或等于支持度閾值的項(xiàng),構(gòu)成頻繁項(xiàng)的集合。假想事務(wù)集合的項(xiàng)見表3-25,其中的頻繁項(xiàng)見表3-26。74頻繁模式增長(zhǎng)算法3.掃描原始事務(wù)集合,對(duì)每個(gè)事務(wù)創(chuàng)建根節(jié)點(diǎn)下的一個(gè)分支,最終組成一棵FP-tree。4.按頻繁項(xiàng)的支持度,由低到高依次生成對(duì)應(yīng)的條件FP-tree并對(duì)它進(jìn)行挖掘。為方便遍歷,通??梢詣?chuàng)建一個(gè)降序排序的頻繁項(xiàng)項(xiàng)頭表,每個(gè)頻繁項(xiàng)通過節(jié)點(diǎn)鏈連接FP-tree中的一個(gè)或多個(gè)節(jié)點(diǎn)。75頻繁模式增長(zhǎng)算法

76頻繁模式增長(zhǎng)算法

5.輸出所有頻繁項(xiàng)集。6.根據(jù)每個(gè)頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則,生成過程參照Apriori算法的第八步。77基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

采用FP-growth算法對(duì)以上24個(gè)樣本進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以旨在揭示該教室在使用過程中的照明能源浪費(fèi)行為。練習(xí):78基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

使用FP-growth算法對(duì)表中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘。支持度和置信度的閾值分別設(shè)置為30%和90%。79基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

構(gòu)建“課程有”的條件FP-tree并進(jìn)行遞歸挖掘,得到頻繁項(xiàng)集。構(gòu)建“房間空閑”的條件FP-tree進(jìn)行遞歸挖掘,得到頻繁項(xiàng)集。80基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

構(gòu)建“時(shí)間段晚上”的條件FP-tree并進(jìn)行遞歸挖掘得到頻繁項(xiàng)集。構(gòu)建“燈光開啟”的條件FP-tree進(jìn)行遞歸挖掘,得到頻繁項(xiàng)集。81基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

構(gòu)建“燈光關(guān)閉”的條件FP-tree并進(jìn)行遞歸挖掘得到頻繁項(xiàng)集?!胺块g占用”的條件模式基不存在頻繁項(xiàng),因此不存在條件FP-tree,其頻繁項(xiàng)集只有它本身。82基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

“課程無”不存在條件模式基,其頻繁項(xiàng)集只有它本身。最終得到的所有頻繁項(xiàng)集見表3-40。由頻繁項(xiàng)集生成的強(qiáng)關(guān)聯(lián)規(guī)則見表3-41.83基于FP-growth的教室照明能源浪費(fèi)行為識(shí)別

最終的關(guān)聯(lián)規(guī)則中應(yīng)該含有時(shí)間段、房間占用情況、課程和燈光的取值情況。時(shí)間段、房間占用情況和課程直接導(dǎo)致燈光開啟與否。因此,這三個(gè)變量應(yīng)該包含在前提中,而燈光應(yīng)該包含在結(jié)論中。符合這一條件的強(qiáng)關(guān)聯(lián)規(guī)則僅有一條,即關(guān)聯(lián)規(guī)則22。84背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱85關(guān)聯(lián)規(guī)則應(yīng)用案例[1]ZhangC,XueX,ZhaoY,ZhangX,LiT.Animprovedassociationrulemining-basedmethodforrevealingoperationalproblemsofbuildingheating,ventilationandairconditioning(HVAC)systems.ApplEnergy2019;253./10.1016/j.apenergy.2019.113492.[2]ZhangC,ZhaoY,ZhangX.AnAssociationRule-BasedOnlineDataAnalysisMethodforImprovingBuildingEnergyEfficiencyBT-Proceedingsofthe11thInternationalSymposiumonHeating,VentilationandAirConditioning(ISHVAC2019).In:WangZ,ZhuY,WangF,WangP,ShenC,LiuJ,editors.,Singapore:SpringerSingapore;2020,p.375–83.DiscoveringabnormaloperationpatternsofHVACsystemsusingAssociationRule86136measuredvariablesforchillerplants5minutessamplinginterval40thousandmeasurementsperday14millionmeasurementsperyearAHVACsysteminacommercialcenterinShenzhen(chillerplants)Valuableinformation?項(xiàng)目簡(jiǎn)介87The

dataismeasuredfromthechillerplantsoftheHVACsysteminacommercialcenterinShenzhen,China.項(xiàng)目簡(jiǎn)介88136measuredvariables:TemperatureHumidityPowerFrequencyControlsignalDataproblem:MissingvaluesOutliers……項(xiàng)目簡(jiǎn)介89TransactionIDItemsT1beef,chicken,milk,cheeseT2beef,cheeseT3beef,cheese,bootT4beef,chicken,cheeseT5beef,chicken,cheese,milkT6chicken,clothes,milkCan

betheassociationruleminingusedtotheoperationdataoftheHVACsystem?NumericalCategoricalTransformthenumericalmeasurementsintocategoricalmeasurements.數(shù)據(jù)轉(zhuǎn)換90ThedatatransformationmethodTimeTSCOW2016/3/10:0918.92016/3/11:0918.82016/3/12:0918.8……2016/9/42:5029.62016/9/42:5529.62016/9/43:0029.6……DensitySupplycoolingwatertemperature(℃)ProbabilitydensityfunctionThe

probability

that

thetemperatureis30℃is14%.

Statisticalmethod數(shù)據(jù)轉(zhuǎn)換91ThedatatransformationmethodDensitySupplycoolingwatertemperature(℃)CharacteristicsoftheprobabilitydestinyfunctionPeaksandvalleysareexisted.Thedestinyofsomemeasurementsisverysmall.Somepeaksmaybecausedbynoises.PeakValleyOutliersNoise

Transformthemeasurementsaroundthesamepeakintothesameform.數(shù)據(jù)轉(zhuǎn)換92ThedatatransformationmethodDensitySupplycoolingwatertemperature(℃)CharacteristicsoftheprobabilitydestinyfunctionPeaksandvalleysareexisted.Thedestinyofsomemeasurementsisverysmall.Somepeaksmaybecausedbynoises.

Transformthemeasurementsaroundthesamepeakintothesameform.DeletetheoutliersDatacategoryCategory1Category2Category3Category4CategorymergingCategory3數(shù)據(jù)轉(zhuǎn)換93TheresultforatypicalcontinuousvariableTimeTSCOW……2016/3/1611:0515.5……2016/3/2016:1920.9……2016/9/42:5529.6……TSCOW…TSCOW,OTCT

_8.9_18.4…TSCOW,OTCT

_18.4_23.1…TSCOW,OTCT

_23.1_33.0…OriginaldataTransformeddataDatatransformationSupplycoolingwatertemperatureTSCOW(℃)Density15.520.929.6SupplycoolingwatertemperatureTSCOW數(shù)據(jù)轉(zhuǎn)換94TheresultforatypicalnoncontinuousvariableTimeFCHWP4……2016/3/19:0144.7……2017/3/1812:4035.4……2016/8/1417:350……2016/9/69:2541……OriginaldataTransformeddataDatatransformationFCHWP4(Hz)DensityFrequencyofthefourthchilledwaterpumpFCHWP4FCHWP4…FCHWP4_44.7_45.6…FCHWP4_34.9_36.0…FCHWP4_0.0_1.7…FCHWP4_39.9_42.2…035.444.741數(shù)據(jù)轉(zhuǎn)換95Totalknowledge:2514one-to-onerules({onevariable}{onevariable})AbnormalpatternofHVACsystems=InterestingruleChiller1Chiller2Chiller3Chiller46.1℃12.1℃6.2℃8.4℃6.5℃11.9℃5.9℃12.9℃規(guī)則挖掘96Only1411

rules(56%ofthetotalrules)areleft.…TSCHW,

C1

_5.9_8.3TRCHW,

C1

_11.9_13.4TSCHW,

C2

_5.7_7.6TRCHW,

C2

_8.1_10.1TSCHW,

C3

_6.1_8.7TRCHW,

C3

_10.9_13.5TSCHW,

C4

_6.0_8.5TRCHW,

C4

_11.2_13.9…………PC1

_27.1_37.4TSCHW,

C1

_5.9_8.3FCHWP1

_40.1_41.4FCHWP2

_41.1_42.1TSCOW1

_12.1_15.7TRCOW1

_17.1_20.2TSCHW,

C1

_5.9_8.3TRCHW,

C1

_11.9_13.4TSCHW,

C2

_5.7_7.6TRCHW,

C2

_8.1_10.1TSCHW,

C3

_6.1_8.7TRCHW,

C3

_10.9_13.5TSCHW,

C4

_6.0_8.5TRCHW,

C4

_11.2_13.90.250.390.320.870.760.85TSCHW,

C1

_0.07_0.87TRCHW,

C1

_0.66_0.91TSCHW,

C2

_0_0.63TRCHW,

C2

_0_0.34TSCHW,

C3

_0.13_1TRCHW,

C3

_0.48_0.93TSCHW,

C4

_0.1_0.93TRCHW,

C4

_0.53_1Associationrules規(guī)則挖掘97supplychilledwatertemperaturereturnchilledwatertemperatureAbnormalpattern1:Thesupplychilledwatertemperatureishigherthanthereturnwatertemperatureforthethirdandfourthchillers.TRCHW,CC3&4_4.8_8.6TSCHW,CC3&4_11.5_19.6AbnormalruleNormalruleTRCHW,CC1&2_6.4_12.6TSCHW,CC1&2_4.6

_9.7returnchilledwatertemperaturesupplychilledwatertemperatureTheresultsoftheruleextractionmethod規(guī)則挖掘98Abnormalpattern2:Thereturnchilledwatertemperatureoftheseconddistrictisusuallyhigherthanthatofthefirstdistrict.TRCHW,D1_8.8_14.0TRCHW,D2_11.2

_21.5AbnormalruleNormalruleTRCHW,D1_8.8_14.0TRCHW,D3_8.6

_13.3returnchilledwatertemperatureoftheseconddistrictreturnchilledwatertemperatureofthefirstdistrictreturnchilledwatertemperatureofthethirddistrictTheresultsoftheruleextractionmethod規(guī)則挖掘99背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱100引言無監(jiān)督學(xué)習(xí)本身不具有解釋知識(shí)的能力,需要借助專家的工程經(jīng)驗(yàn)對(duì)無監(jiān)督學(xué)習(xí)得到的知識(shí)進(jìn)行深度解讀后,才能提取出知識(shí)背后的價(jià)值。能源領(lǐng)域常用的三種知識(shí)后挖掘方法:知識(shí)可視化、知識(shí)降維、知識(shí)篩選。聚類:散點(diǎn)圖、折線圖、熱圖、箱型圖和小提琴圖;關(guān)聯(lián)規(guī)則挖掘:因?yàn)橐?guī)則本身具有可解釋性,因此一般不需要對(duì)其進(jìn)行可視化;關(guān)聯(lián)規(guī)則的數(shù)量巨大,進(jìn)行可視化十分困難。知識(shí)降維常用于對(duì)高維空間中的聚類結(jié)果進(jìn)行可視化,通過線性或非線性映射將高維空間的聚類結(jié)果映射到低維空間。知識(shí)篩選通過預(yù)先設(shè)定準(zhǔn)則,自動(dòng)剔除海量知識(shí)中的無用知識(shí),大幅提高知識(shí)的價(jià)值濃度,助力專家實(shí)現(xiàn)更高效和更精準(zhǔn)的知識(shí)解讀。101聚類后挖掘-聚類結(jié)果可視化散點(diǎn)圖:聚類結(jié)果可視化的首選,可以顯示二維和三維樣本在空間中的分布情況。102聚類后挖掘-聚類結(jié)果可視化箱型圖:對(duì)不同維度聚類結(jié)果單獨(dú)進(jìn)行可視化。中位數(shù)和上下四分位數(shù)需要通過對(duì)樣本進(jìn)行升序排序得到,排在第25%、第50%、第75%的數(shù)稱為下四分位數(shù)(Q1)、中位數(shù)(Q2)和上四分位數(shù)(Q3)。四分位距IQR=Q3-Q1,上邊緣(Q3+1.5IQR)和下邊緣(Q3-1.5IQR)。上下邊緣并非最大最小值,而是通過大量統(tǒng)計(jì)實(shí)驗(yàn)得到的正常樣本范圍,超出這一范圍的樣本通常為異常值。103聚類后挖掘-聚類結(jié)果可視化表3-42為35個(gè)住宅建筑的年分項(xiàng)用電負(fù)荷。每個(gè)建筑記錄了6項(xiàng)用電負(fù)荷。1)由于表中不同用電負(fù)荷取值范圍之間差異較大,在聚類前需要對(duì)表中數(shù)據(jù)進(jìn)行最大最小歸一化。2)使用k-means算法對(duì)表中的住宅分項(xiàng)用能負(fù)荷進(jìn)行聚類,旨在揭示不同建筑的用能特征。3)根據(jù)輪廓系數(shù)對(duì)聚類數(shù)進(jìn)行優(yōu)化,最佳聚類數(shù)為3,最終的聚類結(jié)果見右表。練習(xí):104聚類后挖掘-聚類結(jié)果可視化基于箱型圖,可以很直觀地看出不同聚類簇中的分項(xiàng)用電負(fù)荷高低。105聚類后挖掘-聚類結(jié)果可視化小提琴圖:展示了變量在任意取值位置出的密度(箱型圖的一種改進(jìn))。小提琴圖在展示分位數(shù)位置的同時(shí),也展示了變量在不同取值時(shí)的出現(xiàn)頻率。相較于箱型圖,小提琴圖可以提供更詳細(xì)的數(shù)據(jù)分布信息。106聚類后挖掘-聚類結(jié)果可視化折線圖:時(shí)序樣本的聚類任務(wù)表3-43為某辦公建筑14天的小時(shí)冷負(fù)荷數(shù)據(jù)。使用k-means算法對(duì)表中的日負(fù)荷曲線進(jìn)行聚類。根據(jù)輪廓系數(shù)對(duì)聚類數(shù)進(jìn)行優(yōu)化,最佳聚類數(shù)為2。9/2、9/3、9/9和9/10的日負(fù)荷曲線被歸為聚類簇1,其余負(fù)荷曲線歸為聚類簇2。練習(xí):107聚類后挖掘-聚類結(jié)果可視化聚類簇1冷負(fù)荷曲線顯著低于聚類簇2:由于聚類簇1中的冷負(fù)荷曲線采集自周末,而聚類簇2中冷負(fù)荷曲線采集自工作日。部分員工周末不上班,因此周末的冷負(fù)荷顯著低于工作日。108聚類后挖掘-聚類結(jié)果可視化熱圖:時(shí)序樣本聚類結(jié)果的同時(shí)使用顏色深淺來表示目標(biāo)變量數(shù)值高低。使用熱圖對(duì)表3-43中數(shù)據(jù)的聚類結(jié)果進(jìn)行可視化。練習(xí):相比折線圖3-35,熱圖3-36和3-37還可以呈現(xiàn)出不同日期的冷負(fù)荷分布,因此能夠反映更多信息。但是熱圖不如折線圖直觀,可讀性較差。109聚類后挖掘-聚類結(jié)果降維t-SNE的基本思想是保證高維空間中距離相近的樣本映射到低維空間時(shí)距離也相近。降維后的聚類結(jié)果損失原有聚類變量物理意義,所以僅能提供聚類結(jié)果的可視化圖表無法進(jìn)行解釋。1.設(shè)存在N個(gè)高維聚類樣本,構(gòu)建之間的概率分布P。110聚類后挖掘-聚類結(jié)果降維2.設(shè)存在N個(gè)低維(通常為二維或三維),它們的概率分布Q如下式所示:3.使用梯度下降算法最小化低維分布Q與高維分布P之間的KL散度。KL散度定義如下:使用t-SNE對(duì)表3-40中數(shù)據(jù)的聚類結(jié)果進(jìn)行降維,維度設(shè)置為2。練習(xí):111背景聚類定義與基本原理原型聚類(以k-means算法為代表)密度聚類(以DBSCAN為代表)層次聚類(以AGNES為代表)關(guān)聯(lián)規(guī)則挖掘定義與基本原理Apriori算法FP-growth算法應(yīng)用案例知識(shí)后挖掘聚類后挖掘關(guān)聯(lián)規(guī)則后挖掘提綱112關(guān)聯(lián)規(guī)則后挖掘

基于變量約束的篩選若分析人員對(duì)知識(shí)目標(biāo)明確,可以人為對(duì)關(guān)聯(lián)規(guī)則前提和結(jié)論的變量進(jìn)行約束僅適用于變量組合數(shù)較少,不適用于變量組合數(shù)巨大的關(guān)聯(lián)規(guī)則挖掘任務(wù)?;谠u(píng)價(jià)指標(biāo)的篩選提升度(lift)能夠反映前提A對(duì)結(jié)論B出現(xiàn)概率的提升作用,從而判斷兩者是否存在相關(guān)性。通常認(rèn)為提升度大于1的關(guān)聯(lián)規(guī)則更有價(jià)值。關(guān)聯(lián)規(guī)則為{“冷機(jī)功率1200-1300kW”}→{“冷機(jī)冷凍出水溫度7-8oC”,“冷機(jī)冷凍回水溫度9-10oC”}

練習(xí):答:1.計(jì)算該關(guān)聯(lián)規(guī)則的結(jié)論在前提條件下的發(fā)生概率,可知發(fā)生概率為4/5=80%。2.計(jì)算該關(guān)聯(lián)規(guī)則的結(jié)論,可知它在事務(wù)集中的發(fā)生概率為5/10=50%。3.該關(guān)聯(lián)規(guī)則的提升度等于上述兩個(gè)概率的比值,即lift=80%/50%=1.6。113通過聚類等算法,分析建筑運(yùn)行數(shù)據(jù),發(fā)現(xiàn)典型工況提交說明文檔和代碼文件:說明文檔需介紹使用的聚類方法和關(guān)鍵細(xì)節(jié),模型的輸入,最終結(jié)論等(展示發(fā)現(xiàn)的典型工況并作出解釋)課后作業(yè)歡迎交流!監(jiān)督學(xué)習(xí)方法上能源系統(tǒng)大數(shù)據(jù)分析理論與實(shí)踐第四節(jié)116背景能源預(yù)測(cè)是指對(duì)各種能源的需求量及其比例關(guān)系的未來狀況的推測(cè)。能源預(yù)測(cè)的主要內(nèi)容有:煤炭、石油、天然氣、薪柴、核電等各種能源的未來需求量各種能源需求量之間的比例關(guān)系生活能耗和生活人均能耗…能源預(yù)測(cè)按供需關(guān)系分,包括能源需求預(yù)測(cè)和能源供應(yīng)預(yù)測(cè)兩個(gè)方面。前者是根據(jù)社會(huì)和國(guó)民經(jīng)濟(jì)發(fā)展目標(biāo),經(jīng)濟(jì)結(jié)構(gòu)的調(diào)整,科學(xué)技術(shù)的進(jìn)步,能源價(jià)格的趨勢(shì)以及消費(fèi)方式的變化估計(jì)未來規(guī)劃年份國(guó)民經(jīng)濟(jì)各部門所需要的能源數(shù)量及能源品種的構(gòu)成;后者是根據(jù)能源資源可獲得性及其開發(fā)利用的工藝技術(shù)條件,能源價(jià)格的趨勢(shì)和能源投資與外貿(mào)的前景,預(yù)測(cè)未來規(guī)劃年份能源分品種的供應(yīng)量及能源供應(yīng)的技術(shù)構(gòu)成。背景通過能源預(yù)測(cè),可以建立能源消耗與環(huán)境保護(hù)之間的關(guān)系,結(jié)合環(huán)境保護(hù)要求,有針對(duì)性地調(diào)整能源結(jié)構(gòu)和工業(yè)布局,達(dá)到經(jīng)濟(jì)與環(huán)境的協(xié)調(diào)發(fā)展。對(duì)建筑能耗進(jìn)行可靠的預(yù)測(cè)是實(shí)現(xiàn)建筑能耗管理任務(wù)的重要基礎(chǔ),包括:能耗異常發(fā)現(xiàn)故障檢測(cè)與診斷需求側(cè)管理控制優(yōu)化運(yùn)行能源規(guī)劃調(diào)度…背景基于物理模型的方法利用建筑本身的物理特性和傳熱原理,通過仿真軟件建立建筑的熱力學(xué)模型來模擬建筑實(shí)際運(yùn)行中的能耗過程,從而實(shí)現(xiàn)準(zhǔn)確的能耗預(yù)測(cè)。目前應(yīng)用最多的物理建模軟件有EnergyPlus、TRNSYS、DeST等。在利用熱力學(xué)原理建立理想化的建筑運(yùn)行模型時(shí),需要輸入大量的建筑參數(shù)和環(huán)境參數(shù),建模時(shí)間成本較高。同時(shí),由于實(shí)際工程中不同建筑的建筑參數(shù)和環(huán)境參數(shù)均不相同,每一棟建筑都需要重新建立物理模型來進(jìn)行能耗預(yù)測(cè)。背景建筑能耗預(yù)測(cè)方法可分為兩類:基于物理模型的方法和數(shù)據(jù)驅(qū)動(dòng)的方法基于數(shù)據(jù)驅(qū)動(dòng)的方法通過對(duì)歷史數(shù)據(jù)的挖掘來實(shí)現(xiàn)對(duì)建筑能耗的預(yù)測(cè)。該方法摒棄了物理建模大量參數(shù)輸入的弊端,將收集到的建筑能耗相關(guān)數(shù)據(jù)作為輸入,對(duì)應(yīng)的能耗作為輸出,訓(xùn)練得到對(duì)應(yīng)的數(shù)據(jù)驅(qū)動(dòng)的能耗預(yù)測(cè)模型,該建模方式比較簡(jiǎn)潔且預(yù)測(cè)精度高,在建立好算法模型后便可依據(jù)建筑相關(guān)數(shù)據(jù)來進(jìn)行預(yù)測(cè),增加了模型的可復(fù)制性。常見的數(shù)據(jù)驅(qū)動(dòng)方法有:人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)支持向量機(jī)(SupportVectorMachine,SVM)決策樹(DecisionTree,DT)…背景122提綱總論特征工程模型選擇與優(yōu)化模型評(píng)價(jià)方法模型解讀監(jiān)督學(xué)習(xí)基礎(chǔ)概念監(jiān)督學(xué)習(xí)通過學(xué)習(xí)若干輸入變量的協(xié)同關(guān)系對(duì)輸出變量進(jìn)行預(yù)測(cè)。根據(jù)輸出變量的數(shù)據(jù)類型,可以分為回歸模型和分類模型;監(jiān)督學(xué)習(xí)包含各類統(tǒng)計(jì)和機(jī)器學(xué)習(xí)建模算法,常見算法包括:在實(shí)踐中并非采用越復(fù)雜的監(jiān)督學(xué)習(xí)算法效果越好,應(yīng)從數(shù)據(jù)源質(zhì)量、計(jì)算能力和解讀需求等多角度出發(fā)選擇最合適的算法。Output人工神經(jīng)網(wǎng)絡(luò)支持向量回歸123能源領(lǐng)域典型應(yīng)用場(chǎng)景監(jiān)督學(xué)習(xí)算法典型能源應(yīng)用場(chǎng)景:124典型能源應(yīng)用場(chǎng)景實(shí)例——故障診斷與檢測(cè)建筑系統(tǒng)在運(yùn)行過程中存在多種故障,會(huì)導(dǎo)致室內(nèi)溫度失調(diào)、空氣品質(zhì)降低、設(shè)備能耗增加等問題,嚴(yán)重時(shí)甚至?xí)l(fā)安全事故:冷媒循環(huán)回風(fēng)溫度傳感器溫度傳感器表冷器壓縮機(jī)膨脹閥蒸發(fā)器冷卻塔冷凝器送風(fēng)放熱吸熱放熱末端(空氣-空氣)冷水機(jī)組(水-制冷劑-水)新風(fēng)排風(fēng)空氣處理機(jī)組(水-空氣)7種主要隱性故障制冷劑泄漏存在不凝結(jié)氣體冷凝器結(jié)垢冷卻水流量過少制冷劑充注過多冷凍水流量過少蒸發(fā)器結(jié)垢

68種故障新風(fēng)風(fēng)閥故障混風(fēng)風(fēng)閥故障表冷器閥門故障加熱器閥門故障…10種故障風(fēng)閥閥門故障流量傳感器故障溫度傳感器故障控制器故障…125典型能源應(yīng)用場(chǎng)景實(shí)例——故障診斷與檢測(cè)根據(jù)美國(guó)RP-1403項(xiàng)目調(diào)研,冷水機(jī)組典型故障可以總結(jié)為7類,運(yùn)行中往往難以察覺:冷卻水不足制冷劑充注過量不凝性氣體冷凝器結(jié)垢16.2%21.3%20.0%8.2%制冷劑泄露蒸發(fā)器結(jié)垢126典型能源應(yīng)用場(chǎng)景實(shí)例——故障診斷與檢測(cè)據(jù)美國(guó)RP-1312項(xiàng)目統(tǒng)計(jì),一個(gè)典型的AHU中共有68類故障[1]:6個(gè)受控設(shè)備有25類故障5個(gè)設(shè)備中有11類故障8個(gè)控制器中有8類故障12個(gè)傳感器中有24類故障案例:阿姆斯特丹博物館AHU故障冷卻盤管閥持續(xù)處于最大開度,熱水負(fù)荷抵消了冷水負(fù)荷。室內(nèi)環(huán)境溫度沒有受到影響,持續(xù)三周后才被發(fā)現(xiàn),浪費(fèi)了大量的能源冷負(fù)荷熱負(fù)荷[1]J.WenandS.Li,2011.ASHRAE1312-RP:ToolsforEvaluatingFaultDetectionandDiagnosticMethodsforAir-HandlingUnits-Finalreport,DrexelUniversity,PA,UnitedStates.127典型能源應(yīng)用場(chǎng)景實(shí)例——故障診斷與檢測(cè)[1]J.Y.Qin,S.W.Wang,AfaultdetectionanddiagnosisstrategyofVAVair-conditioningsystemsforimprovedenergyandcontrolperformances,EnergyandBuildings37(2005)1035-1048.一個(gè)典型VAVBox有10類故障,香港理工團(tuán)隊(duì)對(duì)香港某商用建筑的1251個(gè)VAVbox核查,發(fā)現(xiàn)20.9%存在故障[1]:期望故障征兆調(diào)適實(shí)際變風(fēng)量系統(tǒng)風(fēng)閥卡死冷/熱量不足定風(fēng)量系統(tǒng)調(diào)整送風(fēng)溫度實(shí)際應(yīng)用中,大部分變風(fēng)量系統(tǒng)最終變成了定風(fēng)量系統(tǒng)128129典型能源應(yīng)用場(chǎng)景實(shí)例——故障診斷與檢測(cè)數(shù)據(jù)驅(qū)動(dòng)的監(jiān)督學(xué)習(xí)模型原理:基于歷史數(shù)據(jù),通過分類算法建立起征兆與故障的潛在關(guān)系神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)故障診斷支持向量機(jī)實(shí)現(xiàn)故障診斷相比傳統(tǒng)人工方法,自動(dòng)化水平高,人力和時(shí)間成本大大降低基于監(jiān)督學(xué)習(xí)的預(yù)測(cè)建模流程監(jiān)督學(xué)習(xí)算法“五步走”建模流程:數(shù)據(jù)預(yù)處理、特征工程、模型設(shè)計(jì)與優(yōu)化、模型表現(xiàn)評(píng)估和模型解讀基于監(jiān)督學(xué)習(xí)的預(yù)測(cè)建模過程示意圖130131提綱總論特征工程模型選擇與優(yōu)化模型評(píng)價(jià)方法模型解讀引言輸入變量對(duì)監(jiān)督學(xué)習(xí)算法影響很大,需要使用特征工程從原始數(shù)據(jù)中構(gòu)建模型的輸入變量,提高算法精度:特征工程方法總述132引言133ANN輸出冷負(fù)荷預(yù)測(cè)區(qū)間輸入量重要性排序ZhangC,ZhaoY,FanC,LiT,ZhangX,LiJ.Agenericpredictionintervalestimationmethodforquantifyingtheuncertaintiesinultra-short-termbuildingcoolingloadprediction.ApplThermEng2020;173./10.1016/j.applthermaleng.2020.115261.基于專家知識(shí)的特征篩選方法原理:基于專家對(duì)預(yù)測(cè)任務(wù)的理解,手動(dòng)篩選特征變量缺點(diǎn):理解難度高,專業(yè)性強(qiáng);批量化建模耗時(shí)耗力。134能效水平預(yù)測(cè)專家判斷示例基于變量相關(guān)性的特征篩選方法原理:采用統(tǒng)計(jì)方法計(jì)算輸出和輸入變量間的相關(guān)性

類別型輸入連續(xù)型輸入類別型輸出克萊姆V系數(shù)點(diǎn)二列相關(guān)系數(shù)、邏輯回歸連續(xù)型輸出方差分析(ANOVA)、點(diǎn)二列相關(guān)系數(shù)皮爾森相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)135基于變量相關(guān)性的特征篩選方法匯總連續(xù)數(shù)值型輸入輸出變量的相關(guān)性計(jì)算方法皮爾森相關(guān)系數(shù)(Pearsoncorrelationc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論