受限玻爾茲曼機(jī)學(xué)習(xí)筆記(一)預(yù)備知識(shí)_第1頁(yè)
受限玻爾茲曼機(jī)學(xué)習(xí)筆記(一)預(yù)備知識(shí)_第2頁(yè)
受限玻爾茲曼機(jī)學(xué)習(xí)筆記(一)預(yù)備知識(shí)_第3頁(yè)
受限玻爾茲曼機(jī)學(xué)習(xí)筆記(一)預(yù)備知識(shí)_第4頁(yè)
受限玻爾茲曼機(jī)學(xué)習(xí)筆記(一)預(yù)備知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、受限波爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)是一種可用隨機(jī)神經(jīng)網(wǎng)絡(luò) (stochastic neural network)來(lái)解釋的概率圖模型(probabilistic graphical model).它由 Smolensky于1986年在波爾茲曼機(jī)(Boltzmann Machine, BM)的基礎(chǔ)上提出,所謂“隨 機(jī)”,是指這種網(wǎng)絡(luò)中的神經(jīng)元是隨機(jī)神經(jīng)元,其輸出只有兩種狀態(tài)(未激活、激活),一般用 二進(jìn)制的0和1來(lái)表示,而狀態(tài)的具體取值則根據(jù)概率統(tǒng)計(jì)法則來(lái)決定(3).隨著計(jì)算機(jī)計(jì)算能力的迅速提高和快速算法的不斷發(fā)展,RBM在各種相關(guān)機(jī)器學(xué)習(xí)算 法中

2、已經(jīng)變得實(shí)際可行.尤其是 在Hinton于2006年提出了以RBM為基本構(gòu)成模塊的 DBN (Deep Belief Network)模型之后,機(jī)器學(xué)習(xí)界更是掀起了一股研究RBM理論及應(yīng)用 的熱潮.RBM模型涉及的知識(shí)點(diǎn)較多,本文主要針對(duì)RBM的網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)學(xué)模型以及快速訓(xùn) 練算法進(jìn)行介紹,且重點(diǎn)放在一些數(shù)學(xué)公式的推導(dǎo)及具體算法的描述上.1預(yù)備知識(shí)本節(jié)的預(yù)備知識(shí)相對(duì)獨(dú)立,僅供參考,讀者可以先跳過(guò)本節(jié):閱讀過(guò)程中碰到相關(guān)問(wèn)題 再回過(guò)頭來(lái)查閱.1.1 sigmoid 函數(shù)sigmoid函數(shù)是神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)之一,其定義為sigmoid) =1,(1.1)J- I e該函數(shù)的定義域?yàn)?-oo

3、:+oc),值域?yàn)?0,1).圖1給出了 sigmoid函數(shù)的圖像.圖1 sigmoid函數(shù)的圖像(1.2)(1.3)(1.4)1.2 Bayes 定理貝葉斯定理是英國(guó)數(shù)學(xué)家貝葉斯(Thomas Bayes)提出來(lái)的,用來(lái)描述兩個(gè)條件概率之 間的關(guān)系.若記P(B)分別表示事件A和事件B發(fā)生的概率,P(AB)表示事件B 發(fā)生的情況下事件A發(fā)生的概率,表示事件4 B同時(shí)發(fā)生的概率,則有時(shí))P(B) 5利用(1.2)和(1.3):進(jìn)一步可得風(fēng)4|切=尸(&羯巳這就是貝葉斯公式.在(1.4)中,我們把PQ4)稱為“先驗(yàn)概率” (Prior probability),即在事件B發(fā)生之前:我 們對(duì)事件山發(fā)

4、生概率的一個(gè)判斷.P(AB)稱為“后驗(yàn)概率” (Posterior probability),即在事 件B發(fā)生之后,我們對(duì)事件A發(fā)生概率的重新評(píng)估.稱為“可能性函數(shù)” (Likelyhood), 這是一個(gè)調(diào)整因子:使得預(yù)估概率更接近真實(shí)概率(6).二分圖(bipartite graph)又稱二部圖、雙分圖或偶圖,是圖論中的一種特殊模型.設(shè) G =(吒E)是一個(gè)無(wú)向圖,如果頂點(diǎn)V可分割為兩個(gè)互不相交的子集峪和協(xié),并且圖中的 每條邊0項(xiàng))所關(guān)聯(lián)的兩個(gè)頂點(diǎn)i和j分別屬于這兩個(gè)不同的頂點(diǎn)集,即ie Vuj 仍,或 者ie V2J G崎,則稱圖G為一個(gè)二分圖.1.4 MCMC 方法(2)最早的蒙特卡羅方

5、法是由物理學(xué)家發(fā)明的,旨在于通過(guò)隨機(jī)化的方法計(jì)算積分.假設(shè)給 定函數(shù)九(游,我們想計(jì)算如下的積分f h(x)dx.(1.5)J a如果我們無(wú)法通過(guò)數(shù)學(xué)推導(dǎo)直接求出解析解,那么)為了避免對(duì)區(qū)間(Q0)上所有的 值進(jìn)行枚舉(多數(shù)情況下這也是不可能的),我們可以將煩%)分解為某個(gè)函數(shù)/(游和一個(gè)定 義在(Q,b)上的概率密度函數(shù)p(x)的乘積.這樣整個(gè)積分就可以寫(xiě)成rbf*b/ hxdx = / f(x)p(x)dx = Ep(rE)/(rr).(1.6)J aJ a這樣一來(lái),原積分就等同于在夙對(duì)這個(gè)分布上的均值.這時(shí):如果我們從分布說(shuō)%) 上采集大量的樣本點(diǎn)1,皿 ,rrn,這些樣本符合分布p(z

6、),即對(duì)V如有(17)2=1那么,我們就可以通過(guò)這些樣本來(lái)逼近這個(gè)均值/ h(x)dx = Ep(M/(z)七一 以豹)(L8)Jan i=i這就是蒙特卡羅方法的基本思想.近年來(lái),隨著隨機(jī)化模型的流行,蒙特卡羅方法在機(jī) 器學(xué)習(xí)領(lǐng)域有著越來(lái)越廣泛的應(yīng)用.假如我們現(xiàn)在已經(jīng)定義好分布夙對(duì),那么,蒙特卡羅方法的一個(gè)核心問(wèn)題是:如何從這 個(gè)分布上采集樣本?一般來(lái)講,對(duì)于經(jīng)典的分布,例如對(duì)于均勻分布和正態(tài)分布等,都已有比較成熟的算法可 以快速地直接生成該分布下的無(wú)偏(unbiased)樣本.然而,對(duì)于任意的分布,我們并不能做 到這一點(diǎn).那么,如何在任意分布下采樣呢?這就是馬爾可夫鏈蒙特卡羅方法(Marko

7、v chain Monte Carlo, MCMC)需要解決的問(wèn)題.簡(jiǎn)單來(lái)說(shuō):MCMC的基本思想就是利用馬爾可夫鏈來(lái)產(chǎn)生指定分布下的樣本.為此, 先簡(jiǎn)單介紹一下馬爾可夫鏈的基本知識(shí).設(shè)Xt表示隨機(jī)變量X在離散時(shí)間t時(shí)刻的取值.若該變量隨時(shí)間變化的轉(zhuǎn)移概率僅 僅依賴于它的當(dāng)前取值,即P(Xt+i = SjXQ = %Xi = s如,Xt = Si) = P(Xt+i = SjXt = sj,則稱這個(gè)變量為馬爾可夫變量.其中s知,e Q為隨機(jī)變量X可能的狀態(tài).這個(gè) 性質(zhì)稱為馬爾可夫性質(zhì),具有馬爾可夫性質(zhì)的隨機(jī)過(guò)程稱為馬爾可夫過(guò)程.由(1.9)可知,對(duì)于一個(gè)馬爾可夫隨機(jī)變量,我們只需知道其當(dāng)前的取值

8、,就足以充分 預(yù)測(cè)其未來(lái)的變化趨勢(shì).而所謂的馬爾可夫鏈就是指一段時(shí)間內(nèi)隨機(jī)變量X的取值序列 (Xo,Xi,,Xm),它們符合條件(1.9).一般來(lái)說(shuō),一個(gè)馬爾可夫鏈可通過(guò)其對(duì)應(yīng)的轉(zhuǎn)移概率來(lái)定義.所謂的轉(zhuǎn)移概率,是指隨 機(jī)變量從一個(gè)時(shí)刻到下一個(gè)時(shí)刻,從狀態(tài)&轉(zhuǎn)移到另一個(gè)狀態(tài)Sj的概率即(1.10)P(0 J):= Pi,j = P(X*1 = SjXt = Si)若記理表示隨機(jī)變量X在時(shí)刻t取值Sk的概率,則X在時(shí)刻t + 1取值為&的概補(bǔ)中)=”+1 = &)= P(X*i =我區(qū)=%) P(K = sk)設(shè)狀態(tài)的數(shù)目為心則根據(jù)(1.11),有(祥+氣.,7T腫)=(冗也,酒R,i如尸1,2

9、Pl,n3,2我71上式也可寫(xiě)成矩陣向量形式(1.12)其中冗=(*), . /$), r = t,t+l為行向量,P = (Pij)nxn為轉(zhuǎn)移概率矩陣.如果存在某個(gè)取值,從它出發(fā)轉(zhuǎn)移回自身所需要的轉(zhuǎn)移次數(shù)總是整數(shù)( 1)的倍數(shù),那 么這個(gè)馬爾可夫過(guò)程就具有周期性(Periodic).如果任意兩個(gè)取值之間總是能以非零的概率 相互轉(zhuǎn)移,那么該馬爾可夫過(guò)程就稱為不可約(Irreducible)(-不可約”是指每一個(gè)狀態(tài)都可 來(lái)自任意的其它狀態(tài)).如果一個(gè)馬爾可夫過(guò)程既沒(méi)有周期性,又不可約,則稱它是各態(tài)遍歷 的(Ergodic).對(duì)于各態(tài)遍歷的馬爾可夫過(guò)程,不論招)取何值,隨著轉(zhuǎn)移次數(shù)的增多,隨機(jī)

10、變量的取 值分布最終都會(huì)收斂于唯一的平穩(wěn)分布兀二即lim 7FP,= 7T*,(1.13)一8且這個(gè)平穩(wěn)分布7T*滿足7T*P = 7F*.(1.14)這意味著,不論招)取何值,經(jīng)過(guò)足夠多次轉(zhuǎn)移后,隨機(jī)變量各取值總會(huì)不斷接近于該過(guò)程 的平穩(wěn)分布.這為MCMC建立了理論基礎(chǔ):如果我們想在某個(gè)分布下采樣,只需要模擬以 其為平穩(wěn)分布的馬爾科夫過(guò)程,經(jīng)過(guò)足夠多次轉(zhuǎn)移之后,我們的樣本分布就會(huì)充分接近于該 平穩(wěn)分布.這意味著我們近似地采集到了目標(biāo)分布下的樣本.1.4.2正則分布假設(shè)一個(gè)物理系統(tǒng)具備一定的自由度(例如,一滴水珠里的水分子在空間中可以任意排 列),那么,系統(tǒng)所處的狀態(tài)(所有水分子的位置)就具備

11、一定的隨機(jī)性.假設(shè)系統(tǒng)處于狀態(tài)i 的概率為例,則顯然有Pi 0,且 皿=1.(1.15)i根據(jù)系統(tǒng)的物理性質(zhì),不同的狀態(tài)可能會(huì)使系統(tǒng)具備不同的能量.我們用E來(lái)表示系 統(tǒng)處于狀態(tài)2時(shí)的能量.統(tǒng)計(jì)力學(xué)的一個(gè)基本結(jié)論是:當(dāng)系統(tǒng)與外界達(dá)到熱平衡時(shí),系統(tǒng)處 于狀態(tài)i的概率Pi具有以下形式Pi = e 一爭(zhēng),(L16)其中= 廠箏(17)i被稱為歸一化常數(shù)(Normalizing Constant), T為正數(shù),表示系統(tǒng)所處的溫度.(1.16)這種概 率分布的形式叫做正則分布.從這個(gè)分布形式我們可以看到,同一溫度下,能量越小的狀態(tài)具有越大的概率.另一方 面,當(dāng)溫度T升高時(shí),概率分布會(huì)對(duì)能量越來(lái)越不敏感:并

12、逐漸趨近于均勻分布.特別是當(dāng) T T 8時(shí),整個(gè)分布完全退化為均勻分布,這時(shí)系統(tǒng)的狀態(tài)變得完全隨機(jī).以水滴作為例 子,此時(shí)所有的水分子將不再受整個(gè)系統(tǒng)能量的限制,而四散開(kāi)來(lái),宏觀上看到的就是蒸發(fā).在機(jī)器學(xué)習(xí)領(lǐng)域,人們通常根據(jù)需求自定能量函數(shù).然后借鑒物理規(guī)律去實(shí)現(xiàn)其他的功 能,而正則分布就是溝通兩者的橋梁.在MCMC算法中,為了在一個(gè)指定的分布上采樣,我們首先從系統(tǒng)的任意一個(gè)狀態(tài)出 發(fā),然后模擬馬爾可夫過(guò)程,不斷進(jìn)行狀態(tài)轉(zhuǎn)移.根據(jù)馬爾可夫的性質(zhì),在經(jīng)過(guò)足夠的轉(zhuǎn)移次 數(shù)之后:我們所處的狀態(tài)即符合目標(biāo)分布,這時(shí),該狀態(tài)就可以作為一個(gè)采集到的樣本.而算 法的關(guān)鍵就是,設(shè)計(jì)出合理的狀態(tài)轉(zhuǎn)移過(guò)程.Met

13、ropolis-Hastings是一種非常重要的MCMC 采樣算法,并且對(duì)于設(shè)計(jì)狀態(tài)轉(zhuǎn)移過(guò)程建立了統(tǒng)一的框架.在Metropolis-Hastings算法中,假設(shè)我們想從分布冗()上采集樣本,那么,我們引入另 一組轉(zhuǎn)移提議分布(proposal density) Q(.;2).這個(gè)分布的作用是,根據(jù)我們的當(dāng)前狀態(tài)2,提 議轉(zhuǎn)移之后的狀態(tài).每次狀態(tài)轉(zhuǎn)移時(shí),我們首先利用Q(;i)提議出下一步的狀態(tài),假設(shè)為頂, 然后,我們以下面的概率接受這個(gè)狀態(tài)1,m 頂)q(2;/)(1.18)(1.18)中,T j)被稱作接受概率.為了模擬接受新?tīng)顟B(tài)3的過(guò)程,我們可以首先產(chǎn)生一個(gè)0,1之間的均勻分布的隨機(jī)數(shù) r

14、,然后,如果尸V-頂),則采用狀態(tài)J作為新?tīng)顟B(tài),否則維持狀態(tài)i不變.Q。; i)表示從 狀態(tài)i提議轉(zhuǎn)移到狀態(tài)j的概率.一般來(lái)說(shuō),Q(.,)可以選擇為一些比較簡(jiǎn)單的概率分布.下面我們簡(jiǎn)單分析Metropolis-Hastings算法的正確性.顯然,對(duì)于上面的例子,狀態(tài)i轉(zhuǎn)移到狀態(tài)j的轉(zhuǎn)移概率為pgJ)=t 項(xiàng))如;n(1.19)于是很容易驗(yàn)證:對(duì)于任意的狀態(tài) 輔,成立如下的所謂細(xì)致平衡條件(detailed balance)T i)汗Q偵7F(i) min 1,min (7t(z)Q(j; z),力(頂)Q(2; j)7r(j) min汗(小偵 2)Q(2;力當(dāng)細(xì)致平衡條件滿足時(shí),就可以證明狀態(tài)

15、分布tt()在轉(zhuǎn)移P(i - j)下保持不變,即52 汗0)2(頂一2) = 沖)P(2 T 項(xiàng))=汗0) E PQ T j)=汗(J33若該馬爾可夫過(guò)程滿足各態(tài)遍歷性,那么,根據(jù)穩(wěn)定分布的唯一性,我們就知道在轉(zhuǎn)移P下, 狀態(tài)的分布最終會(huì)收斂于),也就是我們要采樣的分布.Gibbs采樣(Gibbs Sampling)是Metropolis-Hastings的特殊形式.它應(yīng)用于系統(tǒng)具有 多個(gè)變量,并且對(duì)于變量間的條件分布我們能夠直接采樣的情況下.Metropolis-Hastings作 為一個(gè)通用的框架,它的缺點(diǎn)就在于它過(guò)于靈活.轉(zhuǎn)移提議分布。(.;.)如果選擇得不好,很 有可能每次提議都被拒絕

16、(即頃2 T項(xiàng))總是很?。?,于是造成狀態(tài)遲遲維持不變,影響馬爾可 夫鏈?zhǔn)諗康乃俣?在Gibbs采樣中:我們假設(shè)系統(tǒng)由m個(gè)變量構(gòu)成,不妨定義系統(tǒng)狀態(tài)X三(吼陽(yáng),xm 并且對(duì)于任一變量我們能夠直接從條件分布PEtE+i,雙血)中為其采 樣.Gibbs采樣算法的流程如下:算法LI (Gibbs采樣算法)初始化系統(tǒng)狀態(tài)為X().初始化時(shí)間t 0.對(duì)每個(gè)變量Xi, z G按以下條件概率對(duì)其采樣P (磚中)IZ件 1), . . .,云攔)t 七-t + 1.若t少于足夠的轉(zhuǎn)移次數(shù),則返回第3步.返回X(。作為采集到的樣本.和Metropolis-Hastings采樣相比,Gibbs采樣的一大特點(diǎn)是,不存

17、在接受概率a,因此, 狀態(tài)轉(zhuǎn)移總是能夠?qū)嵭兴运萂etropolis-Hastings具有更快的收斂速度.參考文獻(xiàn)Asja Fischer, Christian Igel. An Introduction to Restricted Boltzmann Machines. Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications Lecture Notes in Computer Science Volume 7441, 2012, pp 14-36.胡洋.基于馬爾可夫鏈蒙特R羅方法的RBM學(xué)習(xí)算法改進(jìn).碩士學(xué)位論文,上海交通大 學(xué),2012.張春霞,姬楠楠,王冠偉.受限玻爾茲曼機(jī)簡(jiǎn)介J. 2013.Hinton G.E.: Training products of experts by minimizing contrastive divergence. Neural Computation 14, 1771-1800 (2002)Welling, M.: Product of experts. Scholarpedia 2(10), 3879 (2007)阮一峰的博客 HYPERLINK /blog/20

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論