第6章 隨機神經(jīng)網(wǎng)絡(luò)及模擬退火算法_第1頁
第6章 隨機神經(jīng)網(wǎng)絡(luò)及模擬退火算法_第2頁
第6章 隨機神經(jīng)網(wǎng)絡(luò)及模擬退火算法_第3頁
第6章 隨機神經(jīng)網(wǎng)絡(luò)及模擬退火算法_第4頁
第6章 隨機神經(jīng)網(wǎng)絡(luò)及模擬退火算法_第5頁
已閱讀5頁,還剩77頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第6章隨機神經(jīng)網(wǎng)絡(luò)及模擬退火算法

6.1Boltzmann機6.2Boltzmann機的改進6.3模擬退火算法6.4仿真實例*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室前言隨機神經(jīng)網(wǎng)絡(luò)是統(tǒng)計力學(xué)思想引入神經(jīng)網(wǎng)絡(luò)研究的結(jié)果。統(tǒng)計力學(xué)是研究大系統(tǒng)宏觀平衡性質(zhì)的學(xué)科,這種大系統(tǒng)的組成元素服從微觀機制。統(tǒng)計力學(xué)的主要目的是尋找從微觀粒子(原子、電子)的運動開始的宏觀物體的熱力學(xué)性質(zhì),由于所遇到的自由度數(shù)目很大,因此只能使用概率的方法進行研究。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室隨機神經(jīng)網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的比較:名稱網(wǎng)絡(luò)類型網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法BP網(wǎng)絡(luò)多層前向網(wǎng)絡(luò)含輸入層、隱層、輸出層。層內(nèi)神經(jīng)元無連接網(wǎng)絡(luò)按誤差減少的最大梯度方向調(diào)整權(quán)值Hopfield網(wǎng)絡(luò)反饋神經(jīng)網(wǎng)絡(luò)單層神經(jīng)網(wǎng)絡(luò),層內(nèi)神經(jīng)元全互連網(wǎng)絡(luò)按照其用途來設(shè)計或訓(xùn)練網(wǎng)絡(luò)權(quán)值Boltzmann機隨機神經(jīng)網(wǎng)絡(luò)含輸入部、輸出部和中間部。神經(jīng)元互連網(wǎng)絡(luò)向誤差減小的方向運行概率大,但也可能向誤差增大方向運行*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室BP網(wǎng)絡(luò)是一種“貪心”算法,容易陷入局部最小點。Hopfield網(wǎng)絡(luò)很難避免出現(xiàn)偽狀態(tài),網(wǎng)絡(luò)是嚴(yán)格按照能量減小的方向運行的,容易陷入局部極小點,而無法跳出。所以,在用BP網(wǎng)絡(luò)和Hopfield網(wǎng)絡(luò)進行最優(yōu)化的計算時,由于限定條件的不足,往往會使網(wǎng)絡(luò)穩(wěn)定在誤差或能量函數(shù)的局部最小點,而不是全局最小點,即所得的解不是最優(yōu)解。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室網(wǎng)絡(luò)陷入局部最小點的原因主要有兩點:(1)網(wǎng)絡(luò)結(jié)構(gòu)上存在著輸入到輸出之間的非線性函數(shù)關(guān)系,從而使網(wǎng)絡(luò)誤差或能量函數(shù)所構(gòu)成的空間是一個含有多極點的非線性空間。(2)在算法上,網(wǎng)絡(luò)的誤差或能量函數(shù)只能單方向減小,不能有一點上升。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室隨機神經(jīng)網(wǎng)絡(luò)的基本思想:網(wǎng)絡(luò)向誤差或能量函數(shù)減小方向運行的概率大,同時向誤差或能量函數(shù)增大方向運行的概率存在,這樣網(wǎng)絡(luò)跳出局部極小點的可能性存在,而且向全局最小點收斂的概率最大。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

20世紀(jì)80年代,Ackley,Hinton和Sejnowski等人以模擬退火思想為基礎(chǔ),對Hopfield網(wǎng)絡(luò)引入了隨機機制,推出Boltzmann機。Boltzmann機是第一個受統(tǒng)計力學(xué)啟發(fā)的多層學(xué)習(xí)機,它是典型的隨機神經(jīng)網(wǎng)絡(luò)。其命名來源于Boltzmann機在統(tǒng)計力學(xué)中的早期工作和網(wǎng)絡(luò)本身的動態(tài)分布行為(其平衡狀態(tài)服從Boltzmann分布),其運行機制服從模擬退火算法。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.1Boltzmann機6.1.1Boltzmann機的網(wǎng)絡(luò)結(jié)構(gòu)6.1.2Boltzmann機的工作原理6.1.3Boltzmann機的運行步驟6.1.4Boltzmann機的學(xué)習(xí)規(guī)則*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.1.1Boatman機的網(wǎng)絡(luò)結(jié)構(gòu)

圖6-1boltzmann機的網(wǎng)絡(luò)結(jié)構(gòu)*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

Boltzmann機由輸入部、輸出部和中間部構(gòu)成。輸入神經(jīng)元和輸出神經(jīng)元可稱為顯見神經(jīng)元,它們是網(wǎng)絡(luò)與外部環(huán)境進行信息交換的媒介。中間部的神經(jīng)元稱為隱見神經(jīng)元,它們通過顯見神經(jīng)元與外部進行信息交換。每一對神經(jīng)元之間的信息傳遞是雙向?qū)ΨQ的,即wij=wji,而且自身無反饋即wii=0。學(xué)習(xí)期間,顯見神經(jīng)元將被外部環(huán)境“約束”在某一特定的狀態(tài),而中間部隱見神經(jīng)元則不受外部環(huán)境約束。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室Boltzmann機中單個神經(jīng)元的運行特性*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

Boltzmann機中每個神經(jīng)元的興奮或抑制具有隨機性,其概率取決于神經(jīng)元的輸入。神經(jīng)元i的全部輸入信號的總和為ui為:

式中bi是該神經(jīng)元的閾值??梢詫i歸并到總的加權(quán)和中去,即得:*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

神經(jīng)元的輸出vi依概率取1或0:vi取1的概率:

vi取0的概率:

由此可見,vi取1的概率受兩個因素的影響:(1)

ui越大vi則取1的概率越大,而取0的概 率越小。(2)參數(shù)T稱為“溫度”,在不同的溫度下vi 取1的概率P隨ui的變化如圖所示。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

p~u的關(guān)系*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室可見,T越高時,曲線越平滑,因此,即使ui有很大變動,也不會對vi取1的概率變化造成很大的影響;反之,T越低時,曲線越陡峭,當(dāng)ui有稍許變動時就會使概率有很大差異。即溫度高時狀態(tài)變化接近隨機,隨著溫度的降低向確定性的動作靠近。當(dāng)T→0時,每個神經(jīng)元不再具有隨機特性,而具有確定的特性,激勵函數(shù)變?yōu)殡A躍函數(shù),這時Boltzmann機趨向于Hopfield網(wǎng)絡(luò)。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.1.1Boltzmann機的工作原理

Boltzmann機采用下式所示的能量函數(shù)作為描述其狀態(tài)的函數(shù)。

將Boltzmann機視為一動力系統(tǒng),能量函數(shù)的極小值對應(yīng)系統(tǒng)的穩(wěn)定平衡點,由于能量函數(shù)有界,當(dāng)網(wǎng)絡(luò)溫度以某種方式逐漸下降到某一特定值時,系統(tǒng)必趨于穩(wěn)定狀態(tài)Boltzmann機的運行過程就是逐步降低其能量函數(shù)的過程。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室Boltzmann機在運行時,假設(shè)每次只改變一個神經(jīng)元的狀態(tài),如第i個神經(jīng)元,設(shè)vi取0和取1時系統(tǒng)的能量函數(shù)分別為0和,它們的差值為ΔEi

ΔEi的取值可能有兩種情況:ΔEi>0或ΔEi<0。

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室(1)當(dāng)ΔEi>0即>0時,

神經(jīng)元取1的概率:神經(jīng)元取0的概率:當(dāng)=ΔEi>0時,這時神經(jīng)元i的狀態(tài)取1的可能性比取0的可能性大,即網(wǎng)絡(luò)狀態(tài)取能量低的可能性大。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室(2)同理當(dāng)ΔEi<0時,即那么此時即神經(jīng)元i的狀態(tài)取0的可能性比取1的可能 性大。網(wǎng)絡(luò)狀態(tài)取能量低的可能性大。運行過程中總的趨勢是朝能量下降的方向運動,但也存在能量上升的可能性。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

有一個凹凸不平的盆,要使一個小球穩(wěn)定在最低的地方,如果把小球輕輕地放入盆中,那么結(jié)果必然是小球穩(wěn)定在距放入地方最近的低洼處。但是穩(wěn)定所在的地方并不保證是最低的地方,這一動作與Hopfield網(wǎng)絡(luò)相當(dāng)。Boltzmann機則是大幅度搖晃剛放入小球的盆子,然后逐漸減小搖晃的幅度。這樣,小球才有可能到盆子的最低處B處。舉例說明Boltzmann機的學(xué)習(xí)算法*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室假定Boltzmann機中有V1和V2兩種狀態(tài):在V1狀態(tài)下神經(jīng)元i的輸出vi=1,V2狀態(tài)下神經(jīng)元i的輸出vi=0,而所有其他神經(jīng)元在這兩種狀態(tài)下的取值都是一致的,另外假設(shè)兩種狀態(tài)出現(xiàn)的概率分別是和:

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室對于網(wǎng)絡(luò)中任意兩個狀態(tài)V1和V2的出現(xiàn)概率分別為和。它們之間的關(guān)系為

上式符合統(tǒng)計理學(xué)中己知的Boltzmann分布。Boltzmann機由此得名。

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室一方面:這就說明了能量低的狀態(tài)出現(xiàn)的概率大,能量高的狀態(tài)出現(xiàn)的概率小。另一方面:溫度參數(shù)T也會影響boltzmann機處于某種狀態(tài)的概率。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室(1)T很高時,各狀態(tài)出現(xiàn)的概率差異大大減小,也就是說網(wǎng)絡(luò)停留在全局最小點的概率,并不比局部最小點的概率甚至非局部最小點高很多。也即網(wǎng)絡(luò)不會陷在某個極小點中拔不出來,網(wǎng)絡(luò)在搜索過程中能夠“很快”的穿行于各極小點之間,但落于全局最小點的概率還是最大的。這一點保證網(wǎng)絡(luò)狀態(tài)落入全局最小點的可能性大。

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室(2)T很低時,情況正好相反。概率差距被加大,一旦網(wǎng)絡(luò)陷于某個極小點之后,雖然還有可能跳出該極小點,但是所需的搜索次數(shù)將是非常多的。這一點保證網(wǎng)絡(luò)狀態(tài)一旦達到全局最小點,跳出的可能性?。?)T→0(Hopfield網(wǎng)絡(luò))。差距被無限擴展,跳出局部最小點的概率趨于無窮小。這一點保證網(wǎng)絡(luò)狀態(tài)穩(wěn)定在全局最小點。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.1.3Boltzmann機的運行步驟

設(shè)一個Boltzmann機具有n個隨機神經(jīng)元(p個顯見神經(jīng)元,q個隱見神經(jīng)元),第i個神經(jīng)元與第j個神經(jīng)元的連接權(quán)值為wij,i,j=1,2,…,n。T0為初始溫度,m=1,2,…,M為迭代次數(shù)。Boltzmann機的運行步驟為:第一步:對網(wǎng)絡(luò)進行初始化。設(shè)定初始溫度T0、終止溫度Tfinal和閾值ξ,以及網(wǎng)絡(luò)各神經(jīng)元的連接權(quán)值wij。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室第二步:在溫度Tm條件下(初始溫度為T0)隨機選取網(wǎng)絡(luò)中的一個神經(jīng)元i,計算神經(jīng)元i的輸入信號總和ui:第三步:若ui>0,即能量差ΔEi>0,取vi=1為神經(jīng)元i的下一狀態(tài)值。若ui<0,計算概率:*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室第四步:判斷網(wǎng)絡(luò)在溫度Tm下是否達到穩(wěn)定,若未達到穩(wěn)定,則繼續(xù)在網(wǎng)絡(luò)中隨機選取另一神經(jīng)元j,令j=i,轉(zhuǎn)至第二步重復(fù)計算,直至網(wǎng)絡(luò)在Tm下達到穩(wěn)定。若網(wǎng)絡(luò)在Tm下已達到穩(wěn)定則轉(zhuǎn)至第五步計算。第五步:以一定規(guī)律降低溫度,使Tm+1<Tm,判斷Tm+1是否小于Tfinal,若Tm+1大于等于Tfinal,則Tm=Tm+1,轉(zhuǎn)至第二步重復(fù)計算;若Tm+1小于Tfinal,則運行結(jié)束。此時在Tm下所求得的網(wǎng)絡(luò)穩(wěn)定狀態(tài),即為網(wǎng)絡(luò)的輸出。

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室Boltzmann機學(xué)習(xí)需要注意幾點:(1)初始溫度T0的選擇方法。初始溫度T0的選取主要有以下方法:隨機選取網(wǎng)絡(luò)中k個神經(jīng)元,選取這k個神經(jīng)元能量的方差作為T0;在初始網(wǎng)絡(luò)中選取使ΔE最大的兩個神經(jīng)元,取T0為ΔEmax的若干倍;按經(jīng)驗值給出T0等。(2)確定終止溫度閾值Tfinal的方法。主要根據(jù)經(jīng)驗選取,若在連續(xù)若干溫度下網(wǎng)絡(luò)狀態(tài)保持不變,也可認(rèn)為已達到終止溫度。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室(3)概率閾值ξ的確定方法。ξ的選取方法主要有:在網(wǎng)絡(luò)初始化時按照經(jīng)驗確定或在網(wǎng)絡(luò)每次運行過程中選取一個[0,0.5]之間均勻分布的隨機數(shù)。(4)網(wǎng)絡(luò)權(quán)值wij的確定方法。將在下一章節(jié)討論。(5)在每一溫度下達到熱平衡的條件。通常在每一溫度下,實驗足夠多的次數(shù),直至網(wǎng)絡(luò)狀態(tài)在此溫度下不再發(fā)生變化為止。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室(6)降溫的方法。通常采用指數(shù)的方法進行降溫,即:為加快網(wǎng)絡(luò)收斂速度也可采用倍乘一個小于1的降溫系數(shù)的方法進行快速降溫。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.1.4Boltzmann機的學(xué)習(xí)規(guī)則

Boltzmann機是一種隨機神經(jīng)網(wǎng)絡(luò),可使用概率中的似然函數(shù)量度其模擬外界環(huán)境概率分布的性能。因此,Boltzmann機的學(xué)習(xí)規(guī)則就是根據(jù)最大似然規(guī)則,通過調(diào)整權(quán)值wij,最小化似然函數(shù)或其對數(shù)。假設(shè)給定需要網(wǎng)絡(luò)模擬其概率分布的樣本集合,Vx是樣本集合中的一個狀態(tài)向量,Vx即可代表網(wǎng)絡(luò)中顯見神經(jīng)元的一個狀態(tài),假設(shè)向量Vy表示網(wǎng)絡(luò)中隱見神經(jīng)元的一個可能狀態(tài),則V=[VxVy]即可表示整個網(wǎng)絡(luò)所處的狀態(tài)。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室由于網(wǎng)絡(luò)學(xué)習(xí)的最終目的是模擬外界給定樣本集合的概率分布,而Boltzmann機含有顯見神經(jīng)元和隱見神經(jīng)元,因此Boltzmann機的學(xué)習(xí)過程包括以下兩個階段:(1)主動階段:網(wǎng)絡(luò)在外界環(huán)境約束下運行,即由樣本集合中的狀態(tài)向量Vx控制顯見神經(jīng)元的狀態(tài)。定義神經(jīng)元i和j的狀態(tài)在主動階段的平均關(guān)聯(lián)為:

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

其中概率P(Vy|Vx)表示網(wǎng)絡(luò)的顯見神經(jīng)元約束在Vx下隱見神經(jīng)元處于Vy的條件概率,它與網(wǎng)絡(luò)在主動階段的運行過程有關(guān)。2)被動階段:網(wǎng)絡(luò)不受外界環(huán)境約束,顯見神經(jīng)元和隱見神經(jīng)元自由運行,不受約束。被動階段的平均關(guān)聯(lián)為:定義神經(jīng)元i和j的狀態(tài)在*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

P(V)為網(wǎng)絡(luò)處于V狀態(tài)時的概率,vi和vj分別是神經(jīng)元i和j的輸出狀態(tài)。由于網(wǎng)絡(luò)在自由運行階段服從Boltzmann分布,因此:E(V)為網(wǎng)絡(luò)處于V狀態(tài)時的能量。網(wǎng)絡(luò)的權(quán)值wij需遵循下面的調(diào)整規(guī)則:*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室wij(t)為在第t步時神經(jīng)元i,j之間的連接權(quán)值,η為學(xué)習(xí)速率,T是網(wǎng)絡(luò)溫度。Boltzmann機的優(yōu)點:(1)通過訓(xùn)練,神經(jīng)元體現(xiàn)了與周圍環(huán)境相匹配的概率分布;(2)網(wǎng)絡(luò)提供了一種可用于尋找、表示和訓(xùn)練的普遍方法;(3)若保證學(xué)習(xí)過程中溫度降低的足夠慢,根據(jù)狀態(tài)的演化,可以使網(wǎng)絡(luò)狀態(tài)的能量達到全局最小點。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室但是在Boltzmann機的學(xué)習(xí)過程中被動階段的存在具有兩個很大的缺點:(1)增加計算時間。在外界環(huán)境約束條件下,一些神經(jīng)元由外部環(huán)境約束,而在自由運行條件下,所有的神經(jīng)元自由運行,這樣增加了Boltzmann機的隨機仿真時間。(2)對于統(tǒng)計錯誤的敏感。Boltzmann機的學(xué)習(xí)規(guī)則包含了主動階段關(guān)聯(lián)和被動階段關(guān)聯(lián)的差值。當(dāng)這兩種關(guān)聯(lián)相類似時,取樣噪聲的存在使得這個差值更加不準(zhǔn)確。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.2Boltzmann機的改進

6.2.1確定性Boltzmann機6.2.2Sigmoid置信度網(wǎng)絡(luò)*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

6.2.1確定性Boltzmann機

由于Boltzmann機在學(xué)習(xí)過程中需要計算網(wǎng)絡(luò)中每對神經(jīng)元的平均關(guān)聯(lián)。可以證明Boltzmann機的學(xué)習(xí)時間同網(wǎng)絡(luò)神經(jīng)元的數(shù)目呈指數(shù)關(guān)系。Boltzmann機在學(xué)習(xí)過程中存在的運算時間過長的問題使其很難在實際問題中加以應(yīng)用。目前,還沒有一種數(shù)學(xué)方法可以精確評價Boltzmann機的行為,但是可以使用平均場逼近的方法來逼近。在實際中,只需知道網(wǎng)絡(luò)狀態(tài)的平均值或網(wǎng)絡(luò)中神經(jīng)元狀態(tài)的平均值即可。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室平均場理論

為研究物理學(xué)中的Ising或者Sherrington-Kirkpatrick模型,Landau于1937年提出了平均場理論,這是研究連續(xù)相變的普遍理論。1985年D.J.Amit采用平均場理論研究聯(lián)想記憶問題。1987年P(guān)eterson和Anderson使用平均場理論來研究確定性Boltzmann機。其方法是基于“考慮來自周圍物質(zhì)的影響時,不是分別考慮各自的影響,而是以全部的平均影響度近似”。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室根據(jù)平均場理論,首先需要知道網(wǎng)絡(luò)中每個神經(jīng)元狀態(tài)的平均值,令<vi>表示網(wǎng)絡(luò)中神經(jīng)元i狀態(tài)的平均值。神經(jīng)元i的輸出狀態(tài)以概率規(guī)則描述如下:*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室因此,可以用神經(jīng)元i的輸入表達<vi>:這就是Boltzmann機神經(jīng)元的平均場逼近。平均場逼近的基本概念在于:將每個神經(jīng)元i的真實輸入替換為其平均值<ui>,即:

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室因此,需要計算由n個神經(jīng)元組成的Boltzmann機中神經(jīng)元i的平均輸出<vi>。

上式表明:一個隨機變量函數(shù)的平均值可以由此隨機變量平均值的函數(shù)逼近。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室確定性Boltzmann機

通過平均場逼近可以得到確定的標(biāo)準(zhǔn)Boltzmann學(xué)習(xí)規(guī)則近似為:其中和分別是顯見神經(jīng)元i在約束條件和自由運行條件下的平均輸出,η為學(xué)習(xí)速率參數(shù)。這種方法稱作“確定性Boltzmann學(xué)習(xí)規(guī)則”,而這種神經(jīng)網(wǎng)絡(luò)則稱作確定性Boltzmann機。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室

確定性Boltzmann機在實際應(yīng)用中需注意的兩點:

(1)確定性Boltzmann學(xué)習(xí)規(guī)則只在有監(jiān)督條件下起作用。無監(jiān)督學(xué)習(xí)不能在所有的平均場框架中起作用,因為平均狀態(tài)不能很好的表示自由運行狀態(tài)的概率分布。(2)在有監(jiān)督學(xué)習(xí)中,確定性Boltzmann學(xué)習(xí)要求神經(jīng)網(wǎng)絡(luò)只有一個單隱層(Galland,1993)。在理論中可使用多個隱層,但在實際中,使用超過一個隱層會導(dǎo)致(1)中所提到的無監(jiān)督學(xué)習(xí)的相同問題。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室6.2.2Sigmoid置信度網(wǎng)絡(luò)針對Boltzmann機學(xué)習(xí)過程中被動階段存在增加計算時間和對統(tǒng)計錯誤敏感的缺點,Neal在1992年提出了Sigmoid置信度網(wǎng)絡(luò),也稱為邏輯推理網(wǎng)絡(luò)。提出此網(wǎng)絡(luò)的目的在于尋找一種隨機神經(jīng)網(wǎng)絡(luò),使其可以具有Boltzmann機從二值向量中學(xué)習(xí)任意概率分布的能力,而又沒有Boltzmann機學(xué)習(xí)過程中需要被動階段的缺點。Sigmoid置信度網(wǎng)絡(luò)通過控制學(xué)習(xí)過程而不是使用被動階段,來避免上述的缺點。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室1.Sigmoid置信度網(wǎng)絡(luò)的結(jié)構(gòu)

*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室Sigmoid置信度網(wǎng)絡(luò)將Boltzmann機中的對稱連接轉(zhuǎn)變?yōu)闊o反饋直接連接的形式,無反饋的連接特性可簡化概率計算。Sigmoid置信度網(wǎng)絡(luò)由多層結(jié)構(gòu)的二值隨機神經(jīng)元構(gòu)成,并使用Sigmoid函數(shù)計算每個神經(jīng)元的條件概率。Sigmoid置信度網(wǎng)絡(luò)結(jié)構(gòu)為典型的前向網(wǎng)絡(luò),其輸入、輸出為二值變量。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室設(shè)Sigmoid置信度網(wǎng)絡(luò)由n個神經(jīng)元組成,每個神經(jīng)元的狀態(tài)由二值隨機變量V1,V2,…,Vn表示,則向量V={V1,V2,…,Vn}即可表示網(wǎng)絡(luò)的狀態(tài)。定義pa(Vi)為網(wǎng)絡(luò)中前i-1個神經(jīng)元狀態(tài)的一個子集,表示如下:pa(Vi)是隨機向量V的子集。因此*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室第i個神經(jīng)元的激活概率由Sigmoid函數(shù)定義為:此處wij為從神經(jīng)元j到神經(jīng)元i的連接權(quán)值,f(﹒)為Sigmoid函數(shù)。從上式中可以看出,條件概率P(Vi=vi|pa(Vi))只與pa(Vi)有關(guān)。上式所定義的第i個神經(jīng)元的激活概率是在網(wǎng)絡(luò)中傳播推理的基礎(chǔ)。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室Sigmoid置信度網(wǎng)絡(luò)中需注意以下兩點:

(1)對于不屬于pa(Vi)的所有Vj,wij=0(2)對于所有的,wij=0第一點由pa(Vi)的定義所決定。第二點是由于Sigmoid置信度網(wǎng)絡(luò)神經(jīng)元的直接無反饋連接。Sigmoid置信度網(wǎng)絡(luò)的隨機操作比Boltzmann機要復(fù)雜。這種隨機神經(jīng)網(wǎng)絡(luò)在概率空間中使用梯度下降的學(xué)習(xí)算法。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室2.Sigmoid置信度網(wǎng)絡(luò)學(xué)習(xí)算法

令表示訓(xùn)練樣本集,代表需要網(wǎng)絡(luò)學(xué)習(xí)的某種概率分布。假設(shè)每個樣本都是二值的。由狀態(tài)向量V決定網(wǎng)絡(luò)神經(jīng)元數(shù)量。定義狀態(tài)向量的子集Vx代表訓(xùn)練數(shù)據(jù)的特征,即Vx是表示顯見神經(jīng)元的狀態(tài)向量。剩下的狀態(tài)向量表示為Vy,即,隱見神經(jīng)元的狀態(tài)向量。對于給定狀態(tài)向量V,Sigmoid置信度網(wǎng)絡(luò)的設(shè)計高度依賴于顯見神經(jīng)元和隱見神經(jīng)元的排列方式。因此,顯見神經(jīng)元與隱含神經(jīng)元不同的排列方式會導(dǎo)致不同的結(jié)構(gòu)。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室按照梯度下降的思路,將Sigmoid置信度網(wǎng)絡(luò)神經(jīng)元的閾值歸并至連接權(quán)值wij中。則Sigmoid置信度網(wǎng)絡(luò)第t+1步的權(quán)值調(diào)整規(guī)則如下:其中:*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室-―神經(jīng)元i和j的平均關(guān)聯(lián)wij(t)為第t步時神經(jīng)元i,j的連接權(quán)值,η為學(xué)習(xí)速率,T是網(wǎng)絡(luò)溫度。

Sigmoid置信度網(wǎng)絡(luò)在學(xué)習(xí)過程中擯棄了自由運行的過程,即網(wǎng)絡(luò)只需在訓(xùn)練樣本約束條件下進行學(xué)習(xí),從而達到去除被動階段的目的。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室與Boltzmann機不同,在Sigmoid置信網(wǎng)絡(luò)中只有一個階段需要學(xué)習(xí)。這種簡化的原因在于:經(jīng)過Sigmoid函數(shù)f(﹒),狀態(tài)向量的概率分布在每個神經(jīng)元的局部水平達到標(biāo)準(zhǔn)化。給定從訓(xùn)練樣本集合中抽取的vx的值,可以正確建模隨機向量V的條件分布。Boltzmann機學(xué)習(xí)過程中的自由運行階段由因子所取代。*合肥工業(yè)大學(xué)計算機與信息學(xué)院圖像信息處理研究室Sigmoid置信度網(wǎng)絡(luò)將前向網(wǎng)絡(luò)結(jié)構(gòu)引入隨機神經(jīng)網(wǎng)絡(luò)的研究中,從而避免Boltzmann機神經(jīng)元全互聯(lián)結(jié)構(gòu)增加計算概率時間的缺點。另一方面,Sigmoid置信度網(wǎng)絡(luò)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論