鄭州大學(xué)-機(jī)器學(xué)習(xí) 人工神經(jīng)網(wǎng)絡(luò)_第1頁
鄭州大學(xué)-機(jī)器學(xué)習(xí) 人工神經(jīng)網(wǎng)絡(luò)_第2頁
鄭州大學(xué)-機(jī)器學(xué)習(xí) 人工神經(jīng)網(wǎng)絡(luò)_第3頁
鄭州大學(xué)-機(jī)器學(xué)習(xí) 人工神經(jīng)網(wǎng)絡(luò)_第4頁
鄭州大學(xué)-機(jī)器學(xué)習(xí) 人工神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工神經(jīng)網(wǎng)絡(luò)匯報人:侯倩南

周瑩瑩1,神經(jīng)元的數(shù)學(xué)模型2,感知器算法3,多層神經(jīng)網(wǎng)絡(luò)4,梯度下降算法5,補(bǔ)充1,神經(jīng)元的數(shù)學(xué)模型人工神經(jīng)網(wǎng)絡(luò)的基本思想是仿生學(xué),即對人腦的神經(jīng)元運(yùn)行機(jī)制進(jìn)行模擬基于神經(jīng)元的生理結(jié)構(gòu)建立了單個神經(jīng)元模型—MP模型

以向量的形式表示:

2,感知器算法

假設(shè)

一個二分類問題輸入(xi,yi),i=1~N;其中:xi

訓(xùn)練數(shù)據(jù)yi=±1任務(wù):找出一個向量w和一個常數(shù)b,使得對于i=1...N,有(1)若yi=+1,則ωTXi+b>0(2)若yi=-1,則ωTXi+b<0如果訓(xùn)練數(shù)據(jù)x滿足上述條件,則稱之為訓(xùn)練數(shù)據(jù)xi獲得了平衡,否則訓(xùn)練數(shù)據(jù)xi沒有獲得平衡。

沒有獲得平衡的關(guān)系

(1)若yi=+1,則ωTXi+b<0

(2)若yi=-1,則ωTXi+b>0

∥X∥2≥0

ω(新)TX+b(新)≤[(ω(舊)TX+b(舊))]-1經(jīng)過了調(diào)整,ωTX+b的值至少比原來小了1,由此,使得X距離平衡狀態(tài)至少近了一點(diǎn)點(diǎn)。

∥X∥2≥0

ω(新)TX+b(新)≥[(ω(舊)TX+b(舊))]+1經(jīng)過了調(diào)整,ωTX+b的值至少比原來大了1,由此,使得X距離平衡狀態(tài)至少近了一點(diǎn)點(diǎn)。感知器算法不斷輸入訓(xùn)練數(shù)據(jù)重復(fù)第二步ω,b對所有的訓(xùn)練樣本滿足達(dá)到平衡狀態(tài)ROSENBLATT

嚴(yán)格證明定理:訓(xùn)練數(shù)據(jù)線性可分感知器算法一定可以停下來

感知器算法收斂定理的證明:感知器算法的意義感知器算法的實(shí)質(zhì)是在訓(xùn)練數(shù)據(jù)集線性可分的情況下,尋找分類的超平面。支持向量機(jī)是基于所有的訓(xùn)練數(shù)據(jù)尋找最大化間隔的超平面感知器算法是相對隨意的,找一個分開兩類的超平面因此支持向量機(jī)的分類面要比感知器算法尋找的分類面要好一點(diǎn)。

3,多層神經(jīng)網(wǎng)絡(luò)多層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu):最簡單的多層神經(jīng)網(wǎng)絡(luò)從輸入到輸出之間的關(guān)系:綜合為:非線性f:φ是必須加的不加非線性函數(shù)的結(jié)果:層與層之間不加非線性函數(shù),多層神經(jīng)網(wǎng)絡(luò)將會退化到一個神經(jīng)元的感知器模型

定理證明:假設(shè)特征空間是二維的,同時假設(shè)是二分類問題。(i)用多層神經(jīng)網(wǎng)絡(luò)構(gòu)造一個函數(shù),使得x=(x1,x2)T在三角形里面則輸出y大于0,在三角形外邊則輸出y小于0。假設(shè)這三條線的方程在朝向三角形一側(cè)大于0,在遠(yuǎn)離三角形的一側(cè)小于0。構(gòu)造一個兩層的神經(jīng)網(wǎng)絡(luò)則若x=(x1,x2)T在三角形里面,則第一層的三個神經(jīng)元輸出為a1,a2,a3>0,經(jīng)過階躍函數(shù)f的映射后,輸出的z1,z2,z3=1;同理,若x=(x1,x2)T在三角形外面,那么a1,a2,a3至少有一個小于0,經(jīng)過f的映射后,z1,z2,z3至少有一個等于0.將z1,z2,z3對應(yīng)的權(quán)重設(shè)為1,偏置設(shè)為-2.5,則滿足預(yù)測條件。(當(dāng)且僅當(dāng)z1,z2,z3全為1,y=0.5,y>0;z1,z2,z3不全為0,則y<0)(ii)假設(shè)特征空間有一個四邊形,四邊形內(nèi)為一類,四邊形外為另一類

如何做一個兩層神經(jīng)網(wǎng)絡(luò),區(qū)分這兩類?

基于(i),在第一層增加一個神經(jīng)元

第二層所有權(quán)重設(shè)置為1,偏置設(shè)為-3.5,即可滿足條件

(對于任意的多邊形,都可以采用類似的方法)(iii)假設(shè)特征空間為不規(guī)則的封閉曲線,例如:

對于任意一個不規(guī)則的封閉曲線,

都可以用多邊形去近似。

(以直代曲)(iiii)假設(shè)特征空間是兩個三角形,例如構(gòu)建一個三層神經(jīng)網(wǎng)絡(luò)來模擬:如果x在第一個三角形里,那么c1=1,c2=0x在第二個三角形里,那么c1=0,c2=1x同時在兩個三角形之外,那么c1=c2=0

所以偏置設(shè)為-0.5就可以區(qū)分類別綜上所述:可用三層神經(jīng)網(wǎng)絡(luò)模擬任意非線性二分類問題4,梯度下降法

從多層神經(jīng)網(wǎng)絡(luò)中我們了解到,三層神經(jīng)網(wǎng)絡(luò)可以模擬任意非線性的函數(shù)。但是在實(shí)際問題中,我們并不知道決策函數(shù)是什么,而只知道特征空間的一些訓(xùn)練樣本,以及他的標(biāo)簽值。由于無法知道決策函數(shù)的具體形式,所以也不知道決策函數(shù)的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。因此我們要采取另外一種思路:假定神經(jīng)網(wǎng)絡(luò)是某一種結(jié)構(gòu)將一堆訓(xùn)練數(shù)據(jù)輸入到這個網(wǎng)絡(luò)中估計這個網(wǎng)絡(luò)的待求參數(shù)假定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu):考慮:網(wǎng)絡(luò)有多少層?

每層神經(jīng)元的個數(shù)是多少?

基于實(shí)踐經(jīng)驗(yàn)從經(jīng)驗(yàn)上說明設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)的兩個準(zhǔn)則:①訓(xùn)練樣本較多,可以增加神經(jīng)網(wǎng)絡(luò)的層數(shù)和每一層神經(jīng)元的個數(shù),以增加神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。②訓(xùn)練樣本較少,神經(jīng)網(wǎng)絡(luò)的復(fù)雜一般不能過高。算法模型的復(fù)雜度要和訓(xùn)練樣本的復(fù)雜度相匹配(在實(shí)踐中,只能通過經(jīng)驗(yàn)來設(shè)置這些參數(shù),如果某一神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)不好,則再換一個模型)在神經(jīng)網(wǎng)絡(luò)設(shè)置已經(jīng)確定的前提下,如何優(yōu)化神經(jīng)網(wǎng)絡(luò)中的待求參數(shù)?舉例:兩層神經(jīng)網(wǎng)絡(luò)輸入(X,Y),其中X=(x1,x2)T,Y是標(biāo)簽值,即我們希望改變ω和b,使得標(biāo)簽值Y與實(shí)際的網(wǎng)絡(luò)輸出值y盡可能的接近。

注意:Y是X的標(biāo)簽值,由訓(xùn)練數(shù)據(jù)直接給定

y是神經(jīng)網(wǎng)絡(luò)的輸出值我們可以用一個統(tǒng)一的式子來表示y:y=ω1φ(ω11+ω12x1+b1)+ω2φ(ω12+ω22x2+b2)+b3使得Y與y盡可能的接近因此我們定義目標(biāo)函數(shù):Min:E(ω,b)=E(X,Y)[(Y-y)2]遍歷訓(xùn)練樣本以及標(biāo)簽值的數(shù)學(xué)期望

對迭代算法的理解:實(shí)例:

假設(shè)目標(biāo)函數(shù)f(x)是一個一維,如下圖所示

小心設(shè)置α的值,才能保證較快的收斂

當(dāng)α很大的時候,

當(dāng)α很小的時候很容易錯過局部最小值

會出現(xiàn)很久不能收斂到極小值的情況

由于f(x)的具體形式未知,所以α的設(shè)置沒有理論支持

5,補(bǔ)充①,輸入值與輸出值輸入值神經(jīng)網(wǎng)絡(luò)輸入向量的各個分量數(shù)值范圍可能相差很大。比如:有些變量為[0,1],有些變量為[0,1000]

不利于求解和的穩(wěn)定性因此我們要進(jìn)行輸入向量的歸一化:

把每個分量都變換到同一個范圍內(nèi),如[0,1],[-1,+1]。歸一化采取的變換方式:x′=a×x+b

其中x是原始的輸入值

x′是變換后的輸入值

a和b在訓(xùn)練中通過對訓(xùn)練樣本統(tǒng)計得到

輸出值主要的問題在于對輸出值的設(shè)定(i)分類問題對于有k個類的分類問題,如果選擇sigmoid函數(shù)作為激活函數(shù),我們一般采用編碼向量的方式。

One-hot編碼

將輸出向量設(shè)置為k維,如果訓(xùn)練樣本屬于第i類,將輸出向量的第i個分量設(shè)置為1,其他的設(shè)置為0,即

(0,0,...,+1,0,...0)

在預(yù)測時,計算輸出向量分量的最大值,這個值對應(yīng)的分量號就是分類結(jié)果。(ii)回歸問題將訓(xùn)練樣本的輸出值歸一化到一個區(qū)間范圍內(nèi),比如[0,1]或[-1,+1]。②激活函數(shù)什么是激活函數(shù)?激活函數(shù)的主要作用是提供網(wǎng)絡(luò)的非線性建模能力,如果沒有激活函數(shù),那么該網(wǎng)絡(luò)僅能夠表達(dá)線性映射,此時即便有再多的隱藏層,其整個網(wǎng)絡(luò)跟單層神經(jīng)網(wǎng)絡(luò)也是等價的。因此也可以認(rèn)為,只有加入了激活函數(shù)之后,深度神經(jīng)網(wǎng)絡(luò)才具備了分層的非線性映射學(xué)習(xí)能力。為什么要使用激活函數(shù)?

用下面的簡單例子進(jìn)行說明。該模型有單輸入值,單隱藏層,隱藏層雙神經(jīng)原,單輸出值。在沒有激活函數(shù)的作用下,無論我們怎么調(diào)整權(quán)重和偏差,其輸出值仍為線性。加入更多的隱藏層,本質(zhì)上也是一樣的,考慮到真實(shí)世界的大多數(shù)系統(tǒng)是非線性的,如果要模擬復(fù)雜的系統(tǒng),則必須借助非線性的激活函數(shù)。而神經(jīng)網(wǎng)絡(luò)中至少需要一層隱藏層和足夠的神經(jīng)元,利用非線性的激活函數(shù),便可以模擬任何負(fù)擔(dān)的連續(xù)函數(shù)。常見的激活函數(shù)種類

①sigmoid函數(shù)

sigmoid函數(shù)的導(dǎo)數(shù)f′(x)=f(x)[1-f(x)]

sigmoid函數(shù)的導(dǎo)數(shù)值落于0~0.25的連續(xù)區(qū)間sigmoid函數(shù)的優(yōu)缺點(diǎn)優(yōu)點(diǎn):輸出映射在(0,1)之間,單調(diào)連續(xù),輸出范圍有限,優(yōu)化穩(wěn)定,可以用作輸出層。缺點(diǎn):由于其軟飽和性,容易產(chǎn)生梯度消失,導(dǎo)致訓(xùn)練出現(xiàn)問題。其輸出并不是以0為中心的。在進(jìn)行指數(shù)計算時,需要消耗較多的算力資源。②Tanh函數(shù)

Tanh(x)的導(dǎo)數(shù)是Tanh函數(shù)的導(dǎo)數(shù)值落在0~1的連續(xù)區(qū)間Tanh函數(shù)的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):sigmoid函數(shù)的導(dǎo)數(shù)輸出值在0~0.25之間,而Tanh函數(shù)導(dǎo)數(shù)輸出值在0~1之間,因此相對于

sigmoid函數(shù),Tanh函數(shù)能夠相對緩解梯度消失的問題。

Tanh函數(shù)具有以0為中心的特點(diǎn)缺點(diǎn):Tanh函數(shù)只是緩解了梯度消失的問題,但是沒有改變梯度消失的問題③ReLU函數(shù)ReLU(x)=max(0,x)特點(diǎn):它是一個非線性函數(shù)

>0時,輸出是一個線性函數(shù)

<0時,輸出恒為0

>0時,函數(shù)導(dǎo)數(shù)輸出恒為1

<0時,輸出恒為0ReLU函數(shù)的優(yōu)缺點(diǎn)優(yōu)點(diǎn):首先它是一個非線性函數(shù),其在大于0時展示的線性特征,能夠很好的解決梯度消失的問題。另外相較前兩種函數(shù),它也能夠帶來更高效的計算,最后根據(jù)通用近似定理,其整體的非線性又能夠在神經(jīng)網(wǎng)絡(luò)中擬合任何復(fù)雜的連續(xù)函數(shù)。缺點(diǎn):當(dāng)輸入值為負(fù)數(shù)時,其輸出值和導(dǎo)數(shù)均為零,這意味著該神經(jīng)元會處于死亡狀態(tài)。且在逆向參數(shù)調(diào)整過程中,不產(chǎn)生梯度調(diào)整值

為什么呢?①訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,一旦學(xué)習(xí)率沒有設(shè)置好,第一次更新權(quán)重的時候,輸入是負(fù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論