




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、深度學(xué)習(xí)之循環(huán)神經(jīng)網(wǎng)絡(luò)陳鵬1目錄1:深度學(xué)習(xí)發(fā)展史2:從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)3:循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)4:自然語言處理基礎(chǔ)(擴(kuò)充知識(shí))21:深度學(xué)習(xí)發(fā)展史3深度學(xué)習(xí)發(fā)展史SVMBoostingDecision treeKNNNeural networkBack propagation19862006Deep belief netScienceSpeech2011 2012Computer visionNLPSpeech 2014Geoffrey Hinton 1949Learning model of neurons1958PerceptronHebbRosenblattGeoffrey Hinton
2、 DBNCNNRBMRNN機(jī)器學(xué)習(xí)第一次浪潮:機(jī)器學(xué)習(xí)第二次浪潮淺層學(xué)習(xí)模型(Shallow Learning)深度學(xué)習(xí)模型(Deep Learning)First Winter of NNSecond Winter of NN4深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò))神經(jīng)網(wǎng)絡(luò)神經(jīng)元5synapse dendriteCell bodySynapticterminalsAxon軸突末梢 突觸 樹突細(xì)胞體軸突w1x1xn線性動(dòng)態(tài)系統(tǒng)激勵(lì)函數(shù)own神經(jīng)元是構(gòu)成神經(jīng)網(wǎng)絡(luò)的最基本單元(構(gòu)件), 因此, 首要任務(wù)是構(gòu)造人工神經(jīng)元模型。細(xì)胞體Cell body樹突dendrite突觸synapse軸突Axon來自其它神經(jīng)元
3、神經(jīng)元模型6yyaxo x2x1xnw1w2wnNNxwxwu11uifuifay0w1x1xn激勵(lì)函數(shù)o=f(net)wnnet = WTX)(TnetfoxwXWnetii 典型的激勵(lì)函數(shù)(Activation Function):線性函數(shù),非線性斜面函數(shù),階躍函數(shù),S型函數(shù)等。神經(jīng)元模型7Input LayerHidden LayerOutput Layerx1xMh1hLo1oNw11wm1wM1wmLwMLw1Lv11vl1vL1vLNmmlThhxwXWnetll)(lhlnetfh llnToohvHVnetnn)(nonnetfo 神經(jīng)網(wǎng)絡(luò)一般形式 Nonlinearity 非
4、線性 Parallel Processing 并行處理 InputOutput Mapping 輸入輸出匹配 Adaptivity 自適應(yīng)性ocx2x1xnw1w2wnckfonet)net(NNwxwx11net8最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò):Perceptrons9Single Layer Perceptronsybx2x1xMw1w2wMbxwsignufyii)(0101uifuifyRosenblatt, 19570101)(2211uifuifbxwxwufu0u sequence of wordse.g. Sentiment Classificationsequence of words -
5、 sentimente.g. Machine Translationseq of words - seq of wordse.g. Video classification on frame levelRecurrent Neural Network28典型典型應(yīng)用:應(yīng)用:圖像標(biāo)注Recurrent Neural Network29典型應(yīng)用:語言生成典型應(yīng)用:語言生成Recurrent Neural Network30典型應(yīng)用:音樂作曲典型應(yīng)用:音樂作曲循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型31激活函數(shù)激活函數(shù)lRNN常用的激活函數(shù)是tanh和sigmoid。循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型32so
6、ftmaxlSoftmax函數(shù)是sigmoid函數(shù)的一個(gè)變種,通常我們將其用在多分類任務(wù)的輸出層,將輸入轉(zhuǎn)化成標(biāo)簽的概率。本質(zhì)就是將一個(gè)K維的任意實(shí)數(shù)向量壓縮(映射)成另一個(gè)K維的實(shí)數(shù)向量,其中向量中的每個(gè)元素取值都介于(0,1)之間。 循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型33簡(jiǎn)單簡(jiǎn)單循環(huán)循環(huán)網(wǎng)絡(luò)網(wǎng)絡(luò)SRN神經(jīng)元之間的連接權(quán)重連接權(quán)重在時(shí)域上不變不變。循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型34隨隨時(shí)間反向傳播算法時(shí)間反向傳播算法BPTTBPBP回顧回顧:定義損失函數(shù) E E 來表示輸出 和真實(shí)標(biāo)簽y y的誤差,通過鏈?zhǔn)椒▌t自頂向下求得 E E 對(duì)網(wǎng)絡(luò)權(quán)重的偏導(dǎo)偏導(dǎo)。沿梯度的反方向更新權(quán)重的值,直到 E
7、E 收斂。BPTT的本質(zhì)其實(shí)和BP很像,就是加上了時(shí)序演化。定義權(quán)重U,V,W。定義損失函數(shù):我們將整個(gè)序列作為一次訓(xùn)練,所以需要對(duì)每個(gè)時(shí)刻的誤差進(jìn)行求和。循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型35隨隨時(shí)間反向傳播算法時(shí)間反向傳播算法BPTT目前的任務(wù)是求 E E 對(duì)于U,V,W 的梯度。定義E對(duì)于W 的梯度(U,V 同理):(1)求 E E 對(duì)于V 的梯度。先求 E E3 對(duì)于V 的梯度:W VU其中: 求和可得。其中: 依賴于 ,而 又依賴于 和W ,依賴關(guān)系一直傳遞到 t = 0 的時(shí)刻。因此,當(dāng)我們計(jì)算對(duì)于因此,當(dāng)我們計(jì)算對(duì)于W W 的偏的偏導(dǎo)數(shù)時(shí),不能把導(dǎo)數(shù)時(shí),不能把 看作是常數(shù)項(xiàng)!看作是
8、常數(shù)項(xiàng)!循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型36隨隨時(shí)間反向傳播算法時(shí)間反向傳播算法BPTT(2)求 E E 對(duì)于W 的梯度。注意,現(xiàn)在情況開始變得復(fù)雜起來。先求 E E3 對(duì)于W 的梯度:W VU當(dāng)我們求 對(duì)于W 的偏導(dǎo)時(shí)。注意到: 求和可得。同樣: 依賴于 ,而 又依賴于 和U 。類似求類似求W W,當(dāng)我們計(jì)算對(duì)于,當(dāng)我們計(jì)算對(duì)于U U 的偏導(dǎo)數(shù)時(shí),也不的偏導(dǎo)數(shù)時(shí),也不能把能把 看作是常數(shù)項(xiàng)!看作是常數(shù)項(xiàng)!循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型37隨隨時(shí)間反向傳播算法時(shí)間反向傳播算法BPTT(3)求 E E 對(duì)于U 的梯度。情況與W 類似。先求 E E3 對(duì)于U 的梯度:W VU當(dāng)我們求 對(duì)于W 的
9、偏導(dǎo)時(shí)。注意到: 求和可得。循環(huán)循環(huán)神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)模型38隨隨時(shí)間反向傳播算法時(shí)間反向傳播算法BPTT參數(shù)意義: Whv:輸入層到隱含層的權(quán)重參數(shù),Whh:隱含層到隱含層的權(quán)重參數(shù),Woh:隱含層到輸出層的權(quán)重參數(shù),bh:隱含層的偏移量,bo輸出層的偏移量,h0:起始狀態(tài)的隱含層的輸出,一般初始為0。 遞歸神經(jīng)網(wǎng)絡(luò)模型遞歸神經(jīng)網(wǎng)絡(luò)模型39隨時(shí)間反向傳播算法隨時(shí)間反向傳播算法BPTT面臨的問題:l 梯度消失問題l 梯度爆炸問題解決方案:l 選擇其他的激活函數(shù)。例如ReLU。l 引入改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)制,例如LSTM,GRU。l 現(xiàn)在在自然語言處理上應(yīng)用十分廣的的就是現(xiàn)在在自然語言處理上應(yīng)用十
10、分廣的的就是LSTM。4:自然語言處理基礎(chǔ)404.1:什么是自然語言處理?概念:研究人和計(jì)算機(jī)之間用自然語言進(jìn)行通信的各種理論和方法414.2:詞向量:詞向量421:傳統(tǒng)的One-Hot Encode離散單獨(dú)符號(hào)表示單詞將一個(gè)單詞轉(zhuǎn)換成一個(gè)很長(zhǎng)的向量。例子:0,0,0,0,0,1,0缺點(diǎn):A:維數(shù)災(zāi)難,稀疏B:不能反映出單詞之間的相似性 2:分布式表示將一個(gè)單詞表示成固定維度(小維度)向量分布式假設(shè)(distribute):上下文相似的詞,其語義也相似相近的詞相近的詞投影投影到高維空間后距離很近到高維空間后距離很近詞的表示-詞向量4.3:Word2Vec43現(xiàn)在常用的工具是Google2013
11、年開源的Word2Vec:根據(jù)采用的策略和模型我們主要分為以下幾類框架框架 模型模型基于Hierarchical SoftMax策略 CBOW模型Skip-gram模型基于Negative Sampling策略 CBOW模型Skip-gram模型我們主要介紹架是我們主要介紹架是Negative Sampling(負(fù)采樣)模型(負(fù)采樣)模型4.4:工作原理:工作原理44Negative Sampling概念:把語料中一個(gè)詞替換為別的詞,構(gòu)造語料D中不存在的詞串作為負(fù)樣本優(yōu)化目標(biāo)為:最大化正樣本的概率,同時(shí)最小化負(fù)樣本的最大化正樣本的概率,同時(shí)最小化負(fù)樣本的概率概率。例子:假設(shè)我們的目標(biāo)是根據(jù)目標(biāo)詞匯預(yù)測(cè)該目標(biāo)詞匯的上下文語料:The quick brown fox jumped over the lazy dog這里我們的上下文長(zhǎng)度取1;則對(duì)于brown單詞而言正樣本: (brown , quick),(brown , fox)負(fù)樣本: (brown , dog)4.4:工作原理:工作原理45對(duì)于一個(gè)給定的樣本(w , Context(w)),我們使用二項(xiàng)邏輯回歸對(duì)其樣本樣本進(jìn)行建模得Negative Sampling原理原理則其全部正樣本的似然函數(shù)為則其全部負(fù)樣本的似然函數(shù)為4.4:工作原理:工作原理46我們同時(shí)最大化正樣本概率最小化負(fù)樣本的概率就得到下式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 股東協(xié)議終止后公司注銷代理協(xié)議
- 餐飲店員工培訓(xùn)與薪酬體系協(xié)議
- 物業(yè)聯(lián)合服務(wù)協(xié)議書范本
- 婚前財(cái)物退還協(xié)議書范本
- 智慧城市核心區(qū)廠房轉(zhuǎn)租及智能化改造合同
- 燒烤美食城整體租賃及經(jīng)營(yíng)管理協(xié)議
- 【課件】密度的應(yīng)用.-2024-2025學(xué)年八年級(jí)物理人教版(2024)上冊(cè)
- 茶飲制作培訓(xùn)
- 2024年高爾夫項(xiàng)目建議書
- 機(jī)加工工件全流程管理
- 企業(yè)法務(wù)概論智慧樹知到期末考試答案2024年
- (高清版)DZT 0331-2020 地?zé)豳Y源評(píng)價(jià)方法及估算規(guī)程
- GB/T 7939.1-2024液壓傳動(dòng)連接試驗(yàn)方法第1部分:管接頭
- 低壓配電系統(tǒng)維護(hù)保養(yǎng)及操作規(guī)程
- 肝癌科普講座課件
- 血糖監(jiān)測(cè)小講課ppt
- 學(xué)齡兒童多動(dòng)癥ADHD診治指南課件
- 石膏固定術(shù)課件
- 實(shí)習(xí)生-OFFER正式通知函
- 閑魚開店運(yùn)營(yíng)計(jì)劃書模板
- 雙一流大學(xué)完整版本
評(píng)論
0/150
提交評(píng)論