版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
機器學(xué)習(xí)深度學(xué)習(xí)—注意力機制復(fù)旦大學(xué)趙衛(wèi)東注意力機制復(fù)旦大學(xué)趙衛(wèi)東Seq2seq模型Seq2seq模型最早是在2013年由cho等人提出一種RNN模型。Seq2seq模型是序列對序列的模型,本質(zhì)上是一種多對多的RNN模型,也就是輸入序列和輸出序列不等長的RNN模型。Seq2seq廣泛應(yīng)用在機器翻譯、文本摘要、語音識別、文本生成、AI寫詩等。復(fù)旦大學(xué)趙衛(wèi)東注意力機制模型2014年復(fù)旦大學(xué)趙衛(wèi)東注意力機制模型復(fù)旦大學(xué)趙衛(wèi)東注意力機制模型復(fù)旦大學(xué)趙衛(wèi)東注意力計算語義表示向量ct復(fù)旦大學(xué)趙衛(wèi)東Seq2seq與注意力機制模型(1)注意力機制本質(zhì)上是一種注意力資源分配的模型。編碼器將輸入編碼成上下文向量C,在解碼時每一個輸出Y都會不加區(qū)分的使用這個C進行解碼。注意力模型根據(jù)序列的每個時間步將編碼器編碼為不同C,在解碼時,結(jié)合每個不同的C進行解碼輸出。復(fù)旦大學(xué)趙衛(wèi)東Seq2seq與注意力機制模型(2)一段漢譯英的機器翻譯注意力模型圖解示意圖復(fù)旦大學(xué)趙衛(wèi)東機器翻譯(1)編碼器復(fù)旦大學(xué)趙衛(wèi)東機器翻譯(2)解碼器復(fù)旦大學(xué)趙衛(wèi)東機器翻譯(3)注意力機制復(fù)旦大學(xué)趙衛(wèi)東機器翻譯(2)復(fù)旦大學(xué)趙衛(wèi)東語言模型復(fù)旦大學(xué)趙衛(wèi)東WordVec詞嵌入模型復(fù)旦大學(xué)趙衛(wèi)東2013年Google團隊發(fā)表了Word2VecWord2Vec模型主要包含兩個模型:CBOW和skip-gram,可以較好地表達不同詞之間的相似和類比關(guān)系。上下文詞的one-hot表示和輸入詞矩陣相乘后得到的詞向量求和再平均的值CBOWskip-gramGlove模型復(fù)旦大學(xué)趙衛(wèi)東GloVe是斯坦福大學(xué)在2014年發(fā)表的一種詞嵌入技術(shù)。相較于由Google的Mikolov等人在2013年提出來的Word2Vec,GloVe充分利用了語料,訓(xùn)練出來的詞向量質(zhì)量更好。自注意力self-attention(1)self-attention:輸入的句子自身跟自身做attention,是一個查詢(Query)到一系列鍵-值對(Key-Value)的映射。應(yīng)用于transformer(2017年),Bert(2018年)等架構(gòu)。AttentionisAllYouNeed:https:///abs/1706.03762復(fù)旦大學(xué)趙衛(wèi)東自注意力self-attention(2)復(fù)旦大學(xué)趙衛(wèi)東自注意力self-attention(3)復(fù)旦大學(xué)趙衛(wèi)東Transformer為什么Q和K使用不同的權(quán)重矩陣生成?如果不用Q,attentionscore矩陣是一個對稱矩陣,泛化能力很差。在不同空間上的投影,增加了表達能力,這樣計算得到的attentionscore矩陣的泛化能力更高。自注意力self-attention(4)復(fù)旦大學(xué)趙衛(wèi)東在進行Softmax之前需要對attention除以d的平方根?假設(shè)Q和K的均值為0,方差為1。它們乘積得到的矩陣均值為0,方差為d,因此使用d的平方根用于縮放。自注意力self-attention(5)復(fù)旦大學(xué)趙衛(wèi)東自注意力self-attention(6)復(fù)旦大學(xué)趙衛(wèi)東多頭自注意力multi-headself-attention(1)復(fù)旦大學(xué)趙衛(wèi)東多頭自注意力multi-headself-attention(2)復(fù)旦大學(xué)趙衛(wèi)東多頭自注意力multi-headself-attention(3)復(fù)旦大學(xué)趙衛(wèi)東在進行多頭注意力的時候需要對每個head進行降維?將原有的高維空間轉(zhuǎn)化為多個低維空間并再最后進行拼接,形成同樣維度的輸出,借此豐富特性信息,降低了計算量。Self-Attention雖然能很好解決語句中各單詞之間的相關(guān)性問題,但由于self-attention在計算時并不考慮兩個單詞之間的位置關(guān)系,導(dǎo)致在decoder時無法解決語句中單詞順序的問題。在Transformer中計算PositionEncoding所使用的公式為:pos:當(dāng)前詞在句子中的位置,i:向量中每個值的index將得到的PositionalEncoding與embedding的值相加,作為輸入。
位置編碼復(fù)旦大學(xué)趙衛(wèi)東Transformer的位置編碼Transformer使用了固定的positionalencoding來表示token在句子中的絕對位置信息.自注意力的可視化多頭復(fù)旦大學(xué)趙衛(wèi)東自注意力的實現(xiàn)(1)復(fù)旦大學(xué)趙衛(wèi)東自注意力的實現(xiàn)(2)復(fù)旦大學(xué)趙衛(wèi)東Transformer復(fù)旦大學(xué)趙衛(wèi)東encoder和decoder的self-attention層和ffn層都有殘差連接。反向傳播的時候不會造成梯度消失。轉(zhuǎn)化輸入與輸出句長Transformer復(fù)旦大學(xué)趙衛(wèi)東Encoder復(fù)旦大學(xué)趙衛(wèi)東Transformer塊使用LayerNorm句子長度不一致,并且各個batch的信息沒什么關(guān)系,因此只考慮句子內(nèi)信息的歸一化(BN)。Decoder復(fù)旦大學(xué)趙衛(wèi)東Bert模型復(fù)旦大學(xué)趙衛(wèi)東機器翻譯復(fù)旦大學(xué)趙衛(wèi)東Bert用于分類復(fù)旦大學(xué)趙衛(wèi)東Mask語言模型復(fù)旦大學(xué)趙衛(wèi)東摘要抽取復(fù)旦大學(xué)趙衛(wèi)東Bert其他應(yīng)用復(fù)旦大學(xué)趙衛(wèi)東動態(tài)鍵值記憶網(wǎng)絡(luò)(DynamicKey-ValueMemoryNetworks.)JianiZhang,XingjianShi,IrwinKing,etal.DynamicKey-ValueMemoryNetworksforKnowledgeTracing.W
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物聯(lián)網(wǎng)設(shè)備安全認(rèn)證標(biāo)準(zhǔn)研究-洞察分析
- 移動端頁面加載速度提升-洞察分析
- 新型搪瓷材料應(yīng)用研究-洞察分析
- 《牢筑保密長城》課件
- 《C概率及其運算》課件
- 《爬升模板施工》課件
- 《產(chǎn)品設(shè)計手板工藝》課件
- 從科研到應(yīng)用農(nóng)業(yè)科技園區(qū)的技術(shù)轉(zhuǎn)移
- 辦公技術(shù)的演進及企業(yè)如何借助對沖基金保持競爭力
- 親子閱讀一種有效的互動方式
- 小學(xué)學(xué)科競賽頒獎詞
- 《生產(chǎn)異常培訓(xùn)》課件
- 數(shù)學(xué)分析(一)試卷1
- 隧道工程監(jiān)控量測
- 2024年管理學(xué)理論考核試題及答案
- 2024人教版初中英語單詞詞匯表默寫背誦(中考復(fù)習(xí)必背)
- 食材配送(大米)服務(wù)方案(技術(shù)標(biāo))
- 分級護理服務(wù)細(xì)化標(biāo)準(zhǔn)
- 外研社英語教材(一年級起點版)六年級上冊知識點總結(jié)
- 第一章 神農(nóng)本草經(jīng)
- 盾構(gòu)施工典型事故
評論
0/150
提交評論