《人工智能技術(shù)基礎(chǔ)》課件 第5章 注意力機(jī)制_第1頁
《人工智能技術(shù)基礎(chǔ)》課件 第5章 注意力機(jī)制_第2頁
《人工智能技術(shù)基礎(chǔ)》課件 第5章 注意力機(jī)制_第3頁
《人工智能技術(shù)基礎(chǔ)》課件 第5章 注意力機(jī)制_第4頁
《人工智能技術(shù)基礎(chǔ)》課件 第5章 注意力機(jī)制_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能技術(shù)基礎(chǔ)注意力機(jī)制第五章

注意力機(jī)制(AttentionMechanism)是人類特有的大腦信號處理機(jī)制。例如,人類視覺通過快速掃描全局圖像獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,也就是一般所說的注意力焦點(diǎn),而后對這一區(qū)域投入更多注意力資源,獲取更多需要關(guān)注目標(biāo)的細(xì)節(jié)信息,抑制其他無用信息,人類的聽覺也具有同樣的功能。5注意力機(jī)制簡介5注意力機(jī)制簡介

注意力機(jī)制是利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息的手段,所以說注意力機(jī)制中最跟本的問題,其實(shí)就是“選擇”。

在深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,一般而言模型的參數(shù)越多則模型的表達(dá)能力越強(qiáng),模型所存儲(chǔ)的信息量也越大,但這會(huì)帶來信息過載的問題。那么通過引入注意力機(jī)制,在眾多的輸入信息中聚焦于對當(dāng)前任務(wù)更為關(guān)鍵的信息,降低對其他信息的關(guān)注度,甚至過濾掉無關(guān)信息,就可以解決信息過載問題,并提高任務(wù)處理的效率和準(zhǔn)確性。下圖為計(jì)算機(jī)視覺中的注意力機(jī)制:紅色表示需要重點(diǎn)關(guān)注的部分,藍(lán)色表示可以酌情忽略的部分。1.

了解注意力機(jī)制的定義和分類;2.掌握軟注意力機(jī)制原理及計(jì)算過程;3.掌握卷積網(wǎng)絡(luò)中常用的通道注意力和空間注意力的特性和應(yīng)用,以及常見的方案和改進(jìn)措施;4.了解自注意力機(jī)制的輸入方式及特性,了解自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用;5.了解互注意力機(jī)制的特性。5注意力機(jī)制學(xué)習(xí)目標(biāo)目錄Contents5.1軟注意力機(jī)制的原理及計(jì)算過程通道注意力和空間注意力自注意力機(jī)制互注意力機(jī)制本章小結(jié)5.25.35.45.501軟注意力機(jī)制的原理及計(jì)算過程5.1軟注意力機(jī)制的原理及計(jì)算過程軟注意力機(jī)制的計(jì)算過程包括3個(gè)步驟:5.1軟注意力機(jī)制的原理及計(jì)算過程軟注意力機(jī)制的計(jì)算過程包括三個(gè)步驟:5.1軟注意力機(jī)制的原理及計(jì)算過程軟注意力機(jī)制的計(jì)算過程包括三個(gè)步驟:5.1軟注意力機(jī)制的原理及計(jì)算過程軟注意力機(jī)制的計(jì)算過程包括三個(gè)步驟:5.1軟注意力機(jī)制的原理及計(jì)算過程軟注意力值計(jì)算過程圖5-1軟注意力值的計(jì)算過程5.1軟注意力機(jī)制的原理及計(jì)算過程常見的廣義軟注意力(鍵值對方式)值的計(jì)算過程鍵1鍵1鍵1鍵1F(Q,K)F(Q,K)F(Q,K)F(Q,K)s1s2s3s4類Softmax()歸一化a1a2a3a4××××值1值1值1值1注意力值查詢階段1階段2階段302通道注意力和空間注意力5.2通道注意力和空間注意力5.2.1通道注意力

在卷積神經(jīng)網(wǎng)絡(luò)中,特征圖代表了原始圖像數(shù)據(jù)的特征,在同一層中,不同的特征圖代表了不同的屬性。顯然,不同屬性對于卷積神經(jīng)網(wǎng)絡(luò)要完成的工作貢獻(xiàn)程度不同,應(yīng)該給予不同的重視程度。由于在卷積神經(jīng)網(wǎng)絡(luò)中,特征圖所在的位置稱為通道,因此,反映對通道重視程度的給通道加權(quán)的方法被稱為通道注意力。5.2通道注意力和空間注意力5.2.1通道注意力(1)ECA-Net圖5-3ECA-Net的結(jié)構(gòu)5.2通道注意力和空間注意力5.2.1通道注意力(2)SK-Net圖5-4多分支通道注意力SK-Net5.2通道注意力和空間注意力5.2.1通道注意力(2)SK-Net圖5-5SK-Net中Fuse操作5.2通道注意力和空間注意力5.2.1通道注意力(2)SK-Net(a)Split-Attention(b)ResNeSt模塊圖5-6SK-Net在ResNeSt模塊中的應(yīng)用5.2通道注意力和空間注意力5.2.2空間注意力

空間注意力類似通道注意力,不同在于它的全局平均池化(GAP)和全局最大值池化(GMP)不是針對通道(特征圖),而是針對同一層內(nèi)的所有特征圖中相同位置的像素進(jìn)行GAP和GMP,并將得到的均值特征圖和最大值特征圖并在一起進(jìn)行卷積操作,卷積生成特征圖的每一個(gè)像素對應(yīng)的神經(jīng)元激活函數(shù)選取Sigmoid函數(shù),得到針對每個(gè)像素加權(quán)值構(gòu)成的特征圖,最后將這一特征圖的像素與原所有特征圖的對應(yīng)像素相乘,為所有特征圖的每個(gè)像素加權(quán)。圖5-7空間注意力模塊及使用5.2通道注意力和空間注意力5.2.3混合注意力

CBAM(ConvolutionalBlockAttentionModule)是著名的混合注意力模塊,它實(shí)質(zhì)上是通道注意力和空間注意力的串行使用,圖5-8給出CBAM模塊及其組成。CBAM的使用方法與SE-Net一樣,圖5-9給出了它的使用方式。圖5-9CBAM的使用5.2通道注意力和空間注意力5.2.3混合注意力5.2通道注意力和空間注意力5.2.3混合注意力

通道注意力和空間注意力既然可以串行構(gòu)成混合注意力,當(dāng)然也可以并行構(gòu)成混合注意力,如圖5-10所示。其使用方式與圖5-9的CBAM相同。圖5-10通道注意力和空間注意力并行構(gòu)成的混合注意力5.2通道注意力和空間注意力5.2.3混合注意力

2021年的論文《CoordinateAttentionforEfficientMobileNetworkDesign》針對輕量化網(wǎng)絡(luò)設(shè)計(jì)提出的CA注意力就是融合了通道和位置信息的混合注意力,它與通道注意力SE-Net、CBAM的區(qū)別如圖5-11所示。圖5-11CA模塊與SE模塊、CBAM模塊的區(qū)別03自注意力機(jī)制5.3自注意力機(jī)制

自注意力機(jī)制概念5.3自注意力機(jī)制5.3.1自注意力機(jī)制的輸入方式及特性應(yīng)用中自注意力機(jī)制存在兩種輸入方式:全輸入和掩膜輸入。1.全輸入5.3自注意力機(jī)制5.3.1自注意力機(jī)制的輸入方式及特性1.全輸入圖5-12全輸入自注意力機(jī)制的計(jì)算過程5.3自注意力機(jī)制5.3.1自注意力機(jī)制的輸入方式及特性2.逐項(xiàng)輸入(掩膜輸入)5.3自注意力機(jī)制5.3.1自注意力機(jī)制的輸入方式及特性2.逐項(xiàng)輸入(掩膜輸入)圖5-13掩膜輸入自注意力機(jī)制的計(jì)算過程5.3自注意力機(jī)制5.3.1自注意力機(jī)制的輸入方式及特性

圖5-14給出了全輸入自注意力機(jī)制和掩膜輸入自注意力機(jī)制所建立的輸出輸入關(guān)系圖,圖中虛線代表的是虛擬連接。

(a)全輸入

(b)掩膜輸入圖5-14自注意力機(jī)制的虛擬連接圖5.3自注意力機(jī)制5.3.1自注意力機(jī)制的輸入方式及特性

全連接網(wǎng)絡(luò)建立的輸入輸出關(guān)系不是輸入序列與輸出序列之間的關(guān)系,而是單一輸入和輸出之間的關(guān)系,其連接邊數(shù)是固定不變的(與矢量的個(gè)數(shù),即特征長度相關(guān)),它是實(shí)體模型(圖5-15(a)),因而不能處理長度可變的序列。(a)全連接模型

(b)自注意力模型圖5-15全連接模型與自注意力模型的區(qū)別5.3自注意力機(jī)制5.3.2自注意力機(jī)制與RNN區(qū)別

圖5-16給出了普通RNN按輸入信息順序展開的結(jié)構(gòu)圖(a)和其對應(yīng)的簡圖(b)。圖5-17給出了雙向RNN按輸入信息順序展開的結(jié)構(gòu)圖(a)和其對應(yīng)的簡圖(b)。(a)

(b)

圖5-16普通RNN按輸入時(shí)序展開結(jié)構(gòu)圖及簡圖5.3自注意力機(jī)制5.3.2自注意力機(jī)制與RNN區(qū)別

對比自注意力機(jī)制的虛擬連接圖5-14和RNN按輸入時(shí)序展開的結(jié)構(gòu)簡圖,可以看到全輸入的自注意力機(jī)制和雙向RNN,掩膜輸入的自注意力機(jī)制和普通RNN在形式上基本一致。但是它們本質(zhì)上是不同的,從神經(jīng)網(wǎng)絡(luò)角度看,自注意力機(jī)制模型是依據(jù)輸入數(shù)據(jù)的自相關(guān)性的線性前向神經(jīng)網(wǎng)絡(luò),而RNN是有隱層反饋連接的循環(huán)神經(jīng)網(wǎng)絡(luò)。圖5-17雙向RNN按輸入時(shí)序展開結(jié)構(gòu)圖及簡圖5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用

圖5-18是視覺中自注意力的基本結(jié)構(gòu),F(xiàn)eatureMaps是由基本的深度卷積網(wǎng)絡(luò)得到的特征圖,如ResNet、Xception等,這些基本的深度卷積網(wǎng)絡(luò)被稱為backbone,通常將最后ResNet的兩個(gè)下采樣層去除,使獲得的特征圖是原輸入圖像的1/8大小。圖5-18自注意力機(jī)制在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用

2017年,何凱明等人提出的Non-localNeuralNetworks(圖5-19)是著名的視覺自注意力方法,本質(zhì)上就是在卷積網(wǎng)絡(luò)中的某一位置加入自注意力,再加一個(gè)殘差連接的模塊。這種方法在卷積網(wǎng)絡(luò)中的應(yīng)用可以建立某層所有特征之間的聯(lián)系,提高卷積網(wǎng)絡(luò)的性能。由于計(jì)算需求大,建議盡量在卷積網(wǎng)絡(luò)的高層應(yīng)用。圖5-19Non-localNeuralNetworks5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用DANet(DualAttentionNetworks)(圖5-20)則是將視覺通道自注意力和空間自注意力并行相加,它在語義分割中取得了良好效果。DANet中的空間自注意力模塊和通道自注意力模塊都是Non-localblock。圖5-20DANet(DualAttentionNetworks)5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用

圖5-21給出了兩種視覺注意力的細(xì)節(jié),空間注意力模塊中B、C、D均由輸入A經(jīng)過CNN獲得,維度均為C×H×W,然后將它們都Reshape(塑形)成C×N(N=H×W),然后將B的轉(zhuǎn)置與C相乘得到N×N的矩陣,矩陣的每個(gè)元素表示所有特征圖上的不同像素點(diǎn)之間的關(guān)系,提取的是空間信息。(a)空間自注意力模塊(b)通道自注意力模塊圖5-21DANet中的兩種視覺自注意力模塊5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用

自注意力不僅能在處理圖像的卷積神經(jīng)網(wǎng)絡(luò)中應(yīng)用,還可以在處理視頻的CNN-RNN中應(yīng)用。圖5-22給出了處理視頻序列的CNN-RNN中的自注意力機(jī)制,由于這種自注意力是加在時(shí)間維度上,針對時(shí)序任務(wù)的,也被稱為時(shí)間注意力機(jī)制。圖5-22CNN-RNN中的自注意力機(jī)制5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用

圖5-22是以行人視頻序列為例展示的時(shí)間自注意力。行人序列中的個(gè)別幀通常會(huì)出現(xiàn)遮擋問題,為此要對視頻序列中的每一幀進(jìn)行加權(quán),更準(zhǔn)確的獲取針對整個(gè)序列的行人特征。(a)K和V的生成(b)q的生成(c)注意力權(quán)重的生成與時(shí)間注意力機(jī)制的實(shí)現(xiàn)圖5-23時(shí)間注意力的實(shí)現(xiàn)過程5.3自注意力機(jī)制5.3.3自注意力機(jī)制在視覺領(lǐng)域的應(yīng)用04互注意力機(jī)制5.4互注意力機(jī)制

如果軟注意力機(jī)制中的K和V來自輸入信息,Q來自輸出信息,由于既用到輸入信息,又用到輸出信息,因此稱為互注意力機(jī)制?;プ⒁饬C(jī)制是一種通用的思想,本身不依賴于特定框架,但是常結(jié)合Encoder-Decoder(編碼器#譯碼器)框架使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論