深度特征融合理解add和concat之多層特征融合_第1頁
深度特征融合理解add和concat之多層特征融合_第2頁
深度特征融合理解add和concat之多層特征融合_第3頁
深度特征融合理解add和concat之多層特征融合_第4頁
深度特征融合理解add和concat之多層特征融合_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

深度特征融合---理解add和concat之多層特征融合一、如何理解concat和add的方式融合特征在各個網(wǎng)絡模型中,ResNet,F(xiàn)PN等采用的element-wiseadd來融合特征,而DenseNet等則采用concat來融合特征。那add與concat形式有什么不同呢?事實上兩者都可以理解為整合特征圖信息。只不過concat比擬直觀,而add理解起來比擬生澀。從圖中可以發(fā)現(xiàn),concat是通道數(shù)的增加;add是特征圖相加,通道數(shù)不變你可以這么理解,add是描述圖像的特征下的信息量增多了,但是描述圖像的維度本身并沒有增加,只是每一維下的信息量在增加,這顯然是對最終的圖像的分類是有益的。而concatenate是通道數(shù)的合并,也就是說描述圖像本身的特征數(shù)〔通道數(shù)〕增加了,而每一特征下的信息是沒有增加。concat每個通道對應著對應的卷積核。而add形式則將對應的特征圖相加,再進行下一步卷積操作,相當于加了一個先驗:對應通道的特征圖語義類似,從而對應的特征圖共享一個卷積核〔對于兩路輸入來說,如果是通道數(shù)相同且后面帶卷積的話,add等價于concat之后對應通道共享同一個卷積核〕。因此add可以認為是特殊的concat形式。但是add的計算量要比concat的計算量小得多。另解釋:對于兩路輸入來說,如果是通道數(shù)相同且后面帶卷積的話,add等價于concat之后對應通道共享同一個卷積核。下面具體用式子解釋一下。由于每個輸出通道的卷積核是獨立的,我們可以只看單個通道的輸出。假設兩路輸入的通道分別為X1,X2,…,Xc和Y1,Y2,…,Yc。那么concat的單個輸出通道為〔*表示卷積〕:而add的單個輸出通道為:因此add相當于加了一種prior,當兩路輸入可以具有“對應通道的特征圖語義類似〞〔可能不太嚴謹〕的性質的時候,可以用add來替代concat,這樣更節(jié)省參數(shù)和計算量〔concat是add的2倍〕。FPN[1]里的金字塔,是希望把分辨率最小但語義最強的特征圖增加分辨率,從性質上是可以用add的。如果用concat,因為分辨率小的特征通道數(shù)更多,計算量是一筆不少的開銷Resnet是做值的疊加,通道數(shù)是不變的,DenseNet是做通道的合并。你可以這么理解,add是描述圖像的特征下的信息量增多了,但是描述圖像的維度本身并沒有增加,只是每一維下的信息量在增加,這顯然是對最終的圖像的分類是有益的。而concatenate是通道數(shù)的合并,也就是說描述圖像本身的特征增加了,而每一特征下的信息是沒有增加。通過keras代碼,觀察了add對參數(shù)的影響,以及concat操作數(shù)組的結果。二、concat實操Concat層解析在channel維度上進行拼接,在channel維度上的拼接分成無BN層和有BN層?!?〕無BN層:直接將deconvolutionlayer和convolutionlayerconcat。實驗結果說明,該方式取得的結果精度較低,低于原有的VGG模型,分析主要的原因是漏檢非常嚴重,原因應該是concat連接的兩層參數(shù)不在同一個層級,類似BN層用在eltwise層上?!?〕有BN層:在deconvolutionlayer和convolutionlayer后面加batchnorm和scale層〔BN〕后再concat。實驗結果說明,該方式取得了比原有VGG模型更好的檢測效果〔表中的迭代次數(shù)還沒有完哦〕,增加了2%的精度,但是速度上慢了一些。總結:concat層多用于利用不同尺度特征圖的語義信息,將其以增加channel的方式實現(xiàn)較好的性能,但往往應該在BN之后再concat才會發(fā)揮它的作用,而在num維度的拼接較多使用在多任務問題上,將在后續(xù)的博客中介紹,總之concat層被廣泛運用在工程研究中。三、concat與add實例3.1Densenet與inception的加寬網(wǎng)絡結構以及ResNet的加深網(wǎng)絡結構不同,DenseNet著重于對每一層featuremaps的重復利用。在一個Denseblock中,每一個卷積層的輸入都是前幾個卷積層輸出的concatenation(拼接),這樣即每一次都結合了前面所得到的特征,來得到后續(xù)的特征。但是,其顯存占用率高的缺點也比擬明顯〔因為concatenation,不過好在后續(xù)有了解決方法:〔論文〕Memory-EfficientImplementationofDenseNets〕。DenseNet優(yōu)勢:〔1〕解決了深層網(wǎng)絡的梯度消失問題〔2〕加強了特征的傳播〔3〕鼓勵特征重用〔4〕減少了模型參數(shù)〔5〕能夠減少小樣本的過擬合問題DensNet缺點:〔1〕非常消耗顯存Densnet根本結構DenseNet的網(wǎng)絡根本結構如上圖所示,主要包含DenseBlock和transitionlayer兩個組成模塊。其中DenseBlock為稠密連接的highway的模塊,transitionlayer為相鄰2個DenseBlock中的那局部。DenseBlock結構上圖是一個詳細的DenseBlock模塊,其中層數(shù)為5,即具有5個BN+Relu+Conv(3*3)這樣的layer,網(wǎng)絡增長率為4,簡單的說就是每一個layer輸出的featuremap的維度為4。由于DenseNet的每一個DenseBlock模塊都利用到了該模塊中前面所有層的信息,即每一個layer都和前面的layer有highway的稠密連接。假設一個具有L層的網(wǎng)絡,那么highway稠密連接數(shù)目為L*(L+1)/2。和Resnet不同的是,這里的連接方式得到的featuremap做的是concat操作,而resnet中做的是elementwise操作。DenseNet降維highway的稠密連接方式具有諸多的優(yōu)勢,增加了梯度的傳遞,特征得到了重用,甚至減少了在小樣本數(shù)據(jù)上的過擬合。但是隨之產(chǎn)生2個缺點:〔1〕DenseBlock靠后面的層的輸入channel過大—每層開始的時候引入Bottleneck:這里假設第L層輸出K個featuremap,即網(wǎng)絡增長率為K,那么第L層的輸入為K0+K*(L-1),其中K0為輸入層的維度。也就是說,對于DenseBlock模塊中每一層layer的輸入featuremap時隨著層數(shù)遞增的,每次遞增為K,即網(wǎng)絡增長率。那么這樣隨著DenseBlock模塊深度的加深,后面的層的輸入featuremap的維度是很大的。為了解決這個問題,在DenseNet-B網(wǎng)絡中,在DenseBlock每一層開始的時候參加了Bottleneck單元,即1x1卷積進行降維,被降到4K維(K為增長率)?!?〕DenseBlock模塊的輸出維度很大—transitionlayer模塊中參加1*1卷積降維每一個DenseBlock模塊的輸出維度是很大的,假設一個L層的DenseBlock模塊,假設其中已經(jīng)參加了Bottleneck單元,那么輸出的維度為,第1層的維度+第2層的維度+第3層的維度+****第L層的維度,加了Bottleneck單元后每層的輸出維度為4K,那么最終DenseBlock模塊的輸出維度為4KL。隨著層數(shù)L的增加,最終輸出的featuremap的維度也是一個很大的數(shù)。為了解決這個問題,在transitionlayer模塊中參加了11卷積做降維。其中,DenseNet-B在原始DenseNet的根底上,在DenseBlock模塊的每一層都參加了1*1卷積,使得將每一個layer輸入的featuremap都降為到4k的維度,大大的減少了計算量。DenseNet-BC在DenseNet-B的根底上,在transitionlayer模塊中參加了壓縮率θ參數(shù),論文中將θ設置為0.5,這樣通過1*1卷積,將上一個DenseBlock模塊的輸出featuremap維度減少一半。附:tensorflow下實現(xiàn)DenseNet對數(shù)據(jù)集cifar-10的圖像分類3.2Feature-FusedSSD:FastDetectionforSmallObjects這里我們嘗試了兩種融合策略:conca

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論