圖像異常檢測(cè)研究現(xiàn)狀綜述

上傳人：笑*** IP屬地：廣東上傳時(shí)間：2022-09-26 格式：DOCX 頁(yè)數(shù)：31 大小：36.89KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、圖像異常檢測(cè)研究現(xiàn)狀綜述異常檢測(cè)是機(jī)器學(xué)習(xí)領(lǐng)域中一項(xiàng)重要的研究?jī)?nèi)容. 它是一種利用無(wú)標(biāo)注樣本或者正常樣本構(gòu)建檢測(cè)模型1, 檢測(cè)與期望模式存在差異的異常樣本的方法. 異常檢測(cè)在各種領(lǐng)域中都有廣泛的應(yīng)用, 如網(wǎng)絡(luò)入侵檢測(cè)、信號(hào)處理、工業(yè)大數(shù)據(jù)分析、異常行為檢測(cè)和圖像與視頻處理等.早期的異常檢測(cè)算法大多應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域, 而近年來(lái)隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)等相關(guān)技術(shù)的發(fā)展, 許多相關(guān)工作將異常檢測(cè)引入到圖像處理領(lǐng)域來(lái)解決樣本匱乏情況下的目標(biāo)檢測(cè)問(wèn)題.傳統(tǒng)的目標(biāo)檢測(cè)算法中很大一部分方法屬于監(jiān)督學(xué)習(xí)的范疇, 即需要收集足夠的目標(biāo)類別樣本并進(jìn)行精確的標(biāo)注, 比如圖像的類別、圖像中目標(biāo)的位置以及每一個(gè)像素點(diǎn)

2、的類別信息等2-3. 然而, 在許多應(yīng)用場(chǎng)景下, 很難收集到足夠數(shù)量的樣本. 例如, 在表面缺陷檢測(cè)任務(wù)當(dāng)中, 實(shí)際收集到的圖像大部分屬于正常的無(wú)缺陷樣本, 僅有少部分屬于缺陷樣本, 而需要檢測(cè)的缺陷類型又十分多樣, 這就使得可供訓(xùn)練的缺陷樣本的數(shù)量十分有限4. 又比如在安檢任務(wù)當(dāng)中, 不斷會(huì)有新的異常物品出現(xiàn)5. 而對(duì)于醫(yī)學(xué)圖像中病變區(qū)域的識(shí)別任務(wù), 不僅帶有病變區(qū)域的樣本十分稀少, 對(duì)樣本進(jìn)行手工標(biāo)注也十分耗時(shí)6. 在這些情況下, 由于目標(biāo)類別樣本的缺乏, 傳統(tǒng)的目標(biāo)檢測(cè)和圖像分割的方法已不再適用.而異常檢測(cè)無(wú)需任何標(biāo)注樣本就能構(gòu)建檢測(cè)模型的特點(diǎn), 使得其十分適用于上述幾種情況7. 在圖像

3、異常檢測(cè)當(dāng)中, 收集正常圖像的難度要遠(yuǎn)低于收集異常圖像的難度, 能顯著減少檢測(cè)算法在實(shí)際應(yīng)用中的時(shí)間和人力成本. 而且, 在異常檢測(cè)中模型是通過(guò)分析與正常樣本之間的差異來(lái)檢測(cè)異常樣本, 這使得異常檢測(cè)算法對(duì)各種類型甚至是全新的異常樣本都具有檢測(cè)能力. 雖然標(biāo)注樣本的缺失給圖像異常檢測(cè)帶來(lái)了許多問(wèn)題和挑戰(zhàn), 不過(guò)由于上述各種優(yōu)點(diǎn), 如表1所示, 已經(jīng)有許多方法將圖像異常檢測(cè)應(yīng)用在各種領(lǐng)域中. 因此, 圖像異常檢測(cè)問(wèn)題具有較高的研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值.表1圖像異常檢測(cè)的應(yīng)用領(lǐng)域Table1Applications of image anomaly detectionN2. 圖像異常檢測(cè)技術(shù)研究現(xiàn)狀

4、2.2.2 基于分類面構(gòu)建的異常檢測(cè)方法基于分類面構(gòu)建的方法, 其核心思想在于將單類正常樣本轉(zhuǎn)換成多類別樣本以訓(xùn)練分類器, 通過(guò)這種方式來(lái)在圖像空間中構(gòu)建分類面, 實(shí)現(xiàn)對(duì)正常樣本和潛在的異常樣本的分類. 常用的基于分類面構(gòu)建的方法大致包含以下兩個(gè)類別:1)第一類方法將原始單類樣本通過(guò)幾何變換得到多類別樣本, 并結(jié)合在分布外檢測(cè)(Out-of-distribution, OOD)99任務(wù)當(dāng)中比較常見的基于置信度的方法來(lái)進(jìn)行異常檢測(cè).OOD檢測(cè)任務(wù)與異常檢測(cè)任務(wù)目標(biāo)非常相似, 同樣也需要模型對(duì)訓(xùn)練過(guò)程中未出現(xiàn)過(guò)的樣本有檢測(cè)能力, 但OOD的特點(diǎn)在于訓(xùn)練樣本中包含了多個(gè)類別, 所以可以直接在訓(xùn)練樣本

5、上進(jìn)行多分類的訓(xùn)練. Hendrycks等100指出, 由于異常樣本落在正常樣本的分布之外, 分類器對(duì)異常樣本輸出的最大softmax值往往會(huì)低于正常樣本的最大softmax值, 所以可以通過(guò)設(shè)定閾值的方式區(qū)分正常樣本和異常樣本. 由于異常檢測(cè)中訓(xùn)練集僅包含了一類樣本, 所以相關(guān)工作就嘗試通過(guò)對(duì)正常樣本進(jìn)行變換的方式來(lái)構(gòu)建多類別的訓(xùn)練集.如圖17所示, Golan等101采用了以翻轉(zhuǎn)、平移和旋轉(zhuǎn)為基礎(chǔ)的一共72種幾何變換方式來(lái)處理原始圖像, 每一種變換方式下得到的圖像即為一類樣本, 以此構(gòu)建了一個(gè)72類的分類數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)分類網(wǎng)絡(luò). 在檢測(cè)階段, 對(duì)待檢樣本進(jìn)行全部的72種變換并分別進(jìn)行分類

6、, 異常樣本經(jīng)過(guò)變換之后, 網(wǎng)絡(luò)會(huì)無(wú)法確定其對(duì)應(yīng)的變換類別, 使得分類時(shí)輸出的最大softmax值降低, 以此來(lái)進(jìn)行異常圖像的檢測(cè). Hendrycks等102對(duì)該方法進(jìn)行了改進(jìn), 將原本直接的72分類任務(wù)轉(zhuǎn)換成了一個(gè)多任務(wù)(Multi-task)模型, 在提取到的特征圖上進(jìn)行額外的角度和平移量的分類任務(wù), 以此來(lái)提升網(wǎng)絡(luò)特征提取和分類的能力.圖17將單類樣本轉(zhuǎn)換成多類樣本101Fig.17Transforming one-class samples into multi-class samples101第一類方法雖然在CIFAR-10等自然圖像數(shù)據(jù)集上取得了優(yōu)異的成績(jī), 不過(guò)存在著一些限制,

7、如圖18所示, 當(dāng)檢測(cè)目標(biāo)為斑馬時(shí), 網(wǎng)絡(luò)能夠識(shí)別圖像之間存在旋轉(zhuǎn)的關(guān)系. 但如果檢測(cè)目標(biāo)為具有對(duì)稱結(jié)構(gòu)或者沒有方向信息的紋理圖像, 比如圖18第二行所示斑馬表面的黑白紋理, 網(wǎng)絡(luò)無(wú)法直接從紋理圖像中感知到足夠大的差異實(shí)現(xiàn)旋轉(zhuǎn)角的預(yù)測(cè), 此時(shí)強(qiáng)迫網(wǎng)絡(luò)輸出相應(yīng)的角度反而會(huì)影響網(wǎng)絡(luò)的訓(xùn)練過(guò)程101. 類似地, 當(dāng)檢測(cè)目標(biāo)本身存在角度上的顯著變化時(shí)也難以應(yīng)用上述方法. 因此這類方法還需要設(shè)計(jì)更為通用的變換方式以擴(kuò)展其應(yīng)用領(lǐng)域, 充分發(fā)揮其高精度的優(yōu)勢(shì). 此外, 也有相關(guān)的研究指出, 在OOD檢測(cè)任務(wù)中, 分類模型對(duì)異常樣本也有可能會(huì)產(chǎn)生很高的概率值, 影響異常檢測(cè)的過(guò)程103, 這同樣是一個(gè)值得進(jìn)

8、一步研究和改進(jìn)的內(nèi)容.圖18不同圖像上旋轉(zhuǎn)效果對(duì)比102Fig.18Comparison of rotation on different images1022)第二類方法則考慮結(jié)合傳統(tǒng)方法中OC-SVM或者SVDD的思路, 構(gòu)建盡可能貼合正常樣本分布的分類面來(lái)進(jìn)行異常檢測(cè). 這類方法大多將正常樣本當(dāng)作正樣本, 并采用額外的輔助樣本作為負(fù)樣本, 以此在圖像空間中構(gòu)建正常和異常圖像間的分類面.Oza等104利用預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)提取正常圖像的特征作為正樣本, 同時(shí)在特征空間中使用以原點(diǎn)為中心的隨機(jī)高斯噪聲向量作為負(fù)樣本, 以此來(lái)訓(xùn)練一個(gè)分類網(wǎng)絡(luò). 不過(guò)這種方法僅使用高斯噪聲作為負(fù)樣本, 負(fù)樣本比

9、較單一且容易分類, 很容易出現(xiàn)過(guò)擬合的問(wèn)題導(dǎo)致網(wǎng)絡(luò)無(wú)法檢測(cè)新的異常樣本. Hendrycks等105注意到了隨機(jī)生成的簡(jiǎn)單噪聲樣本的不足, 因此從別的圖像數(shù)據(jù)集中選取圖像作為負(fù)樣本來(lái)訓(xùn)練分類模型.然而上述方法在選取負(fù)樣本時(shí)沒有考慮到正常樣本的分布情況, 在這種情況下訓(xùn)練得到的分類效果就無(wú)法保證. 當(dāng)選擇的負(fù)樣本距離正常樣本較遠(yuǎn)時(shí), 網(wǎng)絡(luò)容易出現(xiàn)過(guò)擬合的現(xiàn)象, 導(dǎo)致其無(wú)法對(duì)真正的異常樣本進(jìn)行分類. 而如果選擇的樣本與正常樣本的分布過(guò)于相似, 也可能出現(xiàn)網(wǎng)絡(luò)無(wú)法訓(xùn)練的問(wèn)題.因此, 許多方法嘗試在正常樣本分布區(qū)域附近通過(guò)生成式模型創(chuàng)建負(fù)樣本. 而生成式對(duì)抗網(wǎng)絡(luò)(Generative adversar

10、ial network, GAN)106是近年來(lái)備受關(guān)注的生成式模型, 有許多方法就結(jié)合GAN來(lái)進(jìn)行分類器的訓(xùn)練. GAN的結(jié)構(gòu)如圖19所示, 在GAN的訓(xùn)練過(guò)程中, 目標(biāo)函數(shù)一般可以表示為:圖19GAN結(jié)構(gòu)示意圖15Fig.19The structure of GAN15minGmaxDEXlnD(X)+Ezln(1D(G(z)(8)其中,G和D分別代表生成器和判別器,X是真實(shí)樣本,z是隨機(jī)的噪聲向量,G(z)即為生成的樣本.為了對(duì)抗不斷優(yōu)化的判別器, 生成器所生成的圖像質(zhì)量會(huì)不斷提升, 最終能生成清晰且真實(shí)的樣本圖像, 而Sabokrou等107-108注意到在GAN訓(xùn)練的中期, 生成的依

11、然是低質(zhì)量的圖像, 鑒于其與正常圖像之間存在一定的相似性, 此時(shí)的判別器正好可以作為一個(gè)分類器進(jìn)行圖像異常檢測(cè). 將自編碼器作為生成器, 并且附加了一個(gè)分類網(wǎng)絡(luò)作為判別器. 在自編碼器訓(xùn)練過(guò)程中采用了Early-stop109的策略, 即當(dāng)重構(gòu)誤差小于特定閾值時(shí)就停止自編碼器的訓(xùn)練避免生成過(guò)于真實(shí)的樣本, 如果過(guò)度訓(xùn)練反而會(huì)影響判別器對(duì)真實(shí)異常樣本的分類性能110. 利用此時(shí)的自編碼器處理正常樣本就能得到大量接近正常樣本的合成圖像. 而判別器為了區(qū)分這些樣本和正常樣本, 就需要在正常樣本周圍構(gòu)建分類面, 足夠貼合的分類面為該方法提供了良好的異常檢測(cè)性能. Yang等110和Chatillon等

12、111也采取了相似的策略, 不同的是, Yang等是通過(guò)分析損失函數(shù)曲線的方式人工設(shè)定Early-stop的節(jié)點(diǎn). Chatillon等是在GAN訓(xùn)練完畢之后, 選擇一部分訓(xùn)練中期的生成器權(quán)重, 用來(lái)生成低質(zhì)量樣本作為分類時(shí)使用的負(fù)樣本, 并且還給出了一部分?jǐn)?shù)學(xué)上的證明以表達(dá)該方法的有效性. Zaheer等112同樣將原始GAN中的生成器換成了自編碼器, 并且將判別器的任務(wù)從區(qū)分真實(shí)圖像和生成圖像轉(zhuǎn)換成了區(qū)分正常圖像和異常圖像, 其中在訓(xùn)練階段使用的異常圖像同樣是借助未充分訓(xùn)練的生成器得到的.這類方法都采用了Early-stop來(lái)避免生成器過(guò)度優(yōu)化, 為此還需要進(jìn)行反復(fù)的實(shí)驗(yàn)來(lái)確定最優(yōu)的超參數(shù)

13、, 這使得這些方法在應(yīng)用到新的圖像類型中時(shí)需要較長(zhǎng)的調(diào)參過(guò)程. 為了讓模型能夠生成低質(zhì)量樣本又避免反復(fù)調(diào)參, 部分方法開始主動(dòng)探索對(duì)應(yīng)著低質(zhì)量樣本的區(qū)域來(lái)生成負(fù)樣本. Lim等113嘗試在特征空間中生成低質(zhì)量樣本, 在GAN的基礎(chǔ)上, 對(duì)隱變量的分布進(jìn)行了約束, 迫使其分布在原點(diǎn)周圍. 訓(xùn)練完畢后, 距離原點(diǎn)越遠(yuǎn)的特征向量, 其解碼后的圖像質(zhì)量就越差. 因此, 可以通過(guò)在該區(qū)域內(nèi)進(jìn)行采樣和插值等方式得到低質(zhì)量樣本以進(jìn)行分類器的訓(xùn)練. 而Liu等114則通過(guò)修改生成器訓(xùn)練目標(biāo)來(lái)直接生成低質(zhì)量樣本, 該方法用一些正常樣本中最容易被判定為異常圖像的低質(zhì)量樣本來(lái)訓(xùn)練生成器, 在這種情況下生成器的性能就

14、會(huì)被限制, 導(dǎo)致其只能生成低質(zhì)量的樣本. 不過(guò)由于并不是每一批訓(xùn)練樣本中都包含低質(zhì)量樣本, 所以可能會(huì)存在訓(xùn)練不穩(wěn)定的問(wèn)題. 針對(duì)這一點(diǎn), Ngo等115改進(jìn)了生成器訓(xùn)練階段使用的損失函數(shù), 對(duì)于判別器能以較高置信度判別正常與否的樣本都進(jìn)行懲罰, 迫使生成器生成與正常樣本盡量相似又有所區(qū)別的低質(zhì)量樣本. Schlachter等116也采用了類似的思路, 不過(guò)Schlachter并沒有利用GAN, 而是通過(guò)分析正常樣本特征之間的距離將訓(xùn)練樣本分成了典型和非典型兩類, 典型樣本特征之間的距離較小而非典型樣本特征之間的距離較大. 隨后在兩種樣本之間構(gòu)建分類面, 以區(qū)分位于非典型樣本區(qū)域之外的異常樣本

15、.Goyal等117提出的魯棒單類別分類(Deep robust one-class classification, DROCC)是這一類方法的最新工作, 僅采用了一個(gè)分類器進(jìn)行異常檢測(cè), 并通過(guò)梯度上升自動(dòng)生成最適合現(xiàn)有數(shù)據(jù)的異常樣本作為負(fù)樣本. 在分類器訓(xùn)練的初期, 僅使用正常樣本進(jìn)行訓(xùn)練并希望分類器對(duì)全部樣本輸出相同的結(jié)果. 而在后續(xù)的訓(xùn)練過(guò)程中, 對(duì)于每一個(gè)正常樣本, 都通過(guò)梯度上升的方式, 在以正常樣本為中心半徑為r的圖像空間中尋找潛在的負(fù)樣本并進(jìn)行二分類的訓(xùn)練. 該方法在各種類型的數(shù)據(jù)集上都表現(xiàn)出優(yōu)異的性能. 不過(guò)該方法依然存在一個(gè)需要調(diào)節(jié)的超參數(shù)r, 而且從實(shí)驗(yàn)結(jié)果來(lái)看不同的半徑

16、r會(huì)對(duì)分類器的檢測(cè)性能產(chǎn)生較大的影響, 因此同樣需要反復(fù)實(shí)驗(yàn)來(lái)得到最合適的半徑.圖20展示了上述幾種需要構(gòu)建負(fù)樣本來(lái)訓(xùn)練分類網(wǎng)絡(luò)的方法示意圖. 其中(a)(d)分別展示了利用隨機(jī)噪聲104、利用隨機(jī)圖像105、利用GAN110-115以及利用梯度上升117來(lái)創(chuàng)建負(fù)樣本的方法. 其中實(shí)心與空心的圓點(diǎn)分別代表了正常樣本與生成的負(fù)樣本. 實(shí)線與虛線則分別代表了分類器對(duì)正常樣本和異常樣本的決策邊界. 而點(diǎn)劃線代表著兩者之間的不確定區(qū)域. 曲線上的數(shù)字代指分類器的輸出值, 越高表示分類器越肯定該圖像為正常圖像, 反之亦然. 對(duì)于(a)和(b)方法, 由于隨機(jī)的噪聲或者圖像與正常樣本之間并沒有關(guān)聯(lián), 所以

17、構(gòu)建出的分類面中存在大量的不確定區(qū)域, 分類器無(wú)法很好地鑒別位于這些區(qū)域內(nèi)的圖像進(jìn)而影響檢測(cè)性能. 而后兩種方法都主動(dòng)在正常圖像周圍生成低質(zhì)量圖像作為負(fù)樣本, 而且梯度上升的方法更是顯式地約束了生成圖像到正常圖像的距離, 這些方法由于采用的負(fù)樣本更加貼近正常圖像, 因此訓(xùn)練得到的分類器能夠產(chǎn)生更加緊密的決策邊界和更小的不確定區(qū)域, 異常檢測(cè)精度更高.圖20需要構(gòu)建負(fù)樣本的幾種方法的示意圖Fig.20The graphical illustration of the methods based on creating fake-negative samples然而, 這些利用負(fù)樣本構(gòu)建分類面的方

18、法存在較多的假設(shè)和隨機(jī)性, 大多難以直觀地控制所生成負(fù)樣本的圖像質(zhì)量和分布, 雖然DROCC嘗試通過(guò)梯度上升的方式生成負(fù)樣本, 但調(diào)參過(guò)程較為繁瑣. 而且這些方法所生成樣本的分布特性大多只是在二維或三維空間進(jìn)行了可視化驗(yàn)證, 在更高維的復(fù)雜圖像或者特征空間中, 或許就無(wú)法得到理想的緊致分類面, 這或許就是第二種方法在精度上略低于第一種幾何變換類的方法的原因102,117. 所以, 如何更直觀有效地設(shè)計(jì)負(fù)樣本生成算法使其緊密分布在正常樣本周圍依然是一個(gè)需要解決的問(wèn)題.2.2.3 基于圖像重構(gòu)的異常檢測(cè)方法基于圖像重構(gòu)的方法, 其核心思想在于對(duì)輸入的正常圖像進(jìn)行編解碼, 并以重構(gòu)輸入為目標(biāo)訓(xùn)練神經(jīng)

19、網(wǎng)絡(luò), 以此來(lái)學(xué)習(xí)正常圖像的分布模式. 然后在檢測(cè)階段通過(guò)分析重構(gòu)前后圖像之間的差異來(lái)進(jìn)行異常檢測(cè). 根據(jù)采取的訓(xùn)練模式, 常用的基于圖像重構(gòu)的方法大致包含基于自編碼器和基于生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks, GAN)兩種類型.1)在基于圖像重構(gòu)的方法中, 最為常用的網(wǎng)絡(luò)結(jié)構(gòu)為自編碼器(Autoencoder, AE)118-119. 僅利用正常樣本訓(xùn)練得到的自編碼器, 在測(cè)試階段能夠良好地重構(gòu)正常圖像. 而對(duì)于存在異常的圖像, 在圖像編碼以及后續(xù)的重構(gòu)過(guò)程中都會(huì)與正常圖像產(chǎn)生較大的差異, 而差異的大小即為衡量待測(cè)樣本異常程度的指標(biāo).自編碼器的結(jié)構(gòu)

20、如圖21所示, 其一般由一個(gè)編碼器和一個(gè)解碼器組成, 且兩者的網(wǎng)絡(luò)結(jié)構(gòu)一般是對(duì)稱的. 其中, 編碼器在網(wǎng)絡(luò)前向傳播過(guò)程中不斷縮小特征圖的尺寸, 以此來(lái)刪除冗余的信息. 而解碼器負(fù)責(zé)對(duì)特征進(jìn)行解碼, 得到與輸入圖像相同大小的圖像, 通過(guò)計(jì)算重構(gòu)前后圖像之間的差異來(lái)訓(xùn)練網(wǎng)絡(luò). 而在此過(guò)程中最為常用的損失函數(shù)就是均方誤差(Mean square error, MSE)120. MSE用重構(gòu)前后圖像中所有像素點(diǎn)上的像素值之差的平方均值來(lái)衡量圖像重構(gòu)的質(zhì)量. 訓(xùn)練結(jié)束后, 由于瓶頸結(jié)構(gòu)的存在, 對(duì)于一些異常區(qū)域面積較小的樣本, 自編碼器能夠在圖像編解碼的過(guò)程中消除異常區(qū)域的影響, 重構(gòu)出一張正常圖像作為

21、參考, 隨后可以通過(guò)逐像素比較的方式得到異常區(qū)域.圖21自編碼器的結(jié)構(gòu)119Fig.21The structure of autoencoder119很多方法利用自編碼器來(lái)進(jìn)行異常檢測(cè)121-123. Mei等119利用降噪自編碼器來(lái)進(jìn)行紋理圖像的異常區(qū)域定位, 將樣本切分成一系列小的圖像片并分別進(jìn)行重構(gòu). 此外, Mei等還表明結(jié)合多尺度的策略124, 即在多個(gè)不同尺度下對(duì)圖像進(jìn)行重構(gòu)可以有效地提升異常的定位精度.除了重構(gòu)誤差, 近期有一些方法開始利用圖像重構(gòu)中得到的梯度信息來(lái)進(jìn)行異常檢測(cè). Kwon等125指出, 重構(gòu)誤差一般僅衡量了在中間層特征空間以及最后的圖像空間內(nèi)的差異. 但如果分析

22、梯度差異, 則可以從重構(gòu)網(wǎng)絡(luò)的任意一層處獲取并進(jìn)行比較, 這使得基于梯度的方法能從更全面的角度衡量待測(cè)圖像的異常程度. 此外, Zimmerer等126表明在異常樣本上計(jì)算得到的梯度還提供了額外的方向信息輔助分類. 對(duì)于圖像而言, 異常圖像上計(jì)算得到的梯度其實(shí)就代表著朝向正常樣本的優(yōu)化方向. 這些優(yōu)點(diǎn)使得梯度向量相比于簡(jiǎn)單的重構(gòu)損失能提供更加完備的信息. Zimmerer等126首先將梯度信息引入到了異常檢測(cè)任務(wù)中, 通過(guò)計(jì)算變分自編碼器(Variational autoencoder, VAE)中證據(jù)下界(Evidence lower bound, ELBO)相對(duì)于輸入圖像的梯度來(lái)進(jìn)行異常檢

23、測(cè). Kwon等125利用余弦相似度來(lái)計(jì)算正常樣本梯度向量之間的角度, 以此來(lái)構(gòu)建正常樣本梯度向量的方向一致性約束. 在測(cè)試階段出現(xiàn)不滿足該一致性約束的梯度向量時(shí), 則認(rèn)為該圖像為異常圖像. Chu等127則從一個(gè)全新的角度進(jìn)行異常圖像檢測(cè), 們發(fā)現(xiàn)自編碼器在以正常樣本為主的訓(xùn)練集上訓(xùn)練時(shí), 正常圖像的重構(gòu)誤差會(huì)穩(wěn)步下降, 但異常圖像的重構(gòu)誤差則會(huì)出現(xiàn)波動(dòng). 因此, 通過(guò)分析損失函數(shù)的變化曲線(Loss profile)以實(shí)現(xiàn)未標(biāo)記樣本中異常圖像的檢測(cè).不過(guò), 這種基于傳統(tǒng)自編碼器的圖像重構(gòu)方法存在重構(gòu)后圖像比較模糊的問(wèn)題. 自編碼器常用的MSE統(tǒng)計(jì)了每一個(gè)像素點(diǎn)上的重構(gòu)差異, 但由于瓶頸結(jié)構(gòu)

24、的存在, 在編解碼的過(guò)程中會(huì)有信息的丟失, 導(dǎo)致從理論上來(lái)說(shuō)自編碼器無(wú)法保證每一個(gè)像素點(diǎn)上的像素值都不變. 如果迫使MSE接近于0, 則會(huì)得到一個(gè)大致而平均的結(jié)果, 這就使得重構(gòu)后的圖像容易模糊, 在邊緣區(qū)域會(huì)出現(xiàn)較多的差異從而影響后續(xù)的異常定位過(guò)程.對(duì)于自編碼器重構(gòu)較為模糊的問(wèn)題, 早期方法會(huì)嘗試采用VAE并結(jié)合編碼后的特征輔助異常檢測(cè)128, 或者修改重構(gòu)階段的損失函數(shù)120來(lái)進(jìn)行改進(jìn), 不過(guò)效果都比較有限. Abati等129則是在圖像重構(gòu)的基礎(chǔ)上, 引入了自回歸過(guò)程以學(xué)習(xí)潛在表示的概率分布, 并通過(guò)最小化隱變量分布的微分熵來(lái)訓(xùn)練網(wǎng)絡(luò). 相比于VAE, 這種更加靈活的隱變量分布提升了圖像

25、重構(gòu)的質(zhì)量和異常檢測(cè)的能力.此外有方法嘗試通過(guò)修改網(wǎng)絡(luò)結(jié)構(gòu)的方式優(yōu)化重構(gòu)的質(zhì)量, Zhou等16通過(guò)額外增加一條用來(lái)提取圖像結(jié)構(gòu)的支路來(lái)盡可能地保留輸入樣本的信息. 采用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)提取輸入樣本的結(jié)構(gòu)特征, 并且將此特征融合到圖像重構(gòu)的訓(xùn)練過(guò)程中. 此外, 還通過(guò)比較重構(gòu)前后圖像結(jié)構(gòu)信息的方式來(lái)確保重構(gòu)圖像的質(zhì)量.圖22異常樣本的重構(gòu)示意圖130Fig.22The reconstruction of anomalous images130除了重構(gòu)模糊的問(wèn)題, 基于自編碼器的方法還存在著無(wú)法保證完全消除輸入圖像中的異常區(qū)域的問(wèn)題11. 當(dāng)訓(xùn)練樣本比較多樣化時(shí), 自編碼器會(huì)體現(xiàn)出強(qiáng)大的學(xué)習(xí)能力

26、并對(duì)潛在的異常樣本產(chǎn)生過(guò)強(qiáng)的適應(yīng)能力. 如圖22所示, 自編碼器僅使用了數(shù)字8進(jìn)行訓(xùn)練. 在編碼異常圖像數(shù)字1時(shí), 雖然1對(duì)應(yīng)的特征向量在特征空間中會(huì)遠(yuǎn)離正常特征向量的分布區(qū)域, 但重構(gòu)網(wǎng)絡(luò)依然重構(gòu)出了與輸入接近的圖像, 導(dǎo)致其重構(gòu)前后的差異反而較小, 使得一些異常樣本被誤判成正常樣本. 針對(duì)這一問(wèn)題, 大多方法采用對(duì)隱變量進(jìn)行編輯的方式來(lái)解決. Tian等131嘗試?yán)靡粋€(gè)全連接層優(yōu)化待測(cè)圖像的隱變量, 迫使其接近于正常樣本的特征向量, 以此來(lái)保證重構(gòu)后的圖像中不存在異常區(qū)域. 此外, 如圖23所示, Gong等132提出的記憶強(qiáng)化自編碼器(Memory-augmented deep aut

27、oencoder, MemAE)在自編碼器的基礎(chǔ)上, 增加了一個(gè)記憶模塊, 用來(lái)存儲(chǔ)最具有代表性的特征向量以提升圖像重構(gòu)的穩(wěn)定度.圖23隱變量編輯示意圖132Fig.23The editing of latent vector132不過(guò)該方法存在一個(gè)問(wèn)題就是需要大量的空間存儲(chǔ)訓(xùn)練得到的記憶模塊, 文章中一共采用了1000個(gè)記憶向量來(lái)保證特征重構(gòu)的效果. 針對(duì)這一問(wèn)題, Park等133在MemAE的基礎(chǔ)上, 嘗試提升記憶向量學(xué)習(xí)的有效性. 在記憶向量的訓(xùn)練階段, 結(jié)合聚類中類內(nèi)緊致類間可分的思想, 最小化歸屬于同一記憶向量的特征的類內(nèi)距離, 同時(shí)提升不同記憶向量之間的可分度. 通過(guò)增加這兩項(xiàng)損

28、失函數(shù), 將記憶模塊的容量從原先的1000個(gè)降到了10個(gè), 顯著提升了算法的效率. 除了編輯隱變量, Dehaene等134采用直接在圖像空間內(nèi)進(jìn)行迭代優(yōu)化的方式來(lái)消除重構(gòu)圖像中的異常結(jié)構(gòu), 相比于優(yōu)化隱變量再解碼的方式, 這種直接在圖像空間內(nèi)優(yōu)化的方式能更好的保留圖像的細(xì)節(jié). 不過(guò), 上述幾種方法在檢測(cè)階段的優(yōu)化過(guò)程較為煩瑣且耗時(shí). 而Yang等11在隱變量層增加了基于聚類損失的正則項(xiàng)來(lái)避免重構(gòu)出異常區(qū)域, 在紋理圖像上的效果較好, 但缺乏理論上的保證.2)基于GAN的異常檢測(cè)方法大多是利用GAN能生成逼真圖像的特點(diǎn)106, 采用GAN來(lái)重構(gòu)出比自編碼器更加清晰的圖像. 而根據(jù)其具體重構(gòu)方式

29、, 又可分為直接利用GAN重構(gòu)以及結(jié)合AE與GAN重構(gòu)兩個(gè)類型.直接利用GAN重構(gòu)的方法考慮到原始的GAN僅創(chuàng)建了從隱空間到圖像空間的映射關(guān)系, 因此采用迭代優(yōu)化的方式獲得重構(gòu)圖像. Schlegl等15提出的基于GAN的異常檢測(cè)模型(Anomaly detection with generative adversarial network, AnoGAN)從某個(gè)隨機(jī)變量開始, 計(jì)算該變量生成的圖像和待測(cè)圖像之間的差異, 通過(guò)梯度下降的方式迭代優(yōu)化該隨機(jī)變量, 使得生成的圖像逐漸接近待測(cè)圖像. 由于生成器僅使用正常樣本進(jìn)行訓(xùn)練, 所以理論上僅能生成正常樣本. 當(dāng)待測(cè)圖像中存在異常區(qū)域時(shí), 生成

30、器會(huì)生成與其盡量接近但屬于正常類別的圖像作為參考, 通過(guò)計(jì)算待測(cè)圖像和生成圖像之間的差異來(lái)進(jìn)行異常檢測(cè). Deecke等135則在此基礎(chǔ)上進(jìn)行了改進(jìn), 從多個(gè)點(diǎn)開始嘗試對(duì)待測(cè)圖像進(jìn)行重構(gòu), 而且在迭代優(yōu)化過(guò)程中, 同時(shí)優(yōu)化隱變量和生成器內(nèi)部參數(shù), 以此來(lái)提升圖像重構(gòu)的質(zhì)量. AnoGAN已經(jīng)在實(shí)際檢測(cè)任務(wù)中有了相關(guān)的應(yīng)用136, 不過(guò)其存在算法效率上的不足. AnoGAN在檢測(cè)階段需要進(jìn)行多次的迭代優(yōu)化來(lái)生成合適的正常圖像作為參考, 迭代優(yōu)化的過(guò)程會(huì)顯著增加算法的執(zhí)行時(shí)間, 在一些需要實(shí)時(shí)檢測(cè)的任務(wù)當(dāng)中就無(wú)法應(yīng)用.而更多的方法會(huì)將GAN與AE結(jié)合, 將GAN中對(duì)抗訓(xùn)練的思想引入到傳統(tǒng)AE的訓(xùn)練

31、框架中, 以此來(lái)提升自編碼器的重構(gòu)質(zhì)量.在異常檢測(cè)領(lǐng)域, 常見的結(jié)合AE與GAN的方法如圖24所示, 在自編碼器的基礎(chǔ)上增加一個(gè)判別器, 用來(lái)區(qū)分重構(gòu)后的圖像和輸入的真實(shí)圖像, 通過(guò)判別器和重構(gòu)網(wǎng)絡(luò)的對(duì)抗訓(xùn)練來(lái)提升重構(gòu)圖像的質(zhì)量137-139. Baur等140在VAE的基礎(chǔ)上, 增加了對(duì)抗損失來(lái)對(duì)醫(yī)學(xué)圖像進(jìn)行更為真實(shí)的重構(gòu). Akcay等141在傳統(tǒng)重構(gòu)誤差的基礎(chǔ)上, 還統(tǒng)計(jì)了重構(gòu)前后圖像經(jīng)編碼器和判別器提取到的特征之間的差異, 通過(guò)多角度的約束迫使重構(gòu)后的圖像在特征空間和圖像空間中都能盡量地與原始圖像接近. Schlegl等142直接用GAN中訓(xùn)練好的生成器替換了原始AE中的解碼器, 以一

32、種更為直接的方式利用GAN強(qiáng)大的圖像生成能力來(lái)進(jìn)行圖像重構(gòu). Tang等143將原本僅用來(lái)對(duì)圖像進(jìn)行二分類的判別器替換成了一個(gè)輔助的圖像重構(gòu)網(wǎng)絡(luò), 原本判別器執(zhí)行的二分類任務(wù)也轉(zhuǎn)換成了一個(gè)重構(gòu)任務(wù), 通過(guò)這種更為直觀的約束來(lái)提升自編碼器的重構(gòu)質(zhì)量. Venkataramanan等144表示, 人們會(huì)需要觀察整張圖像來(lái)覺察到哪里是有異常的部分, 意味著圖像中所有的區(qū)域都有助于進(jìn)行異常檢測(cè). 因此, 在結(jié)合了VAE與GAN進(jìn)行圖像重構(gòu)的基礎(chǔ)上, 計(jì)算出了重構(gòu)過(guò)程中的注意力圖145, 并期望注意力圖對(duì)于所有正常圖像區(qū)域都能輸出高值. 而在檢測(cè)階段, 當(dāng)圖像中出現(xiàn)沒有訓(xùn)練過(guò)的異常圖像模式時(shí), 就會(huì)表現(xiàn)

33、出低注意力的情況.圖24結(jié)合自編碼器和GAN進(jìn)行圖像重構(gòu)107Fig.24Image reconstruction based on autoencoder and GAN107不過(guò)在實(shí)驗(yàn)過(guò)程中, 即便是使用正常樣本訓(xùn)練得到的GAN, 同樣也會(huì)生成一些低質(zhì)量的圖像146, 導(dǎo)致在重構(gòu)圖像中可能會(huì)殘留異常區(qū)域. 雖然其概率相比于基于自編碼器的方法要小, 但依然不容忽視. Perara等130發(fā)現(xiàn), 自編碼器的這一問(wèn)題主要是由于中間層對(duì)應(yīng)的特征空間中, 還存在著能解碼出其他類型圖像的區(qū)域. 所以, 們提出的單類GAN(One-class GAN, OCGAN)通過(guò)一種梯度上升的方法, 主動(dòng)地探索并

34、消除中間層特征空間內(nèi)能解碼成其他圖像的區(qū)域. 但畢竟中間層特征向量的空間維度較高, 通過(guò)這種探索式的策略很難全部覆蓋到, 這種利用梯度上升的方法可能僅能優(yōu)化原始特征向量分布區(qū)域附近的空間. 而且OCGAN在CIFAR-10數(shù)據(jù)集上的實(shí)驗(yàn)表明該方法在較為復(fù)雜的圖像異常檢測(cè)任務(wù)中優(yōu)勢(shì)并不明顯.此外, 在某些正常樣本數(shù)量也極少的情況下, 經(jīng)典的重構(gòu)網(wǎng)絡(luò)可能會(huì)出現(xiàn)過(guò)擬合等問(wèn)題. 而GAN也可能無(wú)法獲得生成多樣化數(shù)據(jù)的能力, 因?yàn)镚AN本身就是一個(gè)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練的模型, 當(dāng)數(shù)據(jù)量不足時(shí)會(huì)嚴(yán)重影響其圖像生成的能力. 因此, Lu等147借助了小樣本學(xué)習(xí)中元學(xué)習(xí)148的思想來(lái)進(jìn)行異常圖像幀的檢測(cè). 預(yù)

35、先在多個(gè)數(shù)據(jù)集上進(jìn)行元訓(xùn)練, 來(lái)得到一組有良好通用性的重構(gòu)網(wǎng)絡(luò)權(quán)重. 而對(duì)于新的異常檢測(cè)環(huán)境, 僅需要少量正常圖像進(jìn)行幾次梯度下降優(yōu)化就能得到最適合目標(biāo)場(chǎng)景的檢測(cè)模型.圖像重構(gòu)類方法借助重構(gòu)后的圖像, 無(wú)需采用滑窗或者逐區(qū)域分析的方法就可以高效地實(shí)現(xiàn)異常區(qū)域的定位.不過(guò), 圖像重構(gòu)類方法也有許多值得進(jìn)一步研究的內(nèi)容, 如正常區(qū)域重構(gòu)誤差的問(wèn)題. 由于瓶頸結(jié)構(gòu)的存在, 在重構(gòu)過(guò)程中很容易丟失圖像細(xì)節(jié), 導(dǎo)致在重構(gòu)前后圖像比較過(guò)程中在正常圖像區(qū)域出現(xiàn)較大的差異, 現(xiàn)有方法往往難以解決這一問(wèn)題, 這一點(diǎn)在結(jié)構(gòu)復(fù)雜多樣的醫(yī)學(xué)圖像中尤為顯著, 如圖25所示虹膜和眼底圖像, 矩形框代表著存在異常的區(qū)域.

36、可以看到重構(gòu)前后的圖像在正常區(qū)域內(nèi)也存在較大的差異, 特別是在具有細(xì)致紋理的區(qū)域. 因此也有方法不直接從像素級(jí)別的重構(gòu)誤差進(jìn)行分析, Xia等149針對(duì)的是圖像語(yǔ)義分割中的異常檢測(cè)任務(wù), 在利用GAN將分割結(jié)果重構(gòu)成正常圖像后, 通過(guò)比較重構(gòu)前后圖像特征間的余弦距離來(lái)定位異常目標(biāo).圖25醫(yī)學(xué)圖像的重構(gòu)16,142Fig.25Reconstruction of medical images16,142此外還有如何進(jìn)行大尺度下精細(xì)重構(gòu)的問(wèn)題. 上述許多方法在處理大分辨率圖像時(shí)大多都會(huì)將原圖縮放至較小的分辨率, 此時(shí)對(duì)于異常較為明顯的自然圖像而言影響不大, 但對(duì)于如圖26所示面積占比極小的異常而言,

37、縮放后不僅在原圖中難以觀測(cè), 而且定位過(guò)程容易受到正常區(qū)域重構(gòu)差異的影響. 而這種小面積異常區(qū)域的檢測(cè)在工業(yè)領(lǐng)域內(nèi)又有較高的需求, 因此如何實(shí)現(xiàn)大尺度下圖像的精細(xì)重構(gòu)或許是值得進(jìn)一步研究的內(nèi)容.圖26工業(yè)圖像中的微小異常146Fig.26Tiny anomaly in industrial image1462.2.4 結(jié)合傳統(tǒng)方法的異常檢測(cè)方法結(jié)合傳統(tǒng)方法和深度學(xué)習(xí)來(lái)進(jìn)行異常檢測(cè)的方法, 大部分是借助神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征提取, 然后通過(guò)傳統(tǒng)方法對(duì)圖像特征進(jìn)行快速分類以實(shí)現(xiàn)圖像異常檢測(cè). Gupta等150借助用ImageNet預(yù)訓(xùn)練的網(wǎng)絡(luò)作為特征提取器, 然后借助OC-SVM實(shí)現(xiàn)對(duì)異常圖像的分

38、類. Napoletano等151對(duì)網(wǎng)絡(luò)提取到的特征利用主成分分析152和聚類算法構(gòu)建特征向量的字典來(lái)進(jìn)行異常檢測(cè). Wang等82在利用預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行特征提取的基礎(chǔ)上, 使用多個(gè)超平面和子空間以獲得比OC-SVM更加貼合正常樣本分布的決策邊界.上述這些方法相比于人工設(shè)計(jì)特征具有更好的效果, 不過(guò)在自然圖像數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)或許并不適合其他類型比如工業(yè)圖像和醫(yī)學(xué)圖像, 在這種情況下就需要利用目標(biāo)類型的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行特征提取的訓(xùn)練. 常用的方式是先利用自編碼器進(jìn)行特征提取, 然后計(jì)算與正常樣本特征向量之間的歐氏距離153以進(jìn)行異常檢測(cè). Sun等154利用稀疏編碼來(lái)學(xué)習(xí)變分自編碼器隱藏層特征

39、向量的表示方法, 通過(guò)特征向量的重構(gòu)誤差來(lái)進(jìn)行異常檢測(cè). Alaverdyan等155在自編碼器的基礎(chǔ)上結(jié)合暹羅網(wǎng)絡(luò)的思想進(jìn)行訓(xùn)練, 在重構(gòu)輸入圖像的同時(shí)減小隱變量之間的距離, 隨后在特征圖上構(gòu)建OC-SVM以實(shí)現(xiàn)異常區(qū)域的定位. Burlina等156提出了一種更為通用的檢測(cè)框架, 除了使用預(yù)訓(xùn)練的網(wǎng)絡(luò), 還結(jié)合GAN作為生成式特征提取器, 而對(duì)于得到的圖像特征, 則采用OC-SVM或者孤立森林157等傳統(tǒng)方法進(jìn)行異常圖像檢測(cè). Kozerawski等158則是利用遷移學(xué)習(xí)的方法學(xué)習(xí)了從圖像特征向量到支持向量機(jī)(Support vector machine, SVM)決策面的映射, 然后僅使

40、用一張正常圖像就可以得到SVM的分類面實(shí)現(xiàn)異常檢測(cè).大部分上述方法在決策階段采用了傳統(tǒng)的方式, 在檢測(cè)速度上會(huì)優(yōu)于深度學(xué)習(xí)的方法, 相比于傳統(tǒng)異常檢測(cè)方法則有更高的精度和更好的通用性. 然而, 這類方法在檢測(cè)精度上要遜于最新的深度學(xué)習(xí)方法, 所以有一種方式是在現(xiàn)有深度學(xué)習(xí)方法的基礎(chǔ)上, 在模型訓(xùn)練過(guò)程中結(jié)合傳統(tǒng)方法來(lái)進(jìn)一步提升檢測(cè)的精度159, 如Nie等160采用高斯混合模型對(duì)自編碼器隱變量的分布進(jìn)行建模, 在并不顯著影響算法效率的同時(shí)提升了模型對(duì)全局異常的檢測(cè)能力.表3總結(jié)了各類基于深度學(xué)習(xí)的圖像異常檢測(cè)方法的設(shè)計(jì)思路和優(yōu)缺點(diǎn). 整體來(lái)看, 這些方法得益于神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力, 可以適用

41、于各種紋理和結(jié)構(gòu)下圖像的異常檢測(cè), 因此在檢測(cè)精度和通用性上要明顯優(yōu)于傳統(tǒng)方法. 不過(guò)相對(duì)應(yīng)的, 這些方法也更為復(fù)雜, 需要設(shè)計(jì)各種策略來(lái)保證網(wǎng)絡(luò)的順利訓(xùn)練.表3基于深度學(xué)習(xí)的圖像異常檢測(cè)技術(shù)的分類和特點(diǎn)Table3The classification and characteristic of deep learning based image anomaly detection方法類別設(shè)計(jì)思路優(yōu)點(diǎn)缺點(diǎn)參考文獻(xiàn)距離度量將正常圖像映射到指定區(qū)域內(nèi), 并減小正常特征之間距離, 根據(jù)待測(cè)圖像的特征到聚類中心的距離進(jìn)行異常檢測(cè)模型結(jié)構(gòu)簡(jiǎn)單, 適用范圍廣模型可能出現(xiàn)退化, 需要設(shè)計(jì)額外的輔助任務(wù), 且

42、無(wú)法準(zhǔn)確定位異常區(qū)域8898分類面構(gòu)建通過(guò)幾何變換增廣現(xiàn)有數(shù)據(jù), 直接訓(xùn)練分類模型并利用置信度來(lái)檢測(cè)異常模型訓(xùn)練較為簡(jiǎn)單, 語(yǔ)義信息提取能力更強(qiáng), 異常檢測(cè)精度很高幾何變換的操作在紋理圖像等場(chǎng)景下并不適用101102尋找與正常樣本近似的圖像作為負(fù)樣本來(lái)訓(xùn)練二分類網(wǎng)絡(luò), 構(gòu)建正常圖像與潛在異常圖像間的分類面應(yīng)用場(chǎng)景廣泛, 異常檢測(cè)精度高需要精心設(shè)計(jì)損失函數(shù)和生成的負(fù)樣本, 模型設(shè)計(jì)復(fù)雜104117圖像重構(gòu)利用自編碼器等模型學(xué)習(xí)正常圖像的表達(dá)方式, 并根據(jù)待測(cè)圖像的重構(gòu)誤差來(lái)進(jìn)行異常檢測(cè)訓(xùn)練階段無(wú)需引入額外的樣本, 且應(yīng)用場(chǎng)景廣泛, 速度較快一般的方法重構(gòu)結(jié)果較為模糊, 且缺乏更為高效可靠的方法避

43、免重構(gòu)出異常區(qū)域118134利用GAN來(lái)獲得更為清晰的圖像重構(gòu)效果應(yīng)用場(chǎng)景廣泛, 異常區(qū)域定位精度高模型訓(xùn)練復(fù)雜, 而且缺乏理論上的保證135147結(jié)合傳統(tǒng)方法利用預(yù)訓(xùn)練的網(wǎng)絡(luò)或者自編碼器模型對(duì)圖像進(jìn)行特征提取, 在決策階段利用傳統(tǒng)方法進(jìn)行異常檢測(cè)相比傳統(tǒng)方法精度更高通用性更好, 且速度較快在檢測(cè)精度上略有不足1501603. 圖像異常檢測(cè)數(shù)據(jù)集圖像異常檢測(cè)相關(guān)的研究方興未艾, 目前有許多識(shí)別定性異常的相關(guān)文章是在傳統(tǒng)圖像分類數(shù)據(jù)集上開展的, 諸如MNIST89、Fashion-MNIST28、CIFAR-1090等等. 而對(duì)于定量異常的檢測(cè)任務(wù), 所使用的數(shù)據(jù)集就與具體的應(yīng)用領(lǐng)域相關(guān), 如表

44、4所示.在工業(yè)外觀檢測(cè)領(lǐng)域, 對(duì)于織布檢測(cè), 常用的有TILDA (Textile texture database)161和PFID (Patterned fabric image database)162等數(shù)據(jù)集. TILDA是最為常用的織布圖像數(shù)據(jù)集之一, 包含8種代表性的紋理圖像總計(jì)3200張, 每種圖像提供了正常圖像和7種缺陷圖像, 不過(guò)沒有提供像素級(jí)的標(biāo)注. PFID則是由香港大學(xué)提供的一個(gè)包含3種花紋織布的圖像數(shù)據(jù)集, 每種圖像都提供了數(shù)十張正常和異常圖像, 并且進(jìn)行了像素級(jí)的標(biāo)注. 對(duì)于金屬表面檢測(cè), 有MT (Magnetic tile defect datasets)163

45、、RSDDs (Rail surface discrete defects datasets)164和NEU (Northeastern university surface defect database)165等. MT數(shù)據(jù)集包含5類從不同光照條件下采集到的磁瓦表面缺陷圖像, 每類包含數(shù)十張缺陷圖像并且提供了像素級(jí)的標(biāo)注, 同時(shí)提供了大量的正常圖像作為參考. RSDD則是一個(gè)鋼軌表面缺陷數(shù)據(jù)集, 包含兩類圖像共計(jì)195張并且提供了像素級(jí)標(biāo)注. NEU包含了6類圖像, 每類有300張熱軋帶鋼表面缺陷圖像, 不過(guò)僅以邊界框(bounding box)的形式提供標(biāo)注, Zhou等166則是為其提

46、供了像素級(jí)的標(biāo)注. 而NanoTWICE (Nanocomposite nanofibres for treatment of air and water by an industrial conception of electrospinning)71是一個(gè)常用的納米材料圖像數(shù)據(jù)集, 包含45張利用掃描電子顯微鏡得到的納米材料圖像, 其中5張為正常圖像, 其余40張則帶有各種缺陷并且提供了像素級(jí)的標(biāo)注. MVTec AD (MVTec anomaly detection dataset)146是一個(gè)綜合了工業(yè)生產(chǎn)中各種常見材質(zhì)的圖像異常檢測(cè)數(shù)據(jù)集, 包含了5種紋理圖像和10種物體圖像, 每種

47、圖像包含60至320張正常圖像以及幾十張帶有異常區(qū)域的測(cè)試圖像, 并且提供了像素級(jí)的人工標(biāo)注, 常用于異常定位方法的驗(yàn)證. 而在醫(yī)學(xué)領(lǐng)域, 有BraTS (Brain tumor image segmentation benchmark)167和AMD (Age-related macular degeneration)168等. BraTS包含一共65張低級(jí)別和高級(jí)別神經(jīng)膠質(zhì)瘤的多模態(tài)核磁共振圖像, 并且提供了精細(xì)的人工標(biāo)注. AMD是杜克大學(xué)整理的一個(gè)針對(duì)老年性黃斑病變的大型圖像數(shù)據(jù)集, 包含來(lái)自115個(gè)正常眼部和269個(gè)患者眼部的總計(jì)38400張譜域光學(xué)相干層析掃描圖像(Spectral

48、 domain optical coherence tomography, SD-OCT), 并且提供了精細(xì)的像素級(jí)標(biāo)注. 而對(duì)于高光譜圖像則有AVIRIS (Airborne visible infrared imaging spectrometer)169、ABU (Airport-beach-urban)170等常用數(shù)據(jù), 囊括了海岸、城市和機(jī)場(chǎng)等各種場(chǎng)景的高光譜圖像.表4圖像異常檢測(cè)常用數(shù)據(jù)集Table4Common datasets for image anomaly detection應(yīng)用場(chǎng)景數(shù)據(jù)集名稱參考文獻(xiàn)工業(yè)布匹TILDA161PFID162金屬M(fèi)T163RSDD164NEU

49、165納米材料NanoTWICE71綜合MVTec AD146醫(yī)學(xué)大腦BraTS167視網(wǎng)膜AMD168高光譜混合AVIRIS169ABU170除了上述這些數(shù)據(jù)集, 還有很多相關(guān)的數(shù)據(jù)集, 但限于篇幅等原因此處不再展示. 而MVTec AD雖然剛剛于CVPR2022上提出但已經(jīng)有許多相關(guān)方法在其上進(jìn)行了實(shí)驗(yàn), 如表5所示.表中受試者工作特性曲線下面積(Area under receiver operating characteristic curve, AUROC)和區(qū)域重疊分?jǐn)?shù)(Per-region-overlap score, PRO-score)是常用的兩個(gè)衡量異常定位效果的指標(biāo)171.

50、 AUROC中的ROC(Receiver operating characteristic curve, ROC)是模型在不同分類閾值下真陽(yáng)性率和假陽(yáng)性率的變化曲線, 而AUROC是一個(gè)整體的評(píng)價(jià)指標(biāo), 越高說(shuō)明其模型分類效果越好. 不過(guò)有文獻(xiàn)97指出AUROC對(duì)于一些面積較大的缺陷會(huì)比較寬容, 因此提出了PRO-score. PRO-score同樣也是在一系列閾值下構(gòu)建性能曲線, 并以曲線下面積作為綜合評(píng)估指標(biāo). 不同的是, PRO-score統(tǒng)計(jì)的是不同閾值下的區(qū)域重疊率(Per-region-overlap, PRO), PRO是以二值化后連通域和真值圖之間的相對(duì)重疊率作為每一個(gè)閾值下的

51、模型分類性能. 從表5中可以看到, 許多方法采用圖像重構(gòu)或者距離度量的方式進(jìn)行異常區(qū)域的定位. 雖然前者在速度上更有優(yōu)勢(shì), 但精度上往往不如距離度量類的方法, 這可能是源于圖像重構(gòu)對(duì)圖像細(xì)節(jié)的丟失, 也有可能是自編碼器容易殘留異常區(qū)域的問(wèn)題所導(dǎo)致的. 而基于距離度量類的方法則沒有上述這些潛在的問(wèn)題, 特別是Defard等171所提出的方法在兩個(gè)指標(biāo)上都實(shí)現(xiàn)了最高的性能. 但從實(shí)際的檢測(cè)結(jié)果來(lái)看, 該方法速度較慢, 而且會(huì)更傾向于提高召回率, 在精準(zhǔn)率上的優(yōu)勢(shì)并不明顯, 特別是在一些微小缺陷的檢測(cè)上往往因?yàn)楫惓^(qū)域的響應(yīng)值較低而導(dǎo)致較多的誤檢現(xiàn)象, 這也表明基于距離度量的方法對(duì)于一些微弱異常的檢

52、測(cè)效果還有待提升.表5各圖像異常定位方法在MVTec AD上的性能Table5Performance of image anomaly localization methods on MVTec AD方法大致思路定位性能AUROCPRO-scoreAE146利用自編碼器進(jìn)行圖像重構(gòu)0.8170.790AnoGAN15利用GAN中的生成器進(jìn)行圖像重構(gòu)0.7430.443Iterative Projection134在圖像重構(gòu)基礎(chǔ)上采用迭代優(yōu)化尋找最優(yōu)的正常圖像0.893AESc172利用蒙特卡洛對(duì)重構(gòu)網(wǎng)絡(luò)進(jìn)行Dropout并利用預(yù)測(cè)不確定性進(jìn)行異常定位0.86P-Net16在圖像重構(gòu)過(guò)程中添加對(duì)

53、紋理結(jié)構(gòu)的約束0.89Uninformed Students97聯(lián)合考慮待測(cè)圖特征到目標(biāo)特征之間的距離和方差進(jìn)行異常定位0.857CAVGA144在圖像重構(gòu)的基礎(chǔ)上采用注意力圖定位異常區(qū)域0.93FCDD96利用全卷積網(wǎng)絡(luò)提取特征并以偏置項(xiàng)作為特征映射中心0.96Patch SVDD173計(jì)算待檢圖像片和最近似的正常圖像片之間的距離進(jìn)行異常定位0.957PaDiM171用預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行特征提取, 利用多維高斯模型進(jìn)行異常定位0.9750.921SPADE174尋找待測(cè)樣本的K-近鄰正常圖像作為參考, 再通過(guò)距離度量進(jìn)行異常檢測(cè)0.9650.9174. 圖像異常檢測(cè)問(wèn)題面臨的挑戰(zhàn)異常檢測(cè)一般是

54、在沒有真實(shí)異常樣本的情況下進(jìn)行模型訓(xùn)練, 這種特點(diǎn)使得異常檢測(cè)任務(wù)面臨著不小的挑戰(zhàn).1)異常樣本的未知性. 在異常檢測(cè)當(dāng)中, 一般僅有正常樣本可供使用, 由于異常樣本的未知性, 傳統(tǒng)的基于監(jiān)督學(xué)習(xí)的目標(biāo)識(shí)別算法難以直接應(yīng)用到異常檢測(cè)領(lǐng)域當(dāng)中. 這使得研究人員需要設(shè)計(jì)新的模型建立方法或者網(wǎng)絡(luò)訓(xùn)練方法來(lái)進(jìn)行異常檢測(cè). 而且僅利用正常樣本訓(xùn)練得到的異常檢測(cè)模型對(duì)實(shí)際異常樣本的檢測(cè)還存在一定的風(fēng)險(xiǎn), 依然可能會(huì)遺漏一些人眼認(rèn)為較為顯著的異常目標(biāo).2)異常定義的不清晰. 由于僅擁有正常樣本, 對(duì)于異常的定義存在一定的難度, 比如異常程度到多少為異常, 如果設(shè)定太過(guò)嚴(yán)苛, 可能會(huì)導(dǎo)致很多因噪聲而產(chǎn)生的誤檢

55、出現(xiàn), 而如果太過(guò)寬松又會(huì)使得一些較微弱的異常項(xiàng)被判定成正常. 但又缺乏足夠的真實(shí)異常樣本來(lái)輔助這一決策過(guò)程, 使得現(xiàn)階段檢測(cè)方法往往較為嚴(yán)苛, 容易出現(xiàn)較多的誤檢區(qū)域.3)微弱異常的定位. 如第2節(jié)所說(shuō), 圖像異常檢測(cè)一般有分類和定位兩個(gè)類型. 對(duì)于異常圖像分類任務(wù)來(lái)說(shuō), 異常樣本和正常樣本之間存在明顯差異. 利用人工設(shè)計(jì)的特征或者預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取就有望將兩者的特征向量區(qū)分開. 但是對(duì)于異常定位任務(wù)而言, 圖像中一般只有一部分區(qū)域出現(xiàn)了異常, 而且經(jīng)常會(huì)出現(xiàn)面積較小的目標(biāo), 比如在工業(yè)外觀檢測(cè)過(guò)程中可能會(huì)出現(xiàn)寬度僅有7個(gè)像素的細(xì)微異常區(qū)域, 也可能會(huì)出現(xiàn)一些對(duì)比度較弱的異常區(qū)域

56、146. 在高光譜圖像異常檢測(cè)或者醫(yī)學(xué)圖像中病變區(qū)域的定位中, 目標(biāo)區(qū)域的面積一般都只占整張圖像很小的比例, 使得異常區(qū)域的定位較為困難.4)維數(shù)災(zāi)難. 異常檢測(cè)是一個(gè)從數(shù)據(jù)挖掘領(lǐng)域中發(fā)展而來(lái)的概念, 因此早期的方法也大多是針對(duì)低維數(shù)據(jù)設(shè)計(jì)的79,81, 而這些方法在面臨高維數(shù)據(jù)時(shí)其檢測(cè)性能會(huì)受到嚴(yán)重影響. 而圖像數(shù)據(jù)是一個(gè)典型的高維數(shù)據(jù), 即便是最為基礎(chǔ)的Mnist數(shù)據(jù)集, 如果僅僅是直接地將其轉(zhuǎn)換成向量也會(huì)形成長(zhǎng)達(dá)784維的向量, 這使得一些在數(shù)據(jù)挖掘中常用的異常檢測(cè)算法很難直接用于圖像數(shù)據(jù).5)算法的通用性. 不同類型的圖像數(shù)據(jù)差別很大, 其實(shí)際檢測(cè)的目標(biāo)也不盡相同, 導(dǎo)致現(xiàn)階段許多異常

57、檢測(cè)算法是針對(duì)某一類圖像而開發(fā)的. 較低的通用性使得現(xiàn)有算法難以應(yīng)用到新的圖像類型當(dāng)中.5. 展望本文對(duì)近年來(lái)圖像異常檢測(cè)方法的發(fā)展?fàn)顩r進(jìn)行了回顧, 可以看到針對(duì)這一問(wèn)題已經(jīng)有了一定數(shù)量的研究. 關(guān)于未來(lái)可能的研究方向, 我們認(rèn)為可以從以下幾個(gè)角度進(jìn)行考慮:1)構(gòu)建更為高效的異常檢測(cè)算法. 對(duì)于異常檢測(cè)而言, 不僅僅需要對(duì)待檢圖像進(jìn)行正常與否的判斷, 往往還需要對(duì)異常區(qū)域進(jìn)行定位. 比如工業(yè)圖像表面的缺陷檢測(cè), 醫(yī)學(xué)圖像中病變區(qū)域的定位等等. 然而, 由于在訓(xùn)練階段沒有任何關(guān)于異常區(qū)域的標(biāo)注信息, 傳統(tǒng)的目標(biāo)檢測(cè)或者圖像分割的方法無(wú)法直接應(yīng)用到異常檢測(cè)任務(wù)中. 因此, 現(xiàn)有的方法大多采用的是將待檢圖像切分成一系列的圖像塊, 然后分塊進(jìn)行異常與否的二分類來(lái)進(jìn)行異常區(qū)域的定位. 而且, 為了獲得異常區(qū)域的準(zhǔn)確輪廓, 這種切分的步長(zhǎng)一般較小, 會(huì)顯著影響算法的效率. 現(xiàn)有的一些方法比如頻譜分析雖然能夠同時(shí)處理整張圖像以實(shí)現(xiàn)高效的定位, 但該方法對(duì)于圖像有一定的要求. 而基于深度學(xué)習(xí)的圖像重構(gòu)方法雖然沒有上述約束, 但重構(gòu)圖

人人文庫(kù)> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

圖像異常檢測(cè)研究現(xiàn)狀綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

圖像異常檢測(cè)研究現(xiàn)狀綜述

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔