2024機器感知技術培訓

上傳人：追*** IP屬地：河北上傳時間：2025-03-20 格式：PDF 頁數(shù)：81 大小：29.11MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩76頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2024機器感知技術培訓

?1?

從看臉到讀心：基于視覺的情感感知技術

在報告中，提到：“人臉識別已近尾聲，世間一切盡在臉上，我們能夠從臉上看到更多的內容，若干年后

我們很可能從“看臉時代”進入到“讀心時代”。讀心對于我們打造有溫度、有情商的AI是至關重要的。”

所謂讀心，即通過人的外顯語言或行為來推測、估計出人的內在心理和精神狀態(tài)，從情感角度對?個人進行評

估。使用機器解決“讀心”問題，可以更好地預知危險、評估風險，幫助警務人員破案等。

在報告中介紹了他所帶領的團隊在該領域的一系列研究成果。包括精神疾病輔助診斷技術、人臉表情識別、面

部動作檢測、自監(jiān)督學習以及基于視頻的遙測式生理信號的測量等。當然，現(xiàn)階段讓機器像人一樣具備察言觀

色的能力，還有很長的路要走；認為，我們不能操之過急，而需要先立足于解決現(xiàn)存的問題，比

如弱信號檢測、數(shù)據(jù)匱乏等。

圖1：人臉識別研究已接近尾聲

在過去的八年中，人臉識別技術取得了非常大的進步。但從某種意義上說人臉識別研究已經(jīng)接近尾聲。但這并

不意味著我們已經(jīng)把人臉上的信息讀完了一一我們人類本身除了識別人臉，還能夠從臉上得到更多的信息。例

如中醫(yī)可以望、聞、問、切，其中的望就是通過看臉來診?。黄胀ㄈ艘捕季邆洳煅杂^色的能力，這是我們在人

類社會中生存的基本能力。因此，人臉技術的下一步也許將從“看臉時代”進入到

讀心，對我們打造有溫度、有情商的AI至關重要。但什么是讀心？本質上就是通過人的外顯語言或行為推測、

估計出人內在的心理和精神狀態(tài)的技術，從情感角度對一個人進行評估。其內涵和外延有三個層次：

1)瞬態(tài)特征，即生理指標，包括身高、體重、心律、呼吸、血壓、血氧、眨眼率、視線等。

2)短期特征，即心理狀態(tài)，包括疲勞、專注、亢奮、無聊等內心在相對較短時間內的狀態(tài)。

3)長期特征，即精神狀況，主要涉及到自閉癥、抑郁癥、焦慮、狂躁等，甚至是人格特質。

AI如果能夠識別出以上三個層次的心理和精神狀態(tài)，在實際應用中將起到重要作用。比如，在自動駕駛領域，可以

通過對司機疲勞狀態(tài)進行評估，從而可以預防危險的駕駛行為；在精神健康領域，可以通過計算機視覺技術，

獲取更多客觀化的評估；在機器人領域，可以利用這些技術讓機器人擁有對人類情感進行理解和反饋的能力，使

其能夠更好地陪護人類；也可以將這些技術應用于用戶畫像的評估，比如貸款風險評估、人力資源評

估等。

在精神性疾病的輔助診斷方面(包括孤獨癥、抑郁和焦慮等)，國內、外已經(jīng)有很多研究者在進行研究：

2018年，來自澳大利亞幾個大學的般合團隊采用多模態(tài)融合的方法'將語言特征(Paralinguislic)、頭部姿態(tài)

特征(Headpose)以及眼神特征(Eyegazebehaviors)相結合，對抑郁癥與健康人群的分類。融合之后的分

類精度達到88%。

2018年，郭國棟團隊也利用深度學習進行了抑郁癥診斷的研究⑵，他們通過融合面部特征(Appearance)和動態(tài)

特征(Dynamics)進行抑郁狀態(tài)的評估。在AVEC2013數(shù)據(jù)集(包括82個人、150段視頻)上進行實驗，結

果達到7.58(MAE)、9.82(RMSE)。雖然誤差還不是很理想，但精度卻非常得好。

李飛飛團隊在2018年也做了基于3D人臉表情和語音的抑郁程度評估工作⑶，其使用的是CasualCNN方法，

最終獲得了83.3%Sensitivity和82.8%Specificity的實驗結果。

國外也有一些人格計算(PersonalityComputing)方面的工作，陣通過一個人的照片或視頻，對其進行第一卬象

的分類。今年6月，ScienceReport上發(fā)表了一篇來自俄羅斯團隊的文章⑷，他們通過照片評估一個人的Big-

five人格分類(外向性、親和性、盡責性、神經(jīng)質性和開放性)。這類工作在之前也有人研究，但是這篇文章使用了一

個大規(guī)模的數(shù)據(jù)集，收集了12447人的31367張照片，每個人對白己的人格講行報告。他們用深度神

經(jīng)網(wǎng)絡去做評估，結果顯示模型的評估精度基本和人的直覺評估吻合。

事實上這項工作在國外很早就有研究，2014年IEEETrans,onAffectiveComputing就有?篇綜述性文章’，

介紹了這方面的一百多篇文章，雖然采用的并不完全是視覺，但是不少工作都是基于視覺的方法來做的。

前面對從看臉到讀心的變化做了概括性的介紹，下面介紹一卜我們在學術上的?些工作，下面著重介紹幾個

方面。

?3?

半監(jiān)督、小樣本等數(shù)據(jù)條件下，將知識嵌入到數(shù)據(jù)驅動中，使我們可以不依賴于二

二、遮擋魯棒的人臉表情識別

這個工作⑹主要是考慮人在做表情的時候經(jīng)常B意:識地用手遮擋自己的面部的問題。我們提出基于面部分塊的門

卷積神經(jīng)網(wǎng)絡，利用注意力機制自動感知人臉被遮擋的區(qū)域，進而增強非遮擋區(qū)域的重要性，最后結合局部

注意力和全局注意力，使得我們能夠保留對表情識別的全局和局部的信息。

,IU/Viwy

人臉被遮擋區(qū)域，進而增強

無遮擋區(qū)域的重要性

結合局部注意力與全局注意

力，保留表情識別模型對面

部的全局感受

圖4：局部遮擋表情識別辦法

我們根據(jù)人臉特征點對人臉分塊，然后為每個區(qū)塊學習分類“貢獻”的權重。通過這樣的機制，我們能夠把更

多的特征增強在非遮擋的面部區(qū)域，使得被遮擋情況下的面部表情識別結果更加魯棒。我們的方法已經(jīng)取得了

明顯優(yōu)于之前算法的性能，在一些數(shù)據(jù)集上取得了比較優(yōu)異的表現(xiàn)。

三、基于半監(jiān)督學習的AU檢測

剛才提到做表情識別、情緒識別等工作，但這些任務的數(shù)據(jù)集是不足的。那么我們有沒有可能在有一部分標注

數(shù)據(jù)和大量無標注數(shù)據(jù)的條件下去完成這些表情、情緒識別呢？去年我們在NeurlPS上發(fā)表的工作m就是試圖

解決這樣的問題，即在半監(jiān)督條件下如何做面部動作檢測。

面部動作檢測，我們又稱之為ActionUnit,它是根據(jù)面部肌肉解剖定義出來的一些類似于眼瞼下垂、閉眼、嘴唇

收窄等動作，簡稱AU。這個工作對數(shù)據(jù)標注是一個非常大的挑戰(zhàn)，往往標注一分鐘的視頻可能需要一個專家花半

小時以上的時間。這就導致這一領域的數(shù)據(jù)非常匱乏。那么有沒有可能利用無監(jiān)督的數(shù)據(jù)做這方面的工作呢？

?5?

圖5：Co-Training的方式同時利用Label和Unlabel的數(shù)據(jù)

我們采用Co-Training的方式同時利用Label和Unlabel的數(shù)據(jù),學習兩個模型。先用Label數(shù)據(jù)得到一個預

測器，預測器會把所有Unlabel的數(shù)據(jù)進行l(wèi)abel化，然后再和已有帶有groundtruth的數(shù)據(jù)結合，然后去訓

練第二個模型：第二個模型在把unlabel的數(shù)據(jù)label化，把這個垢果和原有的label數(shù)據(jù)合并，然后再訓練第一

個模型。這是一個迭代的Co-Training過程。其實這種方式不是我們首先提出的，但我們采用了兩個不同的

views,也就是兩個不同的神經(jīng)網(wǎng)絡，兩個網(wǎng)絡會協(xié)同學習。

圖6：協(xié)同學習過程圖

在協(xié)同學習的時候，我們?yōu)榱吮ＷC兩個網(wǎng)絡有一定的獨立性和相關性，會設計相應的Loss函數(shù)。同時我們也把

多個不同的views之間進行協(xié)同，不同的面部動作單元之間也要協(xié)同，把不同的loss加進去作為目標函數(shù)，使得

我們學習到兩個不同的網(wǎng)絡。這樣的方法在EmotionNet數(shù)據(jù)集上的結果比之前高了2.6%在BP4D數(shù)據(jù)集

上，比原來的方法高了1.8%。

四、基于自監(jiān)督表示學習的AU建模與檢測

前面的工作是有一部分數(shù)據(jù)是監(jiān)督的，另一部分數(shù)據(jù)是沒有監(jiān)督的。但我們覺得這還不夠，我們希望做一個完

全采用自監(jiān)督方法學習AU的模型，這樣才能夠讓我們在檢測AU過程中大大減少對數(shù)據(jù)的依賴。所以這項工

作聞的出發(fā)點就是希望利用大量帶有情緒變化，但乂無標注的視頻數(shù)據(jù)，去更小灌

第T幀

圖7：頭部運動事實包含兩部分

視頻中頭部的運動事實上包含兩部分，一部分是面部動作導致的，另一部分則是頭部姿態(tài)導致的。所以我們首

先要做的是將這兩部分動作進行解耦，然后保留面部變化的數(shù)據(jù)。

displaccmansI

FeatureDisentangling一?

larpeliniajcZ.

Cyd*withAU

incnt%

Mjurccim4c，

genenuedtarget2r

sourceHIVU-CminllZ,—

P<1SC-induced

displaccmcnrspo%c<lungcJimage

CyclewithposeCh.

圖8：基于自監(jiān)督方法學習AU的模型

為此我們設計了一個自監(jiān)督模型，通過分解面部動作導致的運動和姿態(tài)導致的運動，然后再合成新的數(shù)據(jù)集。當

我們分解的足夠好時，就可以更好的從T幀去合成T+K幀。具體來說，我們采用了兩個分支，一個是AU,一

個是姿態(tài)，最后通過合成去逼近Minimum誤差?；诖罅康挠柧?，使得我們能夠在BP4D數(shù)據(jù)集上取得和有

監(jiān)督的方法媲美的精度，甚至在GFT數(shù)據(jù)上我們也獲得了比有監(jiān)督方法更好的性能。

?7?

五、基于遠距離普通攝像頭的心率估計

上面是我們在面部表情方面的一些工作，特別是后面的兩個工作我們都是希望能夠在數(shù)據(jù)不夠多的情況下有更

好的AU檢測和表情識別的精度，接下來再介紹基于遠距離普通攝像頭在心率估計方面的工作。在這一方面，從

2018年開始，我們陸續(xù)發(fā)表了一些文章。⑼.，川3

周期性的動脈血滿動造成膚色周期性變化分析微弱的膚色周期變化，得到心率估計

—_f冷"一一

圖9：基于遠距離普通攝像頭的心率估計

我們人類不具有從遠距離觀看從而估計出?個人心率的能力，但是我們的心臟跳動會導致皮膚顏色出現(xiàn)周期性變

化。醫(yī)學上有關心率、呼吸率、血氧的測量，過去我們常用的是PPG技術，即根據(jù)血液對光的吸收強弱的原理，

來實現(xiàn)對血液流量變化的檢測。FI前人們期望能夠在遠距離(例如0.7米)測量人的心率、呼吸率以及血氧等。

,心率時序信號

.欠安牛砥卓￥卜用前例坤

心率、心跳變異

率、呼吸頻率、

血氧含成

顏色變化信號提取

頻譜分布

人臉視頻臨入感興趣區(qū)域選擇(PCA,ICA,生理特征估計

(Filtering,Avg.)

能否通過數(shù)據(jù)驅動的方法學習更具判別力的特征表示?

rmenng,Avgj

難點：當時最大的人臉心率數(shù)據(jù)集也不超過50人，深度模型容易過擬合

圖10：通過數(shù)據(jù)驅動的方法學習更具判別力的特征表示

通過對人臉拍攝視頻來估計心率，這些工作從2008年開始引起大家的關注.之前的方法大都是采用對顏色變

化進行獨立的PCA.1CA以及Hlsring等分析，從而獲取特定的頻率。那么，我們能否通過數(shù)據(jù)驅動的方法來

學習呢？當我們嘗試去做時，發(fā)現(xiàn)結果并不好，因為這方面的數(shù)據(jù)非常少。比如在2U1K小時,最大的數(shù)據(jù)集

不到50個人，很容易過擬合。

ImageNet真實人臉心率信號

預訓練精調

ImageNet合成的有噪聲真實人臉心率信號

預訓練周期時序信號預訓練精調

RyhthmNetv1.0(2017-2018)

圖11：使用RyhthmNet做訓練

一個容易想到的方法是使用遷移學習，但我們發(fā)現(xiàn)簡單的遷移學習gap非常大。于是我們想到了一個新的方法

⑼，即先合成一些周期性的時序信號，用這些合成的信號對模型做預訓練，然后再用真實數(shù)據(jù)進行精細訓練。我

們發(fā)現(xiàn)這樣可以獲得不錯的結果，在MAHN0B-IICI數(shù)據(jù)集卜.將HRrmse從過去最好的6.23%陶^了4.49%。

當然數(shù)據(jù)股乏是一個很大的問題，因此我們自己也做了一個包含107人的數(shù)據(jù)集，包括了3000多段視頻，涉

及到不同光照、不同攝像頭等。最近我們又發(fā)布了500人的數(shù)據(jù)。加

由干數(shù)據(jù)分布不均衡，大多數(shù)的心跳都分布在60-90這樣的區(qū)間.這就導致我們很難估計其他區(qū)間的心跳.為

了解決這個問題，我們采取了數(shù)據(jù)增廣的方法，通過對視頻的上下采樣來模擬不同心率，通過這種擾動的方式

我們可以獲得更好的精度。為了解決頭部運動干擾的問題，我們也有引入注意力機制，在我們自己的數(shù)據(jù)集

VTPI.-HR上將RMSE提高到了7.99。1,11

為了更好地用深度學習方法進行學習，我們將視頻數(shù)據(jù)獷展成二維時空，然后直接用CNN對其進行估計，在時

序上利用RNN建立相鄰視頻片段關系。最后在MAHNOB-HCI數(shù)據(jù)集上將RMSE提升到了3.99,在我們自己

的VIPL-HR數(shù)據(jù)集上得到了5.3的MAE。(,2)

?9.

六、唇語識別在路上

最后介紹一下我們在唇語識別方面的工作。我們發(fā)布「LRWTOOO數(shù)據(jù)集，數(shù)據(jù)集包含了500多小時的原始

視頻，1000個漢語詞。

圖12：LRW數(shù)據(jù)集

另外，在牛津大學發(fā)布的LRW數(shù)據(jù)集上我們獲得了87.3%的準確率。在我們自己發(fā)布的數(shù)據(jù)集中，最開始的精

度是38.19%,現(xiàn)在己經(jīng)提升到了56.85%。在句子級唇語識別上我們獲得了11.2%的偌誤率。在私有指令

級比如“打開后車窗”、“打開導航”等短語句子的識別上，準確率達到了93%。

七、總結

在人臉識別得到非常好的解決之后，我們認為未來會有更多的希望利用人臉技術去理解人的情感。當然，這項

工作非常有挑戰(zhàn)性，距離我最開始介紹的“像人一樣察言觀色”的能力還有很長的路要走。但是在特定的應用上，

我們已經(jīng)可以做很多事情，比如疲勞檢測，現(xiàn)在已經(jīng)逐漸落地；當然即使這些已經(jīng)成熟的技術也有很多挑戰(zhàn)，

以呼吸率、心率和而氧估計的仟務為例,它們面臨著嚴重的弱信號檢測問題,如何提高信噪比是值得關注的C

最重要的是方法層面，因為數(shù)據(jù)的貴乏，我們必須要去研究如何把領域知識、醫(yī)學知識、健康知識引入到弱監(jiān)

督、小樣本數(shù)據(jù)這樣的機器學習中，使我們能夠更好的解決這些問題。因此，可以說人臉表情識別任重而

道遠，仍然有很多值得學術領域去做的基本問題，希望有更多的老師和同學一起合作來開展這些研究。

弱信或傳感器很重要，遙測人體生理信息，更高的信噪比

n：較大規(guī)模數(shù)據(jù)的獲取（隱私保護、合乎倫理）

方法：強大數(shù)據(jù)驅動-知識+弱小數(shù)據(jù)驅動（弱小：弱監(jiān)督，小樣本）

■應用廣泛

人機交互；駕駛安全；教育培訓；精神性疾??；刑偵測謊；金融風控

圖13：人臉識別的挑戰(zhàn)和具體應用

?10?

g面向復雜任務的視覺認知計算

一、研究背景和挑戰(zhàn)

1.1研究背景

基本的視覺任務，比如目標檢測、4標分割、目標識別等，在視覺認知計算領域已經(jīng)得到了廣泛的研究。但是

復雜的視覺探索相對較少，這里的復雜視覺任務指的是多模態(tài)的學習任務，這樣的任務除了視覺之外，還與文

本、語音等相關聯(lián)。復雜視覺任務中幾個具體的研究問題如圖1所示，比如視覺問答（給定圖片，描述圖中內

容）、跨模態(tài)檢索（給定圖像檢索語義相關段落，或者通過文字檢索圖片）等。

FirstladyMichelleObama

introducesPresidentBarack

ObamaduringarallySunday,

Oct.17,2010,inColumbus,Image-sentenceretrieval

Ohio.

3Amyc3y.

H?to■公Text

Visualquestionanswering

Imageaudio

Visualcaptionng

Visualsceneunderstanding

(Karpathyetal..CVPR15,Wangetal.ICCV13,Gaoetal.NeurlPS15]

圖1：復雜視覺任務的研究問題

復雜視覺任務有很多潛在的應用，但相比較于基本的視覺任務，復雜視覺任務研究起來也面臨更多的挑戰(zhàn)，因

為不僅要處理視覺任務中的高級語義問題（譬如關系的推理、運動的推理等〉，同時還要處理與文本、語音等跨

模態(tài)的交互、關聯(lián)問題。

?12?

1.2研究挑戰(zhàn)---------

以視覺與語言(VisionandLanguage)場景為例，史雜視覺任務研究中存在4個挑戰(zhàn)性問題:

UnpairedTextData

?-一

fraayfof

Manyredundantcontentsaretask-irrelevantAnnotatingpairedmultimodaldataisveryexpensive

ContentredundancyreductionCross-modalfew-shotdata

Ex3ennvntalsetting?;linvtadcomoiilatioMlresources

Ool

Knowledge

Cross-modalrelationsexistindifferentgranularitiesHardtodeployverylargemodelstopracticaltasks

Complexcross-modalrelationPoormodelefficiency

圖2：復雜視覺任務的四個挑戰(zhàn)性問題

數(shù)據(jù)內容的冗余：以上圖左上角的圖片和文字段落為例，若衡量這二者之間的語義相關性，可以發(fā)現(xiàn)，圖像中

表示“蔬菜’的區(qū)域和句子中“vegetable"(獻)這個單詞存在語義相關性，但對于其他的單詞或者圖像區(qū)域

沒有直接的關聯(lián)，所以類似這樣的剩余信息就是一種與任務無關的干擾信息，且難以去除。

小樣本問題：在多模態(tài)的情況下，樣本分布存在小樣本問題，要標注成對的模態(tài)是非常耗時耗力的。

模態(tài)之間的異質性：在視覺-語言的場景下，存在復雜的視覺語義鴻溝問題，圖像和文本從局部到整體的不同

層面可能存在復雜的對應關系，解決這種復雜的跨模態(tài)關系是一個重要的挑戰(zhàn)。

模型的泛化性能差：模型在特定條件下表現(xiàn)良好，而在不同環(huán)境中性能則大打折扣。此外，很多相對高精度的

工作是依靠復雜的模型堆疊處理的，現(xiàn)實的場景下很難進行高效率的部署。

總之，在數(shù)據(jù)理解時牽涉到一些認知的功能，比如信息的過濾、存儲、再使用或者信息的推理等，這些功能并

不能通過當前簡單的視覺感知的計算來實現(xiàn)。

L3相關研究進展

在研究進展方面，在報告中介紹了國內外在視覺感知和認知領域的近況。

視覺感知”?算，如圖3中左側所示，通過借鑒生物學神經(jīng)網(wǎng)絡的結構，來感知視覺信息當中的形狀、色彩和運

動以及相關的信息。認為在感知層面，很難處理復雜視覺任務當中的信息冗余以及復雜的關系推理。他舉

?13?

出了視覺感知計算在視覺問答、視覺對話、視覺描述和跨視覺檢索等任務上的表現(xiàn)，如圖3右側所示，即便

是目前最好的模型，在約束受限的數(shù)據(jù)庫上進行測試，勝確率(2019年)只有70%左右，遠低于人的推理感

知能力。

Visualquestion斐'二58%2016

answering,三65%2017

visualdialog70%2018

75%2019

Visual

45%2016

captioning,

52%2017

cross-modal60%2018

retrieval57%2019

Performanceoncomplexvisiontasks

[Zhuetal..CVPR15:Lietal.ICCV17：Wangetal..CVPR18：Liuetal..ICCV17]

圖3：視覺感知計算

因此，研究者想在感知計算的基礎上引入認知計算，來解決這樣的問題。目前計算機視覺領域主要在探索視覺

注意力機制和記憶機制，從而可以實現(xiàn)信息的濾波、存儲、比對和推理等認知功能。認為，將這樣的研究思路

借鑒到復雜的視覺任務當中，就可以實現(xiàn)一些小樣本分析、知識的Transfer,關系的推理以及決策等復雜的

問題。

information

r?Cognitivecomputing

?few-shotLearning,knowledge

emotionreasoningTransfer,relationreasoning,

decisionmaking

圖4：在感知計算的基礎上引入認知計算

目前的相關研究進展,主要有注意力機制、記憶機制和推理機制三個方面的建模。

注意力機制建模。主要分為軟注意力機制(SoftAttention)和硬注意力機制(HardAttention)。圖5左側給出

了軟注意力機制計算的模式，對不同的局部特征分別預測其權重值。注意力機制建模后的結果是一個加權和，

這樣權值大的局部特征將主導注意后的特征。硬注意力機制不采用加權和的方式，而是選擇權值最大的局部特

征作為整體特征。在實際應用中softattention效果要更好一些，因為HardAttendon公王?大很多的信息。

DetailsofsoftattentionAttentionmapsinimage

(https://distaipub/2016/augmented-

圖5：注意力機制建模

記憶機制建模。主要兩種形式，圖6左側中的形式是端到端的記憶模式，代表短時記憶建模，通常具有讀取的

功能，但不具備寫入的功能，記憶特征的初始化選擇已有的樣本等。圖6右側為神經(jīng)圖靈記憶，可以對長時記

憶進行建模，具有讀取和寫入功能。這中機制是更一般的形式，記憶特征的初始化一般是隨機特征進行開始，

目前記憶機制的建模在序列化的預測任務中展示了較強的作用，用于建模長時間的相互依賴關系。

End-to-endmemoryNeuralTuri

(memoryitemscanonlybeaddressed)(memoryitems

[Sukhbaataret

圖6：記憶機制建模

推理機制建模。主要是推理不同的視覺Fl標、屬性以及行為之間的關聯(lián)關系。圖7左側是一個機器人導航的例

子，從出發(fā)點進行推理決策，到目標點的過程，右側是視覺關系的推理，比如空間關系，「天空在樹之上」，「樹在

天空之下」這種視覺目標關系的推理過程。在推理機制建模中使用比較多的是強化學習和圖卷積神經(jīng)網(wǎng)絡，

因為兩者可以很好地建模數(shù)據(jù)之間地關系，而且推理常常不是一次完成的，需要反復循環(huán)迭代得到最終的結果。

?15?

tnv>

listaMcr.jky)

(l^raflW.srw)

WKUtMltIIW)

target3fraa-free)

TargetreasoninganddecisionmakingRelationreasoning

(Zhuetal..arXivl7,Daietal,CVPR17]

IS7：推理機制建模

二、團隊工作

介紹了他們團隊的幾個工作，也是從注意建模、記憶建模和推理建模三個方面展開。

MultimodalsequentialattentionAttributecross-modalmemory

(CVPR2018,TPAMI2020)(ACMMM2019)

Top-downvisualattentionPersistentcross-modalmemory

(ICCV2015,TPAMI2019)(ICCV2019)

圖8：團隊在注意力建模、記憶建模、推理建模方面的工作

2.1注意力機制建模

首先是注意建模，發(fā)表在CVPR2020上。這項工作面向圖像與句子的匹配任務。顧名思義，圖像與句子的匹

配其實是描述二者之間的相似度，應用場景十分廣泛，比如圖像句子的跨模態(tài)檢索、圖像描述、圖像問答等等。

在圖像與句子的匹配方面，傳統(tǒng)研究方法提取圖像或者句子的全局特征，使用結構化的損失函數(shù)或具有正則關

系的目標函數(shù)進行關聯(lián)。但在實際過程當中，團隊發(fā)現(xiàn)，無論是句子還是圖像除了語義相關的一小部分外，其

它的都是與任務無關的背景噪聲，如果直接使用全局的圖像特征并不合適。

e□Deepvisualsemanticembedding

c-Devise[1]

s-Orderembedding[2)

—Structure-preservingembedding[3]

eDeepcanonicalcorrelationanalysis

u—Batchbasedlearning[4]

Therearemanyr

kindsofvegetabless-Fishervectoronw2v[5]

—Global+localcorrespondences[6]

ASentenceonlydescribespartialsalientimagecontent

>UsingGlobalimagefeaturesmightbeinappropriate

(1]Frompetal,Devisp：Adeepvisual-spmanticpmbeddingmodolInNIPS,2013

(2|Vendrovetal.?Orderembeddingsofimagesandlanguage.InICLR.2016.

[3]Wangetal.fDeepstructure-preservingImage-textembeddings.InCVPR,2016..

[4]YanandMikolajczyk.Deepcorrelationformatchingimagesandtext.InCVPR,2015.

(5]KQtal..Associatingneuralword所beddingswithdeepimag?r?pre$Qnuixior$usingfishervectors,inCVPR,2015.

(6|Pummeretal.,Flickr30kentitiesCollectingregion-to-phrasecorrespondencesforricherirr^ageto-sentencemodels.InICCV,2015.

圖9：注意相關工作

團隊通過語義概念的提取和語義順序的組織來解決上述問題：采用使用多區(qū)域、多標簽的卷積神經(jīng)網(wǎng)絡提取

語義概念；使用上下文調制的策略學習語義順序，使用句子生成作為指導。

首先介紹了語義概念和語義順序的定義。語義的概念即圖像當中的目標、目標的屬性以及目標行為，語義的順

序指的是語義概念之間組成一個句子的先后順序。只有學習合適的語義概念，然后以一定的語義順序組織以

后，才能以一個比較準確的句子來描述圖像中的內容。以下圖為例，與之相匹配的語句是“一個快速奔跑的獵

豹在草地上追逐小羚羊”，如果把“羚羊”和“獵豹”順序顛倒的話，語義順序就完全不一樣。

Semanticconcepts:

Properties:Actions:

luickchasini

ounjnjnnin

reenrunnin

Semanticorder:

cheetahIchasingIgazelleIgrass

?Matchedsentence:

Aquickcheetahischasingayoung

gazelleongrass.

圖io：語義順序

對于語義概念的提取，團隊采用是多區(qū)域、多標簽的CNN進行實現(xiàn)，如圖11所示，由于概念的生成沒有現(xiàn)成

的數(shù)據(jù)集進行處理，所以他們使用與前數(shù)據(jù)庫當中的句子進行處理，選擇理想的概念并且減少詞匯表中詞匯

的數(shù)埴，同時使用多標簽、多區(qū)域的CNN進行概念的預測。

?17.

Processtheexistingdataset,selectthedesiredconcept,andreducethesizeofvocabulary

Learnamulti-labelCNNandperformtestinginamulti-regionway

IAcoupleofgiraffeseatingoutofbasket

A,couple,of,giraffes,eating,out,of,basket

A,couple,的giraffes,eating,QkH,的basket

Multi-regionalmulti-labelCNN[1]

圖11：多區(qū)域、多標簽的CNN

對于語義順序的學習，團隊使用全局的上下文特征作為參考。全局的上下文特征標注了語義概念在空間上的

關系。選擇性地平衡語義的概念和會局上下文之間的重要性，并利用句子生成作為一種指導，把融合后的全局

上下文語義概念作為圖像的表達，同時使用真實的語義順序監(jiān)督圖像表達的學習過程。

Groundtruthsentence

圖12：全局上下文特征標注

該模型在幾個典型的數(shù)據(jù)庫上進行實驗。主要有兩種任務：

1.圖像標注(imageannotation)即給定圖像，檢索相匹配的句子;

2.圖像檢索，給定一個句子，檢索對應的圖像。

如圖13所示，實驗結果表明上述方法在這兩個數(shù)據(jù)集都獲得了最好的性能。

Bidirectionalimageandsentenceretrievalresultsontwodatasets.

Flickr30kdala5ctMSCOCOdataset

MethodImageAnnotationlinageRetrievalImageAnnotationImageRetncval

mRinR

RdR<*iORuiR<J5R<d0R?1RQ5R<*l()R-)R“SR<?l0

m-RNN||35.463.873.722.850.763.151.641073.083.529.042.277.057.6

FV(l-i|35.062073.825.052.766.052.439467.98U.925.159.876.658.3

DVS/\||22.248.261.415.237.750.539.238.469.980.527.460.274.858.5

MNLM\1!23.05076Z916.842.056.542.043.475.785.831.066.779.963.8

m-CNN||33.6M!74.926.256.369.654.142873.184.132.668.682864.0

RNN+FV(*.|34.762.772.626255.169.253.440871.983.229.6

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024機器感知技術培訓

文檔簡介

溫馨提示

最新文檔

評論

2024機器感知技術培訓

文檔簡介

溫馨提示

最新文檔

評論

相關文檔