版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于Transformer的自動(dòng)駕駛目標(biāo)檢測(cè)理論與實(shí)踐第八章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第2頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用8.1Transformer概述8.3VisionTransformer介紹8.2Transformer基本理論8.5實(shí)踐項(xiàng)目目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第3頁(yè)8.1Transformer概述為什么要用TransformerDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第4頁(yè)8.1Transformer概述Seq2Seq任務(wù):指的是輸入和輸出都是序列,且輸出長(zhǎng)度不確定時(shí)采用的模型;這種情況一般是在機(jī)器翻譯的任務(wù)中出現(xiàn),將一句中文翻譯成英文,那么這句英文的長(zhǎng)度有可能會(huì)比中文短,也有可能會(huì)比中文長(zhǎng),所以輸出的長(zhǎng)度就不確定了。輸入的中文長(zhǎng)度為4,輸出的英文長(zhǎng)度為2Seq2Seq任務(wù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第5頁(yè)8.1Transformer概述如何處理Seq2Seq任務(wù)其實(shí)在之前我們使用的是RNN(或者是其的單向或者雙向變種LSTM/GRU等)來(lái)作為編解碼器,RNN模塊每次只能夠吃進(jìn)一個(gè)輸入token和前一次的隱藏狀態(tài),然后得到輸出。它的時(shí)序結(jié)構(gòu)使得這個(gè)模型能夠得到長(zhǎng)距離的依賴(lài)關(guān)系,但是這也使得它不能夠并行計(jì)算,模型效率十分低。在沒(méi)有transformer的時(shí)候,我們都是用什么來(lái)完成這系列的時(shí)序任務(wù)的呢?DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第6頁(yè)8.1Transformer概述Encoder-Decoder模型Seq2Seq任務(wù)最常見(jiàn)的是使用Encoder+Decoder的模式,先將一個(gè)序列編碼成一個(gè)上下文矩陣,在使用Decoder來(lái)解碼。當(dāng)然,我們僅僅把contextvector作為編碼器到解碼器的輸入。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第7頁(yè)8.1Transformer概述Attention注意力機(jī)制在介紹什么是注意力機(jī)制之前,先讓大家看一張圖片。當(dāng)大家看到右邊這張圖片,會(huì)首先看到什么內(nèi)容?當(dāng)過(guò)加載信息映入眼簾時(shí),我們的大腦會(huì)把注意力放在主要的信息上,這就是大腦的注意力機(jī)制。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第8頁(yè)8.1Transformer概述Attention注意力機(jī)制DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第9頁(yè)8.1Transformer概述Transformer整體模型架構(gòu)2017年google的機(jī)器翻譯團(tuán)隊(duì)在NIPS上發(fā)表了Attentionisallyouneed的文章,開(kāi)創(chuàng)性地提出了在序列轉(zhuǎn)錄領(lǐng)域,完全拋棄CNN和RNN,只依賴(lài)Attention-注意力結(jié)構(gòu)的簡(jiǎn)單的網(wǎng)絡(luò)架構(gòu),名為T(mén)ransformer;論文實(shí)現(xiàn)的任務(wù)是機(jī)器翻譯。Multi-HeadAttentionAdd&NormInputEmbeddingOutputEmbeddingFeedForwardAdd&NormMaskedMulti-HeadAttentionAdd&NormMulti-HeadAttentionAdd&NormFeedForwardAdd&NormLinearSoftmaxInputsOutputs(shiftedright)PositionalEncodingPositionalEncodingTransformer結(jié)構(gòu)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第10頁(yè)8.1Transformer概述每個(gè)詞的Attention計(jì)算每個(gè)詞的Q會(huì)跟整個(gè)序列中每一個(gè)K計(jì)算得分,然后基于得分再分配特征Q:
query,要去查詢(xún)的K:
key,等著被查的V:
value,實(shí)際的特征信息DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第11頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用8.1Transformer概述8.3VisionTransformer介紹8.2Transformer基本理論8.5實(shí)踐項(xiàng)目目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第12頁(yè)8.1Transformer概述Attention的優(yōu)點(diǎn)1.參數(shù)少:相比于CNN、RNN,其復(fù)雜度更小,參數(shù)也更少。所以對(duì)算力的要求也就更小。2.速度快:Attention解決了RNN及其變體模型不能并行計(jì)算的問(wèn)題。Attention機(jī)制每一步計(jì)算不依賴(lài)于上一步的計(jì)算結(jié)果,因此可以和CNN一樣并行處理。3.效果好:在Attention機(jī)制引入之前,有一個(gè)問(wèn)題大家一直很苦惱:長(zhǎng)距離的信息會(huì)被弱化,就好像記憶能力弱的人,記不住過(guò)去的事情是一樣的。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第13頁(yè)8.2Transformer基本理論Transformer模型黑盒模式從宏觀的視角開(kāi)始首先將這個(gè)模型看成是一個(gè)黑箱操作。在機(jī)器翻譯中,就是輸入一種語(yǔ)言,輸出另一種語(yǔ)言。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第14頁(yè)8.2Transformer基本理論Transformer模型Encoder-Decoder架構(gòu)模式那么拆開(kāi)這個(gè)黑箱,我們可以看到它是由編碼組件、解碼組件和它們之間的連接組成。編碼組件部分由一堆編碼器(encoder)構(gòu)成(論文中是將6個(gè)編碼器疊在一起)。解碼組件部分也是由相同數(shù)量(與編碼器對(duì)應(yīng))的解碼器(decoder)組成的。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第15頁(yè)8.2Transformer基本理論DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第16頁(yè)8.2Transformer基本理論編碼器所有的編碼器在結(jié)構(gòu)上都是相同的,但它們沒(méi)有共享參數(shù)。每個(gè)編碼器都可以分解成兩個(gè)子層。每個(gè)編碼器由兩個(gè)子層組成:Self-Attention層(自注意力層)和Position-wiseFeedForwardNetwork(前饋網(wǎng)絡(luò))DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第17頁(yè)8.2Transformer基本理論解碼器從編碼器輸入的句子首先會(huì)經(jīng)過(guò)一個(gè)自注意力(self-attention)層,這層幫助編碼器在對(duì)每個(gè)單詞編碼時(shí)關(guān)注輸入句子的其他單詞。自注意力層的輸出會(huì)傳遞到前饋(feed-forward)神經(jīng)網(wǎng)絡(luò)中。每個(gè)位置的單詞對(duì)應(yīng)的前饋神經(jīng)網(wǎng)絡(luò)都完全一樣(譯注:另一種解讀就是一層窗口為一個(gè)單詞的一維卷積神經(jīng)網(wǎng)絡(luò))。解碼器中也有編碼器的自注意力(self-attention)層和前饋(feed-forward)層。除此之外,這兩個(gè)層之間還有一個(gè)注意力層,用來(lái)關(guān)注輸入句子的相關(guān)部分(和seq2seq模型的注意力作用相似)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第18頁(yè)8.2Transformer基本理論每個(gè)單詞都被嵌入為512維的向量,詞嵌入過(guò)程只發(fā)生在最底層的編碼器中。所有的編碼器都有一個(gè)相同的特點(diǎn),即它們接收一個(gè)向量列表,列表中的每個(gè)向量大小為512維。在底層(最開(kāi)始)編碼器中它就是詞向量,但是在其他編碼器中,它就是下一層編碼器的輸出(也是一個(gè)向量列表)。各種向量或張量是怎樣在模型的不同部分中,將輸入轉(zhuǎn)化為輸出的?像大部分NLP應(yīng)用一樣,我們首先將每個(gè)輸入單詞通過(guò)詞嵌入算法轉(zhuǎn)換為詞向量。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第19頁(yè)8.2Transformer基本理論Transformer的一個(gè)核心特性,在這里輸入序列中每個(gè)位置的單詞都有自己獨(dú)特的路徑流入編碼器。在自注意力層中,這些路徑之間存在依賴(lài)關(guān)系。而前饋(feed-forward)層沒(méi)有這些依賴(lài)關(guān)系。因此在前饋(feed-forward)層時(shí)可以并行執(zhí)行各種路徑將輸入序列進(jìn)行詞嵌入之后,每個(gè)單詞都會(huì)流經(jīng)編碼器中的兩個(gè)子層。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第20頁(yè)8.2Transformer基本理論編碼過(guò)程編碼器會(huì)接收一個(gè)向量作為輸入。編碼器首先將這些向量傳遞到Self-Attention層,然后傳遞到前饋網(wǎng)絡(luò),最后將輸出傳遞到下一個(gè)編碼器。輸入序列的每個(gè)單詞都經(jīng)過(guò)自編碼過(guò)程。然后,它們各自通過(guò)前向傳播神經(jīng)網(wǎng)絡(luò):完全相同的網(wǎng)絡(luò),而每個(gè)向量都分別通過(guò)它。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第21頁(yè)8.2Transformer基本理論編碼過(guò)程假如,我們要翻譯下面這個(gè)句子:Theanimaldidn’tcrossthestreetbecauseitwastootired.這個(gè)句子中的it指的是什么?是指animal還是street?對(duì)人來(lái)說(shuō),這是一個(gè)簡(jiǎn)單的問(wèn)題,但是算法來(lái)說(shuō)卻不那么簡(jiǎn)單。當(dāng)模型在處理it時(shí),Self-Attention機(jī)制使其能夠?qū)t和animal關(guān)聯(lián)起來(lái)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第22頁(yè)8.2Transformer基本理論當(dāng)我們?cè)诰幋a器(堆棧中的頂部編碼器)中對(duì)單詞”it“進(jìn)行編碼時(shí),有一部分注意力集中在”Theanimal“上,并將它們的部分信息融入到”it“的編碼中。編碼過(guò)程DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第23頁(yè)8.2Transformer基本理論編碼過(guò)程計(jì)算自注意力的第一步就是從每個(gè)編碼器的輸入向量(每個(gè)單詞的詞向量)中生成三個(gè)向量。也就是說(shuō)對(duì)于每個(gè)單詞,我們創(chuàng)造一個(gè)查詢(xún)向量(Q)、一個(gè)鍵向量(K)和一個(gè)值向量(V)。這三個(gè)向量是通過(guò)詞嵌入與三個(gè)權(quán)重矩陣后相乘創(chuàng)建的。X1與WQ權(quán)重矩陣相乘得到q1,就是與這個(gè)單詞相關(guān)的查詢(xún)向量。最終使得輸入序列的每個(gè)單詞的創(chuàng)建一個(gè)查詢(xún)向量Q、一個(gè)鍵向量K和一個(gè)值向量V。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第24頁(yè)8.2Transformer基本理論
計(jì)算得分
將每個(gè)值向量乘以softmax分?jǐn)?shù)(這是為了準(zhǔn)備之后將它們求和)。
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第25頁(yè)8.2Transformer基本理論通過(guò)矩陣運(yùn)算實(shí)現(xiàn)自注意力機(jī)制
x矩陣中的每一行對(duì)應(yīng)于輸入句子中的一個(gè)單詞。我們?cè)俅慰吹皆~嵌入向量(512,或圖中的4個(gè)格子)和q/k/v向量(64,或圖中的3個(gè)格子)的大小差異。最后,由于我們處理的是矩陣,我們可以用一個(gè)公式來(lái)計(jì)算自注意力層的輸出。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第26頁(yè)8.2Transformer基本理論“多頭”注意力(“multi-headed”attention)機(jī)制一組Q,K,V得到了一組當(dāng)前詞的特征表達(dá)類(lèi)似卷積神經(jīng)網(wǎng)絡(luò)中的filter提取多種特征?DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第27頁(yè)8.2Transformer基本理論可以看到Multi-HeadAttention輸出的矩陣Z與其輸入的矩陣X的維度是一樣的?!岸囝^”注意力(“multi-headed”attention)機(jī)制DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第28頁(yè)8.2Transformer基本理論“multi-headed”attention全部流程DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第29頁(yè)8.2Transformer基本理論使用位置編碼表示序列的順序到目前為止,我們對(duì)模型的描述缺少了一種理解輸入單詞順序的方法。為了解決這個(gè)問(wèn)題,Transformer為每個(gè)輸入的詞嵌入添加了一個(gè)向量。這些向量遵循模型學(xué)習(xí)到的特定模式,這有助于確定每個(gè)單詞的位置,或序列中不同單詞之間的距離。這里的直覺(jué)是,將位置向量添加到詞嵌入中使得它們?cè)诮酉聛?lái)的運(yùn)算中,能夠更好地表達(dá)的詞與詞之間的距離。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第30頁(yè)8.2Transformer基本理論使用位置編碼表示序列的順序?yàn)榱俗屇P屠斫鈫卧~的順序,我們添加了位置編碼向量,這些向量的值遵循特定的模式。如果我們假設(shè)詞嵌入的維數(shù)為4,則實(shí)際的位置編碼如下:DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第31頁(yè)8.2Transformer基本理論DecoderDecoder和Encoder中的模塊類(lèi)似,都包含Attention層、前饋網(wǎng)絡(luò)層、融合歸一化層,不同的是Decoder中多了一個(gè)Encoder-DecoderAttention層。
Decoder模塊的輸入輸出和解碼過(guò)程:DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第32頁(yè)8.2Transformer基本理論DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第33頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用8.1Transformer概述8.3VisionTransformer介紹8.2Transformer基本理論8.5實(shí)踐項(xiàng)目目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第34頁(yè)8.3VisionTransformer介紹DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第35頁(yè)8.3VisionTransformer介紹圖片分類(lèi)的原理背景知識(shí)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第36頁(yè)8.3VisionTransformer介紹背景知識(shí)為什么需要用transformerCNN(如ResNet)是圖像分類(lèi)的最佳解決方案。如果預(yù)訓(xùn)練的數(shù)據(jù)集足夠大(至少一億張圖像),則VisionTransformer(ViT)將擊敗CNN(小幅度)VisionTransformer(ViT)實(shí)際上就是Transformer的encode網(wǎng)絡(luò)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第37頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)提出ViT模型的這篇文章題名為AnImageisWorth16x16Words:TransformersforImageRecognitionatScale,發(fā)表于2020年10月份,雖然相較于一些Transformer的視覺(jué)任務(wù)應(yīng)用模型(如DETR)提出要晚了一些,但作為一個(gè)純Transformer結(jié)構(gòu)的視覺(jué)分類(lèi)網(wǎng)絡(luò),其工作還是有較大的開(kāi)創(chuàng)性意義的。論文下載鏈接:/abs/2010.11929
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第38頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)對(duì)于一個(gè)標(biāo)準(zhǔn)的Transformer模塊,要求輸入的是token(向量)序列,即二維矩陣[num_token,token_dim]。對(duì)于一個(gè)圖像數(shù)據(jù)而言,其數(shù)據(jù)格式為三維矩陣[H,W,C],這明顯不是Transformer想要的,所以我們需要進(jìn)行一個(gè)圖像預(yù)處理步驟。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第39頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)先將圖片分成NxN的patch塊(原始論文是16x16)patch塊可以重疊(上圖沒(méi)有重疊,是9x9的patch塊)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第40頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)將patch打平,對(duì)每個(gè)patch進(jìn)行線性映射,提取特征DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第41頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)提取特征DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第42頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)類(lèi)似NLP問(wèn)題,我們給PatchEmbedding加上了一個(gè)位置編碼PositionEmbedding。接著我們進(jìn)行Transformer編碼操作,就能反饋得到很多輸出。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第43頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)將位置編碼信息加入提取的特征DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第44頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)將位置編碼信息加入提取的特征DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第45頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)結(jié)論:編碼有用,但是怎么編碼影響不大,干脆用簡(jiǎn)單的得了2D(分別計(jì)算行和列的編碼,然后求和)的效果還不如1D的每一層都加共享的位置編碼也沒(méi)啥太大用位置編碼信息對(duì)準(zhǔn)確率的影響DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第46頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)
Transformer提取特征DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第47頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第48頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)
至于這個(gè)TransformerEncoder,實(shí)際上是一個(gè)標(biāo)準(zhǔn)的Transformer。
當(dāng)你有這些patch的時(shí)候,先進(jìn)來(lái)做一次LayerNorm,然后再做Multi-HeadAttention,然后再LayerNorm,再做一個(gè)MLP,這就是一個(gè)Transformerblock。然后我們可以把它疊加L次,就得到了我們的TransformerEncoder。
所以說(shuō)從整體上來(lái)看,VisionTransformer的架構(gòu)還是相當(dāng)簡(jiǎn)潔的,它的特殊之處就在于如何把一個(gè)圖片變成這里的一系列的token。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第49頁(yè)8.3VisionTransformer介紹VisionTransformer模型整體思路1.圖片切分為patch2.patch轉(zhuǎn)化為embedding3.位置embedding和tokensembedding相加4.輸入到Transformer模型5.CLS輸出做多分類(lèi)任務(wù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第50頁(yè)8.3VisionTransformer介紹VisionTransformer(ViT)輸入輸入輸入注意力注意力注意力來(lái)自輸入空間的注意力表達(dá)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第51頁(yè)8.3VisionTransformer介紹DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第52頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用8.1Transformer概述8.3VisionTransformer介紹8.2Transformer基本理論8.5實(shí)踐項(xiàng)目目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第53頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用目標(biāo)檢測(cè)DETR
:End-to-EndObjectDetectionwithTransformers第一步是通過(guò)一個(gè)CNN對(duì)輸入圖片抽取特征,然后將特征圖拉直輸入TransformerEncoder-Decoder;第二步的TransformerEncoder部分就是使得網(wǎng)絡(luò)更好地去學(xué)習(xí)全局的特征;第三步使用TransformerDecoder以及ObjectQuery從特征中學(xué)習(xí)要檢測(cè)的物體;第四步就是將ObjectQuery的結(jié)果和真值進(jìn)行二分圖匹配(Set-to-SetLoss),最后在匹配上的結(jié)果上計(jì)算分類(lèi)Loss和位置回歸Loss;DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第54頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用目標(biāo)檢測(cè)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第55頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用語(yǔ)義分割StratifiedTransformerfor3DPointCloudSegmentation第一步:輸入的三維點(diǎn)云數(shù)據(jù)首先通過(guò)第一層點(diǎn)嵌入模塊,以聚合每個(gè)點(diǎn)的局部信息;第二步:對(duì)于每個(gè)查詢(xún)點(diǎn),對(duì)附近的點(diǎn)進(jìn)行密集采樣,并以分層方式稀疏采樣遠(yuǎn)點(diǎn)作為其關(guān)鍵點(diǎn);第三步:使用抽樣密鑰來(lái)計(jì)算每個(gè)查詢(xún)點(diǎn)的注意力權(quán)重,這些權(quán)重用于聚合按鍵中的信息;第四步:聚合信息通過(guò)多層Transformer網(wǎng)絡(luò)傳遞,以捕獲長(zhǎng)期依賴(lài)關(guān)系并生成最終的分段結(jié)果DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第56頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用語(yǔ)義分割DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第57頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用點(diǎn)云目標(biāo)檢測(cè)Pointformer
:3DObjectDetectionwithPointformer第一步:將三維點(diǎn)云作為輸入,并將其通過(guò)LocalTransformer模塊,LocalTransformer模塊對(duì)局部區(qū)域中點(diǎn)之間的交互進(jìn)行建模,該模塊在對(duì)象級(jí)別學(xué)習(xí)上下文相關(guān)的區(qū)域特征;第二步:使用Local-GlobalTransformer,將局部特征與分辨率更高的全局特征集成在一起,以捕捉多尺度表示之間的依賴(lài)關(guān)系;第三步:使用GlobalTransformer,旨在學(xué)習(xí)場(chǎng)景級(jí)別的情境感知表現(xiàn)形式。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第58頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用點(diǎn)云目標(biāo)檢測(cè)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第59頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用BEV感知BEVFormer:LearningBird’s-Eye-ViewRepresentationfromMulti-CameraImagesviaSpatiotemporalTransformers第一步:將多攝像機(jī)圖像作為輸入,首先由主干網(wǎng)絡(luò)處理以提取特征。與此同時(shí),提取前一個(gè)時(shí)間戳的BEV特征;第二步:在每一個(gè)encoder層,首先通過(guò)時(shí)間自注意模塊去查詢(xún)前一個(gè)時(shí)間戳的BEV特征。然后,通過(guò)空間交叉注意模塊從多攝像頭特征?中查詢(xún)空間特征。第三步:經(jīng)過(guò)前饋,encoder層輸出細(xì)化的BEV特征,作為下一個(gè)encoder層的輸入,經(jīng)過(guò)6個(gè)疊加的encoder層后得到統(tǒng)一的BEV特征DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第60頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用BEV感知DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第61頁(yè)8.4Transformer自動(dòng)駕駛應(yīng)用8.1Transformer概述8.3VisionTransformer介紹8.2Transformer基本理論8.5實(shí)踐項(xiàng)目目錄ContentThanks!DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第62頁(yè)第八章注意力機(jī)制與Transformer謝謝!本章總結(jié)與答疑生成對(duì)抗網(wǎng)絡(luò)及自動(dòng)駕駛應(yīng)用第九章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第64頁(yè)9.4實(shí)踐項(xiàng)目9.1生成式對(duì)抗網(wǎng)絡(luò)概述9.3生成對(duì)抗網(wǎng)絡(luò)應(yīng)用9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第65頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述什么是對(duì)抗?在射雕英雄傳中,老頑童周伯通被困在桃花島,閑的無(wú)聊,自創(chuàng)了左右手互搏術(shù),左手打右手,右手打左手,雙手的武功不斷精進(jìn)。這就是對(duì)抗在現(xiàn)實(shí)世界里沒(méi)有左右手互搏術(shù),但在人工智能的世界里卻有,這就是GAN,中文名字:生成對(duì)抗網(wǎng)絡(luò)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第66頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述生成對(duì)抗網(wǎng)絡(luò)能干啥?2018年10月,一幅肖像畫(huà)在紐約佳士得以43萬(wàn)美元的高價(jià)被成功拍賣(mài)作者為GANDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第67頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述生成對(duì)抗網(wǎng)絡(luò)能干啥?如果將GAN比作一個(gè)人的話,書(shū)法、作畫(huà)、譜曲,樣樣都可以做到精通,就像他的名字“生成對(duì)抗網(wǎng)絡(luò)”一樣,他的誕生就是為了生成、為了創(chuàng)作。GAN有哪些應(yīng)用?DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第68頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述深度學(xué)習(xí)中常見(jiàn)生成式模型自編碼(AE)其隱變量z是一個(gè)單值映射:z=f(x)變分自編碼(VAE)其隱變量z是一個(gè)正態(tài)分布的采樣生成式對(duì)抗網(wǎng)絡(luò)(GAN)條件生成式對(duì)抗網(wǎng)絡(luò)(CGAN)在生成器和判別器中添加某一標(biāo)簽信息深度卷積生成式對(duì)抗網(wǎng)絡(luò)(DCGAN)判別器和生成器都使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)替代GAN
中的多層感知機(jī)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第69頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述GAN起源GAN(GenerativeAdversarialNetworks),中文翻譯為生成式對(duì)抗網(wǎng)絡(luò),是IanGoodfellow等在2014年提出的一種生成式模型。GAN的基本思想源自博弈論的二人零和博弈,由一個(gè)生成器和一個(gè)判別器構(gòu)成,通過(guò)對(duì)抗學(xué)習(xí)的方式來(lái)訓(xùn)練.目的是估測(cè)數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本。2001年,TonyJebara在畢業(yè)論文中以最大熵形式將判別模型與生成模型結(jié)合起來(lái)聯(lián)合學(xué)習(xí)2007年,ZhuowenTu提出將基于boosting分類(lèi)器的判別模型與基于采樣的生成模型相結(jié)合,來(lái)產(chǎn)生出服從真實(shí)分布的樣本。2012年,JunZhu將最大間隔機(jī)制與貝葉斯模型相結(jié)合進(jìn)行產(chǎn)生式模型的學(xué)習(xí)。2014年,IanGoodfellow等人提出生成式對(duì)抗網(wǎng)絡(luò),迎合了大數(shù)據(jù)需求和深度學(xué)習(xí)熱潮,給出了一個(gè)大的理論框架及理論收斂性分析。起源發(fā)展DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第70頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述
GAN的核心思想來(lái)源于博弈論的納什均衡它設(shè)定參與游戲雙方分別為一個(gè)生成器(Generator)和一個(gè)判別器(Discriminator),生成器的目的是盡量去學(xué)習(xí)真實(shí)的數(shù)據(jù)分布,而判別器的目的是盡量正確判別輸入數(shù)據(jù)是來(lái)自真實(shí)數(shù)據(jù)還是來(lái)自生成器;為了取得游戲勝利,這兩個(gè)游戲參與者需要不斷優(yōu)化,各自提高自己的生成能力和判別能力,這個(gè)學(xué)習(xí)優(yōu)化過(guò)程就是尋找二者之間的一個(gè)納什均衡。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第71頁(yè)9.1生成式對(duì)抗網(wǎng)絡(luò)概述DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第72頁(yè)9.4實(shí)踐項(xiàng)目9.1生成式對(duì)抗網(wǎng)絡(luò)概述9.3生成對(duì)抗網(wǎng)絡(luò)應(yīng)用9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第73頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論生成對(duì)抗模型的特性——博弈生成器的目標(biāo):接收隨機(jī)向量,生成與真實(shí)樣本盡可能相似的樣本。判別器的目標(biāo):接收生成器生成的樣本和真實(shí)樣本,盡可能地判斷兩者之間的真假。納什均衡:生成器和判別器都能得到最多的好處DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第74頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論GAN應(yīng)用的一般框架隨機(jī)變量+真實(shí)數(shù)據(jù)+生成器+判別器
一般為二分類(lèi)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)根據(jù)生成內(nèi)容定義DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第75頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論訓(xùn)練過(guò)程訓(xùn)練過(guò)程中,固定一方,更新另一方的網(wǎng)絡(luò)權(quán)重,交替迭代。那么先訓(xùn)練誰(shuí)呢?生成器學(xué)生:負(fù)責(zé)產(chǎn)出內(nèi)容判別器老師:負(fù)責(zé)評(píng)判分?jǐn)?shù)先訓(xùn)練判別器。1、樣本直接輸入到判別器之中。2、只有判別器具有一定的判斷能力后,生成器的訓(xùn)練才有意義。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第76頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論使用步驟建立模型生成器和判別器網(wǎng)絡(luò)訓(xùn)練過(guò)程損失函數(shù)參數(shù)學(xué)習(xí)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第77頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論常用:交叉熵?fù)p失函數(shù)判別器目標(biāo)函數(shù):對(duì)于真實(shí)樣本,其標(biāo)簽值為1,那么其單個(gè)樣本損失函數(shù)就是同理可得生成器輸出樣本的總體損失函數(shù),判別器的目標(biāo)函數(shù)定義如下其中,D(x)表示判別器輸出的真實(shí)圖像的概率分布,D(G(z))表示判別器輸出的生成器生成圖像的概率分布。
真實(shí)樣本的總體損失函數(shù)是
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第78頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論模型總目標(biāo)函數(shù)對(duì)于判別器,我們盡可能地希望其分類(lèi)正確,但是對(duì)于生成器而言,我們又希望D(G(z))越接近1越好,所以GAN網(wǎng)絡(luò)的目標(biāo)函數(shù)如下所示
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第79頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論使用步驟GAN的主要分支-CGANCGAN--條件生成對(duì)抗網(wǎng)絡(luò),為了防止訓(xùn)練崩塌將前置條件加入輸入數(shù)據(jù)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第80頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論使用步驟DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第81頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論使用步驟GAN的主要分支-DCGANDCGAN--深度卷積生成對(duì)抗網(wǎng)絡(luò),提出了能穩(wěn)定訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu),更易于工程實(shí)現(xiàn)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第82頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論使用步驟GAN的主要分支-CGANCGAN--條件生成對(duì)抗網(wǎng)絡(luò),為了防止訓(xùn)練崩塌將前置條件加入輸入數(shù)據(jù)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第83頁(yè)9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論使用步驟DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第84頁(yè)9.4實(shí)踐項(xiàng)目9.1生成式對(duì)抗網(wǎng)絡(luò)概述9.3生成對(duì)抗網(wǎng)絡(luò)應(yīng)用9.2生成式對(duì)抗網(wǎng)絡(luò)基本理論目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第85頁(yè)9.3生成對(duì)抗網(wǎng)絡(luò)應(yīng)用GAN的應(yīng)用
圖像和視覺(jué)領(lǐng)域語(yǔ)音和語(yǔ)言領(lǐng)域其他領(lǐng)域作為一個(gè)具有“無(wú)限”生成能力的模型,GAN的直接應(yīng)用就是建模,生成與真實(shí)數(shù)據(jù)分布一致的數(shù)據(jù)樣本,GAN可以用于解決標(biāo)注數(shù)據(jù)不足時(shí)的學(xué)習(xí)問(wèn)題。其可以應(yīng)用于:DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動(dòng)駕駛應(yīng)用第86頁(yè)9.3生成對(duì)抗網(wǎng)絡(luò)應(yīng)用圖像和視覺(jué)領(lǐng)域GAN能夠生成與真實(shí)數(shù)據(jù)分布一致的圖像。一個(gè)典型應(yīng)用是利用GAN來(lái)將一個(gè)低清模糊圖像變換為具有豐富細(xì)節(jié)的高清圖像。用VGG網(wǎng)絡(luò)作為判別器,用參數(shù)化的殘差網(wǎng)絡(luò)表示生成器,實(shí)驗(yàn)結(jié)果如圖所示,可以看到GAN生成了細(xì)節(jié)豐富的圖像。Deep
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 親子共讀家庭教育的有效方式
- 2025年九江道路貨物運(yùn)輸駕駛員考試
- 2025年貨運(yùn)資格證模擬考試題泰州
- 辦公設(shè)備維保方案五篇
- 中國(guó)傳統(tǒng)節(jié)日在家庭教育中的意義與影響
- 企業(yè)文化的傳承與發(fā)展
- 企業(yè)內(nèi)部創(chuàng)業(yè)團(tuán)隊(duì)的協(xié)作經(jīng)驗(yàn)交流
- 企業(yè)實(shí)驗(yàn)室安全投入的效益分析
- 利用信息化技術(shù)實(shí)現(xiàn)小學(xué)生全面發(fā)展的古典詩(shī)歌學(xué)習(xí)路徑探索
- 體育設(shè)施提升學(xué)校環(huán)境與健康水平
- 電動(dòng)力學(xué)-選擇題填空題判斷題和問(wèn)答題2018
- 重慶財(cái)經(jīng)學(xué)院《自然語(yǔ)言處理》2022-2023學(xué)年第一學(xué)期期末試卷
- 【MOOC】大學(xué)生職業(yè)發(fā)展與就業(yè)指導(dǎo)-河南科技大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 人人愛(ài)設(shè)計(jì)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 銅材壓延生產(chǎn)節(jié)能減排關(guān)鍵技術(shù)研究
- 500字作文標(biāo)準(zhǔn)稿紙A4打印模板-直接打印
- 福建省廈門(mén)市翔安區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末語(yǔ)文試題
- 國(guó)開(kāi)電大軟件工程形考作業(yè)3參考答案
- 16J607-建筑節(jié)能門(mén)窗
- 中藥煎藥室監(jiān)督工作指南
- 領(lǐng)導(dǎo)風(fēng)格、工作壓力及組織忠誠(chéng)間關(guān)系探究
評(píng)論
0/150
提交評(píng)論