計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:圖像語(yǔ)義分割_第1頁(yè)
計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:圖像語(yǔ)義分割_第2頁(yè)
計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:圖像語(yǔ)義分割_第3頁(yè)
計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:圖像語(yǔ)義分割_第4頁(yè)
計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:圖像語(yǔ)義分割_第5頁(yè)
已閱讀5頁(yè),還剩72頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

圖像語(yǔ)義分割語(yǔ)義分割概述語(yǔ)義分割概述01任務(wù)語(yǔ)義分割特征和應(yīng)用場(chǎng)景02任務(wù)常用語(yǔ)義分割方法03任務(wù)學(xué)習(xí)目標(biāo)認(rèn)識(shí)什么是圖像語(yǔ)義分割掌握常見(jiàn)的語(yǔ)義分割方法

了解圖像語(yǔ)義分割的類型以及應(yīng)用場(chǎng)景掌握語(yǔ)義分割的評(píng)價(jià)準(zhǔn)則1語(yǔ)義分割概述1語(yǔ)義分割概述在圖像領(lǐng)域,語(yǔ)義指的是對(duì)圖像意思的理解。語(yǔ)義分割就是按照“語(yǔ)義”給圖像上目標(biāo)類別中的每一點(diǎn)打上一個(gè)標(biāo)簽,使得不同種類的東西在圖像上被區(qū)分開(kāi)來(lái),可以理解成像素級(jí)別的分類任務(wù)。語(yǔ)義分割是一種典型的計(jì)算機(jī)視覺(jué)問(wèn)題,其涉及將一些原始數(shù)據(jù)(例如,平面圖像)作為輸入并將它們轉(zhuǎn)換為具有突出顯示的感興趣區(qū)域的掩模。1圖像語(yǔ)義分割概述類型語(yǔ)義分割大致可分為兩類,標(biāo)準(zhǔn)語(yǔ)義分割和實(shí)例感知語(yǔ)義分割:標(biāo)準(zhǔn)語(yǔ)義分割(standardsemanticsegmentation)也稱為全像素語(yǔ)義分割,它是將每個(gè)像素分類為屬于對(duì)象類的過(guò)程;實(shí)例感知語(yǔ)義分割(instanceawaresemanticsegmentation)是標(biāo)準(zhǔn)語(yǔ)義分割或全像素語(yǔ)義分割的子類型,它將每個(gè)像素分類為屬于對(duì)象類以及該類的實(shí)體ID。2語(yǔ)義分割特征和應(yīng)用場(chǎng)景2語(yǔ)義分割特征和應(yīng)用場(chǎng)景為了理解語(yǔ)義分割的特征,還要與其他常見(jiàn)的圖像分類技術(shù)相比較。1.圖像分類這類技術(shù)主要是識(shí)別圖像。2.目標(biāo)檢測(cè)這類技術(shù)主要是識(shí)別圖像中“有什么”和“它在哪里”。3.語(yǔ)義分割這類技術(shù)主要是識(shí)別圖像區(qū)域。語(yǔ)義分割標(biāo)記每個(gè)像素所指的含義,而不是檢測(cè)整個(gè)圖像或圖像的一部分。特征2語(yǔ)義分割特征和應(yīng)用場(chǎng)景應(yīng)用場(chǎng)景目前圖像語(yǔ)義分割的應(yīng)用場(chǎng)景主要有四大領(lǐng)域:地理信息,無(wú)人駕駛,醫(yī)療影像分析和機(jī)器人領(lǐng)域。地理信息無(wú)人駕駛醫(yī)療影像分析3常見(jiàn)語(yǔ)義分割方法3常見(jiàn)語(yǔ)義分割方法目前主流的語(yǔ)義分割網(wǎng)絡(luò)一般是遵循下采樣,上采樣,特征融合,然后重復(fù)該過(guò)程,最后經(jīng)過(guò)softmax像素分類。3常見(jiàn)語(yǔ)義分割方法語(yǔ)義分割的評(píng)價(jià)準(zhǔn)則為:像素精度(pixelaccuracy):每一類像素正確分類的個(gè)數(shù)/每一類像素的實(shí)際個(gè)數(shù)。均像素精度(meanpixelaccuracy):每一類像素的精度的平均值。評(píng)價(jià)準(zhǔn)則3常見(jiàn)語(yǔ)義分割方法3.平均交并比(MeanIntersectionoverUnion):求出每一類的IOU取平均值。IOU指的是兩塊區(qū)域相交的部分(兩個(gè)部分的并集),如圖中綠色部分/總面積。這樣的評(píng)價(jià)指標(biāo)可以判斷目標(biāo)的捕獲程度(使預(yù)測(cè)標(biāo)簽與標(biāo)注盡可能重合),也可以判斷模型的精確程度(使并集盡可能重合)。4.權(quán)頻交并比(FrequencyWeightIntersectionoverUnion):每一類出現(xiàn)的頻率作為權(quán)重。ThankYOU!上采樣上采樣的概念01任務(wù)上采樣的實(shí)現(xiàn)方法02任務(wù)學(xué)習(xí)目標(biāo)認(rèn)識(shí)什么是上采樣掌握常見(jiàn)的上采樣方法1上采樣的概念1上采樣概念上采樣是一種可以讓圖像變成更高分辨率的技術(shù)。在做圖像識(shí)別過(guò)程中,需要對(duì)圖像進(jìn)行像素級(jí)別的分類,因此在卷積提取特征后需要通過(guò)上采樣將featuremap還原到原圖中。在語(yǔ)義分割FCN、U-Net等網(wǎng)絡(luò)結(jié)構(gòu)中,涉及到了上采樣。2上采樣的實(shí)現(xiàn)方法2上采樣的實(shí)現(xiàn)方法常見(jiàn)的上采樣方法有插值,unsample,反卷積,unpooling等。插值常見(jiàn)的插值方式有最近鄰插值,雙線性插值等。最近鄰插值是指將目標(biāo)圖像中的點(diǎn),對(duì)應(yīng)到源圖像后,找到最相鄰的整數(shù)點(diǎn)作為插值后的輸出。用f(x,y)表示目標(biāo)圖像,h(x,y)表示源圖像,公式如下:其中

、

分別為源圖像的寬和高,

分別為目標(biāo)圖像的寬和高。2上采樣的實(shí)現(xiàn)方法舉個(gè)例子,將一幅3×3的圖像放大到4×4,放大后的像素點(diǎn)的值通過(guò)計(jì)算后如圖所示:但是用該方法做放大處理時(shí),在圖像中可能會(huì)出現(xiàn)明顯的塊狀效應(yīng),有點(diǎn)像打了馬賽克一樣。2上采樣的實(shí)現(xiàn)方法在講雙線性插值之前,先看一下線性插值,線性插值多項(xiàng)式為:以圖中的平面坐標(biāo)系為例,插值后的值為:2上采樣的實(shí)現(xiàn)方法對(duì)于圖像來(lái)說(shuō),都是二維的,故只需做推廣即可。雙線性插值就是線性插值在二維的推廣,在兩個(gè)方向上做三次線性插值。具體操作如圖所示:令f(x,y)為兩個(gè)變量的函數(shù),其在單位正方形頂點(diǎn)的值已知。假設(shè)希望通過(guò)插值得到正方形內(nèi)任意點(diǎn)的函數(shù)值。則可由雙線性方程:f(x,y)=ax+by+cxy+d來(lái)定義的一個(gè)雙曲拋物面與四個(gè)已知點(diǎn)擬合。首先對(duì)上端的兩個(gè)頂點(diǎn)進(jìn)行線性插值得:f(x,0)=f(0,0)+x[f(1,0)?f(0,0)]類似地,再對(duì)底端的兩個(gè)頂點(diǎn)進(jìn)行線性插值有:f(x,1)=f(0,1)+x[f(1,1)?f(0,1)]最后,做垂直方向的線性插值,以確定:f(x,y)=f(x,0)+y[f(x,1)?f(x,0)]整理得:f(x,y)=[f(1,0)?f(0,0)]x+[f(0,1)?f(0,0)]y+[f(1,1)+f(0,0)?f(0,1)?f(1,0)]xy+f(0,0)2上采樣的實(shí)現(xiàn)方法2.unsample?

圖中是unsampling的原理圖。直接將內(nèi)容復(fù)制來(lái)擴(kuò)充featuremap。2上采樣的實(shí)現(xiàn)方法3.反卷積在介紹反卷積之前,需要深入了解一下卷積。假設(shè)有一個(gè)4×4的矩陣,將在這個(gè)矩陣上應(yīng)用3×3的卷積核,并且不添加任何填充(padding),步進(jìn)參數(shù)(stride)設(shè)置為1,就像圖中所示,輸出為一個(gè)2×2的矩陣。2上采樣的實(shí)現(xiàn)方法

這個(gè)卷積操作在輸入矩陣和卷積核中,對(duì)每個(gè)元素的乘積進(jìn)行相加。因?yàn)闆](méi)有任何填充和使用1為步進(jìn),因此只能對(duì)這個(gè)操作進(jìn)行4次,因此輸出矩陣尺寸為2×2。2上采樣的實(shí)現(xiàn)方法

這種卷積操作使得輸入值和輸出值之間存在有位置上的連接關(guān)系,一個(gè)卷積操作是一個(gè)多對(duì)一(many-to-one)的映射關(guān)系。

現(xiàn)在,假設(shè)想要反過(guò)來(lái)操作,想要將輸入矩陣中的一個(gè)值映射到輸出矩陣的9個(gè)值,這將是一個(gè)一對(duì)多(one-to-many)的映射關(guān)系。這個(gè)就像是卷積操作的反操作,其核心觀點(diǎn)就是用轉(zhuǎn)置卷積。2上采樣的實(shí)現(xiàn)方法

卷積操作是多對(duì)一,而轉(zhuǎn)置卷積操作是一對(duì)多,如下圖所示,每一個(gè)“對(duì)”而言,都需要維護(hù)一個(gè)權(quán)值。但是將如何具體操作呢?為了接下來(lái)的討論,需要定義一個(gè)卷積矩陣(convolutionmatrix)和相應(yīng)的轉(zhuǎn)置卷積矩陣(transposedconvolutionmatrix)。卷積矩陣:

可以將一個(gè)卷積操作用一個(gè)矩陣表示。這個(gè)表示很簡(jiǎn)單,無(wú)非就是將卷積核重新排列,可以用普通的矩陣乘法進(jìn)行矩陣卷積操作。2上采樣的實(shí)現(xiàn)方法

對(duì)這個(gè)3×3的卷積核進(jìn)行重新排列,得到了下面這個(gè)4×16的卷積矩陣。

這個(gè)便是卷積矩陣了,這個(gè)矩陣的每一行都定義了一個(gè)卷積操作。每一個(gè)卷積矩陣的行都是通過(guò)重新排列卷積核的元素,并且添加0補(bǔ)充(zeropadding)進(jìn)行的。2上采樣的實(shí)現(xiàn)方法為了將卷積操作表示為卷積矩陣和輸入矩陣的向量乘法,將輸入矩陣4×4攤平(flatten)為一個(gè)列向量,形狀為16×1??梢詫⑦@個(gè)4×16的卷積矩陣和1×16的輸入列向量進(jìn)行矩陣乘法,這樣就得到了輸出列向量,操作過(guò)程如圖所示。這個(gè)輸出的4×1的矩陣可以重新塑性為一個(gè)2×2的矩陣,而這個(gè)矩陣正是和一開(kāi)始通過(guò)傳統(tǒng)的卷積操作得到的一模一樣。2上采樣的實(shí)現(xiàn)方法轉(zhuǎn)置卷積矩陣:

但是想要從4(2×2)到16(4×4),就需要使用了一個(gè)16×4的矩陣,但是還有一件事情需要注意,還需要維護(hù)一個(gè)1到9的映射關(guān)系。假設(shè)轉(zhuǎn)置這個(gè)卷積矩陣C(4×16)變?yōu)?/p>

(16×4)??梢詫?duì)

和列向量(4×1)進(jìn)行矩陣乘法,從而生成一個(gè)16×1的輸出矩陣。

這個(gè)轉(zhuǎn)置矩陣正是將一個(gè)元素映射到了9個(gè)元素,反卷積計(jì)算過(guò)程如圖所示:2上采樣的實(shí)現(xiàn)方法

這個(gè)輸出可以塑形為(4×4)的矩陣,輸出矩陣如圖所示:

對(duì)小矩陣(2×2)進(jìn)行上采樣為一個(gè)更大尺寸的矩陣(4×4)。這個(gè)轉(zhuǎn)置卷積矩陣維護(hù)了一個(gè)1個(gè)元素到9個(gè)元素的映射關(guān)系,因?yàn)檫@個(gè)關(guān)系表現(xiàn)在了其轉(zhuǎn)置卷積元素上。2上采樣的實(shí)現(xiàn)方法4.unpooling下圖表示unpooling的過(guò)程,特點(diǎn)是在最大池化時(shí)保留的位置信息,在之后的unpooling階段會(huì)使用該信息用來(lái)擴(kuò)充featuremap??梢郧逦目吹脚cunsampling的不同,在unpooling中,除最大位置外,其余補(bǔ)0。ThankYOU!特征融合特征融合的概念01任務(wù)特征融合的方法02任務(wù)學(xué)習(xí)目標(biāo)認(rèn)識(shí)什么是特征融合掌握常見(jiàn)的特征融合方法1特征融合的概念1特征融合的概念特征融合,即融合不同尺度(低層和高層)的特征。在很多工作中,融合不同尺度的特征是提高分割性能的一個(gè)重要手段。如何將低層特征和高層特征高效融合,取其長(zhǎng)處,棄之糟泊,是改善分割模型的關(guān)鍵。特征融合是為了提高網(wǎng)絡(luò)對(duì)特征的表達(dá)能力,進(jìn)而使得網(wǎng)絡(luò)可以得到更準(zhǔn)確的分割結(jié)果。不同的特征融合方法有著不同的效果,如何尋求更有效的特征方法對(duì)網(wǎng)絡(luò)性能有著進(jìn)一步的提升,是目前語(yǔ)義分割研究的一個(gè)熱點(diǎn)問(wèn)題。2特征融合的方法2特征融合的方法按照融合與預(yù)測(cè)的先后順序,分為早融合(Earlyfusion)與晚融合(Latefusion)。早融合早融合(Earlyfusion):就是在特征上進(jìn)行融合,進(jìn)行不同特征的連接,輸入到一個(gè)模型中進(jìn)行訓(xùn)練。先融合多層的特征,然后在融合后的特征上訓(xùn)練預(yù)測(cè)器,只有在完全融合之后,才進(jìn)行檢測(cè)。這類方法也被稱為skipconnection,即采用concat、add操作。這一思路的代表是Inside-OutsideNet(ION)和HyperNet。兩個(gè)經(jīng)典的特征融合的方法:(1)concat:系列特征融合,直接將兩個(gè)特征進(jìn)行連接。兩個(gè)輸入特征x和y的維數(shù)若為p和q,輸出特征z的維數(shù)為p+q。(2)add:并行策略,將這兩個(gè)特征向量組合成復(fù)合向量,對(duì)于輸入特征x和y,z=x+iy,其中i是虛數(shù)單位。2特征融合的方法2特征融合的方法(1)concat是通道數(shù)的增加;(2)add是特征圖相加,通道數(shù)不變add是描述圖像的特征下的信息量增多了,但是描述圖像的維度本身并沒(méi)有增加,只是每一維下的信息量在增加,這顯然是對(duì)最終的圖像的分類是有益的。而concatenate是通道數(shù)的合并,也就是說(shuō)描述圖像本身的特征數(shù)(通道數(shù))增加了,而每一特征下的信息是沒(méi)有增加。concat每個(gè)通道對(duì)應(yīng)著對(duì)應(yīng)的卷積核。而add形式則將對(duì)應(yīng)的特征圖相加,再進(jìn)行下一步卷積操作,相當(dāng)于加了一個(gè)先驗(yàn):對(duì)應(yīng)通道的特征圖語(yǔ)義類似,從而對(duì)應(yīng)的特征圖共享一個(gè)卷積核(對(duì)于兩路輸入來(lái)說(shuō),如果是通道數(shù)相同且后面帶卷積的話,add等價(jià)于concat之后對(duì)應(yīng)通道共享同一個(gè)卷積核)。因此add可以認(rèn)為是特殊的concat形式。但是add的計(jì)算量要比concat的計(jì)算量小得多。2特征融合的方法2.晚融合晚融合(Latefusion):指的是在預(yù)測(cè)分?jǐn)?shù)上進(jìn)行融合,做法就是訓(xùn)練多個(gè)模型,每個(gè)模型都會(huì)有一個(gè)預(yù)測(cè)分?jǐn)?shù),對(duì)所有模型的結(jié)果進(jìn)行融合,得到最后的預(yù)測(cè)結(jié)果。通過(guò)結(jié)合不同層的檢測(cè)結(jié)果改進(jìn)檢測(cè)性能,尚未完成最終融合之前,在部分融合的層上就開(kāi)始檢測(cè),會(huì)有多層的檢測(cè),最終將多個(gè)檢測(cè)結(jié)果進(jìn)行融合。FPN(FeaturePyramidNetwork)算法同時(shí)利用低層特征高分辨率和高層特征的高語(yǔ)義信息,通過(guò)融合這些不同層的特征達(dá)到預(yù)測(cè)的效果。并且預(yù)測(cè)是在每個(gè)融合后的特征層上單獨(dú)進(jìn)行的,這和常規(guī)的特征融合方式不同。2特征融合的方法(1)自下而上:最左側(cè)為普通的卷積網(wǎng)絡(luò),默認(rèn)使用ResNet結(jié)構(gòu),用作提取語(yǔ)義信息。C1代表了ResNet的前幾個(gè)卷積與池化層,而C2至C5分別為不同的ResNet卷積組,這些卷積組包含了多個(gè)Bottleneck結(jié)構(gòu),組內(nèi)的特征圖大小相同,組間大小遞減。(2)自上而下:首先對(duì)C5進(jìn)行1×1卷積降低通道數(shù)得到P5,然后依次進(jìn)行上采樣得到P4、P3和P2,目的是得到與C4、C3與C2長(zhǎng)寬相同的特征,以方便下一步進(jìn)行逐元素相加。這里采用2倍最鄰近上采樣,即直接對(duì)臨近元素進(jìn)行復(fù)制,而非線性插值。(3)橫向連接(LateralConnection):目的是為了將上采樣后的高語(yǔ)義特征與淺層的定位細(xì)節(jié)特征進(jìn)行融合。高語(yǔ)義特征經(jīng)過(guò)上采樣后,其長(zhǎng)寬與對(duì)應(yīng)的淺層特征相同,而通道數(shù)固定為256,因此需要對(duì)底層特征C2至C4進(jìn)行1×1卷積使得其通道數(shù)變?yōu)?56,然后兩者進(jìn)行逐元素相加得到P4、P3與P2。由于C1的特征圖尺寸較大且語(yǔ)義信息不足,因此沒(méi)有把C1放到橫向連接中。2特征融合的方法(4)卷積融合:在得到相加后的特征后,利用3×3卷積對(duì)生成的P2至P4再進(jìn)行融合,目的是消除上采樣過(guò)程帶來(lái)的重疊效應(yīng),以生成最終的特征圖。(5)FPN對(duì)于不同大小的RoI,使用不同的特征圖,大尺度的RoI在深層的特征圖上進(jìn)行提取,如P5,小尺度的RoI在淺層的特征圖上進(jìn)行提取,如P2。ThankYOU!語(yǔ)義分割網(wǎng)絡(luò)常見(jiàn)的語(yǔ)義分割網(wǎng)絡(luò)01任務(wù)編碼器-解碼器02任務(wù)U-Net結(jié)構(gòu)解析03任務(wù)學(xué)習(xí)目標(biāo)了解常見(jiàn)的語(yǔ)義分割網(wǎng)絡(luò)掌握編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu)掌握U-Net語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)1常見(jiàn)的語(yǔ)義分割網(wǎng)絡(luò)1常見(jiàn)的語(yǔ)義分割網(wǎng)絡(luò)目前,在語(yǔ)義分割任務(wù)中,絕大多數(shù)的主流算法都是基于深度學(xué)習(xí),尤其是卷積神經(jīng)網(wǎng)絡(luò)。2015年,加州大學(xué)伯克萊分校的jonathanlong等人提出了用于語(yǔ)義分割的全卷積神經(jīng)網(wǎng)絡(luò)(fullyconvolutionalnetworks,F(xiàn)CN),在語(yǔ)義分割方面進(jìn)行了開(kāi)創(chuàng)性的工作,解決了像素分割的問(wèn)題。全卷積神經(jīng)網(wǎng)絡(luò)提出將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)后面的全連接層全部替換為卷積層,這也是全卷積名字的由來(lái)。基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割技術(shù)也由此快速發(fā)展起來(lái)。同年,U-Net網(wǎng)絡(luò)也別提出,U-Net網(wǎng)絡(luò)是一種典型的“編碼器-解碼器”結(jié)構(gòu),這種結(jié)構(gòu)也是目前一種比較主流的語(yǔ)義分割結(jié)構(gòu)。采用相似結(jié)構(gòu)的還有segnet,基于“編碼器-解碼器”結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)U-Net和segnet都有著很好的性能,在分割任務(wù)中有著較好的表現(xiàn)。2編碼器-解碼器2編碼器-解碼器編碼器(encoder):編碼器本身就是一連串的卷積神經(jīng)網(wǎng)絡(luò),由卷積層,池化層組成。卷積層負(fù)責(zé)提取圖像的特征,池化層對(duì)圖像進(jìn)行下采樣并且將尺度不變特征傳送到下一層。概括地說(shuō),encoder對(duì)圖像的低級(jí)局域像素值進(jìn)行歸類與分析,從而獲得高階語(yǔ)義信息。解碼器(decoder):既然encoder已經(jīng)獲取了所有的物體信息與大致的位置信息,那么下一步就需要將這些物體對(duì)應(yīng)到具體的像素點(diǎn)上。decoder對(duì)縮小后的特征圖像進(jìn)行上采樣,然后對(duì)上采樣后的圖像進(jìn)行卷積處理,目的是完善物體的幾何形狀,從而彌補(bǔ)encoder中池化層將物體縮小造成的細(xì)節(jié)損失。2編碼器-解碼器在CNN中在卷積神經(jīng)網(wǎng)絡(luò)中,圖片先經(jīng)過(guò)卷積層,然后再經(jīng)過(guò)線性層,最終輸出分類結(jié)果。其中卷積層用于特征提取,而線性層用于結(jié)果預(yù)測(cè)。從另一個(gè)角度來(lái)看,可以把特征提取看成一個(gè)編碼器,將原始的圖片編碼成有利于機(jī)器學(xué)習(xí)的中間表達(dá)形式,而解碼器就是把中間表示轉(zhuǎn)換成另一種表達(dá)形式。編碼器:將輸入編程成中間表達(dá)特征。解碼器:將中間表示解碼成輸出。在RNN中RNN同樣也可以看成一個(gè)編碼器-解碼器結(jié)構(gòu),編碼器將文本編碼成向量,而解碼器將向量解碼成我們想要的輸出。編碼器:將文本表示成向量。解碼器:將向量表示成輸出。3U-Net結(jié)構(gòu)解析3U-Net結(jié)構(gòu)解析U-Net是在ISBIChallenge比賽上提出的一種分割網(wǎng)絡(luò),能夠適應(yīng)很小的訓(xùn)練集(大約30張圖)。3U-Net結(jié)構(gòu)解析將輸入進(jìn)行2次3×3的卷積操作之后,再進(jìn)行一次2×2的最大池化,同時(shí)卷積核數(shù)目翻倍(1-64-128-256-512-1024),進(jìn)行四次這樣的down(下采樣)操作。然后進(jìn)行2次3×3卷積,取一半的卷積核進(jìn)行上采樣(轉(zhuǎn)置卷積),再剪切對(duì)應(yīng)down層的featuremap和上采樣得到的featuremap拼接在一起,然后重復(fù)這樣的過(guò)程。最后輸出是深度為n_classes個(gè)featuremap,進(jìn)行分類。

這個(gè)featuremap拼接的操作,就是上一節(jié)中所講的特征融合。U-Net的特征融合方式采用的是concat,可以恢復(fù)部分的語(yǔ)義信息,從而保證分割的精度。相似的,在FCN中(語(yǔ)義分割開(kāi)山之作),是通過(guò)featuremap相加(add)的方式來(lái)恢復(fù)語(yǔ)義信息的。3U-Net結(jié)構(gòu)解析U-Net還有以下幾個(gè)優(yōu)點(diǎn):(1)5個(gè)poolinglayer實(shí)現(xiàn)了網(wǎng)絡(luò)對(duì)圖像特征的多尺度特征識(shí)別。(2)上采樣部分會(huì)融合特征提取部分的輸出,這樣做實(shí)際上是將多尺度特征融合在了一起,以最后一個(gè)上采樣為例,它的特征既來(lái)自第一個(gè)卷積block的輸出(同尺度特征),也來(lái)自上采樣的輸出(大尺度特征),這樣的連接是貫穿整個(gè)網(wǎng)絡(luò)的,可以看到上圖的網(wǎng)絡(luò)中有四次融合過(guò)程,相對(duì)應(yīng)的FCN網(wǎng)絡(luò)只在最后一層進(jìn)行融合。ThankYOU!基于U-Net的圖像語(yǔ)義分割案例描述01任務(wù)案例目標(biāo)02任務(wù)案例分析03任務(wù)案例實(shí)施04任務(wù)1案例描述1案例描述本案例學(xué)習(xí)如何搭建U-Net網(wǎng)絡(luò),訓(xùn)練Oxford-IIITPet數(shù)據(jù),實(shí)現(xiàn)圖像語(yǔ)義分割。2案例目標(biāo)案例目標(biāo)搭建U-Net全卷積神經(jīng)網(wǎng)絡(luò);對(duì)Oxford-IIITPet數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行語(yǔ)義分割。23案例分析案例分析Oxford-IIIT寵物數(shù)據(jù)集是37個(gè)類別的寵物圖像數(shù)據(jù)集,其中有犬類25類,貓類12類,每個(gè)類別大約有200張圖像。圖像在比例,姿勢(shì)和照明方面有很大的差異。該數(shù)據(jù)集由圖像、圖像所對(duì)應(yīng)的標(biāo)簽、以及對(duì)像素逐一標(biāo)記的掩碼組成。掩碼其實(shí)就是給每個(gè)像素的標(biāo)簽。每個(gè)像素分別屬于以下三個(gè)類別中的一個(gè):類別1:像素是寵物的一部分;類別2:像素是寵物的輪廓;類別3:以上都不是(外圍像素)。34案例實(shí)施4案例實(shí)施 1.加載Oxford-IIIT寵物數(shù)據(jù)集dataset,info=tfds.load(data_dir='data/oxford',name='oxford_iiit_pet:3.0.0',with_info=True)2.數(shù)據(jù)預(yù)處理

先將圖像標(biāo)準(zhǔn)化到[0,1]范圍內(nèi)。像素點(diǎn)在圖像分割掩碼中被標(biāo)記為{1,2,3}中的一個(gè)。為了方便起見(jiàn),將分割掩碼都減1,得到了以下的標(biāo)簽:{0,1,2}

input_image=tf.cast(input_image,tf.float32)/128.0–1隨機(jī)的水平翻轉(zhuǎn)了一些圖片,用來(lái)擴(kuò)充測(cè)試數(shù)據(jù)集。input_image=tf.image.flip_left_right(input_image)input_mask=tf.image.flip_left_right(input_mask)4案例實(shí)施3.數(shù)據(jù)集劃分原始數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集和測(cè)試集,所以也延續(xù)使用相同的劃分。train=dataset['train'].map(load_image_train,num_parallel_calls=tf.data.experimental.AUTOTUNE)test=dataset['test'].map(load_image_test)對(duì)數(shù)據(jù)進(jìn)行打亂分批處理train_dataset=train.cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE).repeat()train_dataset=train_dataset.prefetch(buffer_size=tf.d

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論