




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、北京航空航天大學(xué)(譯文)畢業(yè)設(shè)計(譯文)院( 系) 名稱生物與醫(yī)學(xué)工程學(xué)院專業(yè)名稱生物醫(yī)學(xué)工程學(xué)生姓名夏蔚黎學(xué)生學(xué)號10101031指導(dǎo)教師許燕2014年 03 月北京航空航天大學(xué)(譯文)目錄 通過標(biāo)簽轉(zhuǎn)移實現(xiàn)非參數(shù)化的場景分析1原文29第 1 頁 北京航空航天大學(xué)(譯文)通過標(biāo)簽轉(zhuǎn)移實現(xiàn)非參數(shù)化的場景分析摘要:雖然最近出現(xiàn)了許多關(guān)于目標(biāo)識別和圖像理解方面的文章,但是,這些文章的重 點一直都是仔細(xì)地為圖像、場景和目標(biāo)對象建立數(shù)學(xué)模型。在這篇文章中,我們?yōu)槟繕?biāo) 識別和場景分析提出了一種新的、非參數(shù)化的解決方法,該方法使用到了一種新的技術(shù), 我們將其稱之為標(biāo)簽轉(zhuǎn)移。對于一幅輸入圖像,首先,我們的系
2、統(tǒng)會從一個含有經(jīng)過充 分注釋的圖像的大型數(shù)據(jù)庫中檢索與其最相近的相鄰圖像;然后,系統(tǒng)將使用密集的 SIFT 流算法28在輸入圖像和每一個與它最相近的圖像之間建立密集的對應(yīng)關(guān)系,SIFT 流算法可以以局部的圖像結(jié)構(gòu)為基礎(chǔ)來進行兩幅圖像之間的配準(zhǔn);最后,以 SIFT 流形成的密集的場景對應(yīng)關(guān)系為基礎(chǔ),系統(tǒng)能夠?qū)ΜF(xiàn)有的注釋進行翹曲、并在 Markov 隨機場框架內(nèi)整合多條線索,從而對查詢圖像進行分割、識別。通過在具有挑戰(zhàn)性的數(shù)據(jù)庫 中進行實驗,我們的非參數(shù)化的場景分析系統(tǒng)獲得了很有希望的實驗結(jié)果。與現(xiàn)有的那 些需要為每一個對象類別訓(xùn)練生成分類器或建立表面模型的目標(biāo)識別方法相比,我們的系統(tǒng)更容易實現(xiàn),
3、因為它只含有少量的參數(shù),并且在場景檢索和配準(zhǔn)的過程中都自然地 嵌入了與語境相關(guān)的信息。關(guān)鍵詞:目標(biāo)識別、場景分析、標(biāo)簽轉(zhuǎn)移、SIFT 流、Markov 隨機場第 2 頁 北京航空航天大學(xué)(譯文)1、引言場景分析,或者說在一幅圖像中進行目標(biāo)的識別與分割,是計算機視覺領(lǐng)域的核心 問題之一。目前,傳統(tǒng)的用于目標(biāo)識別的方法首先需要規(guī)定一個目標(biāo)模型,例如,模板 配準(zhǔn)8、49,星座圖13、15,特征包19、24、44、45,以及形狀模型2、3、 14中提到的等等,這些傳統(tǒng)的方法通常需要借助于一個固定數(shù)目的目標(biāo)類別工作,并且需要通過訓(xùn)練數(shù)據(jù)為每一個目標(biāo)類別生成一個判別模型,在場景分析階段,這些系統(tǒng) 嘗試將輸
4、入的圖像與生成的模型配準(zhǔn),并將像素、窗口、邊或其他的圖像描述子等與表 示目標(biāo)類別的標(biāo)簽相結(jié)合。最近,為了在語義層面上捕捉各目標(biāo)之間的關(guān)系,已經(jīng)有人 對語境信息進行了詳細(xì)的建模20、22。在多種目標(biāo)識別與場景分析的任務(wù)中,上述 這些模型都取得了令人興奮的進步。 然而,一般來講,這些基于模型生成的方法在規(guī)模上并不能很好地與目標(biāo)類別龐大 的數(shù)量相適應(yīng)。比如說,如果我們想要在一個現(xiàn)有的系統(tǒng)中包含更多的目標(biāo)類別,我們 需要為這些新的類別訓(xùn)練新的模型,并且在通常情況下,還需要調(diào)整系統(tǒng)參數(shù),那么,如果我們想要在一個場景分析系統(tǒng)中包含數(shù)以千計的目標(biāo)類別,模型訓(xùn)練將會是一項非常繁瑣的工作。除此之外,隨著目標(biāo)類別
5、的數(shù)量的不斷擴展,各目標(biāo)之間的語境關(guān)系的 復(fù)雜性也將迅速增長。不過最近,在計算機視覺領(lǐng)域,大型圖像數(shù)據(jù)庫的出現(xiàn)為一類新方法的出現(xiàn)提供了 可能,在若干應(yīng)用場合,由大型數(shù)據(jù)庫驅(qū)動的方法都顯示了非參數(shù)的方法是有潛能的。不同于傳統(tǒng)方法中需要進行復(fù)雜的參數(shù)模型的生成訓(xùn)練,這類新方法試圖將對未知圖像 的分析問題轉(zhuǎn)化為與一系列現(xiàn)有的帶注釋的圖像的配準(zhǔn)問題。在這篇文章中,我們提出了一種新的、非參數(shù)的場景分析系統(tǒng),它主要是通過轉(zhuǎn)移一個 大型的數(shù)據(jù)庫中的已有圖像的標(biāo)簽來為圖像做注釋,其基本流程如圖 1 所示:對于一幅查詢圖像(圖 1a),我們的系統(tǒng)首先在一個大型的、包含已經(jīng)經(jīng)過注釋的圖像的數(shù)據(jù)庫中檢索獲得其最佳配
6、準(zhǔn),在這一過程中,我們同時使用了 GIST 配準(zhǔn)34和 SIFT 流29; 等到這些最佳配準(zhǔn)被做上標(biāo)記之后,我們再將這些最佳配準(zhǔn)的注釋(圖 1c)轉(zhuǎn)移到查詢圖像,從而獲得場景分析結(jié)果(圖 1d),為了進行比較,我們在圖 1e 中顯示了查詢圖像 用到的基本真實注釋.如果是來自同樣的場景的圖像在這個包含已經(jīng)經(jīng)過注釋的圖像的 數(shù)據(jù)庫中進行檢索,那么,我們的系統(tǒng)是能夠產(chǎn)生有希望的場景分析結(jié)果的。 第 3 頁 北京航空航天大學(xué)(譯文)圖 1.對于一幅查詢圖像(a),我們的系統(tǒng)首先利用場景檢索和 SIFT 流配準(zhǔn)算法28、29找出與其 最匹配的圖像(b)(這里,我們只顯示了三幅);為了分析輸入圖像,我們對
7、這些最佳匹配圖像的注 釋(c)進行轉(zhuǎn)移、整合,如圖(d)所示;此外,為了進行比較,(a)圖用到的基本真實注釋如圖 (e)所示。但是,利用密集的場景配準(zhǔn)來建立一個有效可靠的場景分析系統(tǒng)是不簡單的,考慮 到可能來自多個最佳配準(zhǔn)的多個注釋結(jié)果,我們在系統(tǒng)中使用 Markov 隨機場模型,來將多條線索(例如可能性、先驗性和空間平滑度等等)合并成一個綜合的注釋結(jié)果。目前,我們已經(jīng)從基于 LabelMe 數(shù)據(jù)庫的圖像實驗中得到了有潛力的實驗結(jié)果39。 我們寫這篇文章的目的是探索通過轉(zhuǎn)移現(xiàn)有的已注釋過的圖像的標(biāo)簽來進行場景 分析的系統(tǒng)的性能,而不是建立一個綜合的目標(biāo)識別系統(tǒng),然而,通過在我們的數(shù)據(jù)庫 上的實
8、驗,我們發(fā)現(xiàn),我們的系統(tǒng)的性能要優(yōu)于現(xiàn)有的方法8、43,大家可以從以下網(wǎng)址下載我們的代碼和數(shù)據(jù)庫:/celiu/LabelTransfer/。 本文的篇章結(jié)構(gòu)組織如下:在第二部分,我們對有關(guān)目標(biāo)識別與檢測方面的文章做 了一個簡單的調(diào)研;在第三部分,我們首先給出系統(tǒng)概述,并于第四部分詳細(xì)地對系統(tǒng) 的每一部分進行了描述;具體的評估實驗是在第五部分,第六部分是對實驗結(jié)果的深入 討論;最后,我們在第七部分對文章進行了總結(jié)。第 4 頁 北京航空航天大學(xué)(譯文)2、相關(guān)工作目標(biāo)識別這一研究領(lǐng)域在過去的十年中得到了迅速的發(fā)展,其中,有許多關(guān)于單級模型的建立
9、方面的工作,比如,面11、48、49、數(shù)字和字符等等,它們都被證明是 成功的,并且在一些場合,僅使用這些單級模型,我們一般就可以認(rèn)為問題已經(jīng)被解決 了。最近,人們的努力方向正轉(zhuǎn)為多類目標(biāo)的識別。在建立一個目標(biāo)檢測系統(tǒng)的過程中, 我們需要考慮很多基本的構(gòu)造模式,其中,特征的描述與提取是基礎(chǔ)性的第一步,這里 所說的描述子包括有基于梯度的特征,比如說 SIFT30和 HOG8,形狀基礎(chǔ)的2,以及補丁統(tǒng)計數(shù)42。經(jīng)過選擇的特征描述子可以進一步被用于圖像的分析,無論我們是以零散的方式從特征描述子中選取具有最高響應(yīng)的最佳關(guān)鍵點,還是在整幅圖像中密集 地觀察特征的統(tǒng)計學(xué)數(shù)字。零散的關(guān)鍵點描述通常用于成對的圖
10、像配準(zhǔn)中,盡管目前有關(guān)兩組關(guān)鍵點之間的配 準(zhǔn)的一般性的問題是所謂非確定性的問題,但是人們已經(jīng)開發(fā)出了用于有效地計算關(guān)鍵 點之間的配準(zhǔn)的近似算法,并能保證使錯誤率最小化(例如,金字塔內(nèi)核配準(zhǔn)算法19 和詞匯樹算法32、33)。另一方面,無論是在圖像的臨近區(qū)域,還是將整幅圖像作為一個整體,通過視覺特征的分布建模,我們也已經(jīng)能夠處理密集的表示符24、40、51??紤]到最近在密集的圖像配準(zhǔn)方面的進展28、29,我們在這篇文章中也選擇了密集 的表示符。 我們還可以在一個更高水平的層面上來對比一下這兩種類型的目標(biāo)識別方法:第一類是包括有判別模型的生成訓(xùn)練的參數(shù)化的方法,第二類是依賴于圖像的檢索與配準(zhǔn)的 非
11、參數(shù)化的方法。在第一類參數(shù)化這個大中,我們可以找到大量的有關(guān)模板配準(zhǔn)的 方法,在模板配準(zhǔn)的過程中,各種分類器經(jīng)過訓(xùn)練可用于判別某一圖像窗口所含的內(nèi)容 是目標(biāo)還是基礎(chǔ)的,然而,這類方法通常需要假設(shè)目標(biāo)是剛性的,并且?guī)缀醪粫艿接?響,甚至完全不產(chǎn)生變形。考慮到鉸接式的目標(biāo)的存在,人們又設(shè)計出了星座模型來為 目標(biāo)建模,使之成為一個部分整體13、14、15,在建模的過程中考慮了空間信息7、深度排序信息53和多分辨率模式35。最近,通過眾多的源數(shù)據(jù)在環(huán)路綜合人體的一個新想法被提出5,這個新想法旨在為特定類群,例如植物或動物物種的視覺識別服務(wù),它設(shè)想可以在少于 20 個的描述性的問題中綜合對一個目標(biāo)的描
12、述,而這些問題都是人 類在對目標(biāo)進行視覺觀察之后可以回答得出來的。 第 5 頁 北京航空航天大學(xué)(譯文)在非參數(shù)化方法的領(lǐng)域中,我們發(fā)現(xiàn)像 Video Google44這樣的系統(tǒng),它可以允許用戶在一段視頻中任意指定一個對象,對其進行可視化查詢,并隨后在整部電影中對同一對象實例進行檢索。在另一個非參數(shù)化的系統(tǒng)38中,一幅先前未知的查詢圖像與一個密集標(biāo)記的圖像數(shù)據(jù)庫進行配對,其中,它的最近的相鄰圖像被用來為該查詢圖像構(gòu) 建一幅標(biāo)簽概率映射圖,這個標(biāo)簽概率映射圖也可以被用來將不太可能出現(xiàn)在圖像中的 目標(biāo)類別濾除出去。非參數(shù)化的方法也已經(jīng)被廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)領(lǐng)域,以用于相似圖 像的獲取,例如,在參考文
13、獻17中提到的自定義距離函數(shù)可用于在檢索階段計算查詢圖像與訓(xùn)練密集的圖像的距離,然后,我們可以利用這些距離來推測查詢圖像所屬的目 標(biāo)類別。遵循同樣的原則,在分析一幅檢索圖像時,我們的非參數(shù)化的標(biāo)簽轉(zhuǎn)移系統(tǒng)也 不會為各個對象建立明確的表面模型,而是使用訓(xùn)練數(shù)據(jù)庫中的相似圖像的注釋和密集 的圖像配準(zhǔn)。最近,為了整理和強化單獨的結(jié)果,一些文章也在目標(biāo)檢測中考慮了語境方面的信 息,目前,已經(jīng)被使用到的語境方面的線索包括目標(biāo)的共現(xiàn)、空間關(guān)系6、9、18、31、36以及三維場景的布局23。不同于為語境建立明確的模型,我們在系統(tǒng)中采用了隱含的語境關(guān)系,比如說在進行標(biāo)簽轉(zhuǎn)移的過程中保留目標(biāo)共現(xiàn)與空間關(guān)系。 有
14、關(guān)我們早期的研究結(jié)果出現(xiàn)在參考文獻27中,在這篇文章中,我們將通過更加透徹的實驗和見解來深入地研究標(biāo)簽轉(zhuǎn)移系統(tǒng)的框架結(jié)構(gòu)。其實,最近也有其他的文章提出了與我們相似的想法,比如在參考文獻46中,首先對查詢圖像執(zhí)行分割操作,然后利用在最近的相鄰圖像上訓(xùn)練生成的以段為基礎(chǔ)的分類器來進行每個區(qū)段的識別;又如在參考文獻37中,通過得到其最近的相鄰圖像共同擁有的邊界,我們可以得到場景的邊界。 3、系統(tǒng)概述我們的非參數(shù)化的場景分析系統(tǒng)的核心思路是通過配準(zhǔn)進行識別,為了對一幅輸入圖像進行分析,我們需要將輸入圖像中的可視化對象與一個數(shù)據(jù)庫中的圖像進行配準(zhǔn),如果該數(shù)據(jù)庫中的圖像是已經(jīng)注解過目標(biāo)類別標(biāo)簽的,并且如果
15、配準(zhǔn)在語義上是有意義 的,比如說,結(jié)構(gòu)與結(jié)構(gòu)相配準(zhǔn)、窗口與窗口相配準(zhǔn)、人與人相配準(zhǔn),那么,我們就可 以通過簡單地將數(shù)據(jù)庫中的圖像的標(biāo)簽進行轉(zhuǎn)移來分析輸入圖像。盡管如此,為了建立一個可靠的系統(tǒng),我們還需要處理很多實際問題。第 6 頁 北京航空航天大學(xué)(譯文)圖 2 顯示的是我們的系統(tǒng)的工作流程,它主要包括以下三個算法模塊: (1)場景檢索:對于一幅給定的查詢圖像,首先利用場景檢索技術(shù)找到它的一系列的最近的相鄰圖像,這些相鄰圖像與查詢的圖像具有相似的場景結(jié)構(gòu)(包括目標(biāo)對象以及 它們之間的相互關(guān)系)。(2)密集的場景配準(zhǔn):在查詢圖像與每一個檢索得到的最近的相鄰圖像之間建立密集 的場景配準(zhǔn),并選擇具有
16、最高的配準(zhǔn)得分的相鄰圖像作為候選圖像。 (3)標(biāo)簽轉(zhuǎn)移:根據(jù)估算出的密集的配準(zhǔn)關(guān)系將候選圖像的注解轉(zhuǎn)移到查詢圖像上, 并在 Markov 隨機場(MRF)模型下調(diào)和多個標(biāo)簽和提高空間平滑度。 雖然在這篇文章中,我們?yōu)槊恳粋€模塊都選擇了非常具體的算法,但是,適用于其 中任一模塊的任一算法都可以插入到我們的非參數(shù)化的場景分析系統(tǒng)中來。比如說,雖然我們在密集的場景配準(zhǔn)過程中使用的是 SIFT 流,但是,我們也可以使用零散的特征配準(zhǔn),然后將這些零散的配準(zhǔn)關(guān)系進行集中,從而生成密集的配準(zhǔn)關(guān)系。 我們的系統(tǒng)的一個非常重要的組成部分是一個大型的、密集的、經(jīng)過注解的圖像數(shù)據(jù)庫,其他的場景分析和圖像理解系統(tǒng)也都
17、需要這樣一個數(shù)據(jù)庫,因此,我們的系統(tǒng)并 不比其他的系統(tǒng)要求得更多。在這篇文章中,我們一共使用了兩組數(shù)據(jù)庫,為了構(gòu)建和 評估我們的系統(tǒng),這兩組數(shù)據(jù)庫都經(jīng)過了 LabelMe 在線注釋工具39的注釋。其中,第圖 2.系統(tǒng)的工作流程。我們的系統(tǒng)有三個核心的算法模塊(矩形),它們分別是:場景檢索、密集的 場景配準(zhǔn),以及標(biāo)簽轉(zhuǎn)移。圖中的橢圓形表示的是數(shù)據(jù)。一組是 LabelMe Outdoor(LMO)數(shù)據(jù)庫27,它一共包含了 2688 幅經(jīng)過充分注釋的圖像,這些圖像大部分都是戶外場景圖,包括街道、海灘、高山、田野和建筑物。第二組 是 SUN 數(shù)據(jù)庫52,它一共包含了 9566 幅經(jīng)過充分注釋的圖像,這
18、些圖像同時涵蓋了室內(nèi)場景和戶外場景,事實上,第一組數(shù)據(jù)庫LMO 是第二組數(shù)據(jù)庫 SUN 的一個子集。我們使用 LMO 數(shù)據(jù)庫來深入研究我們的系統(tǒng),并同時在 SUN 數(shù)據(jù)庫中報告了我們的結(jié) 果。 第 7 頁 北京航空航天大學(xué)(譯文)在對我們的系統(tǒng)進行詳細(xì)的介紹之前,先來看看與 LMO 數(shù)據(jù)庫相關(guān)的一些統(tǒng)計信息是很有幫助的。我們將 LMO 數(shù)據(jù)庫中的 2688 幅圖像隨機地分成為了兩組:其中,2488 幅圖像用于訓(xùn)練,剩余的 200 幅圖像用于測試。我們選取了其中含有最多的標(biāo)記像素的前 33 類對象,對于那些未被標(biāo)記的、或者被標(biāo)記為其他類別對象的像素,我們統(tǒng)統(tǒng)將其定義為第 34 類像素,即“未標(biāo)記
19、”像素。訓(xùn)練集中的這些對象類別的每一種像素的頻率計數(shù)結(jié)果如圖 3 所示,其中,每一條的顏色表示的是訓(xùn)練集中與之相對應(yīng)的對象類別的平均 RGB 值,為了達到可視化效果,我們對圖像的飽和度和亮度都進行了加強。從圖像中我們可以看到,位于前 10 名的對象類別分別是天空、建筑物、高山、樹木、“未標(biāo)記”類、公路、海洋、田野、草地和河流。這些對象類別的空間先驗分布如圖 3 的底部所示,其中,白顏色表示概率為零或者顏色的飽和度與其概率成正比。我們還注 意到,與我們的常識相一致,天空占據(jù)了圖像框格的上面部分,而田野占據(jù)了圖像框格 的下面部分。此外,對于太陽、牛群、鳥和月亮這幾類對象,我們只有有限數(shù)量的樣本。
20、4、系統(tǒng)設(shè)計在這一部分,我們將詳細(xì)地描述我們的非參數(shù)化場景分析系統(tǒng)的每一個模塊。4.1 場景檢索這一步驟的目的是在數(shù)據(jù)庫中為給定的查詢圖像檢索獲得一組最近的相鄰圖像,這里存在幾種不同的方式用于定義一個最近的相鄰圖像集合,其中,最普遍的定義方式包括,選取距離查詢圖像最臨近的 K 個點(K-NN 算法),另外一種模型是在紋理合成中廣泛使用到的-NN 算法12、26,它考慮了與查詢圖像的距離不超過(1+)倍的最小距離的所有臨近點,我們將這兩類算法進行概括,綜合得到(K,)-NN 算法,其定 義如下: 在該式中,當(dāng)趨向于無窮大時,(K,)-NN 算法就成為 K-NN 算法;當(dāng) K 趨向于無窮大時,(K
21、,)-NN 算法就成為-NN 算法,但是,(K,)-NN 這種表示形式使我們能夠靈活地來處理圖像中的密度變化問題,正如我們在圖 5 中所顯示的那樣。在接 第8頁北京航空航天大學(xué)(譯文)圖 3.上方:我們的數(shù)據(jù)集中的對象類別的每一種像素的頻率計數(shù)結(jié)果(以遞減的順序排列)。其中,每一條的顏色表示的是訓(xùn)練集中的每一個對象類別的平均 RGB 值,為了達到可視化效果,我們對圖 像的飽和度和亮度都進行了加強。下方:數(shù)據(jù)庫中的對象類別的空間先驗分布。其中,白顏色表示 概率為零,飽和的顏色表示概率很大。下來的實驗部分,我們還將顯示不同的 K 值對系統(tǒng)性能的影響。在實踐中,我們發(fā)現(xiàn)=5 是一個很好的參數(shù),所以我
22、們將會在本實驗中選擇=5。盡管如此,當(dāng)數(shù)據(jù)庫中的零散的樣本數(shù)目很小時,與K-NN 算法相比,(K,)-NN 算法并不如我們所設(shè)想的那樣使系統(tǒng)的性能得到了顯著改善。 我們還沒有定義兩幅圖像之間的距離的函數(shù) dist(.,.),事實上,衡量兩幅圖像之間的相似性或者它們之間的距離仍然是一個非?;钴S的研究領(lǐng)域,在我們的參考文獻52中, 第 9 頁 北京航空航天大學(xué)(譯文)您可以看到關(guān)于場景識別中的圖像特征分析的一個系統(tǒng)的研究。在這篇文章中,我們一共使用到了三種距離:第一種是 GIST 的歐氏距離34,第二種是 HOG 視覺字的空間金字塔直方圖的交集距離24,以及基礎(chǔ)的真實注解的空間金字塔直方圖的交集距
23、離。對于第二種 HOG 距離,我們在一個密集的網(wǎng)格內(nèi)使用了計算 HOG 特征值的標(biāo)準(zhǔn)流程,并使用 K 均值聚類算法將一系列圖像的特征值量化為視覺三種基于真實基礎(chǔ)的的度量距離則是出于評估的目的,用來為我們的系統(tǒng)估算一個上限值。HOG 距離和基礎(chǔ) 的真實距離都是以相同的方式計算得到的。其中,基礎(chǔ)的真實距離是通過構(gòu)建逐個像素 的標(biāo)簽的直方圖計算得到的,考慮到空間信息,我們在計算直方圖的過程中,首先將圖 像分割成 22 個窗口,然后再將這四個直方圖串聯(lián)成為一個單一的向量。直方圖的交集則被用來計算基礎(chǔ)的真實距離。我們通過將像素逐個標(biāo)簽替換為 HOG 視覺字來計算得到 HOG 距離。 在圖 4 中,我們顯
24、示了距離度量的重要性,因為它定義了一個大型圖像數(shù)據(jù)庫的鄰域結(jié)構(gòu)。我們從 LMO 數(shù)據(jù)庫中隨機選取了 200 幅圖像,并分別在頂部使用 GIST 和在 底部使用基礎(chǔ)的真實注解,計算得到了成對圖像之間的距離。然后,為了視覺上的可視化,我們又使用標(biāo)度(MDS)4將這些圖像一一映射到了一個二維網(wǎng)格的點上。雖然 GIST 描述符可以形成一個合理的有意義的圖像空間,使得在這個空間內(nèi)語義相似的圖像被聚集在一起,但是,由基礎(chǔ)的真實注釋定義的圖像空間才能夠真實地展現(xiàn)出該圖 像數(shù)據(jù)庫的基本結(jié)構(gòu),我們將會在之后的實驗部分進一步研究這一點。4.2 用于密集的場景配準(zhǔn)的 SIFT 流由于我們的目的是通過轉(zhuǎn)移現(xiàn)有的圖像樣
25、本的標(biāo)簽來分析輸入圖像,那么,我們就必須為整個場景的圖像找到密集的對應(yīng)物,在我們之前的工作中29,我們已經(jīng)證明了SIFT 流能夠通過配準(zhǔn)局部的SIFT 描述子在兩幅圖像之間建立在語義上有意義的對應(yīng)關(guān)系,我們又進一步將 SIFT 流擴展成為一個多層次的計算框架來改善其性能27。在這一 部分,我們對該算法做一個簡要的說明,至于更 為詳細(xì)的描述,大家可以參考參考文獻28。 與光流相類似,SIFT 流的任務(wù)就是找出兩幅圖像之間的緊密的對應(yīng)關(guān)系。我們設(shè) p=(x,y)包含了一個像素的空間坐標(biāo),w(p)=(u(p),v(p) 表示的是在 p 處的流量,s1 和 s2 分別表示兩幅圖像中每一個像素的 SIF
26、T 描述子30,再設(shè)包含了所第 10 頁 北京航空航天大學(xué)(譯文)有空間中的相鄰圖像(在這篇文章中,我們使用的是四-鄰域系統(tǒng))。那么,SIFT 流的能 量函數(shù)可以定義如下: 圖 4.數(shù)據(jù)庫的結(jié)構(gòu)取決于圖像之間的距離對度量。上圖:以 GIST 特征作為距離,使用規(guī)模標(biāo)度對 LabelMe Outdoor 數(shù)據(jù)庫中的(K,)-NN 算法進行可視化得到的結(jié)構(gòu)圖。下圖:以基本真實注釋的空間金字塔直方圖的交集距離作為度量,對同一數(shù)據(jù)庫中的(K,)-NN 算法進行可視化得到的結(jié)構(gòu)圖。左邊:RGB 圖像;右邊:注釋圖像。我們可以從中看到基本真實注釋對底層的數(shù)據(jù)庫 的結(jié)構(gòu)的強調(diào)。在圖(c)和圖(d)中,我們可
27、以看到,當(dāng)我們從右向左平移時,圖像的內(nèi)容將從 市區(qū)、街道(右邊)變化到高速公路(中間),再變化到自然風(fēng)景(左邊)。為了獲得圖 4 中的可視 化效果,我們一共從 LMO 數(shù)據(jù)庫中隨機選取了 800 幅圖像。這個能量函數(shù)里面包含了一個數(shù)據(jù)項、一個微小位移項和一個平滑項(也稱為空間正則 項)。其中,(2)式中的數(shù)據(jù)項用于限制 SIFT 描述符與流量 w(p)相配準(zhǔn);(3) 第 11 頁 北京航空航天大學(xué)(譯文)式中的微小位移項用于限制流量盡可能的小,直到再也沒有其他的信息可用;(4)式中的平滑項用于限制相鄰像素的流量是相似的。在這個目標(biāo)函數(shù)中,考慮到偏離值的配準(zhǔn)問題和流場的不連續(xù)性,我們在數(shù)據(jù)項和平
28、滑項中同時使用了 L1 標(biāo)準(zhǔn)截斷, 并分別以 t 和 d 作為閾值。 雖然我們已經(jīng)證明了SIFT 流有在整個場景中配準(zhǔn)圖像的潛能29,但是,原有的執(zhí)行規(guī)模仍然很難與圖像的尺寸相適應(yīng)。事實上,在 SIFT 流中,一幅圖像中的其中一個 像素可以與另一幅圖像的任意一個像素相配準(zhǔn)?,F(xiàn)在我們假設(shè)某幅圖像共有 h2 個像素,圖 5.一個圖像數(shù)據(jù)庫可以是不均勻的,正如我們用一些在二維空間內(nèi)隨機排列的點所示的那樣,其中,綠顏色的節(jié)點(A)被它的鄰居緊密地包圍著,而紅顏色的節(jié)點(B)處在一個稀疏的區(qū)域。如果我們使用 K-NN 算法(取 K=5),那么,一些遠離查詢節(jié)點(B)的樣本(用橙色的節(jié)點表示)可 以被挑選
29、出來作為它的鄰居;相反,如果我們使用-NN 算法來對范圍進行選擇,如同我們在圖中所 顯示的那樣,那么,對于某一個樣本,比如說(A),我們可以得到許多的相鄰點。而將這兩種算法 進行結(jié)合之后得到的(K,)-NN 算法(在圖中以灰色邊緣表示),則可以為以上兩項標(biāo)準(zhǔn)提供一 個很好的平衡。那么,一個簡單的用于估算 SIFT 流的傳播算法在時間和空間上的復(fù)雜程度是 O(h4)。正如參考文獻29中所提到的那樣,為一幅 145105 的大小的圖像搜尋一個 8080 大小的鄰域的計算時間是 50 秒。按照 SIFT 流原來的執(zhí)行情況,在我們的數(shù)據(jù)庫中處理一對256256 大小的圖像將需要超過兩個小時的時間,我們
30、的數(shù)據(jù)庫有 16GB 大小的內(nèi)存用來儲存數(shù)據(jù)。為了解決系統(tǒng)在性能上的不足,我們又設(shè)計出了一個由粗略到精細(xì)的 SIFT流配準(zhǔn)程序,以用于顯著改善其性能。如圖 6 所示的那樣,這個由粗略到精細(xì)的 SIFT第 12 頁 北京航空航天大學(xué)(譯文)流的基本思路是:首先,在一個粗略的圖像網(wǎng)格上估算流場,然后由粗到細(xì)地逐步對其 進行擴散和精煉,具體細(xì)節(jié)大家可以查閱參考文獻28。這樣做以后的結(jié)果是,這個由粗略到精細(xì)的算法的復(fù)雜程度降低為 O(h2log h),相比之前提到的 O(h4),這無疑是在速度上的一個非常明顯的提高。利用該算法,我們在配有兩個四核 2.67 GHz 英特爾至強中央處理器和 32GB 大
31、小的內(nèi)存的工作空間,以 C+程序?qū)崿F(xiàn)的兩幅 256256 大小的圖像之間的配準(zhǔn)所花費的時間僅為 31 秒。此外,我們還發(fā)現(xiàn)這個由粗略到精細(xì)的算法不僅在運行速度上明顯提高了,而且在大多數(shù)情況下,相比于原有的配準(zhǔn)算法也需要 更少的能量。我們在圖 8 中展示了一些 SIFT 流的例子,其中,密集的 SIFT 流場(圖 8f)是在查詢圖像(圖 8a)與與之最鄰近的圖像(圖 8c)之間得到的,我們嘗試以此來驗證:以SIFT 流(圖 8f)為基礎(chǔ)得到的翹曲的 SIFT 圖像(圖 8h)與輸入圖像(圖 8a)的 SIFT 圖像(圖 8b)看起來非常相似,并且 SIFT 流場(圖 8f)是分段光滑的。SIFT
32、 流的本質(zhì)如圖 8g 所示,其中,相同的流場被用來對與查詢圖像最鄰近的圖像的 RGB 圖像進行翹曲。SIFT 流試著通過對與它最鄰近的圖像的像素進行光滑重組,來構(gòu)想查詢圖像的結(jié)構(gòu)。由于每一個目標(biāo)類別固有的內(nèi)在相似性,那么,我們就可以通過配準(zhǔn)圖像的結(jié)構(gòu),來進行相同類別的目標(biāo)之間的配準(zhǔn)。此外,值得注意的是,由于流動的不對稱性,在最 近的鄰域里面的某個對象可能會與查詢圖像中的多個目標(biāo)相對應(yīng),這也使得我們可以在分析多個目標(biāo)實例的時候重復(fù)使標(biāo)簽用。4.3 通過標(biāo)簽轉(zhuǎn)移進行場景分析現(xiàn)在,既然我們已經(jīng)有了一個含有經(jīng)過注釋的圖像的大型數(shù)據(jù)庫,以及在場景之間 建立緊密的對應(yīng)關(guān)系的方法技術(shù),那么,我們就可以通過密
33、集的場景配準(zhǔn),轉(zhuǎn)移已有的 注釋來分析一幅查詢圖像。對于一幅給定的查詢圖像,我們首先利用 GIST 配準(zhǔn)技術(shù)34 在我們的數(shù)據(jù)庫中通過(K,)-NN 算法檢索獲得一組最近的鄰域,然后,分別計算出從查詢圖像到它的每一個最近的相鄰圖像的 SIFT 流,接著,我們利用獲得的最小能量值(由(4)式定義)來重新排列這些最近的相鄰圖像,最后,我們再選取重新排列后的 M(MK)個最佳檢索來建立我們的候選圖像集,這個候選圖像集將會被用來將它所含有的注釋轉(zhuǎn)移到查詢圖像上,這一過程如圖 7 所示。 在這樣一種設(shè)定流程下,場景分析可以歸結(jié)為如下的標(biāo)簽轉(zhuǎn)移問題:對于一幅給定 第 13 頁 北京航空航天大學(xué)(譯文)的查詢
34、圖像 I,以及與其相對應(yīng)的 SIFT 圖像 s,我們有一組候選圖像集 ,其中,si、ci 和 wi 分別表示第 i 個候選圖像的 SIFT 圖像、注釋以及從 s 到 si 的 SIFT 流 圖 6.我們的由粗糙到精細(xì)的金字塔 SIFT 流配準(zhǔn)算法的示意圖。其中,綠顏色的方塊表示在每一個金 字塔層級k 上的搜索窗口 pk。為了簡化說明,我們只在這里顯示了一幅圖像,其中,pk 在圖像 s1 上, ck 和 w(pk)在圖像 s2 上。有關(guān)該算法的具體細(xì)節(jié),大家可以查閱參考文獻28。場。我們想要根據(jù)緊密的對應(yīng)關(guān)系 wi ,通過將標(biāo)簽 ci 轉(zhuǎn)移給查詢圖像為查詢圖像獲得注釋 c。 我們建立了一個 Ma
35、rkov 概率隨機場模型來集成多個標(biāo)簽,在分析圖像 I 的過程中考慮到了目標(biāo)類別的先驗性信息,和注釋的空間平滑度。與參考文獻43中提到的相類似,我們將后驗概率定義如下: 其中,Z 表示概率的歸一化常數(shù),這個后驗概率公式總共包含了三個組成部分,它們分別是:可能性、先驗性和空間平滑度。 表示可能性的項定義如下:第 14 頁 北京航空航天大學(xué)(譯文)其中,表示候選圖像的指標(biāo)集,這些候選圖像在被翹曲到像素 p 后,標(biāo)簽就變成了 l。被設(shè)定為 SIFT 特征的最大差異值, 圖 7.對于一幅查詢圖像,我們首先利用 GIST 配準(zhǔn)算法34在數(shù)據(jù)庫中找到一組它的最近的(K,)鄰域;然后利用 SIFT 流配準(zhǔn)得
36、分對這些相鄰圖像進行重新排列,并形成一個最佳的 M 個候選圖像 集;最后,我們通過轉(zhuǎn)移這些候選圖像的注釋來分析該查詢圖像。表示先驗性的項表明了目標(biāo)類別 l 在像素 p 中出現(xiàn)的先驗概率,它是通過計算每個目標(biāo)類別在訓(xùn)練集中的每個位置出現(xiàn)的次數(shù)得到的:其中,histl(p)表示目標(biāo)類別 l 的空間直方圖。 表示平滑度的項被定義用來偏置相鄰的像素,使它們具有同樣的標(biāo)簽,直到再也沒 有其他的信息可用,并且是否需要進行偏置的概率取決于圖像的邊緣部分:圖像的邊緣 亮度越強,相鄰像素具有不同的標(biāo)簽的可能性就越大:其中,43。大家可以注意到,我們的能量函數(shù)是由四個參數(shù)控制的,其中,K 和 M 決定了該模型的模
37、式,和決定了空間先驗性和平滑度的影響,一旦這些參數(shù)被固定下來,我們將再一次使用 BP-S 算法來使能量最小化。在一個配有兩個四核的 2.67GHz 英特爾至強第15頁北京航空航天大學(xué)(譯文)中央處理器的工作空間,該算法可以在兩秒鐘內(nèi)完成。圖 8.系統(tǒng)概述。對于一幅查詢圖像,首先,我們的系統(tǒng)利用場景檢索技術(shù),例如34在我們的數(shù)據(jù)庫 中找到一組與它最相近的(K,)鄰域;然后,我們采用從粗糙到精細(xì)的 SIFT 流算法將準(zhǔn)查詢圖像與與它最相鄰的圖像進行配準(zhǔn),從而得到 M 幅最佳匹配圖像作為候選圖像(這里,我們假設(shè) M=3)。 圖(c)、圖(d)和圖(e):候選圖像的 RGB 圖像、SIFT 圖像和用戶
38、注釋。圖(f):經(jīng)推測得到的 SIFT 流場,該流場經(jīng)過了圖片左邊所示的配色方案(其中,色度表示方向,飽和度表示幅度)的可 視化。圖(g)、圖(h)和圖(i)分別是圖(c)、圖(d)和圖(e)關(guān)于圖(f)中的 SIFT 流翹曲之 后的圖像。我們可以注意到圖(a)與圖(g)、圖(b)與圖(h)之間的相似性。我們的系統(tǒng)結(jié)合多 幅候選圖像,優(yōu)化生成了圖(i)中的場景分析結(jié)果。圖(k):圖(a)的基本真實注釋。 我們的模型與參考文獻43中提到的模型之間的一個明顯的區(qū)別是,我們需要更少 的參數(shù),這是我們的方法的非參數(shù)化的本質(zhì)決定的,然而,在參考文獻43中,需要訓(xùn)練各類分類器。除此之外,目前,我們的模型中
39、沒有包含有關(guān)顏色的信息,這是因為在 我們的數(shù)據(jù)庫中,每一個目標(biāo)類別的顏色分布都各不相同。5、實驗為了評估我們的系統(tǒng),我們進行了大量的實驗。首先,我們將會在一個較小第 16 頁 北京航空航天大學(xué)(譯文)圖 9.每一個單一像素的二進制分類器的 ROC 曲線。紅顏色的曲線:被轉(zhuǎn)換為二進制的分類器之后的 我們的系統(tǒng);藍顏色的曲線:參考文獻8中提到的系統(tǒng),我們使用了凸?fàn)钔鈬箞D中的 ROC 曲線呈 嚴(yán)格的凹形。在每幅圖片的名稱下方的數(shù)字(n,m)分別表示的是測試集和訓(xùn)練集中所包含的對象 實例的數(shù)量,例如,“天空”下方的(170,2124)表示,一共有 170 幅測試圖像含有天空,以及一 共有 2124
40、幅訓(xùn)練圖像含有天空(我們一共有 2488 幅訓(xùn)練圖像和 200 幅測試圖像)。對于那些在訓(xùn)練 集和測試集中都含有足夠數(shù)量的樣本的對象類別,例如,天空、建筑物、高山和樹木,我們的系統(tǒng) 具有良好的性能;而對于那些沒有足夠數(shù)量的測試樣本的對象類別,比如,田野、海洋、河流、草、 植物、汽車和沙子,我們可以在 ROC 曲線中觀察到斷點;對于那些沒有足夠數(shù)量的訓(xùn)練樣本的對象 類別,比如,人行橫道、符號、船、竿、太陽和鳥,系統(tǒng)的性能很差;至于那些不含有任何測試樣 本的對象類別,例如,沙漠、牛群和月亮,是不存在 ROC 曲線的。相比之下,就除了草、植物、船、 人和汽車之外的所有的對象類別來說,我們的系統(tǒng)的性能
41、都要優(yōu)于或者等于在參考文獻8中提到的系統(tǒng),該系統(tǒng)在我們的數(shù)據(jù)庫中的性能之所以低,是因為這些對象在構(gòu)成和外觀上都有著明顯的不 同。的規(guī)模的數(shù)據(jù)庫中報告我們的結(jié)果,也就是我們將會在 5.1 小節(jié)中提到的 LabelMe Outdoor(LMO)數(shù)據(jù)庫,它將有助于我們對模型進行深入的研究。除此之外,我們也將會在 SUN 數(shù)據(jù)庫中報告我們的結(jié)果,SUN 是一個更大的、更具有挑戰(zhàn)性的數(shù)據(jù)集合, 其具體內(nèi)容我們將在 5.2 小節(jié)中描述。 5.1 LabelMe Outdoor 數(shù)據(jù)庫5.1.1評估標(biāo)準(zhǔn)在這篇文章中,我們使用逐個像素的識別率的平均值 (類似于精確度或真陽性率) 第 17 頁 北京航空航天大學(xué)
42、(譯文)來評價系統(tǒng)的性能,其計算公式為:其中,對于圖像 i 中的像素 p,我們設(shè)基礎(chǔ)的實際注釋為 a(p),系統(tǒng)的輸出為 o(p),對于那些未被標(biāo)記的像素,a(p)=0。設(shè)符號為用于測試圖像 i 的圖像點陣,再設(shè)表示圖像 i 中未被標(biāo)記的像素的數(shù)目(有一些像素沒有被標(biāo)記),我們還可以計算出每一類別的平均識別率,其計算公式如下:5.1.2實驗結(jié)果與比較我們在圖 10 中顯示了一些標(biāo)簽轉(zhuǎn)移的實驗結(jié)果,其中,來自于測試集的輸入圖像如圖 10a 中所示,輸入圖像的最佳配準(zhǔn)結(jié)果、與之相對應(yīng)的標(biāo)注以及翹曲之后的最佳配準(zhǔn)結(jié)果分別如圖 10b、10c、10d 中所示,盡管最終生成的標(biāo)簽是 M 個最佳配準(zhǔn)的整合
43、 結(jié)果,圖像的最佳配準(zhǔn)卻可以為讀者提供該過程和最終結(jié)果的一個直觀上的效果。請注 意,翹曲后的最佳配準(zhǔn)圖像(圖 10d)與輸入圖像(圖 10a)看起來是十分相似的,這就表明 SIFT 流在圖像結(jié)構(gòu)上成功地完成了配準(zhǔn)。圖 10e 中列示的是我們的系統(tǒng)進行場景分析之后的輸出結(jié)果,這里,我們設(shè)定的參數(shù)分別為:K=85,M=9,=0.06,=20?;A(chǔ)的真實用戶注釋如圖 10f 中所示,請注意,圖 10f 中的灰度像素表示該像素未被標(biāo)記,但是,我們的系統(tǒng)是絕對不會生成“未標(biāo)記”這樣的輸出結(jié)果的。對于樣本 1、5、6、8 和 9,我們的系統(tǒng)為標(biāo)注為“無標(biāo)簽”的像素也生成了合理的預(yù)測結(jié)果,在不考慮 第18頁
44、北京航空航天大學(xué)(譯文)圖 10.從我們的系統(tǒng)輸出的一些場景分析的結(jié)果。圖(a):查詢圖像;圖(b):從最近的相鄰圖像中 得到的最佳配準(zhǔn)圖像;圖(c):最佳配準(zhǔn)圖像的注釋;圖(d):根據(jù) SIFT 流場得到的圖(b)翹曲 之后的圖像;圖(e):在結(jié)合多個候選圖像的注釋之后推測得到的逐個像素的分析結(jié)果;圖(f): 圖(a)的基本真實注釋,其中,深灰色的像素表示該像素“未標(biāo)記”,從中我們可以看到,即使是 對于這些未被標(biāo)記的像素,我們的系統(tǒng)也能生成合理的分析結(jié)果。標(biāo)注為“無標(biāo)簽”的這一類像素時,我們的系統(tǒng)的平均逐個像素識別率可以達到 76.67%43。在圖 11 中,我們列示了一些失敗的實驗結(jié)果,這
45、些實驗之所以失敗,有的 是因為系統(tǒng)不能為查詢圖像檢索獲得相同目標(biāo)類別的圖像,另外的則是因為標(biāo)注本身就是模糊的??偟膩碚f,通過對圖像的邊界進行分段擬合,我們的系統(tǒng)是能夠正確地預(yù)測輸入圖 像所屬的對象類別的,盡管在有些時候,最佳配準(zhǔn)可能會看起來與輸入圖像不同,例如, 樣本 2、11、12 和 17。如果我們將這些目標(biāo)類別劃分為集合性的事物(例如,天空、山、樹木、海洋和田野)和具體的事物(例如,汽車、符號、船和車)兩大類1、22,那么,相比于具體的事物,我們的系統(tǒng)對于集合性的事物將會產(chǎn)生明顯更好的結(jié)果。其中, 排列前七位的對象類別(這七個對象類別均屬于集合性的事物)的識別率平均為 第 19 頁 北京
46、航空航天大學(xué)(譯文)圖 11.一些典型的失敗實例。當(dāng)我們不能在數(shù)據(jù)庫中檢索到良好的配準(zhǔn)圖像時,系統(tǒng)就運行失敗了。例如(2)中所顯示的那樣,由于最佳的配準(zhǔn)圖像中不含有河流,輸入圖像被錯誤地解析成了圖(e) 中的含有草、樹木和高山的場景。基本真實注釋如圖(f)所示。系統(tǒng)運行失敗也有可能是因為注釋 本身的不明確性,例如(3)中所顯示的那樣,系統(tǒng)在圖像下方輸出了田野,而基本真實注釋是高山。 82.72%,這是因為在我們當(dāng)前的系統(tǒng)中,對于一個像素,我們只允許有一個標(biāo)簽,所以, 較小的對象的標(biāo)簽往往會被較大的對象的標(biāo)簽所覆蓋。我們計劃在我們以后的工作中建 立一個遞歸式系統(tǒng),以用于在推測得到的集合性的事物的
47、基礎(chǔ)上,進一步檢索得到具體 的事物。為了便于將我們的實驗結(jié)果進行比較,我們又下載了參考文獻43中提到的紋理基 元-升壓代碼,并在封閉的 Markov 隨機場中利用相同的訓(xùn)練方式和測試數(shù)據(jù)運行了該程序。我們利用他們的程序,在我們的數(shù)據(jù)集中進行實驗得到的逐個像素的整體識別率是 51.67%,其中,每一個對象類別的識別率如圖 12c 所列示。為了公平起見,在使用我們的系統(tǒng)進行實驗時,我們同樣使 Markov 隨機場模型處于封閉狀態(tài),并通過設(shè)定=0 不考慮空間先驗概率,相應(yīng)的實驗結(jié)如圖 12f 所示。顯然,無論是在整體的識別率方面, 還是在單一的對象類別的識別率方面,我們的系統(tǒng)的性能都要優(yōu)于參考文獻4
48、3中所提到的系統(tǒng)。正如我們在圖 12b 中所顯示的那樣,通過進行顏色的配準(zhǔn),而不是密集的SIFT 描述符的配準(zhǔn),我們的系統(tǒng)可以獲得與紋理基元-升壓代碼相似的性能表現(xiàn)。并且通過進行顏色的配準(zhǔn),草地和沙灘這兩類對象的識別率得到了明顯的提高,這是因為對 于這些目標(biāo)類別而言,顏色是非常顯著的特征,然而,對于那些顏色多變的目標(biāo)類別而 言,顏色配準(zhǔn)的性能就下降了,這項實驗結(jié)果同時也說明了,在我們的標(biāo)簽轉(zhuǎn)移系統(tǒng)中 進行外觀恒定的特征的配準(zhǔn)的重要性。此外,我們又將我們的系統(tǒng)在表性性能上與一個基于分類器的系統(tǒng)8進行了比較,我們首先下載了他們的代碼,然后利用相同的訓(xùn)練數(shù)據(jù)為每一個對象類都分別訓(xùn)練生成 了一個分類器
49、。然后,僅僅通過使用表示每一個對象類別的可能性的項,我們將我們的 第 20 頁 北京航空航天大學(xué)(譯文)圖 12.我們對我們系統(tǒng)的性能進行了深入的研究。圖(a):我們的系統(tǒng)設(shè)置有優(yōu)化參數(shù)時的逐個像素 的識別率;圖(b):配準(zhǔn) RGB、而不是配準(zhǔn)密集的 SIFT 描述符時的我們的系統(tǒng);圖(c):在 Markov隨機場關(guān)閉的條件下,參考文獻43中提到的系統(tǒng)在與圖(a)相同的數(shù)據(jù)集中進行訓(xùn)練和測試實驗 得到的結(jié)果。在圖(d)、(e)和(f)中,通過將它們打開或關(guān)閉,我們顯示了 SIFT 流配準(zhǔn)和 MRF對標(biāo)簽轉(zhuǎn)移的重要性。在圖(g)和(h)中,我們顯示了不同的場景檢索方法對系統(tǒng)性能的影響。 圖(h)
50、表明,在采用理想的場景檢索方法,即使用基本真實注釋時(當(dāng)然,在實際操作中,基本真 實注釋是不可得的),我們的系統(tǒng)性能能夠達到的上限值,更多的細(xì)節(jié),請您閱讀文章。 系統(tǒng)轉(zhuǎn)換成了一個二進制的目標(biāo)類別檢測器。實驗結(jié)果的比較如圖 9 所示,我們?yōu)槊恳粋€對象類別都繪制了 ROC 曲線,其中,紅色表示我們的系統(tǒng),藍色表示他們的系統(tǒng)。從實驗結(jié)果中我們可以看到,除了草、植物、船、人、路燈和汽車這六類對象外,我們 的系統(tǒng)的性能都要優(yōu)于或者等于他們的系統(tǒng)。5.1.3系統(tǒng)參數(shù)的選擇因為在我們的系統(tǒng)中,SIFT 流模塊是一個必不可少的組成部分,所以,我們首先需要對式(4)中的空間平滑度系數(shù)進行測試,它將決定配準(zhǔn)的結(jié)果
51、。我們通過計算得到了逐個像素的平均識別率,它是的一個函數(shù),計算結(jié)果如圖 13a 中所示。首先, 在標(biāo)簽轉(zhuǎn)移模塊中,我們通過設(shè)定=0 使 MRF 模型處于關(guān)閉狀態(tài),我們發(fā)現(xiàn)當(dāng)=0.7 的時候,有最大的識別率;然后,我們又通過設(shè)定=0.1、=60 使 MRF 模型處于開啟狀態(tài),我們發(fā)現(xiàn)當(dāng)=0.7 的時候,系統(tǒng)同樣具有非常良好的表現(xiàn)性能,因此,在我們的整 個實驗中,我們都設(shè)定=0.7。 第 21 頁 北京航空航天大學(xué)(譯文)我們通過改變參數(shù) K、M、和的數(shù)值,來探究我們的系統(tǒng)的性能,我們通過實驗發(fā)現(xiàn),當(dāng)被設(shè)置成使得大多數(shù)的樣本都有 K 幅最近的相鄰的圖像時,對系統(tǒng)性能的影響比 K 對系統(tǒng)性能的影響要
52、小。我們對 M 和 K 分別進行如下取值:M=1、3、5、7、9, K=1、5、10、100,對于每一個 K 與 M 的組合(MK),我們通過坐標(biāo)的將序排列使使識別率達到最大值,從而獲得參數(shù)和的最佳取值。在圖 13b 中,我們繪制出了當(dāng) M 取不同的值時,識別率與 K 的函數(shù)關(guān)系。從實驗結(jié)果中我們可以看到,總體而言, 隨著檢索獲得的最近的相鄰圖像的數(shù)目的增加(也就是 K 增加)和候選圖像的數(shù)目的增加(也就是 M 增加),系統(tǒng)的識別率也在提高,很明顯,這是因為在給查詢圖像轉(zhuǎn)移標(biāo) 簽時,我們需要更多的候選圖像。然而,隨著 K 和 M 的取值的進一步增加,系統(tǒng)的識別率會有所下降,這可能是因為在標(biāo)簽轉(zhuǎn)
53、移的過程中,更多的候選圖像會引入噪聲。特別需要注意的是,隨著 K 的取值的增加,系統(tǒng)識別率的下降表明了,場景檢索不僅僅可以作為 SIFT 流中獲得相鄰圖像的一種方式,它也可以用于排除一些可能會被 SIFT 流選中的不好的圖像。我們發(fā)現(xiàn)當(dāng) K=85、M=9 的時候,我們的系統(tǒng)將獲得最佳的表現(xiàn)性能。 由于數(shù)據(jù)庫的規(guī)則是我們的系統(tǒng)能否成功的關(guān)鍵所在,因此,我們又在實驗中去除了SIFT 流的配準(zhǔn)這一環(huán)節(jié),也就是說,對于每一個像素,我們都將其流量設(shè)置為 0, 之后,我們在沒有 Markov 隨機場和有 Markov 隨機場的條件下得到的平均識別率分別為61.23%和 67.96%,具體結(jié)果如圖 12d
54、和圖 12f 所示。這項實驗結(jié)果是非常有意義的, 因為 SIFT 流是該系統(tǒng)在速度方面的瓶頸所在。我們的系統(tǒng)的一個快速實現(xiàn)的方法包括, 首先去除密集的場景配準(zhǔn)模塊,然后進行簡單的從網(wǎng)格到網(wǎng)格的標(biāo)簽轉(zhuǎn)移(這里,我們在標(biāo)簽轉(zhuǎn)移模塊中使用到的表示可能性的項仍然來自 SIFT 流描述符之間的距離)。 那么,不同的場景檢索技術(shù)又會對我們的系統(tǒng)產(chǎn)生怎樣的影響呢?除了用于獲得我 們在圖 12 中展示的結(jié)果的用于檢索查詢圖像的最近的相鄰圖像的 GIST 距離,我們還用到了 HOG 視覺字的空間金字塔直方圖的交集距離和基礎(chǔ)性的真實注釋的空間金字塔直方圖的交集距離,與這兩種距離相對應(yīng)的每一個目標(biāo)類別的識別率的實驗
55、結(jié)果分別如圖 12g 和圖 12h 所示。對 LMO 這個數(shù)據(jù)庫而言,使用 GIST 距離時系統(tǒng)的性能要稍稍優(yōu)于使用 HOG 視覺字距離時系統(tǒng)的性能。此外,為了完善場景配準(zhǔn),我們還在理想的條件下探索了該標(biāo)簽轉(zhuǎn)移工作框架的上限值,具體來說,對于每一幅查詢圖像,我們利用它 的基礎(chǔ)真實注釋進行檢索,以獲得它的最近的相鄰圖像,具體細(xì)節(jié)大家可以參考 4.1 小節(jié)的有關(guān)內(nèi)容,通過實驗,我們發(fā)現(xiàn)識別率的上限是 83.79%。 第 22 頁 北京航空航天大學(xué)(譯文)圖 13.圖(a):在兩種不同的和的值的設(shè)定條件下,識別率與空間平滑度系數(shù)之間的函數(shù)關(guān)系。 圖(b):識別率與和查詢圖像最臨近的圖像的數(shù)量 K 和
56、候選圖像的數(shù)量 M 之間的函數(shù)關(guān)系,從圖中 我們可以清楚地看到,先驗性和空間平滑度有利于識別率的提高。當(dāng)我們進一步提高 K 值時、曲線下降的事實表明,SIFT 流配準(zhǔn)不能替代場景檢索。圖(c):當(dāng)測試集固定時,識別率與訓(xùn)練集的比 率的對數(shù)之間的函數(shù)關(guān)系。其中,作為訓(xùn)練樣本的子集是根據(jù)訓(xùn)練集相對于測試集的比率,從整個 訓(xùn)練集中隨機選取的,我們以此來測試數(shù)據(jù)庫的大小對系統(tǒng)性能的影響。圖(d):在分別以 GIST、 (5)式中的客觀分析項和識別率(帶有基本真實注釋)為度量時,識別率與排名最前的測試圖像的 比率之間的函數(shù)關(guān)系,圖中,黑色的虛線表示理想排序度量條件下的識別率,結(jié)果顯示客觀分析項 GIST 更好。這些曲線表明,在某種程度上,我們的系統(tǒng)是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西藏拉薩典當(dāng)管理辦法
- 居家衛(wèi)生管理辦法細(xì)則
- 西藏疫情管理辦法細(xì)則
- 福州市百校數(shù)學(xué)試卷
- 高考筆刷題數(shù)學(xué)試卷
- 二模2024數(shù)學(xué)試卷
- 高中學(xué)生做高考數(shù)學(xué)試卷
- 高二選選修二數(shù)學(xué)試卷
- 部編版小學(xué)語文《習(xí)作單元的編排特點及教學(xué)建議》課件
- 肖像兒童畫課件
- 心腦血管疾病創(chuàng)新藥物研究-全面剖析
- 2025年03月四川成都農(nóng)業(yè)科技中心公開招聘筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 《2025年CSCO非小細(xì)胞癌診療指南》解讀
- 能源管理規(guī)定
- 人工水磨鉆勞務(wù)合同標(biāo)準(zhǔn)文本
- 全過程工程咨詢投標(biāo)方案(技術(shù)方案)
- 風(fēng)力發(fā)電對環(huán)境影響評估-深度研究
- 2025年防臺防汛考試題及答案
- 《水利工程建設(shè)項目文件收集與歸檔規(guī)范SLT 824-2024》知識培訓(xùn)
- 蒙氏數(shù)學(xué)流程
- 病理切片HE染色
評論
0/150
提交評論