基于深度學(xué)習(xí)的圖像標簽生成算法_第1頁
基于深度學(xué)習(xí)的圖像標簽生成算法_第2頁
基于深度學(xué)習(xí)的圖像標簽生成算法_第3頁
基于深度學(xué)習(xí)的圖像標簽生成算法_第4頁
基于深度學(xué)習(xí)的圖像標簽生成算法_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于深度學(xué)習(xí)的圖像標簽生成算法楊陽基金項目: 國家自然科學(xué)基金重點項目(U1135005,跨媒體協(xié)同處理與服務(wù)的理論與應(yīng)用研究)資助項目 張文生(中國科學(xué)院自動化研究所北京 100190)摘要 圖像的自動標注是圖像檢索領(lǐng)域一項基礎(chǔ)而又富有挑戰(zhàn)性的任務(wù)。當前,機器學(xué)習(xí)算法在該領(lǐng)域取得了一定的進展。深度學(xué)習(xí)算法自提出以來在圖像和文本識別領(lǐng)域取得了巨大的成功,它可以作為一種解決“語義鴻溝”問題的有效方法。圖像標注問題可以分解為基于圖像與標簽相關(guān)關(guān)系的基本圖像標注和基于標注詞匯共生關(guān)系的標注改善兩個過程。文中將基本圖像標注問題視為一個多標記學(xué)習(xí)問題,圖像的標簽先驗知識作為深度神經(jīng)網(wǎng)絡(luò)的監(jiān)督信息。在得到

2、基本標注詞匯的基礎(chǔ)上,利用原始圖像標簽詞匯的依賴關(guān)系與先驗分布改善了圖像的標注結(jié)果。最后所提出的改進的深度學(xué)習(xí)模型應(yīng)用于Corel和ESP圖像數(shù)據(jù)集,驗證了該模型框架及所提出解決方案的有效性。關(guān)鍵字 圖像自動標注,深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò),機器學(xué)習(xí)中圖分類號TP39Image Auto-Annotation based on deep learningYang Yang, Zhang Wensheng(Institute of Automation, Chinese Academy of Sciences)Abstract Image auto-annotation is a basic and c

3、hallenge task in the image retrieval work. The traditional machine learning methods have got a lot achievement in this field. The deep learning algorithm has achieved great success in image and text learning work since it has been presented, so it can be an efficiency method to sole the semantic gap

4、 problems. Image auto-annotation can be decomposed into two steps: basic image auto-annotation based on the relationship between image and tag, and annotation enhanced based on the mutual information of the tags. In this article, the basic image auto-annotation is viewed as a multi-labelled problem,

5、 so the prior knowledge of the tags can be used as the supervise information of the deep neural network. After the image tags got, the dependent relationship of the tags is used to improve the annotation result. At the end, this model have been tested in Corel and ESP dataset, and been proved that t

6、his method can efficiently solve the image auto-annotation problems.Key words image auto-annotation, deep learning, neural network, machine learning1引言大數(shù)據(jù)時代,人們可以訪問獲取的信息資源呈現(xiàn)出爆炸式的增長,互聯(lián)網(wǎng)上每天都誕生海量的圖像和視頻信息。為了有效地組織、查詢與瀏覽如此大規(guī)模的圖像資源,圖像檢索技術(shù)應(yīng)運而生。現(xiàn)有的圖像檢索方式主要分為兩種:基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)和基于

7、文本的圖像檢索(Text-Based Image Retrieval, TBIR)。對TBIR來說,它要求用戶提交文本作為查詢,因此,圖像檢索需要事先獲取圖像的文本語義信息1。圖像的Tag標簽是一種有效獲取圖像的語義信息的方法,它應(yīng)用廣泛,例如在社交媒體中大量的圖像被用戶標記Tag信息。然而互聯(lián)網(wǎng)上同時存在大量的圖像未被標記Tag信息,因此人們期望利用含有標簽圖像通過某種算法自動生成缺失Tag信息圖像的標簽。雖然圖像標簽的自動生成是一個十分困難的任務(wù),但是通過學(xué)者們的不斷努力,取得了豐碩的成果。圖像標簽生成算法按照標注模型的不同主要分成兩大類2:基于統(tǒng)計分類的自動圖像標注模型和基于概率的自動圖

8、像標注模型?;诮y(tǒng)計分類的方法是將每一個圖像的語義概念都被當作一個類別進行分類,自動圖像標注就可以轉(zhuǎn)換成圖像的多分類問題。代表方法有:支撐向量機(Support Vector Machine,SVM)方法3,4,24、二維多分辨率馬爾可夫模型(2D Multi-Resolution Hidden Markov Model,2D MHMMs)5,貝葉斯點學(xué)習(xí)機(Bayes Point Machine)6和混合分級模型(Mixture Hierarchical Model)7等?;诟怕式5姆椒▏L試推斷圖像和語義概念(或關(guān)鍵字)之間的相關(guān)性或聯(lián)合概率分布。Mori8等提出了一種利用關(guān)鍵字與“視覺

9、詞匯”之間的共現(xiàn)關(guān)系(Co-Occurrence)來標注圖像標簽的網(wǎng)格區(qū)域的算法。近些年來流行的主題模型同樣在圖像自動標注領(lǐng)域有應(yīng)用,例如,狄迪克雷分配模型9(Latent Dirichlet Allocation Model,LDA)和一致LDA模型9(Correspondence LDA)。上述模型中,參數(shù)的概率分布相對于真實分布而言仍然過于簡單,但參數(shù)的估計過程卻相對復(fù)雜。受到關(guān)聯(lián)語言模型的啟發(fā),一些關(guān)聯(lián)模型相繼被應(yīng)用到圖像自動標注領(lǐng)域內(nèi),如跨媒體相關(guān)模型10 (Cross-Media Relevance Model, CMRM)連續(xù)相關(guān)模型11 (Continuous Relevanc

10、e Model, CRM)和多重伯努利相關(guān)模型12(Multiple Bernoulli Relevance Model,MBRM)等。稀疏表示在圖像與視頻處理領(lǐng)域取得了巨大的成績,Liu22等人應(yīng)用稀疏編碼(Sparse Coding)從多視角的角度出發(fā),分析了不同特征的標注平均正確率,從而選取最適宜標注的特征。Feng23等人利用核尺度學(xué)習(xí)(Kernel Metric Learning, KML)的方法實現(xiàn)圖像的自動標注,此方法因為具有很高的效率,特別適用于海量圖像。Hu25等人提出了一種兩階段的圖像標注方法,第一步移除無關(guān)標簽,第二步常規(guī)標注,能大幅提高圖像標注正確率與標注效率。近些年來

11、,深度學(xué)習(xí)在圖像、文本和語音領(lǐng)域取得了巨大的成功。文獻13對如何進行基于受限制的玻爾茲曼機(Restrict Boltzmann Machine,RBM)的深度神經(jīng)網(wǎng)絡(luò)(Deep Belief Network, DBN)的訓(xùn)練提供詳細的指導(dǎo),并應(yīng)用于Minst手寫數(shù)字識別。Lecun14等人提出的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNNs)是第一個真正意義上的多層結(jié)構(gòu)學(xué)習(xí)算法。Krizhevsky15等人利用多層卷積神經(jīng)網(wǎng)絡(luò)進行海量圖像的分類工作,取得了較好的成績。Vincent16等人提出利用含有噪聲的自編碼神經(jīng)網(wǎng)絡(luò)(Denoise Auto-Encode

12、r, DAE)來取代RBM模型對深度神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練,在Minst手寫數(shù)字識別等常用數(shù)據(jù)集上取得了超越RBM模型的分類結(jié)果。Nitish17等在含有Tag的圖像數(shù)據(jù)集MIR Flickr上,應(yīng)用DBN學(xué)習(xí)得到圖像和文本的語義表示并用于分類,同時該網(wǎng)絡(luò)可以通過圖像的單模信息補充遺失的文本數(shù)據(jù)。本文采取基于統(tǒng)計分類的學(xué)習(xí)方法,將圖像的標簽信息視為圖像的類別信息。首先分別采用RBM和DAE模型對深度神經(jīng)元網(wǎng)絡(luò)做無監(jiān)督的預(yù)訓(xùn)練;然后利用深度神經(jīng)網(wǎng)絡(luò)做有監(jiān)督的判別學(xué)習(xí),得到模型參數(shù),再通過模型預(yù)測圖像的Tag信息;最后利用文本的共生關(guān)系與先驗知識改善模型得到的標注結(jié)果。通過Corel5K數(shù)據(jù)集和ESP

13、數(shù)據(jù)集上的實驗結(jié)果表明,該模型對解決圖像標注問題具有良好的表現(xiàn)。2模型方法神經(jīng)元網(wǎng)絡(luò)是處理多分類問題的一個有效方法,然而對于深度神經(jīng)元網(wǎng)絡(luò),若給定隨機的初始權(quán)重,很難將它優(yōu)化到一個很好的分類結(jié)果,因為在優(yōu)化過程中,它很容易陷入局部最優(yōu)中。而深度學(xué)習(xí)的方法通過權(quán)重的逐層預(yù)訓(xùn)練,將網(wǎng)絡(luò)權(quán)重首先優(yōu)化到最優(yōu)解的附近,然后通過反向傳播過程對網(wǎng)絡(luò)權(quán)重進行微調(diào),得到整個神經(jīng)元網(wǎng)絡(luò)的最優(yōu)解。常用的預(yù)訓(xùn)練方法有RBM模型和DAE模型。2.1 受限玻爾茲曼機受限玻爾茲曼機(RBM)是由可見層節(jié)點(,D為輸入層節(jié)點數(shù)目)與隱藏層節(jié)點(,K為隱藏層節(jié)點數(shù)目)構(gòu)成的雙向概率圖模型??梢妼庸?jié)點與隱藏層節(jié)點間有對稱的權(quán)連接

14、(),而可見層節(jié)點之間與隱藏層節(jié)點之間沒有權(quán)連接。該模型定義了隱藏層節(jié)點h與可見層節(jié)點v 的概率分布,相比于全連接的玻爾茲曼機,當給定可見層節(jié)點v或者隱藏層節(jié)點h時,這種特殊的模型可以很方便的計算出節(jié)點的條件概率分布。定義該模型的能量函數(shù)如下: (1)其中為模型參數(shù)。模型關(guān)于可見層節(jié)點v和隱藏層節(jié)點h的聯(lián)合概率分布可以這樣表示: (2)其中是標準化項。當給定可見層節(jié)點v和隱藏層節(jié)點h后,二者的條件概率可由如下公式計算得到: (3) (4)其中,是邏輯斯蒂克函數(shù)。2.2 高斯-伯努利受限玻爾茲曼機當模型中的可見層節(jié)點為實數(shù)(),隱藏層節(jié)點()為二元隨機數(shù)時,原有模型失效。于是定義高斯受限玻爾茲曼

15、機(GRBM)模型,其能量函數(shù)如下: (5)其中是模型參數(shù),該模型下可見層與隱藏層節(jié)點的條件概率為: (6) (7)受限波爾茲曼機通常采用Hinton13等人提出的對比離差(Contrastive Divergence,CD)的方法做近似求解,得到模型參數(shù)。2.3 帶噪聲的自編碼神經(jīng)網(wǎng)絡(luò)自編碼神經(jīng)網(wǎng)絡(luò)(AE)是一種無監(jiān)督的學(xué)習(xí)算法。自編碼神經(jīng)網(wǎng)絡(luò)嘗試學(xué)習(xí)一個恒等函數(shù),使得輸出y接近于輸入x。如公式8所示,模型通過優(yōu)化最小損失函數(shù),學(xué)習(xí)得到模型的參數(shù),其中,是邏輯斯蒂克函數(shù)。當權(quán)重緊致時,變換的參數(shù)對稱。Vincent16認為如果網(wǎng)絡(luò)的輸入數(shù)據(jù)是完全隨機的,比如每一個樣本都是一個跟其它樣本完全無

16、關(guān)的獨立同分布高斯隨機變量,那么這一壓縮表示將會非常難學(xué)習(xí)。但是如果輸入數(shù)據(jù)中隱含著一些特定的結(jié)構(gòu),比如某些輸入特征是彼此相關(guān)的,那么這一算法就可以發(fā)現(xiàn)輸入數(shù)據(jù)中的這些相關(guān)性。事實上,這一簡單的自編碼神經(jīng)網(wǎng)絡(luò)通??梢詫W(xué)習(xí)出一個跟主元分析(PCA)結(jié)果非常相似的輸入數(shù)據(jù)的低維表示。 (8)進一步,為了提高模型參數(shù)對輸入數(shù)據(jù)的魯棒性,Vincent16提出了帶噪聲的自編碼神經(jīng)網(wǎng)絡(luò)(DAE)如圖1所示。在原有自編碼神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對輸入數(shù)據(jù)加入部分噪聲,得到含有噪聲的數(shù)據(jù),然后從含有噪聲的數(shù)據(jù)重建得到一個干凈的輸入數(shù)據(jù),因此恒等函數(shù)由變?yōu)?優(yōu)化目標變?yōu)楣?9)。常用的污染函數(shù)有高斯隨機噪聲,白噪

17、聲,椒鹽噪聲等等。模型參數(shù)的學(xué)習(xí)可用隨機梯度下降法得到,為了讓模型更好的學(xué)習(xí)得到輸入數(shù)據(jù)的特征,常常在模型中加入L2正則化與稀疏懲罰。 (9)圖 1 含有噪聲的自編碼神經(jīng)網(wǎng)絡(luò)Fig. 1 The Denoising Auto-encoder Model2.4模型結(jié)構(gòu)傳統(tǒng)的BP神經(jīng)元網(wǎng)絡(luò)采用單一隱藏層對數(shù)據(jù)進行建模,深度學(xué)習(xí)方法為了解決更復(fù)雜的問題,通常采用多層隱藏層神經(jīng)元網(wǎng)絡(luò)。為了避免神經(jīng)元網(wǎng)絡(luò)求解易陷入局部最優(yōu)的問題,首先采用RBM或者DAE模型對網(wǎng)絡(luò)權(quán)重進行預(yù)訓(xùn)練,然后將預(yù)訓(xùn)練得到的每層權(quán)重值作為反向傳播算法的權(quán)重初始值賦予整個神經(jīng)元網(wǎng)絡(luò),最后采用反向傳播算法更新整個網(wǎng)絡(luò)的權(quán)重。如圖2所示

18、,本文采用3層深度神經(jīng)元網(wǎng)絡(luò)架構(gòu),輸入層單元輸入圖像的特征v,將圖像的標簽信息作為網(wǎng)絡(luò)的輸出節(jié)點t。當采用RBM模型時,由于神經(jīng)網(wǎng)絡(luò)輸入單元 (N為輸入圖像特征維數(shù)),故應(yīng)當采用GRBM作為深度神經(jīng)網(wǎng)絡(luò)的第一層網(wǎng)絡(luò)結(jié)構(gòu)h1,隨后兩層采用常規(guī)RBM作為深度網(wǎng)絡(luò)的第二層h2和第三層h3網(wǎng)絡(luò);當采用DAE模型時,第一層自編碼神經(jīng)網(wǎng)絡(luò)的反向激勵函數(shù)運用線性函數(shù),第二層h2和第三層h3網(wǎng)絡(luò)反向激勵函數(shù)應(yīng)用邏輯斯蒂克函數(shù)。Image TagImage inputLayer 1Layer 2Layer 3DBNBP圖 2 深度神經(jīng)元網(wǎng)絡(luò)模型Fig. 2 The Deep Belief Network mod

19、el神經(jīng)網(wǎng)絡(luò)模型在處理分類問題時,設(shè)定監(jiān)督向量的維數(shù)目為類別數(shù)目M,對應(yīng)于樣本所屬類別k,那么輸出層的第k維為1,其余維數(shù)為零。在反向傳播算法中,計算神經(jīng)網(wǎng)絡(luò)實際輸出與監(jiān)督向量的之間的差值來衡量網(wǎng)絡(luò)的收斂程度,當滿足訓(xùn)練次數(shù)要求時停止訓(xùn)練。訓(xùn)練完成后,將測試數(shù)據(jù)組輸入神經(jīng)網(wǎng)絡(luò),取輸出層最大節(jié)點的位置為樣本的預(yù)測類別。在處理多分類問題時,可以將樣本多個類別信息所對應(yīng)的監(jiān)督向量的維數(shù)均設(shè)為1,輸出層的激勵函數(shù)由softmax函數(shù)替換為邏輯斯蒂克函數(shù),對輸出層的結(jié)果做排序,排序靠前的類別為該神經(jīng)網(wǎng)絡(luò)對樣本類別的預(yù)測結(jié)果。雖然圖像標注問題類似于多分類問題,一個圖像可能所屬多個標簽,但是與常見的多分類問

20、題有很大的不同。多分類問題對應(yīng)的類別信息通常是均勻分布的,也就是說每個類別所屬的圖像數(shù)量通常是均勻分布。然而圖像標注問題的標注信息通常不是均勻分布的,某個標簽可能所屬的圖像較多,也可能較少。例如“天空”,“大?!彼鶎俚膱D像一般較多而,“貓”,“城墻”所屬的圖像數(shù)目會很有限。倘若同等考慮不同的標簽信息,那么標注頻率低的標簽會淹沒于標注頻率高的標簽之中,而無法對給定的圖像給予準確的標注。針對圖像標簽分布不均勻的問題,本文將圖像的標簽頻率引入到監(jiān)督信息中,通過改善神經(jīng)網(wǎng)絡(luò)的監(jiān)督向量改進模型的準確度。如公式(10)所示,新的監(jiān)督信息在原有監(jiān)督信息的基礎(chǔ)上除以標簽所屬圖像的和n。同時為了避免監(jiān)督信息過小

21、,再除以中的最大值做標準化處理。通過上述處理保證了圖像的低頻標簽有較大的返回值,能夠有效改善圖像的標注精度。 (10)進一步,為了增加標注的準確性,更加有效的返回低頻標簽。本文改進了神經(jīng)網(wǎng)絡(luò)的損失函數(shù),每一維的監(jiān)督信息不再平等對待。一方面,含有低頻標簽的樣本具有更大的權(quán)重,另一方面,低頻標簽所對應(yīng)的監(jiān)督信息具有更大的權(quán)重。如公式(11)所示: (11) (12)式中,L為原損失函數(shù),f1為考慮詞頻的樣本的權(quán)重,f2為考慮詞頻的損失函數(shù)的權(quán)重。通常權(quán)重取標簽所含圖像的總數(shù)的倒數(shù)。對于f1通常取樣本對應(yīng)具有最低詞頻的標簽的權(quán)重。3 圖像標注改善利用深度學(xué)習(xí)模型得到圖像標注信息,主要是利用了圖像間的

22、視覺相似性,但由于語義鴻溝的存在,每幅圖像很難保證得到的標簽與原圖像的語義一致性。文獻21指出依據(jù)樸素貝葉斯的思想,利用文本的先驗與后驗關(guān)系,可以提高文本的分類結(jié)果。因此本文將標簽的分布作為先驗,并引入圖像標簽之間的關(guān)系作為后驗來改善算法得到的標注結(jié)果。3.1基于共生關(guān)系的圖像標注改善圖像標注的目的是為了得到反映圖像語義信息的一組相關(guān)詞匯,而詞匯間存在著各式各樣的語義關(guān)系。一般來講,在訓(xùn)練集中,同一個樣本內(nèi)同時出現(xiàn)的詞匯具有較強的語義相關(guān)性。這是由于共生頻率高的詞匯往往代表了兩個關(guān)系密切的概念或者事物,從而存在很大的可能性被標注在同一幅圖像中。生活中有很多這樣的例子,“森林”與“樹木”,“城市

23、”與“建筑”等。因此利用共生詞匯在同一幅圖像出現(xiàn)的相關(guān)性可以有效的提供詞匯之間的語義相關(guān)信息,從而提高圖像標注的準確率。然而簡單的依據(jù)共生關(guān)系進行詞頻數(shù)的統(tǒng)計,不能有效的考慮到不同詞匯的不同特性。因此參照文獻中給出的共生關(guān)系的度量,通過(13)式來衡量詞匯的共生關(guān)系: (13)其中,v1,v2,為詞匯,為二者共生出現(xiàn)的次數(shù),n1為包含v1作為標注的圖像數(shù)目。根據(jù)以上定義可以發(fā)現(xiàn),于并不相等,說明他們具有不對稱性??紤]到v1,v2是兩種出現(xiàn)頻率差異較大的詞匯,若v1與v2之間存在著一定的相互依賴關(guān)系,比如v1依賴于v2存在。那么比較容易從v1得到v2,但很難從v2的存在來推斷v1是否存在。例如詞

24、匯“水”和“魚”之間的關(guān)系,很容易能從“魚”中推斷“水”的存在,但給定“水”很難斷定“魚”是否存在,因為“水”與更多是事物相關(guān)聯(lián)。3.2基于詞頻的圖像標注改善在圖像標注的改善中,本文同樣考慮到了詞頻對標注結(jié)果的影響。因此,定義詞頻系數(shù)來進一步增強低頻詞匯的返回率。那么對于深度學(xué)習(xí)模型得到的神經(jīng)網(wǎng)絡(luò)的實際輸出R,通過公式(14)得到模型的最終標注結(jié)果為。其中,用來平衡基本圖像標注與標注改善后的結(jié)果。 (14)4 實驗分析為了驗證本文方法的有效性,并同其它算法進行合適的比較,采用了圖像自動標注工作中普遍使用的Corel和ESP圖像集作為實驗數(shù)據(jù)集。深度神經(jīng)網(wǎng)絡(luò)的算法用Matlab實現(xiàn)。4.1 數(shù)據(jù)

25、集Corel-5K圖像集共包含科雷爾(Corel)公司收集整理的5000幅圖像。該數(shù)據(jù)集可用于科學(xué)圖像實驗:分類、檢索等,Corel-5k數(shù)據(jù)集是圖像實驗的事實標準數(shù)據(jù)集。Corel數(shù)據(jù)集的標簽信息的字典長度為260,每幅圖像包含1個到5個標簽,圖像的平均標簽數(shù)目為3.5個。在實驗中選取4000個數(shù)據(jù)作為訓(xùn)練集,500個數(shù)據(jù)作為模型參數(shù)的評價集,500個數(shù)據(jù)作為測試集。ESP game圖像集包含了20770幅圖像。它覆蓋面很廣,包括繪畫與個人肖像等。所有的圖像被標記為268個標簽,其中標簽最多的圖像有15個標簽,平均每幅圖像有4.6個標簽。4.2 特征提取本文選用高層視覺特征作為深度神經(jīng)網(wǎng)絡(luò)的

26、輸入信息。為了與相關(guān)實驗進行對比,選用圖像的全局特征包括1個Gist特征;局部特征包括SIFT描述子和HUE描述子。所有特征均以詞包的形式存儲,組合特征一共4912維。計算前,對所有輸入數(shù)據(jù)進行標準化。4.3 評價指標本文選用基于分類學(xué)習(xí)的方法來實現(xiàn)圖像的自動標注,因此首先選用分類正確率來衡量模型的訓(xùn)練程度。定義圖像原有的標簽數(shù)目為N,正確匹配的標簽數(shù)目為n,那么模型對圖像標注準確率為。然后對所有圖像求均值,那么得到數(shù)據(jù)集的標注準確率。為了衡量模型的訓(xùn)練情況,給出了訓(xùn)練集的圖像準確率與測試集的圖像準確率。同時本文采用了最常見的幾個指標來衡量圖像標注方法的性能。正確率與召回率是以某單一關(guān)鍵詞作為

27、查詢,在標注好的測試圖像集上進行檢索,假設(shè)標注正確的圖像數(shù)為Nc,可檢索到的所有圖像數(shù)為Ns,測試集中與該詞相關(guān)的所有圖像數(shù)為Nr。于是可得: , (15)本文對每幅圖像標注5個最相關(guān)的關(guān)鍵詞,然后針對每個詞的正確率P與召回率R求均值。為了更加容易對比實驗結(jié)果,選取了上述兩個指標的聯(lián)合函數(shù)()作為另一個評價指標。除此之外,還統(tǒng)計了被正確標注的詞匯的數(shù)量,即至少被正確標注一次的關(guān)鍵詞的數(shù)量,這一數(shù)值反映了標注算法對詞匯的覆蓋程度,記為N+。注意:每幅圖像都被標記為5個關(guān)鍵詞,無論圖像本身的標簽數(shù)目或多或少。因此,即使一個模型可以對圖像本身的關(guān)鍵詞給予精確的預(yù)測,仍無法得到一個完美的正確率和召回率

28、。4.4 實驗結(jié)果基于分類的圖像標注準確率本文首先從多分類的角度來衡量模型的標注準確率。表1給出了基于RBM模型與DAE模型的深度學(xué)習(xí)模型對圖像的標注結(jié)果。為了衡量模型的性能,本文分別給出了訓(xùn)練集的標注準確率與測試集的標注準確率。由表1中可以看出,兩個模型對訓(xùn)練集具有較好的學(xué)習(xí)能力,圖像的標注準確率為1,意味著對于訓(xùn)練集,預(yù)測的圖像標簽內(nèi)容與給定的標簽內(nèi)容完全相符。但由于深度學(xué)習(xí)算法對于小樣本訓(xùn)練集容易造成過擬合,導(dǎo)致模型在測試集上的準確率表現(xiàn)不佳。RBM模型與DAE模型泛化能力有差異,對于測試集,DAE的結(jié)果明顯好于RBM模型得到的結(jié)果。表 1 不同模型的圖像標注準確率Table 1 The

29、 annotation accuracy of different modelNameTraintestRBM10.41DAE10.49不同標簽數(shù)目對圖像標注的影響為了進一步對比不同方法的標注性能與標簽數(shù)目的關(guān)系,本文還考慮到對于不同圖像標簽數(shù)目對圖像自動標注的影響,如圖3所示。本文給出了基于RBM和DAE模型預(yù)訓(xùn)練的傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)模型,及改進監(jiān)督信息后的深度神經(jīng)網(wǎng)絡(luò)模型得到的圖像標簽的準確率、召回率和F1數(shù)值隨返回標簽數(shù)目的變化曲線。從圖中可以得到如下信息:(1)在評價圖像標注指標的三個數(shù)據(jù)上,基于DAE模型的深度神經(jīng)網(wǎng)絡(luò)的圖像標注結(jié)果明顯好于基于RBM模型的結(jié)果。針對圖像標注問題,改進的

30、深度神經(jīng)網(wǎng)絡(luò)得到的標注結(jié)果最好。(2)圖像標注的正確率隨著標簽數(shù)目的增加,先上升后下降,而召回率隨著標簽數(shù)目的增加而不斷上升。二者綜合指標F1在標簽數(shù)目為5時,達到最優(yōu)。這是因為在返回標簽數(shù)目較少時,返回得到的正確標簽的數(shù)目占圖像原標簽數(shù)目的比率在不斷上升,當超過一定限度時,模型會返回一些無關(guān)標簽,圖像標注的準確度會下降;而模型返回正確標簽的數(shù)目仍在不斷增加,從而召回率不斷上升。當二者的綜合指標F1達到最大時,得到的圖像標注最有意義。a. 不同標簽數(shù)目對精度的影響the precise result of different return tag numberb不同標簽數(shù)目對召回率的影響the

31、 recall result of different return tag numberc 不同標簽數(shù)目對F1指標的影響the F1 result of different return tag number圖 3 不同返回標簽數(shù)目對標注正確率與召回率的影響Fig. 3 The annotation result of different return tag number不同圖像自動標注算法的比較與分析接下來本文對比了深度神經(jīng)網(wǎng)絡(luò)方法與其他典型圖像自動標注算法的結(jié)果,來驗證基于深度學(xué)習(xí)方法的有效性。這里涉及到的方法包括:leastsquares、CRM11、InfNet12、NPDE17、

32、SML7、MBRM12、TGLM18、JEC19。表2給出了深度學(xué)習(xí)方法與其他方法的在Corel數(shù)據(jù)集上的實驗結(jié)果詳細對比,表3給出了在ESP數(shù)據(jù)集上的試驗結(jié)果詳細對比。由此可以得出:(1)在描述由圖到詞的關(guān)系時,基本圖像標注過程更適合按照多標記問題來解決,而非多類別分類問題來假設(shè)它的先驗分布。具體而言,當采用多分類問題來假設(shè)此的先驗分布時,采用傳統(tǒng)的深度學(xué)習(xí)算法得到的圖像標簽的效果與JEC的方法相當(標注準確率略低,召回率提高)。當采用多標記問題來處理圖像標簽的先驗分布時,圖像的標注效果有明顯的提高。在Corel數(shù)據(jù)集上,相對于JEC方法,精度提高了7%,召回率提高22%,返回標簽詞匯數(shù)目提

33、高了14%。在ESP數(shù)據(jù)集上,在精度不變的情況下,召回率提高30%,返回標簽的數(shù)據(jù)提高了10%。說明基于圖像標簽先驗分布的深度學(xué)習(xí)模型可以更好地解決圖像的自動標注問題。(2)DAE(Enhence)給出在基于圖像標簽先驗知識的深度學(xué)習(xí)模型得到的圖像標簽經(jīng)過“標注性能改善”后得到的圖像標注結(jié)果。實驗結(jié)果表明,通過考慮標注詞匯的相關(guān)性與詞頻得到的圖像標注標簽具有最優(yōu)的標注效果。在Corel數(shù)據(jù)集上它在略微降低標注精度的情況下,大幅提高的標簽的召回率(26%)與返回標簽的數(shù)目(25%)。同樣在ESP數(shù)據(jù)集上,精度也略微的下降,但召回率(40%)和返回標簽的數(shù)目(16%)也得到的很大的提高。不過需要說

34、明的是,在考慮正確率和召回率時需要做一個平衡,當過度考慮低頻詞匯的召回時,會對整體標注的正確率造成不利影響。表 2 Corel數(shù)據(jù)深度學(xué)習(xí)與其他實驗結(jié)果的對比Table 2 The comparison of annotation result using deep learning to other methods in Corel datasetNamePRF1N+Least Squares293230125CRM161917107Inf Net172420112NPDE182119114SML232926137MBRM242524122TGLM252927131JEC273229139R

35、BM192622120DAE253429141DAE(Tag)293934159DAE(Enhence)244330174表 3 ESP數(shù)據(jù)深度學(xué)習(xí)與其他實驗結(jié)果的對比Table 3 The comparison of annotation result using deep learning to other methods in ESP datasetNamePRF1N+Least Squares351925215MBRM181918209JEC241921222DAE212021223DAE(Tag)232524244DAE(Enhence)202722257圖像自動標注在實際中的表現(xiàn)最

36、后本文給出了圖像自動標注的實際結(jié)果,每幅圖像根據(jù)模型給出最靠前的5個標簽作為圖像的生成標簽,并按照標注評價指標分為兩個層次,標注準確率高,標注準確率低。從圖4中可以看出對于標注準確率較高的圖像,模型自動標注得出的標簽不但與原標簽匹配的較好,而且得到的新的標簽?zāi)軐υ瓐D像的標簽進行有益的補充,能夠更加準確的描述原圖像的語義信息。對于標注表現(xiàn)不好的圖像,模型得到的標簽與原圖像相關(guān)程度低,甚至有些與原圖不符,但是也存在部分標注補充的原圖像的語義信息。如第二排圖像的第三幅圖像中的模型生成的標簽“日落”和“水”,第四幅圖像中生成的標簽“草”和“樹”等與圖像本身的語義相符。5結(jié)論針對圖像自動標注問題,本文將

37、圖像標記問題分解為基于圖像與標簽關(guān)系的基本圖像標注和基于標簽間相互關(guān)系的標注改善。在基本圖像標注過程中,本文將圖像標注視為基于圖像標簽先驗知識的多標記的問題,利用圖像標簽的詞頻信息改進深度學(xué)習(xí)模型的監(jiān)督信息。在標注改善過程中,利用標記詞匯的共生關(guān)系與詞頻先驗知識來改善已經(jīng)得到的圖像標記結(jié)果。最后,選取合適的數(shù)據(jù)集Corel和ESP,并提取圖像的語義特征作為模型的輸入,對圖像標注問題進行時實驗。實驗結(jié)果表明,(1)相比于RBM模型,DAE模型能夠更好的優(yōu)化深度學(xué)習(xí)模型;(2)圖像標注問題更適合用于基于標簽先驗的多標記模型,而非多分類模型;(3)在得到圖像標簽的基礎(chǔ)上利用標簽的共生關(guān)系與先驗知識可

38、以有效改善圖像標注的結(jié)果;(4)本文提出的模型對于解決圖像標注問題有效。Good Auto annotationOriginal tagsky, sun, clouds,sky, jet, planeCoral, ocean, reefswall, cars, tracksformulasky, water, beach, sandswimmers, pool, people, waterAuto annotationsky, sun, clouds, water, sunsetsky, jet, plane, smoke, formationCoral, ocean, reefs , flo

39、wers, waveswall, cars, tracksformula, bearsky, water, beach, sand, shipsswimmers, pool, people, water Bad Auto annotationOriginal tagflowers, petals, grasssky, road, carstowerlight, shorewater, plane, lionice, plants, frostpeopleAuto annotationtree, ice, plantsocean, frostleaf, ice, close-upplants,

40、frozencity, sky, water, bridge, sunsettree, grass, fieldhut, landscapebranch, leaf, close-up, displayflowers, close-upcostume, tulip 圖 4 圖像自動標注的實際效果Fig. 4 The real effect of image automatic annotation參 考 文 獻:盧漢卿,劉靜 基于圖學(xué)習(xí)的自動圖像標注J. 計算機學(xué)報,2008, 31(9): 1629-1639.Lu H, Liu J. Image Annotation Based on Gr

41、aph Learning J. Chinese Journal of Computers, 2008, 31(9): 1629-1639.許紅濤,周向東,向宇,等. 一種自適應(yīng)的Web圖像語義自動標注方法J. 軟件學(xué)報,2010, 21(9):2183-2195.Xu H, Zhou X, Xiang Y, et al. Adaptive Model for Web Image Semantic Automatic Annotation J. Journal of Software, 2010, 21(9): 2183-2195.Cusano C, Ciocca G, Schettini R.

42、 Image annotation using SVM C/Electronic Imaging 2004. International Society for Optics and Photonics, 2003: 330-338. Gao Y, Fan J, Xue X, et al. Automatic image annotation by incorporating feature hierarchy and boosting to scale up SVM classifiersC/Proceedings of the 14th annual ACM international c

43、onference on Multimedia. ACM, 2006: 901-910.Li J, Wang J Z. Automatic linguistic indexing of pictures by a statistical modeling approach J. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2003, 25(9): 1075-1088.Chang E, Goh K, Sychay G, et al. CBSA: content-based soft annotation for

44、 multimodal image retrieval using Bayes point machines J. Circuits and Systems for Video Technology, IEEE Transactions on, 2003, 13(1): 26-38.Carneiro G, Chan A B, Moreno P J, et al. Supervised learning of semantic classes for image annotation and retrieval J. Pattern Analysis and Machine Intelligen

45、ce, IEEE Transactions on, 2007, 29(3): 394-410.Mori Y, Takahashi H, Oka R. Image-to-word transformation based on dividing and vector quantizing images with words C/First International Workshop on Multimedia Intelligent Storage and Retrieval Management. 1999.Blei D M, Jordan M I. Modeling annotated d

46、ata C/Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2003: 127-134.Jeon J, Lavrenko V, Manmatha R. Automatic image annotation and retrieval using cross media relevance models J. ACM, 2003: 119-126.Lavrenko V, Manmatha R, J

47、eon J. A Model for Learning the Semantics of Pictures C / NIPS. 2003, 1: 2.Feng S L, Manmatha R, Lavrenko V. Multiple Bernoulli relevance models for image and video annotation J. 2004, 2: 1002-1009.Hinton G, A practical guide to training restricted Boltzmann machines J. Momentum, 2010, 9(1): 926.LeC

48、un Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition J. Proceedings of the IEEE, 1998, 86(11): 2278-2324.Krizhevsky A, Sutskever I, Hinton G. Image-Net Classification with Deep Convolutional Neural Networks C/NIPS. 2012, 1(2): 4.Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising auto-encoders: Learning useful representations in a deep network with

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論