基于成對(duì)標(biāo)簽的深度哈希圖像質(zhì)量?jī)?yōu)化方法_第1頁(yè)
基于成對(duì)標(biāo)簽的深度哈希圖像質(zhì)量?jī)?yōu)化方法_第2頁(yè)
基于成對(duì)標(biāo)簽的深度哈希圖像質(zhì)量?jī)?yōu)化方法_第3頁(yè)
基于成對(duì)標(biāo)簽的深度哈希圖像質(zhì)量?jī)?yōu)化方法_第4頁(yè)
基于成對(duì)標(biāo)簽的深度哈希圖像質(zhì)量?jī)?yōu)化方法_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于成對(duì)標(biāo)簽的深度哈希圖像質(zhì)量?jī)?yōu)化方法

0總結(jié)隨著基于內(nèi)容的圖像搜索技術(shù)逐漸取代基于文本的圖像搜索技術(shù),挑戰(zhàn)也在改變存儲(chǔ)消耗和搜索速度方面做出了貢獻(xiàn)。1深度哈希優(yōu)化方法由于早期的媒體圖像數(shù)量有限,哈希方法的發(fā)展受到圖像數(shù)量的制約,如局部敏感哈希譜哈希監(jiān)督離散哈希盡管上述方法在圖像檢索精度上有一定提升,但是文本標(biāo)注無(wú)法描述圖像的深層語(yǔ)義信息且存在主觀性,為了突破這個(gè)困境,研究者們提出使用深度卷積神經(jīng)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)圖像特征表示和哈希函數(shù)。2012年文獻(xiàn)為了進(jìn)一步提升圖像檢索精度,研究者們提出了多種基于深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方案,深度快速二進(jìn)制哈希上述哈希方法目前存在兩個(gè)問題:(1)無(wú)法打破松弛-量化所帶來(lái)的局限性,無(wú)法保證松弛后的實(shí)數(shù)值再量化的結(jié)果仍是最佳的;(2)使用的損失函數(shù)大多是把離散優(yōu)化過程的損失直接轉(zhuǎn)化為正則化向,使得損失被迫接近區(qū)間的邊界值,導(dǎo)致網(wǎng)絡(luò)下降梯度小、結(jié)果收斂慢。為了解決上述問題,本文提出基于成對(duì)標(biāo)簽的深度哈希圖像檢索方法(deeppairwisehashingwithbinaryrestricted,DPHB),該方法直接在漢明空間中設(shè)置一些錨點(diǎn),并約束與錨點(diǎn)越相似的圖片到錨點(diǎn)的距離越近,與錨點(diǎn)越不相似的圖片距離錨點(diǎn)越遠(yuǎn)。通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型來(lái)擬合最優(yōu)哈希碼,避免松弛-量化的固有缺點(diǎn)。實(shí)驗(yàn)在兩個(gè)公開的數(shù)據(jù)集CIFOR-10和ImageNet-100上與7種具有代表性的方法進(jìn)行對(duì)比,結(jié)果表明較當(dāng)今先進(jìn)方法檢索精度分別提高了2.37%和3.94%,驗(yàn)證了該方法能有效提高圖像檢索精度。2網(wǎng)絡(luò)設(shè)計(jì)及實(shí)現(xiàn)為了有效克服松弛-量化模式的缺點(diǎn),提出了一種基于成對(duì)標(biāo)簽的深度哈希方法,引入錨點(diǎn)的概念,在漢明空間優(yōu)化哈希碼,并設(shè)計(jì)了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),同時(shí)學(xué)習(xí)樣本特征和哈希函數(shù),通過不斷迭代擬合提升哈希碼的質(zhì)量。整個(gè)檢索工作流程如圖1所示,首先通過貪心算法,得到代表錨點(diǎn)的哈希碼。然后,通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)將表示圖片的二值碼擬合至各錨點(diǎn)附近。網(wǎng)絡(luò)采用AlexNet框架,并引入哈希層,通過利用圖像標(biāo)簽信息學(xué)習(xí)圖像特征,網(wǎng)絡(luò)在擬合過程中,以漢明空間中的錨點(diǎn)作為監(jiān)督信息,使用成對(duì)損失和均方誤差損失計(jì)算分類誤差和錨點(diǎn)誤差,對(duì)網(wǎng)絡(luò)模型進(jìn)行參數(shù)微調(diào)。最后,訓(xùn)練好的網(wǎng)絡(luò)即是本方法中的哈希函數(shù)。以小批量圖像集作為DPHB模型的輸入,對(duì)模型的輸出采用上述方法量化就得到了表示圖像的哈希碼,然后采用常見的漢明距離排序或哈希表查詢等方法進(jìn)行快速檢索。提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,基本組件使用AlexNet八層網(wǎng)絡(luò)結(jié)構(gòu),AlexNet網(wǎng)絡(luò)第八層是SoftMax分類層,根據(jù)sgn函數(shù)分為零一兩種結(jié)果,現(xiàn)將第八層改為哈希層,用于輸出神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的哈希碼。AlexNet中使用ReLU作為CNN的激活函數(shù),驗(yàn)證效果遠(yuǎn)遠(yuǎn)好于sigmoid,解決了網(wǎng)絡(luò)較深時(shí)的梯度彌散問題,并且加快了訓(xùn)練速度。網(wǎng)絡(luò)詳細(xì)配置見表1。它包含了5個(gè)卷積層(Conv1-5)、3個(gè)池化層(Maxpool1-3)、2個(gè)全連接層(Full6-7),最后一層是哈希層(Hashlayer)。本節(jié)將詳細(xì)介紹DPHB方法的3個(gè)關(guān)鍵步驟,分別是生成錨點(diǎn)哈希碼、損失函數(shù)優(yōu)化、哈希函數(shù)學(xué)習(xí)。2.1問題描述令Ω表示RGB彩色圖像空間,假設(shè)從Ω中隨機(jī)挑選k個(gè)類共n張圖像形成一個(gè)集合,這個(gè)集合作為訓(xùn)練集X={x2.2原始圖像訓(xùn)練集錨點(diǎn)哈希碼是包含k個(gè)滿足條件的二進(jìn)制編碼的集合。編碼條件要求能夠通過參數(shù)控制編碼長(zhǎng)度且集合中每個(gè)編碼漢明距離被最大化。錨點(diǎn)哈希碼的作用是作為哈希學(xué)習(xí)中的監(jiān)督信息,使得原始圖像能夠變換成接近錨點(diǎn)哈希碼的二進(jìn)制碼,從而提升哈希碼的判別力。給定原始圖像訓(xùn)練集X={x根據(jù)最后一步中留下的二進(jìn)制編碼不同,可以得到不同的解,且都是最優(yōu)解。經(jīng)算法求證,當(dāng)k等于10類時(shí),c等于12比特,H等于6時(shí),M集合中共有16個(gè)二進(jìn)制編碼,可隨機(jī)留下其中10個(gè)編碼組成錨點(diǎn)哈希碼;當(dāng)k等于10類,c等于12比特,H等于7時(shí),M集合中共有4個(gè)二進(jìn)制編碼,數(shù)量小于k,不能滿足解的要求。綜上所述,可以很高效地得到錨點(diǎn)哈希碼集,給后續(xù)神經(jīng)網(wǎng)絡(luò)哈希層輸出的結(jié)果提供參照點(diǎn),在漢明空間內(nèi)優(yōu)化二進(jìn)制碼。2.3損失函數(shù)推導(dǎo)在訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)時(shí),錨點(diǎn)哈希碼的作用是監(jiān)督網(wǎng)絡(luò)生成具有強(qiáng)判別力的哈希碼,那么如何讓神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中變得越來(lái)越智能,則需要一個(gè)優(yōu)秀的損失函數(shù)及時(shí)識(shí)別出誤差,讓神經(jīng)網(wǎng)絡(luò)各部分在誤差反饋下促進(jìn)工作達(dá)到理想狀態(tài)。于是設(shè)計(jì)出能夠減小相似實(shí)例哈希碼的漢明距離,增大不相似實(shí)例哈希碼的漢明距離的損失函數(shù)至關(guān)重要。設(shè)訓(xùn)練集X中圖片經(jīng)過神經(jīng)網(wǎng)絡(luò)最后一層輸出的哈希碼,轉(zhuǎn)置后表示為二進(jìn)制矩陣B其中,其中,λ表示權(quán)重。該損失函數(shù)由兩部分組成,其中第一項(xiàng)表示成對(duì)損失,利用標(biāo)簽信息衡量樣本對(duì)之間的漢明距離表示誤差,第二項(xiàng)表示均方誤差損失,衡量神經(jīng)網(wǎng)絡(luò)輸出的哈希碼到錨點(diǎn)間漢明距離表示誤差。用成對(duì)損失與均方誤差損失的加權(quán)求和的方式同時(shí)考慮兩種損失的約束,使得損失盡可能接近最小,神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果盡可能接近錨點(diǎn)哈希碼并保持原始空間相似性,最終生成具有高判別能力的哈希碼。將函數(shù)(2)推導(dǎo)如下不難發(fā)現(xiàn),當(dāng)x其中,λ是權(quán)重,這里等于1。現(xiàn)有工作中,損失函數(shù)的優(yōu)化策略是通過松弛為實(shí)值矩陣將二進(jìn)制代碼從離散狀態(tài)轉(zhuǎn)換成連續(xù)狀態(tài),嚴(yán)重影響了算法性能。但是式(4)中利用錨點(diǎn)哈希碼,很好規(guī)避了離散優(yōu)化問題,可以直接在漢明空間中計(jì)算出損失。相比之下,本文提出的損失函數(shù)更有利于哈希函數(shù)的學(xué)習(xí),最終得到的哈希碼更具有判別能力。2.4視頻圖像的加標(biāo)作用上述的損失函數(shù)僅在樣本訓(xùn)練過程中發(fā)揮作用,使得神經(jīng)網(wǎng)絡(luò)輸出令人滿意的結(jié)果,但是圖像檢索過程不同于繁瑣的訓(xùn)練過程,檢索的目的是高效完成以圖搜圖的用戶任務(wù)。因此需要讓訓(xùn)練后的深度卷積神經(jīng)網(wǎng)絡(luò)能夠達(dá)到哈希函數(shù)的作用,能夠使得圖像經(jīng)過函數(shù)變換成具有高判別能力的哈希碼。為了得到用于編碼的哈希函數(shù),用θ表示特征學(xué)習(xí)部分7層的所有參數(shù),x于是,將式(5)代入式(4)可以寫成如下形式使用控制變量思想來(lái)進(jìn)行學(xué)習(xí),需要不斷調(diào)整的參數(shù)有w、v、θ,在控制其它參數(shù)不變的情況下優(yōu)化另一個(gè)參數(shù),交替優(yōu)化其它參數(shù),這樣的策略能夠有效調(diào)整模型參數(shù)然后,根據(jù)鏈?zhǔn)椒▌t,利用b最后,該神經(jīng)網(wǎng)絡(luò)中各參數(shù)可以通過標(biāo)準(zhǔn)的反向傳播算法進(jìn)行優(yōu)化,神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后,即作為DPHB方法的哈希函數(shù)。在圖像檢索過程中,優(yōu)化后的哈希函數(shù)可以高效的將樣本圖像生成具有判別力的哈希碼,與訓(xùn)練圖像哈希碼數(shù)據(jù)庫(kù)中哈希碼進(jìn)行相似查找操作,最后根據(jù)漢明距離排序輸出結(jié)果。3圖像檢索性能在本小節(jié),利用兩個(gè)基準(zhǔn)數(shù)據(jù)集CIFAR-10和ImageNet-100,基于平均準(zhǔn)確率均值mAP指標(biāo)驗(yàn)證DPHB方法在圖像檢索方面優(yōu)秀的性能。此外,基于其它3項(xiàng)常用評(píng)價(jià)指標(biāo),與7個(gè)典型的圖像檢索方法做了對(duì)比實(shí)驗(yàn),所有實(shí)驗(yàn)結(jié)果均表明了本文提出的DPHB方法優(yōu)于當(dāng)前主流方法。3.1圖像數(shù)據(jù)集及度量實(shí)驗(yàn)采用預(yù)訓(xùn)練模型,使用Pytouch作為模型調(diào)參環(huán)境,每次初始輸入128張訓(xùn)練圖像,再以結(jié)對(duì)的方式兩兩組合成成對(duì)圖像作為輸入神經(jīng)網(wǎng)絡(luò),采用隨機(jī)梯度下降(SGD)優(yōu)化。SGD的學(xué)習(xí)率為0.05,學(xué)習(xí)率衰減值為10為了讓實(shí)驗(yàn)公平進(jìn)行,選取了兩個(gè)圖像檢索領(lǐng)域最常用數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。CIFAR-10:CIFAR-10圖像數(shù)據(jù)庫(kù)共有80000張小型圖像數(shù)據(jù)集,從10個(gè)類中隨機(jī)挑選6000張圖像組成一個(gè)60000張32×32的彩色圖像數(shù)據(jù)集,且每張圖像只屬于一個(gè)類。在實(shí)驗(yàn)中,隨機(jī)在每個(gè)類別中選擇100張圖片(總共1000張圖片)作為測(cè)試集,每個(gè)類別中選擇500張圖片(總共5000張圖片)作為訓(xùn)練集,本文使用一個(gè)512維的GIST描述符來(lái)表示CIFAR-10數(shù)據(jù)集的圖像;ImageNet-100本文采用常用的4個(gè)指標(biāo)作為度量標(biāo)準(zhǔn)來(lái)評(píng)估DPHB的檢索性能:平均準(zhǔn)確率均值(meanaverageprecision,mAP);查準(zhǔn)率-召回率曲線(precision-recallcurves,PR);前n個(gè)檢索結(jié)果精度(precisioncurveswithdifferentnumberoftopreturnedsamples,P@N);查詢樣本和數(shù)據(jù)集之間的漢明距離小于2的精度(precisioncurveswithham-mingradius2,P@H=2)。根據(jù)特征提取方法,以下方法分為兩類,分別是傳統(tǒng)的手工制作方法和基于神經(jīng)網(wǎng)絡(luò)的方法,可以分為4個(gè)子類:(1)傳統(tǒng)的無(wú)監(jiān)督哈希方法:ITQ(2)傳統(tǒng)的有監(jiān)督哈希方法:SDH(3)提取深度特征的深度哈希方法:FastH(4)成對(duì)標(biāo)簽的深度哈希方法:DPSH實(shí)驗(yàn)選取的每種方法都是該類中優(yōu)秀的方法,沿用所對(duì)比得方法使用的網(wǎng)絡(luò)結(jié)構(gòu),在同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上比較方法的性能,實(shí)驗(yàn)均在優(yōu)化的AlexNet網(wǎng)絡(luò)和兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行,所有結(jié)果均是復(fù)現(xiàn)已有研究成果,復(fù)現(xiàn)的方法性能略有不同,但性能優(yōu)次順序與已有成果的結(jié)論是一致的。3.2dphb算法性能對(duì)比具體來(lái)說,首先將所有圖像的大小調(diào)整為224×224像素,然后使用原始圖像像素和目標(biāo)哈希碼作為模型輸入。為了降低過擬合的風(fēng)險(xiǎn),在模型初始化方面,與文獻(xiàn)在CIFAR-10數(shù)據(jù)集上的結(jié)果表明,提出的DPHB方法在本質(zhì)上優(yōu)于表3中的所有方法。傳統(tǒng)的無(wú)監(jiān)督哈希方法ITQ的性能排在最后。SDH是最具代表性的傳統(tǒng)監(jiān)督方法,但其性能僅略好于ITQ方法。DSH、FastH和DNH等基于深度學(xué)習(xí)的哈希方法在圖像檢索性能上與傳統(tǒng)方法完全拉開了距離。DPHB與主流的基于深度學(xué)習(xí)的哈希方法相比,在不同長(zhǎng)度哈希碼的mAP中,與HashNet相比,絕對(duì)提升8.65%、4.09%、4.05%、6.09%,與DPSH相比,絕對(duì)提升5.98%、5.64%、4.74%、5.16%,DSH方法碼長(zhǎng)48位時(shí)mAP在7種被比較的方法中達(dá)到最高,與之相比,DPHB絕對(duì)提升2.37%,檢索性能優(yōu)于DSH。對(duì)于大規(guī)模圖像數(shù)據(jù)集ImageNet-100,表3中的ImageNet-100數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提出的DPHB方法優(yōu)于現(xiàn)有的傳統(tǒng)哈希圖像檢索方法。與基于學(xué)習(xí)的哈希方法(如FastH、DNH和DPSH)相比,DPHB的性能有了顯著的提高。與HashNet相比,DPHB在不同哈希碼長(zhǎng)度的平均mAP中絕對(duì)提升41.01%、21.45%、11.95%、3.94%。結(jié)果表明,該方法可以生成信息豐富、判別力強(qiáng)的哈希碼,從而提高大規(guī)模圖像檢索性能。為了進(jìn)一步驗(yàn)證DPHB的有效性,實(shí)驗(yàn)基于其它評(píng)價(jià)指標(biāo)做了對(duì)比實(shí)驗(yàn)。圖3表示在CIFAR-10上的結(jié)果,圖4表示在imagenet-100上的結(jié)果,圖5表示不同算法模型調(diào)參和檢索效率。如圖3(a)、圖4(a)所示,精度召回曲線(PR)是評(píng)價(jià)圖像檢索性能的一個(gè)重要指標(biāo)。DPHB的性能優(yōu)于與之相比較的模型。圖3(b)、圖4(b)表示在漢明半徑2(P@H=2)范圍內(nèi)的精度,圖3(c)和圖4(c)分別表示在CIFAR-10上map@ALL的結(jié)果和在imagenet-100上前1000個(gè)搜索結(jié)果的精度曲線(P@N)。DPHB模型在所有被比較的檢索方法中取得最佳結(jié)果。如圖5所示,分別對(duì)6種加入卷積神經(jīng)網(wǎng)絡(luò)的哈希模型,統(tǒng)計(jì)了調(diào)參時(shí)間和檢索時(shí)間,每種方法取5次實(shí)驗(yàn)所得結(jié)果的均值作為對(duì)比結(jié)果,避免外部因素影響。圖5(a)表示DPHB方法在imagenet-100上不同哈希碼位數(shù)上的表現(xiàn),生成24bit哈希碼時(shí),神經(jīng)網(wǎng)絡(luò)調(diào)參和檢索用時(shí)最少,效率最佳。圖5(b)和圖5(c)分別表示采用24bit在CIFAR-10數(shù)據(jù)集和imagenet-100數(shù)據(jù)集上調(diào)參時(shí)間和檢索時(shí)間的表現(xiàn)。通常響應(yīng)時(shí)間小于30s不會(huì)影響用戶體驗(yàn)感,由圖(5)可知,DPHB算法在CIFAR-10上與其它5種算法效率上無(wú)明顯差別,但是在大規(guī)模圖像數(shù)據(jù)集imagenet-100上,DPHB算法的調(diào)參時(shí)間明顯優(yōu)于其它方法,檢索時(shí)間明顯優(yōu)于HashNet、DSH和DHN算法,在實(shí)際的圖像檢索應(yīng)用中快速響應(yīng)用戶指令,且返回的結(jié)果準(zhǔn)確率更高。實(shí)驗(yàn)結(jié)果表明,DPHB相對(duì)于以往的哈希算法,在各項(xiàng)評(píng)價(jià)指標(biāo)方面都具有理想的檢索效果,尤其在高位編碼上有明顯的優(yōu)勢(shì),在CIFOR_10數(shù)據(jù)集和ImageNet_100數(shù)據(jù)集上,DPHB方法48bit的mAP較其它方法最高結(jié)果分別提高了2.37%和3.94%。另一方面,實(shí)驗(yàn)驗(yàn)證了DPHB方法所采用的優(yōu)化策略,有效規(guī)避了傳統(tǒng)的松弛-量化步驟所帶來(lái)的負(fù)面影響,驗(yàn)證了在漢明空間中以錨點(diǎn)為監(jiān)督信息的方法能有效減小相似實(shí)例哈希碼的漢明距離,增大不相似實(shí)例哈希碼的漢明距離,所提出的損失函數(shù)能夠使得神經(jīng)網(wǎng)絡(luò)的輸出更接近錨點(diǎn)哈希碼,經(jīng)過訓(xùn)練的哈希函數(shù)能夠生成判別力更高的哈希碼。通過對(duì)DPHB方法檢索效率的對(duì)比實(shí)驗(yàn)分析發(fā)現(xiàn),本文提出的方法較其它主流方法更適用于在十萬(wàn)級(jí)數(shù)量以上的圖片集中進(jìn)行高精度檢索的場(chǎng)景,DPHB在大規(guī)模數(shù)據(jù)集上具有檢索結(jié)果正確率更高,性能更穩(wěn)定、檢索效率更快等優(yōu)點(diǎn),能夠高效完成圖像數(shù)據(jù)量日益增長(zhǎng)趨勢(shì)下的圖像檢索任務(wù)。綜上所述,DPHB方法能更好地滿足當(dāng)下大規(guī)模圖像檢索的實(shí)際需求。4dphb算法性能分析本文提出了一種基于成對(duì)標(biāo)簽的端到端的圖像檢索算法。該算法巧妙的規(guī)避了哈希碼量化損失的問題,生成的哈希碼具有強(qiáng)判別力,使得檢索性能有大幅提升。與其它相關(guān)方法相比,DPHB的優(yōu)勢(shì)主要體現(xiàn)在3個(gè)方面:(1)打破了原有松弛-量化的固定優(yōu)化模式,引入了錨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論