![基于深度學習的RGB―D物體識別算法_第1頁](http://file4.renrendoc.com/view/419a7a8282ea424c0298ad26a4b8e7a5/419a7a8282ea424c0298ad26a4b8e7a51.gif)
![基于深度學習的RGB―D物體識別算法_第2頁](http://file4.renrendoc.com/view/419a7a8282ea424c0298ad26a4b8e7a5/419a7a8282ea424c0298ad26a4b8e7a52.gif)
![基于深度學習的RGB―D物體識別算法_第3頁](http://file4.renrendoc.com/view/419a7a8282ea424c0298ad26a4b8e7a5/419a7a8282ea424c0298ad26a4b8e7a53.gif)
![基于深度學習的RGB―D物體識別算法_第4頁](http://file4.renrendoc.com/view/419a7a8282ea424c0298ad26a4b8e7a5/419a7a8282ea424c0298ad26a4b8e7a54.gif)
![基于深度學習的RGB―D物體識別算法_第5頁](http://file4.renrendoc.com/view/419a7a8282ea424c0298ad26a4b8e7a5/419a7a8282ea424c0298ad26a4b8e7a55.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于深度學習的RGB―D物體識別算法【摘要】本文結合RGB圖像和深度圖像,提出了一種新的基于深度學習的無監(jiān)督物體識別算法KSAE-SPMP。采用標準的RGB-D數(shù)據(jù)庫2D3D來驗證新提出的算法。實驗結果表明,與之前提出的基于RGB-D的物體識別算法相比,KSAE-SPMP算法取得了最高的識別準確率,此算法能夠很好地完成RGB-D物體的識別。【關鍵詞】物體識別RGB-D圖像k稀疏自編碼空間金字塔最大池化Softmax分類器doi:10.3969/j.issn.1006-1010.2015.10.000中圖分類號:TP391.4文獻標識碼:A文章編號:1006-1010(2015)10-0000-00[Abstract]CombinedwithRGBanddepthimages,anovelunsupervisedobjectrecognitionalgorithmKSAE-SPMPbasedondeeplearningwasputforward.AstandardRGB-Ddatabase2D3Dwasadoptedtoverifytheproposedalgorithm.ExperimentalresultsdemonstratedthatcomparedwithRGB-Dalgorithmbasedonobjectrecognitionproposedpreviously,KSAE-SPMPalgorithmhasthehighestaccurateidentificationrate,whichisabletocompletetheRGB-Dobjectrecognitioncommendably.[KeyWords]objectrecognitionRGB-DimageKsparseautoencodingspatialpyramidmaxpoolingSoftmaxclassifier1引言基于RGB圖像的物體識別從RGB圖像中提取顏色特征、紋理特征和輪廓特征等來識別物體?;谏疃葓D像的物體識別從深度圖像中提取物體的三維空間形狀等特征來識別物體。這2種物體識別方法都未能完全利用物體的可用特征信息,存在一定的局限性。RGB-D相機能同時記錄物體的高分辨率的RGB圖像和深度圖像。物體的深度信息和顏色信息對彼此都是一種有效的補充,結合RGB圖像和深度圖像,能夠有效地提高物體的識別準確率。深度學習[1]是一種新興的多層神經(jīng)網(wǎng)絡學習算法。它通過組合低層特征形成更加抽象的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。本文結合RGB圖像和深度圖像,提出了一種新的深度學習算法KSAE-SPMP來完成物體的識別。實驗結果表明,與之前提出的基于RGB-D的物體識別算法相比,KSAE-SPMP算法取得了最高的識別準確率,此算法能夠很好地完成RGB-D物體的識別。2相關的研究工作本文主要研究如何利用深度學習算法完成RGB-D的物體識別。在過去的幾年中,一些研究小組對如何從物體中無監(jiān)督地提取具有代表性的特征做了深入的研究,取得了一些極具價值的研究成果。(1)無監(jiān)督特征學習算法近年來,許多無監(jiān)督的從原始視覺圖像中提取特征的算法被提出。例如深度信念網(wǎng)絡[4]、去噪自編碼[5]、卷積神經(jīng)網(wǎng)絡[6]、K均值算法[7-8]、分層稀疏編碼[9]和分層匹配追蹤算法[3]等。這些無監(jiān)督的特征學習算法在多種識別工作中取得了優(yōu)異的成果。如手寫字體的識別、面部識別、物體識別、場景識別、動作識別[15]和物體識別[16]等。然而,這些算法大多被應用在二維圖像的處理上,如灰度圖像。本文同時使用RGB和深度圖像,提取到了更多樣性的特征,有效地提高了物體的識別準確率。(2)基于RGB-D的深度學習算法新一代傳感技術RGB-D相機的出現(xiàn),推動了物體識別技術的進一步發(fā)展。RGB-D相機能夠同時記錄RGB圖像和深度圖像,RGB圖像包含物體的表面顏色信息和紋理信息,深度圖像包含物體的空間形狀信息,結合RGB圖像和深度圖像能有效地提高物體的識別準確率。在過去的幾年里,許多基于RGB-D的物體識別深度學習算法被提出。Blum等人提出了卷積K均值描述符[7],在興趣點附近自動地學習特征并最終將這些特征進行融合。LiefengBo等人提出了分層匹配追蹤算法(HMP)[10],此算法利用稀疏編碼和空間金字塔最大池化(SPMP)無監(jiān)督地從原始RGB-D圖像中學習分層的特征。Socher等人結合卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡提出了CNN-RNN深度學習算法[11],卷積神經(jīng)網(wǎng)絡層學習低維的平移不變性特征并作為RNN輸入,遞歸神經(jīng)網(wǎng)絡層學習高維抽象特征。本文在LiefengBo等人工作[10]的基礎上,結合改進的k稀疏自編碼算法(k-SAE)和空間金字塔最大池化算法(SPMP),提出了新的無監(jiān)督的深度學習算法KSAE-SPMP,與之前的算法相比,此算法取得了更高的識別準確率。(3)RGB-D數(shù)據(jù)庫自2010年RGB-D(Kinect款)相機誕生以來,一些研究小組采集并公布了若干RGB-D數(shù)據(jù)庫,為以后的研究工作奠定了堅實的基礎。其中,比較具有代表性的有美國華盛頓大學計算機與科學工程系的KevinLai、LiefengBo聯(lián)合因特爾西雅圖實驗室的XiaofengRen等人公布的RGB-D數(shù)據(jù)庫[12],馬克思?普朗克學會Browatzki等人公布的2D3D數(shù)據(jù)庫[13]等。本文采用2D3D數(shù)據(jù)校驗算法的準確性,2D3D數(shù)據(jù)庫包含14個類別,共計156個室內(nèi)常見的物體,每個類別包括10個左右的物體。每個物體包含36對RGB圖像和深度圖像,這些圖像是由物體放置在托盤上每旋轉(zhuǎn)20度拍攝一張而成。圖1展示了這些物體的一些代表性圖片:3特征提取與分類本文提出了KSAE-SPMP深度學習算法,用于基于RGB-D的物體識別。KSAE-SPMP算法共分為3個階段,即整個深度學習網(wǎng)絡分為3層:(1)使用k稀疏自編碼算法(k-SAE)[2]分別提取低維的顏色特征和形狀特征。(2)以階段1提取的低維特征作為輸入,使用空間金字塔最大池化算法(SPMP)[3]提取高維平移不變性特征。(3)合并顏色特征和形狀特征作為物體最終的特征,送入Softmax分類器進行分類。3.1k稀疏自編碼算法提取低維特征自編碼算法是一種無監(jiān)督的特征學習算法?,F(xiàn)在假設有1個無類別標簽的樣本集{x(1),x(2),…,x(m)},其中x(i)∈Rn。自編碼算法通過反向傳播算法,期望輸出的目標值等于輸入值,即x?(i)=x(i),這樣可以說隱層節(jié)點值y(i)是x(i)的另一種表示,即可作為輸入x(i)的特征。如果在隱層節(jié)點上加入稀疏性限制,可以發(fā)現(xiàn)原始輸入的一些有價值的數(shù)據(jù)結構。稀疏性可以簡單地解釋如下:假設使用sigmoid函數(shù)作為神經(jīng)元的激活函數(shù),當神經(jīng)元的輸出接近1時,認為它是被激活的,而輸出接近0時,認為它是被抑制的。當隱層節(jié)點數(shù)目較多時,希望大多數(shù)隱層節(jié)點處于抑制狀態(tài),以期發(fā)現(xiàn)輸入數(shù)據(jù)中的結構。圖2是一個簡單的三層稀疏自編碼網(wǎng)絡,輸入層、隱層和輸出層節(jié)點數(shù)分別為4、2和4。近年來的研究表明,通過鼓勵稀疏的方式學習到的特征在分類任務中通常有著優(yōu)異的表現(xiàn)。在典型的稀疏自編碼算法[14]中,使用公式(1)作為總體的代價函數(shù)。其中第1項為均方差項,第2項為權重衰減項,第3項為稀疏懲罰項,用來控制隱層節(jié)點的稀疏性。通過反向誤差傳播來優(yōu)化參數(shù){W,b},迭代過若干次后,期望輸出x?(i)=x(i)。Makhzani等人提出了一種改進的稀疏自編碼算法k稀疏自編碼[2]。k稀疏自編碼算法使用線性的激活函數(shù),在隱層節(jié)點中,每次選取最大的k個激活值,并將其他的所有激活值設置為0。誤差反向傳播的每次迭代中均如此設置,直至迭代完成。得到優(yōu)化后的參數(shù){W,b}后,對于輸入x(i),計算特征f=Wx+b并選取其中最大的αk個最大的激活作為最終的特征,其中α≥1,其它所有的激活值全部設置為0。k稀疏自編碼在手寫數(shù)字識別等領域取得了優(yōu)異的表現(xiàn)。本文使用k稀疏自編碼算法作為KSAE-SPMP深度學習網(wǎng)絡的第1層,分別從RGB圖像和深度圖像中提取物體的低維顏色特征和低維形狀特征。首先,將所有的圖片大小縮放至r×r,并從RGB圖像和深度圖像中分別隨機提取h個圖像塊,每個圖像塊的長和寬均為s。分別使用RGB和深度圖像塊作為輸入,訓練2個k稀疏自編碼,一個用于提取RGB圖像特征,另一個用于提取深度圖像特征。訓練完成后,分別使用這2個k稀疏自編碼作為映射函數(shù),從每張RGB和深度圖像中以卷積的方式逐像素提取顏色特征和形狀特征。假設k稀疏自編碼的隱層節(jié)點個數(shù)為q,則卷積后得到的顏色特征和形狀特征均為一個大小為t×t×q的三維矩陣,t=r?Cs+1。為降低特征的維度,對三維矩陣進行了簡單的平均池化,將池化后的三維矩陣送入空間金字塔最大池化層,從低維特征中提取空間平移不變性特征。3.2空間金字塔最大池化算法提取高維特征空間金字塔最大池化(SPMP)[3]是一種有效地從低維特征中提取抽象的空間平移不變特征的算法。對于每一張RGB圖像和深度圖像來說,k稀疏自編碼層輸出的低維特征均為一個三維矩陣。圖3為空間金字塔最大池化的簡單描述,其中圖中每個點代表1個q維的向量??臻g金字塔最大池化算法將所有的點劃分為d2個塊,其中d取不同的值。圖3中的4個子圖d的取值分別為1、2、3和4。假設每個塊C共包含p個點,即共有p個q維向量,將其組合成1個大小為p×q維的矩陣。如公式(2)所示,對于矩陣的每一行,取最大的值作為最終的特征值,所以對于每個塊C,最終結果為1個q維的向量。對于每一張圖片,選取不同的d值后,假設圖片共被分為了r個塊。如圖3中選取d=1、2、3、4,此圖片共被劃分為了r=12+22+32+42=30個塊。對于每一個塊C,最終特征結果均為1個q維矩陣,所以每張圖片的最終特征為1個r×q維的向量。3.3Softmax分類器完成分類對于物體的每個樣本而言,RGB圖像和深度圖像經(jīng)過空間金字塔最大池化提取后的特征均為1個r×q維的向量,將這2個r×q維的向量合并為1個2×r×q維的向量,此向量為每個樣本最終的特征向量。分別提取每個樣本的特征向量,并將樣本分為訓練樣本集和測試樣本集2個部分。Softmax分類器是深度學習領域一個常用的快速分類器,在手寫數(shù)字識別和物體識別等領域都取得了優(yōu)秀的分類結果。本文選擇Softmax分類器來測試KSAE-SPMP算法的準確性。首先使用訓練集對Softmax分類器進行訓練,然后使用測試樣本集作為輸入,得到最終的物體識別準確率。4實驗結果及分析為驗證KSAE-SPMP算法的有效性,本文采用了馬克思?普朗克學會Browatzki等人公布的2D3D數(shù)據(jù)庫。2D3D數(shù)據(jù)庫包含14個類別,共計156個室內(nèi)常見的物體,每個類別包括10個左右的物體。每個物體包含36對RGB圖像和深度圖像,這些圖像是由物體放置在托盤上每旋轉(zhuǎn)20度拍攝1張而成。4.1實驗過程為與先前提出的以2D3D數(shù)據(jù)庫[13]為測試數(shù)據(jù)集的方法進行實驗結果的對比,采用了與之相同的實驗過程。每次實驗中,隨機地將數(shù)據(jù)庫分為2個部分,一部分作為訓練樣本,一部分作為測試樣本。分割規(guī)則為隨機地從每個類別中挑選出6個物體用于訓練,剩余的物體用于測試。對于類別中物體個數(shù)小于6的樣本,隨機選取1個物體用于測試,剩余的物體用于訓練,保證每個類別中至少有1個物體用于測試。對于每個物體,選取其中角度均勻分布的18張圖片用于訓練或者測試。最終的訓練樣本包含82個物體,共計1476張圖片,測試樣本包含74個物體,1332張圖片。整個實驗重復30次,每次隨機分割數(shù)據(jù)庫,最終的實驗結果取30次實驗結果的平均值。數(shù)據(jù)庫分割完成后,首先將所有的圖片大小重置為194×194,然后從訓練樣本中的RGB圖像和深度圖像中分別隨機提取300000個大小為10×10的圖像塊,并用這些圖片塊作為k稀疏自編碼算法的輸入,完成k稀疏自編碼算法的訓練。k稀疏自編碼算法的隱層節(jié)點個數(shù)為300,k的值選擇25。完成訓練后,以卷積的方式逐像素地從每張圖片中提取特征。每張RGB圖片和深度圖片的特征均為1個300×185×185的三維矩陣。分別對這些三維矩陣進行簡單的平均池化,池化滑動窗口大小為10×10,步長為5。池化后的特征為300×36×36的三維矩陣。對每個三維矩陣進行空間金字塔最大池化,選取d分別為1、2、3、4,每張RGB圖像和深度圖像的最終特征均為30×300=9000維的向量。將每個樣本從RGB圖像和深度圖像中提取的特征進行合并,得到最終的特征,特征最終的維度為18000。提取完所有樣本的特征后,使用訓練樣本集訓練Softmax分類器,使用測試樣本集得到最終的物體識別準確率。4.2實驗結果對比在本文之前,已經(jīng)有學者提出了一些深度學習算法用于2D3D數(shù)據(jù)庫中物體的識別。表1列出了本文以及之前的一些算法所取得的物體識別的準確率。2D3D數(shù)據(jù)庫的作者Browatzki等人采用手動的特征提取算法[13],識別準確率較低。LiefengBo等人采用分層匹配追蹤深度學習算法[10],識別結果得到明顯提高。新提出的算法KSAE-SPMP的識別準確率與之前最好的結果相比[10]提高了1.4%,獲得了最高的識別準確率。另外,RGB圖像和深度圖像特征結合時取得的識別準確率明顯高于單獨使用RGB圖像或者深度圖像,這說明KSAE-SPMP算法能高效地完成多分類RGB-D物體的識別。5結束語本文采用RGB-D數(shù)據(jù)庫,結合物體的顏色信息和深度信息,提出了一種新的無監(jiān)督深度學習算法KSAE-SPMP來完成物體的識別。實驗結果表明,與單獨使用RGB圖像和深度圖像相比,結合RGB圖像特征和深度圖像特征能有效提高物體識別的準確率。KSAE-SPMP算法學習到了極具代表性的特征,在標準的RGB-D數(shù)據(jù)庫2D3D上,與之前的工作相比,KSAE-SPMP算法取得了更高的物體識別準確率。KSAE-SPMP算法能高效地完成多分類物體的識別。參考文獻:[1]孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.[2]MakhzaniA,F(xiàn)reyB.k-SparseAutoencoders[J].arXivpreprintarXiv,2013:1312-5663.[3]BoL,RenX,F(xiàn)oxD.HierarchicalMatchingPursuitforImageClassification:ArchitectureandFastAlgorithms[J].NIPS,2011,1(2):6-6.[4]HintonGE,OsinderoS,TehYW.Afastlearningalgorithmfordeepbeliefnets[J].Neuralcomputation,2006,18(7):1527-1554.[5]VincentP,LarochelleH,BengioY,etal.Extractingandcomposingrobustfeatureswithdenoisingautoencoders[C].Proceedingsofthe25thinternationalconferenceonmachinelearning,ACM,2008:1096-1103.[6]LeeH,GrosseR,RanganathR,etal.Convolutionaldeepbeliefnetworksforscalableunsupervisedlearningofhierarchicalrepresentations[C].Proceedingsofthe26thAnnualInternationalConferenceonMachineLearning,ACM,2009:609-616.[7]BlumM,SpringenbergJT,WulfingJ,etal.Alearnedfeaturedescriptorforobjectrecognitioninrgb-ddata[C].RoboticsandAutomation(ICRA),2012IEEEInternationalConferenceonIEEE,2012:1298-1303.[8]CoatesA,NgAY.Theimportanceofencodingversustrainingwithsparsecodingandvectorquantization[C].Proceedingsofthe28thInternationalConferenceonMachineLearning(ICML-11),2011:921-928.[9]YuK,LinY,LaffertyJ.Learningimagerepresentationsfromthepixellevelviahierarchicalsparsecoding[C].ComputerVisionandPatternRecognition(CVPR),2011IEEEConferenceonIEEE,2011:1713-1720.[10]BoL,RenX,F(xiàn)oxD.UnsupervisedfeaturelearningforRGB-Dbasedobjectrecognition[C].ExperimentalRobotics,SpringerInternationalPublishing,2013:387-402.[11]SocherR,HuvalB,BathBP,etal.Convolutional-RecursiveDeepLearningfor3DObjectClassification[C].NIPS,2012:665-673.[12]LaiK,BoL,RenX,etal.Al
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年碳鋼長接桿項目投資可行性研究分析報告
- 2025年軟磁鐵氧體用氧化鎂項目可行性研究報告
- 道路基礎建設工程EPC總承包模式實施方案
- 中國機械療法器具行業(yè)發(fā)展運行現(xiàn)狀及投資潛力預測報告
- 停車用地合同范本
- 代建工程合同范例
- 2025年度房地產(chǎn)開發(fā)合同終止及購房退款協(xié)議
- 農(nóng)村壘墻養(yǎng)殖合同范本
- 剪輯崗位合同范例
- 買賣火車罐合同范例
- 必修3《政治與法治》 選擇題專練50題 含解析-備戰(zhàn)2025年高考政治考試易錯題(新高考專用)
- 17J008擋土墻(重力式、衡重式、懸臂式)圖示圖集
- 外貿(mào)業(yè)務員面試試卷
- 紀檢知識答題測試題及答案
- 人教版八年級人文地理下冊知識點整理(2021版)
- 道教系統(tǒng)諸神仙位寶誥全譜
- 中國經(jīng)濟轉(zhuǎn)型導論-政府與市場的關系課件
- 統(tǒng)計過程控制SPC培訓資料
- 食品經(jīng)營操作流程圖
- 新視野大學英語讀寫教程 第三版 Book 2 unit 8 教案 講稿
- 村務公開表格
評論
0/150
提交評論