物體分類與檢測研究綜述_第1頁
物體分類與檢測研究綜述_第2頁
物體分類與檢測研究綜述_第3頁
物體分類與檢測研究綜述_第4頁
物體分類與檢測研究綜述_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

物體分類與檢測研究綜述

1計(jì)算機(jī)視覺研究中的質(zhì)量檢測物體分類和檢測是計(jì)算機(jī)視覺、模式識別和機(jī)械學(xué)習(xí)領(lǐng)域非?;钴S的研究方向。在許多領(lǐng)域,物體分類和檢測被廣泛應(yīng)用,如安全領(lǐng)域的人臉識別、行人檢測、智能視頻分析、行人跟蹤、,交通場景在交通環(huán)境中的位置識別、車輛計(jì)數(shù)、偏離檢測、車牌識別和識別、基于網(wǎng)絡(luò)領(lǐng)域內(nèi)容的自動(dòng)圖像搜索和排名??梢哉f,對象分類和檢測在人們?nèi)粘I钪械玫搅藨?yīng)用,計(jì)算機(jī)的自動(dòng)分類和檢測技術(shù)也在一定程度上減輕了人們的負(fù)擔(dān),改變了人們的生活方式。計(jì)算機(jī)視覺理論的奠基者,英國神經(jīng)生理學(xué)家Marr認(rèn)為,視覺要解決的問題可歸結(jié)為“WhatisWhere”,即“什么東西在什么地方”.因此計(jì)算機(jī)視覺的研究中,物體分類和檢測是最基本的研究問題之一.如圖1所示,給定一張圖片,物體分類要回答的問題是這張圖片中是否包含某類物體(比如牛);物體檢測要回答的問題則是物體出現(xiàn)在圖中的什么地方,即需要給出物體的外接矩形框,如圖1(b)所示.物體分類與檢測的研究,是整個(gè)計(jì)算機(jī)視覺研究的基石,是解決跟蹤、分割、場景理解等其他復(fù)雜視覺問題的基礎(chǔ).欲對實(shí)際復(fù)雜場景進(jìn)行自動(dòng)分析與理解,首先就需要確定圖像中存在什么物體(分類問題),或者是確定圖像中什么位置存在什么物體(檢測問題).鑒于物體分類與檢測在計(jì)算機(jī)視覺領(lǐng)域的重要地位,研究魯棒、準(zhǔn)確的物體分類與檢測算法,無疑有著重要的理論意義和實(shí)際意義.本文從物體分類與檢測問題的基本定義出發(fā),首先從實(shí)例、類別、語義三個(gè)層次對物體分類與檢測研究中存在的困難與挑戰(zhàn)進(jìn)行了闡述.接下來,本文以物體檢測和分類方面的主流數(shù)據(jù)庫和國際視覺算法競賽PASCALVOC競賽為主線對近年來物體分類與檢測算法的發(fā)展脈絡(luò)進(jìn)行了梳理與總結(jié),總結(jié)了物體分類與檢測算法的主流方法:基于表達(dá)學(xué)習(xí)和結(jié)構(gòu)學(xué)習(xí).在此基礎(chǔ)上,本文對物體分類與檢測算法的發(fā)展方向進(jìn)行了思考和討論,指出了物體檢測和物體分類算法的有機(jī)統(tǒng)一,探討了下一步研究的方向.2困難與挑戰(zhàn)問題物體分類與檢測是視覺研究中的基本問題,也是一個(gè)非常具有挑戰(zhàn)性的問題.物體分類與檢測的難點(diǎn)與挑戰(zhàn)在本文中分為3個(gè)層次:實(shí)例層次、類別層次和語義層次,如圖2所示.(1)實(shí)例層次.針對單個(gè)物體實(shí)例而言,通常由于圖像采集過程中光照條件、拍攝視角、距離的不同、物體自身的非剛體形變以及其他物體的部分遮擋,使得物體實(shí)例的表觀特征產(chǎn)生很大的變化,給視覺識別算法帶來了極大的困難.(2)類別層次.困難與挑戰(zhàn)通常來自3個(gè)方面,首先是類內(nèi)差大,也即屬于同一類的物體表觀特征差別比較大,其原因有前面提到的各種實(shí)例層次的變化,但這里更強(qiáng)調(diào)的是類內(nèi)不同實(shí)例的差別,例如圖3(a)所示,同樣是椅子,外觀卻是千差萬別,而從語義上來講,具有“坐”的功能的器具都可以稱為椅子;其次是類間模糊性,即不同類的物體實(shí)例具有一定的相似性,如圖3(b)所示,左邊的是一只狼,右邊的是一只哈士奇,但我們從外觀上卻很難分開二者;再次是背景的干擾,在實(shí)際場景下,物體不可能出現(xiàn)在一個(gè)非常干凈的背景下,往往相反,背景可能是非常復(fù)雜的、對我們感興趣的物體存在干擾的,這使得識別問題的難度大大增加.(3)語義層次.困難和挑戰(zhàn)與圖像的視覺語義相關(guān),這個(gè)層次的困難往往非常難處理,特別是對現(xiàn)在的計(jì)算機(jī)視覺理論水平而言,一個(gè)典型的問題稱為多重穩(wěn)定性.如圖3所示,圖3(c)左邊既可以看成是兩個(gè)面對面的人,也可以看成是一個(gè)燃燒的蠟燭;右邊則同時(shí)可以解釋為兔子或者小鴨.同樣的圖像,不同的解釋,這既與人的觀察視角、關(guān)注點(diǎn)等物理?xiàng)l件有關(guān),也與人的性格、經(jīng)歷等有關(guān),而這恰恰是視覺識別系統(tǒng)難以處理的部分.3圖像類別、圖像數(shù)量與特點(diǎn)數(shù)據(jù)是視覺識別研究中最重要的因素之一,通常我們更多關(guān)注于模型、算法本身,事實(shí)上,數(shù)據(jù)在視覺任務(wù)中的作用越來越明顯.大數(shù)據(jù)時(shí)代的到來,也使得研究人員開始更加重視數(shù)據(jù).在數(shù)據(jù)足夠多的情況下,我們甚至可以使用最簡單的模型、算法,比如最近鄰分類、樸素貝葉斯分類器都能得到很好的效果.鑒于數(shù)據(jù)對算法的重要性,我們將在本節(jié)對視覺研究中物體分類與檢測方面的主流數(shù)據(jù)進(jìn)行概述,從中也可以一窺目標(biāo)分類、檢測的發(fā)展.在介紹不同數(shù)據(jù)庫時(shí),將主要從數(shù)據(jù)庫圖像數(shù)目、類別數(shù)目、每類樣本數(shù)目、圖像大小、分類檢測任務(wù)難度等方面進(jìn)行闡述,如表1所示.早期物體分類研究集中于一些較為簡單的特定任務(wù),如OCR、形狀分類等.OCR中數(shù)字手寫識別是一個(gè)得到廣泛研究的課題,相關(guān)數(shù)據(jù)庫中最著名的是MNIST數(shù)據(jù)庫.MNIST是一個(gè)數(shù)字手寫識別領(lǐng)域的標(biāo)準(zhǔn)評測數(shù)據(jù)集,數(shù)據(jù)庫大小是60000,一共包含10類阿拉伯?dāng)?shù)字,每類提供5000張圖像進(jìn)行訓(xùn)練,1000張進(jìn)行測試.MNIST的圖像大小為28×28,即784維,所有圖像為手寫數(shù)字,存在較大的形變.形狀分類是另一個(gè)比較重要的物體分類初期的研究領(lǐng)域,相關(guān)數(shù)據(jù)庫有ETHZShapeClasses、MPEG-7等.其中ETHZShapeClasses包含6類具有較大差別的形狀類別:蘋果、商標(biāo)、瓶子、長頸鹿、杯子、天鵝,整個(gè)數(shù)據(jù)庫包含255張測試圖像.CIFAR-10和CIFAR-100數(shù)據(jù)庫是Tinyimages的兩個(gè)子集,分別包含了10類和100類物體類別.這兩個(gè)數(shù)據(jù)庫的圖像尺寸都是32×32,而且是彩色圖像.CIFAR-10包含6萬的圖像,其中5萬用于模型訓(xùn)練,1萬用于測試,每一類物體有5000張圖像用于訓(xùn)練,1000張圖像用于測試.CIFAR-100與CIFAR-10組成類似,不同的是包含了更多的類別:20個(gè)大類,大類又細(xì)分為100個(gè)小類別,每類包含600張圖像.CIFAR-10和CIFAR-100數(shù)據(jù)庫尺寸較小,但是數(shù)據(jù)規(guī)模相對較大,非常適合復(fù)雜模型特別是深度學(xué)習(xí)模型訓(xùn)練,因而成為深度學(xué)習(xí)領(lǐng)域主流的物體識別評測數(shù)據(jù)集.Caltech-101是第一個(gè)規(guī)模較大的一般物體識別標(biāo)準(zhǔn)數(shù)據(jù)庫,除背景類別外,它一共包含了101類物體,共9146張圖像,每類中圖像數(shù)目從40到800不等,圖像尺寸也達(dá)到300左右.Caltech-101是以物體為中心構(gòu)建的數(shù)據(jù)庫,每張圖像基本只包含一個(gè)物體實(shí)例,且居于圖像中間位置.物體尺寸相對圖像尺寸比例較大,且變化相對實(shí)際場景來說不大,比較容易識別.Caltech-101每類的圖像數(shù)目差別較大,有些類別只有很少的訓(xùn)練圖像,也約束了可以使用的訓(xùn)練集大小.Caltech256與Caltech-101類似,區(qū)別是物體類別從101類增加到了256類,每類包含至少80張圖像.圖像類別的增加,也使得Caltech-256上的識別任務(wù)更加困難,使其成為檢驗(yàn)算法性能與擴(kuò)展性的新基準(zhǔn).15Scenes是由Lazebnik等人在Li等人的13Scenes數(shù)據(jù)庫的基礎(chǔ)上加入了兩個(gè)新的場景構(gòu)成的,一共有15個(gè)自然場景,4485張圖像,每類大概包含200~400張圖像,圖像分辨率約為300×250.15Scenes數(shù)據(jù)庫主要用于場景分類評測,由于物體分類與場景分類在模型與算法上差別不大,該數(shù)據(jù)庫也在圖像分類問題上得到廣泛的使用.PASCALVOC從2005年到2012年每年都發(fā)布關(guān)于分類、檢測、分割等任務(wù)的數(shù)據(jù)庫,并在相應(yīng)數(shù)據(jù)庫上舉行了算法競賽,極大地推動(dòng)了視覺研究的發(fā)展進(jìn)步.最初2005年P(guān)ASCALVOC數(shù)據(jù)庫只包含人、自行車、摩托車、汽車共4類,2006年類別數(shù)目增加到10類,2007年開始類別數(shù)目固定為20類,以后每年只增加部分樣本.PASCALVOC數(shù)據(jù)庫中物體類別均為日常生活中常見的物體,如交通工具、室內(nèi)家具、人、動(dòng)物等.PASCALVOC2007數(shù)據(jù)庫共包含9963張圖片,圖片來源包括Filker等互聯(lián)網(wǎng)站點(diǎn)以及其他數(shù)據(jù)庫,每類大概包含96~2008張圖像,均為一般尺寸的自然圖像.PASCALVOC數(shù)據(jù)庫與Caltech-101相比,雖然類別數(shù)更少,但由于圖像中物體變化極大,每張圖像可能包含多個(gè)不同類別物體實(shí)例,且物體尺度變化很大,因而分類與檢測難度都非常大.該數(shù)據(jù)庫的提出,對物體分類與檢測的算法提出了極大的挑戰(zhàn),也催生了大批優(yōu)秀的理論與算法,將物體識別的研究推向了一個(gè)新的高度.隨著分類與檢測算法的進(jìn)步,很多算法在以上提到的相關(guān)數(shù)據(jù)庫上性能都接近飽和,同時(shí)隨著大數(shù)據(jù)時(shí)代的到來、硬件技術(shù)的發(fā)展,也使得在更大規(guī)模的數(shù)據(jù)庫上進(jìn)行研究和評測成為必然.ImageNet是由Li主持構(gòu)建的大規(guī)模圖像數(shù)據(jù)庫,圖像類別按照WordNet構(gòu)建,全庫截至2013年共有1400萬張圖像,2.2萬個(gè)類別,平均每類包含1000張圖像.這是目前視覺識別領(lǐng)域最大的有標(biāo)注的自然圖像分辨率的數(shù)據(jù)集,盡管圖像本身基本還是以目標(biāo)為中心構(gòu)建的,但是海量的數(shù)據(jù)和海量的圖像類別,使得該數(shù)據(jù)庫上的分類任務(wù)依然極具挑戰(zhàn)性.除此之外,ImageNet還構(gòu)建了一個(gè)包含1000類物體120萬圖像的子集,并以此作為ImageNet大尺度視覺識別競賽的數(shù)據(jù)平臺,也逐漸成為物體分類算法評測的標(biāo)準(zhǔn)數(shù)據(jù)集.SUN數(shù)據(jù)庫的構(gòu)建是希望給研究人員提供一個(gè)覆蓋較大場景、位置、人物變化的數(shù)據(jù)庫,庫中的場景名是從WordNet中的所有場景名稱中得來的.SUN數(shù)據(jù)庫包含兩個(gè)評測集,一個(gè)是場景識別數(shù)據(jù)集,稱為SUN-397,共包含397類場景,每類至少包含100張圖片,總共有108754張圖像.另一個(gè)評測集為物體檢測數(shù)據(jù)集,稱為SUN2012,包含16873張圖像.Tinyimages是一個(gè)圖像規(guī)模更大的數(shù)據(jù)庫,共包含7900萬張32×32圖像,圖像類別數(shù)目有7.5萬,盡管圖像分辨率較低,但還是具有較高的區(qū)分度,而其絕無僅有的數(shù)據(jù)規(guī)模,使其成為大規(guī)模分類、檢索算法的研究基礎(chǔ).我們通過分析表1可以看到,在物體分類的發(fā)展過程中,數(shù)據(jù)庫的構(gòu)建大致可以分為3個(gè)階段,經(jīng)歷了一個(gè)從簡單到復(fù)雜,從特殊到一般,從小規(guī)模到大規(guī)模的跨越.早期的手寫數(shù)字識別MNIST、形狀分類MPEG-7等都是研究特定問題中圖像分類,之后研究人員開始進(jìn)行更廣泛的一般目標(biāo)分類與檢測的研究,典型的數(shù)據(jù)庫包括15Scenes、Caltech-101/256、PASCALVOC2007等;隨著詞包模型等算法的發(fā)展與成熟,更大規(guī)模的物體分類與檢測研究得到了廣泛的關(guān)注,這一階段的典型數(shù)據(jù)庫包括SUN數(shù)據(jù)庫、ImageNet以及Tiny等.近年來,數(shù)據(jù)庫構(gòu)建中的科學(xué)性也受到越來越多的關(guān)注,Torralba等人對數(shù)據(jù)庫的Bias、泛化性能、價(jià)值等問題進(jìn)行了深入的討論,提出排除數(shù)據(jù)庫構(gòu)建過程中的選擇偏好、拍攝偏好、負(fù)樣本集偏好是構(gòu)造更加接近真實(shí)視覺世界的視覺數(shù)據(jù)庫中的關(guān)鍵問題.伴隨著視覺處理理論的進(jìn)步,視覺識別逐漸開始處理更加真實(shí)場景的視覺問題,因而對視覺數(shù)據(jù)庫的泛化性、規(guī)模等也提出了新的要求和挑戰(zhàn).我們也可以發(fā)現(xiàn),物體類別越多,導(dǎo)致類間差越小,分類與檢測任務(wù)越困難,圖像數(shù)目、圖像尺寸的大小,則直接對算法的可擴(kuò)展性提出了更高的要求,如何在有限時(shí)間內(nèi)高效地處理海量數(shù)據(jù)、進(jìn)行準(zhǔn)確的目標(biāo)分類與檢測成為當(dāng)前研究的熱點(diǎn).4物品分類和圖像特征表達(dá)圖像物體識別的研究已經(jīng)有五十多年的歷史.各類理論和算法層出不窮,在這部分,我們對物體分類與檢測的發(fā)展脈絡(luò)進(jìn)行了簡單梳理,并將其中里程碑式的工作進(jìn)行綜述.特別的,我們以國際視覺算法競賽PASCALVOC競賽為主線對物體分類與檢測算法近年來的主要進(jìn)展進(jìn)行綜述,這個(gè)系列的競賽對物體識別研究的發(fā)展影響深遠(yuǎn),其工作也代表了當(dāng)時(shí)的最高水平.物體分類任務(wù)要求回答一張圖像中是否包含某種物體,對圖像進(jìn)行特征描述是物體分類的主要研究內(nèi)容.一般說來,物體分類算法通過手工特征或者特征學(xué)習(xí)方法對整個(gè)圖像進(jìn)行全局描述,然后使用分類器判斷是否存在某類物體.物體檢測任務(wù)則更為復(fù)雜,它需要回答一張圖像中在什么位置存在一個(gè)什么物體,因而除特征表達(dá)外,物體結(jié)構(gòu)是物體檢測任務(wù)不同于物體分類的最重要之處.總的來說,近年來物體分類方法多側(cè)重于學(xué)習(xí)特征表達(dá),典型的包括詞包模型(Bag-of-Words)、深度學(xué)習(xí)模型;物體檢測方法則側(cè)重于結(jié)構(gòu)學(xué)習(xí),以形變部件模型為代表.這里我們首先以典型的分類檢測模型來闡述其一般方法和過程,之后以PASCALVOC(包含ImageNet)競賽歷年來的最好成績來介紹物體分類和物體檢測算法的發(fā)展,包括物體分類中的詞包模型、深度學(xué)習(xí)模型以及物體檢測中的結(jié)構(gòu)學(xué)習(xí)模型,并分別對各個(gè)部分進(jìn)行闡述.4.1底層特征編碼從表2我們可以發(fā)現(xiàn),詞包模型是VOC競賽中物體分類算法的基本框架,幾乎所有的參賽算法都是基于詞包模型.我們將從底層特征、特征編碼、空間約束、分類器設(shè)計(jì)、模型融合幾個(gè)方面來展開闡述.詞包模型(Bag-of-Words)最初產(chǎn)生于自然語言處理領(lǐng)域,通過建模文檔中單詞出現(xiàn)的頻率來對文檔進(jìn)行描述與表達(dá).Csurka等人于2004年首次將詞包的概念引入計(jì)算機(jī)視覺領(lǐng)域,由此開始大量的研究工作集中于詞包模型的研究,并逐漸形成了由下面4部分組成的標(biāo)準(zhǔn)物體分類框架:(1)底層特征提取.底層特征是物體分類與檢測框架中的第一步,底層特征提取方式有兩種:一種是基于興趣點(diǎn)檢測,另一種是采用密集提取的方式.興趣點(diǎn)檢測算法通過某種準(zhǔn)則選擇具有明確定義的、局部紋理特征比較明顯的像素點(diǎn)、邊緣、角點(diǎn)、區(qū)塊等,并且通常能夠獲得一定的幾何不變性,從而可以在較小的開銷下得到更有意義的表達(dá),最常用的興趣點(diǎn)檢測算子有Harris角點(diǎn)檢測子、FAST(FeaturesfromAcceleratedSegmentTest)算子、LoG(LaplacianofGaussian)、DoG(DifferenceofGaussian)等.近年來物體分類領(lǐng)域使用更多的則是密集提取的方式,從圖像中按固定的步長、尺度提取出大量的局部特征描述,大量的局部描述盡管具有更高的冗余度,但信息更加豐富,后面再使用詞包模型進(jìn)行有效表達(dá)后通??梢缘玫奖扰d趣點(diǎn)檢測更好的性能.常用的局部特征包括SIFT(Scale-InvariantFeatureTransform,尺度不變特征轉(zhuǎn)換)、HOG(HistogramofOrientedGradient,方向梯度直方圖)、LBP(LocalBinaryPattern,局部二值模式)等.從表2可以看出,歷年最好的物體分類算法都采用了多種特征,采樣方式上密集提取與興趣點(diǎn)檢測相結(jié)合,底層特征描述也采用了多種特征描述子,這樣做的好處是,在底層特征提取階段,通過提取到大量的冗余特征,最大限度的對圖像進(jìn)行底層描述,防止丟失過多的有用信息,這些底層描述中的冗余信息主要靠后面的特征編碼和特征匯聚得到抽象和簡并.事實(shí)上,近年來得到廣泛關(guān)注的深度學(xué)習(xí)理論中一個(gè)重要的觀點(diǎn)就是手工設(shè)計(jì)的底層特征描述子作為視覺信息處理的第一步,往往會(huì)過早地丟失有用的信息,直接從圖像像素學(xué)習(xí)到任務(wù)相關(guān)的特征描述是比手工特征更為有效的手段.(2)特征編碼.密集提取的底層特征中包含了大量的冗余與噪聲,為提高特征表達(dá)的魯棒性,需要使用一種特征變換算法對底層特征進(jìn)行編碼,從而獲得更具區(qū)分性、更加魯棒的特征表達(dá),這一步對物體識別的性能具有至關(guān)重要的作用,因而大量的研究工作都集中在尋找更加強(qiáng)大的特征編碼方法,重要的特征編碼算法包括向量量化編碼、核詞典編碼、稀疏編碼、局部線性約束編碼、顯著性編碼、Fisher向量編碼、超向量編碼等.最簡單的特征編碼是向量量化編碼,它的出現(xiàn)甚至比詞包模型的提出還要早.向量量化編碼是通過一種量化的思想,使用一個(gè)較小的特征集合(視覺詞典)來對底層特征進(jìn)行描述,達(dá)到特征壓縮的目的.向量量化編碼只在最近的視覺單詞上響應(yīng)為1,因而又稱為硬量化編碼、硬投票編碼,這意味著向量量化編碼只能對局部特征進(jìn)行很粗糙的重構(gòu).但向量量化編碼思想簡單、直觀,也比較容易高效實(shí)現(xiàn),因而從2005年第一屆PASCALVOC競賽以來,就得到了廣泛的使用.在實(shí)際圖像中,圖像局部特征常常存在一定的模糊性,即一個(gè)局部特征可能和多個(gè)視覺單詞差別很小,這個(gè)時(shí)候若使用向量量化編碼將只利用距離最近的視覺單詞,而忽略了其他相似性很高的視覺單詞.為了克服這種模糊性問題,vanGemert等人提出了軟量化編碼(又稱核視覺詞典編碼)算法,局部特征不再使用一個(gè)視覺單詞描述,而是由距離最近的K個(gè)視覺單詞加權(quán)后進(jìn)行描述,有效解決了視覺單詞的模糊性問題,提高了物體識別的精度.稀疏表達(dá)理論近年來在視覺研究領(lǐng)域得到了大量的關(guān)注,研究人員最初在生理實(shí)驗(yàn)中發(fā)現(xiàn)細(xì)胞在絕大部分時(shí)間內(nèi)是處于不活動(dòng)狀態(tài),也即在時(shí)間軸上細(xì)胞的激活信號是稀疏的.稀疏編碼通過最小二乘重構(gòu)加入稀疏約束來實(shí)現(xiàn)在一個(gè)過完備基上響應(yīng)的稀疏性.ue5c10約束是最直接的稀疏約束,但通常很難進(jìn)行優(yōu)化,近年來更多使用的是ue5c11約束,可以更加有效地進(jìn)行迭代優(yōu)化,得到稀疏表達(dá).2009年Yang等人將稀疏編碼應(yīng)用到物體分類領(lǐng)域,替代了之前的向量量化編碼和軟量化編碼,得到一個(gè)高維的高度稀疏的特征表達(dá),大大提高了特征表達(dá)的線性可分性,僅僅使用線性分類器就得到了當(dāng)時(shí)最好的物體分類結(jié)果,將物體分類的研究推向了一個(gè)新的高度上.稀疏編碼在物體分類上的成功也不難理解,對于一個(gè)很大的特征集合(視覺詞典),一個(gè)物體通常只和其中較少的特征有關(guān),例如,自行車通常和表達(dá)車輪、車把等部分的視覺單詞密切相關(guān),與飛機(jī)機(jī)翼、電視機(jī)屏幕等關(guān)系很小,而行人則通常在頭、四肢等對應(yīng)的視覺單詞上有強(qiáng)響應(yīng).稀疏編碼存在一個(gè)問題,即相似的局部特征可能經(jīng)過稀疏編碼后在不同的視覺單詞上產(chǎn)生響應(yīng),這種變換的不連續(xù)性必然會(huì)產(chǎn)生編碼后特征的不匹配,影響特征的區(qū)分性能.局部線性約束編碼的提出就是為了解決這一問題,它通過加入局部線性約束,在一個(gè)局部流形上對底層特征進(jìn)行編碼重構(gòu),這樣既可以保證得到的特征編碼不會(huì)有稀疏編碼存在的不連續(xù)問題,也保持了稀疏編碼的特征稀疏性.局部線性約束編碼中,局部性是局部線性約束編碼中的一個(gè)核心思想,通過引入局部性,一定程度上改善了特征編碼過程的連續(xù)性問題,即距離相近的局部特征在經(jīng)過編碼之后應(yīng)該依然能夠落在一個(gè)局部流形上.局部線性約束編碼可以得到稀疏的特征表達(dá),與稀疏編碼不同之處就在于稀疏編碼無法保證相近的局部特征編碼之后落在相近的局部流形.從表2可以看出,2009年的分類競賽冠軍采用了混合高斯模型聚類和局部坐標(biāo)編碼(局部線性約束編碼是其簡化版本),僅僅使用線性分類器就取得了非常好的性能.不同于稀疏編碼和局部線性約束編碼,顯著性編碼引入了視覺顯著性的概念,如果一個(gè)局部特征到最近和次近的視覺單詞的距離差別很小,則認(rèn)為這個(gè)局部特征是不“顯著的”,從而編碼后的響應(yīng)也很小.顯著性編碼通過這樣很簡單的編碼操作,在Caltech101/256,PASCALVOC2007等數(shù)據(jù)庫上取得了非常好的結(jié)果,而且由于是解析的結(jié)果,編碼速度也比稀疏編碼快很多.Huang等人發(fā)現(xiàn)顯著性表達(dá)配合最大值匯聚在特征編碼中有重要的作用,并認(rèn)為這正是稀疏編碼、局部約束線性編碼等之所以在圖像分類任務(wù)上取得成功的原因.超向量編碼,Fisher向量編碼是近年提出的性能最好的特征編碼方法,其基本思想有相似之處,都可以認(rèn)為是編碼局部特征和視覺單詞的差.Fisher向量編碼同時(shí)融合了產(chǎn)生式模型和判別式模型的能力,與傳統(tǒng)的基于重構(gòu)的特征編碼方法不同,它記錄了局部特征與視覺單詞之間的一階差分和二階差分.超向量編碼則直接使用局部特征與最近的視覺單詞的差來替換之前簡單的硬投票.這種特征編碼方式得到的特征向量表達(dá)通常是傳統(tǒng)基于重構(gòu)編碼方法的M倍(M是局部特征的維度).盡管特征維度要高出很多,超向量編碼和Fisher向量編碼在PASCALVOC、ImageNet等極具挑戰(zhàn)性、大尺度數(shù)據(jù)庫上獲得了當(dāng)時(shí)最好的性能,并在圖像標(biāo)注、圖像分類、圖像檢索等領(lǐng)域得到應(yīng)用.2011年ImageNet分類競賽冠軍采用了超向量編碼,2012年VOC競賽冠軍則是采用了向量量化編碼和Fisher向量編碼.(3)特征匯聚.空間特征匯聚是特征編碼后進(jìn)行的特征集整合操作,通過對編碼后的特征,每一維都取其最大值或者平均值,得到一個(gè)緊致的特征向量作為圖像的特征表達(dá).這一步得到的圖像表達(dá)可以獲得一定的特征不變性,同時(shí)也避免了使用特征集進(jìn)行圖像表達(dá)的高額代價(jià).最大值匯聚在絕大部分情況下的性能要優(yōu)于平均值匯聚,也在物體分類中使用最為廣泛.由于圖像通常具有極強(qiáng)的空間結(jié)構(gòu)約束,空間金字塔匹配(SpatialPyramidMatching,SPM)提出將圖像均勻分塊,然后每個(gè)區(qū)塊里面單獨(dú)做特征匯聚操作并將所有特征向量拼接起來作為圖像最終的特征表達(dá).空間金字塔匹配的想法非常直觀,是金字塔匹配核(PyramidMatchingKernel,PMK)的圖像空間對偶,它操作簡單而且性能提升明顯,因而在當(dāng)前基于詞包模型的圖像分類框架中成為標(biāo)準(zhǔn)步驟.實(shí)際使用中,在Caltech101/256等數(shù)據(jù)庫上通常使用1×1、2×2、4×4的空間分塊,因而特征維度是全局匯聚得到的特征向量的21倍,在PASCALVOC數(shù)據(jù)庫上,則采用1×1、2×2、3×1的分塊,因而最終特征表達(dá)的維度是全局匯聚的8倍.(4)使用支持向量機(jī)等分類器進(jìn)行分類.從圖像提取到特征表達(dá)之后,一張圖像可以使用一個(gè)固定維度的向量進(jìn)行描述,接下來就是學(xué)習(xí)一個(gè)分類器對圖像進(jìn)行分類.這個(gè)時(shí)候可以選擇的分類器就很多了,常用的分類器有支持向量機(jī)、K近鄰、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等.基于最大化邊界的支持向量機(jī)是使用最為廣泛的分類器之一,在圖像分類任務(wù)上性能很好,特別是使用了核方法的支持向量機(jī).Yang等人提出了ScSPM方法,通過學(xué)習(xí)過完備的稀疏特征,可以在高維特征空間提高特征的線性可分性,使用線性支持向量機(jī)就得到了當(dāng)時(shí)最好的分類結(jié)果,大大降低了訓(xùn)練分類器的時(shí)間和空間消耗.隨著物體分類研究的發(fā)展,使用的視覺單詞大小不斷增大,得到的圖像表達(dá)維度也不斷增加,達(dá)到了幾十萬的量級.這樣高的數(shù)據(jù)維度,相比幾萬量級的數(shù)據(jù)樣本,都與傳統(tǒng)的模式分類問題有了很大的不同.隨著處理的數(shù)據(jù)規(guī)模不斷增大,基于在線學(xué)習(xí)的線性分類器成為首選,得到了廣泛的關(guān)注與應(yīng)用.4.2卷積神經(jīng)網(wǎng)絡(luò)的主要特征深度學(xué)習(xí)模型是另一類物體識別算法,其基本思想是通過有監(jiān)督或者無監(jiān)督的方式學(xué)習(xí)層次化的特征表達(dá),來對物體進(jìn)行從底層到高層的描述.主流的深度學(xué)習(xí)模型包括自動(dòng)編碼器(Autoencoder)、受限波爾茲曼機(jī)(RestrictedBoltzmannMachine,RBM)、深度信念網(wǎng)絡(luò)(DeepBeliefNets,DBN)、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetowrks,CNN)、生物啟發(fā)式模型等.自動(dòng)編碼器(Auto-encoder)是20世紀(jì)80年代提出的一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且在數(shù)據(jù)降維、特征提取等方面得到廣泛應(yīng)用.自動(dòng)編碼器由編碼器和解碼器組成,編碼器將數(shù)據(jù)輸入變換到隱藏層表達(dá),解碼器則負(fù)責(zé)從隱藏層恢復(fù)原始輸入.隱藏層單元數(shù)目通常少于數(shù)據(jù)輸入維度,起著類似“瓶頸”的作用,保持?jǐn)?shù)據(jù)中最重要的信息,從而實(shí)現(xiàn)數(shù)據(jù)降維與特征編碼.自動(dòng)編碼器是基于特征重構(gòu)的無監(jiān)督特征學(xué)習(xí)單元,加入不同的約束,可以得到不同的變化,包括去噪自動(dòng)編碼器(DenoisingAutoencoders)、稀疏自動(dòng)編碼器(SparseAutoencoders)等,這些方法在數(shù)字手寫識別、圖像分類等任務(wù)上取得了非常好的結(jié)果.受限玻爾茲曼機(jī)是一種無向二分圖模型,是一種典型的基于能量的模型(Enery-BasedModels,EBM).之所以稱為“受限”,是指在可視層和隱藏層之間有連接,而在可視層內(nèi)部和隱藏層內(nèi)部不存在連接.受限玻爾茲曼機(jī)的這種特殊結(jié)構(gòu),使得它具有很好的條件獨(dú)立性,即給定隱藏層單元,可視層單元之間是獨(dú)立的,反之亦然.這個(gè)特性使得它可以實(shí)現(xiàn)同時(shí)對一層內(nèi)的單元進(jìn)行并行Gibbs采樣.受限玻爾茲曼機(jī)通常采用對比散度(ContrastiveDivergence,CD)算法進(jìn)行模型學(xué)習(xí).受限玻爾茲曼機(jī)作為一種無監(jiān)督的單層特征學(xué)習(xí)單元,類似于前面提到的特征編碼算法,事實(shí)上加了稀疏約束的受限玻爾茲曼機(jī)可以學(xué)到類似稀疏編碼那樣的Gabor濾波器模式.深度信念網(wǎng)絡(luò)(DBN)是一種層次化的無向圖模型.DBN的基本單元是RBM(RestrictedBoltzmannMachine),首先先以原始輸入為可視層,訓(xùn)練一個(gè)單層的RBM,然后固定第一層RBM權(quán)重,以RBM隱藏層單元的響應(yīng)作為新的可視層,訓(xùn)練下一層的RBM,以此類推.通過這種貪婪式的無監(jiān)督訓(xùn)練,可以使整個(gè)DBN模型得到一個(gè)比較好的初始值,然后可以加入標(biāo)簽信息,通過產(chǎn)生式或者判別式方式,對整個(gè)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的精調(diào),進(jìn)一步改善網(wǎng)絡(luò)性能.DBN的多層結(jié)構(gòu),使得它能夠?qū)W習(xí)得到層次化的特征表達(dá),實(shí)現(xiàn)自動(dòng)特征抽象,而無監(jiān)督預(yù)訓(xùn)練過程則極大改善了深度神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)量不夠時(shí)嚴(yán)重的局部極值問題.Hinton等人通過這種方式,成功將其應(yīng)用于手寫數(shù)字識別、語音識別、基于內(nèi)容檢索等領(lǐng)域.卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早出現(xiàn)在20世紀(jì)80年代,最初應(yīng)用于數(shù)字手寫識別,取得了一定的成功.然而,由于受硬件的約束,卷積神經(jīng)網(wǎng)絡(luò)的高強(qiáng)度計(jì)算消耗使得它很難應(yīng)用到實(shí)際尺寸的目標(biāo)識別任務(wù)上.Hubel和Wiesel在貓視覺系統(tǒng)研究工作的基礎(chǔ)上提出了簡單、復(fù)雜細(xì)胞理論,設(shè)計(jì)出來一種人工神經(jīng)網(wǎng)絡(luò),之后發(fā)展成為卷積神經(jīng)網(wǎng)絡(luò).卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層和匯聚層,卷積層通過使用固定大小的濾波器與整個(gè)圖像進(jìn)行卷積,來模擬Hubel和Wiesel提出的簡單細(xì)胞.匯聚層則是一種降采樣操作,通過取卷積得到的特征圖中局部區(qū)塊的最大值、平均值來達(dá)到降采樣的目的,并在這個(gè)過程中獲得一定的不變性.匯聚層用來模擬Hubel和Wiesel理論中的復(fù)雜細(xì)胞.在每層的響應(yīng)之后通常還會(huì)有幾個(gè)非線性變換,如sigmoid、tanh、relu等,使得整個(gè)網(wǎng)絡(luò)的表達(dá)能力得到增強(qiáng).在網(wǎng)絡(luò)的最后通常會(huì)增加若干全連通層和一個(gè)分類器,如softmax分類器、RBF分類器等.卷積神經(jīng)網(wǎng)絡(luò)中卷積層的濾波器是各個(gè)位置共享的,因而可以大大降低參數(shù)的規(guī)模,這對防止模型過于復(fù)雜是非常有益的,另一方面,卷積操作保持了圖像的空間信息,因而特別適合于對圖像進(jìn)行表達(dá).這里我們將最為流行的詞包模型與卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比,發(fā)現(xiàn)兩者其實(shí)是極為相似的.在詞包模型中,對底層特征進(jìn)行特征編碼的過程,實(shí)際上近似等價(jià)于卷積神經(jīng)網(wǎng)絡(luò)中的卷積層,而匯聚層所進(jìn)行的操作也與詞包模型中的匯聚操作一樣.不同之處在于,詞包模型實(shí)際上相當(dāng)于只包含了一個(gè)卷積層和一個(gè)匯聚層,且模型采用無監(jiān)督方式進(jìn)行特征表達(dá)學(xué)習(xí),而卷積神經(jīng)網(wǎng)絡(luò)則包含了更多層的簡單、復(fù)雜細(xì)胞,可以進(jìn)行更為復(fù)雜的特征變換,并且其學(xué)習(xí)過程是有監(jiān)督過程的,濾波器權(quán)重可以根據(jù)數(shù)據(jù)與任務(wù)不斷進(jìn)行調(diào)整,從而學(xué)習(xí)到更有意義的特征表達(dá).從這個(gè)角度來看,卷積神經(jīng)網(wǎng)絡(luò)具有更為強(qiáng)大的特征表達(dá)能力,因此它在圖像識別任務(wù)中的出色性能就很容易解釋了.下面我們將以PASCALVOC競賽和ImageNet競賽為主線,對物體分類的發(fā)展進(jìn)行梳理和分析.2005年第一屆PASCALVOC競賽數(shù)據(jù)庫包含了4類物體:摩托車、自行車、人、汽車,訓(xùn)練集加驗(yàn)證集一共包含684張圖像,測試集包含689張圖像,數(shù)據(jù)規(guī)模相對較小.從方法上來說,詞包模型開始在物體分類任務(wù)上得到應(yīng)用,但也存在很多其他的方法,如基于檢測的物體分類、自組織網(wǎng)絡(luò)等.從競賽結(jié)果來看,采用“興趣點(diǎn)檢測-SIFT底層特征描述-向量量化編碼直方圖-支持向量機(jī)”得到了最好的物體分類性能.對數(shù)線性模型和logistic回歸的性能要略差于支持向量機(jī),這也說明了基于最大化邊緣準(zhǔn)則的支持向量機(jī)具有較強(qiáng)的魯棒性,可以更好地處理物體的尺度、視角、形狀等變化.2006年瑪麗王后學(xué)院的Zhang等人使用詞包模型獲得了PASCALVOC物體分類競賽冠軍.與以前不同,在底層特征提取上,他們采用了更多的興趣點(diǎn)檢測算法,包括Harris-Laplace角點(diǎn)檢測和Laplacian塊檢測.除此以外,他們還使用了基于固定網(wǎng)格的密集特征提取方式,在多個(gè)尺度上進(jìn)行特征提取.底層特征描述除使用尺度不變的SIFT特征外,還使用了SPINimage特征.詞包模型是一個(gè)無序的全局直方圖描述,沒有考慮底層特征的空間信息,Zhang等人采用了Lazebnik等人提出的空間金字塔匹配方法,采用1×1、2×2、3×1的分塊,因而最終特征表達(dá)的維度是全局匯聚的8倍.另一個(gè)與之前不同的地方在于,他們使用了一個(gè)兩級的支持向量機(jī)來進(jìn)行特征分類,第一級采用卡方核SVM對空間金字塔匹配得到的各個(gè)詞包特征表達(dá)進(jìn)行分類,第二級則采用RBF核SVM對第一級的結(jié)果進(jìn)行再分類.通過采用兩級的SVM分類,可以將不同的SPM通道結(jié)果融合起來,起到一定的通道選擇作用.2007年來自INRIA的Marszaue548ek等人獲得物體分類冠軍,他們所用的方法也是詞包模型,基本流程與2006年的冠軍方法類似.不同在于,他們在底層特征描述上使用了更多的底層特征描述子,包括SIFT、SIFT-hue、PASedgelhistogram等,通過多特征方式最大可能保留圖像信息,并通過特征編碼和SVM分類方式發(fā)掘有用信息成為物體分類研究者的共識.另一個(gè)重要的改進(jìn)是提出了擴(kuò)展的多通道高斯核,采用學(xué)習(xí)線性距離組合的方式確定不同SPM通道的權(quán)重,并利用遺傳算法進(jìn)行優(yōu)化.2008年阿姆斯特丹大學(xué)和薩里大學(xué)組成的隊(duì)伍獲得了冠軍,其基本方法依然是詞包模型.有三個(gè)比較重要的不同之處,首先是他們提出了彩色描述子來增強(qiáng)模型的光照不變性與判別能力;其次是使用軟量化編碼替代了向量量化編碼,由于在實(shí)際圖像中,圖像局部特征常常存在一定的模糊性,即一個(gè)局部特征可能和多個(gè)視覺單詞相似性差別很小,這個(gè)時(shí)候使用向量量化編碼就只使用了距離最近的視覺單詞,而忽略了其他同樣很相似的視覺單詞.為了克服這種模糊性問題,vanGemert等人提出了軟量化編碼(又稱核視覺詞典編碼)算法,有效解決了視覺模糊性問題,提高了物體識別的精度.另外,他們還采用譜回歸核判別分析得到了比支持向量機(jī)更好的分類性能.2009年物體分類研究更加成熟,冠軍隊(duì)伍不再專注于多底層特征、多分類器融合,而是采用了密集提取的單SIFT特征,并使用線性分類器進(jìn)行模式分類.他們的研究中心放在了特征編碼上,采用了混合高斯模型(GaussianMixtureModel,GMM)和局部坐標(biāo)編碼(LocalCoordinateCoding,LCC)兩種特征編碼方法對底層SIFT特征描述子進(jìn)行編碼,得到了高度非線性的、局部的圖像特征表達(dá),通過提高特征的不變性、判別性來改進(jìn)性能.另外,物體檢測結(jié)果的融合,也進(jìn)一步提升了物體分類的識別性能.局部坐標(biāo)編碼提出的“局部性”概念,對物體分類中的特征表達(dá)具有重要的意義,之后出現(xiàn)的局部線性約束編碼(Locality-constrainedLinearCoding,LLC)也是基于局部性的思想,得到了“局部的”、“稀疏的”特征表達(dá),在物體分類任務(wù)上取得了很好的結(jié)果.2010年冠軍依舊以詞包模型為基礎(chǔ),并且融合了物體分割與檢測算法.一方面通過多底層特征、向量量化編碼和空間金字塔匹配得到圖像的詞包模型描述,另一方面,通過使用Meanshift、過分割、基于圖的分割等過分割算法,得到Patch級的詞包特征表達(dá).這兩種表達(dá)作為視覺特征表達(dá),與檢測結(jié)果以多核學(xué)習(xí)的方式進(jìn)行融合.在分類器方面,除使用了SVM核回歸外,還提出了基于排他上下文的Lasso預(yù)測算法.所謂排他上下文是指一個(gè)排他標(biāo)簽集合中至多只能出現(xiàn)一種類別.排他標(biāo)簽集合的構(gòu)建使用GraphShift方法,并采用最小重構(gòu)誤差加稀疏約束也即Lasso進(jìn)行預(yù)測.排他上下文作為一種不同于一般共生關(guān)系的上下文,高置信度預(yù)測可以大大抑制同一排他標(biāo)簽集中其他類別的置信度,改善分類性能.2011年冠軍延續(xù)了2010年冠軍的基本框架.來自阿姆斯特丹大學(xué)的隊(duì)伍從最顯著窗口對于物體分類任務(wù)的作用出發(fā),在詞包模型基礎(chǔ)上進(jìn)行了新的探索.他們發(fā)現(xiàn)單獨(dú)包含物體的圖像區(qū)域可以得到比整個(gè)圖像更好的性能,一旦物體位置確定,上下文信息的作用就很小了.在物體存在較大變化的情況下,部件通常比全局更具有判別性,而在擁擠情況下,成群集合通常要比單個(gè)物體更加容易識別.基于此,他們提出了包含物體部件,整個(gè)物體,物體集合的最顯著窗口框架.檢測模型訓(xùn)練使用人工標(biāo)注窗口,預(yù)測使用選擇性搜索定位.詞包模型和最顯著窗口算法融合得到最終的分類結(jié)果.2012年冠軍延續(xù)了2010年以來的算法框架,在詞包模型表達(dá)方面,使用了向量量化編碼、局部約束線性編碼、Fisher向量編碼替代原來的單一向量量化編碼.這里有兩個(gè)比較重要的改進(jìn),一個(gè)是廣義層次化匹配算法.考慮到傳統(tǒng)的空間金字塔匹配算法在物體對齊的假設(shè)下才有意義,而這在實(shí)際任務(wù)中幾乎不能滿足,為解決這個(gè)問題,他們使用Side信息得到物體置信圖,采用層次化的方式對局部特征進(jìn)行匯聚,從而得到更好的特征匹配.另一個(gè)重要的改進(jìn)是子類挖掘算法,其提出的主要目的是改進(jìn)類間模糊與類內(nèi)分散的問題.基本步驟是:(1)計(jì)算樣本類內(nèi)相似度;(2)計(jì)算類間模糊性;(3)使用GraphShift算法來檢測密集子圖;(4)子圖向子類的映射.相比PASCALVOC競賽,ImageNet競賽的圖像數(shù)據(jù)規(guī)模更大,類別數(shù)更多,對傳統(tǒng)的圖像分類、檢測算法都是一個(gè)大的挑戰(zhàn).下面將近年ImageNet競賽的主流算法也做一個(gè)簡要介紹.2010年冠軍由美國NEC研究院和UIUC獲得,其方法基于詞包模型,底層特征采用了密集提取的HOG和LBP特征,特征編碼算法使用了局部坐標(biāo)編碼和超向量編碼,并且采用了空間金字塔匹配.最終圖像的分類采用了基于平均隨機(jī)梯度下降的大尺度SVM.相比PASCAL競賽算法,這里的算法更多采用了在計(jì)算上極為高效的底層特征和編碼算法,分類器及其優(yōu)化也專門針對大規(guī)模數(shù)據(jù)進(jìn)行了設(shè)計(jì),最終獲得了71.8%的Top5分類精度.2011年冠軍是施樂歐洲研究中心,其基本方法仍舊是基于詞包模型,主要改進(jìn)在3個(gè)方面:特征編碼方法采用Fisher向量編碼,可以引入更多的高階統(tǒng)計(jì)信息,得到更具判別性的表達(dá);使用乘積量化(ProductQuantization,PQ)算法進(jìn)行特征壓縮;分類器使用基于隨機(jī)梯度下降的線性支持向量機(jī).2012年加拿大多倫多大學(xué)的Hinton教授及其學(xué)生Krizhevsky利用GPU在ImageNet競賽上獲得了前所未有的成功,他們訓(xùn)練了一個(gè)參數(shù)規(guī)模非常大的卷積神經(jīng)網(wǎng)絡(luò),并通過大量數(shù)據(jù)生成和dropout來抑制模型的過擬合,在大規(guī)模圖像分類任務(wù)上獲得了非常好的效果,取得了第一名的成績,Top5分類精度達(dá)到了84.7%,比第二名使用Fisher向量編碼算法要高大約10個(gè)百分點(diǎn),充分顯示了深度學(xué)習(xí)模型的表達(dá)能力.對比PASCAL競賽,ImageNet競賽中使用的算法更加簡單高效,因而也更加接近實(shí)用.在大規(guī)模圖像識別場景下,傳統(tǒng)圖像識別的很多算法和技術(shù)面臨極大的挑戰(zhàn),包括高計(jì)算強(qiáng)度,高內(nèi)存消耗等,多特征、非線性分類器等這些在PASCAL競賽中廣為使用的算法和策略無法在ImageNet這樣規(guī)模的數(shù)據(jù)庫上高效實(shí)現(xiàn).在性能和效率的權(quán)衡中,逐漸被更為簡單高效的算法(單特征、特征壓縮、線性分類器等)替代.大數(shù)據(jù)時(shí)代的來臨,更激發(fā)了數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型的發(fā)展,實(shí)現(xiàn)了更高效的特征提取與圖像分類,將圖像分類的發(fā)展推向一個(gè)新的高度.4.3物理化物理分類方法在裝置PASCALVOC競賽從2005年第一屆開始就引入了物體檢測任務(wù)競賽,主要任務(wù)是給定測試圖片預(yù)測其中包含的物體類別與外接矩形框.物體檢測任務(wù)與物體分類任務(wù)最重要的不同在于,物體結(jié)構(gòu)信息在物體檢測中起著至關(guān)重要的作用,而物體分類則更多考慮的是物體或者圖像的全局表達(dá).物體檢測的輸入是包含物體的窗口,而物體分類則是整個(gè)圖像,就給定窗口而言,物體分類和物體檢測在特征提取、特征編碼、分類器設(shè)計(jì)方面很大程度是相通的,如表3所示.根據(jù)獲得窗口位置策略的不同,物體檢測方法大致可分為滑動(dòng)窗口和廣義霍夫投票兩類方法.滑動(dòng)窗口方法比較簡單,它是通過使用訓(xùn)練好的模板在輸入圖像的多個(gè)尺度上進(jìn)行滑動(dòng)掃描,通過確定最大響應(yīng)位置找到目標(biāo)物體的外接窗口.廣義霍夫投票方法則是通過在參數(shù)空間進(jìn)行累加,根據(jù)局部極值獲得物體位置的方法,可以用于任意形狀的檢測和一般物體檢測任務(wù).滑動(dòng)窗口方法由于其簡單和有效性,在歷年的PASCALVOC競賽中得到了廣泛的使用.特別是HOG(HistogramsofOrientedGradients)模型、形變部件模型的出現(xiàn)和發(fā)展,使得滑動(dòng)窗口模型成為主流物體檢測方法.與物體分類問題不同,物體檢測問題從數(shù)學(xué)上是研究輸入圖像X與輸出物體窗口Y之間的關(guān)系,這里Y的取值不再是一個(gè)實(shí)數(shù),而是一組“結(jié)構(gòu)化”的數(shù)據(jù),指定了物體的外接窗口和類別,是一個(gè)典型的結(jié)構(gòu)化學(xué)習(xí)問題.結(jié)構(gòu)化支持向量機(jī)(StructrualSVM,SSVM)基于最大化邊緣準(zhǔn)則,將普通支持向量機(jī)推廣到能夠處理結(jié)構(gòu)化輸出,有效擴(kuò)展了支持向量機(jī)的應(yīng)用范圍,可以處理語法樹、圖等更一般的數(shù)據(jù)結(jié)構(gòu),在自然語言處理、機(jī)器學(xué)習(xí)、模式識別、計(jì)算機(jī)視覺等領(lǐng)域受到越來越多的關(guān)注.隱變量支持向量機(jī)(LatentSVM,LSVM)是Felzenszwalb等人在2007年提出的用于處理物體檢測問題,其基本思想是將物體位置作為隱變量放入支持向量機(jī)的目標(biāo)函數(shù)中進(jìn)行優(yōu)化,以判別式方法得到最優(yōu)的物體位置.弱標(biāo)簽結(jié)構(gòu)化支持向量機(jī)(Weak-LabelStructrualSVM,WL-SSVM)是一種更加一般的結(jié)構(gòu)化學(xué)習(xí)框架,它的提出主要是為了處理標(biāo)簽空間和輸出空間不一致的問題,對于多個(gè)輸出符合一個(gè)標(biāo)簽的情況,每個(gè)樣本標(biāo)簽都被認(rèn)為是“弱標(biāo)簽”.SSVM和LSVM都可以看做是WL-SSVM的特例,WL-SSVM通過一定的約簡可以轉(zhuǎn)化為一般的SSVM和LSVM.條件隨機(jī)場(ConditionalRandomField,CRF)作為經(jīng)典的結(jié)構(gòu)化學(xué)習(xí)算法,在物體檢測任務(wù)上也得到一定的關(guān)注.Schnitzspan等人將形變部件模型與結(jié)構(gòu)化學(xué)習(xí)結(jié)合,提出了一種隱條件隨機(jī)場模型(latentCRFs),通過將物體部件標(biāo)簽建模為隱藏節(jié)點(diǎn)并且采用EM算法來進(jìn)行學(xué)習(xí),該算法突破了傳統(tǒng)CRF需手動(dòng)給定拓?fù)浣Y(jié)構(gòu)的缺點(diǎn),能夠自動(dòng)學(xué)習(xí)到更為靈活的結(jié)構(gòu),自動(dòng)發(fā)掘視覺語義上有意義的部件表達(dá).張俊格提出了基于數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)結(jié)構(gòu)建模與學(xué)習(xí)來從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)最為合適的拓?fù)浣Y(jié)構(gòu).由于一般化的結(jié)構(gòu)學(xué)習(xí)是一個(gè)NP難問題,張俊格提出了混合結(jié)構(gòu)學(xué)習(xí)方案,將結(jié)構(gòu)約束分成一個(gè)弱結(jié)構(gòu)項(xiàng)和強(qiáng)結(jié)構(gòu)項(xiàng).弱結(jié)構(gòu)項(xiàng)由傳統(tǒng)的樹狀結(jié)構(gòu)模型得到,而強(qiáng)結(jié)構(gòu)項(xiàng)則主要依靠條件隨機(jī)場以數(shù)據(jù)驅(qū)動(dòng)方式自動(dòng)學(xué)習(xí)得到.下面我們將以歷年P(guān)ASCALVOC物體檢測競賽來探討物體檢測方法的演變與發(fā)展.2005年物體檢測競賽有5支隊(duì)伍參加,采用的方法呈現(xiàn)多樣化,Darmstadt使用了廣義霍夫變換,通過興趣點(diǎn)檢測和直方圖特征描述方式進(jìn)行特征表達(dá),并通過廣義Hough投票來推斷物體尺度與位置,該方法在他們參加的幾類中都得到了最好的性能.INRIA的Dalal則采用了滑動(dòng)窗口模型,底層特征使用了基于SIFT的描述,分類器使用支持向量機(jī),通過采用在位置和尺度空間進(jìn)行窮盡搜索,來確定物體在圖像中的尺度和位置,該方法在汽車類別上取得了比廣義Hough變換更好的性能,但在人、自行車等非剛體類別上性能并不好.2006年最佳物體檢測算法是Dalal和Triggs提出的HOG(HistogramsofOrientedGradients)模型.他們的工作主要集中于魯棒圖像特征描述研究,提出了物體檢測領(lǐng)域中具有重要位置的HOG特征.HOG是梯度方向直方圖特征,通過將圖像劃分成小的Cell,在每個(gè)Cell內(nèi)部進(jìn)行梯度方向統(tǒng)計(jì)得到直方圖描述.與SIFT特征相比,HOG特征不具有尺度不變性,但計(jì)算速度要快得多.整體檢測框架依然是滑動(dòng)窗口策略為基礎(chǔ),并且使用線性分類器進(jìn)行分類.這個(gè)模型本質(zhì)上是一個(gè)全局剛性模板模型,需要對整個(gè)物體進(jìn)行全局匹配,對物體形變不能很好地匹配處理.2007年Felzenszwalb等人提出了物體檢測領(lǐng)域里程碑式的工作:形變部件模型(DeformablePart-basedModel),并以此取得了2007年P(guān)ASCALVOC物體檢測競賽的冠軍.底層特征采用了Dalal和Triggs提出的HOG特征,但與Dalal等人的全局剛體模板模型不同的是,形變部件模型由一個(gè)根模型和若干可形變部件組成.另一個(gè)重要的改進(jìn)是提出了隱支持向量機(jī)模型,通過隱變量來建模物體部件的空間配置,并使用判別式方法進(jìn)行訓(xùn)練優(yōu)化.形變部件模型奠定了當(dāng)今物體檢測算法研究的基礎(chǔ),也成為后續(xù)PASCALVOC競賽物體檢測任務(wù)的基礎(chǔ)框架.2008年物體檢測冠軍同樣采用了滑動(dòng)窗口方式.特征表達(dá)利用了HOG特征和基于密集提取SIFT的詞包模型表達(dá).訓(xùn)練過程對前、后、左、右分別訓(xùn)練獨(dú)立的模型,并使用線性分類器和卡方核SVM進(jìn)行分類.測試過程采用了兩階段算法,第一階段通過滑動(dòng)窗口方式利用分類器得到大量可能出現(xiàn)物體的位置,第二階段基于HOG和SIFT特征對前面一階段得到的檢測進(jìn)行打分,最后使用非極大抑制算法去除錯(cuò)誤檢測窗口,并融合分類結(jié)果得到最終檢測結(jié)果.這里分類信息可以看成是一種上下文信息,這個(gè)也是物體檢測研究的一個(gè)重要內(nèi)容.2009年除了形變部件模型以外,牛津大學(xué)視覺幾何研究組在滑動(dòng)窗口框架下,基于多核學(xué)習(xí)將灰度PHOW、顏色PHOW、PHOC、對稱PHOG、SSIM、視覺詞典等多種特征進(jìn)行融合,取得了與形變部件模型相近的效果,獲得共同檢測冠軍.多核學(xué)習(xí)是進(jìn)行多特征、多模型融合的重要策略,可以自動(dòng)學(xué)習(xí)多個(gè)核矩陣的權(quán)重,從而得到最佳的模型融合效果.考慮到滑動(dòng)窗口搜索的效率問題,提出了類似級聯(lián)Adaboost方式的多級分類器結(jié)構(gòu).第一級分類器采用線性SVM分類器以滑動(dòng)窗口或者跳躍窗口方式快速對圖像窗口進(jìn)行粗分類;第二級采用擬線性SVM,利用卡方核進(jìn)行進(jìn)一步細(xì)分類;第三級采用更強(qiáng)的非線性卡方-RBF分類器,這一步準(zhǔn)確度更高但比前面步驟計(jì)算代價(jià)更大,由于前面兩級已經(jīng)快速濾除大部分備選窗口,這一級可以專注于更難的樣本分類.2010年中國科學(xué)院自動(dòng)化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室獲得了物體檢測冠軍,其方法是以形變部件模型為基礎(chǔ),對底層HOG特征進(jìn)行了改進(jìn),提出了BoostedHOG-LBP特征,利用GentleBoost選擇出一部分LBP特征與HOG特征融合,使物體檢測結(jié)果有了顯著提升.另一個(gè)重要改進(jìn)是采用了多種形狀上下文,包括空間上下文、全局上下文、類間上下文.空間上下文由包含了窗口位置尺度信息的6維向量構(gòu)成,全局上下文包括20維的物體分類分?jǐn)?shù)和20維的最大窗口分?jǐn)?shù),其中分類方法采用了Huang等人提出的顯著性編碼、詞典關(guān)系算法計(jì)算詞包模型表達(dá).類間上下文用于建模相鄰物體之間的弱空間關(guān)系,分別由20維的窗口附近最強(qiáng)的HOG特征分?jǐn)?shù)和LBP特征分?jǐn)?shù)構(gòu)成.最終得到87維的特征,使用RBFSVM進(jìn)行上下文學(xué)習(xí).該方法在VOC2010數(shù)據(jù)庫上取得了6項(xiàng)第一,5項(xiàng)第二,平均精度達(dá)到了36.8%.2011年物體檢測冠軍依然是中國科學(xué)院自動(dòng)化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室,算法上與2010年不同之處是針對形變部件模型提出了一種數(shù)據(jù)分解算法,并引入了空間混合建模和上下文學(xué)習(xí).2012年阿姆斯特丹大學(xué)獲得物體檢測冠軍,其方法主要?jiǎng)?chuàng)新在于選擇性搜索、混合特征編碼、新的顏色描述子、再訓(xùn)練過程.圖像中物體本身構(gòu)成一種層次結(jié)構(gòu),通常很難在一個(gè)尺度上檢測所有物體,因而對圖像塊進(jìn)行層次化組織,在每個(gè)層次上進(jìn)行選擇搜索,可以有效提升檢測的召回率.考慮到經(jīng)典的向量量化編碼使用小的特征空間分塊能夠捕獲更多圖像細(xì)節(jié),而丟失了分塊內(nèi)部的細(xì)節(jié),而超向量編碼和Fisher向量量化編碼等差異編碼方法則可以很好的描述分塊內(nèi)部細(xì)節(jié),更大空間分塊可以描述更大范圍的圖像細(xì)節(jié),綜合這兩種編碼模式,提出了混合特征編碼算法,將兩種編碼的優(yōu)點(diǎn)融合到一起.5變化的質(zhì)量檢測算法物體分類與檢測的研究在以PASCALVOC競賽為平臺的理論和算法研究上已經(jīng)取得了一系列的進(jìn)展,分類模型建立了以詞包模型和深度學(xué)習(xí)模型為基礎(chǔ)的體系框架,檢測模型則以可形變模型為核心發(fā)展出多種方法.在分析目前物體分類和檢測算法的基礎(chǔ)上,本文接下來對物體分類和檢測算法的統(tǒng)一性和差異性進(jìn)行了討論,并探討了物體分類與檢測算法發(fā)展的方向.5.1物體檢測和物體分類的統(tǒng)一(1)質(zhì)量檢測出現(xiàn)的錯(cuò)誤物體檢測的任務(wù)是解決物體所在的位置問題,物體分類的任務(wù)是判斷物體的種類,從直觀上而言,物體檢測的隱含信息包括了物體的類別信息,也就是需要事先知道需要定位的物體的類別信息,比如需要檢測人,那么就需要先驗(yàn)的給出人的標(biāo)注信息,以此來判斷人的位置,從這個(gè)角度而言,物體檢測似乎包括了物體分類的步驟,也就是物體檢測就能夠回答“什么物體在什么地方”,但這里有一個(gè)誤區(qū),其中的“什么物體”是先驗(yàn)給出的,也就是在訓(xùn)練過程中標(biāo)注出的,并不一定是真實(shí)的結(jié)果.在模型區(qū)分性比較強(qiáng)的情況下,也就是物體檢測能給出準(zhǔn)確的結(jié)果的情況下,物體檢測在一定程度上可以回答“什么物體在什么地方”,但在真實(shí)的世界中,很多情況下模版不能唯一的反映出物體類別的唯一性,只能給出“可能有什么物體在什么地方”,此時(shí)物體分類的介入就很有必要了.由此可見,物體檢測是不能替代物體分類的.(2)物理性能檢測和分類的準(zhǔn)確性以PASCALVOC競賽為例,從模型的角度而言,物體檢測主要采用的是可變的部件模型,更多的關(guān)注局部特征,物體分類中主要的模型是詞包模型,從兩者的處理流程來看,他們利用的信息是不同的,物體檢測更多的是利用了物體自身的信息,也就是局部信息,物體分類更多的是利用了圖像的信息,也就是全局的信息.他們各有優(yōu)劣,局部信息考慮了更多的物體結(jié)構(gòu)信息,這使得物體檢測和分類的準(zhǔn)確性更高,但同時(shí)也帶來物體分類的魯棒性不強(qiáng)的問題;全局信息考慮了更多的是圖像的全局統(tǒng)計(jì)信息,尤其是圖像的語義信息,這使得能考慮更多的信息來進(jìn)行判斷,但信息量的增加可能帶來準(zhǔn)確度的提高,也可能由于冗余降低分類的性能,但是從統(tǒng)計(jì)意義而言,其魯棒性是能夠得到一定的提高的.由此可見,物體檢測和物體分類之間存在著較大的差異性,同時(shí)也就說明存在著比較大的互補(bǔ)性.5.2結(jié)構(gòu)的分化表達(dá)物體分類任務(wù)要確定圖像中是否包含物體,全局表達(dá)更關(guān)鍵;物體檢測任務(wù)則要確定圖像中物體的位置和尺度,物體結(jié)構(gòu)更為關(guān)鍵.因此,物體分類檢測的研究也主要有兩種思路:(1)專注于學(xué)習(xí)結(jié)構(gòu),即結(jié)構(gòu)化學(xué)習(xí).觀察變量與其他變量構(gòu)成結(jié)構(gòu)化的圖模型,通過學(xué)習(xí)得到各個(gè)變量之間的關(guān)系,結(jié)構(gòu)包括有向圖模型(貝葉斯網(wǎng)絡(luò))、無向圖模型(馬爾科夫網(wǎng)絡(luò)).結(jié)構(gòu)化學(xué)習(xí)通常變量具有顯式的物理意義,變量之間的連接也具有較強(qiáng)的因果關(guān)系,解釋性較好.(2)專注于學(xué)習(xí)層次化表達(dá),即深度學(xué)習(xí).深度學(xué)習(xí)從人腦的層次化視覺處理和函數(shù)表達(dá)理論出發(fā),采用層次化特征表達(dá)的思想來進(jìn)行特征從底層到高層語義的提取.深度學(xué)習(xí)專注于表達(dá)的學(xué)習(xí),也即更注重一個(gè)輸入得到的相應(yīng)輸出,對中間的特征變換缺少自然的解釋,更像一個(gè)黑盒系統(tǒng).兩條思路各有側(cè)重,但并不是互相獨(dú)立的.在這兩條發(fā)展線路的基礎(chǔ)上,建立更為統(tǒng)一的物體識別框架,同時(shí)處理物體分類與檢測任務(wù),是一個(gè)更加值得研究的方向.如何利用物體檢測和物體分類之間的互補(bǔ)性去構(gòu)建統(tǒng)一的物體識別框架是計(jì)算機(jī)視覺和視覺認(rèn)知領(lǐng)域的研究熱點(diǎn),也是視覺認(rèn)知計(jì)算模型研究的重點(diǎn)之一.5.3模型優(yōu)化問題(1)模型表達(dá)問題.對于一個(gè)特定問題,選擇什么樣的模型,如有向圖模型、無向圖模型,模型如何進(jìn)行參數(shù)化,都是值得研究的.(2)模型學(xué)習(xí)問題.在給定模型表達(dá)后,如何從給定數(shù)據(jù)中學(xué)習(xí)模型的參數(shù),是結(jié)構(gòu)化學(xué)習(xí)中的一個(gè)核心問題.目前通常有基于概率的學(xué)習(xí)方法,如最大似然估計(jì)、最大后驗(yàn)估計(jì)等,也有基于最小化損失函數(shù)的方法.不同的方法,在學(xué)習(xí)的效率,準(zhǔn)確性上都具有差異,研究快速有效的學(xué)習(xí)算法,具有特別重要的價(jià)值.(3)模型推斷問題.給定學(xué)習(xí)好的模型,進(jìn)行快速、準(zhǔn)確的模型推斷是至關(guān)重要的.目前經(jīng)典的方法包括消息傳播算法、變分推斷算法、采樣算法等.不同方法在速度、準(zhǔn)確度上各有差異.研究大規(guī)模圖模型,實(shí)現(xiàn)人類視覺系統(tǒng)快速識別人臉那樣的快速準(zhǔn)確推斷,是一個(gè)重要研究方向.5.4顯式結(jié)構(gòu)先驗(yàn)是深度學(xué)習(xí)的重要基礎(chǔ)在大數(shù)據(jù)時(shí)代,海量的圖像、視頻數(shù)據(jù)絕大多數(shù)是沒有標(biāo)簽的,大量進(jìn)行標(biāo)注也是不現(xiàn)實(shí)的.從大量的沒有標(biāo)簽的圖像數(shù)據(jù)中自動(dòng)挖掘知識,無疑有著重要的意義.GoogleBrain計(jì)劃也驗(yàn)證了數(shù)據(jù)驅(qū)動(dòng)的自主學(xué)習(xí)的可行性與有效性.但目前深度學(xué)習(xí)還存在一些難點(diǎn)和挑戰(zhàn).(1)解釋性差.層次化表達(dá)在視覺皮層理論和函數(shù)論等方面具有其理論依據(jù),然而,在實(shí)際應(yīng)用中,學(xué)習(xí)到的模型通常沒有很好的解釋性.第一層網(wǎng)絡(luò)可以通過可視化的方式進(jìn)行直接查看,在大多數(shù)視覺數(shù)據(jù)中,第一層學(xué)習(xí)到的是類似Gabor的濾波器,可以實(shí)現(xiàn)基本的邊緣檢測.然而,對于更高層的特征,通常很難直觀的查看其學(xué)習(xí)到的是什么.研究有效的高層特征解釋方式,無疑對于深度學(xué)習(xí)的發(fā)展具有非常重要的意義.(2)模型復(fù)雜度高,優(yōu)化困難.神經(jīng)網(wǎng)絡(luò)的容量沒有上限,表達(dá)能力非常強(qiáng),這是它的一個(gè)重要的優(yōu)點(diǎn).另一方面也對模型的優(yōu)化造成了非常大的困難.網(wǎng)絡(luò)越復(fù)雜,模型的能量面越高低不平,到處是極小點(diǎn).研究模型初始化方式、優(yōu)化算法,提高神經(jīng)網(wǎng)絡(luò)的判別能力,是深度學(xué)習(xí)的一個(gè)重要研究內(nèi)容.(3)計(jì)算強(qiáng)度高.目前雖然每層是高度并行化的前饋網(wǎng)絡(luò),但是計(jì)算強(qiáng)度還是比較高,需要采用GPU等硬件來完成.對于一個(gè)刺激信號,人腦中絕大多數(shù)細(xì)胞是處于不活動(dòng)狀態(tài),只有相關(guān)的細(xì)胞才會(huì)有活動(dòng),這是一種非常經(jīng)濟(jì)的響應(yīng)形式.而對于深度學(xué)習(xí),輸入一個(gè)視覺信號,所有的神經(jīng)元都會(huì)進(jìn)行計(jì)算,人為加的一些稀疏約束只是會(huì)使某些神經(jīng)元輸出為0,但不代表該神經(jīng)元“處于不活動(dòng)”狀態(tài).這方面是將來建立龐大學(xué)習(xí)網(wǎng)絡(luò)時(shí)實(shí)現(xiàn)實(shí)時(shí)推理的一個(gè)可行思路.(4)模型缺少結(jié)構(gòu)約束.深度學(xué)習(xí)模型通常只對網(wǎng)絡(luò)的“輸入-輸出”進(jìn)行建模,卻缺少必要的結(jié)構(gòu)先驗(yàn)的約束.例如,對人臉關(guān)鍵點(diǎn)可以采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸,網(wǎng)絡(luò)學(xué)習(xí)到的是一種隱式的“輸入-輸出”結(jié)構(gòu),卻完全沒有加入顯式的結(jié)構(gòu)先驗(yàn),包括預(yù)測輸出的位置點(diǎn)處的表觀特征.這個(gè)問題的直接后果就是單個(gè)網(wǎng)絡(luò)盡管可以做到任意的復(fù)雜度,卻無法得到很高的精度,很多檢測錯(cuò)誤看起來是非常簡單的:本來應(yīng)該落在具有明顯特征的嘴角處,卻落在了嘴角旁邊的臉部區(qū)域.為了克服這個(gè)問題,就需要采用從粗到細(xì),從全局到局部的策略,級聯(lián)多個(gè)網(wǎng)絡(luò)來不斷糾正網(wǎng)絡(luò)預(yù)測.在大數(shù)據(jù)時(shí)代,海量視頻數(shù)據(jù)所帶來的紛繁復(fù)雜的易變性(variability)將給傳統(tǒng)的特征學(xué)習(xí)方法帶來巨大挑戰(zhàn).而深度學(xué)習(xí)模型天然的強(qiáng)大數(shù)據(jù)表達(dá)能力,無疑將會(huì)對大數(shù)據(jù)背景下的整個(gè)視覺的研究產(chǎn)生極大的影響,也必然會(huì)將圖像物體檢測、分類的研究推向新的高度.當(dāng)然,目前深度學(xué)習(xí)模型還存在著解釋性差、模型復(fù)雜度高,優(yōu)化困難、計(jì)算強(qiáng)度高等諸多問題,這些都需要研究者們進(jìn)一步的思考.例如,將顯式結(jié)構(gòu)先驗(yàn)嵌入深度學(xué)習(xí)模型中,可以有效降低網(wǎng)絡(luò)參數(shù)空間的規(guī)模,減少局部極值的問題,從而可以更加有效地解決檢測、分割等任務(wù).6圖像質(zhì)量的統(tǒng)一與融合物體分類與檢測在計(jì)算機(jī)視覺研究中具有重要的理論意義和實(shí)際應(yīng)用價(jià)值,同時(shí)目前也存在諸多困難與挑戰(zhàn).本文以計(jì)算機(jī)視覺物體識別算法競賽PASCALVOC為主線,對物體分類與檢測歷年最佳算法的發(fā)展進(jìn)行了詳盡的闡述,強(qiáng)調(diào)了表達(dá)學(xué)習(xí)和結(jié)構(gòu)學(xué)習(xí)分別在物體分類和物體檢測中的重要意義.以此為基礎(chǔ),本文還討論了物體分類與檢測的統(tǒng)一性與差異性,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論