紋理圖像的特征提取和識別

上傳人：新華出版社 IP屬地：四川上傳時間：2023-12-15 格式：PDF 頁數(shù)：210 大?。?4.03MB 積分：34.5 舉報 版權(quán)申訴

已閱讀5頁，還剩205頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

平頂山學(xué)院博士科研啟動基金項目（PXY-BSQD-202004）

河南省科技廳科技攻關(guān)項目（202102210331，192102210108，202102210145）

國家自然科學(xué)基金項目（61702462）

平頂山學(xué)院中青年骨干教師資助項目

紋理圖像的特征提取和識別

王軍敏?著

新華出版社

圖書在版編目（CIP）數(shù)據(jù)

紋理圖像的特征提取和識別/王軍敏著.

北京:新華出版社,2022.4

ISBN978-7-5166-6251-9

Ⅰ.①紋…Ⅱ.①王…Ⅲ.①數(shù)字圖像處理Ⅳ.

①TN911.73

中國版本圖書館CIP數(shù)據(jù)核字(2022)第063661號

紋理圖像的特征提取和識別

作??者：王軍敏

責(zé)任編輯：唐波勇封面設(shè)計：優(yōu)盛文化

出版發(fā)行：新華出版社

地??址：北京石景山區(qū)京原路8號郵??編：100040

網(wǎng)??址：

經(jīng)??銷：新華書店、新華出版社天貓旗艦店、京東旗艦店及各大網(wǎng)店

購書熱線國新聞書店購書熱線/p>

照??排：優(yōu)盛文化

印??刷：石家莊匯展印刷有限公司

成品尺寸：170mm×240mm

印??張：13.25字??數(shù)：228千字

版??次：2022年4月第一版印??次：2022年4月第一次印刷

書??號：ISBN978-7-5166-6251-9

定??價：69.00元

版權(quán)專有，侵權(quán)必究。

前?言

紋理圖像在自然界和人類生活中無處不在，例如，草地、水紋、沙漠、

魚鱗、動物身上的花紋、織物和器物表面的花紋等都含有豐富的紋理特征，

這些紋理特征能夠描述目標(biāo)或場景的表面屬性，是人類認(rèn)知世界的一種非常

重要的視覺特征，使得紋理圖像特征提取和識別技術(shù)在生物特征識別、圖像

檢索、圖像分割、工業(yè)產(chǎn)品的瑕疵檢測、醫(yī)學(xué)圖像分析、材料分類、目標(biāo)檢

測與跟蹤、遙感圖像分析、視頻監(jiān)控等領(lǐng)域獲得了廣泛的應(yīng)用，因此，對紋

理圖像的特征提取和識別技術(shù)進(jìn)行研究具有重要的應(yīng)用價值。

由于紋理圖像中所蘊(yùn)含的紋理模式具有極大的多樣性和復(fù)雜性，這使

得紋理圖像的特征提取和識別成為一項極具挑戰(zhàn)性的任務(wù)。雖然在過去幾十

年紋理圖像的特征提取和識別技術(shù)獲得了很大的發(fā)展，但目前仍存在一些不

足之處有待解決。例如：1.過度強(qiáng)調(diào)紋理識別精度的提升，導(dǎo)致算法的實時

性不足；2.對紋理圖像所含信息的挖掘不充分，導(dǎo)致特征描述子的鑒別能力

不足；3.對光照條件、圖像旋轉(zhuǎn)、尺度變化和訓(xùn)練樣本個數(shù)等因素的綜合穩(wěn)

健性不足；4.對顏色信息的有效利用不足；5.在工程領(lǐng)域的應(yīng)用范圍和應(yīng)用

深度不足。因此，本書針對上述幾個方面的問題開展研究，提出了一些新的

或改進(jìn)的紋理圖像識別方法。

近年來，隨著紋理圖像識別技術(shù)的發(fā)展，更復(fù)雜、更具挑戰(zhàn)性的紋理

圖像識別任務(wù)被提上日程，以前所采用的特征提取和識別方法已經(jīng)遇到了

明顯的瓶頸，在這種情況下，具有特征自主學(xué)習(xí)能力的深度學(xué)習(xí)方法開始在

紋理圖像特征提取和識別領(lǐng)域受到關(guān)注，為人類深入理解和識別紋理圖像開

辟了一個嶄新的研究方向，因此，本書也對基于深度學(xué)習(xí)的方法進(jìn)行研究，

解決了將深度學(xué)習(xí)方法應(yīng)用于紋理圖像特征提取和識別任務(wù)時的一些瓶頸

問題。

本書各章的主要內(nèi)容如下：第1章介紹本書研究工作的背景和意義，回

顧紋理圖像特征提取和識別方法的發(fā)展歷程和研究現(xiàn)狀，介紹了目前一些主

流的紋理圖像特征提取和識別方法及其存在的不足之處，并展示了紋理圖像

特征提取和識別技術(shù)在諸多場景中的重要應(yīng)用；第2章提出一種基于局部特

征描述和紋理基元學(xué)習(xí)的紋理圖像特征提取和識別方法；第3章提出一種金

字塔空間中全局和局部編碼Gabor特征融合的紋理圖像特征提取和識別方法；

第4章研究基于改進(jìn)CLBP算法的紋理圖像特征提取和識別方法；第5章研

究彩色紋理圖像的特征提取和識別方法，介紹了顏色信息在彩色紋理圖像識

別中的作用和應(yīng)用條件，然后研究顏色信息和紋理信息的分布特征和提取方

法；第6章研究基于深度CNN和遷移學(xué)習(xí)的紋理圖像特征提取和識別方法，

一方面解決傳統(tǒng)方法只能提取淺層紋理特征的不足，另一方面解決將深度學(xué)

習(xí)方法應(yīng)用于紋理圖像識別領(lǐng)域時所遇到的諸如訓(xùn)練樣本數(shù)量不足、對訓(xùn)練

平臺的計算性能要求高、訓(xùn)練時間長等一些瓶頸問題；第7章研究紋理圖像

特征提取和識別方法在現(xiàn)實場景中的應(yīng)用，結(jié)合不同應(yīng)用領(lǐng)域的特點，將本

書提出的紋理圖像特征提取和識別方法分別應(yīng)用于樹皮（木材）分類、圖像

檢索和紙幣鑒別等現(xiàn)實場景中的紋理圖像識別任務(wù)；第8章對本書的工作進(jìn)

行總結(jié)，并對紋理圖像特征提取和識別領(lǐng)域?qū)硇枰M(jìn)一步開展的研究工作

和發(fā)展方向進(jìn)行展望。

感謝西北工業(yè)大學(xué)樊養(yǎng)余教授的指導(dǎo)！感謝河南省科技廳科技攻關(guān)

項目（編號：202102210331），平頂山學(xué)院博士科研啟動基金項目（編號：

PXY-BSQD-202004）、平頂山學(xué)院中青年骨干教師項目和溫州質(zhì)檢院為本

書相關(guān)研究提供的支持。

由于作者水平有限，書中不妥之處在所難免，歡迎讀者批評指正。

王軍敏

2020年10月10日

目?錄

1?緒論?/?001

1.1?研究背景及意義?/?001

1.2?研究現(xiàn)狀以及存在的問題?/?007

1.3?本書的主要內(nèi)容與結(jié)構(gòu)安排?/?019

2?基于局部特征描述和紋理基元學(xué)習(xí)的方法?/?023

2.1?引言?/?023

2.2?現(xiàn)有的紋理基元學(xué)習(xí)方法?/?024

2.3?本章方法描述?/?029

2.4?實驗與結(jié)果分析?/?040

2.5?本章小結(jié)?/?048

3?全局和局部編碼Gabor特征融合的方法?/?050

3.1?引言?/?050

3.2?Gabor濾波方法簡介?/?050

3.3?本章方法描述?/?052

3.4?實驗與結(jié)果分析?/?061

3.5?本章小結(jié)?/?071

4?光照、旋轉(zhuǎn)和尺度穩(wěn)健的改進(jìn)CLBP方法?/?073

4.1?引言?/?073

4.2?傳統(tǒng)CLBP算法簡介?/?075

4.3?本章方法描述?/?076

4.4?實驗與結(jié)果分析?/?088

4.5?本章小結(jié)?/?100

5?彩色紋理圖像的特征提取和識別方法?/?103

5.1?引言?/?103

5.2?顏色信息的作用和應(yīng)用條件?/?103

5.3?彩色紋理圖像的特征提取方法研究?/?106

5.4?實驗與結(jié)果分析?/?108

5.5?本章小結(jié)?/?117

6?基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法?/?120

6.1?引言?/?120

6.2?CNN的基本原理?/?121

6.3?遷移學(xué)習(xí)及其可行性分析?/?135

6.4?基于VGG-16模型和遷移學(xué)習(xí)的紋理圖像識別?/?138

6.5?基于MobileNet模型和遷移學(xué)習(xí)的紋理圖像識別?/?149

7?紋理圖像特征提取和識別方法的應(yīng)用?/?163

7.1?引言?/?163

7.2?紋理圖像特征提取和識別方法的應(yīng)用1：樹皮分類?/?163

7.3?紋理圖像特征提取和識別方法的應(yīng)用2：圖像檢索?/?170

7.4?紋理圖像特征提取和識別方法的應(yīng)用3：紙幣鑒別?/?178

7.5?本章小結(jié)?/?186

8?總結(jié)與展望?/?187

8.1?總結(jié)?/?187

8.2?未來研究展望?/?189

參考文獻(xiàn)?/?191

縮略語

英文縮寫英文名稱中文釋義

BoVWBagofVisualWords視覺詞袋

CBIRContentbasedImageRetrieval基于內(nèi)容的圖像檢索

CDHColorDifferenceHistogram顏色差分直方圖

CLBCCompletedLocalBinaryCount完備的局部二值計數(shù)

CLBPCompletedLocalBinaryPattern完備的局部二值模式

CNNConvolutionalNeuralNetwork卷積神經(jīng)網(wǎng)絡(luò)

DDT-CLBPDominantDirectionTunedCompleted主導(dǎo)方向調(diào)諧的完備局部

LocalBinaryPattern二值模式

DRLBPDominantRotatedLocalBinaryPatterns主導(dǎo)旋轉(zhuǎn)局部二值模式

ECDExtendedCanberraDistance擴(kuò)展的Canberra距離

ELBPExtendedLocalBinaryPattern擴(kuò)展的局部二值模式

FVFisherVectorFisher向量

GLCMGrayLevelCo-occurrenceMatrix灰度共生矩陣

LBPLocalBinaryPattern局部二值模式

LDMCLocalDifferenceMagnitudeCount局部差分幅值計數(shù)

LDSCLocalDifferenceSignCount局部差分符號計數(shù)

LEPLocalEnergyPattern局部能量模式

LGWBPLocalGaborWaveletsBinaryPatterns局部Gabor小波二值模式

MRELBPMedianRobustExtendedLocalBinary中值穩(wěn)健的擴(kuò)展局部二值

Pattern模式

MRFMarkovRandomField馬爾可夫隨機(jī)場

MSDMicro-structureDescriptor微結(jié)構(gòu)描述子

MTHMulti-textonHistogram多個紋理基元的直方圖

NSCNearestSubspaceClassifier最近子空間分類器

PCAPrincipalComponentAnalysis主成分分析

PRICoLBPPairwiseRotationInvariant成對旋轉(zhuǎn)不變共生局部二

Co-occurrenceLocalBinaryPattern值模式

SSLBPScaleSelectiveLocalBinaryPattern尺度選擇的局部二值模式

SVMSupportVectorMachine支持向量機(jī)

T-CNNTextureConvolutionalNeuralNetwork紋理卷積神經(jīng)網(wǎng)絡(luò)

TEISFTextonEncodingInducedStatistical紋理基元編碼生成的統(tǒng)計

Features特征

1?緒論

1.1?研究背景及意義

紋理圖像在自然界和人類生活中無處不在，紋理圖像中含有豐富的紋

理模式特征，這些紋理模式特征能夠表達(dá)物體表面或結(jié)構(gòu)的基本屬性，是人

類認(rèn)識世界的一種非常重要的視覺特征[1]，因此對紋理圖像的識別也成為人

類視覺系統(tǒng)感知世界的一種重要手段。在對紋理圖像進(jìn)行理解和識別時，紋

理圖像的特征提取是其核心內(nèi)容，因此對紋理圖像的特征提取和識別方法進(jìn)

行研究具有重要的理論和應(yīng)用價值。

在現(xiàn)實世界中，常見的紋理圖像主要有自然紋理、人工紋理和混合

紋理。

（1）自然紋理。自然紋理是自然界中自然存在的物體表面屬性，主要

由物體的自身性質(zhì)和自然條件決定，沒有經(jīng)過人類的加工設(shè)計。例如，天

空、草地、山巒、樹皮、樹木的年輪、水紋、沙漠、果皮、蜂巢、動物身上

的花紋、魚鱗的紋理模式都屬于自然紋理。圖1-1展示了一些自然紋理圖像

的樣本，從中可以看出，自然紋理圖像的基本組成元素形狀多樣，多數(shù)呈不

規(guī)則狀，并且分布的隨機(jī)性較大。

001

紋理圖像的特征提取和識別

(a)水果(b)樹葉(c)沙漠(d)草地

(e)蜂巢(f)樹皮(g)斑馬(h)豹子

圖1-1?自然紋理圖像示例

（2）人工紋理。人工紋理是人類為了美觀和堅固等目的而手工設(shè)計的、

存在于物體表面的紋理模式。例如，織物（衣服、窗簾、地毯、降落傘和熱

氣球等）、磚墻、器物表面的花紋，棋盤格、面包切片、餅干圖案的紋理模

式都屬于人工紋理。圖1-2展示了一些人工紋理圖像的樣本，從中可以看

出，人工紋理圖像的主要特點是紋理的基本組成元素形狀較規(guī)則，分布的規(guī)

律性也較強(qiáng)。

(a)織席(b)磚墻(c)衣服(d)建筑

(e)瓷器花紋(f)熱氣球(g)窗簾(h)餅干

圖1-2?人工紋理圖像示例

002

1?緒論

（3）混合紋理。混合紋理圖像既有自然形成的因素，也有人工設(shè)計的

成分。例如，足球場草坪圖案、遙感圖像、麥田圈圖像的紋理模式屬于混合

紋理。圖1-3展示了一些混合紋理圖像的樣本。

(a)足球場(b)遙感圖像(c)麥田圈

圖1-3?混合紋理圖像示例

紋理圖像在人類的生活環(huán)境中隨處可見，人們可以很容易地感知和識別

紋理圖像，但由于紋理圖像中所蘊(yùn)含的紋理模式具有極大的多樣性和復(fù)雜性，

人們很難給出一個精確的、統(tǒng)一的定義和數(shù)學(xué)模型，目前還沒有一個被人們

一致接受的、統(tǒng)一的紋理定義。下面列舉了一些具有代表性的紋理定義[1，2]。

定義1：紋理是一種反映圖像中同質(zhì)現(xiàn)象的視覺特征，體現(xiàn)了物體表面

共有的內(nèi)在屬性，包含了物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍

環(huán)境的聯(lián)系。

定義2：如果圖像內(nèi)區(qū)域的局域統(tǒng)計特征或其他一些圖像的局域?qū)傩宰?/p>

化緩慢或呈近似周期性變化，則可稱為紋理。

定義3：紋理就是指在圖像中反復(fù)出現(xiàn)的局部模式和它們的排列規(guī)則。

定義4：紋理被定義為一個區(qū)域?qū)傩?，區(qū)域內(nèi)的成分不能進(jìn)行枚舉，且

成分之間的相互關(guān)系不十分明確。

定義5：紋理是一種反映像素的空間分布屬性的圖像特征，通常表現(xiàn)為

局部不規(guī)則而宏觀有規(guī)律的特性。

定義6：紋理具有三大標(biāo)志，即某種局部序列性不斷重復(fù)、非隨機(jī)排列

和紋理區(qū)域內(nèi)大致為均勻的統(tǒng)一體。

雖然目前還沒有統(tǒng)一的紋理定義和數(shù)學(xué)模型，但人們對紋理圖像的特

點已達(dá)成了一些共識，主要包括以下兩點：①在紋理圖像中存在某種基本

的視覺感知單元，可稱為紋理基元（Texton）[3]；②紋理基元的出現(xiàn)具有重

復(fù)性[4]，即紋理基元按照某種規(guī)律的或隨機(jī)的形式重復(fù)出現(xiàn)，構(gòu)成了紋理圖

像。所以，紋理圖像的核心特征就是紋理基元的存在性和重復(fù)性。從這個角

003

紋理圖像的特征提取和識別

度來說，紋理圖像可被視為紋理基元按某種規(guī)則排列或分布的結(jié)果。不同的

紋理基元和排列規(guī)則形成了千差萬別的紋理圖像，這也使對紋理基元及其重

復(fù)性的檢測成為紋理圖像特征提取和識別的核心研究內(nèi)容。另外，紋理基元

通常表現(xiàn)為局部的紋理圖像特征，因此在對紋理圖像進(jìn)行分析和理解時，不

能把紋理基元處理成一個點過程，而應(yīng)更多地將其理解為一定范圍內(nèi)的區(qū)域

性特征。

紋理圖像能很好地描述目標(biāo)或場景的表面屬性，是一種普遍存在的、

顯著的視覺特征。因此，對紋理圖像中所蘊(yùn)含的紋理模式特征進(jìn)行提取和識

別，一直是圖像理解、模式識別和計算機(jī)視覺等領(lǐng)域的重點研究方向。紋理

圖像識別的主要任務(wù)就是從紋理圖像中提取具有鑒別性的紋理特征，然后利

用某種距離測度（如L1范數(shù)距離、L2范數(shù)距離等）和分類器（如最近鄰分

類器、支持向量機(jī)等）來判斷紋理圖像所屬的類別。在紋理圖像識別中，紋

理圖像的特征提取是最核心的研究內(nèi)容，如果提取的紋理特征缺乏鑒別力，

不能充分描述原始紋理圖像的特征，那么即便采用先進(jìn)的分類器，也很難獲

得好的識別效果，因此目前對紋理圖像特征提取和識別的研究工作大部分都

集中在對紋理圖像的特征提取方法的研究上。目前，關(guān)于紋理圖像特征提取

和識別的研究成果已被廣泛應(yīng)用于諸多領(lǐng)域，主要有以下幾個方面。

（1）生物特征識別。生物特征圖像通常含有豐富的紋理特征，很多生

物特征具有個人專屬性，即不同人的生物特征是不同的，并且不容易被篡改

或仿冒。因此，紋理圖像特征提取和識別技術(shù)可被應(yīng)用于人臉身份識別[5，6]、

人臉表情識別[7-9]、人臉年齡識別[10]、指紋識別[11]、掌紋識別[12，13]、虹膜識

別[14，15]等生物特征識別領(lǐng)域，有助于提高識別系統(tǒng)的準(zhǔn)確性和工作效率。

（2）基于內(nèi)容的圖像檢索[16，17]。由于紋理特征在生活中普遍存在，生

活中拍攝的大部分圖像都含有豐富的紋理特征。因此，可利用圖像的彩色紋

理特征進(jìn)行圖像檢索，能夠進(jìn)一步提高圖像檢索的精度。如圖1-4所示，可

將基于彩色紋理特征的圖像檢索技術(shù)應(yīng)用于生活中的網(wǎng)絡(luò)購物活動[18]，即利

用手機(jī)對衣服等生活中常見的紋理樣本進(jìn)行拍照和特征提取，然后通過特征

檢索系統(tǒng)能夠自動定位到相關(guān)的購物網(wǎng)站和類似商品上，從而節(jié)省人工搜索

該商品的時間和精力，為商家的銷售和個人購物提供便利。

004

1?緒論

(a)看到(b)拍照(c)檢索并購買

圖1-4?紋理圖像特征的應(yīng)用：圖像檢索、網(wǎng)絡(luò)購物

（3）圖像分割[19，20]。根據(jù)紋理的結(jié)構(gòu)和分布特征，可將具有相似紋理

特征的目標(biāo)區(qū)域從背景圖像或其他對象中分離出來，圖1-5展示了利用彩色

紋理特征進(jìn)行圖像分割的效果[21]，可以看出，在某些場景中利用紋理特征能

實現(xiàn)很好的圖像分割效果。

圖1-5?紋理圖像特征的應(yīng)用：圖像分割

（4）工業(yè)產(chǎn)品的瑕疵檢測[22，23]。通過對工業(yè)產(chǎn)品表面的紋理特征進(jìn)行

提取和分析，可實現(xiàn)快速、準(zhǔn)確和自動的產(chǎn)品瑕疵檢測。例如，對金屬加工

元件表面的紋理特征進(jìn)行提取，獲得其粗糙度和均勻性等特征，有助于判斷

產(chǎn)品的質(zhì)量情況[24]；大部分的紡織和皮革產(chǎn)品表面都具有顯著的紋理特征，

并且其紋理結(jié)構(gòu)通常具有明顯的規(guī)則性，而表面瑕疵的存在會破壞原有的

紋理分布規(guī)律，利用這些奇異的特征信號可實現(xiàn)紡織和皮革產(chǎn)品表面的瑕疵

檢測。

（5）醫(yī)學(xué)圖像分析。很多醫(yī)學(xué)圖像都含有豐富的紋理特征，這使紋理

圖像特征提取技術(shù)可被應(yīng)用于血涂片分析[25，26]、病毒圖像分類[27]、醫(yī)學(xué)圖

005

紋理圖像的特征提取和識別

像中惡性腫瘤的檢測[28，29]、色素內(nèi)鏡圖像中胃部異常和胃癌的檢測[30]、CT

圖像的分析[31，32]等醫(yī)學(xué)圖像分析領(lǐng)域，以提高醫(yī)學(xué)診斷的準(zhǔn)確率和智能化

程度。

（6）材料分類。不同類別的材料通常具有不同的表面紋理特征，因此

紋理特征提取技術(shù)可以在食物分類[33]、木材分類[34]、花崗巖瓷磚分類[35]等

材料分類領(lǐng)域發(fā)揮重要作用，可以對不同類別的材料進(jìn)行準(zhǔn)確的自動分類。

如圖1-6所示，樹葉、木材、草地、鋁箔、絲絨和稻草等材料都具有顯著不

同的紋理特征，因此可通過采集這些材料的樣本圖像，提取和識別樣本圖像

中所含有的紋理特征來實現(xiàn)材料的分類。

樹葉

木材

草地

鋁箔

待分類樣本

絲絨

稻草

圖1-6?紋理圖像特征的應(yīng)用：材料分類

此外，紋理圖像特征提取和識別技術(shù)在其他方面的應(yīng)用包括目標(biāo)檢測

與跟蹤[36，37]、遙感圖像分析[38-41]、視頻監(jiān)控[42]，以及紋理圖像的恢復(fù)與合

成[43]等。

綜上所述，紋理圖像特征提取和識別技術(shù)可應(yīng)用于生活中的諸多方面，

具有重要的研究價值和現(xiàn)實意義。

006

1?緒論

1.2?研究現(xiàn)狀以及存在的問題

1.2.1?研究現(xiàn)狀

人類對紋理特征的研究最早可追溯到1962年Julesz[44]對紋理視覺感知

模型的研究，時至今日，人們對紋理圖像的研究已經(jīng)有50多年的歷史。在

這50多年里，人們對紋理圖像的認(rèn)識和理解不斷深入，提出了各式各樣的

紋理圖像特征提取和識別算法，這些算法也在實際生活中獲得了廣泛的應(yīng)

用。目前，對紋理圖像特征提取和識別方法的研究比較深入的團(tuán)隊有牛津大

學(xué)工程科學(xué)系的視覺幾何研究組VGG（VisualGeometryGroup，Department

ofEngineeringScience，UniversityofOxford）[45，46]、奧盧大學(xué)的機(jī)器視覺研

究組MVG（MachineVisionGroup，UniversityofOulu）[47-51]等。在國內(nèi)，清

華大學(xué)的郭振華[52-57]、國防科技大學(xué)的劉麗[1，2，58-61]、重慶郵電大學(xué)的宋鐵

成[62-64]等也在該方面進(jìn)行了深入的研究。

20世紀(jì)60年代，人們對紋理圖像的研究還處于萌芽階段，主要成果如

下：①1962年，Julesz對紋理的視覺感知模型進(jìn)行了初步研究；②1966年，

Brodatz為藝術(shù)家和設(shè)計人員創(chuàng)建了一個紋理圖像攝影集（Brodatz紋理庫）[65]，

這成為人們最初研究紋理的重要圖像來源。

20世紀(jì)70年代，最具代表性的紋理圖像特征提取和識別方法是灰度共

生矩陣（GrayLevelCo-occurrenceMatrix，GLCM）方法[66]，它是由Haralick

于1973年首次提出的，這種方法提取的紋理特征對規(guī)則的紋理圖像具有較

好的識別效果。因為紋理圖像是由灰度分布在空間位置上反復(fù)出現(xiàn)而形成

的，所以相隔一定距離的兩像素之間會存在一定的相關(guān)性和共生性，GLCM

方法就是通過檢測灰度的空間共生性來描述紋理圖像的特征的。GLCM方法

的基本原理是對某個距離d和某個方向θ上灰度級為(ij,)的像素出現(xiàn)的次數(shù)

進(jìn)行統(tǒng)計，從而構(gòu)造一個GLCM矩陣，但二維的GLCM矩陣不方便直接用于

紋理圖像的特征描述和分析上，所以利用這個GLCM矩陣計算一組特征量，

再用這組特征量來描述紋理圖像的特征并用于紋理圖像識別。圖1-7展示了

當(dāng)選擇距離d=1、方向θ=0°時根據(jù)輸入圖像計算GLCM矩陣的基本原理。不

007

紋理圖像的特征提取和識別

同的距離d和方向θ對應(yīng)不同的共生矩陣和特征量，從而能夠描述紋理圖像

在不同距離和不同方向上的灰度共生性質(zhì)。通常情況下，距離可選d=1～5，

方向可選θ=0°°°,45,90,135°。Haralick提出從共生矩陣中計算14個特征量

[66]，包括角二階矩（AngularSecondMoment）、對比度（Contrast）、相關(guān)

值（Correlation）、方差（Variance）、逆差矩（InverseDiferenceMoment）、

和平均（SumAverage）、和方差（SumVariance）、熵（Entropy）、差熵

（DifferenceEntropy）、和熵（SumEntropy）等，但這些特征量存在相關(guān)性，

即提取的紋理特征存在冗余，因此常選用其中的4個特征量（角二階矩、對

比度、熵、相關(guān)值）作為紋理特征的描述，原因是這4個特征量的描述能力

強(qiáng)，并且相關(guān)性低。

(a)4×5的像素塊(b)GLCM矩陣

圖1-7?計算GLCM矩陣的基本原理

GLCM方法的不足之處主要有以下兩點：①計算量大?；叶葓D像通常有

Ng=256個灰度等級，則一個共生矩陣的維數(shù)高達(dá)Ng×Ng=256×256=65?536，

并且通常需要計算多個距離d和多個方向θ的共生矩陣，這使GLCM方法非

常耗時。為了解決這個問題，通常采用量化的方法降低原始圖像的灰度等級

個數(shù)。例如，將原始圖像量化為32或16個灰度等級，則GLCM方法的計

算量會大大降低。②GLCM方法提取的紋理特征對人工合成的紋理圖像具

有較好的識別效果，因為很多自然紋理圖像都存在不規(guī)則性和隨機(jī)性，所以

GLCM方法的識別效果較差。

20世紀(jì)80年代，馬爾可夫隨機(jī)場（MarkovRandomField，MRF）方法

和分形維（FractalDimension）方法成為研究的熱點。MRF方法[67-70]是把紋

008

1?緒論

理圖像視為一個隨機(jī)的二維圖像場，并且假定每個像素的灰度值僅與周圍像

素的灰度值有關(guān)，即把紋理圖像構(gòu)建為一個二維的MRF模型。MRF模型的

參數(shù)能夠描述紋理圖像中聚類的強(qiáng)度和方向，這使紋理圖像的特征與MRF

模型的參數(shù)相對應(yīng)。因此，在MRF方法中，紋理圖像的特征提取過程就是

對MRF模型參數(shù)的估計過程，可用估計的MRF模型參數(shù)來描述紋理圖像的

特征。MRF方法實際是將傳統(tǒng)信號分析中的二維隨機(jī)過程應(yīng)用于紋理圖像的

特征描述，該方法能取得不錯的紋理識別效果。MRF方法的不足之處主要

有以下幾點：①MRF方法假定紋理圖像的灰度分布符合MRF模型，但這個

假設(shè)在實際中不一定成立，因為很多紋理圖像無法僅用一個單一的MRF模

型來描述；②MRF模型僅考慮每個像素與其鄰域像素的依賴關(guān)系，缺乏對

圖像整體紋理結(jié)構(gòu)特征的描述；③MRF模型的參數(shù)求解存在一定難度，并

且計算量大；④為了獲得好的參數(shù)估計值，需要紋理圖像的尺寸足夠大。

分形維方法[71-74]主要是針對紋理圖像中不同尺度的紋理基元的結(jié)構(gòu)形

態(tài)進(jìn)行研究，是一種結(jié)構(gòu)分析方法。在歐氏空間中，人們常認(rèn)為點是零維

的，線是一維的，面是二維的，體是三維的。和歐氏空間中的整數(shù)維（0、

1、2、3）不同，分形維數(shù)的值通常不是整數(shù)，而是分?jǐn)?shù)。Pentland[71]證明

了圖像的分形維數(shù)與圖像的粗糙度具有相關(guān)性：分形維數(shù)越小，對應(yīng)的圖像

越光滑；分形維數(shù)越大，對應(yīng)的圖像越粗糙。因為紋理圖像在不同的尺度上

具有自相似性和不同的粗糙度，所以可利用分形維數(shù)來描述紋理圖像的粗糙

程度，把分形維數(shù)作為紋理圖像的特征參數(shù)，用于紋理圖像的識別。計算一

幅紋理圖像的分形維數(shù)，常用的方法是盒計數(shù)法（Box-countingMethod）[72]，

其原理是用邊長為r的正方形盒子把被測形體覆蓋起來，用Nr()表示所需

的盒子個數(shù)，當(dāng)盒子的邊長r變小時，Nr()會增大，則圖像的分形維數(shù)可定

義為

logNr()

D=lim（1-1）

r→0log(1/r)

例如，覆蓋一個單位長度的線段需要Nr()=1/r，覆蓋一個單位長度的

正方形需要Nr()=(1/r)，覆蓋一個單位長度的立方體需要Nr()=(1/r)，

其冪次就體現(xiàn)了線段、正方形、立方體的分形維數(shù)，即D=1，2，3。其他的

例子還有，科赫曲線的分形維數(shù)是D=1.261?8，謝爾賓斯基海綿的分形維數(shù)

是D=2.726?8。在實際計算分形維數(shù)時，通過改變r的值，可獲得不同尺度

下的多個樣點(rN,(r))，將這些樣點在log坐標(biāo)系中擬合成一條直線，最后

009

紋理圖像的特征提取和識別

用擬合直線的斜率作為分形維數(shù)的近似值。

分形維方法的主要優(yōu)點有：①分形維數(shù)能描述紋理圖像的粗糙程度，

這與人類對紋理圖像粗糙程度的視覺感知是一致的；②分形維數(shù)具有一定程

度的尺度不變性、抗噪性以及旋轉(zhuǎn)不變性；③分形維數(shù)能夠體現(xiàn)不同尺度之

間的自相似性。但是，分形維方法也存在明顯的不足之處，即分形維數(shù)只能

度量紋理圖像的粗糙程度，考察特征過于單一，很多不同類別的紋理圖像雖

然在視覺特征上存在較大差異，但由于整體的粗糙程度相似，其分形維數(shù)

非常接近，從而很難利用分形維數(shù)將這些不同類別的紋理圖像區(qū)分開來。所

以，分形維方法提取的特征信息比較單一，鑒別能力有限，之后很少有學(xué)者

對這種方法繼續(xù)進(jìn)行研究。

20世紀(jì)90年代，以小波變換[75-77]為核心的多分辨率分析方法成為研

究的潮流。心理物理學(xué)的研究表明，人類的視覺系統(tǒng)在處理紋理圖像時，常

將圖像分解為不同頻率和方向上的信號進(jìn)行分析，這與小波變換所具有的信

號多分辨率分析能力相對應(yīng)。利用小波變換提取紋理圖像特征的過程主要如

下：首先選擇一個合適的小波基，其次利用小波變換將紋理圖像分解到具有

不同頻率和方向的多個子帶上，并從每個子帶提取鑒別性的特征（如每個子

帶的能量均值和方差），最后將這些特征作為紋理圖像的多尺度特征描述子。

傳統(tǒng)的小波變換每次僅對低頻子帶進(jìn)行分解，對圖像的低頻信息利用比較充

分，但紋理圖像的高頻子帶也含有重要的紋理信息。為了解決這個問題，人

們提出了小波包變換[78]、雙樹復(fù)小波變換[79]等方法，能夠同時對低頻和高

頻子帶進(jìn)行分解，從而獲得了更加豐富的多尺度紋理特征。小波變換方法的

優(yōu)點是能夠?qū)y理圖像進(jìn)行多分辨率分析，以獲得不同尺度和方向上豐富的

紋理特征，但小波變換方法也存在一些不足之處：①在進(jìn)行小波變換時，小

波基的選擇對紋理特征的提取至關(guān)重要，會影響紋理圖像特征描述的質(zhì)量，

但現(xiàn)實中紋理圖像的形態(tài)復(fù)雜多樣，目前還沒有好的方法能夠針對不同的紋

理圖像自適應(yīng)地選擇最佳的小波基；②對圖像進(jìn)行多層小波變換時，計算量

也比較大；③小波變換僅對圖像在水平、垂直和對角線這三個方向進(jìn)行分

解，方向選擇的靈活性和精度不足。

Gabor濾波方法[80-82]也是一種常用的紋理圖像特征提取方法，它與小波

變換方法有相似之處，兩者都能對圖像進(jìn)行多分辨率分析，因此有時也被稱

為Gabor小波方法。Gabor濾波方法是把不同尺度的紋理特征視為窄帶信號，

利用具有不同中心頻率和帶寬的濾波器組來提取這些窄帶信號的特征。因

此，使用Gabor濾波方法時，首先要設(shè)計一組Gabor濾波器，其次利用這個

010

1?緒論

濾波器組對圖像進(jìn)行濾波，從而提取紋理圖像在不同頻率和方向上的特征。

Gabor濾波器組是非正交的，這導(dǎo)致所提取的特征存在大量冗余信息，因此

Manjunath和Ma[82]提出了一種有效的Gabor濾波器組設(shè)計方案，既能充分提

取不同尺度和方向上的紋理特征，又能有效降低所提取特征的冗余度。和小

波變換方法相比，Gabor濾波方法具有自己獨特的優(yōu)點：①Gabor濾波方法

具有時域和頻域的聯(lián)合最佳分辨率，能達(dá)到時頻測不準(zhǔn)的下界[83]；②Gabor

濾波器與哺乳動物視覺皮層上簡單細(xì)胞的二維感受野的輪廓非常相似，能較

好地模擬人類視覺系統(tǒng)的視覺感受特性[84，85]；③Gabor濾波方法能對圖像

分解的頻率和方向進(jìn)行任意調(diào)節(jié)，具有更加靈活的尺度和方向選擇性，克服

了小波變換在方向選擇上的限制。與此同時，現(xiàn)有的Gabor濾波方法也存在

一些不足之處：①大部分Gabor濾波方法僅利用濾波后圖像幅值的均值和標(biāo)

準(zhǔn)差來描述紋理圖像的特征[80-82]，這種描述過于粗略，導(dǎo)致基于Gabor濾

波的紋理識別方法在識別精度（正確識別的樣本個數(shù)與全部測試樣本個數(shù)之

比）上不夠理想；②Gabor濾波在實現(xiàn)上還沒有較好的快速算法，使此類算

法的實時性仍有待提高。

進(jìn)入21世紀(jì)，最受矚目的紋理圖像特征提取方法是局部二值模式

（LocalBinaryPattern，LBP）及其改進(jìn)算法，它已成為目前最流行的紋理圖

像特征提取和識別方法。2002年，Ojala等[47]提出了LBP算法，該算法提

取的紋理特征不但能獲得較高的紋理識別精度，而且具有理論簡單、實現(xiàn)高

效和對單調(diào)的光照變化具有不變性等優(yōu)點，這使LBP算法成為最受歡迎的

紋理特征提取和識別算法。LBP算法的主要思路是對圖像的局部鄰域特征進(jìn)

行編碼，然后計算這些編碼值的直方圖，將其作為紋理圖像的特征描述子。

LBP算法的定義公式為

P?1

p1,x≥0

LBPPR,=∑s(gp?gc)2，sx()=（1-2）

p=00,x<0

式中：

R—局部環(huán)形鄰域的半徑；

P—等間隔分布在半徑為R的圓上的鄰域點個數(shù)；

gc—局部鄰域中心點的灰度值；

gp—局部鄰域點的灰度值。

可以看出，LBP算法將每個鄰域點的灰度值和中心點的灰度值進(jìn)行比

較，如果鄰域點的灰度值大于或等于中心點的灰度值，則鄰域點被標(biāo)記為1，

011

紋理圖像的特征提取和識別

否則被標(biāo)記為0，這樣就獲得了一個P位的二值編碼串，然后將該二值編碼

串轉(zhuǎn)換為十進(jìn)制數(shù)，作為中心點的LBP編碼值。圖1-8展示了對圖像中一

個3×3局部鄰域進(jìn)行LBP編碼的過程，中心像素點獲得的十進(jìn)制LBP編碼

值為76。

閾值60

(a)局部鄰域(b)二值化結(jié)果(c)權(quán)值模板

LBP編碼結(jié)果：01001100（二進(jìn)制），76（十進(jìn)制）

圖1-8?LBP算法的編碼原理

按照上述方法，對圖像中的每個局部鄰域進(jìn)行LBP編碼，使每個像素

點都獲得一個十進(jìn)制的LBP編碼值，從而獲得一個LBP編碼圖像，最后對

LBP編碼圖像計算直方圖，并將該直方圖作為紋理圖像的特征描述子。圖

1-9展示了利用LBP算法提取紋理圖像特征的過程，最終生成的LBP編碼

圖像直方圖即可用于紋理圖像識別。

LBP編碼計算直方圖

(a)原始的紋理圖像(b)LBP編碼圖像(c)LBP編碼圖像的直方圖

圖1-9?利用LBP算法提取紋理圖像特征的原理

在使用LBP算法時，通過調(diào)節(jié)環(huán)形鄰域的半徑R和鄰域點個數(shù)P，可

以檢測不同尺寸的局部鄰域特征，即設(shè)置大的（R，P）值可檢測大尺寸的鄰

域特征，設(shè)置小的（R，P）值可檢測小尺寸的鄰域特征。如果將多個半徑的

特征相結(jié)合，則可以同時捕獲不同尺寸的LBP特征，實現(xiàn)多尺寸特征融合

的目的，進(jìn)一步提高LBP算法的鑒別能力。圖1-10分別展示了（R，P）=

（1，8）、（2，16）、（3，24）時的環(huán)形鄰域結(jié)構(gòu)，如果鄰域點沒有落在網(wǎng)格

012

1?緒論

的整數(shù)坐標(biāo)處，則可利用插值的方法（如最近鄰插值、雙線性插值、雙立方

插值）獲得該位置處的灰度值。

(a)（R，P）=（1，8）(b)（R，P）=（2，16）(c)（R，P）=（3，24）

圖1-10?LBP算法中三種不同尺寸的環(huán)形鄰域（R，P）=（1，8）、（2，16）、（3，24）

傳統(tǒng)LBP算法雖然具有較好的性能，但也存在如下的不足之處：①不

具有旋轉(zhuǎn)不變性。這是因為傳統(tǒng)LBP算法采用固定的權(quán)值模板，當(dāng)圖像發(fā)

生旋轉(zhuǎn)時，其對應(yīng)的二值編碼串也隨之發(fā)生旋轉(zhuǎn)，但權(quán)值模板的位置保持不

變，從而導(dǎo)致加權(quán)求和生成的十進(jìn)制LBP編碼值在旋轉(zhuǎn)前后不一致。因此，

相同的紋理特征在旋轉(zhuǎn)前后卻對應(yīng)不同的LBP編碼值，即被當(dāng)成不同的特征

對待，從而造成錯誤的識別結(jié)果。②編碼的維數(shù)太高。例如，當(dāng)（R，P）=

（2，16）、（3，24）時，最后生成的直方圖維數(shù)分別為216和224，特征維數(shù)太

高，給后續(xù)的特征處理和識別帶來很大的計算負(fù)擔(dān)，同時需要占用更大的存

儲空間。③對噪聲敏感。當(dāng)鄰域像素和中心像素的灰度值比較接近時，只要

其中一個像素的灰度值發(fā)生輕微波動，就可能導(dǎo)致LBP編碼值發(fā)生顯著變

化，這使非常相似的紋理模式可能會對應(yīng)顯著不同的LBP編碼值，從而影響

特征描述和識別的穩(wěn)定性。④僅利用了鄰域像素與中心像素灰度差分的符號

部分，沒有利用像素灰度值差分的幅值和中心像素的灰度等級信息，獲取的

信息量有限，所提取特征的鑒別能力不足。

為了克服傳統(tǒng)LBP算法的上述不足之處，Ojala等[47]進(jìn)一步提出了具

有旋轉(zhuǎn)不變性的LBPri算法和LBPriu2算法，其中LBPriu2算法根據(jù)二值化編

碼中“1”的個數(shù)進(jìn)行編碼，最終的十進(jìn)制編碼值只有P+1種情況，特征維

數(shù)大大降低，方便后續(xù)的特征匹配和識別。為了提取更加豐富的紋理特征，

Guo等[52]提出了完備的LBP（CompletedLBP，CLBP）算法，該算法不但利

用了傳統(tǒng)LBP算法中鄰域像素與中心像素灰度差分的符號信息，還利用了灰

013

紋理圖像的特征提取和識別

度差分的幅值信息，以及中心像素的灰度等級信息，能夠捕獲更多的局部鄰

域特征，顯著提高了LBP算法的特征描述能力和紋理識別精度。隨后，Zhao

等[86]受CLBP算法的啟發(fā)，進(jìn)一步提出了完備的局部二值計數(shù)（Completed

LocalBinaryCount，CLBC）算法，該算法同樣利用了局部鄰域像素與中心

像素灰度差分的符號信息、幅值信息和中心像素的灰度等級信息，能獲得與

CLBP算法接近的紋理識別精度，但與CLBP算法不同的是CLBC算法在計

算局部編碼值時不再對二值編碼串進(jìn)行加權(quán)求和運算，而是直接將二值編碼

串中“1”的個數(shù)作為局部編碼值，這一方面顯著降低了局部編碼的計算量，

另一方面也大大降低了最終生成的直方圖特征向量的維數(shù)，使CLBC算法獲

得了更高的實時性，所以CLBC算法在對實時性有較高要求的場合具有很大

的優(yōu)勢。大部分LBP類算法只在環(huán)形方向上計算編碼值，為了捕獲多種結(jié)構(gòu)

上的紋理信息，Liu等[60]提出了一種擴(kuò)展的LBP（ExtendedLBP，ELBP）算

法，該算法能夠同時在徑向方向和環(huán)形方向上提取鄰域像素與中心像素的灰

度差分信息，進(jìn)一步提高了算法的特征描述能力。隨后，Liu等[61]又把中值

濾波的方法引入ELBP算法，提出了中值穩(wěn)健的LBP（MedianRobustELBP，

MRELBP）算法，該算法顯著提高了LBP算法的抗噪聲能力。大部分LBP

改進(jìn)算法在計算最終的LBP圖像直方圖時，把每個像素的LBP模式值同等

看待，即計算直方圖時每個像素LBP模式值的加權(quán)值都是1，而Guo等[53]

提出了一種LBPV算法，該算法同時計算每個像素的LBP模式值和局部方

差，在計算LBP圖像直方圖時將局部方差作為當(dāng)前像素LBP模式值的加權(quán)

值，進(jìn)一步提高了傳統(tǒng)LBP算法的特征描述能力。另外，disCLBP算法[49]、

DLBP算法[87]和SSLBP算法[55]通過提取紋理圖像中占主要部分的主導(dǎo)模式

信息，既提升了傳統(tǒng)LBP算法的鑒別能力，又降低了特征維數(shù)，從而獲得

了更好的識別性能。目前，LBP及其改進(jìn)算法以其良好的特征描述能力和實

時性，已經(jīng)在紋理圖像特征提取和識別領(lǐng)域獲得了最廣泛、最深入的研究和

應(yīng)用。

與此同時，考慮到紋理圖像是由一些基本的局部單元，即紋理基元

（Texton）組成的，并受計算機(jī)視覺領(lǐng)域中“視覺詞袋（BagofVisualWords，

BoVW）”模型的影響，一些學(xué)者提出了基于紋理基元學(xué)習(xí)的紋理特征提取

和識別方法。在這個研究方向上，比較著名的方法有以下三種：①Varma和

Zisserman提出了VZ-MR8算法[45]，該算法首先構(gòu)造一組具有不同尺度和方

向的桿狀和邊緣濾波器，利用這組濾波器對紋理圖像進(jìn)行濾波，并在每個尺

度上取最大響應(yīng)，最終獲得8個最大響應(yīng)（MaximumResponse8，MR8）圖

014

1?緒論

像。對于紋理圖像的每個像素，其在8個最大響應(yīng)圖像中都有一個對應(yīng)值，

這8個值組成了一個8維的特征向量，用其描述該像素所在的局部鄰域特

征。其次，利用K-均值算法對所有像素的8維特征向量進(jìn)行聚類，用最后

的聚類結(jié)果（即K個8維的特征向量）作為原子構(gòu)造紋理基元字典。最后，

用這個紋理基元字典對訓(xùn)練樣本和測試樣本的MR8圖像進(jìn)行編碼，并計算

編碼圖像的直方圖，作為原始紋理圖像的特征描述子。②隨后，Varma和

Zisserman又提出了VZ-Joint算法[46]，該算法不再使用濾波器組進(jìn)行濾波，

而是直接以圖像中每個圖像塊的灰度值作為研究對象，同樣利用K-均值算

法學(xué)習(xí)紋理基元字典中的原子聚類算法，后續(xù)操作與VZ-MR8算法相同。和

VZ-MR8算法相比，VZ-Joint算法省去了濾波器組的設(shè)計和濾波過程，紋理

識別精度也稍有提高。③最近，Xie等[88]提出了一種有效的紋理基元學(xué)習(xí)和

編碼方法，該方法利用L2范數(shù)正則化的最小二乘方法來學(xué)習(xí)紋理基元字典，

在對紋理圖像進(jìn)行編碼時，不再使用一維的紋理基元序號作為編碼值，而是

用一個p維的向量來對每個像素進(jìn)行標(biāo)記，最后利用紋理基元編碼生成的統(tǒng)

計特征（TextonEncodingInducedStatisticalFeatures，TEISF）作為紋理圖像

的特征描述子，從而獲得了更高的紋理識別精度。

可以看出，LBP類算法和紋理基元學(xué)習(xí)類算法在本質(zhì)上有相似之處，它

們都是對局部鄰域的特征進(jìn)行編碼，而這個局部鄰域就是潛在的紋理基元，

所以這兩類方法都是在嘗試對紋理圖像中的紋理基元進(jìn)行描述和統(tǒng)計。另

外，這兩類方法也有不同之處，LBP類算法中的編碼模式是固定的，每個模

式對應(yīng)一種紋理基元，相當(dāng)于紋理基元字典已經(jīng)被預(yù)先定義好，不需要字典

的學(xué)習(xí)過程，這大大降低了LBP類算法的計算量，使LBP類算法變得非常

高效。而紋理基元學(xué)習(xí)類算法需要通過不斷的學(xué)習(xí)來獲得紋理基元字典，并

且這個迭代學(xué)習(xí)的過程非常耗時，學(xué)習(xí)到的紋理基元字典的完備性和緊致性

也對紋理識別精度有較大影響。通常情況下，LBP類算法的紋理識別精度比

紋理基元學(xué)習(xí)類方法略高，并且LBP類算法在速度上遠(yuǎn)勝過紋理基元學(xué)習(xí)類

方法。所以，在目前階段，LBP類方法具有更大的優(yōu)勢，但紋理基元學(xué)習(xí)類

方法仍然具有很大的發(fā)展?jié)摿?，其特征描述能力和算法的實時性有待進(jìn)一步

提高。

近年來，隨著紋理圖像識別技術(shù)的發(fā)展，更復(fù)雜、更具挑戰(zhàn)性的紋理

圖像識別任務(wù)被提上日程，以前所采用的特征提取方法遇到了瓶頸，在這種

情況下，具有特征自主學(xué)習(xí)能力的深度學(xué)習(xí)方法開始在紋理圖像特征提取領(lǐng)

域受到關(guān)注。深度學(xué)習(xí)方法是模擬人腦分層提取特征的機(jī)制，利用多層的網(wǎng)

015

紋理圖像的特征提取和識別

絡(luò)結(jié)構(gòu)，通過對大量的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，能夠自動從樣本中提取對分類有

用的鑒別性特征，能夠創(chuàng)建非常復(fù)雜的模型并完成極具挑戰(zhàn)性的任務(wù)。

目前，深度學(xué)習(xí)方法在紋理圖像特征提取和識別領(lǐng)域的應(yīng)用還是處

于起步階段，最成功的例子是深度卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeural

Network，CNN）的應(yīng)用。深度CNN模型實際是重復(fù)利用卷積濾波、非線性

變換（如Sigmoid函數(shù)、ReLU函數(shù)）和池化（如最大池化、平均池化）等

操作，從紋理圖像中逐層提取從簡單到復(fù)雜、從底層到高層、從具體到抽象

的特征。另外，深度CNN是一種有監(jiān)督的特征學(xué)習(xí)方法，能夠根據(jù)不同的

數(shù)據(jù)庫和任務(wù)自動調(diào)節(jié)模型中的參數(shù)，從而學(xué)習(xí)到與具體任務(wù)更加匹配的特

征表達(dá)?；谝陨蟽?yōu)點，深度CNN方法在紋理圖像特征提取和識別領(lǐng)域開

始獲得關(guān)注和初步的應(yīng)用。例如，Sifre和Mallat[89]提出了ScatNet算法，該

算法首先構(gòu)建了一個深度卷積網(wǎng)絡(luò)，卷積層采用尺度和方向都可變的小波濾

波器組，其次對空間、旋轉(zhuǎn)和尺度變量進(jìn)行卷積運算，最后利用散射系數(shù)獲

得紋理圖像的特征描述子。冀中等[90]首先利用ImageNet圖像數(shù)據(jù)集[91]訓(xùn)練

的CaffeNet模型[92]提取紋理圖像特征，該模型包含5個卷積層、3個最大池

化層和3個全連接層，其次利用主成分分析（PrincipalComponentAnalysis，

PCA）算法對提取的紋理特征進(jìn)行降維，最后利用支持向量機(jī)（Support

VectorMachine，SVM）分類器進(jìn)行紋理識別。Andrearczyk和Whelan[93]提

出了一種紋理卷積神經(jīng)網(wǎng)絡(luò)（TextureConvolutionalNeuralNetwork，T-CNN）

算法，該算法以現(xiàn)有的CaffeNet模型為基礎(chǔ)，并采用與AlexNet模型相同的

線性校正、歸一化和丟棄（Dropout）操作，同時新增加了一個能量層，從而

構(gòu)建了一個T-CNN模型，然后直接利用現(xiàn)有的圖像數(shù)據(jù)庫對該網(wǎng)絡(luò)模型進(jìn)

行訓(xùn)練，并對最后一個卷積層的能量測度進(jìn)行池化操作，從而實現(xiàn)了紋理圖

像的特征提取和識別。英國牛津大學(xué)的Cimpoi等[94]研究了在ImageNet數(shù)據(jù)

集上訓(xùn)練的三種CNN模型（AlexNet、VGG-M、VGG-VD），并將CNN模型

學(xué)習(xí)到的局部特征與Fisher向量（FisherVector，F(xiàn)V）池化方法相結(jié)合，獲

得了較高的識別精度，并且指出深度CNN的網(wǎng)絡(luò)層數(shù)越深，紋理識別的精

度越高。Nguyen等[95]提出了ScatNet_CLBP算法，該算法利用三層的散射網(wǎng)

絡(luò)來捕獲紋理圖像的宏觀結(jié)構(gòu)特征，即把三個散射網(wǎng)絡(luò)層的系數(shù)進(jìn)行累加作

為宏觀特征，同時利用CLBP算法提取紋理圖像的微觀特征，最后把提取的

宏觀和微觀特征進(jìn)行融合，作為紋理圖像的識別特征。以上這些方法都是深

度學(xué)習(xí)方法在紋理圖像特征提取和識別領(lǐng)域具有重要意義的嘗試，有助于對

紋理圖像特征進(jìn)行層次化的表達(dá)和深度的理解，為人類最終認(rèn)識和使用紋理

016

1?緒論

圖像開辟了一個嶄新的研究方向。

深度學(xué)習(xí)方法雖然能夠自動提取紋理圖像特征，但它也存在以下的不

足之處：①深度學(xué)習(xí)方法需要利用大規(guī)模的帶類別標(biāo)簽的訓(xùn)練樣本對CNN

模型進(jìn)行訓(xùn)練，只有在充分訓(xùn)練的情況下才能獲得良好的識別性能，如果

訓(xùn)練樣本的個數(shù)較少，對模型的訓(xùn)練不充分，則深度學(xué)習(xí)方法的識別性能不

佳。而目前在紋理圖像的特征提取和識別領(lǐng)域，還沒有一個大規(guī)模的專用紋

理圖像數(shù)據(jù)庫，無法對深度學(xué)習(xí)模型進(jìn)行充分的訓(xùn)練，這也是限制深度學(xué)習(xí)

方法在紋理圖像特征提取和識別領(lǐng)域獲得廣泛研究和應(yīng)用的主要原因。②深

度學(xué)習(xí)方法非常耗時，CNN模型的結(jié)構(gòu)越復(fù)雜、層數(shù)越深，需要的訓(xùn)練時間

越長。③深度學(xué)習(xí)方法對硬件平臺的計算能力和存儲容量都有很高的要求，

而高性能的硬件平臺通常價格昂貴，這也限制了深度學(xué)習(xí)方法在紋理圖像特

征提取和識別領(lǐng)域的廣泛應(yīng)用?；谏鲜鲈?，深度學(xué)習(xí)方法在紋理圖像特

征提取和識別領(lǐng)域的應(yīng)用還處于起步階段，并且發(fā)展緩慢，還有很多瓶頸問

題有待進(jìn)一步研究和解決。但與此同時，深度學(xué)習(xí)方法也帶來了新的希望，

使以前長期存在的、極具挑戰(zhàn)性的紋理特征提取和識別問題有望得到解決。

綜上所述，經(jīng)過50多年的發(fā)展，人們在紋理圖像的特征提取和識別領(lǐng)

域已經(jīng)取得了豐碩的成果，提出了很多紋理圖像特征提取方法，這些方法都

具有自己獨特的優(yōu)勢和不足之處。同時，因為沒有統(tǒng)一的紋理定義和數(shù)學(xué)模

型，人們很難找到一種對所有紋理圖像都是最優(yōu)的特征提取和識別方法，這

也是目前多種紋理圖像特征提取和識別方法共存并在不同場合發(fā)揮作用的原

因之一。

1.2.2?存在的問題

從以上的研究現(xiàn)狀分析可以看出，雖然在過去幾十年紋理圖像的特征

提取和識別

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 通信電子

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

紋理圖像的特征提取和識別

文檔簡介

溫馨提示

最新文檔

評論

紋理圖像的特征提取和識別

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔