人工智能概論 課件 第6章 計(jì)算機(jī)視覺_第1頁
人工智能概論 課件 第6章 計(jì)算機(jī)視覺_第2頁
人工智能概論 課件 第6章 計(jì)算機(jī)視覺_第3頁
人工智能概論 課件 第6章 計(jì)算機(jī)視覺_第4頁
人工智能概論 課件 第6章 計(jì)算機(jī)視覺_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

高職高專人工智能通識課規(guī)劃教材人工智能概論本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【素養(yǎng)目標(biāo)】通過計(jì)算機(jī)視覺相關(guān)知識的學(xué)習(xí),培養(yǎng)學(xué)生科學(xué)精神,激發(fā)學(xué)生科技報(bào)國情懷;通過學(xué)習(xí)人工智能領(lǐng)域科技成果案例,加強(qiáng)愛國主義教育,增強(qiáng)民族自信心、自豪感;通過學(xué)習(xí)計(jì)算機(jī)視覺應(yīng)用,培養(yǎng)學(xué)生追求真理,勇攀科學(xué)高峰的責(zé)任感和使命感。本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【知識目標(biāo)】掌握計(jì)算機(jī)視覺、圖像處理、人臉識別的概念;理解圖像的基本原理、人臉識別應(yīng)用的技術(shù)原理;了解計(jì)算機(jī)視覺系統(tǒng)、人臉識別的一般步驟;掌握人臉檢測、人臉配準(zhǔn)、人臉屬性識別、人臉特征提取、人臉比對、人臉驗(yàn)證、人臉識別、人臉檢索、人臉聚類、人臉活體檢測等人臉識別基本技術(shù);了解人臉識別的應(yīng)用。本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【能力目標(biāo)】能夠針對計(jì)算機(jī)視覺具體應(yīng)用功能,闡述其實(shí)現(xiàn)原理;能夠針對工作生活場景中的具體需求,提出計(jì)算機(jī)視覺技術(shù)解決思路;會使用圖像處理技術(shù)、人臉識別技術(shù)。本章學(xué)習(xí)目標(biāo)第6章計(jì)算機(jī)視覺【思維導(dǎo)圖】第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識別高職高專人工智能通識課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺計(jì)算機(jī)視覺是研究如何讓機(jī)器“看”的科學(xué),是人工智能的主要應(yīng)用領(lǐng)域之一。人們或許沒有意識到自己的視覺系統(tǒng)是如此的強(qiáng)大。嬰兒在出生幾個(gè)小時(shí)后就能識別出母親的容貌;在大霧的天氣,學(xué)生看見來人朦朧的身體形態(tài),就能辨別出來人是否為自己的班主任;游客可以根據(jù)網(wǎng)上攻略的圖片,就可以找到旅游目的地;乒乓球運(yùn)動員根據(jù)對手細(xì)微的動作,就可以判別對手發(fā)球的方向。有實(shí)驗(yàn)證實(shí),人們接受的信息80%以上來自于視覺。倘若要讓機(jī)器像人一樣有視覺系統(tǒng),就首先需要機(jī)器“看懂”圖像。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.1什么是計(jì)算機(jī)視覺為了讓機(jī)器像人一樣“看懂”圖像,首先需要研究人類視覺系統(tǒng)。人類視覺系統(tǒng)包含眼球(接收光信號)、視網(wǎng)膜(光信號轉(zhuǎn)換為電信號,并傳輸?shù)酱竽X)、大腦皮層(提取電信號中的有效特征,并引導(dǎo)人做出反應(yīng))。為了讓機(jī)器模擬人類視覺系統(tǒng),研究者用攝像頭模擬眼球以獲得圖像信息;用數(shù)字圖像處理模擬視網(wǎng)膜,并將模擬圖像變成數(shù)字圖像,以便讓計(jì)算機(jī)能識別;用計(jì)算機(jī)視覺模擬大腦皮層,并設(shè)計(jì)算法提取圖像特征,以進(jìn)行識別檢測等任務(wù)。機(jī)器模擬人類視覺系統(tǒng)便是機(jī)器視覺,也稱計(jì)算機(jī)視覺(ComputerVision,CV),是在解決機(jī)器如何“看”的問題。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.1什么是計(jì)算機(jī)視覺計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),更直觀地說,就是指用攝影機(jī)和計(jì)算機(jī)代替人眼,對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,再用計(jì)算機(jī)將其處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立一個(gè)能夠從圖像或者多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。計(jì)算機(jī)視覺是從圖像或視頻中提取出符號或數(shù)值信息,分析計(jì)算該信息以進(jìn)行目標(biāo)的識別、檢測和跟蹤等。更形象地說,計(jì)算機(jī)視覺就是讓計(jì)算機(jī)像人類一樣能看到并理解圖像。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.1什么是計(jì)算機(jī)視覺計(jì)算機(jī)視覺是一個(gè)跨學(xué)科的領(lǐng)域,涉及的部分學(xué)科如圖所示。計(jì)算機(jī)視覺應(yīng)用非常廣泛,有圖像分類、目標(biāo)檢測、圖像分割、人臉檢測與識別、光學(xué)字符識別(OCR)等。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.2計(jì)算機(jī)視覺的發(fā)展歷程1966年,人工智能學(xué)家馬文·明斯基(MarvinMinsky)在給學(xué)生布置的作業(yè)中,要求學(xué)生通過編寫一個(gè)程序,讓計(jì)算機(jī)告訴人們它通過攝像頭看到了什么,這也被認(rèn)為是計(jì)算機(jī)視覺最早的任務(wù)描述。20世紀(jì)七八十年代,隨著現(xiàn)代電子計(jì)算機(jī)的發(fā)展,計(jì)算機(jī)視覺技術(shù)也開始逐步發(fā)展。人們開始嘗試讓計(jì)算機(jī)回答出它看到了什么事物,于是首先想到的是從人類看事物的方法中獲得借鑒。借鑒之一是當(dāng)時(shí)人們普遍認(rèn)為,人類能看到并理解事物,是因?yàn)槿祟愅ㄟ^兩只眼睛可以立體地觀察事物。因此要想讓計(jì)算機(jī)理解它所看到的圖像,就必須首先將事物從二維的圖像中恢復(fù)出三維模型,這就是所謂的“三維重構(gòu)”的方法。借鑒之二是人們認(rèn)為人之所以能識別出一個(gè)蘋果,是因?yàn)槿藗円呀?jīng)知道了蘋果的先驗(yàn)知識,比如蘋果是紅色的、圓的、表面光滑的,如果給機(jī)器也建立一個(gè)這樣的知識庫,讓機(jī)器將看到的圖像與數(shù)據(jù)庫里的儲備知識進(jìn)行匹配,就可以讓機(jī)器識別乃至理解它所看到的事物,這是所謂的“先驗(yàn)知識庫”的方法。這一階段的應(yīng)用主要是一些光學(xué)字符識別、工件識別、顯微/航空圖片的識別等。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.2計(jì)算機(jī)視覺的發(fā)展歷程20世紀(jì)九十年代,計(jì)算機(jī)視覺技術(shù)取得了更大的發(fā)展,并開始廣泛應(yīng)用于工業(yè)領(lǐng)域。一方面原因是CPU、DSP等圖像處理硬件技術(shù)有了飛速進(jìn)步;另一方面是人們也開始嘗試不同的算法,包括統(tǒng)計(jì)方法和局部特征描述符的引入。進(jìn)入21世紀(jì),得益于互聯(lián)網(wǎng)興起和數(shù)碼相機(jī)出現(xiàn)帶來的海量數(shù)據(jù),加之機(jī)器學(xué)習(xí)方法的廣泛應(yīng)用,計(jì)算機(jī)視覺迅速發(fā)展。以往許多基于規(guī)則的處理方式,都被機(jī)器學(xué)習(xí)所替代,計(jì)算機(jī)能夠自動從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進(jìn)行識別和判斷。這一階段涌現(xiàn)出了非常多的應(yīng)用,包括典型的相機(jī)人臉檢測、安防人臉識別、車牌識別等等。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.2計(jì)算機(jī)視覺的發(fā)展歷程2010年以后,借助深度學(xué)習(xí)技術(shù),計(jì)算機(jī)視覺技術(shù)得到了爆發(fā)式增長和深度的產(chǎn)業(yè)化。通過深度神經(jīng)網(wǎng)絡(luò),各類視覺相關(guān)任務(wù)的識別精度都得到了大幅提升。在全球權(quán)威的計(jì)算機(jī)視覺競賽ILSVR上,比賽冠軍的模型錯(cuò)誤率在2010年和2011年分別為28.20%和25.80%,從2012年引入深度學(xué)習(xí)技術(shù)之后,后續(xù)6年分別為16.40%、11.70%、6.70%、3.57%、2.88%、2.25%,出現(xiàn)了顯著突破,識別錯(cuò)誤率已經(jīng)超過了人眼(5.10%)。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.3計(jì)算機(jī)視覺的主要任務(wù)計(jì)算機(jī)視覺的主要任務(wù)有圖像分類、目標(biāo)檢測、圖像分割、目標(biāo)定位與跟蹤等。(1)圖像分類。將圖像劃分為不同的類別,如狗、貓、花等類別。這是計(jì)算機(jī)視覺最基本的任務(wù)。(2)目標(biāo)檢測。在圖像中檢測不同的物體實(shí)例,并給出其邊界框(位置和大?。┖皖悇e標(biāo)簽。這是計(jì)算機(jī)視覺領(lǐng)域最主要的研究方向之一。分類任務(wù)關(guān)心整體,給出的是整張圖片的內(nèi)容描述,而檢測則關(guān)注特定的物體目標(biāo),要求同時(shí)獲得這一目標(biāo)的類別信息和位置信息。(3)圖像分割。將圖像分割成不同的區(qū)域,并對每個(gè)像素賦予相應(yīng)的類別標(biāo)簽,實(shí)現(xiàn)像素級的分類。這也是計(jì)算機(jī)視覺領(lǐng)域的重要研究內(nèi)容。(4)目標(biāo)定位與跟蹤。在視頻序列中定位與追蹤特定目標(biāo)的運(yùn)動軌跡。這一任務(wù)需要綜合應(yīng)用圖像分類、目標(biāo)檢測和圖像分割等技術(shù)。6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.4計(jì)算機(jī)視覺的主要應(yīng)用計(jì)算機(jī)視覺技術(shù)已經(jīng)在許多領(lǐng)域得到廣泛應(yīng)用,包括自動駕駛、醫(yī)學(xué)影像、安防監(jiān)控、機(jī)器人視覺、無人機(jī)視覺等。(1)自動駕駛。將計(jì)算機(jī)視覺用于檢測車道線、交通信號、車輛和行人等方面,理解場景并做出響應(yīng),實(shí)現(xiàn)自動駕駛。該應(yīng)用需要目標(biāo)檢測、目標(biāo)定位與跟蹤、圖像分類和圖像分割等技術(shù),是計(jì)算機(jī)視覺應(yīng)用的前沿與難點(diǎn)。(2)醫(yī)學(xué)影像。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于檢測和診斷疾病等方面,分析CT、MRI等醫(yī)學(xué)掃描圖像,實(shí)現(xiàn)計(jì)算機(jī)輔助診斷等工作。該應(yīng)用需要識別人體解剖結(jié)構(gòu)、器官和病灶,對醫(yī)療資源與治療方案的分配具有重要作用。(3)安防監(jiān)控。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于檢測特定目標(biāo)如人臉、車牌等方面,追蹤并分析可疑目標(biāo),實(shí)現(xiàn)視頻監(jiān)控與警戒等工作。該應(yīng)用需要在復(fù)雜場景下準(zhǔn)確檢測各類目標(biāo),并理解其活動規(guī)律,是智能安防的關(guān)鍵技術(shù)。

6.1

計(jì)算機(jī)視覺概述第6章計(jì)算機(jī)視覺6.1.3計(jì)算機(jī)視覺的主要應(yīng)用(4)機(jī)器人視覺。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于捕捉三維場景、建立環(huán)境地圖、檢測和識別各類對象,為機(jī)器人的自主導(dǎo)航與操作提供視覺信息。該應(yīng)用需要從圖像序列中重建三維空間,在動態(tài)場景下定位自身與目標(biāo)物體,是機(jī)器人技術(shù)的重要組成部分。(5)無人機(jī)視覺。將計(jì)算機(jī)視覺技術(shù)應(yīng)用于探索環(huán)境、規(guī)劃航線、避障和目標(biāo)跟蹤,實(shí)現(xiàn)無人機(jī)的自動駕駛與遙控。該應(yīng)用需要分析空中圖像,快速判斷周圍障礙與航線,準(zhǔn)確鎖定目標(biāo)和計(jì)算自身的位置和姿態(tài),對無人機(jī)操作具有關(guān)鍵作用。計(jì)算機(jī)視覺還應(yīng)用于手寫體識別、產(chǎn)品質(zhì)量檢測、農(nóng)業(yè)監(jiān)測、車牌識別等其他領(lǐng)域。它的應(yīng)用十分廣泛,隨著技術(shù)的發(fā)展其應(yīng)用范圍也在不斷擴(kuò)展,計(jì)算機(jī)視覺已成為一種通用技能,對各行各業(yè)都具有重要影響。

第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識別高職高專人工智能通識課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理如果將一幅圖像放大,就可以看到它是由一個(gè)個(gè)的小格子組成的(灰度圖),如下圖所示,每個(gè)小格子都是一個(gè)色塊,這些小格子被稱為像素。像素是組成圖像的基本單元,圖片是包含很多個(gè)像素的集合。像素是圖片中某個(gè)點(diǎn)的顏色,很多個(gè)像素點(diǎn)排列起來,就可以組成一個(gè)二維平面點(diǎn)陣,這就是圖像。比如計(jì)算機(jī)桌面背景的分辨率是1920×1080像素,那么就意味著像素點(diǎn)有1920列、1080行,共1920×1080(=2073600)個(gè)像素。色彩空間的表達(dá)通涉及RGB圖像、灰度等概念。

6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理在計(jì)算機(jī)中,灰度圖中的像素通常用0~255之間的一個(gè)整數(shù)數(shù)字表示,0表示黑色,255表示白色,數(shù)字從0變到255表示顏色由黑變白的一個(gè)過程。顏色越黑則數(shù)字越接近0,顏色越白則數(shù)字越接近255,如下圖所示??梢詫叶戎颠M(jìn)行歸一化處理,將分布于[0,255]區(qū)間的原始像素值歸一化至[0,1],也就是將0對應(yīng)為0,將255對應(yīng)為1,中間的數(shù)值按比例對應(yīng)至0~1之間。輸入特征的標(biāo)準(zhǔn)化有利于提升分類算法的學(xué)習(xí)效率和性能。

6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理在RGB彩色空間中,紅(Red)、綠(Green)、藍(lán)(Blue)為三原色,其他的顏色都可以由這三種顏色按照不同的比例混合后生成。同樣地,單色的可見光也可以被分解為這三種顏色的組合,這就是三原色原理,如圖所示。可以使用三個(gè)整數(shù)數(shù)字來代表RGB彩色空間中的一個(gè)像素,如(0,100,200),分別代表紅色部分的顏色值為0,綠色部分為100,藍(lán)色部分為200。RGB分別代表英文單詞Red、Green和Blue,其對應(yīng)的取值范圍都是0~255,數(shù)值越大表示顏色越純。所以,RGB像素不同的組合總數(shù)為:256×256×256=16777216種顏色,其中(0,0,0)表示黑色,(255,255,255)表示白色。

6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.1圖像的基本原理RGB圖像又稱為三通道彩色圖,分別對應(yīng)紅色、綠色和藍(lán)色通道,每個(gè)通道像素點(diǎn)的數(shù)值為0~255,表示每一種顏色的強(qiáng)度,如圖所示。灰度圖也可以叫作單通道圖。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)計(jì)算機(jī)視覺的圖像處理技術(shù)主要有圖像分類、目標(biāo)檢測、圖像分割、目標(biāo)定位與目標(biāo)跟蹤等。1.圖像分類圖像分類是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)任務(wù),也是應(yīng)用比較廣泛的任務(wù)。圖像分類用來解決“是什么”的問題,如針對給定的圖片,用標(biāo)簽描述圖片的主要內(nèi)容。圖像分類指的是根據(jù)各自在圖像信息中所反映的不同特征,把不同類別的目標(biāo)區(qū)分開來的圖像處理方法。圖像分類是計(jì)算機(jī)視覺中的基礎(chǔ)任務(wù),也是圖像檢測、語義分割、實(shí)例分割、圖像搜索等高級技術(shù)的基礎(chǔ)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)圖像分類包含了通用圖像分類和細(xì)粒度圖像分類。通用圖像分類主要解決識別圖像上主體類別的問題,如識別圖像中是貓還是狗,如圖所示;細(xì)粒度圖像分類則解決如何將大類進(jìn)行細(xì)分類的問題,如在狗這一類別下,識別其品種(如吉娃娃、泰迪、松獅、哈士奇等)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)圖像分類的效果容易受視角、光照、背景、形變、部分遮擋等的影響,所以在現(xiàn)實(shí)工程中的實(shí)現(xiàn)難度仍然不小。深度學(xué)習(xí)在圖像分類中的應(yīng)用以卷積神經(jīng)網(wǎng)絡(luò)為代表,主要通過監(jiān)督的方法讓計(jì)算機(jī)學(xué)習(xí)如何表達(dá)圖片的特征。目前,計(jì)算機(jī)視覺領(lǐng)域大多數(shù)優(yōu)秀的深度學(xué)習(xí)算法都需要大量的訓(xùn)練數(shù)據(jù)集,其中最為出名的便是ImageNet。但在實(shí)際工程中,通常只擁有少量的數(shù)據(jù)樣本。此時(shí),如果從頭訓(xùn)練(隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)),過擬合將是大概率事件。圖像分類在許多領(lǐng)域都有著廣泛的應(yīng)用。例如,安防領(lǐng)域的人臉識別和智能視頻分析、交通領(lǐng)域的交通場景識別、互聯(lián)網(wǎng)領(lǐng)域的基于內(nèi)容的圖像檢索和相冊自動歸類、醫(yī)學(xué)領(lǐng)域的醫(yī)學(xué)影像識別等。圖像分類問題面臨很多挑戰(zhàn),如視點(diǎn)變化、尺寸變化、類內(nèi)變化、圖像變形、圖像遮擋、照明條件和背景干擾等。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)2.目標(biāo)檢測目標(biāo)檢測是最常見的計(jì)算機(jī)視覺的圖像處理技術(shù)之一。目標(biāo)檢測用來解決“在哪里”的問題,如輸入一張圖片,輸出待檢測目標(biāo)的類別和所在位置的坐標(biāo)(矩形框的坐標(biāo)值表示)。目標(biāo)檢測采用算法判斷圖片中是否包含特定目標(biāo),并且在圖片中標(biāo)記該目標(biāo)的位置,通常用邊框或紅色方框把目標(biāo)圈起來。例如,查找圖片中是否有貓,如果找到了,就把它框起來,如圖所示。目標(biāo)檢測和圖像分類的區(qū)別是,目標(biāo)檢測側(cè)重于目標(biāo)的搜索,而且檢測的目標(biāo)必須要有固定的形狀和輪廓;圖像分類的目標(biāo)可以是任意對象,既可能是物體,也可能是一些屬性或者場景。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)2.目標(biāo)檢測計(jì)算機(jī)能夠“看到”的是圖像被編碼之后的數(shù)字矩陣,很難理解圖像或視頻中出現(xiàn)了人或物體這樣的高層語義的概念,也就更加難以定位目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域了。與此同時(shí),由于目標(biāo)會出現(xiàn)在圖像或視頻中的任意位置,并且目標(biāo)的形態(tài)千變?nèi)f化,且圖像或視頻的背景千差萬別,諸多因素都使得目標(biāo)檢測對計(jì)算機(jī)來說是一個(gè)具有挑戰(zhàn)性的技術(shù)。目標(biāo)檢測是一項(xiàng)十分重要的計(jì)算機(jī)視覺的圖像處理技術(shù),很多應(yīng)用,如目標(biāo)定位與跟蹤、圖像分割等,都要基于目標(biāo)檢測,找不到目標(biāo)就談不上后續(xù)的處理。由此可見,目標(biāo)檢測是大多數(shù)計(jì)算機(jī)視覺系統(tǒng)的關(guān)鍵組成部分。目標(biāo)檢測是一個(gè)困難的技術(shù),影響其檢測成功與否的因素太多,近二十年來,根據(jù)其發(fā)展歷程,目標(biāo)檢測技術(shù)大致劃分為兩種技術(shù),2014年之前的傳統(tǒng)目標(biāo)檢測技術(shù)和2014年之后的基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)(1)傳統(tǒng)目標(biāo)檢測技術(shù)不同于分類任務(wù),目標(biāo)檢測要用方框?qū)ψR別的物體進(jìn)行標(biāo)記并判斷其類別,方框中的圖像要盡可能完整地包含待識別的物體。目標(biāo)檢測在進(jìn)行分類和定位時(shí)幾乎是同時(shí)完成的。傳統(tǒng)目標(biāo)檢測技術(shù)是基于傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)算法的目標(biāo)檢測技術(shù),也稱為滑動窗口目標(biāo)檢測技術(shù),如圖所示,該技術(shù)分為3個(gè)步驟:①使用不同大小的滑動窗口框住待測圖像中的某一部分作為候選區(qū)域,完成定位;②提取該候選區(qū)域相關(guān)的視覺特征,如人臉檢測常用的HOG特征、Harr特征等;③使用訓(xùn)練完成的分類器進(jìn)行分類。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)(1)傳統(tǒng)目標(biāo)檢測技術(shù)每次滑動窗口時(shí),該技術(shù)會對當(dāng)前窗口執(zhí)行事先訓(xùn)練好的分類算法,如果當(dāng)前窗口得到較高的分類概率,則認(rèn)為檢測到了物體。在對不同大小的方框都進(jìn)行檢測后,會得到不同窗口檢測到的物體標(biāo)記,檢測到物體的窗口被稱為候選框。由于這些窗口存在重復(fù)的部分,因此需要通過計(jì)算兩個(gè)窗口的交并比(IntersectionoverUnion,IoU),采用非極大值抑制的方法進(jìn)行篩選,最終獲得檢測到的物體。交并比用來描述兩個(gè)方框的重合程度,交并比計(jì)算公式為:IoU=(A∩B)/(A∪B),即兩個(gè)候選框覆蓋區(qū)域的交集與并集的面積比。交并比越大,說明兩個(gè)候選框重合度越高。交并比可以用來評估檢測結(jié)果和真實(shí)結(jié)果的差距,也可以用來衡量兩個(gè)候選框之間的關(guān)系。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)(1)傳統(tǒng)目標(biāo)檢測技術(shù)非極大值抑制就是根據(jù)分類算法對候選框中預(yù)測到對象的概率排序,首先用最大概率候選框與其他候選框計(jì)算交并比,丟棄低于閾值的候選框。然后從沒有被丟棄的候選框中再找出最大概率候選框。重復(fù)上述操作,直到找到所有被保留下來的候選框。在傳統(tǒng)目標(biāo)檢測方法中,雖然許多學(xué)者提出了很多新的改進(jìn)方法,但是傳統(tǒng)目標(biāo)檢測技術(shù)始終有兩個(gè)重要的缺陷:①使用滑動窗口策略進(jìn)行區(qū)域選擇時(shí)針對性不強(qiáng),效率較低;②手動設(shè)計(jì)的特征對于目標(biāo)的多樣性并沒有很好的健壯性。深度學(xué)習(xí)的崛起使目標(biāo)檢測精度不斷提升,因此基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)得到了廣大研究者的關(guān)注,成為機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)之一。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)(2)基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)可表述為圖像的特征提取與目標(biāo)識別和定位,其用到的主要深度學(xué)習(xí)模型是卷積神經(jīng)網(wǎng)絡(luò)。2012年,辛頓(Hinton)教授的團(tuán)隊(duì)利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)設(shè)計(jì)了AlexNet,使之在ImageNet問題上打敗了所有傳統(tǒng)目標(biāo)檢測技術(shù)的團(tuán)隊(duì),CNN因此成為計(jì)算機(jī)視覺領(lǐng)域最為重要的工具之一,并推動機(jī)器視覺研究進(jìn)入了一個(gè)新的階段,隨后,基于CNN的目標(biāo)檢測技術(shù)也逐漸取代了傳統(tǒng)目標(biāo)檢測技術(shù)。目前,可以將現(xiàn)有的基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)大致分為兩類:一類為基于候選區(qū)域的目標(biāo)檢測技術(shù),具有代表性的是R-CNN、SPP-NET、FastR-CNN、FasterR-CNN和MaskR-CNN等;另一類為基于回歸預(yù)測的目標(biāo)檢測技術(shù),具有代表性的是SSD、YOLO、YOLOv2、YOLOv3等。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)①R-CNN。R-CNN(Region-CNN,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)),作為將深度學(xué)習(xí)引入目標(biāo)檢測技術(shù)的開山之作,在目標(biāo)檢測技術(shù)發(fā)展歷史上具有重大意義。R-CNN借鑒滑動窗口思想,采用對區(qū)域進(jìn)行識別的方案。針對輸入的圖像,R-CNN借助圖像的邊緣、紋理、色彩、顏色變化等信息,采用選擇性搜索算法(SelectiveSearch),生成約2000個(gè)可能包含物體的候選區(qū)域。每個(gè)候選區(qū)域都被調(diào)整成固定大小,并被送入一個(gè)預(yù)先訓(xùn)練過的CNN模型中,以用于提取特征(CNN模型中的參數(shù)會在訓(xùn)練過程中進(jìn)行微調(diào))。將提取到的特征送入一個(gè)分類器中,預(yù)測候選區(qū)域中所含物體屬于每個(gè)類別的概率。得到所有分類成功的區(qū)域后,通過非極大值抑制輸出結(jié)果。由于候選區(qū)域?qū)δ繕?biāo)檢測技術(shù)的成敗起著關(guān)鍵作用,所以該技術(shù)就以Region首字母R加CNN進(jìn)行命名。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)②YOLO。YOLO是YouOnlyLookOnce的縮寫,表示“你只看一次”,是指看一眼圖像就能知道有哪些對象及它們的位置。YOLO將生成候選區(qū)域和識別這兩個(gè)階段合二為一,訓(xùn)練出一個(gè)看起來類似普通CNN的神經(jīng)網(wǎng)絡(luò),因此能夠直接得到包含邊界框(即物體所在位置的標(biāo)記)和類別預(yù)測的輸出。YOLO也并沒有完全去掉候選區(qū),而是將輸入圖像劃分為若干個(gè)網(wǎng)格,在每個(gè)網(wǎng)格中進(jìn)行預(yù)測。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)將一幅圖像輸入到Y(jié)OLO模型中,先將圖像分成7×7的網(wǎng)格,如圖所示,每一個(gè)網(wǎng)格預(yù)測出2個(gè)物體邊界框(x,y,w,h)以及對應(yīng)于每一個(gè)邊界框的置信分?jǐn)?shù)(概率),以用于表示網(wǎng)格包含物體(20個(gè)類別)的準(zhǔn)確度和產(chǎn)生的邊界框精確的程度。最后的輸出是一個(gè)7×7×30張量。對于輸入圖像中的每個(gè)對象,先找到其中心點(diǎn)。比如,圖中的自行車,其中心點(diǎn)在黃色圓點(diǎn)位置,中心點(diǎn)落在黃色網(wǎng)格內(nèi),所以這個(gè)黃色網(wǎng)格對應(yīng)的30維向量中,自行車的概率是1,其它對象的概率是0。所有其它48個(gè)網(wǎng)格的30維向量中,該自行車的概率都是0。這就是所謂的“中心點(diǎn)所在的網(wǎng)格對預(yù)測該對象負(fù)責(zé)”。圖中狗和汽車的分類概率也采用同樣的技術(shù)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)3.圖像分割圖像分割是計(jì)算機(jī)視覺領(lǐng)域技術(shù)的重要研究方向之一,它根據(jù)圖片的灰度、顏色、結(jié)構(gòu)和紋理等特征,將圖像分成若干具有相似性質(zhì)的區(qū)域。與目標(biāo)檢測技術(shù)相比較,圖像分割技術(shù)更適用于精細(xì)的圖像識別、更加精確的目標(biāo)定位,以及圖像的語義理解。圖像分割是指將圖像細(xì)分為多個(gè)圖像子區(qū)域,使得圖像更加易于理解和分析。圖像分割主要用于定位物體的邊界,即將每個(gè)像素進(jìn)行分類,使得同一物體具有共同的類別和屬性,即可展現(xiàn)出共同的視覺特性。對圖像進(jìn)行分割時(shí)一般會使用某種屬性(灰度、彩色、空間紋理、幾何形狀等)的相似度量方法,使得同一個(gè)子區(qū)域中的像素在此技術(shù)的計(jì)算下都很相似,而不同區(qū)域中的像素則差異很大,即類內(nèi)差異小,類間差異大。圖像分割的初級操作就是將圖像的前景和背景進(jìn)行分割,前景一般包含大家關(guān)心的物體。例如,將包括人的區(qū)域與背景分割開。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)根據(jù)不同的分割粒度,圖像分割可以分為語義分割和實(shí)例分割。(1)語義分割。語義分割(SematicSegmentation)需要預(yù)測出圖像中的每一個(gè)像素點(diǎn)屬于哪一類的標(biāo)簽,如像素是屬于人、羊、狗、車等。語義分割比目標(biāo)檢測預(yù)測的邊框更加精細(xì)。可以簡單地將語義分割任務(wù)理解為:用一種顏色代表一個(gè)類別,用另一種顏色代表另外一個(gè)類別,將所有類別用不同顏色代表,然后對原始圖像對應(yīng)大小的白紙上進(jìn)行涂色操作(不能用白色代表類別),盡量讓涂色的結(jié)果與原始圖片表達(dá)的類別接近。(2)實(shí)例分割。語義分割可以將不同類別的物體區(qū)別開來,而實(shí)例分割則是在語義分割的基礎(chǔ)上,進(jìn)一步區(qū)分出同一類中的不同個(gè)體。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)圖像分類、目標(biāo)檢測、語義分割、實(shí)例分割的區(qū)別如下圖所示。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)常見的圖像分割技術(shù)有基于閾值的分割、基于邊緣的分割、基于區(qū)域的分割(區(qū)域生長、區(qū)域分裂合并)和基于深度學(xué)習(xí)的分割等技術(shù)。在深度學(xué)習(xí)中,圖像分割是一種端到端的像素級分類技術(shù),就是給定一張圖片,對圖片上的每一個(gè)像素進(jìn)行分類,圖像分割后的輸出是一張分割圖。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)4.目標(biāo)定位與目標(biāo)跟蹤圖像分類技術(shù)解決了“是什么”的問題,如果還想知道圖像中的目標(biāo)具體在圖像的什么位置,就需要用到目標(biāo)定位與目標(biāo)跟蹤技術(shù)。目標(biāo)定位與目標(biāo)跟蹤的結(jié)果通常是以包圍盒的形式返回的。目標(biāo)定位與目標(biāo)跟蹤是指,在給定場景中跟蹤感興趣的具體一個(gè)對象或多個(gè)對象的過程。簡單地講,給出目標(biāo)在跟蹤視頻第一幀中的初始狀態(tài)(如位置、尺寸),自動估計(jì)目標(biāo)物體在后續(xù)幀中的狀態(tài),如圖所示。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.2圖像處理技術(shù)4.目標(biāo)定位與目標(biāo)跟蹤目標(biāo)定位與目標(biāo)跟蹤是利用圖像序列的上下文信息,對目標(biāo)的外觀和運(yùn)動信息進(jìn)行建模,從而對目標(biāo)的運(yùn)動狀態(tài)進(jìn)行預(yù)測并標(biāo)定目標(biāo)位置。目標(biāo)定位與目標(biāo)跟蹤是計(jì)算機(jī)視覺中的一個(gè)課題,具有重要的理論研究意義和應(yīng)用價(jià)值,在智能視頻監(jiān)控系統(tǒng)、智能人機(jī)交互、智能交通和視覺導(dǎo)航系統(tǒng)等領(lǐng)域被廣泛應(yīng)用。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)計(jì)算機(jī)視覺系統(tǒng)是為完成視覺任務(wù)而構(gòu)造的計(jì)算機(jī)系統(tǒng),它由多個(gè)功能模塊按照一定的結(jié)構(gòu)組成,各模塊之間要互相聯(lián)系以保證根據(jù)一定的流程實(shí)現(xiàn)系統(tǒng)功能。計(jì)算機(jī)視覺系統(tǒng)通常包含有圖像采集、圖像預(yù)處理、特征檢測、圖像分割、圖像的高級處理等功能模塊。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)1.圖像采集計(jì)算機(jī)視覺技術(shù)是以獲取客觀世界的圖像為基礎(chǔ)的。為了采集圖像,需要使用特定的采集裝置或設(shè)備,這里的裝置和設(shè)備可以是各種光敏攝像機(jī)、遙感設(shè)備、X射線斷層攝影儀、雷達(dá)、超聲波接收器等?;诓煌牟杉b置和設(shè)備,產(chǎn)生的圖像可以是二維圖、三維圖或一個(gè)圖像序列。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)2.圖像預(yù)處理采集圖像后,為了更方便、更有效地獲取其中的信息,提高后續(xù)加工的效率,需要對圖像進(jìn)行一定的預(yù)處理。一方面,圖像在采集中有可能發(fā)生幾何失真,因此為恢復(fù)場景和圖像的空間對應(yīng)關(guān)系,需要進(jìn)行坐標(biāo)變換。另一方面,在對圖像進(jìn)行處理前,對圖像的幅度也需要進(jìn)行一定的調(diào)整,以改善圖像的視覺質(zhì)量。另外,圖像在采集過程中會受到噪聲等干擾,因此需要消除這些干擾的影響。所以,圖像預(yù)處理在計(jì)算機(jī)視覺系統(tǒng)中是不可或缺的。對圖像進(jìn)行預(yù)處理可采用多種方法。首先,可借助坐標(biāo)變換對出現(xiàn)的幾何失真進(jìn)行校正。其次,可直接利用調(diào)整圖像灰度值的映射來增強(qiáng)圖像。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)2.圖像預(yù)處理由于圖像的視覺效果和其直方圖(描述了圖像的統(tǒng)計(jì)特性)有對應(yīng)關(guān)系,因此可借助對圖像直方圖的修正來改善視覺效果。最后,還可以考慮利用像素及其鄰域像素的性質(zhì)對圖像進(jìn)行加工,利用多個(gè)像素的綜合信息來獲得更好的處理效果。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)3.特征檢測特征檢測也稱基元檢測,是指檢測圖像中有顯著特點(diǎn)的基本單元。通常,基元主要有:邊緣、角點(diǎn)、直線段、圓、孔、橢圓及其他興趣點(diǎn)等(也包括它們的一些結(jié)合體),對這些基元的檢測是常見的工作。相對來說,邊緣是圖像中比較低層的基元,是組成許多其他基元的基礎(chǔ)。邊緣是像素灰度值發(fā)生加速變化而不連續(xù)的結(jié)果。邊緣檢測結(jié)果如下圖所示。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)3.特征檢測角點(diǎn)可被看作是由兩個(gè)邊緣以接近直角相接合而構(gòu)成的基元。直線段可被看作是兩個(gè)鄰近又互相平行的邊緣相結(jié)合而構(gòu)成的基元。圓是一種常見的幾何形狀,圓周可被看作是將直線段彎曲、頭尾相接而得到的??椎男螤钆c圓相同,但孔一般表示比較小的圓。橢圓可被看作是圓的擴(kuò)展,圓是橢圓的特例。由于基元密切相關(guān),所以有許多比較典型的檢測技術(shù)會將它們結(jié)合考慮。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)4.圖像分割圖像分割指將感興趣的目標(biāo)區(qū)域從圖像中分離并提取出來,也可看作是特征檢測的一種推廣。將目標(biāo)從圖像中分割出來有兩種方法。一種方法基于目標(biāo)輪廓,即考慮該目標(biāo)與圖像其他部分的界限,如果能確定目標(biāo)輪廓,就可將目標(biāo)與圖像中的其他部分區(qū)分開。另一種方法是基于區(qū)域,即考慮所有屬于目標(biāo)區(qū)域的像素(包括邊界和內(nèi)容像素),如果能確定每個(gè)屬于目標(biāo)的像素,就可獲得完整的目標(biāo)。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)4.圖像分割在基于目標(biāo)輪廓的方法中,利用邊緣檢測方法可以檢測出目標(biāo)輪廓上的邊緣點(diǎn),將這些點(diǎn)看作目標(biāo)的邊界點(diǎn),并在此基礎(chǔ)上將這些邊界點(diǎn)連接起來,就可獲得目標(biāo)輪廓,從而將目標(biāo)分割出來?;谀繕?biāo)輪廓搜索方法也可以將目標(biāo)進(jìn)行分割,首先在全圖中檢測局部邊緣點(diǎn),然后再將邊界點(diǎn)連接起來構(gòu)成目標(biāo)邊界。輪廓搜索技術(shù)將檢測邊緣點(diǎn)和連接邊界點(diǎn)結(jié)合進(jìn)行,邊檢測邊連接,最后獲得目標(biāo)輪廓,這種方法考慮了圖像中邊界的全局信息,在圖像受噪聲影響較大時(shí)仍可取得較魯棒的分割結(jié)果。6.2圖像處理與視覺系統(tǒng)第6章計(jì)算機(jī)視覺6.2.3計(jì)算機(jī)視覺系統(tǒng)5.圖像的高級處理圖像的高級處理有理解圖像內(nèi)容的含義,是計(jì)算機(jī)視覺中的高階處理,主要工作是在圖像分割的基礎(chǔ)上再對分割出的圖像塊進(jìn)行理解。圖像的高級處理首先采用模式識別或機(jī)器學(xué)習(xí)方法,如利用卷積神經(jīng)網(wǎng)絡(luò)等算法,訓(xùn)練出合理的模型,然后再對目標(biāo)進(jìn)行識別、分類等操作。第六章計(jì)算機(jī)視覺6.1計(jì)算機(jī)視覺概述6.2圖像處理與視覺系統(tǒng)6.3人臉識別高職高專人工智能通識課規(guī)劃教材6.4本章實(shí)訓(xùn)6.5拓展知識6.3人臉識別第6章計(jì)算機(jī)視覺6.3.1人臉識別概述人臉識別(FaceRecognition),是基于人的臉部特征信息進(jìn)行身份識別的一種生物識別技術(shù),簡單來說就是,通過人的面部照片實(shí)現(xiàn)身份認(rèn)證的技術(shù)。照片既可以通過相機(jī)拍照獲得,也可以通過視頻截圖獲得;既可以是配合狀態(tài)下的正面照(如護(hù)照照片),也可以是非配合狀態(tài)下的側(cè)面照或遠(yuǎn)景照(如監(jiān)控錄像)。人臉識別可細(xì)分為兩種認(rèn)證方式,一種認(rèn)證方式是身份確認(rèn)(Verification),另一種認(rèn)證方式是身份辨認(rèn)(Identification)。在身份確認(rèn)中,計(jì)算機(jī)需要對兩張人臉照片進(jìn)行對比,以判斷是否為同一個(gè)人。這一認(rèn)證方式通常用于信息安全領(lǐng)域,如海關(guān)身份認(rèn)證、ATM刷臉取款等。在身份辨認(rèn)中,當(dāng)給定一張目標(biāo)人的面部照片時(shí),人臉識別系統(tǒng)需要在一個(gè)龐大的照片數(shù)據(jù)庫中進(jìn)行搜索,找到與給定照片最相近的照片,從而判斷出目標(biāo)人的身份。這一認(rèn)證方式一般應(yīng)用于公共安全領(lǐng)域,如刑偵領(lǐng)域的嫌疑人排查。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.1人臉識別概述在實(shí)際應(yīng)用中,可能需要同時(shí)用到身份確認(rèn)和身份辨認(rèn)兩種認(rèn)證方式。例如,在一個(gè)公司的門禁系統(tǒng)中,對一張待認(rèn)證的人臉照片,首先需要搜索公司的所有員工的照片庫,以找到匹配度最高的照片作為身份確認(rèn)的候選照片,之后還需要判斷這兩張照片的匹配度是否超過了預(yù)設(shè)的閾值,只有超過該閾值,門禁系統(tǒng)才能打開。因此,這一系統(tǒng)同時(shí)包含了身份確認(rèn)和身份辨認(rèn)兩種認(rèn)證方式。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.1人臉識別概述人臉識別系統(tǒng)的研究始于20世紀(jì)60年代。20世紀(jì)80年代后,人臉識別系統(tǒng)隨著計(jì)算機(jī)技術(shù)和光學(xué)成像技術(shù)的推廣而得到發(fā)展。而人臉識別系統(tǒng)真正進(jìn)入初級的應(yīng)用階段則在20世紀(jì)90年代后期,并且以美國、德國和日本的技術(shù)實(shí)現(xiàn)為主。人臉識別系統(tǒng)成功的關(guān)鍵在于是否擁有尖端的核心算法,并使識別結(jié)果具有實(shí)用化的識別率和識別速度?!叭四樧R別系統(tǒng)”集成了人工智能、機(jī)器識別、機(jī)器學(xué)習(xí)、模型理論、專家系統(tǒng)、視頻圖像處理等多種專業(yè)技術(shù),同時(shí)需結(jié)合中間值處理的理論與實(shí)現(xiàn),是生物特征識別的最新應(yīng)用,其核心技術(shù)的實(shí)現(xiàn)展現(xiàn)了弱人工智能向強(qiáng)人工智能的轉(zhuǎn)化。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.1人臉識別概述在人臉識別技術(shù)領(lǐng)域,值得一提的是我國科學(xué)家湯曉鷗。湯曉鷗(1968年1月—2023年12月),男,出生于遼寧省鞍山市,是我國人工智能領(lǐng)域的杰出代表,生前為香港中文大學(xué)信息工程學(xué)系教授,兼任中國科學(xué)院深圳先進(jìn)技術(shù)研究院副院長、上海人工智能實(shí)驗(yàn)室主任,IJCV(計(jì)算機(jī)視覺國際期刊)首位華人主編,全球人臉識別技術(shù)的“開拓者”和“探路者”,商湯科技創(chuàng)始人。早在1992年,在美國麻省理工學(xué)院攻讀博士學(xué)位的湯曉鷗就開始接觸人臉識別的算法。獲得博士學(xué)位后,他先后在香港中文大學(xué)和微軟亞洲研究院工作,繼續(xù)從事計(jì)算機(jī)視覺相關(guān)領(lǐng)域的研究工作。2001年,他創(chuàng)立了香港中文大學(xué)多媒體實(shí)驗(yàn)室。2014年3月,湯曉鷗團(tuán)隊(duì)發(fā)布研究成果——基于原創(chuàng)的人臉識別算法,其準(zhǔn)確率達(dá)到98.52%,首次超越人眼識別能力(97.53%)。自2014年6月起,湯曉鷗實(shí)驗(yàn)室發(fā)表的DeepID系列算法,逐步將人臉識別的準(zhǔn)確率提升至99.55%,開啟了人臉識別行業(yè)技術(shù)落地的時(shí)代。2016年,湯曉鷗領(lǐng)軍的中國人工智能團(tuán)隊(duì),入選世界十大人工智能先鋒實(shí)驗(yàn)室,成為亞洲地區(qū)唯一入選的實(shí)驗(yàn)室。2020年,湯曉鷗入選“人工智能全球2000位最具影響力學(xué)者榜”。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.1人臉識別概述1.人臉識別的優(yōu)勢人臉識別的優(yōu)勢在于其自然性和不被檢測個(gè)體察覺的特點(diǎn)。所謂自然性,是指該識別方式同人類(甚至其他生物)進(jìn)行個(gè)體識別時(shí)所利用的生物特征相同。例如,人類也是通過觀察和比較人臉以對身份進(jìn)行區(qū)分和確認(rèn)的。其他具有自然性的識別還有語音識別、體形識別等。不被檢測個(gè)體察覺的特點(diǎn)對于人臉識別方法也很重要,這會使該識別方法不令人反感,并且因?yàn)椴蝗菀滓鹑说淖⒁舛蝗菀妆黄垓_。人臉識別系統(tǒng)利用可見光獲取人臉圖像信息,而不同于指紋識別或者虹膜識別,需要利用電子壓力傳感器采集指紋,或者利用紅外線采集虹膜圖像,這些特殊的采集方式很容易被檢測個(gè)體察覺,從而更有可能被偽裝所欺騙。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.1人臉識別概述2.人臉識別的困難人臉識別的困難主要是由人臉作為生物特征的特點(diǎn)所造成的。在視覺特點(diǎn)上,首先,不同個(gè)體之間的區(qū)別不大,所有的人臉的結(jié)構(gòu)都相似,甚至人臉器官的結(jié)構(gòu)外形都很相似。這樣的特點(diǎn)對于利用人臉進(jìn)行定位是有利的,但是對于利用人臉區(qū)分人類個(gè)體是不利的。其次,人臉的外形很不穩(wěn)定,人可以通過臉部的變化產(chǎn)生很多表情,而在不同觀察角度,人臉的視覺圖像也相差很大;另外,人臉識別還受光照條件(例如白天和夜晚,室內(nèi)和室外等)、人臉的遮蓋物(例如口罩、墨鏡、頭發(fā)、胡須等)、年齡等多方面因素的影響。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟讓我們首先來回憶一下,人在識別一個(gè)訪客身份時(shí)采取的基本步驟。首先,通過眼睛把該訪客的整體形象印入腦海(圖像采集);再從這一整體形象中找到人臉的位置(人臉定位);如果位置不正,則會努力調(diào)整角度,直到看到正面清晰的人臉(正規(guī)化);接下來,需定位這張臉上的主要特征,如整體輪廓、雙眼間距、鼻子形狀等(特征提?。?,如圖所示;最后,會依據(jù)這些特征,在腦海中進(jìn)行對比和搜索,最終從記憶中找到一張匹配度最高的人臉,從而確定訪客的身份(模式匹配)。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟人臉識別一般可分為四個(gè)步驟:人臉圖像采集及檢測、人臉圖像預(yù)處理、人臉圖像特征提取以及人臉圖像匹配與識別,如圖所示。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟1.人臉圖像采集及檢測不同的人臉圖像都能通過攝像頭采集下來,比如靜態(tài)圖像、動態(tài)圖像、不同的位置、不同表情等都可以得到很好的采集。當(dāng)用戶在采集設(shè)備的拍攝范圍內(nèi)時(shí),采集設(shè)備會自動搜索并拍攝用戶的人臉圖像。人臉檢測在實(shí)際中主要用于人臉識別的預(yù)處理,即在圖像中準(zhǔn)確標(biāo)定出人臉的位置和大小。人臉圖像中包含的模式特征十分豐富,如直方圖特征、顏色特征、模板特征、結(jié)構(gòu)特征等。人臉檢測就是把這其中有用的信息挑出來,并利用這些特征實(shí)現(xiàn)人臉檢測。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟2.人臉圖像預(yù)處理對于人臉的圖像預(yù)處理是基于人臉檢測結(jié)果,對圖像進(jìn)行處理并最終服務(wù)于特征提取的過程。系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機(jī)干擾,往往不能直接使用,必須在圖像處理的早期階段對它進(jìn)行灰度校正、噪聲過濾等圖像預(yù)處理。對于人臉圖像而言,其預(yù)處理過程主要包括人臉圖像的光線補(bǔ)償、灰度變換、直方圖均衡化、歸一化、幾何校正、濾波以及銳化等。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟3.人臉圖像特征提取人臉識別系統(tǒng)可使用的特征通常分為視覺特征、像素統(tǒng)計(jì)特征、人臉圖像變換系數(shù)特征、人臉圖像代數(shù)特征等。人臉圖像特征提取,也稱人臉表征,它是對人臉的某些特征進(jìn)行建模的過程。人臉圖像特征提取的方法分為兩種:一種是基于知識的表征方法;另一種是基于代數(shù)特征或統(tǒng)計(jì)學(xué)習(xí)的表征方法。基于知識的表征方法主要是根據(jù)人臉器官的形狀描述以及它們之間的距離特性來獲得有助于人臉分類的特征數(shù)據(jù),其特征分量通常包括特征點(diǎn)間的歐氏距離、曲率和角度等。人臉由眼睛、鼻子、嘴、下巴等局部構(gòu)成,對這些局部和它們之間結(jié)構(gòu)關(guān)系的幾何描述,可作為識別人臉的重要特征,這些特征被稱為幾何特征?;谥R的表征方法主要包括基于幾何特征的方法和模板匹配法。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟3.人臉圖像特征提取基于代數(shù)特征或統(tǒng)計(jì)學(xué)習(xí)的表征方法的基本思想是,將人臉在空域內(nèi)的高維描述轉(zhuǎn)化為頻域或者其他空間內(nèi)的低維描述?;诖鷶?shù)特征的表征方法分為線性投影表征方法和非線性投影表征方法?;诰€性投影的方法主要有主成分分析法,或稱K-L變換、獨(dú)立成分分析法和Fisher線性判別分析法。非線性特征提取方法有兩個(gè)重要的分支:基于核的特征提取技術(shù)和以流形學(xué)習(xí)為主導(dǎo)的特征提取技術(shù)。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.2人臉識別一般步驟4.人臉圖像匹配與識別提取的人臉圖像的特征數(shù)據(jù)與數(shù)據(jù)庫中存儲的特征模板進(jìn)行搜索匹配時(shí),首先設(shè)定一個(gè)閾值,當(dāng)相似度超過這一閾值,則把匹配得到的結(jié)果輸出。人臉識別系統(tǒng)需要將待識別的人臉特征與已得到的人臉特征模板進(jìn)行比較,然后根據(jù)相似程度對人臉的身份信息進(jìn)行判斷。此外,人臉識別系統(tǒng)包含活體鑒別環(huán)節(jié),即區(qū)別識別的特征信號是否來自于真正的生物體。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)人臉識別基本技術(shù)主要有人臉檢測、人臉配準(zhǔn)、人臉屬性識別、人臉特征提取、人臉比對、人臉驗(yàn)證、人臉識別、人臉檢索、人臉聚類、人臉活體檢測等。(1)人臉檢測。人臉檢測是檢測出圖像中人臉?biāo)谖恢玫囊豁?xiàng)技術(shù),如圖所示。人臉檢測技術(shù)的輸入是一張圖片,輸出是人臉框坐標(biāo)序列(0個(gè)人臉框、1個(gè)人臉框或多個(gè)人臉框)。一般情況下,輸出的人臉坐標(biāo)框?yàn)橐粋€(gè)正朝上的正方形,但也有一些人臉檢測技術(shù)輸出的是正朝上的矩形,或者帶旋轉(zhuǎn)方向的矩形。常見的人臉檢測技術(shù)基本上是一個(gè)“掃描”加“判斷”的過程,即在圖像范圍內(nèi)掃描,再逐個(gè)判定候選區(qū)域是否是人臉。因此,人臉檢測技術(shù)的計(jì)算速度與圖像尺寸、圖像內(nèi)容有關(guān)。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(2)人臉配準(zhǔn)。人臉配準(zhǔn)是定位出人臉上五官關(guān)鍵點(diǎn)坐標(biāo)的一項(xiàng)技術(shù),如圖所示。人臉配準(zhǔn)技術(shù)的輸入是一張“人臉圖片”和“人臉坐標(biāo)框”,輸出是五官關(guān)鍵點(diǎn)的坐標(biāo)序列。五官關(guān)鍵點(diǎn)的數(shù)量是預(yù)先設(shè)定好的一個(gè)固定數(shù)值,可以根據(jù)不同的語義來定義(常見的有5個(gè)關(guān)鍵點(diǎn)、68個(gè)關(guān)鍵點(diǎn)、90個(gè)關(guān)鍵點(diǎn)等固定值)。當(dāng)前效果較好的一些人臉配準(zhǔn)技術(shù)基本上都是通過深度學(xué)習(xí)框架實(shí)現(xiàn)的,這些技術(shù)的特點(diǎn)是基于人臉檢測的坐標(biāo)框,按某種事先設(shè)定規(guī)則將人臉區(qū)域摳取出來,縮放到固定尺寸,然后進(jìn)行關(guān)鍵點(diǎn)位置的計(jì)算。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(3)人臉屬性識別。人臉屬性識別是識別出人臉的性別、年齡、姿態(tài)、表情等屬性值的一項(xiàng)技術(shù),如圖所示。一般的人臉屬性識別技術(shù)的輸入是一張“人臉圖”和“人臉五官關(guān)鍵點(diǎn)坐標(biāo)”,輸出是人臉相應(yīng)的屬性值(如性別、年齡、表情等)。人臉屬性識別技術(shù)一般會根據(jù)人臉五官關(guān)鍵點(diǎn)坐標(biāo),將人臉對齊(經(jīng)過旋轉(zhuǎn)、縮放、摳取等操作后,將人臉調(diào)整到預(yù)定的大小和形態(tài)),然后進(jìn)行屬性分析。人臉屬性識別技術(shù)是對一類技術(shù)的統(tǒng)稱,包括性別識別、年齡估計(jì)、姿態(tài)估計(jì)、表情識別等。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(4)人臉特征提取。人臉特征提取是將一張人臉圖像轉(zhuǎn)化為一串固定長度的數(shù)值的過程,這個(gè)數(shù)值串被稱為人臉特征,能夠表征一個(gè)人的人臉特點(diǎn),如圖所示。人臉特征提取技術(shù)的輸入是一張“人臉圖”和“人臉五官關(guān)鍵點(diǎn)坐標(biāo)”,輸出是對應(yīng)的一個(gè)數(shù)值串(特征)。人臉特征提取技術(shù)會根據(jù)人臉五官關(guān)鍵點(diǎn)坐標(biāo),將人臉對齊預(yù)定模式,然后計(jì)算特征。近年來,深度學(xué)習(xí)基本統(tǒng)治了人臉特征提取技術(shù)。早期的人臉特征提取模型都較大,速度較慢,且僅使用于后臺服務(wù)。但現(xiàn)在已經(jīng)可以實(shí)現(xiàn)在基本保證效果的前提下,將模型大小和運(yùn)算速度優(yōu)化到移動端可用的狀態(tài)。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(5)人臉比對。人臉比對是衡量兩個(gè)人臉之間相似度的技術(shù),如圖所示。該技術(shù)的輸入是兩個(gè)人臉特征(人臉特征由前面的人臉特征技術(shù)獲得),輸出是兩個(gè)特征之間的相似度。人臉驗(yàn)證、人臉識別、人臉檢索都是在人臉比對的基礎(chǔ)上,增加一些算法策略來實(shí)現(xiàn)的?;谌四槺葘?,可衍生出人臉驗(yàn)證、人臉識別、人臉檢索、人臉聚類等技術(shù)。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(6)人臉驗(yàn)證。人臉驗(yàn)證是判定兩張人臉圖是否為同一個(gè)人的技術(shù)。它的輸入是兩個(gè)人臉特征,通過人臉比對獲得兩個(gè)人臉特征的相似度,并與預(yù)設(shè)的閾值進(jìn)行比較,相似度大于閾值,則為同一個(gè)人;相似度小于閾值,則為不同的人,如圖所示。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(7)人臉識別。人臉識別是通過識別輸入人臉圖以對應(yīng)身份的技術(shù)。它的輸入是一個(gè)人臉特征,通過與注冊在庫中N個(gè)身份對應(yīng)的特征進(jìn)行逐個(gè)對比,查找出一個(gè)與輸入特征相似度最高的特征。將這個(gè)最高相似度值和預(yù)設(shè)的閾值進(jìn)行比較,如果大于閾值,則返回該特征對應(yīng)的身份;反之,則返回“不在庫中”,如圖所示。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(8)人臉檢索。人臉檢索是查找與輸入人臉圖相似的人臉序列的技術(shù)。人臉檢索是通過將輸入的人臉圖和一個(gè)集合中的所有人臉圖進(jìn)行比對,根據(jù)比對后的相似度對集合中的人臉圖進(jìn)行排序。根據(jù)相似度從高到低排序的人臉序列就是人臉檢索的結(jié)果,如圖所示。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(9)人臉聚類。人臉聚類是將一個(gè)集合內(nèi)的人臉圖根據(jù)身份進(jìn)行分組的技術(shù)。人臉聚類通過將集合內(nèi)所有的人臉圖兩兩比對,再根據(jù)比對后的相似度進(jìn)行分析,將屬于同一個(gè)身份的人臉圖劃分到同一個(gè)組里,如圖所示。在進(jìn)行人工身份標(biāo)注前,只知道劃分到同一個(gè)組的人臉是屬于同一個(gè)身份,但不知道確切身份。6.3人臉識別第6章計(jì)算機(jī)視覺6.3.3人臉識別基本技術(shù)(10)人臉活體檢測。人臉活體檢測是判斷人臉圖像是來自真人還是來自假體(照片、視頻等)的技術(shù),如圖所示??紤]到如果入侵者利用虛假人臉圖對系統(tǒng)攻擊成功,則極有可能對系統(tǒng)中的用戶造成重大損失,因此需要開發(fā)可靠、高效的人臉活體檢測技術(shù),來守護(hù)現(xiàn)有人臉識別系統(tǒng)的信息安全。通常,用戶在進(jìn)行人臉活體檢測時(shí),系統(tǒng)每次都會從動作集(包括張嘴、眨眼、揚(yáng)眉、微笑、搖頭、點(diǎn)頭等)中選擇一種或若干種動作,隨機(jī)指定用戶完成動作的次數(shù),并要求用戶在規(guī)定的時(shí)間內(nèi)完成。6.3

人臉識別第6章計(jì)算機(jī)視覺1.人臉識別門禁人臉識別門禁通過人臉識別辨識試圖進(jìn)入者的身份。結(jié)合人臉識別技術(shù)、成熟的ID卡技術(shù)和指紋識別技術(shù)的門禁產(chǎn)品,可實(shí)現(xiàn)人臉、指紋和ID卡信息的采集,以及生物信息識別及門禁控制內(nèi)外分離等功能。人臉識別門禁實(shí)用性高、安全可靠,可廣泛應(yīng)用于銀行、軍隊(duì)、公檢法、智能樓宇等重點(diǎn)區(qū)域的門禁安全控制,如圖所示。6.3.4人臉識別的應(yīng)用6.3

人臉識別第6章計(jì)算機(jī)視覺2.身份辨識國際民航組織已確定,從2010年4月1日起,其118個(gè)成員國家和地區(qū),必須使用機(jī)讀護(hù)照,人臉識別技術(shù)是首推識別模式,該規(guī)定已經(jīng)成為國際標(biāo)準(zhǔn)。美國已經(jīng)要求和該國有出入免簽證協(xié)議的國家在2006年10月26日之前必須使用結(jié)合了人臉、指紋等生物特征的電子護(hù)照系統(tǒng)。身份辨識可在機(jī)場、體育場、超市等公共場所對人群進(jìn)行監(jiān)視,如在機(jī)場安裝監(jiān)視系統(tǒng)以防止恐怖分子登機(jī)。在銀行的自動提款機(jī)上應(yīng)用身份辨識時(shí),可以避免發(fā)生用戶卡片和密碼被盜時(shí)他人冒取現(xiàn)金的情況。人證識別比對系統(tǒng)可以準(zhǔn)確進(jìn)行身份辨識,如圖所示。6.3.4人臉識別的應(yīng)用6.3

人臉識別第6章計(jì)算機(jī)視覺3.網(wǎng)絡(luò)應(yīng)用人臉識別技術(shù)的網(wǎng)絡(luò)應(yīng)用廣泛。例如,利用人臉識別技術(shù),輔助信用卡網(wǎng)絡(luò)支付,以防止信用卡被冒用等,如圖所示。電子商務(wù)中的交易全部在網(wǎng)上完成,電子政務(wù)中的很多審批流程也都在線上完成。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論