




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、29 七月 20221參考教材: 賈云得 機器視覺科學(xué)出版社,2000參考書目:1、圖像處理、分析與機器視覺(第二版) M.Sonka,V.Hlavac,R.Boyle著,艾海舟等譯, 人民郵電出版社,20032、機器視覺教程W.E.Snyder,H.Qi著 林學(xué)訚等譯,機械工業(yè)出版社,20053、計算機視覺馬頌德著,科學(xué)出版社,1999課程教材29 七月 202221. 引言 智能機器: 能模擬人類的功能,能感知外部世界并有效地解決人所能解決問題感知系統(tǒng):人類感知外部世界主要是通過視覺、觸覺、聽覺和嗅覺等感覺器官,其中約80%的信息是由視覺獲取的因此,對于智能機器來說,賦予機器以人類視覺功能
2、對發(fā)展智能機器是及其重要的,也由此形成了一門新的學(xué)科計算機視覺(也稱機器視覺或圖像分析與理解等)計算機視覺的發(fā)展不僅將大大推動智能系統(tǒng)的發(fā)展,也將拓寬計算機與各種智能機器的研究范圍和應(yīng)用領(lǐng)域 計算機視覺:研究用計算機來模擬生物視覺功能的科學(xué)和技術(shù)計算機視覺系統(tǒng)的首要目標是用圖像創(chuàng)建或恢復(fù)現(xiàn)實世界模型,然后認知現(xiàn)實世界29 七月 20223 20世紀50年代歸入模式識別-主要集中在二維圖像分析和識別上,如,光學(xué)字符識別,工件表面、顯微圖片和航空圖片的分析和解釋等60年代MIT 的Roberts通過計算機程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結(jié)構(gòu),并對物體形狀及物體的空間關(guān)
3、系進行描述Roberts 的研究工作開創(chuàng)了以理解三維場景為目的的三維計算機視覺的研究Roberts對積木世界的創(chuàng)造性研究給人們以極大的啟發(fā),許多人相信,一旦由白色積木玩具組成的三維世界可以被理解,則可以推廣到理解更復(fù)雜的三維場景70年代,已經(jīng)出現(xiàn)了一些視覺應(yīng)用系統(tǒng)70年代中期,麻省理工學(xué)院(MIT)人工智能(AI)實驗室正式開設(shè)“計算機視覺” (Machine Vision) 課程,由BKPHorn教授講授2. 計算機視覺發(fā)展29 七月 20224MIT AI 實驗室吸引了國際上許多知名學(xué)者參與計算機視覺的理論、算法、系統(tǒng)設(shè)計的研究,David Marr教授就是其中的一位他于1973年應(yīng)邀在M
4、IT AI 實驗室領(lǐng)導(dǎo)一個以博士生為主體的研究小組,1977年提出了不同于“積木世界”分析方法的計算視覺理論(computational vision),該理論在80年代成為計算機視覺研究領(lǐng)域中的一個十分重要的理論框架29 七月 20225研究熱潮是從 20世紀80年代開始的,到了80年代中期,計算機視覺獲得了蓬勃發(fā)展,新概念、新方法、新理論不斷涌現(xiàn),比如,基于感知特征群的物體識別理論框架,主動視覺理論框架,視覺集成理論框架等Marr的計算理論29 七月 20226許多會議論文集都反應(yīng)了該領(lǐng)域的最新進展,比如:Int. Conf. on Computer Vision and Pattern
5、Recognition (CVPR); Int. Conf. on Computer Vision(ICCV); Int. Conf. on Pattern Recognition(ICPR); Int. Conf. on Robotics and Automation(ICRA); Workshop on Computer Vision, SPIE還有許多學(xué)術(shù)期刊也包含了這一領(lǐng)域的最新研究成果, 如:IEEE Trans. on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Im
6、age Processing(CVGIP); IEEE Trans. on Image Processing; IEEE Trans. on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; Int. J on Computer Vision(IJCV); Image and Vision Computing; Pattern Recognition29 七月 202273. Marr的視覺計算理論Marr 的視覺計算理論Marr1982立足于計算機科學(xué),系統(tǒng)地概括了心理生理學(xué)、神經(jīng)生理學(xué)等方面取得的所有重
7、要成果,是視覺研究中迄今為止最為完善的視覺理論 Marr 建立的視覺計算理論,使計算機視覺研究有了一個比較明確的體系,并大大推動了計算機視覺研究的發(fā)展人們普遍認為,計算機視覺這門學(xué)科的形成與Marr的視覺理論有著密切的關(guān)系29 七月 20228 3.1 信息處理三個層次29 七月 202293.2 視覺表示框架第一階段(也稱為早期階段)是將輸入的原始圖像進行處理,抽取圖像中諸如角點、邊緣、紋理、線條、邊界等基本特征,這些特征的集合稱為基元圖(primitive sketch);第二階段(中期階段)是指在以觀測者為中心的坐標系中,由輸入圖像和基元圖恢復(fù)場景可見部分的深度、法線方向、輪廓等,這些信
8、息的包含了深度信息,但不是真正的物體三維表示,因此,稱為二維半圖(25 dimensional sketch);第三階段(后期階段)是在以物體為中心的坐標系中,由輸入圖像、基元圖、二維半圖來恢復(fù)、表示和識別三維物體。29 七月 202210表1-2 由圖像恢復(fù)形狀信息的表示框架名 稱目 的基 元圖像光強表示圖像中每一點的強度值基元圖表示二維圖像中的重要信息,主要是圖像中的強度變化位置及其幾何分布和組織結(jié)構(gòu)零交叉,斑點,端點和不連續(xù)點,邊緣片斷,有效線段,組合群,曲線組織,邊界 25維圖在以觀測者為中心的坐標系中,表示可見表面的方向、深度值和不連續(xù)的輪廓局部表面朝向(“針”基元)離觀測者的距離深
9、度上的不連續(xù)點表面朝向的不連續(xù)點3維模型表示在以物體為中心的坐標系中,用由體積基元和面積基元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎(chǔ)上構(gòu)成的,所有體積基元或面積形狀基元都附著在軸線上29 七月 202211Marr理論是計算機視覺研究領(lǐng)域的劃時代成就,但該理論不是十分完善的,許多方面還有爭議比如: 視覺處理框架基本上是自下而上,沒有反饋; 沒有足夠地重視知識的應(yīng)用Marr理論給了我們研究計算機視覺許多珍貴的哲學(xué)思想和研究方法,同時也給計算機視覺研究領(lǐng)域創(chuàng)造了許多研究起點。3.3 Marr 視覺理論的不足29 七月 202212
10、29 七月 2022134. 計算機視覺的應(yīng)用 零件識別與定位 (工業(yè)生產(chǎn)線) 產(chǎn)品檢驗 (紡織工業(yè)棉花質(zhì)量檢驗) 移動機器人導(dǎo)航(星球機器人) 遙感圖像分析(植被分析) 醫(yī)學(xué)圖像分析(骨骼定位) 安全鑒別、監(jiān)視與跟蹤(門禁系統(tǒng)) 國防系統(tǒng)(目標自動識別ATR與目標跟蹤) 其它(動畫、體育、考古)29 七月 202214Sojourner 火星車前部圖,中部的兩個小突出是兩個黑白CCD攝像機29 七月 20221529 七月 202216Rocky 7 火星機器人29 七月 20221729 七月 202218 Rocky7視覺系統(tǒng)獲取的立體圖象對障礙物探測示意圖Rocky7 視覺系統(tǒng)對場景的
11、深度恢復(fù) 29 七月 202219CMU月球探測實驗車Nomad漫游者29 七月 202220月球探測實驗車Nomad漫游者29 七月 202221昆蟲機器人足球機器人足球機器人29 七月 202222日本 Honda 仿人機器人29 七月 202223具有立體視覺的機器人29 七月 202224人頭部跟蹤演示29 七月 202225MIT Media Lab ,與虛擬生物交互演示29 七月 202226基于恢復(fù)圖象序列的五角大樓三維重建29 七月 202227基于圖象序列的三維人臉恢復(fù)29 七月 202228視覺系統(tǒng)坐標系像素坐標:表示圖像陣列中圖像像素的位置;圖像平面坐標:表示場景點在圖像
12、平面上的投 影;攝象機坐標:即以觀察者為中心的坐標,將場 景點表示成以觀察者為中心的數(shù)據(jù)形式場景坐標:也稱作絕對坐標(或世界坐標),用于 表示場景點的絕對坐標;29 七月 2022295. 計算機視覺的研究內(nèi)容一、輸入設(shè)備(input device) 包括成像設(shè)備和數(shù)字化設(shè)備成象設(shè)備是指通過光學(xué)攝像機或紅外、激光、超聲、X射線對周圍場景或物體進行探測成象,得到關(guān)于場景或物體的二維或三維數(shù)字化圖像二、低層視覺(low level) 主要是對輸入的原始圖像進行處理這一過程借用了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強、邊緣檢測等,以便從圖像中抽取諸如角點、邊緣、線條、邊界以及色彩等關(guān)于場景的
13、基本特征;這一過程還包含了各種圖像變換(如校正)、圖像紋理檢測、圖像運動檢測等29 七月 202230三、中層視覺(middle level) 主要任務(wù)是恢復(fù)場景的深度、表面法線方向、輪廓等有關(guān)場景的25維信息,實現(xiàn)的途徑有立體視覺(stereo vision)、測距成像(rangefinder)運動估計(motion estimation)、明暗特征、紋理特征等. 系統(tǒng)標定、系統(tǒng)成像模型等研究內(nèi)容一般也是在這個層次上進行的四、高層視覺(high level) 主要任務(wù)是在以物體為中心的坐標系中,在原始輸入圖像、圖像基本特征、25維圖的基礎(chǔ)上,恢復(fù)物體的完整三維圖,建立物體三維描述,識別三維物
14、體并確定物體的位置和方向29 七月 2022316. 計算機視覺研究面臨的困難(1) 圖像多義性: 三維場景被投影為二維圖像,深度和不可見部分的信息被丟失,因而會出現(xiàn)不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像的問題另外,在不同角度獲取同一物體的圖像會有很大的差異(2)環(huán)境因素影響:場景中的諸多因素,包括照明、物體形狀、表面顏色、攝像機以及空間關(guān)系變化都會對成像有影響,(3)知識導(dǎo)引: 同樣的圖像在不同的知識導(dǎo)引下,將會產(chǎn)生不同的識別結(jié)果(4)大量數(shù)據(jù): 灰度圖像,彩色圖像,深度圖像的信息量十分巨大,巨大的數(shù)據(jù)量需要很大的存貯空間,同時不易實現(xiàn)快速處理29 七月 2022327. 計算機視覺
15、與其它學(xué)科領(lǐng)域的關(guān)系(1)圖像處理:圖像處理通常是把一幅圖像變換成另外一幅圖像,也就是說,圖像處理系統(tǒng)的輸入是圖像,輸出仍然是圖像,信息恢復(fù)任務(wù)則留給人來完成(2)計算機圖形學(xué):通過幾何基元,如線、圓和自由曲面,來生成圖像,它在可視化(Visualization)和虛擬現(xiàn)實(Virtual Reality)中起著很重要的作用計算機視覺正好是解決相反的問題,即從圖像中估計幾何基元和其它特征因此,計算機圖形學(xué)屬于圖像綜合,計算機視覺屬于圖像分析(3)模式識別:用于識別各種符號、圖畫等平面圖形模式一般指一類事物區(qū)別于其它事物所具有的共同特征。模式識別方法有統(tǒng)計方法和句法方法兩種,統(tǒng)計方法是指從模式抽
16、取一組特征值,并以劃分特征空間的方法來識別每一個模式29 七月 202233(4)人工智能(AI):涉及到智能系統(tǒng)的設(shè)計和智能計算的研究在經(jīng)過圖像處理和圖像特征提取過程后,接下來要用人工智能方法對場景特征進行表示,并分析和理解場景人工智能有三個過程:感知、認知和行動(5)人工神經(jīng)網(wǎng)絡(luò)(ANNs):是一種信息處理系統(tǒng),它是由大量簡單的處理單元(稱為神經(jīng)元)通過具有強度的連接相互聯(lián)系起來,實現(xiàn)并行分布式處理(PDP)人工神經(jīng)網(wǎng)絡(luò)的最大特點是可以通過改變連接強度來調(diào)整系統(tǒng),使之適應(yīng)復(fù)雜的環(huán)境,實現(xiàn)類似人的學(xué)習(xí)、歸納和分類等功能(6)神經(jīng)物理學(xué)與認知科學(xué):將人類視覺作為主要的研究對象計算機視覺中已有的
17、許多方法與人類視覺極為相似許多計算機視覺研究者對研究人類視覺計算模型比研究計算機視覺系統(tǒng)更感興趣,希望計算機視覺更加自然化,更加接近生物視覺29 七月 2022348. 計算機視覺研究對策 研究人員不斷尋求新的途徑和手段,比如,主動視覺(active vision),面向任務(wù)的視覺(task-oriented vision),基于知識、基于模型的視覺,以及多傳感融合和集成視覺等方法,其中人們越來越重視對知識的應(yīng)用我們會看到,計算機視覺系統(tǒng)的最大特征是,在視覺的各個階段,系統(tǒng)盡可能地進行自動運算為此,系統(tǒng)需要使用各種知識,包括特征模型、成像過程、物體模型和物體間的關(guān)系如果計算機視覺系統(tǒng)不用這些知
18、識,則其應(yīng)用的范圍及其功能將十分有限因此,視覺系統(tǒng)應(yīng)該使用那些可以被明確表示的知識,以使系統(tǒng)具有更高的適應(yīng)性和魯棒性合理地使用知識不僅可以有效地提高系統(tǒng)的適應(yīng)性和魯棒性,而且可以求解計算機視覺中較難的問題29 七月 2022351基于視覺感知與認知機理的圖像分析與識別系統(tǒng)研究目標:突破基于人類視覺感知與認知機理的圖像處理模型、 關(guān)鍵技術(shù)和算法,建立個性化、高準確度的圖像分析 與識別系統(tǒng)。研究內(nèi)容:分層交互的統(tǒng)計視覺計算模型與推理,基于感知整 合機制的視覺模式識別技術(shù),具有選擇性注意機制的 視覺信息搜索與多目標跟蹤模型 。863計劃信息技術(shù)領(lǐng)域2006年度專題課題申請指南目標導(dǎo)向類課題 :29 七月 2022362復(fù)雜應(yīng)用環(huán)境下的生物特征識別系統(tǒng)研究目標:突破安全便捷的、高可靠性的多生物特征獲取及識 別算法,建立面向典型應(yīng)用的生物特征識別與認證原 型系統(tǒng)。研究內(nèi)容:臉相、虹膜、掌紋等多生物特征獲取技術(shù),大規(guī)模 生物特征庫的分類和檢索,具有魯棒性的生物
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- (高清版)DB34∕T 5203-2025 立軸類書畫文物手工裝裱通 用技術(shù)規(guī)范
- 別墅物業(yè)管理中的節(jié)能減排措施
- 北安輔警考試題庫
- 背景提取算法在雷達視頻圖像中的應(yīng)用
- (高清版)DB34∕T 5204-2025 考古遺址公園服務(wù)規(guī)范
- 北京協(xié)和醫(yī)院新型冠狀病毒感染基層診療方案建議及適宜技術(shù)(第一版)
- 安徽省安慶第一中學(xué)2025屆高二化學(xué)第二學(xué)期期末教學(xué)質(zhì)量檢測試題含解析
- 小班種花數(shù)學(xué)活動方案
- 小班挑杯子活動方案
- 小學(xué)語文讀書周活動方案
- 信息資源管理(馬費成-第三版)復(fù)習(xí)重點
- 2023年歷年真題考試:管理會計(一)歷年真題匯編(共139題)
- OIF-CEI-04.0OIF-CEI-04.0高速電口標準
- 工程項目管理對應(yīng)丁士昭教材
- 義務(wù)教育語文課程標準(2022)測試題帶答案(20套)
- 保護性約束完整版
- 正交異性鋼橋面板計算
- 明源地產(chǎn)erp3.04-費用管理操作手冊
- 儲氣庫地面工程建設(shè)技術(shù)發(fā)展及建議
- 合肥某建筑空調(diào)系統(tǒng)設(shè)計畢業(yè)設(shè)計說明書
- 祛濕劑新-11獨活寄生湯
評論
0/150
提交評論