版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第六章機器人視覺
第一部分響應(yīng)機器
“機器人視覺(computervision)”這個學(xué)科所研究的問題領(lǐng)域十分廣闊,不僅包括通用技術(shù),而且也包括為數(shù)眾多的專用技術(shù)——如字符識別、相片解釋、臉譜識別、指紋識別和機器人控制等等。概念一??機器人視覺的困難主要來源于難以控制的照明、影像和復(fù)雜而難以描述的物體,如那些室外場景中的物體、非剛性物體或嚙合其他物體的物體。其中有些困難在人造環(huán)境中(如建筑物的室內(nèi)景觀)可得以減輕,而且在這種環(huán)境中研究計算機視覺往往更成功。
?概念二
計算機視覺首先是在一組感光性原件上,如電視攝像機的光電管,生成一個場景的圖像(對立體視覺需生成兩個或兩個以上的圖像)。這個圖像是攝像機通過鏡頭對在視野中的場景進行一個透視投影,然后光電元件將其轉(zhuǎn)換成一個二維的、隨時間變化的亮度矩陣圖像I(x,y,t),其中x和y為光電元件在數(shù)組中的位置,t為時間(對有色視覺,需形成三個這樣的矩陣來分別代表三原色。但我們在這里只考慮單色的情況,同時排除了可變時間——即假設(shè)一個靜態(tài)場景)。一個由視覺引導(dǎo)的響應(yīng)agent必須通過處理這個矩陣來產(chǎn)生這個場景的圖標模型或者一組特征,從而使它能直接計算一個動作。透視投影是多對一的變換。多個不同的場景可能生成相同的圖像。
概念三?更麻煩的是,圖像易受到周圍光線不足或其他因素的干擾,這樣,我們就不能直接轉(zhuǎn)換圖像來重建場景。因此,agent通過運用可能處于有關(guān)場景中的物體的特定知識、有關(guān)場景中的各種表面的特性以及由這些表面反射回攝像機的周圍照明度等一般知識來從圖像中獲取有用的信息。概念四?
希望獲取信息的種類取決于agent的目的和任務(wù):若要讓一個agent平安地通過一個混亂的環(huán)境,這個agent必須了解其中物體的位置、邊界、通路以及它所經(jīng)路徑表面的特性。
agent若想要操縱物體,就必須知道這些物體的位置、大小、形狀、成分和構(gòu)造等。對其他目的而言,agent也許應(yīng)了解顏色并能識別它們的類別。agent也許還應(yīng)具備根據(jù)每隔一段時間所有以上信息的變化來預(yù)測將來可能的變化。從一個或多個圖像中獲取此類信息將極其困難。
示例基于神經(jīng)網(wǎng)絡(luò)的自治的地面車輛——ALVINN系統(tǒng)
系統(tǒng)的輸入來自一個低解析度(30x32)的電視圖像。一個電視攝像機被架在汽車上對準前面的道路,電視圖像被采樣并為神經(jīng)網(wǎng)絡(luò)產(chǎn)生一系列960維的輸入向量。
網(wǎng)絡(luò)的第一層有5個隱藏單元,第二層有30個輸出單元,所有以上單元均為sigmoid單元。輸出單元通過線性排列來控制汽車的角度。若此輸出單元隊列的頂端附近的一個輸出單元的輸出比其他大多數(shù)輸出單元高,則車往左行駛;若在此隊列的底端附近的一個單元的輸出較高,則車往右行駛。計算出所有這些輸出單元的響應(yīng)的“質(zhì)心”,并且把此車的駕駛角度設(shè)置為完全向左和完全向右之間相應(yīng)的一個值。
說明機器人視覺的兩個階段
有兩種計算機視覺技術(shù)對勾勒出與場景中的物體相關(guān)的各部分圖像的輪廓十分有用:一種技術(shù)是在圖像中尋找“邊緣”。一個圖像邊緣是圖像的一部分,圖像亮度或其他圖像的特性在此處陡然變化。另一種技術(shù)試圖把圖像分為幾個區(qū)域,一個區(qū)域也是圖像的一部分,圖像亮度或其他圖像的特性在此處緩慢變化。圖像中的邊緣和區(qū)域之間的邊界,經(jīng)常但不總是與場景中產(chǎn)生圖像的那些重要的、與物體相關(guān)的不連續(xù)點相對應(yīng)。
圖像處理階段主要把原始圖像轉(zhuǎn)換成更適合于景物分段的圖像。圖像處理包括降低噪聲、增強邊緣和尋找圖像區(qū)域等不同的濾波操作。
實際的機器人視覺涉及更多的階段,而且這些階段一般都相互影響。視覺處理過程可分成兩個主要階段:
景物分析階段主要試圖從已處理的圖像中產(chǎn)生一個對原始場景的圖標描述或基于特征的描述,并提供agent所處場景中與特定任務(wù)有關(guān)的信息。示例首先,圖像處理排除偽造的噪聲并增強物體的邊緣以及其他不連續(xù)點。接著,已知世界中的物體的形狀均由直線邊界構(gòu)成,景物分析會產(chǎn)生一個對此世界的圖標表示(與用于計算機圖形學(xué)中的模型相似)。通常,這個圖標模型用來更新存儲在內(nèi)存中的更全面的環(huán)境模型,然后計算出適合于這個假設(shè)環(huán)境狀態(tài)的動作。假設(shè)只有積木的布局比較重要。那么,圖標模型應(yīng)為一個表結(jié)構(gòu)((CBAFLOOR)),它表示C在B上,B在A上,而A在地板上。若C被移到地板上,那么圖標模型應(yīng)為((CFLOOR)(BAFLOOR))(也可以是((BAFLOOR)(CFLOOR)),但這里我們假設(shè)積木的相對水平位置無關(guān)緊要,這樣,表結(jié)構(gòu)的第一級元素的順序就無表達意義)。因為每一個元件的最后一個元素均為FLOOR,所以我們可以去掉這一項來縮短表結(jié)構(gòu)。
對于根本不用圖標模型的機器人來說,景物分析會用另一種方法把處理過的圖像直接轉(zhuǎn)換成適合于機器人任務(wù)的特征。如,若機器人必須判定積木C上是會有其他積木,那么,一個對環(huán)境的描述應(yīng)包括一個特征值,如CLEAR_C,積木C上無其他物體時這個特征值為1,否則為0。圖像處理1.平均法假設(shè)初始圖像可表達為一個m×n數(shù)組I(x,y),我們稱之為“圖像亮度數(shù)組(imageintensityarray)”。它把圖像平面分成許多被稱為“象素(pixel)”的單元。這些數(shù)字表示這幅圖像中某點的光亮度。圖像中一些不規(guī)則之處可通過求平均數(shù)的方法得以平滑。這個平滑操作就是把一個求平均數(shù)的窗口在整個數(shù)組中滑動。這一求平均數(shù)的窗口對準每個像素的中心,并計算出在求平均數(shù)窗口內(nèi)的數(shù)字的加權(quán)總和,然后把此象素的初始值替換為這個加權(quán)總和。這種滑動并求和的操作稱為“卷積(convolution)”。若我們希望所得的數(shù)組是二進制數(shù)字(1或0),那么就必須把這些加權(quán)總和與一個閾值比較。平均法的作用:平均法不僅將壓縮孤立的噪音點,而且將減小圖像的卷曲度(crispness),并放棄那些微不足道的圖像元素。
卷積是從信號處理中得來的操作。它通常被解釋成對波形(沿時間軸滑動)的一維的操作。若我們沿一個信號s(t)滑動或卷積一個函數(shù)w(t)后,將得到平均信號s*(t):(用*來表示卷積)圖像處理中的二維離散式卷積如下:
這里,I(x,y)是初始圖像的數(shù)組,W(u,v)是卷積加權(quán)函數(shù)。假設(shè)I(x,y)=0當(dāng)且僅當(dāng)x<0或x≥n,且y<0或y≥m(這樣,這個卷積操作會在圖像的邊界附近產(chǎn)生一些“邊緣效應(yīng)”)。用于平滑的常用函數(shù)是一個二維高斯函數(shù)(Gaussian)
2.邊緣增強
獲取輪廓的方法之一是先增強圖像中的邊界和邊緣,邊緣可以是圖像各部分之間的任意邊界,這些邊緣的特性,如亮度,彼此之間明顯不同。
3.邊緣增強與平均法的結(jié)合
邊緣增強本身將在增強邊緣的同時突出圖像中的假噪聲元素。為了減小對噪聲的敏感度,可以先用平均法再用邊緣增強來把兩種操作結(jié)合起來。
首先用一維高斯函數(shù)對連續(xù)的一維圖像進行平滑處理:隨后,通過邊緣增強得出:在二維空間中把邊緣增強和高斯平滑結(jié)合起來,二維高斯函數(shù)的拉普拉斯變換有點像一頂?shù)怪玫拿弊樱?這里,移動了坐標空間)。它又被稱為“sombrero(寬邊帽)函數(shù)”,帽寬決定了平滑度。用這個帽函數(shù)來卷積圖像,就可以完成整個求平均和邊緣尋找的操作。這個操作又被稱為“拉普拉斯過濾(laplacianfiltering)”,它產(chǎn)生的圖像叫做“拉普拉斯過濾圖像”。
4.區(qū)域查找另—種處理圖像的方法試圖在圖像中查找亮度或其他特性,如紋理等變化不突然的“區(qū)域”。從某種意義上來講,查找區(qū)域是查找輪廓的對等物(dual);這兩種技術(shù)均把圖像分割成我們所希望的與場景相關(guān)的若干部分,但由于二者均對噪聲比較敏感,因此這兩種技術(shù)通常用來互補。一個區(qū)域就是一組滿足以下特性的相互連接的像素:1)一個區(qū)域由類似的成分組成。常用的同質(zhì)特性(homogeneityproperty)如下:
(a)在這個區(qū)域中,像素的亮度值之間的差別不超過某個ε。
(b)k次多項式(k的值比較低且事先指定)的表面可與此區(qū)域內(nèi)像素的亮度值以小于ε的最大誤差(即表面與區(qū)域亮度值之間的誤差)擬合。2)任意兩個毗鄰的區(qū)域內(nèi)的所有象素的組合不滿足同質(zhì)特性。
通常,把一個圖像分割成區(qū)域的方式不止一種,但每個區(qū)域總是與世界中的一個物體或其有意義的一部分相對應(yīng)。
5.運用亮度以外的其他圖像的屬性邊緣增強和區(qū)域查找還可以基于除圖像亮度的同質(zhì)特性以外的其他圖像屬性。世界上眾多物體的表面反光度有細微的差別,我們稱之為視覺紋理。如一片草地、一塊地毯、一簇樹葉、動物的皮毛等等,它們的表面反光度均彼此不同。而這些物體反光度的強異會在圖像高度上產(chǎn)生類似細微差別。
結(jié)構(gòu)化方法力圖用由原始“texels”(即是由黑白部分組成的微小形狀)構(gòu)成的棋盤形布置來表示圖像區(qū)域。
統(tǒng)計方法基于以下觀點:圖像區(qū)域的亮度值的概率分布能很好地描述圖像的紋理。
場景分析
在用以上所討論的技術(shù)對圖像進行處理后,我們力圖從中獲取所需的有關(guān)場景的信息。計算機視覺的這個階段被稱為“場景分析(sceneanalysis)”。由于場景——圖像的轉(zhuǎn)換是多對一的,場景分析需要其他補充圖像或有關(guān)將遇到的場景種類的大體信息。
表面反光度特性和圖像亮度的明暗常用來給出場景中光滑物體形狀的信息。而圖像明暗尤其能幫助我們計算物體的表面法線。
圖標景物分析通常力圖建立一個場景或部分場景的模型?;谔卣鞯木拔锓治鰞H獲取當(dāng)前任務(wù)所需的場景的特征。一種有代表性的基于特征的景物分析被稱作“面向任務(wù)的(task-oriented)”或“意圖(purposive)”視覺。
1.解釋圖像中的線條和曲線
可以通過采用把直線段與邊緣或區(qū)域的邊界擬合的技術(shù)來生成直線。對于包含曲線物體的場景,我們可以把圓錐截面(如橢圓、拋物線和雙曲線)與原始輪廓或區(qū)域的邊界擬合來生成曲線。在經(jīng)過去除短線、在端點處連接直線和曲線這些技術(shù)操作后,把圖像轉(zhuǎn)化成一個線條畫(linedrawing),這幅線條畫可用于進一步解釋。有很多把場景特性與線條畫的元素相結(jié)合的策略。這樣的結(jié)合稱為“解釋(interpreting)”線條畫。
在這種策略中,已知場景僅包含平面,從而使相交于一點的平面不超過三個(這種平面組合體稱為“三面體頂點多面體(trihedralvertexpolyhedral)”)。一種解釋線條畫的策略典型例子:它是一個由邊界墻、地板、天花板和一地板上的正方體組成的室內(nèi)場景。在這樣的場景中,由兩個相交平面組成的場景的邊緣只有三種。一種邊緣的兩個相交平面的其中一個遮住了另一個(即在場景中只能看見其中的一個平面),這種邊緣稱為“occlude”。箭頭沿邊緣的指向使得遮住另一個平面的平面位于箭頭的右邊。另兩種邊緣的兩個相交平面在場景中均可見。其中形成的凸邊稱為“刀刃(blade)”,圖中的標記為加號(十);形成的凹邊稱為“折痕(fold)”,圖中的標記為減號(—)。標記線條的景物分析過程如下:首先,根據(jù)線條連接的形狀,給圖像中所有的連接點分別標上V、W、Y或T。在前圖的房間場景的圖像中,已經(jīng)按以上方法給連接點作好了標記。然后,再給圖像中的線條分別標上十、-或,但必須遵循上圖中的規(guī)則。而且,連接兩個連接點的圖像線條的標記必須前后一致。這些約束條件通常(但不是總是)導(dǎo)致只能有一種標記方法。若這些標記前后不一致,那么,在把圖像轉(zhuǎn)化成線條畫時就會出錯,或者這時所用的場景不是三面體多面體。在給圖像線條作標記時,由這些約束條件產(chǎn)生的問題在人工智能中稱為“約束滿足問題”?;谀P偷囊曈X
我們可用不同的模型元素和模型擬合來生成一個整個場景的圖標模型,或得到足夠的有關(guān)場景的信息來獲取當(dāng)前任務(wù)所需的特征。通過把實際圖像與用場景分析得來的圖標模型構(gòu)建的模擬圖像進行比較,基于模型的方法能測試這些模擬圖像的準確度。這些模擬圖像必須由運用參數(shù)的模型來繪制,而這些參數(shù)與圖像處理過程所用的參數(shù)(如攝像機角度等)相似。這樣,就需要照明、表面反光特征以及計算機圖形學(xué)的繪圖過程的其他各方面的所有合適的模型。立體視覺和深度信息
透視投影會使一個大而遠的物體與一個與其相似的小而近的物體所產(chǎn)生的圖像相同。這樣,從單個圖像估量物體的距離就十分困難了。但我們可運用立體視覺(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國大數(shù)據(jù)行業(yè)應(yīng)用趨勢調(diào)查及投資規(guī)劃分析報告
- 2024-2030年中國固廢處理行業(yè)發(fā)展趨勢規(guī)劃研究報告
- 2024-2030年中國嘟米融資商業(yè)計劃書
- 2024年度環(huán)保產(chǎn)業(yè)融資合同書a正規(guī)范文本2篇
- 眉山藥科職業(yè)學(xué)院《蒙臺梭利教育與實踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年度乒乓球國家隊教練團隊聘請合同3篇
- 2024年新編小額短期借款協(xié)議電子版一
- 2024年版樁基工程承包標準協(xié)議模板版B版
- 2024年度家政服務(wù)標準協(xié)議版A版
- 2024年小學(xué)三年級數(shù)學(xué)(北京版)-連乘問題第二課時-3學(xué)習(xí)任務(wù)單
- 2024年廣西安全員C證考試試題題庫
- EHS(環(huán)境健康安全)管理制度
- 江蘇省宿遷市2024年中考地理真題試卷
- 邏輯學(xué)導(dǎo)論學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 2024年中國分布式光伏高質(zhì)量發(fā)展-探討山東和江蘇的先鋒作用研究報告
- 產(chǎn)教融合項目合同5篇
- 第三單元 角的度量(單元測試)-2024-2025學(xué)年四年級上冊數(shù)學(xué)人教版
- 第七單元測試卷-2024-2025學(xué)年統(tǒng)編版語文三年級上冊
- 高考志愿填報師資格新版考試題及答案
- 小紅書種草營銷師單選模擬題
- 山哥茶妹IP主題民宿文旅項目定位規(guī)劃策劃案
評論
0/150
提交評論