版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于表觀的動態(tài)孤立手勢識別技術
雖然語音作為研究的重點已經(jīng)超過50年,但從明年開始,基于計算機視覺的語音識別逐漸引起研究人員的關注和興趣。手機零密檢測的主要目的是將手機零密的自然、直觀的溝通方式引入到人機接口(也稱為人類感知),以實現(xiàn)符合人類行為習慣的人機接口。此外,這些手勢識別還可以用于虛擬現(xiàn)實、三維設計、臨場感、可視化、醫(yī)學研究、語言理解和其他領域。解決手機零密問題的方法是直接促進面部識別、嘴唇閱讀、姿態(tài)識別、時空紋理分類、視覺導航、圖像綁定和基于內(nèi)容的視頻搜索?,F(xiàn)有的手勢識別方法可以分為兩大類:基于三維手/手臂建模的方法和基于表觀建模的方法.在手勢建模方面,最常用的方法是給手或手指建立三維模型,但是,繁重的計算使得這類方法非常困難,而且離實際應用也很遙遠.基于表觀的方法主要研究如何直接利用圖像序列里的表觀變化來識別手勢,它的著重點不是手或手臂的靜止三維結構,而是運動所引起的圖像序列里的表觀變化.從文獻來看,已經(jīng)有人開始研究基于表觀的手勢識別.文獻提出用一組相似值(通過與一組二維空間視圖或三維時空視圖作相關運算得到)構成的向量作為作手勢的表觀特征.然而,當有多個用戶或者單個用戶所作手勢不能用過去的時空模式準確描述時,基于這種表觀特征的識別方法就會失效,因此他們的方法缺乏通用性.文獻通過抽取圖像序列里的運動邊界、跟蹤邊界的運動并作聚類分析進行手勢識別,但是沒有給出識別結果,也沒有利用手勢的形狀、紋理等其他信息.本文提出另一種基于表觀的手勢識別技術.首先,基于圖像運動的變階參數(shù)模型和魯棒回歸,本文提出一種基于運動分割的幀間圖像運動估計方法.其次,基于幀間圖像運動參數(shù),本文創(chuàng)建了兩種不同的表觀變化模型——時空表示和總體圖像運動表示,分別用于手勢識別,并依據(jù)實驗結果對二者的性能進行比較分析.然后,本文指出了一條如何把運動、形狀、顏色、紋理等信息統(tǒng)一起來進行手勢識別的途徑.最后,我們設計并實現(xiàn)了對12種手勢進行在線識別的實驗系統(tǒng),識別率超過90%.1根據(jù)動作分割的色度圖像運動評估1.1圖像運動學參數(shù)對于基于視覺的孤立手勢識別系統(tǒng),用戶作手勢時一般是面向系統(tǒng)的,因而我們不必考慮運動估計過程中存在的三維遮擋或重現(xiàn)問題.參數(shù)化的圖像運動模型對一個區(qū)域里的圖像運動作明確假設并通常用一個低階多項式來表示該運動.常用的參數(shù)化圖像運動模型有平移模型、仿射模型和平面模型.例如,式(1)給出的就是圖像運動的平面模型.u(x)=[u(x,y)v(x,y)]=[a0+a1x+a2y+a6x2+a7xya3+a4x+a5y+a6xy+a7y2],(1)其中ai是常數(shù)(對一個運動區(qū)域而言),u(x)是像素點x=(x,y)的幀間位移向量,u(x,y)和v(x,y)分別是它的水平和垂直分量.為了便于書寫和描述,我們定義X(x)=[1xy000x2xy0001xyxyy2],Τ=(a0,0,0,a3,0,0,0,0)Τ,A=(a0,a1,a2,a3,a4,a5,0,0)Τ,Ρ=(a0,a1,a2,a3,a4,a5,a6,a7)Τ,(2)其中T,A和P分別表示圖像運動的平移、仿射以及平面模型的參數(shù).就圖像運動而言,各參數(shù)ai(i=0,1,...,7)有各自的物理意義,即可以用這些參數(shù)或它們的組合分別表示平移運動(u)、垂直運動(v)、各項同性的膨脹(e)、形變(d),以及繞觀察方向的旋轉(zhuǎn)(r)、偏轉(zhuǎn)(y)、俯仰(p)等.具體意義如式(3)所示.u=a0,v=a3,e=a1+a5,d=a1-a5,r=-a2+a4,y=a6,p=a7.(3)1.2圖像光度梯度給定圖像區(qū)域的運動模型之后,我們采用魯棒回歸策略去回歸模型參數(shù).魯棒統(tǒng)計學的主要目的是回歸那種能最好地擬合絕大多數(shù)數(shù)據(jù)的模型,并同時檢測出參數(shù)回歸分析的“內(nèi)點”(即符合模型的數(shù)據(jù)點)和“外點”(即與模型出入較大的數(shù)據(jù)點).令R是分析區(qū)域內(nèi)像素點的集合,Θ是模型參數(shù)向量,那么光流估計中的亮度恒定假設就可表述為I(x,t)=I(x-X(x)Θ,t+1),?x∈R.(4)這里,I是亮度函數(shù),t表示時間.把式(4)右邊泰勒展開、化簡,并去掉高于一次的項,得到式(5).?IT(X(x)Θ)+It=0,?x∈R.(5)這里,?I=[Ix,Iy]T是圖像亮度梯度;Ix,Iy和It分別是圖像亮度關于空間維和時間的偏導數(shù).為估計參數(shù)Θ,我們需要針對某個誤差范數(shù)ρ最小化式(6)中的目標函數(shù).E(Θ)=∑x∈Rρ(?ΙΤ(X(x)Θ)+Ιt,σ),(6)其中σ是一個尺度參數(shù).因為人手既不是平面也不是剛體,如果在這種情況下運用最小二乘方法,那么估計出來的運動參數(shù)必然是不準確的,因而ρ最好是某種能容許一定總體誤差或外點的誤差范數(shù).這里,我們采用Geman-McClure函數(shù),如式(7)所示,式中殘差r=?IT(X(x)Θ)+It.ρ(r,σ)=r2σ2+r2.(7)與截斷二次函數(shù)相比,Geman-McClure函數(shù)在內(nèi)點和外點之間提供了更平滑的過渡.我們用帶有連續(xù)策略的超松弛算法使式(6)里的目標函數(shù)達到最小.概括地說,如果考慮目標函數(shù)E(Θ)關于ai的導數(shù),那么為最小化E(Θ),第n+1步的迭代更新方程就是an+1=ani-ω1Τ(ai)??E(Θ)?ai.(8)其中0<ω<2是超松弛參數(shù),它用于在第n+1步對an+1i的估計進行“過分”修正.當0<ω<2時,可以證明該方法是收斂的,但是收斂速率對ω的具體取值很敏感.T(ai)是E(Θ)的二階偏導數(shù)的上界,即Τ(ai)≥?2E(Θ)?a2i.(9)我們在迭代過程中使用了連續(xù)策略,即在每一次迭代中,根據(jù)σn+1=0.95σn來減小尺度參數(shù)σ的值.這樣做的結果是,起始時分析區(qū)域內(nèi)的所有數(shù)據(jù)點都被看作內(nèi)點,而隨著迭代的進行開始出現(xiàn)外點,而且外點的影響逐漸被減小.1.3估計運動參數(shù)為了準確地估計幀間大運動量,我們引入多分辨率策略.首先構造高斯金字塔,然后從最粗一級空間分辨率開始,初始運動參數(shù)Θ0設為零,估計出運動參數(shù)增量ΔΘ0.把得到的運動參數(shù)Θ0+ΔΘ0投射到下一個分辨率級就得出下一個分辨率級的初始運動參數(shù)Θ1,根據(jù)Θ1把該級t時刻的圖像向t+1時刻的圖像配準,然后再利用配準后的圖像和t+1時刻的圖像估計該級的運動參數(shù)增量ΔΘ1.重復這個過程,直至估計出最高分辨率級的運動參數(shù).1.4圖像運動估計方法我們知道,尺度參數(shù)σ在魯棒回歸中發(fā)揮著重要作用.文獻指出,選擇σ=Cτ作為σ的初始值將導致一個凸優(yōu)化問題.對特定魯棒誤差范數(shù)而言,C是一個常數(shù),例如,當ρ是Geman-McClure函數(shù)時,C=√3.τ是最大期望殘差.然而,在具體實驗時,他們并沒有這么做,也沒有給出解釋,只是指出對于σ在一定幅度內(nèi)的變化,求得的解是相當穩(wěn)定的.在我們看來,有兩點理由促使他們放棄把Cτ作為σ的初始值:首先,初始殘差分布無法預料,因此得出的初始解可能很糟糕;其次,選擇Cτ作為σ的初始值將需要更多的迭代次數(shù),因而消耗更多的時間(當分析區(qū)域較大,如整幅圖像時尤其如此).本文給出了一個更合理的方案來確定σ的初始取值.本文提出的基于運動分割的圖像運動估計方法由兩步組成,每一步包含一次魯棒回歸.第1步的目標是把圖像里的運動區(qū)域(物體)從復雜背景里初步分割出來.我們假設背景保持基本靜止(對于手勢識別系統(tǒng),該假設在絕大多數(shù)情況下是成立的),然后選擇整幅圖像作為分析區(qū)域,并選用平移運動模型進行第1次魯棒回歸.為了自動確定σ的初始取值并進行高效率的迭代,我們選擇CT作為σ的初始值,其中,C的意義同上,而T則是根據(jù)文獻提出的閾值選擇算法從兩幀圖像的差圖像的灰度直方圖計算出來的一個閾值,它是把差圖像里的灰度分為兩類的最優(yōu)閾值.這樣做,可以從一開始就把絕大多數(shù)運動點(物體點)作為外點處理,因而迭代效率更高,收斂更快.因為絕大多數(shù)數(shù)據(jù)點都是背景像素點,所以估計出的運動(盡管運動量非常小)是背景的運動.根據(jù)回歸出的運動參數(shù)以及σ的最終值對殘差進行分析(即檢測外點),就可以得到運動物體的粗糙分割(其中還包括一些噪聲點).第2步的目標是實現(xiàn)準確的幀間運動估計,并且得到運動物體的精細分割.我們使用二維仿射模型或平面模型來近似物體在圖像平面的運動,當物體運動引起的深度變化與成像距離相比很小時,這種近似是合理的.我們把第1步得到的粗糙分割作為新的分析區(qū)域,并選用仿射或平面模型進行第2次魯棒回歸.由于分析區(qū)域較小,而且絕大多數(shù)數(shù)據(jù)點都屬于運動物體,因此我們把√3τ作為σ的初始值(τ的意義同上,即最大期望殘差).既然絕大多數(shù)數(shù)據(jù)點都屬于運動物體,所以回歸結果就是物體的幀間運動參數(shù).然后,通過分析殘差(即檢測內(nèi)點)就可以得到運動物體的精細分割.2表觀特征構造手勢識別系統(tǒng)的性能很大程度上取決于手勢特征的抽取與構造.基于幀間運動參數(shù),本文構造出兩種不同的表觀變化模型(時空表示和總體圖像運動表示),分別作為手勢的表觀特征用于識別.2.1時長時長t給定一個包含孤立手勢的圖像序列,gT={I1,I2,...,IT},其中T表示該序列的時間長度,I(t)(t=1,2,...,T)是序列里的第t幀亮度圖像.如果把第t-1幀和第t幀之間的圖像運動(仿射或平面)參數(shù)作為分量構成的參數(shù)向量記為P[t],那么對應手勢的時空表示PT就可以被建模為PT={P,P,...,P[T-1]}.(10)2.2表觀變化模型如前所述,圖像運動模型的參數(shù)ai(i=0,1,2,...,7)都有明確的物理意義,因此我們可以定義一個有確定物理意義的運動向量來描述幀間圖像運動.記I(t-1)和I(t)之間的運動向量為m[t],則m[t]的定義為m[t]=[u,v,e,d,r,y,p]T.(11)為消除不同用戶作手勢時存在的速率差異,我們?yōu)樯厦娴膱D像序列(gT)創(chuàng)建另一個表觀變化模型:總體圖像運動表示.式(12)給出了總體圖像運動表示的定義.Σ=[U,V,E,D,R,Y,Ρ]Τ=?m?Τ-1∑t=1m[t],Μ=1∥Σ∥Σ(12)其中M是序列的總體圖像運動表示,它是把序列里所有(每兩)幀間運動向量的分量加權后的累加和向量規(guī)一化以后得到的向量;?m是加權因子“·”表示向量內(nèi)積運算;U,V,E,D,R和P分別表示總體圖像運動所表示的水平位移、垂直位移、各向同性膨脹、變形、繞觀察方向的旋轉(zhuǎn)、偏轉(zhuǎn)以及俯仰等分量.3洗手檢測3.1動態(tài)規(guī)劃匹配.基于optimaldynaming不同用戶作手勢時存在的速率差異會在時空表示的時間軸上引起非線性波動,如何消除這些非線性波動是手勢識別中的一個重要問題.語音識別的實踐表明,任何線性變換從本質(zhì)上說都不能很好地處理高度復雜的非線性波動.我們引入在語音識別里所用的最優(yōu)動態(tài)規(guī)劃匹配(optimaldynamicprogrammingmatching,簡稱ODPM)來度量兩個時空表示之間的最小距離.動態(tài)規(guī)劃匹配是具有非線性時間規(guī)一化效果的模式匹配算法.使用某種指定屬性的非線性規(guī)整函數(shù)對時間軸上的波動近似建模,通過彎曲其中一個模式的時間軸使之與另一個模式達到最大程度的重疊(此時的殘差距離最小),從而消除兩個時空表示模式之間的時間差別.兩個模式之間的最小化的殘差距離就是它們之間的時間規(guī)一化后的距離(本文稱為ODPM距離).利用動態(tài)規(guī)劃技術可以高效率地實現(xiàn)上面的最小化過程.3.2創(chuàng)建時空表示模板假設給定手勢訓練集中有L種孤立手勢,每種手勢有J個樣本.對于訓練中的每個樣本,我們分別計算它的時空表示PT[l,j]和總體圖像運動表示M(l,j),其中l(wèi)(l=1,2,...,L)是手勢類編號;j(j=1,2,...,J)是樣本編號;T表示第l種手勢的第j個樣本的時空表示所包含的參數(shù)向量的個數(shù).創(chuàng)建手勢的參考模板就是從每種手勢的J個時空表示和J總體圖像運動表示出發(fā),找出最能反應該手勢表觀特征分布的一個時空表示和一個總體圖像運動表示分別作為該手勢的時空表示模板和總體圖像運動表示模板.如果把第l種手勢的時空表示模板記為?Ρ[l],那么創(chuàng)建時空表示模板問題就轉(zhuǎn)化為選取使?Ρ[l]在給定的訓練集上滿足某種最優(yōu)標準.基于兩個手勢的時空表示之間的ODPM距離度量,我們用最小最大優(yōu)化算法為每種手勢創(chuàng)建一個時空表示模板.由于一個手勢樣本的總體圖像運動表示反映了貫穿(包含該手勢的)整個圖像序列的各種圖像運動,因此,我們把第l種手勢的總體圖像運動表示模板定義為該手勢的J個樣本的總體圖像運動表示的平均值Μ^[l],即Μ^[l]=1J∑j=1JΜ(l,j).(13)3.3計算各種時空表示模板的時空表示距離有了Ρ^[l]和Μ^[l](l=1,2,...,L),我們利用模板分類技術進行手勢識別.假設取手勢的時空表示模板作為識別時的參考模板,那么,當輸入一個未知手勢時,系統(tǒng)首先計算它的時空表示,然后計算該時空表示與庫中各時空表示模板之間的ODPM距離,并找出最小距離.當最小距離不超過某個預置的門限時,該手勢就與距離最近的那個時空表示模板所對應的手勢屬于同一類,否則拒識.如果我們選取手勢的總體圖像運動表示模板作為識別時的參考模板,那么識別過程基本不變,只是需要計算未知手勢的總體圖像運動表示,并且使用歐氏空間距離而不是ODPM距離.在實驗時,對于訓練集里的每一種手勢,我們既計算它的時空表示模板,也計算它的總體圖像運動表示模板,而且對分別用兩種模板作為參考模板而得到的識別結果進行比較分析.4幀間運動估計的結果圖1是幀間運動估計中的一個實例,圖1(a)和(b)分別是一個包含“向上”手勢的圖像序列里的第2幀和第3幀圖像.選用平移模型對整幅圖像進行第1次魯棒回歸得到的運動參數(shù)是{-0.06184,0,0,-0.1446,0,0,0,0}.圖1(c)中的灰色像素點就是根據(jù)第1次回歸結果檢測出的內(nèi)點,它包括靜止的和有微小擾動的背景點以及某些物體點.其中的黑色像素點是根據(jù)第1次回歸結果檢測出的外點,顯然都是一些運動量較大的物體點,它們的集合就構成了運動物體的粗糙分割.把物體的粗糙分割作為新的分析區(qū)域,并選用平面模型進行第2次魯棒回歸得出的運動參數(shù)是{-0.3644,0.004,0.0066,-2.2835,-0.0012,-0.0086,0,0}.根據(jù)第2次回歸結果檢測出的內(nèi)點就構成了運動物體的精細分割,如圖1(d)所示,外點如圖1(e)所示,它們是一些噪聲點.圖1(f)是把圖1(a)和圖1(b)之間的差圖像二值化以后得到的結果圖像.比較圖1(d)和(f),不難看出,圖1(f)中有很多噪聲輪廓點,如頭部輪廓點、手臂輪廓點等,而在圖1(d)中則沒有.圖1表明,我們提出的基于兩次魯棒回歸的運動估計方法既能準確地估計幀間圖像運動,又能同時得到運動物體的精細分割.圖2是幀間運動估計的另一個實例.圖2(a)和(b)分別是一個包含“向右”手勢的圖像序列里的第2幀和第3幀圖像.第1次回歸出的參數(shù)值為{-0.1217,0,0,-0.0042,0,0,0,0},第2次回歸出的參數(shù)值為{-2.7344,0.0008,-0.01120,-0.1343,-0.0037,-0.0160,0,-0.0003}.圖2(c)~(f)表示的含義分別與圖1中對應圖像的含義相同.5圖像序列的描述我們設想用一組手勢實現(xiàn)三維鼠標的功能,從而實現(xiàn)更自然、更符合人類行為習慣的人機接口.因此,在我們的實驗系統(tǒng)里選用的12種手勢分別是“向上”(MU)、“向下”(MD)、“向左”(ML)、“向右”(MR)、“向前”(MF)、“向后”、“向左偏轉(zhuǎn)”(YL)、“向右偏轉(zhuǎn)”(YR)、“順時針旋轉(zhuǎn)”(CC)、“反時針旋轉(zhuǎn)”(CCC)、“向下俯”(PD)和“向上仰”(PU).我們做了大量的實驗來驗證和評價本文提出的時空表示模型、總體圖像運動表示模型以及訓練和識別算法的有效性.我們邀請10位實驗者坐在攝像機前作上面的12種手勢,于是得到包含120個圖像序列(即每種手勢有10個樣本)的訓練集.每個序列包含一個手勢,持續(xù)時間約1s(采樣率為10Hz).圖像是256級的灰度圖像,大小是160×120.在PII(266MHz)的PC機上,幀間運動估計的平均時間約450μs,識別一個手勢的時間約4s.圖3以幀間運動參數(shù)的軌跡形式描述了從4個圖像序列計算出的時空表示.每個圖像序列包含1個手勢,4個序列包含的手勢分別是MU,MD,ML和MR.參數(shù)a0,a1,a2,a3,a4和a5的軌跡(a6,a7的值很小,故忽略)都是點劃線,其不同之處在于,不同參數(shù)軌跡的點劃線上每
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版知識產(chǎn)權反擔保保證合同書2篇
- 2025版土地抵押權抵押資產(chǎn)證券化合同模板3篇
- 設備監(jiān)理合同-《設備監(jiān)理合同管理》押題密卷2
- 土壤污染治理與農(nóng)業(yè)生態(tài)環(huán)境保護考核試卷
- 唇部護理產(chǎn)品的選擇與涂抹技巧考核試卷
- 2025年銷售部勞動合同加班時間規(guī)定范本2篇
- 2025年家政服務服務調(diào)整協(xié)議
- 2025年度木材行業(yè)綠色認證及產(chǎn)品檢測服務合同范本4篇
- 2025年婚禮廣告合作協(xié)議
- 二零二五年度房地產(chǎn)項目納稅擔保及貸款擔保合同2篇
- 2024年安全教育培訓試題附完整答案(奪冠系列)
- 神農(nóng)架研學課程設計
- 文化資本與民族認同建構-洞察分析
- 2025新譯林版英語七年級下單詞默寫表
- 小學語文閱讀教學落實學生核心素養(yǎng)方法的研究-中期報告
- 眼內(nèi)炎患者護理查房課件
- 唯物史觀課件
- 2021-2022學年四川省成都市武侯區(qū)部編版四年級上冊期末考試語文試卷(解析版)
- 中國傳統(tǒng)文化服飾文化
- 大氣污染控制工程 第四版
- 淺析商務英語中模糊語言的語用功能
評論
0/150
提交評論