版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、手勢識別技術(shù)綜述作者單位:河北工業(yè)大學 計算機科學與軟件學院內(nèi)容摘要:手勢識別是屬于計算機科學與語言學的一個將人類手勢通過數(shù)學算法針對人們所要表達的意思進行分析、判斷并整合的交互技術(shù)。一般來說,手勢識別技術(shù)并非針對單純的手勢,還可以對其他肢體動作進行識別,比如頭部、胳臂等。但是這其中手勢占大多數(shù)。本文通過對手勢識別的發(fā)展過程、使用工具、目的與市場等進行綜述,梳理出手勢識別發(fā)展的思路,讓讀者對手勢識別有一個總體上的認識,同時也可以讓讀者在此基礎上進行合理想象,對手勢識別的未來有一個大體印象。Abstract:Gesture recognition is an interactive techno
2、logy using mathematical arithmetic to the analysis,judge and assembly meaning that people want to convey which belongs to computer science and Linguistics.In general, gesture recognition technology is not for simple gestures expressed by hands ,it can also aim to other body movement recognition, suc
3、h as the head, arm and so on. But the gesture accounted for most of the analysis. In this paper, by describing the development process, tools used , objective and market of gesture recognition , we can sort out the ideas of the development of gesture recognition, and let readers have an overall unde
4、rstanding of gesture recognition. At the same time, it can let the reader imagine that on hand gesture recognition based on reason ,and have a general impression of its future.1.定義說到手勢識別,首先要對手勢識別中的手勢有一個清晰的認知。手勢在不同的學科中有不同含義,而在交互設計方面,手勢與依賴鼠標、鍵盤等進行操控的區(qū)別是顯而易見的,那就是手勢是人們更樂意接受的、舒適而受交互設備限制小的方式,而且手勢可供挖掘的信息遠比
5、依賴鍵盤鼠標的交互模式多。在學術(shù)界,人們試圖對手勢定義一個抽象、明確而簡潔的概念以為手勢及其應用的研究提供依據(jù)。1990年Eric Hulteen和Gord Kurtenbach曾發(fā)表的題為“Gestures in Human-Computer Communication”中定義:“手勢為身體運動的一部分,它包括一部分信息,而且是一種能被觀察到的有意義的運動。揮手道別是一種手勢,而敲擊鍵盤不是一種手勢,因為手指的運動沒有被觀察,也不重要,它只表示鍵盤被按下這一動作?!睆亩x上講,手勢識別是一種利用數(shù)學算法,包括計算機圖形學,輔以攝像頭、數(shù)據(jù)手套等輸入工具,針對收集到的信息,比如手掌、手指各關節(jié)
6、的方位、角度等進行判斷、分析并作出正確回復的技術(shù)。許多測試品已開始使用三維手勢識別來提升準確率及反應速度。但是,分析手勢的特點,回顧手勢識別的發(fā)展歷史,可以更好地把握其發(fā)展脈絡,從而對未來手勢識別的潛力與可能方向做出基本判斷。2.發(fā)展過程手勢是任意的,手不同部位的方向、角度及彎曲程度等的不同信息可能會有實際意義上的天壤之別。所以手勢識別應該基于用戶與程序、設備之間的約定。針對手勢的任意性,最初的手勢識別主要使用各種與手及手臂通過直接的接觸式有線機器設備進行數(shù)據(jù)采集。它可以直接檢測諸如手指、關節(jié)及手臂的方位、角度等。典型的設備有數(shù)據(jù)手套等。通過內(nèi)含許多傳感器的數(shù)據(jù)手套,可以十分精確地獲取手勢識別
7、所需的各種信息,此外其反應速度、識別準確度、穩(wěn)定性也得到了保障。但是該設備在實際中的造價比較高昂,更重要的是會對手的靈活性有一定限制,因而沒有得到有效推廣。此后推出的穿戴式光學標記可通過紅外線將手指及手掌變化傳輸?shù)狡聊簧?,也保持了?shù)據(jù)手套的優(yōu)點。該設備雖減輕了重量,提高了手部的靈活性,但是仍需較復雜的輸入輸出轉(zhuǎn)換設備,此外也會對手部動作的自然性產(chǎn)生影響?!?】基于視覺的手勢識別技術(shù)能夠使手部動作的表達更加自然,同時也可以為未來其他的肢體識別技術(shù)所應用,因此成為了主流。手型模型是通過計算機圖形學對二維的手勢圖像屬性,如手的顏色、紋理、邊界、輪廓等進行分析。【6】該方法主要使用三種組件:探測組件、
8、運動軌跡組件、識別組件?!?】探測組件負責有針對性地收集有特點的視覺信號并將手勢信號整理成碼。運動軌跡組件負責實時定位,雖然它對于只需靜態(tài)手勢的設備并不是必要的組件,但是其可以優(yōu)化手部中各部位的運動曲線,提升設備精度。基于視覺的手勢識別按手勢的動態(tài)特點可以分為靜態(tài)的與動態(tài)的兩種,靜態(tài)手勢識別針對單個手型,主要包括手勢分割及手勢識別兩部分,前者是后者的基礎?!?】靜態(tài)手勢識別方法難以識別區(qū)分度較小的手勢、實時性差,因此向動態(tài)手勢識別過渡已經(jīng)成為一種趨勢?!?】大部分手勢識別應用是將每個手勢作為一個整體,之后通過計算相似度來進行模式匹配。這種方法顯而易見的缺點是只有當收集到的數(shù)據(jù)與預設模型的相似程
9、度很高時才會比較準確,另外對于某些比較相似的手勢區(qū)分效果不好?!?】3.研究方法 目前常用的手勢識別研究方法主要有以下幾種:(1)基于人工神經(jīng)網(wǎng)絡的手勢識別神經(jīng)網(wǎng)絡基于統(tǒng)計和概率學方法的組織和判斷具有抗干擾、自學習、易控制和處理高效的特點,可用于處理信息缺失的模式并進行模式推廣。如果整個神經(jīng)網(wǎng)絡包括的全部神經(jīng)元都是時空效能好的算法,那就可以判斷手勢細微部分的運動。但人工神經(jīng)網(wǎng)絡對時間序列處理能力不強。在靜態(tài)手勢的識別中應用較多,動態(tài)手勢識別中幾乎沒有應用。此外,盡管對神經(jīng)網(wǎng)絡的相關研究及應用已經(jīng)有了幾十年,但是該方法本身的復雜性使成功構(gòu)建一個效果良好的神經(jīng)網(wǎng)絡對大多數(shù)人比較困難。【2】(2)基
10、于隱馬爾可夫模型的手勢識別隱馬爾可夫模型是一種能細致描述信號的時空變化統(tǒng)計分析模型,適用于動態(tài)手勢的識別。由于其分析復雜,計算量大,速度慢,故而大多采用離散馬爾可夫模型。(3)基于幾何特征的手勢識別,包括手勢分割法與幾何特征法手勢分割包括2種方法:單目視覺和立體視覺。基于單目視覺的方法又分為基于徒手的表觀特征(膚色,輪廓);人為增加限制,如要求使用者戴上有色手套及各種光學標識;建立數(shù)據(jù)庫的方法?!?2】手勢的幾何特征指手勢的邊緣(如輪廓)和手勢區(qū)域特征(如手掌顏色、面積)。【4】基于幾何特征的手勢識別技術(shù),大多采用各種距離公式進行模板匹配,如量度度量空間中真子集之間距離的Hausdorff距離
11、等。幾何特征識別方法主要有3種: 模板匹配法(自動提取每一幀特征圖像與模板庫匹配后識別手勢,多用于靜態(tài)手勢識別);神經(jīng)網(wǎng)絡法,統(tǒng)計分析法(如隱馬爾可夫模型法HMM)等。動態(tài)手勢識別的算法比較復雜。除了進行手勢識別的算法外,還需要其他輔助算法及過程。某些具有手部整體運動軌跡的手勢可以是肢體動作的一部分,比如揮手、打招呼等。這些手勢識別需要準確地從手腕部對手勢及手臂進行識別并分割。此外,在動態(tài)手勢識別中還需同時進行方位定位及識別工作,其核心是動態(tài)時間空間躍遷算法(DSTW),一種可以在時間空間成對排列搜索請求及模型手勢的算法?!?1】此外,涉及隨機信號及過程的光譜分析法已經(jīng)在大量科學學科中使用了幾
12、十年,盡管隨機性會給時間域特性分析帶來困難,像特征值及頻率仍然是有價值的光譜信息。傅里葉分析是頻率域光譜分析的常見方法。【8】盡管存在諸多的方法,而且手勢識別仍在不斷發(fā)展中,但是手勢識別本身的特點在某些方面成為了障礙。與人臉識別最顯著的區(qū)別是,基于圖像的手勢識別與人臉識別雖然都是根據(jù)二維圖像,但是手部沒有類似人臉那樣豐富的可以標記及區(qū)分的數(shù)據(jù)特征對象。人臉的表情豐富,可以作為理想的數(shù)據(jù)庫。典型的人臉切爾諾夫模型擁有18個變量,而自1973年來經(jīng)過幾十年的發(fā)展,面部特征又得到了豐富,非對稱的切爾諾夫臉可顯示多達36維的臉部特征。手部的特征明顯要少得多,基本上就是各關節(jié)、手掌的坐標,指尖的朝向等。
13、而且臉部特征基本上是在一個平面上的,沒有旋轉(zhuǎn)特征,臉部的自由度小。手部在手勢定位及旋轉(zhuǎn)上至少需要6維信息,包括手部的三維坐標及三維方向。而完全對手勢進行分辨需要超過20個的自由度變量,這使得手勢的甄別十分復雜。4. 當前的應用 (1)用于虛擬環(huán)境的交互手勢識別可以用于虛擬制造和虛擬裝配、產(chǎn)品設計等。虛擬裝配通過手的運動直接進行零件的裝配,同時通過手勢與語音的合成來靈活的定義零件之間的裝配關系。還可以將手勢識別用于復雜設計信息的輸入。【9】 (2)用于手語識別。手語是聾啞人使用的語言,是由手型動作輔之以表情姿勢由符號構(gòu)成的比較穩(wěn)定的表達系統(tǒng),是一種靠動作視覺交際的語言。手語識別的研究目標是讓機器
14、“看懂”聾人的語言。手語識別和手語合成相結(jié)合,構(gòu)成一個“人2機手語翻譯系統(tǒng)”,便于聾人與周圍環(huán)境的交流。手語識別同樣分為基于數(shù)據(jù)手套的和基于視覺的手語識別兩種?;贒GMM的中國手語識別系統(tǒng)選取Cyberglove型號數(shù)據(jù)手套作為手語輸入設備,采用了動態(tài)高斯混合模型DGMM(DynamicGaussianMixtureModel)作為系統(tǒng)的識別技術(shù),可識別中國手語字典中的274個詞條,識別率為98.2%。【9】 (3)用于多通道、多媒體用戶界面。正如鼠標沒有取代鍵盤,手勢輸入也不能取代鍵盤、鼠標等傳統(tǒng)交互設備,這一方面由于手勢識別的設備和技術(shù)問題,另一方面也由于手勢固有的多義性、多樣性、差異性
15、、不精確性等特點。手勢識別要想取得比較高的識別率,仍有很長的路要走。手勢輸入在人機交互中應用的精髓不在于用來獨立地用作空間指點,而是為語言、視線、唇語等交互手段通道提供空間的或其他的約束信息,以消除在單通道輸入時存在的歧義。這種做法是試圖以充分性取代精確性。 (4)用于機器人機械手的抓取機器人機械手的自然抓取一直是機器人研究領域的難點。手勢識別,尤其是基于數(shù)據(jù)手套的手勢識別的研究對克服這個問題有重要的意義,是手勢識別的重要應用領域之一。5.前景提供一個自然而且有效的人機交互界面始終是人機交互研究的目的。【1】 那么手勢識別以后的發(fā)展也要圍繞這一點。在未來的發(fā)展中,口語、手勢和人臉在虛擬環(huán)境中的
16、互補是必要的。因為手形有兩種建模方式:基于三維的建模和基于圖像的建模?!?】 基于三維的建模有強大的表達能力,幾乎能夠表達所有的手形,但是缺乏效率。而后者簡單高效,但是缺乏通用性。手勢由一段時間內(nèi)的一系列手形組成。手勢的分解和分類是手勢識別的兩個重要問題。在多用戶虛擬環(huán)境中,人臉又可以作為區(qū)分用戶的屬性。只有綜合利用他們,才能在人機交互系統(tǒng)中產(chǎn)生深遠的影響。 然而在手勢識別的發(fā)展中還有以下幾個難點:現(xiàn)有的手勢識別方法的局限性:單一顏色或靜態(tài)背景;干凈的膚色分割;手腕的界定;手動初始化。【10】到目前為止,大多數(shù)研究都集中在靜態(tài)手勢識別技術(shù),而我們不僅要對手勢進行跟蹤,還要進行識別,其計算工作量
17、很大且速度慢,不能用于實時識別系統(tǒng)。當前阻止我們進行實時識別的難點有手勢目標檢測困難手勢目標識別困難。當前還未能找到解決問題的理想方法,針對具體的某一系統(tǒng),在實現(xiàn)時要假設一定的限制條件,以達到較好的識別效果。雖然有許多許多的困難,但是現(xiàn)在全世界已有不少工作者投入到手勢識別這項研究中,例如:美國的麻省理工學院,喬治理工學院,加州圣何塞公司等。如上所言,這項研究肯定有許多的難點問題需要去思考,去克服。在他發(fā)展的道路上, 我認為分析師拉茲羅所言的:“無論何時,如果你想引進一種新的用戶界面,他是否簡單和容易操作總是成敗的關鍵。當年鼠標問世時也不是一下子就得到了大眾的接受?!狈浅_m合此處。 所以無論是學
18、生還是公司,只要堅持對該系統(tǒng)的研究, 必然會獲得成功。目前多個科技公司都紛紛推出了自己的手勢識別產(chǎn)品或申請專利。2012年,Leap Motion 橫空出世。作為一種繼Kinect之后又一款革命性的交互產(chǎn)品,它只需將其用USB連接到電腦上,便可以準確識別出來顯示器前方的動作。2016年4月,蘋果公司獲得了來自美國專利商標局一項新專利的批準。通過Apple Watch上多種傳感器的檢測,iPhone可轉(zhuǎn)化成文字或語音消息,實現(xiàn)忽略來電、靜音等功能。此外,2016年4月2日公布的三星公司為VR研發(fā)的新傳感器允許用戶凌空操作VR應用,可以通過虛擬現(xiàn)實世界中瞄準線實現(xiàn)菜單、圖標、照片、視頻等的點擊運行
19、,而完全不需要使用到設備上的任何真實按鈕。參考文獻:【1】任雅祥,基于手勢識別的人機交互發(fā)展研究,計算機工程與設計27卷 第七期【2】武霞、張崎、許艷旭,手勢識別發(fā)展現(xiàn)狀綜述,電子科技2013年26卷6期【3】楊波、宋曉娜、馮志全,復雜背景下基于空間分布特征的手勢識別算法,計算機輔助設計與圖形學學報2010.10 第22卷第10期【4】馮志全、蔣彥,手勢識別研究綜述,濟南大學學報(自然科學版)2013年10月 第27卷第4期【6】Hong Cheng,Zhoujun Dai,Zicheng Liu,<An image-to-class dynamic time warping appro
20、ach for both 3D static and trajectory hand gesture recognition >,<Pattern Recognition>55(2016)137147)【7】Shweta K.Yewale,Pankaj K.Bharne,<Artificial Neutral Network Approach for Hand Gesture Recognition>,<International Journal of Engineering Science and Technology> Vol.3 No.4 April 2011【8】Ali Boyali,Naohisa Hashimoto,<Spectral Collaborative Representation
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 航線配船方法課程設計
- 水利工程師水利工程設計與運維
- 營養(yǎng)科護士助健康飲食
- 科學實驗小班班級工作計劃
- 采礦工程行業(yè)工程師的工作總結(jié)
- 家庭用品行業(yè)采購工作總結(jié)
- 餐飲服務行業(yè)技術(shù)工作總結(jié)
- 醫(yī)藥健康領域科技整合顧問工作總結(jié)
- 冶金行業(yè)行政后勤工作總結(jié)
- 公務員工作總結(jié)工作成果與貢獻評價
- 2024年全國教育大會精神全文課件
- 寧夏銀川市第一中學2025屆數(shù)學高一上期末質(zhì)量檢測模擬試題含解析
- 廣東省深圳市2023-2024學年三年級上學期英語期中試卷(含答案)
- 《4.3.1等比數(shù)列的概念》說課稿
- 2025年高考英語一輪復習 詞性轉(zhuǎn)換訓練(含答案)
- 睡眠醫(yī)學課件 睡眠呼吸暫停綜合征
- 合肥長鑫存儲在線測評題2024
- 山東省濟南市2023-2024學年高一年級上冊1月期末考試英語試題(含解析)
- 2024-2030年中國餐飲供應鏈行業(yè)經(jīng)營效益及競爭格局分析報告
- 2024至2030年中國建筑信息模型(BIM)行業(yè)發(fā)展狀況及趨勢前景預判報告
- (華中師大版)五年級信息技術(shù)全冊教案設計
評論
0/150
提交評論