chpt3交互技術(shù)與設備_第1頁
chpt3交互技術(shù)與設備_第2頁
chpt3交互技術(shù)與設備_第3頁
chpt3交互技術(shù)與設備_第4頁
chpt3交互技術(shù)與設備_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、3.1 人機交互技術(shù)3.2 眼動跟蹤3.3 姿勢識別3.4 三維輸入3.5 語音識別。話音(話音(Voice)。 主要以語音識別的研究為基礎,不需很高的識別率,借助一定的AI技術(shù)進行交互。2。姿勢(姿勢(Gusture)。 主要利用數(shù)據(jù)手套,Joystring和數(shù)據(jù)服(DataSuit)等裝置對手和身體的運動進行追蹤而完成人機交互。3。頭部追蹤(頭部追蹤(Head-tracking)。 主要利用電磁、超聲波等方法對頭的運動進行定位而進行交互。4。凝視(凝視(Eye-gaze)。以眼睛作為一種指點裝置的交互方法。交互設備當前交互設備可被分為傳統(tǒng)交互設備和新型交互設備,前者已趨于成熟并得到廣泛普及

2、,后者則主要在VR中使用。新型交互設備包括各類3D控制器、3D空間跟蹤、語音識別、姿勢識別,有Polhemus定位器、數(shù)據(jù)手套、數(shù)據(jù)服裝、視線跟蹤裝置等。 所有三維空間控制器的共同特點是都具有六個自由度。對應于描述三維對象的寬度、深度、高度(x、y、z)、 俯仰角(pitch)、轉(zhuǎn)動角(yaw)、偏轉(zhuǎn)角(roll),后三個自由度對于象航天航空器模擬這樣的交互技術(shù)是必不可少的。對于虛擬現(xiàn)實技術(shù)的基本交互任務(導航、選擇、操縱(旋轉(zhuǎn))等)也是必不可少的。常見有跟蹤球(Spaceball)、三維探針(3D Probes)、三維鼠標器 (3D Mouse)、三維操縱桿(3D Joystick)、 數(shù)據(jù)

3、手套等。其性能可用分辨率(即精度)、刷新速率、滯后時間及可跟蹤范圍來度量。3.2 眼動跟蹤3.2 眼動跟蹤3.2 眼動跟蹤3.2 眼動跟蹤3.2 眼動跟蹤六種主要的視線追蹤技術(shù)3.2 眼動跟蹤3.2 眼動跟蹤3.4 三維輸入3.5 語音識別3.5 語音識別。3.5 語音識別3.5 語音識別過去十年里,語音識別技術(shù)取得了顯著的進展。單詞錯誤率持續(xù)以每年為2的因子下降 。基礎技術(shù)取得了實質(zhì)性進展,更接近說話者無關性、連續(xù)語音以及大詞匯量等目標。這一發(fā)展是由于以下幾個因素的結(jié)果。首先,是HMM時代的來臨。HMM具有強大的能力,在訓練數(shù)據(jù)的配合下,模型的參數(shù)能夠自動地訓練達到最優(yōu)性能。第二,對語音資料

4、庫的開發(fā)進行了大量投入。第三,確立了性能評估的標準。最后,計算機技術(shù)的進展也間接地影響著我們的進展。3.5 語音識別3.5 語音識別 4.未來的方向魯棒性可移植性適應性語言建模信心度量詞匯表外的單詞自發(fā)語音韻律動力學建模3.5 語音識別中文語音識別方面的研究也有了較大的進展。IBM公司于1997年推出ViaVoice 4.0中文連續(xù)語音識別系統(tǒng),其平均輸入速度可達每分鐘150字,識別率達到95%。系統(tǒng)定義詞匯達32,000個,用戶還可根據(jù)需要添加28,000個專業(yè)術(shù)語3.6 表情識別為了識別表情,首先要將表情信息從外界攝取回來。跟蹤面部表情的方法有幾種。Mase和Pentland也許是最早利用

5、光流(optical flow)來跟蹤動作單元的科學家。Terzopoulos和Waters開發(fā)了一種復雜得多的方法。他們的方法是跟蹤線性的面部特征,從而估算出一個三維線框面部模型的相應參數(shù)。Haibo Li等描述了在面部圖象編碼系統(tǒng)中用一個計算機圖形與計算機視覺處理之間的控制反饋循環(huán)的方法。對于FACS模型的面部表情識別方法來講,它有嚴重的局限,因為,這樣就意味著不能觀察真正的肌肉動作模式。要使計算機能識別表情,就要將表情信息以計算機所能理解的形式表示出來,即對面部表情進行編碼。基于根據(jù)面部運動確定表情的思想,Ekman和Friesen于1978年提出了一個描述所有視覺上可區(qū)分的面部運動的系

6、統(tǒng),叫做面部動作編碼系統(tǒng)(FACS),它是基于對所有引起面部動作的臉的動作單元的枚舉編制而成的。在FACS中,一共有46個描述面部表情變化的動作單元(AU),和12個描述頭的朝向和視線的變化的AU。例如,快樂的表情被視為牽拉嘴角(AU12+13)和張嘴(AU25+27)并升高上唇(AU10)以及皺紋的略微加深(AU11)的結(jié)合。FACS的計分單位是描述性的,不涉及情緒因素。利用一套規(guī)則,F(xiàn)ACS分數(shù)能夠被轉(zhuǎn)換成情緒分數(shù),從而生成一個FACS的情緒字典面部表情的識別可以通過對FACS中的那種預定義的面部運動的分類來進行,而不是獨立地確定每一個點。這就是Mase,以及Yacoob與Davis的識別

7、系統(tǒng)所采取的方法。在他們的105個表情的數(shù)據(jù)庫上,他們的總識別正確率為80%。Mase在一個更小的數(shù)據(jù)集上也得到了80%的正確率。研究者們遇到的主要困難可能是運用FACS來描述人類面部運動時的復雜性。現(xiàn)在有越來越多的心理學者支持另一種觀點,即對表情識別而言,重要的是表情的動力學的作用,而不是細致的空間形變。有的認為,時間因素,是表情識別的關鍵參數(shù)。這將暗示告別對表情的那種靜態(tài)的分析,而轉(zhuǎn)向在運動序列中分析整個臉的面部活動SimGraphics于1994年開發(fā)的虛擬演員系統(tǒng)(VActor)就是一個例子。此系統(tǒng)要求用戶戴上安有傳感器的頭盔,傳感器觸及臉的不同部位,使它們能夠控制計算機生成的形象。目

8、前,VActor系統(tǒng)還能夠與一個由Adaptive Optics Associates生產(chǎn)的紅外運動分析系統(tǒng)結(jié)合使用,以跟蹤記錄用戶的面部表情變化。此外,有的系統(tǒng)還通過攝象機拍攝用戶的面部表情,然后利用圖象分析和識別技術(shù)進行表情識別,這樣可以減少各種復雜儀器對用戶的影響,使人機交互更加真實自然。3.7 自然語言理解3.7 自然語言理解存在問題1). 自然語言是一無限系統(tǒng),沒有一個自然語言可以用有限集的表達式來完全表達.只有在其領域有限的情況下才可行.2). 理解語法易,理解語義難.3). 缺乏足夠的世界知識. 現(xiàn)有的系統(tǒng)主要包含有限領域的一些專家知識,缺乏其他的專家知識.4). 從句子中決定用

9、戶的意圖難. 理解一句子的語義內(nèi)容只是理解一些事實知識,而理解用戶的意圖則涉及了解用戶的目標,計劃,信念及期望.3.7 自然語言理解3.7 自然語言理解自然語言和手勢的結(jié)合3.8 手寫識別靜態(tài)識別就是對于靜態(tài)的語言文本圖象的識別,而動態(tài)識別,又稱為聯(lián)機識別或在線識別,即通過數(shù)字化設備所記錄的隨時間變化的筆座標序列來進行識別。印刷體識別、手寫印刷體識別、離散手寫體識別和草體識別。不同情況下,所采用的識別策略和獲得的識別率都有很大的差異。在離線的、不受限手寫詞語識別中,有報道說,在采用10, 100和1000詞大小的字典時分別達到了95%, 85%和 78%的識別率。在線系統(tǒng)的例子中,有報道說,在

10、采用21,000詞的字典時,達到了80% 的識別率。3.8 手寫識別靜態(tài)手寫體識別的方法和識別率取決于對手寫的約束的層次。這些約束主要是手寫的類型、寫字者的數(shù)量,詞匯量的大小以及空間布局。郵件分揀郵件分揀這一領域很好的體現(xiàn)了手寫識別的演變。書寫者的數(shù)目是無限的。在早期,只有郵政編碼能夠被識別。然后,城市名(以及美國的州)得到了處理:手寫印刷體、草體和兩者的混合的識別。也利用如銀行支票銀行支票上數(shù)字和文字之間的冗余信息,3.8 手寫識別字符識別技術(shù)可以兩個準則來分類:對數(shù)據(jù)進行預處理的方法和決策算法的類型。預處理技術(shù)分為三類:分別利用全局變換(相關、富里葉描述子等等)、局部比較(局部強度、直線的

11、交叉、特征位置等等)和幾何或拓撲特征(筆劃、圓圈、開口、骨架等等)。各種決策方法,例如,各種統(tǒng)計的方法、神經(jīng)網(wǎng)絡、結(jié)構(gòu)匹配(樹、鏈等等)以及隨機處理(馬爾科夫鏈等等)。最近的很多方法都混合若干種技術(shù),以提高可靠性來補償手寫的巨大的多變性。3.8 手寫識別聯(lián)機識別的難度受幾個因素的影響:1。書寫者的數(shù)目。 2。對書寫者的約束:在框里輸入字符,在字符之間抬筆,遵守筆劃順序, 按照特定形狀來輸入筆劃。 3。對語言的約束:限制所識別的符號的數(shù)目,限制詞匯集的大小,限制文法和/或語義 。3.8 手寫識別聯(lián)機手寫識別有若干特點必須加以考慮,以達到最好的效果:1。預處理。 平滑、傾斜校正、扭曲校正、去鉤等操

12、作和線條方向、拐角、圈等特征的提取操作更容易在筆跡數(shù)據(jù)而不是象素圖上完成。 2。區(qū)分。 對光學上容易混淆的字符(如j和;)的區(qū)分可以從筆跡信息得到幫助。 3。分割。 利用抬筆信息可以幫助字符的分割,手寫印刷體尤其如此。4。立即反饋。 及時的反饋可以幫助用戶給出及時的修正,從而用于對識別程序的進一步訓練。3.8 手寫識別3.8 手寫識別關于應用的討論首先,不應該限制用戶寫什么和在什么地方寫。應該讓用戶能夠使用在各種語言中通用的任何特殊字符,而局限于ASCII字符是不合適的,特別是面對日益突出的國際化趨勢。理想的書寫輸入應該支持Unicode字符。第二個需求是文本能夠與非文本,例如圖形、手勢等等,

13、一起輸入。識別器必須對這些種類的輸入進行區(qū)分。3.8 手寫識別關于應用的討論1。離線識別與聯(lián)機識別的比較2。加框限制的和自由格式的輸入3。印刷體和草體4。字母的識別與單詞的識別5。上下文信息6。可訓練的識別7。與圖形和手勢的混和全息圖象3.9 全息圖象1947年匈牙利物理學家Denis Gabor 在實驗室中制出了第一幅全息圖象。雖然由于當時的技術(shù)所限,Gabor制出的這幅圖象的質(zhì)量還遠不能和現(xiàn)在的全息圖象相比,但是這一嶄新的理論仍為Gabor贏得了1971年的諾貝爾物理獎。19591969年,密執(zhí)根大學的Leith和Upatnieks用激光作為光源重作了Gabor 1947年的實驗,制成了首

14、幅現(xiàn)代全息圖象。激光以其特有的高度相干性(頻率相同、相差恒定)成為制作全息圖象的最理想的光源,這一點在以下關于全息圖象的生成的討論中將看得更清楚。3.9 全息圖象讓我們首先來看看全息圖象與平時常見的普通照片有什么不同。普通照片記錄的只有反射光的強度信息,而丟失了有關相位改變的信息,因而得到的圖象沒有深度感。在全息圖象中,我們將試圖記錄反射光完整的信息,而這一點是通過在底片上記錄反射光(對象光束object beam)與某一基準光源(參考光束reference beam )的干涉波形達到的。為了保證兩束光滿足相干條件,通常使用分光器將同一光源的光分為兩束,分別充當參考光源和對象光源。3.9 全息

15、圖象參考光束和對象光束3.9 全息圖象干涉現(xiàn)象3.9 全息圖象干涉模式的記錄3.9 全息圖象全息圖象的分割3.9 全息圖象兩大類:吸收型全息圖象(absorption hologram)和相位型全息圖象(phase hologram)。所謂吸收型全息圖象是指通過記錄瀑光過程中底片吸收光的差異(即鹵化銀轉(zhuǎn)化為銀原子的數(shù)量)來記錄全息信息的全息圖象。而吸收型全息圖象經(jīng)過漂白處理,得到的圖象則稱為相位型全息圖象。3.9 全息圖象3.9 全息圖象原始照片的拍攝3.9 全息圖象拍攝全息圖象3.9 全息圖象全息圖象的應用MIT媒體實驗室的空間圖象組設計了兩個實驗性的全息圖象的顯示系統(tǒng)MarkI和MarkI

16、I。其中,MarkI能以每秒20幀的速度顯示25*25*25mm,且具有15度水平視角范圍的彩色全息圖象,而MarkII則能顯示150*75*150mm,且具有36度水平視角范圍的彩色全息圖象,顯示速度約為每秒1幀。在MarkI中,使用了一個三通道的聲光調(diào)制器(AOM),各通道傳輸?shù)母缮鏃l紋分別用來調(diào)制紅、綠、藍三種顏色的光,然后生成全息圖象。每幅全息圖象的數(shù)據(jù)量為6MB,系統(tǒng)有兩種工作模式,即圖象預生成模式和交互模式。MarkII對MarkI的功能作了進一步的擴展,采用了兩個18通道的聲光調(diào)制器,利用并行使顯示的圖象尺寸大大提高,每幅圖象的數(shù)據(jù)量達36MB。3.10 聽覺界面主要概念1。聲景

17、(SoundScapes)現(xiàn)實世界的聲音對于我們處于周圍的場景中的現(xiàn)場感是非常關鍵的。2。聽覺顯示(Auditory displays)聽覺顯示是指將聲音用于數(shù)據(jù)的解釋3。聽標(Auditory icon) 3.10 聽覺界面聽標是計算機事件和屬性與通常有聲事件和屬性之間的映射。4。耳標(Earcon )耳標是在用戶界面中使用的非言語的音頻,向用戶提供關于某個計算機對象、操作或者交互的信息,是圖標的聽覺對應物。5。可聽化(Sonification )可聽化是將所研究領域中以數(shù)字表示的關系映射成聲音領域的關系3.10 聽覺界面聽標是利用與日常產(chǎn)生聲音的事件類比,將日常的聲音映射到計算機事件上;耳標是將短的音調(diào)序列與動作和物體相聯(lián)系;可聽化則是利用聲音生成器將數(shù)據(jù)變換成聲音的傳統(tǒng)參數(shù),如頻率、幅度、時延等,從而進行監(jiān)控或者幫助理解。3.10 聽覺界面聽覺系統(tǒng)設計的幾個問題1。系統(tǒng)如何以最大的清晰度表示數(shù)據(jù)。2。用于數(shù)據(jù)可聽化和聽覺界面設計的聲音合成系統(tǒng)的靈活性和兼容性也是十分關鍵的問題。3。我們?nèi)绾伪苊饴犛X幻覺?哪些聲音屬性最能減小聽覺走樣?我們能夠同時映射多少個數(shù)據(jù)信道而不使聽者過載?哪些聲音屬性最適合多數(shù)據(jù)信道映射呢?當同一數(shù)據(jù)信道映射到多個聲音屬性時,什么樣的組合的效果最能強化和澄清數(shù)據(jù)的表現(xiàn)?在基于聲音的界面中,我們能夠利用或建立什么規(guī)范?3.10 聽覺界面聽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論