版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人機交互第三章 交互技術與設備人機交互第三章 交互技術與設備(9學時)
3.1人機交互技術 3.2眼動跟蹤
3.3姿勢識別
3.4三維輸入
3.5語音識別
人機交互
第三章 交互技術與設備(續(xù)) 3.6表情識別
3.7自然語言理解
3.8手寫識別
3.9全息圖象
3.10聽覺界面
3.11其他(觸覺,立體視覺,運動跟蹤)3.1人機交互技術精確交互技術
精確交互技術是指能用一種交互技術來完全說明人-機交互目的,系統(tǒng)能精確確定用戶的輸入。如:鍵盤、鼠標、觸摸屏、跟蹤球、觸墊和筆輸入等3.1人機交互技術非精確交互技術1。話音(Voice)。主要以語音識別的研究為基礎,不需很高的識別率,借助一定的AI技術進行交互。
2。姿勢(Gusture)。主要利用數(shù)據(jù)手套,Joystring和數(shù)據(jù)服(DataSuit)等裝置對手和身體的運動進行追蹤而完成人機交互。
3。頭部追蹤(Head-tracking)。主要利用電磁、超聲波等方法對頭的運動進行定位而進行交互。
4。凝視(Eye-gaze)。以眼睛作為一種指點裝置的交互方法。交互設備當前交互設備可被分為傳統(tǒng)交互設備和新型交互設備,前者已趨于成熟并得到廣泛普及,后者則主要在VR中使用。新型交互設備包括各類3D控制器、3D空間跟蹤、語音識別、姿勢識別,有Polhemus定位器、數(shù)據(jù)手套、數(shù)據(jù)服裝、視線跟蹤裝置等。(1)傳統(tǒng)指點設備指點設備幾乎成為唯一一種主流交互輸入設備。。指點設備與視覺關系密切,直觀性好,使用戶將注意力集中于屏幕,可操作更快,減少差錯,易學,滿意感好。指點設備是一種符合Fitts定律的設備,其指點速度可由下式給出:T=C1+C2+C3log2(C4/W)=C1+log2(2D/W)+C3log2(C4/W)式中,第三項反映移入目標內(nèi)部或移向單個象素時微調(diào)移動所需時間,它說明指向一個目標的時間由動作的初始時間C1、粗略運動時間和微調(diào)時間組成。顯然,對于一種設備,常數(shù)C1、C2、C3、C4越小則指點速度越快,其中D為兩點之間距離,W為寬度。
(2)三維空間控制器所有三維空間控制器的共同特點是都具有六個自由度。對應于描述三維對象的寬度、深度、高度(x、y、z)、俯仰角(pitch)、轉(zhuǎn)動角(yaw)、偏轉(zhuǎn)角(roll),后三個自由度對于象航天航空器模擬這樣的交互技術是必不可少的。對于虛擬現(xiàn)實技術的基本交互任務(導航、選擇、操縱(旋轉(zhuǎn))等)也是必不可少的。常見有跟蹤球(Spaceball)、三維探針(3DProbes)、三維鼠標器(3DMouse)、三維操縱桿(3DJoystick)、數(shù)據(jù)手套等。其性能可用分辨率(即精度)、刷新速率、滯后時間及可跟蹤范圍來度量。(3)語音交互技術用語音技術建立用戶界面可采用兩種途徑:一是用基于語音識別和理解技術的新操作系統(tǒng)代替以WIMP界面技術為基礎的操作系統(tǒng);另一種就是利用語音技術來操作WIMP界面。但無論采用何種方法都不可避免地增加了語音通道的負擔,而其他各通道的作用卻不能很好地調(diào)動。筆輸入系統(tǒng)可能會成為多媒體系統(tǒng)人機交互界面的重要交互工具。這種系統(tǒng)在一定程度上調(diào)用了人的運動過程和語言過程,但它把主要信息通道都集中在手的運動上,從界面設計概念上講,目前的大多數(shù)語音界面本質(zhì)上都是試圖把語音識別作為一種精確交互技術。(4)基于手勢的交互技術基于手勢的交互技術不同于那些使用手操作設備的交互技術。象鼠標器、鍵盤這樣的交互設備也是由手使用的,但這類設備比較簡單,向計算機輸入的信息基本上與手勢無關。目前,能識別手勢的典型交互設備是數(shù)據(jù)手套,它能對較為復雜的手的動作進行檢測,包括手的位置和方向、手指彎曲度,并根據(jù)這些信息對手勢進行分類。手勢的識別可以有多種途徑,人們已經(jīng)研究過幾種交互技術,包括手勢按鈕、手勢定位器和手勢拾取設備等等,這些交互技術尤其適合于三維空間交互,起到二維空間交互中類似交互技術的作用。(5)視線追蹤的交互技術目前用戶界面所使用的任何人機交互技術幾乎都有視覺參與。早期的視線跟蹤技術首先應用于心理學研究(如閱讀研究),后被用于人機交互。視線跟蹤的精度從0.1°至1°或2°不等,制造成本也有巨大差異。視線跟蹤精度與在測量時對用戶的限制和干擾就是一對的矛盾,在多通道用戶界面設計中,減少這種限制和干擾是非常重要的。視線作為交互裝置最直接的用處就是代替鼠標器作為一種指點裝置。3.交互設備的分類(1)按信息流向分類(2)按物理特征分類(3)按人的通道分類(4)GKS和PHIGS的分類(5)輸入設備空間分類法(6)按參數(shù)類型分類
(1).按信息流向分類傳統(tǒng)的外設分類主要按照信息交換的方向。通常所說輸入設備和輸出設備是相對于計算機而言的。常見的輸入設備有鍵盤、鼠標器、光筆、觸摸屏等等;常見的輸出設備有顯示器、打印機、揚聲器等等。新型人機交互技術如虛擬現(xiàn)實技術正在使用更復雜的設備,其中輸入設備有數(shù)據(jù)手套、三維空間跟蹤器、數(shù)據(jù)服、語音識別等,輸出設備有頭盔顯示器(HMD)、三維聲音產(chǎn)生設備、語言合成設備等。(2).按物理特征分類B.Shneiderman將已投入使用的輸入設備分為:①按鍵設備,主要指鍵盤;②指點設備,分為直接指點設備和間接指點設備,前者包括光筆、觸摸屏等,后者包括鼠標器、跟蹤球、控制桿、圖形板等。新型輸入設備如視線跟蹤設備、數(shù)據(jù)手套、三維空間跟蹤設備(如Polhemus)也已出現(xiàn)并應用于虛擬現(xiàn)實技術;③語音識別。輸出設備主要有顯示器和打印機等平面圖形顯示設備和聲音顯示設備,新型輸出設備包括三維立體圖像和三維立體聲顯示設備等。(3).按人的通道分類五十年代興起的認知心理學,用信息加工的觀點解釋人的認知活動,把人看作一個信息加工系統(tǒng)。人的信息加工的過程分為三個步驟:①信息接受,即感受器的感覺輸入;②信息的中樞加工,包括信息存儲與提取、決策等主要過程;③信息輸出,即效應器的反應。心理學將人接受刺激和作出反應的信息通路稱為通道(modality)。對應于接受信息和輸出信息分別為感覺通道和效應通道。感覺通道主要有視覺、聽覺、觸覺、力覺、動覺、嗅覺、味覺等。效應通道主要有手、足、頭及身體、語言(音)、眼神、表情等。(3).按人的通道分類按人的通道進行分類可以更好地分析交互設備與人的因素有關的特點。根據(jù)人的感覺通道和效應通道的種類可將交互設備分為輸入設備和輸出設備。傳統(tǒng)工程心理學和人類工效學主要研究手足反應的速度、準確率及注意力分配等問題。輸入設備又可分為手動設備、語音輸入設備、身體(空間位置)輸入設備等。輸出設備又可分為視覺顯示器、聽覺顯示器、觸覺顯示器等。這種分類比較全面和有完備性,能針對虛擬現(xiàn)實、多通道與多媒體人機交互技術發(fā)展具有預測性。(4).GKS和PHIGS的分類GKS根據(jù)交互技術的需要將圖形輸入設備分為交互圖形輸入設備和非交互圖形輸入設備。前者包括鼠標器、圖形輸入板、鍵盤、操縱桿、跟蹤球、光筆等,后者包括大型數(shù)字化儀、掃描數(shù)字化儀。為保證設備無關性,GKS進而引入邏輯輸入設備的概念,并抽象出六類圖形輸入設備:①定位設備;②筆劃設備;③定值設備;④選擇設備;⑤拾取設備;⑥字符串設備。三維圖形系統(tǒng)PHIGS與GKS類似,也使用了物理設備和邏輯設備的概念,同樣分為上述六類圖形邏輯輸入設備。PHIGS還支持三維輸入設備。GKS與PHIGS的分類主要適用于傳統(tǒng)的圖形系統(tǒng)以及圖形用戶界面。(5).輸入設備空間分類法K.Card等人在Foley、Buxton、Baecker等人工作的基礎上,用幾種物理特性及其組合(包括三個維度,線性/旋轉(zhuǎn)、絕對/相對、位置/力)對輸入設備進行分類,見表4.1。他們進一步認為,其他種類的輸入設備(如基于語音或熱量的)在原理上都使用這些特性的某種組合。令人感興趣的是,根據(jù)這種系統(tǒng)化的分類思想生成的輸入設備設計空間,能從理論上指導工程設計,產(chǎn)生新穎的交互設備。他們將設備的設計空間繪制成圖,并為至今已考慮到的所有設備在設計空間中確定了位置(未包括語音設備),并指出圖中某些空白處有可能形成潛在的新型交互設備。這種分類的另一作用是對現(xiàn)有交互設備進行測試與評價。(5).輸入設備空間分類法(6).按參數(shù)類型分類我們參考Card等人的分類方法,擴充符號類型,按參數(shù)類型對交互設備進行分類。這種分類方法僅針對輸入設備,依據(jù)的指標是輸入設備所產(chǎn)生數(shù)據(jù)的類型。該分類被應用于我們的多通道用戶界面研究工作和系統(tǒng)實現(xiàn)。目前的分類見表4.2。
表4.2中,只列出每種參數(shù)類型最典型的交互設備,但并不排除不常用的以及尚未出現(xiàn)的交互設備。如2DPOS(二維位置設備)、2DdPOS(二維相對位置設備)中只列出鼠標器、視線跟蹤、觸摸屏,而事實上鍵盤、語音亦可產(chǎn)生這種數(shù)據(jù)類型。這種分類方法試圖包括目前正在使用的交互設備、原型設備甚至概念性設備。
(6).按參數(shù)類型分類3.2眼動跟蹤1.引言視線跟蹤技術及裝置有強迫式(intrusiveness)與非強迫式(non-intrusiveness)、穿戴式與非穿戴式、接觸式(如Eyeglass-mounted)與非接觸式(Remote)之分;其精度從0.1°至1°或2°不等,制造成本也有巨大差異。在價格、精度與方便性等因素之間作出權衡是一件困難的事情,例如視線跟蹤精度與對用戶的限制和干擾就是一對尖銳的矛盾。有關視覺輸入的人機界面研究主要涉及兩個方面:一是視線跟蹤原理和技術的研究;二是在使用這種交互方式后,人機界面的設計技術和原理的研究.3.2眼動跟蹤2.人眼的運動眼動在人的視覺信息加工過程中,起著重要的作用。它有三種主要形式:跳動(Saccades),注視(Fixations)和平滑尾隨跟蹤(SmoothPursuit)。在正常的視覺觀察過程中,眼動表現(xiàn)為在被觀察目標上一系列的停留及在這停留點之間的飛速跳動,這些停留一般至少持續(xù)100ms以上,稱為注視。絕大多數(shù)信息只有在注視時才能獲得并進行加工。注視點間的飛速跳躍稱為眼跳動。眼跳動是一種聯(lián)合眼動(即雙眼同時移動),其大小為1到40度視角,持續(xù)時間為30到120ms,最高運動速度為400-600度/秒。3.2眼動跟蹤2.人眼的運動
眼睛能平滑地追蹤運動速度為1到30度/秒的目標,這種緩慢、聯(lián)合追蹤眼動通常稱為平滑尾隨跟蹤。平滑尾隨跟蹤必須有一個緩慢移動的目標,在沒有目標的情況下,一般不能執(zhí)行這種眼動。在人機交互中,主要表現(xiàn)為跳動和注視兩種形式。3.2眼動跟蹤3.追蹤技術視線追蹤的基本工作原理是利用圖象處理技術,使用能鎖定眼睛的特殊攝象機。通過攝入從人的眼角膜和瞳孔反射的紅外線連續(xù)地記錄視線變化,從而達到記錄分析視線追蹤過程的目的。在人機交互中對視線追蹤的基本要求是:(1)要保證一定的精度,滿足使用要求;(2)對用戶基本無干擾;(3)定位校正簡單;(4)可作為計算機的標準外設。3.2眼動跟蹤六種主要的視線追蹤技術3.2眼動跟蹤3.追蹤技術從視線跟蹤裝置得到的原始數(shù)據(jù)必須經(jīng)過進一步的處理才能用于人機交互。數(shù)據(jù)處理的目的是從中濾除噪聲(filternoise),識別定位(recognizefixations)及局部校準與補償(compensateforcalibrationerrors)等,最重要的是提取出用于人機交互所必需的眼睛定位坐標。但是由于眼動存在固有的抖動(jittermotion)以及眼睛眨動所造成的數(shù)據(jù)中斷,即使在定位這段數(shù)據(jù)段內(nèi),仍然存在許多干擾信號,這導致提取有意(intentional)眼動數(shù)據(jù)的困難,解決此問題的辦法之一是利用眼動的某種先驗模型加以彌補。3.2眼動跟蹤3.追蹤技術將視線應用于人機交互必須克服的另一個固有的困難是避免所謂的“米達斯接觸(MidasTouch)”問題。如果鼠標器光標總是隨著用戶的視線移動,可能會引起他的厭煩,因為用戶可能希望能隨便看著什么而不必非“意味著”什么.在理想情況下,應當在用戶希望發(fā)出控制時,界面及時地處理其視線輸入,而在相反的情況下則忽略其視線的移動。然而,這兩種情況一般不可能區(qū)分。目前,美國TexasA&M大學使用裝有紅外發(fā)光二極管和光電管的眼鏡,根據(jù)進入光電管的光的強弱來決定眼睛的位置。ASL(AppliedScienceLab)也已有較成熟的視線追蹤系統(tǒng)。3.3姿勢識別1.手勢的定義和分類 手勢是人的上肢(包括手臂、手和手指)的運動或狀態(tài)。人們對手勢做了不同的分類:①交互性手勢與操作性手勢,前者手的運動表示特定的信息(如樂隊指揮),靠視覺來感知;后者不表達任何信息(如彈琴)。②自主性手勢和非自主性手勢,后者與語音配合用來加強或補充某些信息(如演講者用手勢描述動作、空間結構等信息)。③離心手勢和向心手勢,前者直接針對說話人,有明確的交流意圖,后者只是反應說話人的情緒和內(nèi)心的愿望。3.3姿勢識別2.計算機手勢輸入技術 利用計算機識別和解釋手勢輸入是將手勢應用于人機交互的關鍵前提。目前人們采用了不同手段來識別手勢:①基于鼠標器和筆。缺點是只能識別手的整體運動而不能識別手指的動作;優(yōu)點是僅利用軟件算法來實現(xiàn),從而適合于一般桌面系統(tǒng)。②基于數(shù)據(jù)手套(DataGlove)。主要優(yōu)點是可以測定手指的姿勢和手勢,但是相對而言較為昂貴,并且有時會給用戶帶來不便(如出汗)。③基于計算機視覺。即利用攝象機輸入手勢,其優(yōu)點是不干擾用戶,這是一種很有前途的技術。3.3姿勢識別2.計算機手勢輸入技術所采用的手勢識別技術目前主要有:①模板匹配技術。②神經(jīng)網(wǎng)絡技術。③統(tǒng)計分析技術。3.3姿勢識別2.計算機手勢輸入技術 目前較為實用的手勢識別是基于數(shù)據(jù)手套的,因為數(shù)據(jù)手套不僅可以輸入包括三維空間運動在內(nèi)的較為全面的手勢信息,而且比基于計算機視覺的手勢在技術上要容易得多。手勢輸入不能象鼠標器這樣的指點設備精確控制到屏幕象素一級,而只能反映具有一定范圍的所謂"興趣區(qū)域(AOI-AreaofInterest)",而且這個范圍的界限是模糊的;另一方面"興趣"所指具有一定的概率分布(比如為正態(tài)分布),反映了可能存在一個興趣中心。3.4三維輸入 常見的三維輸入設備有跟蹤球(Spaceball)、三維探針(3DProbes)、三維鼠標器(3DMouse)、三維操縱桿(3DJoystick)、數(shù)據(jù)手套(DataGlove)等。許多輸入設備產(chǎn)生的空間位置是相對的,一些應用(如,虛擬現(xiàn)實系統(tǒng))需要三維空間絕對定位技術。視線跟蹤、數(shù)據(jù)手套、頭盔顯示器等交互設備通常輔以三維空間定位技術(如流行的Polhemus)的幫助。常用的定位技術有電機械式、電磁式、超聲式、光學式等,可對用戶的位置(主要是頭部)和方向進行實時精密的測量,其性能可用分辨率(即精度)、刷新速率、滯后時間及可跟蹤范圍來度量。3.5語音識別影響識別系統(tǒng)性能的主要因素:參數(shù)范圍說話方式孤立詞到連續(xù)語音說話風格朗讀到自發(fā)語音身份信息說話者特定到說話者無關詞匯量小(<20詞)到大(>20,000詞)語言模型有限狀態(tài)到上下文相關混亂度?。?lt;10)到大(>100)信噪比高(>30分貝)到低(<10分貝)傳感器voice-cancelling的話筒到電話3.5語音識別影響語音識別的因素:首先是音素的發(fā)聲。它作為組成單詞的最小聲音單位,與它們所出現(xiàn)的上下文密切相關。在美國英語中,/t/在two,true,和butter中的發(fā)聲不同。其次,聲音上的多變可能來自環(huán)境以及傳感器的位置與特性。第三,說話者本身也有一些可變因素,比如生理或者情緒狀態(tài),說話的速度,話音質(zhì)量等等。最后,社會語言背景,方言,以及聲帶大小與形狀也會帶來說話者之間的可變因素。3.5語音識別現(xiàn)狀語音識別系統(tǒng)的性能通常用單詞錯誤率E來度量:
S+I+DE=----------------------*100%N其中,N是測試集的單詞總數(shù),S,I和D分別是替代、插入和刪除的總數(shù)。3.5語音識別過去十年里,語音識別技術取得了顯著的進展。單詞錯誤率持續(xù)以每年為2的因子下降。基礎技術取得了實質(zhì)性進展,更接近說話者無關性、連續(xù)語音以及大詞匯量等目標。這一發(fā)展是由于以下幾個因素的結果。首先,是HMM時代的來臨。HMM具有強大的能力,在訓練數(shù)據(jù)的配合下,模型的參數(shù)能夠自動地訓練達到最優(yōu)性能。第二,對語音資料庫的開發(fā)進行了大量投入。第三,確立了性能評估的標準。最后,計算機技術的進展也間接地影響著我們的進展。3.5語音識別在低混亂度(PP=11)的任務中,最常見也最有用的是數(shù)字識別。對于美國英語,當數(shù)字串長度已知時,說話者在電話帶寬下連續(xù)說出無關的數(shù)字串時,誤識率只有0.3%。中等混亂度的任務中最有名的是所謂資源管理(RM),在這一任務中,可以對太平洋中的海軍艦艇進行查詢。在RM任務下,最好說話者的無關誤識率低于4%。這里,使用的是限制緊跟可能單詞的語言模型(PP=60)。詞匯量達幾千的高混亂度任務主要是針對聽寫應用的。從1992年開始轉(zhuǎn)向極大詞匯量(20,000以上)、高混亂度(PP=200)、說話者無關的連續(xù)語音識別。1994年最好的系統(tǒng)在處理來自北美商務新聞中的句子時達到了7.2%的錯誤率。3.5語音識別4.未來的方向魯棒性 可移植性適應性 語言建模信心度量 詞匯表外的單詞自發(fā)語音 韻律動力學建模3.5語音識別 中文語音識別方面的研究也有了較大的進展。IBM公司于1997年推出ViaVoice4.0中文連續(xù)語音識別系統(tǒng),其平均輸入速度可達每分鐘150字,識別率達到95%。系統(tǒng)定義詞匯達32,000個,用戶還可根據(jù)需要添加28,000個專業(yè)術語3.6表情識別表情識別的主要技術面部表情的跟蹤面部表情的編碼面部表情的識別面部表情的跟蹤為了識別表情,首先要將表情信息從外界攝取回來。跟蹤面部表情的方法有幾種。Mase和Pentland也許是最早利用光流(opticalflow)來跟蹤動作單元的科學家。Terzopoulos和Waters開發(fā)了一種復雜得多的方法。他們的方法是跟蹤線性的面部特征,從而估算出一個三維線框面部模型的相應參數(shù)。HaiboLi等描述了在面部圖象編碼系統(tǒng)中用一個計算機圖形與計算機視覺處理之間的控制反饋循環(huán)的方法。對于FACS模型的面部表情識別方法來講,它有嚴重的局限,因為,這樣就意味著不能觀察"真正"的肌肉動作模式。面部表情的編碼要使計算機能識別表情,就要將表情信息以計算機所能理解的形式表示出來,即對面部表情進行編碼。基于根據(jù)面部運動確定表情的思想,Ekman和Friesen于1978年提出了一個描述所有視覺上可區(qū)分的面部運動的系統(tǒng),叫做面部動作編碼系統(tǒng)(FACS),它是基于對所有引起面部動作的臉的"動作單元"的枚舉編制而成的。在FACS中,一共有46個描述面部表情變化的動作單元(AU),和12個描述頭的朝向和視線的變化的AU。例如,快樂的表情被視為"牽拉嘴角(AU12+13)和張嘴(AU25+27)并升高上唇(AU10)以及皺紋的略微加深(AU11)"的結合。FACS的計分單位是描述性的,不涉及情緒因素。利用一套規(guī)則,F(xiàn)ACS分數(shù)能夠被轉(zhuǎn)換成情緒分數(shù),從而生成一個FACS的情緒字典面部表情的識別面部表情的識別可以通過對FACS中的那種預定義的面部運動的分類來進行,而不是獨立地確定每一個點。這就是Mase,以及Yacoob與Davis的識別系統(tǒng)所采取的方法。在他們的105個表情的數(shù)據(jù)庫上,他們的總識別正確率為80%。Mase在一個更小的數(shù)據(jù)集上也得到了80%的正確率。研究者們遇到的主要困難可能是運用FACS來描述人類面部運動時的復雜性?,F(xiàn)在有越來越多的心理學者支持另一種觀點,即對表情識別而言,重要的是表情的動力學的作用,而不是細致的空間形變。有的認為,時間因素,是表情識別的關鍵參數(shù)。這將暗示告別對表情的那種靜態(tài)的分析,而轉(zhuǎn)向在運動序列中分析整個臉的面部活動。表情識別技術的應用SimGraphics于1994年開發(fā)的虛擬演員系統(tǒng)(VActor)就是一個例子。此系統(tǒng)要求用戶戴上安有傳感器的頭盔,傳感器觸及臉的不同部位,使它們能夠控制計算機生成的形象。目前,VActor系統(tǒng)還能夠與一個由AdaptiveOpticsAssociates生產(chǎn)的紅外運動分析系統(tǒng)結合使用,以跟蹤記錄用戶的面部表情變化。此外,有的系統(tǒng)還通過攝象機拍攝用戶的面部表情,然后利用圖象分析和識別技術進行表情識別,這樣可以減少各種復雜儀器對用戶的影響,使人機交互更加真實自然。
3.7自然語言理解技術(1)關鍵字匹配(2)轉(zhuǎn)換網(wǎng)絡和擴充轉(zhuǎn)換網(wǎng)絡(3)圖分析法(4)格文法(5)廣義短語結構文法(6)基于神經(jīng)元網(wǎng)絡的理解3.7自然語言理解存在問題1).自然語言是一無限系統(tǒng),沒有一個自然語言可以用有限集的表達式來完全表達.只有在其領域有限的情況下才可行.2).理解語法易,理解語義難.3).缺乏足夠的世界知識.現(xiàn)有的系統(tǒng)主要包含有限領域的一些專家知識,缺乏其他的專家知識.4).從句子中決定用戶的意圖難.理解一句子的語義內(nèi)容只是理解一些事實知識,而理解用戶的意圖則涉及了解用戶的目標,計劃,信念及期望.3.7自然語言理解目前一些系統(tǒng)堅定性較差;可移植性差;僅能處理簡單的請求.解決方法在于,首先,應將自然語言接口盡可能與其應用程序分開,并且將有關自然語言的知識及應用接口的知識明確分別加以表示和管理.其次,增加接口的推理能力,使自然語言接口成為可根據(jù)用戶要求推導出相應動作或動作序列的智能前端處理部分.最后,需要一種更加靈活,方便,表達能力強的表示方法,來表示自然語言知識和應用系統(tǒng)領域等方面的知識.
3.7自然語言理解
應用領域1。對話系統(tǒng).2。和知識系統(tǒng)的通信.3。以自然語言建立、管理和訪問的數(shù)據(jù)庫.4。以自然語言編程.5。自動翻譯.6。語言學的字處理:自動拼寫及串檢查,文本的一致性測試,文本生成語言和圖形系統(tǒng)的結合.自然語言和手勢的結合3.8手寫識別靜態(tài)識別就是對于靜態(tài)的語言文本圖象的識別,而動態(tài)識別,又稱為聯(lián)機識別或在線識別,即通過數(shù)字化設備所記錄的隨時間變化的筆座標序列來進行識別。印刷體識別、手寫印刷體識別、離散手寫體識別和草體識別。不同情況下,所采用的識別策略和獲得的識別率都有很大的差異。在離線的、不受限手寫詞語識別中,有報道說,在采用10,100和1000詞大小的字典時分別達到了95%,85%和78%的識別率。在線系統(tǒng)的例子中,有報道說,在采用21,000詞的字典時,達到了80%的識別率。3.8手寫識別靜態(tài)手寫體識別的方法和識別率取決于對手寫的約束的層次。這些約束主要是手寫的類型、寫字者的數(shù)量,詞匯量的大小以及空間布局。郵件分揀這一領域很好的體現(xiàn)了手寫識別的演變。書寫者的數(shù)目是無限的。在早期,只有郵政編碼能夠被識別。然后,城市名(以及美國的州)得到了處理:手寫印刷體、草體和兩者的混合的識別。也利用如銀行支票上數(shù)字和文字之間的冗余信息,3.8手寫識別字符識別技術可以兩個準則來分類:對數(shù)據(jù)進行預處理的方法和決策算法的類型。預處理技術分為三類:分別利用全局變換(相關、富里葉描述子等等)、局部比較(局部強度、直線的交叉、特征位置等等)和幾何或拓撲特征(筆劃、圓圈、開口、骨架等等)。各種決策方法,例如,各種統(tǒng)計的方法、神經(jīng)網(wǎng)絡、結構匹配(樹、鏈等等)以及隨機處理(馬爾科夫鏈等等)。最近的很多方法都混合若干種技術,以提高可靠性來補償手寫的巨大的多變性。3.8手寫識別聯(lián)機識別的難度受幾個因素的影響:1。書寫者的數(shù)目。2。對書寫者的約束:在框里輸入字符,在字符之間抬筆,遵守筆劃順序,按照特定形狀來輸入筆劃。3。對語言的約束:限制所識別的符號的數(shù)目,限制詞匯集的大小,限制文法和/或語義。3.8手寫識別聯(lián)機手寫識別有若干特點必須加以考慮,以達到最好的效果:1。預處理。平滑、傾斜校正、扭曲校正、去鉤等操作和線條方向、拐角、圈等特征的提取操作更容易在筆跡數(shù)據(jù)而不是象素圖上完成。2。區(qū)分。對光學上容易混淆的字符(如j和;)的區(qū)分可以從筆跡信息得到幫助。3。分割。利用抬筆信息可以幫助字符的分割,手寫印刷體尤其如此。4。立即反饋。及時的反饋可以幫助用戶給出及時的修正,從而用于對識別程序的進一步訓練。3.8手寫識別傳統(tǒng)的聯(lián)機手寫識別器由一個預處理程序、一個對各類字符(或者其他亞單詞單位)的概率進行估計的分類器和一個最后運用語言模型進行動態(tài)編程的后處理器(通常是一個隱馬爾科夫模型)構成。系統(tǒng)通常有一些可調(diào)整的參數(shù),它們的值是在訓練過程中確定的。期望最大化(EM)算法(或者它的K-均值逼近)被用來全局地優(yōu)化所有參數(shù)。所有的后處理器都非常相似,而分類器則多種多樣,包括統(tǒng)計分類器、貝葉斯分類器、決策樹、神經(jīng)網(wǎng)絡和模糊系統(tǒng)等。它們代表了不同的速度/精度/存儲折衷,3.8手寫識別
關于應用的討論首先,不應該限制用戶寫什么和在什么地方寫。應該讓用戶能夠使用在各種語言中通用的任何特殊字符,而局限于ASCII字符是不合適的,特別是面對日益突出的國際化趨勢。理想的書寫輸入應該支持Unicode字符。第二個需求是文本能夠與非文本,例如圖形、手勢等等,一起輸入。識別器必須對這些種類的輸入進行區(qū)分。3.8手寫識別
關于應用的討論1。離線識別與聯(lián)機識別的比較2。加框限制的和自由格式的輸入3。印刷體和草體4。字母的識別與單詞的識別5。上下文信息6??捎柧毜淖R別7。與圖形和手勢的混和3.9全息圖象什么是全息圖象(Hologram)?全息圖象是由它的發(fā)明者DenisGabor于1947年提出的。它的英文是hologram,它源于希臘文,其中holo是完全或全部的意思,而gram是消息的意思。全息圖象簡單地說就是一種在適當?shù)墓庹障履茱@示出多維圖象的平面圖畫。不同于普通照片的是用戶可以象在真實世界中一樣,從不同角度觀察全息圖象中的場景并可獲得有關深度的信息。
3.9全息圖象什么是全息圖象(Hologram)?1947年匈牙利物理學家DenisGabor在實驗室中制出了第一幅全息圖象。雖然由于當時的技術所限,Gabor制出的這幅圖象的質(zhì)量還遠不能和現(xiàn)在的全息圖象相比,但是這一嶄新的理論仍為Gabor贏得了1971年的諾貝爾物理獎。1959~1969年,密執(zhí)根大學的Leith和Upatnieks用激光作為光源重作了Gabor1947年的實驗,制成了首幅現(xiàn)代全息圖象。激光以其特有的高度相干性(頻率相同、相差恒定)成為制作全息圖象的最理想的光源,這一點在以下關于全息圖象的生成的討論中將看得更清楚。
3.9全息圖象全息圖象的生成讓我們首先來看看全息圖象與平時常見的普通照片有什么不同。普通照片記錄的只有反射光的強度信息,而丟失了有關相位改變的信息,因而得到的圖象沒有深度感。在全息圖象中,我們將試圖記錄反射光完整的信息,而這一點是通過在底片上記錄反射光(對象光束objectbeam)與某一基準光源(參考光束referencebeam)的干涉波形達到的。為了保證兩束光滿足相干條件,通常使用分光器將同一光源的光分為兩束,分別充當參考光源和對象光源。3.9全息圖象參考光束和對象光束3.9全息圖象干涉現(xiàn)象3.9全息圖象干涉模式的記錄3.9全息圖象全息圖象的分割3.9全息圖象全息圖象的分類兩大類:吸收型全息圖象(absorptionhologram)和相位型全息圖象(phasehologram)。所謂吸收型全息圖象是指通過記錄瀑光過程中底片吸收光的差異(即鹵化銀轉(zhuǎn)化為銀原子的數(shù)量)來記錄全息信息的全息圖象。而吸收型全息圖象經(jīng)過漂白處理,得到的圖象則稱為相位型全息圖象。3.9全息圖象全息圖象的分類1。共線全息圖象2。平面型和立體型全息圖象3。傳送型全息圖象4。反射型全息圖象5。復用型全息圖象3.9全息圖象原始照片的拍攝3.9全息圖象拍攝全息圖象3.9全息圖象全息圖象的應用MIT媒體實驗室的空間圖象組設計了兩個實驗性的全息圖象的顯示系統(tǒng)MarkI和MarkII。其中,MarkI能以每秒20幀的速度顯示25*25*25mm,且具有15度水平視角范圍的彩色全息圖象,而MarkII則能顯示150*75*150mm,且具有36度水平視角范圍的彩色全息圖象,顯示速度約為每秒1幀。在MarkI中,使用了一個三通道的聲光調(diào)制器(AOM),各通道傳輸?shù)母缮鏃l紋分別用來調(diào)制紅、綠、藍三種顏色的光,然后生成全息圖象。每幅全息圖象的數(shù)據(jù)量為6MB,系統(tǒng)有兩種工作模式,即圖象預生成模式和交互模式。MarkII對MarkI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024餐廳桌椅采購合同范本
- Unit 1 Good morning(同步練習)-2021-2022學年二年級英語上冊-滬教牛津版(深圳用)(含答案)
- 2024葵花出售合同范本
- 2024版預算單位公務卡代理運營協(xié)議3篇
- 2024年三季度報北京地區(qū)A股應交稅費排名前十大上市公司
- 2024旅游業(yè)務合作與股權轉(zhuǎn)讓合同
- 2024飼料運輸安全責任保險合同3篇
- 2024物流標準化、質(zhì)量認證合同
- 2024版細化第三方交易協(xié)議樣式版B版
- 2024版食堂服務采購合同書
- 2024江蘇泗陽縣交通產(chǎn)業(yè)集團招聘第一線操作人員招聘39人易考易錯模擬試題(共500題)試卷后附參考答案
- GB 19272-2024室外健身器材的安全通用要求
- 北師大版五年級數(shù)學下冊第3單元第3課時分數(shù)乘法(三)課件
- 2025新外研社版英語七年級下單詞默寫表
- 2024年演出經(jīng)紀人資格《思想政治與法律基礎》考前必刷必練題庫500題(含真題、必會題)
- 麻醉與舒適醫(yī)療
- 全國林草行業(yè)森林消防員技能競賽理論知識考試題及答案
- 《中小學校園食品安全和膳食經(jīng)費管理工作指引》專題培訓
- 2022年山東省公務員錄用考試《申論》真題(A類)及答案解析
- 2024年治安保衛(wèi)部規(guī)章制度(2篇)
- 2024年保密知識測試試題附答案(綜合卷)
評論
0/150
提交評論