(計(jì)算機(jī)軟件與理論專業(yè)論文)基于多通道交互技術(shù)的幾何學(xué)習(xí)系統(tǒng)研究與實(shí)現(xiàn).pdf_第1頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于多通道交互技術(shù)的幾何學(xué)習(xí)系統(tǒng)研究與實(shí)現(xiàn).pdf_第2頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于多通道交互技術(shù)的幾何學(xué)習(xí)系統(tǒng)研究與實(shí)現(xiàn).pdf_第3頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于多通道交互技術(shù)的幾何學(xué)習(xí)系統(tǒng)研究與實(shí)現(xiàn).pdf_第4頁
(計(jì)算機(jī)軟件與理論專業(yè)論文)基于多通道交互技術(shù)的幾何學(xué)習(xí)系統(tǒng)研究與實(shí)現(xiàn).pdf_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)軟件與理論專業(yè)論文)基于多通道交互技術(shù)的幾何學(xué)習(xí)系統(tǒng)研究與實(shí)現(xiàn).pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要摘要多通道交互技術(shù)利用人的多個(gè)感知通道和控制行為的并行性,擴(kuò)展了輸入輸出的帶寬,提高了交互的自然性和靈活性。本文對(duì)多通道交互技術(shù)在教學(xué)中的應(yīng)用進(jìn)行了研究和探索,提出了在幾何教學(xué)中將筆輸入、語音與鼠標(biāo)鍵盤相結(jié)合的構(gòu)想,并最終通過一個(gè)原型系統(tǒng)面向中小學(xué)的幾何學(xué)習(xí)系統(tǒng)的開發(fā),深入研究了應(yīng)用這些技術(shù)的若干問題和實(shí)現(xiàn)方法。當(dāng)前教師在利用電子白板等手段進(jìn)行電子化教學(xué)時(shí),大多使用的還是傳統(tǒng)的w v l p ( w i n d o w ,i c o n ,m e n u ,p o i n td e v i c e ) 界面。本文在多通道交互相關(guān)理論的指導(dǎo)下,以手寫屏、麥克風(fēng)、電子白板等工具,開發(fā)了更適合多通道交互的軟件系統(tǒng)。該系統(tǒng)按照p i b g 范式( p h y s i c a l ,i c o n ,b u t t o n ,g e s t u r e ) 設(shè)計(jì),利用中科院筆輸入平臺(tái)和微軟語音軟件開發(fā)包開發(fā),將語音與筆輸入結(jié)合,使之成為筆交互的有效輔助手段。在系統(tǒng)設(shè)計(jì)中,我們將以用戶為中心的場(chǎng)景設(shè)計(jì)方法,引入到多通道人機(jī)界面的設(shè)計(jì)當(dāng)中,為可用性軟件的開發(fā)做了一定的探索。此外,本文對(duì)信息的融合策略從任務(wù)結(jié)構(gòu)描述、并行處理方面做了研究。本文的另一項(xiàng)主要工作是將幾何圖形識(shí)別完全融合到筆輸入系統(tǒng)當(dāng)中,使?jié)h字識(shí)別、圖形手勢(shì)和命令手勢(shì)識(shí)別結(jié)合。幾何識(shí)別過程中幾何特征與筆畫數(shù)目、順序無關(guān)。本文受到國家8 6 3 高技術(shù)項(xiàng)目( 2 0 0 6 a a 0 1 2 3 2 8 ) 和中科院計(jì)算機(jī)科學(xué)國家重點(diǎn)實(shí)驗(yàn)室開放基金( s y s k f 0 7 0 4 ) 資助。關(guān)鍵詞:多通道筆交互語音識(shí)別多筆劃圖形t h er e s e a r c ha n di m p l e m e n t a t i o no ft h eg e o m e t r i cl e a r n i n gs y s t e mb a s e do nm u l t i m o d a li n t e r a c t i o nt e c h n o l o g ya b s t r a c tm u l t i m o d a li n t e r a c t i o nt e c h n o l o g ym a k e sf u l lu s eo ft h ep a r a l l e l i s mo ft h ev a r i o u sp e r c e p t i o na n dc o n t r o la c t i o n ,e x p a n d si n p u ta n do u t p u tb a n d w i d t h ,a n di m p r o v e st h en a t u r a l i t ya n df l e x i b i l i t yo fi n t e r a c t i o n t h i sp a p e rr e s e a r c h e sa n de x p l o r e st h ea p p l i c a t i o no fm u l t i m o d a li n t e r a c t i o nt e c h n o l o g yi nt e a c h i n g ,a n dc o m b i n e sp e ni n p u t ,s p e e c hr e c o g n i t i o nw i t hm o u s ea n dk e y b o a r d u l t i m a t e l y ,t h r o u g ht h ed e v e l o p m e n to ft h eg e o m e t r i cl e a n i n gs y s t e mf o rp r i m a r ya n dh i g hs c h o o l ,t h i sp a p e rd e e p l yr e s e a r c h e st h ep r o b l e mt h a th o wt oa p p l yt h e s et e c h n o l o g y d u r i n gt h er e s e a r c h ,t h ea u t h o rf o u n dt h a tt h ew h i t e b o a r dm o s tu s e dt h ew l m p ( w i n d o w , i c o n ,m e n u ,p o i n td e v i c e ) i n t e r f a c ew h e nt e a c h e r su s e dc o m p u t e ri nt h ec l a s s r o o m u n d e rt h eg u i d a n c eo fr e l a t i v et h e o r yo fm u l t i m o d a li n t e r a c t i o nt e c h n o l o g y , t h i sp a p e rm a k e su s eo fh a n d w r i t t e ns c r e e n , m i c r o p h o n e ,w h i t e b o a r d ,a n do t h e rt o o l st od e v e l o pas o f t w a r es y s t e mw h i c hm o r es u i t a b l ef o rm u l t i m o d a li n t e r a c t i o n t h i ss y s t e m ,w h i c hc o m b i n i n gv o i c ew i t hp e ni n p u t ,i sd e s i g n e da c c o r d i n gt op i b gp a r a d i g m ( p h y s i c a l ,i c o n ,b u t t o n ,g e s t u r e ) ,d e v e l o p e dg e o m e t r i cl e a m i n gs y s t e mb a s e do np e ni n p u tp l a t f o r mo fc h i n e s ea c a d e m yo fs c i e n c e sa n dm i c r o s o f ts p e e c hs d k i tm a k e ss p e e c hr e c o g n i t i o nt ob ea ne f f e c t i v ea c c e s s o r i a li n t e r a c t i o nm e a n so fp e ni n p u t w ei m p o r tt h es c e n e sd e s i g nm e t h o dt ot h ep r o c e s so fm u l t i m o d a lh u m a nc o m p u t e ri n t e r f a c ed e s i g n ,a n dd os o m ee x p l o r a t i o no fa v a i l a b i l i t ys o f t w a r ed e v e l o p m e n t m o r e o v e r , t h es t r u c t u r ed e s c r i p t i o no ft h et a s ka n dt h ep a r a l l e la l g o r i t h m sa r es t u d i e df o rt h es t r a t e g yo ft h ei n f o r m a t i o ni n t e g r a t i o ni nt h i sp a p e r a n o t h e ri m p o r t a n tw o r ki nt h i sp a p e ri st oi n t e g r a t eg e o m e t r i cs h a p e sr e c o g n i t i o ni n t op e ni n p u ts y s t e m t h i sr e c o g n i t i o nm e t h o dc o m b i n e sg e o m e t r i cs h a p e sa n dc o m m a n dg e s t u r er e c o g n i t i o nw i t hc h a r a c t e r sr e c o g n i t i o n t h ec o u r s eo fr e c o g n i t i o ni si n d e p e n d e n to ft h ea m o u n ta n do r d e ro fs t r o k e s t h i sp a p e rw a ss u p p o r t e db yt h en a t i o n a lh i g h t e c hr e s e a r c ha n dd e v e l o p m e n tp r o g r a mo fc h i n a ( 8 6 3p r o g r a m ) ( n o 2 0 0 6 a a 0 1 2 3 2 8 ) a n dt h eo p e nf o u n d a t i o no fa b s t r a c ts t a t ek e yl a b o r a t o r yo fc o m p u t e rs c i e n c e ,t h ec h i n e s ea c a d e m yo fs c i e n c e sf n o s y s k f 0 7 0 4 ) k e y w o r d s :m u l t i m o d a l ,p e n - b a s e di n t e r a c t i o n ,s p e e c hr e c o g n i t i o n , m u l t i - s t r o k es h a p e s西北大學(xué)學(xué)位論文知識(shí)產(chǎn)權(quán)聲明書本人完全了解西北大學(xué)關(guān)于收集、保存、使用學(xué)位論文的規(guī)定。學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版。本人允許論文被查閱和借閱。本人授權(quán)西北大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。同時(shí)授權(quán)中國科學(xué)技術(shù)信息研究所等機(jī)構(gòu)將本學(xué)位論文收錄到中國學(xué)位論文全文數(shù)據(jù)庫或其它相關(guān)數(shù)據(jù)庫。保密論文待解密后適用本聲明。學(xué)位論文作者簽名:圣壅指導(dǎo)教師簽名:垡盤二2 39 多年6 月j 纊日礎(chǔ)年6 月扒日西北大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明:所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,本論文不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得西北大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:衛(wèi)兵z 夕j 孑年衫月纊日西北大學(xué)碩士學(xué)位論文一第一章緒論1 1 研究的內(nèi)容及意義第一章緒論人機(jī)交互( h u m a n c o m p u t e ri n t e r a c t i o n ) 是研究人、計(jì)算機(jī)以及它們相互影響的技術(shù)。當(dāng)前,得益于語音識(shí)別、自然語言理解、手勢(shì)識(shí)別、計(jì)算機(jī)視覺等多門相關(guān)技術(shù)的發(fā)展,多通道人機(jī)交互( m u l t i m o d a lh u m a n c o m p u t e ri n t e r a c t i o n ) 被越來越廣泛的應(yīng)用于各個(gè)領(lǐng)域。1 目前,大多數(shù)教學(xué)軟件使用的還是傳統(tǒng)的w i m p 界面( w i n d o w ,i c o n ,m e n u ,p o i n td e v i c e ) 。w i m p 界面是目前主要的人機(jī)交互方式,但是隨著信息多樣化和信息量的劇增,這種界面范式的缺點(diǎn)也日益顯示出來【1 】:用戶進(jìn)行人機(jī)交互的手段是鼠標(biāo)和鍵盤,如果用戶界面需要人去適應(yīng)計(jì)算機(jī),就會(huì)增加人的認(rèn)知負(fù)荷;不可避免的產(chǎn)生了低速信息輸入與高速信息處理之間的矛盾【2 】;在某些特殊的場(chǎng)合,如幾何畫板或某些制圖軟件,鼠標(biāo)并不能直接高效的作圖。這種鍵盤鼠標(biāo)的交互方式,雖然在犧牲效率的前提下能做出較為精確的圖形,但在某些并不需要精確制圖的場(chǎng)合就顯得極其笨拙。而以虛擬現(xiàn)實(shí)為代表的計(jì)算機(jī)系統(tǒng)擬人化和以掌上電腦為代表的計(jì)算機(jī)微型化和隨身化,將是計(jì)算機(jī)的發(fā)展趨勢(shì)。多通道交互技術(shù)就是在這種背景下發(fā)展起來的。它基于手寫輸入、語音輸入、視線跟蹤等多種交互技術(shù),通過用戶自身的感覺和認(rèn)知,以并行的、非精確的方式與計(jì)算機(jī)交互。發(fā)展至今,如何使計(jì)算機(jī)更加人性化,使計(jì)算機(jī)去適應(yīng)人,而不是人去適應(yīng)計(jì)算機(jī)是h c i 今后面臨的主要任務(wù)。多通道人機(jī)交互中,由于手寫屏、語音設(shè)備等交互設(shè)備并沒有按照一種協(xié)同工作的方式進(jìn)行設(shè)計(jì),更沒有相應(yīng)的應(yīng)用程序以一種統(tǒng)一的方式,把信息流整理并告訴計(jì)算機(jī),所以用戶并沒有真正的體會(huì)到多通道交互方式的便利。除此之外,在多通道交互中,筆輸入和語音輸入在交互上有不確定性。多通道研究的主要問題是對(duì)各個(gè)通道精確和非精確的信息進(jìn)行整合,捕捉用戶的交互意圖,提高人機(jī)交互的自然性和高效性,最終使交互方式滿足以用戶為中心的要求。西北大學(xué)碩士學(xué)位論文_ 第一童緒論1 2 國內(nèi)外的現(xiàn)狀當(dāng)前的人機(jī)交互作為計(jì)算機(jī)系統(tǒng)的一個(gè)重要組成部分,是計(jì)算機(jī)科學(xué)、心理學(xué)、認(rèn)知科學(xué)和人素學(xué)( h u m a nf a c t o r s ) 的交叉研究領(lǐng)域【3 】也是計(jì)算機(jī)行業(yè)競(jìng)爭(zhēng)的焦點(diǎn)從硬件轉(zhuǎn)移到軟件后研究的新領(lǐng)域。近2 0 年,多通道作為人機(jī)交互研究的新領(lǐng)域在歐美越來越受到重視。在美國國家關(guān)鍵技術(shù)研究計(jì)劃中,人機(jī)界面被列為6 項(xiàng)關(guān)鍵信息技術(shù)之一。麻省理工學(xué)院s l s ( s p o k e nl a n g u a g es y s t e m s ) 研究小組g a l a x y 項(xiàng)目為在線信息提供語音界面,已經(jīng)應(yīng)用于航班信息,天氣預(yù)報(bào),城市地圖等查詢服務(wù)??突幻俘埓髮W(xué)i s l 實(shí)驗(yàn)室的i n t e r a c t 項(xiàng)目,期望通過多個(gè)通道( 臉表情,唇讀,手勢(shì),語音,視線跟蹤) 的處理和結(jié)合來增強(qiáng)人機(jī)的信息通訊。歐共體的e s p r i t計(jì)劃也設(shè)立了a m o d e u s 一2 和m i a m i 等多通道研究項(xiàng)目,主要研究用戶與系統(tǒng)交互的模型、結(jié)構(gòu)、表示和整合。比較著名的系統(tǒng)還有d y n o m i t e 4 】系統(tǒng),該系統(tǒng)使用筆和語音雙通道來記筆記。此外美國從7 0 年代就開始語音識(shí)別的研究,經(jīng)過近3 0 年的探索,語音識(shí)別技術(shù)經(jīng)歷了從最初的特定人、小詞匯量、非連續(xù)、非獨(dú)立揚(yáng)聲器到非特定人、大詞匯量、連續(xù)、獨(dú)立揚(yáng)聲器的發(fā)展歷程,而且識(shí)別速度和準(zhǔn)確率有極大提高。我國多通道研究起步較晚,主要在語音識(shí)別和手寫識(shí)別方面做了不少工作,近幾年在一些科研項(xiàng)目如自然科學(xué)基金、8 6 3 計(jì)劃、“九五”計(jì)劃等的支持下進(jìn)行了相關(guān)課題的研究。中科院軟件研究所提出一種基于手勢(shì)和語音的界面體系結(jié)構(gòu),提高了草圖繪制建模的自動(dòng)化與可重用性。我國在單通道界面研究方面同樣也做了不少工作,如中科院人機(jī)交互技術(shù)和智能信息實(shí)驗(yàn)室,在筆式用戶界面方面取得了很好的成績(jī),如實(shí)現(xiàn)了筆式用戶界面平臺(tái)( p i b g 工具箱) 【5 】【6 】。本文設(shè)計(jì)的系統(tǒng)中部分模塊就是借助此平臺(tái)開發(fā)。1 3 問題的提出和本文的工作傳統(tǒng)的教學(xué)方式中,教師在使用粉筆時(shí)造成大量的粉塵,極大的危害了教師和學(xué)生的身體健康,更不利于環(huán)境保護(hù)。其次,由于大多數(shù)學(xué)習(xí)軟件往往需要用西北大學(xué)碩士學(xué)位論文雩窘章緒論戶在繁雜的菜單或按鈕中尋找適合的命令,通過鼠標(biāo)精確的定位來完成交互。這種輸入設(shè)備和輸出設(shè)備交互中非直接的操作,造成了某些信息輸入的困難,比如圖形的繪制就顯得相當(dāng)?shù)谋孔?。所以?dāng)前用戶最需要的是好用、高效、具有充分表現(xiàn)力的軟硬件系統(tǒng)來解決以上問題。筆輸入用戶界面采用自然的交互方式,相對(duì)傳統(tǒng)的w l m p 界面具有非常明顯的優(yōu)勢(shì),如直接操作,簡(jiǎn)單靈活,而且筆輸入的命令簡(jiǎn)明扼要,比描述性命令要好記憶,尤為重要的是它更加符合人們的使用和認(rèn)知習(xí)慣。如果再加入語音交互進(jìn)行輔助,來完成一些筆輸入難以完成的操作,就可以更加準(zhǔn)確高效的操作圖形,并且語音的模糊屬性可以有效降低用戶的認(rèn)知負(fù)擔(dān)。多種交互相結(jié)合,也可以消除以往單通道交互的疲勞,使交互更形象更生動(dòng)。多通道技術(shù)在面向?qū)W習(xí)的交互系統(tǒng)中已經(jīng)廣泛應(yīng)用。t a k e oi g a r a s h i 設(shè)計(jì)了一個(gè)基于勾畫的3 d 繪畫模型t c d d y l 。用戶可以利用該模型自由隨意進(jìn)行3 d建模。t e d d y 主要采用筆和手勢(shì)的交互方式,它不是一個(gè)精確的設(shè)計(jì)工具,而是生成粗略的3 d 模型。但它能夠快速建模,適合兒童與非專業(yè)人士使用。m i t 計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室c g g ( c o m p u t e rg r a p h i c sg r o u p ) 致力于設(shè)計(jì)一個(gè)用以組成和展示透視圖景的投影繪畫系統(tǒng)1 7 。這個(gè)系統(tǒng)采用2 d 投影的表現(xiàn)方法替代傳統(tǒng)的3 d表現(xiàn)方法,使繪制投影圖景變得同傳統(tǒng)2 d 繪圖一樣輕松。用戶可以采用筆結(jié)合手勢(shì)操作3 d 變換【8 】。m i t 媒體實(shí)驗(yàn)室設(shè)計(jì)并開發(fā)了一種新穎的鍛煉兒童會(huì)話能力的軟件d o l lt a l k t g j 。它通過捕捉兒童的手勢(shì)、語音信息來模擬語音識(shí)別,通過改變音調(diào)的方式將會(huì)話內(nèi)容反饋給兒童,并引導(dǎo)兒童改善自己的敘述。d o l lt a l l 【良好的語音界面與交互對(duì)增強(qiáng)孩子的表達(dá)能力效果明顯。國內(nèi)最近也有很多研究機(jī)構(gòu)與公司制作了一些類似的面向兒童的商業(yè)軟件,允許使用者利用鼠標(biāo)或手寫筆等2 d 輸入設(shè)備在平面上進(jìn)行繪圖操作。但這類軟件大多不具備3 d 功能以及基于語音、語調(diào)等自然交互方式進(jìn)行交互的能力。但是,對(duì)中小學(xué)生這一特殊用戶群體而言,使用常規(guī)多通道交互系統(tǒng)又顯得困難而且枯燥乏味【1 0 】。其中的關(guān)鍵問題是小學(xué)生的成熟度以及認(rèn)知度都不足以使之精確定義并描述基于筆、手勢(shì)、語音等多種交互設(shè)備的交互操作。針對(duì)實(shí)體和場(chǎng)景的指定及描述過于精確對(duì)兒童用戶是不必要的。另一方面,由于計(jì)算機(jī)在學(xué)習(xí)中的廣泛應(yīng)用,教師可以利用電子白板等手段西北大學(xué)碩士學(xué)位論文一第一章緒論進(jìn)行電子化教學(xué)。但是傳統(tǒng)菜單加按鈕的系統(tǒng)界面顯然不適用于電子白板,如用戶很難用電子筆點(diǎn)擊到投影在白板上方的下拉菜單。諸多問題限制了電子化教學(xué)的普及。此外,學(xué)生使用的學(xué)習(xí)軟件,其系統(tǒng)界面大多都陳舊呆板,不能培養(yǎng)其學(xué)習(xí)的興趣,也不能提高其學(xué)習(xí)的效率,與傳統(tǒng)真實(shí)的書本學(xué)習(xí)并沒有太大的差別。針對(duì)以上問題,筆者利用多通道交互技術(shù),開發(fā)了面向中小學(xué)的幾何學(xué)習(xí)系統(tǒng)。本課題受到國家8 6 3 高技術(shù)項(xiàng)目( 2 0 0 6 a a 0 1 2 3 2 8 ) 和中科院計(jì)算機(jī)科學(xué)國家重點(diǎn)實(shí)驗(yàn)室開放基金( s y s k f 0 7 0 4 ) 資助。其中本文工作的特點(diǎn)主要是將理論和實(shí)踐相結(jié)合,在原型系統(tǒng)的開發(fā)中做了一定的理論和算法探索,其特點(diǎn)體現(xiàn)在以下幾個(gè)方面:1 將幾何圖形識(shí)別完全融合到筆輸入系統(tǒng)當(dāng)中,使?jié)h字識(shí)別,圖形和命令手勢(shì)識(shí)別結(jié)合,做到幾何識(shí)別過程中幾何特征與筆畫數(shù)目、順序無關(guān)。2 將語音與筆輸入結(jié)合,并運(yùn)用一定的融合策略處理多通道的交互信息。3 將以用戶為中心的交互場(chǎng)景設(shè)計(jì)方法引入到多通道人機(jī)界面的設(shè)計(jì)當(dāng)中,目的是為可用性軟件開發(fā)做一定的探索。4 最后,筆者提出以筆、語音以及鼠標(biāo)鍵盤為交互手段,以電子白板和手寫屏為大尺寸顯示面板,開發(fā)了面向中小學(xué)的幾何學(xué)習(xí)系統(tǒng)。這也是將多通道交互技術(shù)用于教學(xué)的一次探索。1 4 本文的結(jié)構(gòu)本文首先論述了人機(jī)交互的相關(guān)理論,然后過渡到多通道交互技術(shù)的相關(guān)知識(shí),最后,在p 毋gi 具箱以及語音識(shí)別庫的基礎(chǔ)上實(shí)現(xiàn)了一個(gè)原型系統(tǒng),并提出了現(xiàn)有工作的不足和未來的改進(jìn)方向。余下各章由四部分構(gòu)成:第一部分:由第二章和第三章構(gòu)成,介紹系統(tǒng)開發(fā)所涉及的相關(guān)知識(shí)。第二章,人機(jī)交互技術(shù)研究。首先介紹了交互設(shè)計(jì)的原則和目標(biāo),以及心理學(xué)方面的相關(guān)知識(shí)。然后詳細(xì)介紹了筆交互技術(shù)和語音識(shí)別技術(shù)。第三章,多通道交互的相關(guān)技術(shù),主要介紹原型系統(tǒng)中涉及的關(guān)鍵技術(shù)。首先介紹了國內(nèi)外對(duì)多通道技術(shù)的研究,隨后介紹了多通道交互的優(yōu)點(diǎn),最后介紹了結(jié)合語音的圖形用戶界面。西北大學(xué)碩士學(xué)位論文一第一章緒論第二部分:由第四章和第五章構(gòu)成,介紹系統(tǒng)開發(fā)中兩項(xiàng)獨(dú)立的工作。第四章,基于筆交互的手勢(shì)識(shí)別算法研究。對(duì)手勢(shì)識(shí)別算法的實(shí)現(xiàn)是本文的主要工作之一。本章首先對(duì)整個(gè)筆交互框架作了簡(jiǎn)要介紹,然后重點(diǎn)介紹了系統(tǒng)對(duì)幾何圖形手勢(shì)和命令手勢(shì)識(shí)別的實(shí)現(xiàn)。第五章,多通道交互信息的融合策略。本文的另一項(xiàng)主要工作就是語音和筆輸入信息的融合。首先介紹多通道信息融合的概念,然后描述了交互原語的設(shè)計(jì),最后用實(shí)例的方式詳細(xì)介紹了融合的整個(gè)過程。第三部分:包括第六章,幾何學(xué)習(xí)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。主要介紹了論文期間原型系統(tǒng)的開發(fā)工作。不同于傳統(tǒng)的軟件開發(fā),本章介紹了在需求獲取時(shí)以用戶為中心的場(chǎng)景設(shè)計(jì)方法。然后詳細(xì)介紹了基于p i b g 交互范式的系統(tǒng)界面開發(fā)。接下來描述了該系統(tǒng)的總體結(jié)構(gòu)。隨后介紹了使用的語音識(shí)別庫以及語音識(shí)別流程。最后簡(jiǎn)要的介紹了系統(tǒng)的使用。第四部分:第七章,總結(jié)和展望。主要講述了研究的意義和工作的不足,以及對(duì)以后工作的展望。西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究第二章人機(jī)交互技術(shù)研究交互設(shè)計(jì)作為一門關(guān)注交互體驗(yàn)的科學(xué)產(chǎn)生于二十世紀(jì)八十年代,它由i d e o 的創(chuàng)始人之一比爾莫格里奇在1 9 8 4 年第一次設(shè)計(jì)會(huì)議上提出。從用戶角度來說交互設(shè)計(jì)是一種如何讓產(chǎn)品易用有效而且讓人愉悅的技術(shù)。它致力于了解目標(biāo)用戶和他們的期望,了解用戶在與產(chǎn)品交互時(shí)彼此的行為,了解人本身的心理行為特點(diǎn),同時(shí)還包括了解各種有效的交互方式,。并將它們進(jìn)行增強(qiáng)和擴(kuò)充。2 1 交互設(shè)計(jì)的原則交互設(shè)計(jì)涉及到了很多其他學(xué)科,包括:認(rèn)知心理學(xué)、人類工程學(xué)、信息學(xué)、人因工程學(xué)、工程學(xué)、社會(huì)學(xué)、人類要素( 唧) 、認(rèn)知學(xué)、認(rèn)知功效學(xué)等等。設(shè)計(jì)者設(shè)計(jì)交互系統(tǒng)的交互機(jī)制與交互行為,目的是增強(qiáng)用戶對(duì)該系統(tǒng)的體驗(yàn)【1 1 1 。優(yōu)化人與系統(tǒng)之間的交互是交互設(shè)計(jì)的主要目標(biāo),這需要設(shè)計(jì)人員在設(shè)計(jì)系統(tǒng)時(shí)盡可能的支持用戶的要求,滿足用戶的期望并且擴(kuò)大用戶的潛在需求,n o r m a n總結(jié)了一些在產(chǎn)品的交互設(shè)計(jì)當(dāng)中需遵循的基本原則:1 可視性?,F(xiàn)代的交互系統(tǒng)中,功能的可視性越好,用戶也就越容易理解交互進(jìn)程。不可見的功能通常會(huì)對(duì)用戶使用造成困難。2 反饋。反饋是可視性的相關(guān)概念,指返回的與活動(dòng)相關(guān)的信息( 包括已執(zhí)行的動(dòng)作或已完成的任務(wù)) ,以便用戶能繼續(xù)這個(gè)活動(dòng)。反饋必須及時(shí),若延遲超過了用戶的忍耐限度,任務(wù)便很難進(jìn)行。3 限制。表示在特定時(shí)刻用戶的交互類型。通過對(duì)用戶采用限制,可以主動(dòng)防止用戶誤操作,客觀上起了引導(dǎo)用戶的作用,降低了錯(cuò)誤率。4 映射。表示交互控制及其效果之間的對(duì)應(yīng)關(guān)系。幾乎所有的交互系統(tǒng)都存在這種映射,例如計(jì)算機(jī)鍵盤中的上下箭頭分別表示光標(biāo)的上下移動(dòng),筆式界面中的文本框代表一個(gè)文字輸入?yún)^(qū)域。5 一致性。一致性指的是在設(shè)計(jì)界面時(shí)使用相似的操作,并且為相似的任務(wù)使用相似的元素。一致化帶來的是遵循規(guī)則的界面,使其易學(xué)易用。6 啟示性。啟示性指的是事物的屬性,即能幫助人們理解應(yīng)如何使用這個(gè)西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究事物。例如:筆的“書寫 動(dòng)作是受筆的固有屬性啟發(fā)。如果一個(gè)對(duì)象的啟示性是顯而易見的,那么人們就很容易知道如何與它交互。啟示性廣泛應(yīng)用于描述如何設(shè)計(jì)界面的對(duì)象,從而使得用戶對(duì)應(yīng)該采取的行動(dòng)一目了然【1 2 1 。2 2 交互設(shè)計(jì)的目標(biāo)1 可用性目標(biāo)可用性目標(biāo)可分為三類具體目標(biāo):易學(xué)性、靈活性和健壯性。( 1 ) 易學(xué)性易學(xué)性是指新用戶學(xué)習(xí)使用系統(tǒng)的難易。它包括系統(tǒng)的可預(yù)見性,即用戶通過過去交互操作的經(jīng)驗(yàn)來判斷未來操作的效果;綜合性,即用戶按照系統(tǒng)的當(dāng)前狀態(tài)評(píng)估以前操作結(jié)果的能力;熟悉度,即新系統(tǒng)的知識(shí)范圍應(yīng)盡量貼近用戶在真實(shí)世界或其他計(jì)算機(jī)環(huán)境中擁有的知識(shí)和體驗(yàn);普遍性,即支持用戶將他們對(duì)于特定操作的知識(shí)延伸到其他類似的情景中;一致性,即在相似的情景或任務(wù)中交互操作始終具有相似性。( 2 ) 靈活性靈活性是指用戶和系統(tǒng)之間信息交流方式的多樣話。它包括系統(tǒng)的對(duì)話主動(dòng)性,即允許用戶可以自由的擺脫系統(tǒng)對(duì)話形式上的限制:多線索對(duì)話,即系統(tǒng)支持用戶同時(shí)進(jìn)行多個(gè)任務(wù)的交互操作:任務(wù)可遷移性,即任務(wù)執(zhí)行的控制權(quán)可以在系統(tǒng)與人之間相互傳遞,即可由一方主導(dǎo)又可由雙方共同協(xié)作;可替換性,即要求相等的輸入輸出值可以相互替換;可定制性,即用戶或系統(tǒng)可以根據(jù)具體用戶特點(diǎn)修改界面形式。( 3 ) 健壯性健壯性是指對(duì)于用戶成功地完成和評(píng)估目標(biāo)的支持程度。它包括系統(tǒng)的可觀察性,即允許用戶評(píng)估系統(tǒng)的內(nèi)部狀態(tài);可恢復(fù)性,即識(shí)別出過去交互的某個(gè)錯(cuò)誤后達(dá)到目標(biāo)的能力;響應(yīng)度,即測(cè)量系統(tǒng)與用戶之間的通信速率:任務(wù)執(zhí)行,即系統(tǒng)在多大程度上以用戶理解的方式支持用戶要執(zhí)行的任務(wù),它包括任務(wù)對(duì)于用戶意圖的覆蓋程度和任務(wù)被用戶理解的程度【b 】。2 用戶體驗(yàn)?zāi)繕?biāo)新技術(shù)已經(jīng)從各個(gè)方面滲透到人們的日常生活中,在各應(yīng)用領(lǐng)域,人們開始西北大學(xué)碩士學(xué)位論文- 第二童人機(jī)交互技術(shù)研究對(duì)產(chǎn)品有了更多的要求。交互設(shè)計(jì)不只是提高工作效率,人們也越來越關(guān)心系統(tǒng)是否具備其他一些品質(zhì),僅僅用可用性目標(biāo)不足以描述用戶對(duì)交互行為的全部體驗(yàn)。所謂“用戶體驗(yàn)指的是用戶在系統(tǒng)交互時(shí)的感覺如何。用戶體驗(yàn)?zāi)繕?biāo)不同于可用性目標(biāo),它更關(guān)注用戶的主觀感受,因此通常用主觀性詞語描述。用戶體驗(yàn)的目標(biāo)廣泛應(yīng)用與娛樂、游戲和電子競(jìng)技等行業(yè),也是因?yàn)樵谶@些領(lǐng)域中,產(chǎn)品的重要目標(biāo)就是給用戶帶來心理上的愉悅。可用性目標(biāo)更為客觀,用戶體驗(yàn)?zāi)繕?biāo)則更關(guān)心的是用戶從自己的角度如何體驗(yàn)交互式產(chǎn)品,而不是從產(chǎn)品的角度來評(píng)價(jià)系統(tǒng)多有用或多有效。2 3 認(rèn)知心理學(xué)如果要達(dá)到上述所說的交互目標(biāo),設(shè)計(jì)者必須考慮交互設(shè)計(jì)中的兩個(gè)重要因素:信息的呈現(xiàn)和交互方式。我們可以從認(rèn)知心理學(xué)的角度,對(duì)交互中的這兩個(gè)因素進(jìn)行評(píng)判。從認(rèn)知心理學(xué)的角度來看,人的認(rèn)知處理能力主要受制于兩個(gè)主要的因素:在處理過程中可得到的資源,以及可得到的數(shù)據(jù)質(zhì)量。在針對(duì)某一個(gè)任務(wù)的認(rèn)知處理過程中,充足的資源只是提高人的認(rèn)知處理能力的必要條件,而不是充分條件。在可得到資源有限的情況下,資源數(shù)量的提高可以促進(jìn)認(rèn)知處理能力的提高。而當(dāng)資源充足后,人的認(rèn)知處理能力就只受制于可得到的數(shù)據(jù)的質(zhì)量。因此,在交互式設(shè)計(jì)中需要在資源和數(shù)據(jù)的質(zhì)量之間找一個(gè)平衡點(diǎn)。由于大量資源的引入會(huì)給用戶帶來大的認(rèn)知負(fù)擔(dān),從而增加用戶的學(xué)習(xí)時(shí)間,增加用戶的疲勞度和壓力感,增加交互過程中的出錯(cuò)概率。n o r m a n 曾提出通過提高數(shù)據(jù)的質(zhì)量來減少資源的消耗。但數(shù)據(jù)質(zhì)量的提高又依賴于用戶對(duì)系統(tǒng)的訓(xùn)練和熟悉,這無疑要讓用戶化費(fèi)大量的時(shí)間。如何在界面設(shè)計(jì)中解決這一兩難選擇是非常重要的問題。中科院軟件所提出的p i b g 交互范式主要就是為了解決以上問題。2 4 筆交互技術(shù)介紹在介紹多通道交互技術(shù)之前,我們先介紹手寫輸入和語音交互這兩種單通道西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究技術(shù)。2 4 1 筆交互技術(shù)的現(xiàn)狀從6 0 年代初s k e t c h p a d s u t h e r l a n d1 9 6 3 作為第一個(gè)筆式用戶界面系統(tǒng)問世,到目前各式筆式交互設(shè)備正逐漸步入人們的日常生活,包括p d a 、智能手機(jī)、電子筆記本以及功能日趨強(qiáng)大的t a b l e tp c 等?;谧烂娴膒 c 是目前主流的計(jì)算設(shè)備,因此也是筆交互的主要環(huán)境之一。隨著筆式用戶界面的發(fā)展,手寫設(shè)備也逐漸呈現(xiàn)多樣性,目前以手寫板、手寫屏、聲納筆三種為主,如圖2 1 。_ 熬 參繡;唐舅瞅l。j = l ,圖2 1 手寫板聲納筆手寫屏此外在教學(xué)或者會(huì)議中也經(jīng)常見到電子白板這種交互工具。它簡(jiǎn)單直觀、也很容易的被人們理解和接受,在許多信息捕捉或信息交流的場(chǎng)合都得到應(yīng)用。電子白板中提供給人們一種自由的、輕量級(jí)的大視角交互,同時(shí)創(chuàng)造了一種多人協(xié)作的信息環(huán)境,方便了人與人之間的交流。圖中給出了s m a r t 公司的電子白板。圖2 2s m a r t 公司的電子白板;,:j吣磁一邈沁釓汜r潭圈強(qiáng)眾一j,_=,f0f-e 1 、鬻敬徊尹羚產(chǎn),二,懣,曩仁西北大學(xué)碩士學(xué)位論文- 第二章人機(jī)交互技術(shù)研究國外對(duì)筆交互技術(shù)的研究起步較早。華盛頓大學(xué)成立了專門的筆式計(jì)算實(shí)驗(yàn)室,研究?jī)?nèi)容包括筆式輸入裝置的結(jié)構(gòu)和分類,筆式輸入操作的評(píng)估,以及筆式用戶界面。約翰霍普金斯的應(yīng)用研究實(shí)驗(yàn)室正在開發(fā)一個(gè)基于智能筆的病歷管理系統(tǒng),該系統(tǒng)目標(biāo)是讓醫(yī)生和護(hù)士都能通過一個(gè)筆式輸入的掌上電腦輸入和查詢病人的病理情況,以適應(yīng)醫(yī)生移動(dòng)辦公的需要。加拿大多倫多大學(xué)的“h a p t i cr e s e a r c hg r o u p 把筆式輸入作為重要研究方向之一。從理論到實(shí)踐取得多項(xiàng)成果。如他們開發(fā)了新型c a d 繪圖系統(tǒng)。這種系統(tǒng)采用兩手操作:左手拿十字光標(biāo)器,操作顯示器上透明且可移動(dòng)的菜單,右手拿筆選擇菜單或繪圖。他們的研究一改傳統(tǒng)的單手握筆或鼠標(biāo)輸入的模式,且暗示兩只手操作筆會(huì)更加自然。在日本,許多大小公司如w a c o m ,t o s h i b a ,h i t a c h i ,n e c ,s o n y 等紛紛投資研究開發(fā)筆式輸入技術(shù)?!肮P式輸入技術(shù)研究會(huì)”由日本東京電機(jī)大學(xué)發(fā)起,與1 9 9 3 年7 月成立。會(huì)員們來自幾所大學(xué)及十幾所大公司的專門從事筆輸入的專家,他們定期專門探討筆輸入技術(shù),對(duì)產(chǎn)、學(xué)結(jié)合起了重要作用。東京電機(jī)大學(xué)人機(jī)交互實(shí)驗(yàn)室近幾年一直注重p d a 用戶界面設(shè)計(jì)的研究,受到國際同行們的關(guān)注。2 4 2 筆交互技術(shù)的特點(diǎn)目前手寫識(shí)別有兩種,一是靜態(tài)手寫識(shí)別,就是把己經(jīng)寫好的文字以圖像的形式輸入計(jì)算機(jī),讓計(jì)算機(jī)對(duì)圖像進(jìn)行處理最后識(shí)別出文字;二是聯(lián)機(jī)手寫識(shí)別,這就需要書寫的設(shè)備是實(shí)時(shí)連在計(jì)算機(jī)上的,輸入計(jì)算機(jī)的數(shù)據(jù)是一個(gè)連續(xù)的與時(shí)間相關(guān)的坐標(biāo)序列。兩者相比,后者的數(shù)據(jù)中多了時(shí)間信息在里面。下面是對(duì)這種識(shí)別方式特點(diǎn)概述:1 自然性鍵盤和鼠標(biāo)不是人類的自然交互方式,紙筆作為一個(gè)持續(xù)了上千年的傳統(tǒng)工作方式,必然使人們感覺親切自然。而筆式用戶界面正是利用了基于筆紙( p e n - p a p e r ) 隱喻的交互方式。西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究2 交互信息的連續(xù)性在傳統(tǒng)的用戶界面中,用戶發(fā)送離散的命令( 如鼠標(biāo)的點(diǎn)擊) 給系統(tǒng),系統(tǒng)接收到命令后執(zhí)行相應(yīng)的任務(wù)。但在筆式用戶界面下,信息的連續(xù)輸入和連續(xù)反饋( 筆跡) 成為一個(gè)重要特征。在筆式交互中,筆劃信息是用戶輸入的主要信息,它可以看成是一個(gè)連續(xù)的交互信息。它是一個(gè)時(shí)間段內(nèi)在筆輸入平面一系列點(diǎn)信息的連續(xù)輸入。3 非精確性筆式用戶界面的一個(gè)重要特征就是非精確交互,用戶往往通過隨意的勾畫來完成交互任務(wù)。從交互設(shè)備上講也是非精確性的,不像使用鼠標(biāo)和鍵盤的w i m p界面,筆式用戶界面下筆交互往往具有二義性。所以筆式用戶界面中用戶意圖的提取和表示通常不是一個(gè)離散量,而是一個(gè)范圍,或一個(gè)帶有概率值的變量。4 以用戶為中心在傳統(tǒng)的人機(jī)系統(tǒng)中,人是操作者,人去適應(yīng)機(jī)器。在筆式用戶界面下。人們更加自由,因?yàn)楣P式用戶界面更加符合人們的習(xí)慣,如手勢(shì)的利用。5 交互的隱含性所謂交互的隱含性是指用戶在交互過程中不需要關(guān)注任務(wù)的執(zhí)行方式和過程,而只需要考慮任務(wù)本身。這也是無處不在的計(jì)算追求的目標(biāo)。從認(rèn)知心理學(xué)的角度來看,這種隱式的交互方式具有非常大的優(yōu)越性。筆式用戶界面通過利用用戶原有的( 自然的) 知識(shí)和技能,來提高用戶在交互過程中的質(zhì)量,由此來提高用戶操作效率。同時(shí)將用戶原有的知識(shí)和技能應(yīng)用到交互中,無需或需要很少的訓(xùn)練時(shí)間,就可以幫助用戶掌握界面的交互動(dòng)作和思想。6 基于手勢(shì)的交互風(fēng)格手勢(shì)是紙筆交互隱喻下的自然命令方式。用戶無需轉(zhuǎn)變思維方式,操作命令和操作參數(shù)直接蘊(yùn)含在筆劃中,簡(jiǎn)潔直觀。基于手勢(shì)的交互具有非精確、多通道、連續(xù)等特點(diǎn),能夠?qū)崿F(xiàn)人的認(rèn)知空間和計(jì)算機(jī)計(jì)算空間之間的平滑過渡,從而有效的改善了人機(jī)交互的瓶頸現(xiàn)象。基于筆的手勢(shì)交互有很大的現(xiàn)實(shí)意義,對(duì)它的分析研究有助于推動(dòng)計(jì)算機(jī)便攜化的快速發(fā)展。7 無處不在的計(jì)算無處不在的計(jì)算( u b i q u i t o u sc o m p u t i n g ) , 有時(shí)也稱為泛化計(jì)算( p e r v a s i v e西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究c o m p u t i n g ) ,是由w e i s e r 在1 9 9 1 年首先提出的【1 4 】。手寫輸入的好處是顯而易見的,不須專門學(xué)習(xí)與訓(xùn)練、不必記憶編碼規(guī)則、安裝后即可手寫輸入漢字,是最簡(jiǎn)單方便的輸入方式。符合中國人的書寫習(xí)慣,可以一面思考、一面書寫,不會(huì)打斷思維的連續(xù)性,是最自然的輸入方式【1 5 】。有些手寫識(shí)別設(shè)備( 如漢王筆等) 除了手寫輸入漢字外,還具有簽名、繪圖、保留手跡、替代鼠標(biāo)等功能,這樣既能實(shí)現(xiàn)手寫識(shí)別也保留了計(jì)算機(jī)以前的輸入方式。2 4 3 筆交互技術(shù)的應(yīng)用場(chǎng)合筆交互技術(shù)從應(yīng)用的角度主要可以分為:創(chuàng)造性設(shè)計(jì)工作( 如概念設(shè)計(jì)) 、信息交流和捕捉( 如電子白板) 、思想捕捉( 如電子筆記本) 和基于g u i 的筆交互( 如對(duì)遺產(chǎn)軟件的筆交互增強(qiáng)) 。這些分類之間沒有嚴(yán)格的界限,因?yàn)橐粋€(gè)原型系統(tǒng)往往具有幾個(gè)分類的特征。以下給出這4 個(gè)應(yīng)用領(lǐng)域的簡(jiǎn)要概述和相應(yīng)的系統(tǒng)說明。1 創(chuàng)造性設(shè)計(jì)工作筆交互的非精確性易于表達(dá)圖形文字的特性以及自然的交互方式,使得它適于早期的、概念階段的創(chuàng)造性工作【1 6 1 。因?yàn)閯?chuàng)造性工作中,人們多進(jìn)行抽象的、連續(xù)的思維。對(duì)于問題有一個(gè)模糊的認(rèn)識(shí),但不需要關(guān)心問題的細(xì)節(jié),筆式用戶界面對(duì)于這些活動(dòng)有著良好的映射。它集中了筆式用戶界面研究中的一大批著名的系統(tǒng),其中s k e t c hi t 1 7 1 是由c a m e g i e m e l l o n 大學(xué)機(jī)械工程系的t o ms t a h o v i c h設(shè)計(jì)開發(fā)的支持機(jī)械概念設(shè)計(jì)的工具。機(jī)械設(shè)計(jì)師在設(shè)計(jì)之前通常會(huì)在紙上進(jìn)行概念設(shè)計(jì),人們通過在紙上畫一個(gè)特殊的例子幫助抽象思維。該工具可以將機(jī)械設(shè)計(jì)的草圖轉(zhuǎn)化為精確的幾何描述,同時(shí)向設(shè)計(jì)者提供多個(gè)基于此草圖的設(shè)計(jì)方案。2 信息交流和捕捉人們?cè)缫咽煜ぜ埞P的工作方式。人們通過紙筆捕捉和交流信息是一個(gè)非常自然的活動(dòng)。基于白板的記錄和交流是紙筆工作方式的一個(gè)延伸,它允許在同一時(shí)間有更多的人參與到思想交流的活動(dòng)中來,自然高效地實(shí)現(xiàn)了信息的共享。t i v o l i 1 8 】【1 9 】【2 0 1 是由x e r o x p a r 研究中心開發(fā)的用于非正式會(huì)議的電子白板系統(tǒng),它運(yùn)行在x e r o x 的電子白板l i v e b o a r d 之上。該系統(tǒng)是9 0 年代初期筆式用戶西北大學(xué)碩士學(xué)位論文- 第二章人機(jī)交互技術(shù)研究界面研究的第一個(gè)代表性原型系統(tǒng),它提出了筆交互的一些基本概念,如筆劃和手勢(shì)。t i v o l i 提供給用戶的是一個(gè)能夠完成基本勾畫任務(wù)的白板,它并沒有對(duì)文字進(jìn)行識(shí)別,而是保留了手寫信息的原有外觀。t i v o l i 是一個(gè)劃時(shí)代的筆交互系統(tǒng),它的出現(xiàn)為后來的筆式用戶界面研究提供了新的思路,它也真正確立了筆式用戶界面作為與g u i 完全不同的一種界面范式而出現(xiàn)。由g e o r g i a 理工、東京大學(xué)和x e r o x p a r c 聯(lián)合研$ i 的f l a t l a n d t 2 1 】【2 2 1 是繼t i v o l i之后又一著名的電子白板系統(tǒng),但它的目的并不完全是面向會(huì)議用途,而是針對(duì)個(gè)人辦公室。它也是一種增強(qiáng)型的白板界面,為人們提供一種連續(xù)的、長(zhǎng)期的工作方式。3 思想捕捉思想的捕捉在人們?nèi)粘I钪?,主要表現(xiàn)為做筆記,或者使用錄音的方式。紙筆是做筆記的主要工具。通過紙筆,人們可以使用文字、圖形、表格、大綱等多種信息表現(xiàn)方式捕捉重要的事件、想法,或者進(jìn)行計(jì)劃和安排。但是傳統(tǒng)的方式一個(gè)缺點(diǎn)就是當(dāng)要尋找歷史記錄時(shí),比較困難,這就需要一些幫助。計(jì)算機(jī)剛好能滿足該功能需求。還有就是結(jié)構(gòu)化手寫文檔,幫助人們編輯文檔。4 基于g u i 的筆交互增強(qiáng)筆式用戶界面在上述幾類活動(dòng)中發(fā)揮了重要作用,它還有一類應(yīng)用就是對(duì)目前的主流界面g u i 進(jìn)行增強(qiáng),如現(xiàn)在許多手寫輸入和圖形編輯軟件,也屬于筆式用戶界面。它們主要還是為了配合現(xiàn)有的g u i 中的交互方式以及對(duì)某些遺產(chǎn)軟件進(jìn)行筆交互的增強(qiáng),如p a l m 公司在其p d a 產(chǎn)品p a l mp i l o t 上的操作系統(tǒng)p a l m o s 、微軟公司的p e nc o p u t i n g ,它們基本上都在一個(gè)g u i 的環(huán)境中嵌入筆式交互,而筆式交互也主要采用正式的( f o r m a l ) 用戶界面風(fēng)格,即在交互過程中,將筆交互時(shí)間實(shí)時(shí)的轉(zhuǎn)化為格式化的信息,它們關(guān)注于文字識(shí)別和基于表格的交互環(huán)境。這一類筆交互應(yīng)用的研究并沒有完全擺脫g u i 的束縛,筆式用戶界面的許多早期研究多為此類,而且它也是目前筆式用戶界面在產(chǎn)業(yè)界投入市場(chǎng)的主要形式。西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究2 5 語音識(shí)別技術(shù)語音識(shí)別是人機(jī)語音通信的一個(gè)重要組成部分,計(jì)算機(jī)語音識(shí)別過程與人對(duì)語音識(shí)別處理過程基本上是一致的,它是一個(gè)較困難的研究課題,問題本身涉及聲學(xué)、計(jì)算機(jī)科學(xué)等許多學(xué)科。國內(nèi)外在這個(gè)領(lǐng)域做了大量的工作才使得識(shí)別技術(shù)由實(shí)驗(yàn)走向成熟【2 3 】。2 5 1 語音識(shí)別技術(shù)現(xiàn)狀當(dāng)前的語音識(shí)別系統(tǒng)主要可分為連續(xù)語音識(shí)別系統(tǒng)和孤立詞語音識(shí)別系統(tǒng)。連續(xù)語音識(shí)別系統(tǒng)是指用戶用連貫自然的說話方式進(jìn)行語音輸入,而不必采用特定的、機(jī)器學(xué)習(xí)過的詞語和命令。連續(xù)語音系統(tǒng)現(xiàn)在已經(jīng)在醫(yī)療、國防等特定領(lǐng)域應(yīng)用,但是這種系統(tǒng)現(xiàn)在仍有很高的錯(cuò)誤率,而且開發(fā)的費(fèi)用也很高,不能廣泛應(yīng)用,現(xiàn)在商業(yè)應(yīng)用上更有實(shí)效的技術(shù)還是孤立詞識(shí)別。孤立詞語音識(shí)別系統(tǒng)分為訓(xùn)練和識(shí)別兩個(gè)部分。在訓(xùn)練階段,用戶將每一個(gè)詞說一遍,并將計(jì)算得到的每一個(gè)詞所對(duì)應(yīng)的特征矢量序列作為模板存入模板庫中。在識(shí)別階段,將輸入語音的特征矢量序列依次與模板庫中的每一模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。典型的孤立詞識(shí)別系統(tǒng)可以使用幾十個(gè)到幾百個(gè)命令,盡管它并不像連續(xù)語音識(shí)別系統(tǒng)自然和易于使用,但是分離的命令還是易于學(xué)習(xí)的,而且具有比較高的準(zhǔn)確率。除了上述兩種系統(tǒng)外,還有一種技術(shù)值得我們重視,那就是關(guān)鍵詞提取技術(shù)。這種技術(shù)采用的是孤立詞識(shí)別,但是卻可以提供類似于連續(xù)識(shí)別系統(tǒng)的效果,使得交互更自然。典型的孤立詞識(shí)別系統(tǒng)要求用戶必須孤立的說出命令,在命令前后要有停頓。在這項(xiàng)技術(shù)中,用戶可以說出一個(gè)包含待執(zhí)行命令的完整句子和短語,系統(tǒng)將只保留下希望接收的命令而將其余部分過濾除掉。這種技術(shù)也可以被看作一個(gè)語法分析器,它可以讓用戶感到交互的過程更自然更直觀,而其技術(shù)的實(shí)現(xiàn)難度要比連續(xù)識(shí)別系統(tǒng)小很多【2 1 1 。2 5 2 語音在交互過程中的特點(diǎn)1 語音信息難以保存。語音信號(hào)發(fā)出來以后,就不能再得到了,也可以說西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究語音具有一次性。因此,用戶需要馬上記住這些信息,消耗了用戶大量的短時(shí)記憶資源,增加了使用者的記憶負(fù)擔(dān)【2 4 】【2 5 】【2 6 1 。2 語音是一種難于回溯和編輯的信息,它還會(huì)干擾人的其他感知通道。但是語音被證明在信息的前向處理上很有用,比如在緊急環(huán)境下的報(bào)警,為盲人和行動(dòng)不便者提供輸入和輸出的途徑。3 語音對(duì)環(huán)境的依賴比較少,更不需要任何輔助設(shè)備,可以在空間狹小,照明不佳或接觸不到交互對(duì)象等不良條件下正常使用,因此適合于視覺通道受到阻礙的的場(chǎng)合。4 語音的效率很高,交互的信息內(nèi)容十分豐富,而且接近于人的思維。如果人使用鍵盤進(jìn)行文本輸入,通過手輸出想到的詞語時(shí),還會(huì)對(duì)他的話語和措辭進(jìn)一步的琢磨和修正。5 人對(duì)聲音信號(hào)比較敏感,生活中人們經(jīng)常利用聲音進(jìn)行提示和報(bào)警,比如比賽中使用發(fā)令槍命令比賽開始。此外,語音在信息隨機(jī)呈現(xiàn)并要求操作員立即采取行動(dòng)的任務(wù)中也非常適合。6 人在進(jìn)行肢體動(dòng)作的同時(shí)可以說話,但不能在思考的同時(shí)講話,這和人的大腦分工有關(guān)。例如人可以在走路和開車的同時(shí)進(jìn)行談話。因此人們發(fā)現(xiàn)在操作電腦時(shí),人們可以在敲鍵盤和移動(dòng)鼠標(biāo)的同時(shí)進(jìn)行思考,但卻很難在說的同時(shí)進(jìn)行思考。這是因?yàn)槭盅鄣暮献魇怯纱竽X的不同組織( 部分) 完成的,可以進(jìn)行并行的處理。因此語音在界面中可以單獨(dú)使用,也可以結(jié)合鼠標(biāo)、筆等指點(diǎn)式的設(shè)備進(jìn)行交互。7 語音對(duì)于說話的人效率較高,說話的表達(dá)方式比寫字或者打字速度快,但是對(duì)于聽眾來說,聽別人說話卻比自己閱讀要慢的多。與圖形化的用戶界面相比,語音界面是串行的輸出方式,速度較慢【2 7 】。并且不同于w i m p 界面,可以執(zhí)行的操作都可以顯示出來供用戶選擇,對(duì)一個(gè)語音界面,如果沒有適當(dāng)?shù)奶崾?,?duì)該系統(tǒng)陌生的用戶可能感覺無從下手,不知道該說什么好,而且如果讓用戶記住所有的語音命令會(huì)增加記憶的負(fù)擔(dān)。所以,語音識(shí)別系統(tǒng)必須注重語音界面的設(shè)計(jì),這種界面可以使用的場(chǎng)合一般是有系統(tǒng)提示引導(dǎo)的問答式交互,而且每一步可供選擇的項(xiàng)目不是太多或者是用戶所熟悉的某一個(gè)領(lǐng)域的應(yīng)用【2 1 1 。2 6 其他單通道技術(shù)西北大學(xué)碩士學(xué)位論文一第二章人機(jī)交互技術(shù)研究除了上述兩種交互技術(shù),還有其他一些交互技術(shù):1 視覺跟蹤:現(xiàn)在用戶所使用的所有人機(jī)交互技術(shù)很多與視覺有關(guān)。早前的眼動(dòng)跟蹤技術(shù)僅應(yīng)用于心理學(xué)研究,后來逐漸被用于人機(jī)交互。目前這種技術(shù)還處于起步階段。視線識(shí)別技術(shù)主要是解決眼睛運(yùn)動(dòng)特征的檢測(cè)問題,目前主要的檢測(cè)方法有接觸鏡法、電磁線圈法、紅外光電反射法、紅外電視法等。雖然鼠標(biāo)鍵盤已經(jīng)普及,但是對(duì)于某些特殊人群,如某些四肢麻痹的人可能無法靠鼠標(biāo)來完成最基本的任務(wù)。對(duì)于這部分人群,如果他們能用眼睛來代替手操作,以后再加上機(jī)電控制技術(shù)就能夠完全增加其獨(dú)立操作的能力。另外在軍事應(yīng)用上,可以在飛行員的頭盔中加入眼動(dòng)跟蹤技術(shù),通過飛行員的視線定位所要打擊的目標(biāo),這樣可以減輕飛行員的操作負(fù)荷。實(shí)現(xiàn)跟蹤的基本工作原理是利用圖像處理技術(shù),使用特殊的攝像機(jī)對(duì)眼睛鎖定,通過從人的眼角攝入和瞳孔反射的紅外線連續(xù)的記錄視線的變化,從而實(shí)現(xiàn)視線跟蹤。另外從視覺追蹤其讀取的數(shù)據(jù)經(jīng)過進(jìn)一步的處理,最后提取出眼睛定位的坐標(biāo),這是一個(gè)復(fù)雜的過程,目前應(yīng)用該技術(shù)的系統(tǒng)有a p p l i e ds c i e n c el a b o r a t o r i e s 制造的m o d e l3 2 5 0 r 視線跟蹤器【2 8 】。2 手勢(shì)識(shí)別:手勢(shì)是一種自然而直觀的人際交流模式。基于視覺的手勢(shì)識(shí)別是實(shí)現(xiàn)新一代人機(jī)交互所不可缺

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論