




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、人機交互基礎教程實驗報告實驗題目:多通道用戶界面設計技術綜述專 業(yè) 計算機科學與技術 學 生 姓 名 班 級 學 號 教 師 指 導 單 位 計算機軟件學院 日 期 教師評語 教師簽名: 年 月 日成績評定備 注一、實驗目的1) 了解常見的多通道用戶界面2) 查找資料,熟悉一種多通道用戶界面并寫出綜述二 、預備知識為適應目前和未來的計算機系統要求,人機界面應能支持時變媒體,實現三維、非精確及隱含的人機交互,而多通道人機界面是達到這一目的的重要途徑。80年代后期以來,多通道用戶界面成為人機交互技術研究的嶄新領域,在國內外受到高度重視。 綜合采用視線、語音、手勢等新的交互通道、設備和交互技術,使用
2、戶利用多個通道以自然、并行、協作的方式進行人機對話,通過整合來自多個通道的、精確的和不精確的輸入來捕捉用戶的交互意圖,提高人機交互的自然性和高效性。多通道用戶界面主要關注人機界面中用戶向計算機輸入信息以及計算機對用戶意圖的理解,所要達到的目標可歸納為如下方面:1)交互的自然性使用戶盡可能多地利用已有的日常技能與計算機交互,降低認識負荷。2)交互的高效性使人機通訊信息交換吞吐量更大、形式更豐富,發(fā)揮人機彼此不同的認知潛力。3)與傳統的用戶界面特別是廣泛流行的WIMP/GUI兼容。(1) 多通道用戶界面的基本特點 1) 使用多個感覺和效應通道 2) 允許非精確的交互 3) 三維和直接操縱 4) 交
3、互的雙向性 5) 交互的隱含性 (2)涉及的主要技術1)多媒體使用多種表示媒體,如文本、圖形、圖像和聲音,使人機交互技術最終要向著更接近于人的自然方式發(fā)展,使計算機具有聽覺和視覺,以更自然的方式與人交互。多媒體技術引入了動畫、音頻、視頻等動態(tài)媒體,大大豐富了計算機表現信息的形式,拓寬了計算機輸出的帶寬,提高了用戶接受信息的效率,使人們可以得到更直觀的信息,從而簡化了用戶的操作,擴展了應用范圍。2)虛擬現實又稱虛擬環(huán)境,虛擬現實系統向用戶提供沉浸和多感覺通道體驗。在虛擬現實中,人是主動參與者,復雜系統中可能有許多參與者共同在以計算機網絡系統為基礎的虛擬環(huán)境中協同工作。 虛擬現實系統具有三個重要特
4、點:沉浸感、交互性、構想性。3)眼動跟蹤與視覺有關的人機交互自始至終都離不開視線的控制。如果能通過用戶的視線盯著感興趣的目標,計算機便“自動”將光標置于其上,人機交互將更為直接,也省去了上述交互過程中的大部分步驟。4)手勢識別一個簡單的手勢蘊涵著豐富的信息,人與人可以通過手勢傳達大量的信息,實現高速的通信。將手勢運用于計算機能夠很好地改善人機交互的效率。在多數情況下我們籠統地認為手勢是人的上肢(包括手臂、手和手指)的運動狀態(tài)。 5)三維輸入 許多應用(如虛擬現實系統)需要三維空間定位技術,三維空間控制器的共同特點是具有六個自由度,分別描述三維對象的寬度、深度、高度、俯仰角、轉動角、偏轉角。通過
5、控制這六個參數,用戶可以在屏幕上平移三維對象或光標,也可沿三個坐標軸轉動三維對象。在三維用戶交互中必須便于用戶在三維空間中觀察、比較、操作、改變三維空間的狀態(tài)。6)語音識別語音識別是計算機通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋疚募蛎畹募夹g。 語音識別又是一門交叉學科,它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。 7)表情識別 面部表情是人體語言的一部分。人的面部表情不是孤立的,它與情緒之間存在著千絲萬縷的聯系。人的各種情緒變化以及對冷熱的感覺都是非常復雜的高級神經活動,如何感知、記錄、識別這些變化過程是表情識別的關鍵。8)手寫識別發(fā)展手寫識別技術
6、并嵌入到各種設備中,將是手寫識別技術未來發(fā)展的重要方向之一。聯機手寫識別技術的優(yōu)點是不需專門學習與訓練、不必記憶編碼規(guī)則、安裝后即可手寫輸入漢字,是最簡單方便的輸入方式。同時符合人的書寫習慣,可以一面思考、一面書寫,不會打斷思維的連續(xù)性,是最自然的輸入方式。 9)數字墨水數字墨水是一種新的人機界面技術,它借鑒手寫識別技術的同時,克服了它的許多局限性。 數字墨水在數學上是通過三階貝塞爾曲線來描述筆輸入的筆跡,它的記錄格式與圖像和文本格式都不同。這種存儲方式使得數字墨水文件的大小很小,從而可以更有效地進行存儲。三、實驗內容與步驟(1)實驗內容要求上網查找資料,熟悉一種多通道用戶界面并寫出綜述,可以
7、是眼動跟蹤、手勢識別、三維輸入、語音識別、表情識別、手寫識別等。(2)實驗步驟1)借助圖書館的中英文參考文獻資料以及網絡,確定出一種多通道用戶界面;2)完成對該多通道用戶界面的綜述(包括定義、發(fā)展歷史、當前的應用、主要的研究方法分類、以及發(fā)展前景以及中英文參考文獻(至少各5篇))噪音環(huán)境下的語音識別1. 引言 隨著社會的不斷進步和科技的飛速發(fā)展,計算機對人們的幫助越來越大,成 為了人們不可缺少的好助手,但是一直以來人們都是通過鍵盤、鼠標等和它進行 通信,這限制了人與計算機之間的交流,更限制了消費人群。為了能讓多數人甚 至是殘疾人都能使用計算機,讓計算機能聽懂人的語言,理解人們的意圖,人們 開始
8、了對語音識別的研究 語音識別是語音學與數字信號處理技術相結合的一門交叉學科,它和認知學、心理學、語言學、計算機科學、模式識別和人工智能等學科都有密切關系。 2.語音識別的發(fā)展歷史和研究現狀 2.1國外語音識別的發(fā)展狀況 國外的語音識別是從1952年貝爾實驗室的Davis等人研制的特定說話人孤立數字識別系統開始的。20世紀60年代,日本的很多研究者開發(fā)了相關的特殊硬件來進行語音識別RCA實驗室的Martin等人為解決語音信號時間尺度不統一的問題,開發(fā)了一系 列的時問歸正方法,明顯地改善了識別性能。與此同時,蘇聯的Vmtsyuk提出了采用動態(tài)規(guī)劃方法解決兩個語音的時聞對準問題,這是動態(tài)時間彎折算法
9、DTW(dymmic time warping)的基礎,也是其連續(xù)詞識別算法的初級版。20世紀70年代,人工智能技術走入語音識別的研究中來人們對語音識別 的研究也取得了突破性進展線性預測編碼技術也被擴展應用到語音識別中,DTw也基本成熟。20世紀80年代,語音識別研究的一個重要進展,就是識別算法從模式匹配 技術轉向基于統計模型的技術,更多地追求從整體統計的角度來建立最佳的語音識別系統。隱馬爾可夫模型(hidden Markov model,刪)技術就是其中一個典型技術。刪的研究使大詞匯量連續(xù)語音識別系統的開發(fā)成為可能。20世紀90年代,人工神經網絡(artificial neural netw
10、ork,ANN)也被應用到 語音識別的研究中,并使相應的研究工作在模型的細化、參數的提取和優(yōu)化以及 系統的自適應技術等方面取得了一些關鍵性的進展,此時,語音識別技術進一步 成熟,并走向實用。許多發(fā)達國家,如美國、日本、韓國,已經IBM、Microsoft、 Apple、AT&T、Nrr等著名公司都為語音識別系統的實用化開發(fā)研究投以巨資。 當今,基于HMM和ANN相結合的方法得到了廣泛的重視。而一些模式識別、機器學習方面的新技術也被應用到語音識別過程中,如支持向量機(support vector machine,SVM)技術、進化算法(evolutionary computation)技
11、術等。 2.2國內語音識別的發(fā)展狀況 20世紀50年代我國就有人嘗試用電子管電路進行元音識別,到70年代才 由中科院聲學所開始進行計算機語音識別的研究80年代開始,很多學者和單 位參與到語音識別的研究中來,也開展了從最初的特定人、小詞匯量孤立詞識別, 到非特定人、大詞匯量連續(xù)語音識別的研究工作80年代末,以漢語全音節(jié)識 別作為主攻方向的研究已經取得了相當大的進展,一些漢語語音輸入系統已經向實用化邁進。90年代j四達技術開發(fā)中心和哈爾濱工業(yè)大學合作推出了具有自然語言理解能力的新產品在國家“863”計劃的支持下,清華大學和中科院自動化所等單位在漢語聽寫機原理樣機的研制方面開展了卓有成效的研究經過6
12、0多年的發(fā)展,語音識別技術已經得到了很大發(fā)展,對于語音識別的研究也達到了相當高的水平,并在實驗室環(huán)境下能達到很好的識別效果。但是,在實際應用中,噪聲以及各種因素的影響,使語音識別系統的性能大幅度下降,很難達到讓人滿意的效果。因此,對噪聲環(huán)境下的語音識別的研究有著異常重要 的理論價值和現實意義 為解決噪聲環(huán)境下,識別語音的特征參數和模叛庫中的特征不匹配的問題我們必須想辦法消除噪聲對語音特征參數的影響,根據語音識別過程可知,有以下三種方法: (1)假定語音模板和背景噪聲無關,即無論是清晰語音還是帶噪語音,都用同一套模板來識別在這種情況下,重點在識別階段,從帶噪語音中提取出抗噪的特征參數或者采取抗噪
13、聲的失真測度 (2)在語音的識別階段,語音識別系統加一個前端處理,從帶噪語音中提取出純凈語音,然后再提取語音的特征參數這種方法被稱為語音增強。 (3)在語音識別階段,根據識別現場的環(huán)境噪聲對語音模板進行變換,使之接近根據現場帶噪語音訓練而成的語音模板這種方法稱為語音模板的噪聲補償無論使用哪種方法消除噪聲,我們首先要了解噪聲。根據噪聲對語音頻譜的干擾方式不同可以把噪聲分為加性噪聲和乘性噪聲兩類 2.3語音增強方法 由于噪聲的種類很多,特性并不完全相同,因此針對各類噪聲必須采取不同的語音增強方法。一直以來,人們都在加性噪聲的模型上進行研究,提出了各種語音增強算法,總的來說可分為三類:第一類是時域方
14、法,例如基于參數和模型的方法 34 、子空間的方法 56 等;第二類是頻域方法,例如減譜法 79 、自適應濾波法 11 ,以及基于馬爾可夫模型濾波方法 12 等;第三類是其它方法,例如小波變換法、聽覺掩蔽法等。 2.4 時域方法 1. 基于參數和模型的方法。 基于參數和模型的方法通常有兩大類 10 :分析合成法和利用濾波器進行濾波處理的方法。前者是把聲道模型看作一個全極點濾波器,采用線性預測分析得到濾波器的參數。通過從帶噪語音中準確估計模型的參數來合成干凈的語音,這種方法關鍵在于如何從帶噪語音中準確地估計語音模型的參數(包括激勵參數和聲道參數) 。后者則是考慮到激勵參數難以準確估計,采用只利用
15、聲道參數構造濾波器進行濾波處理。而在低信噪比下,很難對模型參數進行準確估計,并且此類方法往往因需要迭代而增加算法的復雜度。在實際應用中有時也會把兩者合并在一起相互補充。具體來說主要有以下幾種方法。 (1) 最大后驗概率估計法 最大后驗概率估計法是把語音看作一個全極點的模型,首先依據最大后驗概率準則估計LPC線性預測參數,然后根據LPC參數的功率譜來構造一個非因果的維納濾波器對帶噪語音信號進行濾波,通過多次迭代直到滿足預先設定的閾值為止。此種算法適用于高斯白噪聲。它在一定程度上能消除噪聲,提高信噪比。但是由于維納濾波器只能在平穩(wěn)條件下才能保證最小均方誤差意義下的最優(yōu)估計,而語音和背景噪音的非平穩(wěn)
16、性,會導致最優(yōu)估計的誤差。而且采用維納濾波也沒有完全利用語音的生成模型,增強后的語音帶有不悅耳的聲音。 (2) 卡爾曼濾波法 1, 3 卡爾曼濾波在一定程度上可以彌補維納濾波引起的誤差。因為它是基于語音生成模型的,且在非平穩(wěn)條件下也可以保證最小均方誤差意義下的最優(yōu),適用于非平穩(wěn)噪聲干擾下的語音增強??柭鼮V波通過引入卡爾曼信息,將要解決的濾波與預測的混合問題轉化為純?yōu)V波和純預測兩個獨立的問題來考慮進行語音增強??柭鼮V波的優(yōu)點是噪聲在平穩(wěn)和非平穩(wěn)情況 下都能使用,能在不同程度上消除噪聲,提高信噪比,其缺點是計算量大,需要假設LPC生成模型的激勵源為白噪聲源并且只在清音段才成立,主觀試聽發(fā)現該方
17、法對語音造成了一定的損傷。 (3) 梳狀濾波器法 1 語音信號濁音段有明顯周期性的特點,可采用梳狀濾波器來提取語音分量,抑制噪聲。梳狀濾波器的輸出信號是輸入信號的延時加權和的平均值,當延時與信號的基音周期一致時,這個平均過程使周期性分量加強,而非周期分量或周期不同于信號的其他周期分量被抑制或消除。這種方法的關鍵是要準確估計出語音信號的基音周期。在基音變化的過渡段和強噪聲背景干擾下無法精確估計時,方法的應用受到限制。這種方法一般也只適用于平穩(wěn)的非白噪聲。 2.5子空間的方法 在子空間法中,大量實驗表明,語音矢量的協方差陣有很多零特征值,這說明干凈語音信號矢量的能量只分布在它對應空間的某個子集中。
18、而噪聲的方差通常都假設已知且嚴格正定,這說明噪聲矢量存在于整個帶噪語音信號張成的空間中。因此,帶噪語音信號的矢量空間可以認為由一個信號與加噪聲的子空間和一個純噪聲子空間構成。子空間法就是將帶噪聲語音信號分解為正交的信號加噪聲子空間和噪聲子空間,對純凈語音信號的估計可以將噪聲子空間中的信號舍棄,只保留信號子空間中的信號,來預測干凈的語音以達到降噪的目的。子空間法的優(yōu)點是有效地去除帶噪語音中的背景噪聲,使語音的質量和可懂度都有較大的提高,但是計算量較大,因此在快速計算中該方法需要進一步研究。 2.6頻域方法 語音信號的短時譜具有較強的相關性,而噪聲的前后相關性很弱,因此可以利用短時譜估計的方法從帶
19、噪語音中估計原始語音。同時人耳對語音相位感受不敏感,可將估計的對象放在短時譜的幅度上。典型的方法有譜減法 7 、維納濾波法 8 、短時譜幅度的MMSE估計 9 、自適應濾波法等。 1. 譜減法 譜減法是在假定加性噪聲與短時平穩(wěn)的語音信號相互獨立的條件下,從帶噪語音的功率譜中減去噪聲功率譜,從而得到較為“純凈”的語音頻譜。它的優(yōu)點是運算量小,容易實時實現,增強效果也較好。但是也存在一定的缺陷,譜減法是一種最大似然估計,沒有對語音頻譜的分布進行假設,而語音頻譜分量的幅度對人耳的聽覺是最重要的。因此譜減法進行增強處理后,會帶來音樂噪聲,不僅使聽者在聽覺效果上產生一定的干擾影響,還影響后續(xù)處理,如語音
20、編碼等。譜減法通常包括有線性譜減法、非線性譜減法和概率譜減法。 2.維納濾波法 維納濾波法是在最小均方準則下實現對語音信號估計的一種濾波器。對于帶噪語音信號,確定濾波器的沖擊響應,使得帶噪語音信號經過該濾波器后得到最接近于“純凈”的語音信號。采用維納濾波的好處是增強后的殘留噪聲類似于白噪聲,而不是有節(jié)奏起伏的音樂噪聲。維納濾波是平穩(wěn)條件下時域波形的最小均方誤差準則估計。由于沒有考慮到語音頻譜分量的幅度對人的聽覺最重要,因此采用維納濾波來增強語音存在一定的缺陷。 3.短時譜幅度的最小均方誤差(MMSE)估計法 針對特定的失真準則和后驗概率不敏感的特性,利用已知的噪聲功率譜信息,從帶噪語音短時譜中
21、估計出“純凈”語音短時譜,達到語音增強的目的。對于語音短時譜幅度的分布,通常通過兩種途徑解決:一是假設一個合理的概率分布模型;另一個則是通過實際統計的方法去獲得。為此,假設語音頻譜分布為高斯分布,并在此假設下推導MMSE估計公式,然后討論實際分布情況。另外,可以利用相鄰幀間頻率點信息的相關性,對當前幀頻率點的頻譜幅度值進行估計,這就是基于幀間頻譜分布約束的MMSE估計方法。又因為人耳對聲音強度的感受是與譜幅度的對數成正比的,因此在處理語音譜幅度時,采用對數失真準則更為適合一些,將上述MMSE估計式進行推廣,得到頻域分布約束下的短時對數譜的MMSE估計。短時譜幅度的MMSE估計在降噪和提高語音可
22、懂度方面進行了折衷,適用信噪比的范圍較廣,但是計算量較大,而且語音頻譜的先驗分布獲得在很大程度上要取決于統計結果的代表性、重現性等。 4. 自適應濾波法 以均方誤差或方差最小為準則,對噪聲信號進行最優(yōu)估計,然后從帶噪語音中減去噪聲達到降噪,提高信噪比,增強語音的目的。當輸入信號的統計特性未知,或者輸入信號的統計特性變化時,自適應濾波器能夠自動地迭代調節(jié)自身的濾波器參數,以滿足某種準則的要求,從而實現最優(yōu)濾波。因此,自適應濾波器具有“自我調節(jié)”和“跟蹤”能力。此方法的關鍵是如何得到帶噪語音中的噪聲。在多聲道采集系統中,兩個話筒間要有一定的距離,因而實時采集的兩路信號的噪聲不同,而且還受到回聲及其
23、他可變衰減特性的影響。在用單聲道系統來采集帶噪語音時,必須在語音間歇期間利用采集到的噪聲進行估值,如果噪聲是非平穩(wěn)的,會嚴重影響語音的增強效果,另一個缺點是增強后的語音中含有明顯的“音樂噪聲”。 5.隱馬爾可夫模型法 可以采用基于狀態(tài)空間的變換方法,對不同類別的語音和噪聲信號建立不同的模型。HMM的各個狀態(tài)可以對帶噪信號、噪聲信號所有不同的區(qū)域進行充分的建模,將帶噪信號中的噪聲信號部分去除就可得到語音的增強,甚至于在只有帶噪信號的情況下,利用HMM對狀態(tài)轉移概率進行建模,將可能為噪聲的信號部分濾除就可以做到語音增強。但是這種方法,在只有帶噪信號的情況下要正確分類,準確估計噪聲會有一定的誤差。
24、2.7 其它方法 隨著信號處理的理論和技術不斷發(fā)展完善,涌現出許多的新方法,如小波變換 1314 、神經網絡 15 、聽覺掩蔽 16 、分形理論 17 等。 參考文獻: 1 楊行峻,遲惠生,等. 語音信號數字處理M . 北京:電子工業(yè)出版社, 1995. 2 趙力. 語音信號處理M . 北京: 機械工業(yè)出版社,2003. 3 Gannot S, Burshtein D, Weinstein E. Iterative and se2quential Kalman filter2based speech enhancement algo2 rithms J . IEEE Trans Speech
25、and Audio Process, 1998, 6(4) : 3732385. 4 Kin J B, Lee K Y , Lee CW. On the app lications of theinteracting multip le model algorithm for enhancing noisy speech J . IEEE Trans Speech and Audio Process, 2000,8 (3) : 3492352. 5 Y Ephraim, H L V Trees. A signal subspace app roach forspeech enhancement
26、 J . IEEE Trans. Speech and AudioProcessing, 1995, 3 (7) : 2512266. 6 F Jabloun, B Champagne. A multi - microphone signalsubspace app roach for speech enhancementA . In Proc. IEEE ICASSP01 C . 2001. 2052208 . 7 Boll S. Supp ression of acoustic noise in speech using spec2tral subtraction J . IEEE Trans on Acoustic Speech andSignal Processing, 1979, 27 (2) : 1132120. 8 Ningp ing Fan. Low distortion speech denoising using an a2dap tive parametric Wiener filter A . IEEE InternationalConference on Acoustics, Speech and Signal Processing( ICASSP) C . 2004, 1: 122309. 9 Eph
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大棚辣椒多種常發(fā)病蟲害的發(fā)生特點及針對性高效防治措施
- 黑龍江省大慶市肇源縣開學聯考2024-2025學年七年級下學期開學考試歷史試題(原卷版+解析版)
- 住房保障與城鎮(zhèn)化的相互促進策略
- 智能制造的生態(tài)系統與平臺的策略及實施路徑
- 智研咨詢發(fā)布:LED路燈行業(yè)市場動態(tài)分析、發(fā)展方向及投資前景分析報告
- 2025年中國靈巧手行業(yè)市場規(guī)模、行業(yè)集中度及發(fā)展前景研究報告
- 【專精特新】AI芯片企業(yè)專精特新“小巨人”成長之路(智研咨詢)
- 土壤污染防治策略與路徑
- 核心素養(yǎng)視域下高中政治活動課教學的實踐與研究
- 2025年全液壓自行式大口徑工程鉆機項目建議書
- 天堂旅行團讀書分享
- 室內裝潢與裝修的危險源辨識與風險評估
- 護理安全警示教育案例完整版
- 醫(yī)療保險異地就醫(yī)登記備案表
- MAXIMO系統介紹課件
- 《雇主責任險》課件
- 煙花爆竹經營安全培訓課件
- 人為因素和航空法規(guī)-第二版-第1章
- 動漫設計與制作專業(yè)實訓室建設方案
- 初中英語翻譯專題訓練題100題含答案
- 教科版科學五年級下冊第一單元《生物與環(huán)境》測試卷含答案(精練)
評論
0/150
提交評論