版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
多媒體計管機技術(shù)
號玄偉
hwlu@263.net
第四章音頻信號和聲音卡
思
2?音頻編碼基礎(chǔ)考
*?音頻處理涉及的內(nèi)容題
??音頻信號壓縮技術(shù)
??音頻編碼標(biāo)準(zhǔn)
??聲音卡的組成和工作原理
Z?語音識別技術(shù)及應(yīng)用
音頻處理涉及的內(nèi)容
,也即聲波的物理特性。
音頻的記錄和產(chǎn)生方式,包括模/數(shù)、數(shù)
/模轉(zhuǎn)換;數(shù)據(jù)壓縮和聲音合成。
:?音頻信號的處理方法大致可分為兩類:
:一種是數(shù)字音頻方式,另一種是分析一
■合成的方安
音頻編碼基礎(chǔ)
??聲音是攜帶信息的極其重要的媒體,是多媒體技術(shù)研
■究中的一個重要內(nèi)容。聲音的種類繁多,如人的話音、
Z樂器聲、動物發(fā)出的聲音、機器產(chǎn)生的聲音以及自然
2界的聲音等。
:?這些聲音有許多共同的特性,也有它們各自的特性。
Z在用計算機處理這些聲音時,既要考慮它們的共性,
■又要利用它們的各自的特性。
:?我們將研究聲音的基礎(chǔ)知識,掌握聲音數(shù)字化的兩個
?最基本的概念;了解基本的音頻信號編碼技術(shù)。
音頻編碼基礎(chǔ)
Z?聲音信號的特點
z.音頻信息的分類
?■音頻信號處理的方法
??音頻文件的存儲格式
聲音質(zhì)量的度量
頻帶寬度
BacU
?音頻信號的頻帶越寬,所包含的音頻信
號分量越豐富,音質(zhì)越好
CD-DA
FM廣橘
AM廣播
電話
1020502003.4K7K15K22Kf(Hz)
:動態(tài)范圍K
EaeL
:?動態(tài)范圍越大,信號強度的相對變化范
?圍越大,音響效果越好
X動態(tài)范圍(邢)406050100
信噪比
BacU
??信噪比SNR(SignaltoNoiseRatio)
:是有用信號與噪聲之比的簡稱。噪音可
:分為環(huán)境噪音和設(shè)備噪音。信噪比越大,
聲音質(zhì)量越好。
門加有用信號的平均功率
噪聲的平均功率
主觀度量法
BacU
:?人的感覺機理對聲音的度量最有決定意
:義。感覺上的、主觀上的測試是評價聲
二音質(zhì)量不可缺少的部分。當(dāng)然,可靠的
:主觀度量值是較難獲得的
音頻信息的分類
NEXT
分類注釋
不規(guī)則聲音一般指不攜帶信息的噪音
語音是指具有語言內(nèi)涵和人類約定俗成的特殊媒體
音樂規(guī)范的符號化了的聲音
指人類熟悉的其它聲音,如動物發(fā)聲、機器產(chǎn)生的聲音、自然界的
風(fēng)雨雷電等。
規(guī)則音頻
BacU
?規(guī)則音頻是一種連續(xù)變化的模擬信號,可用一
條連續(xù)的曲線來表示,稱為聲波。模擬信號
的曲線無論多復(fù)雜,在任一時刻都可分解成
一系列正弦波的線性疊加:
聲音信號的特點
NEXT
?聲音是通過空氣傳
播的一種連續(xù)的波,
這種連續(xù)性表現(xiàn)在
兩個方面,一個是
時間上的連續(xù)性,
另一方面是指它在
幅度上是連續(xù)的。
?音頻信號的特征:
?基頻與音調(diào)
?諧波與音色
*幅度與音強
?音寬與頻帶
:聲音信號的特點.
:EaeL
:-人的聽覺器官能感知的頻率范圍為20?
:20000Hz,能感知的聲音幅度范圍在0?
-120dB之間,而人的發(fā)音器官能夠發(fā)出
Z的聲音頻率范圍為80?3,400Hz。
z?聲音是一種彈性波,聲音信號可以分成
:周期信號與非周期信號兩類。
:-聲音的質(zhì)量與聲音的頻率范圍有關(guān)。
:基頻與音調(diào)IS
:EaeL
:?頻率是指信號每秒鐘變化的次數(shù)。人對聲音
Z頻率的感覺表現(xiàn)為音調(diào)的高低,在音樂中稱
2為音高。音調(diào)正是由頻率/所決定的。音樂
?中音階的劃分是在頻率的對數(shù)坐標(biāo)(20Xlog)
Z上取等分而得的:
■
■音階CDEFGAB
■簡諾符號1234567
■
頻率(Hz)
,261293330349392440494
■頻率(對數(shù))48.349.350.350.851.852.853.8
:諧波與音色.
.EaeL
*?〃①0稱為①0的高次諧波分量,也稱為泛
:音。音色是由混入基音的泛音所決定的,
;高次諧波越豐富,音色就越有明亮感和
:穿透力。不同的諧波具有不同的幅值A(chǔ)”
:和相位偏移彼n,由此產(chǎn)生各種音色效
:?1y果No
幅度與音強
BacU
:?人耳對于聲音細節(jié)的分辨只有在強度適中時
:才最靈敏。人的聽覺響應(yīng)與強度成對數(shù)關(guān)系。
■一般的人只能察覺出3
Z?分貝的音強變化,再細分則沒有太多意義。
z我們常用音量來描述音強,以分貝
?(dB=201og)為單位。在處理音頻信號時,
:絕對強度可以放大,但其相對強度更有意義,
■一般用動態(tài)范圍定義:
Z動態(tài)范圍=20義log(信號的最大強度/信號的
?最小強度)(dB)
音寬與頻帶
BacU
:?頻帶寬度或稱為帶寬,它是描述組成復(fù)
:合信號的頻率范圍
音頻(Audio)帶寬
次聲帶一(_P—超聲帶
語音(Speech)帶寬
203003K20Kf(Hz)
音頻信號處理的方法.
國
?首先對聲音進行在時間軸和幅度兩個方
面進行離散化。
音頻文件的存儲格式
FNEXT]
:?目前比較流行的主要包括以下幾種:
:-主要用在PC上的以.wav(waveform)為擴展
:名的文件格式;
--主要用在Unix工作站上的以.au(audio)為擴
X展名的文件格式;
Z-主要用在蘋果機和美國視算科技有限公司
二的工作站上的以.aiff和snd為擴展名的文件
Z格式
:-PC機上比較流行的以.rm和.mp3
波形文件格式
NEXT
??.wav為擴展名的
:文件格式稱為波ID:RIFF。
2形文件格式RIFF類型:WWEo
??由IBM和微軟公格式塊”
Z司于1991年8月
二聯(lián)合開發(fā)的聲音數(shù)據(jù)塊”
部分音頻文件的后綴盆.
文件的擴展名說明
Sun和NeXT公司的音頻文件存儲格式(8位四律編碼
Au
或者16位線性編碼)
aif(AudioInterchange)Apple計算機上的音頻文件存儲格式
cmf(CreativeMusicFormat)聲霸(SB)卡帶的MIDI文件存儲格式
MIDI文件存儲格式
WMWe*t/1
mid(MIDI)Windows的MIDI文件存儲格式
mp2MPEGLayerI』
mp3MPEGLayerIII
Mod(Module)MIDI文件存儲格式
rm(RealMedia)則黝喊鼠公司的流式音頻文件格式
ra(RealAudio)四麒殿殿公司的流式音頻文件格式
聲音卡文件存儲格式
\RAAoA/Vl*Adlib
Snd(sound)Apple計算機上的音頻文件存儲格式
SeaMIDI文件存儲格式
MIDI文件存儲格式
聲霸卡存儲的音頻文件存儲格式
XV/v\oA/Wcv(CreativeVoice)
Windows采用的波形音頻文件存儲格式
\WAAAaAvAA(zWaveform)*
WrkCakewalkPro軟件采用的MID
:聲音質(zhì)量的度量.
:EaeL
:-聲音的質(zhì)量可以用聲音信號的帶寬和動態(tài)范
:圍來衡量,等級由高到低依次是DAT,CD,
.FM,AM和數(shù)字電話。
:?聲音質(zhì)量的度量還有兩種基本的方法:一種
z是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。
2?聲音客觀質(zhì)量的度量主要用值噪比SNR(signal
?tonioseratio)。
z?主觀質(zhì)量度量最常用的方法有平均意見得分
■(meanopinionscore,MOS)。
音頻信號壓縮技術(shù)
?,木既述
??脈沖編碼調(diào)制
:-增量調(diào)制
??自適應(yīng)脈沖編碼調(diào)制
??差分脈沖編碼調(diào)制
:?自適應(yīng)差分脈沖編碼調(diào)制
概述
爵aek
數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺
特性,使用“心理聲學(xué)模型”來達到壓縮
聲音數(shù)據(jù)的目的:
-聽覺系統(tǒng)中存在一個聽覺閾值電平
-聽覺掩飾特性
脈沖編碼調(diào)制
BaeU
:?脈沖編碼調(diào)制PCM(PulseCodeModulation)是一
一種模數(shù)轉(zhuǎn)換的最基本編碼方法
Z?模數(shù)轉(zhuǎn)換有兩個步驟:第一步是采樣,就是每隔一
?段時間間隔讀一次聲音的幅度;第二步是量化,就
Z是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。
采樣時鐘
]|11nHi\
:采樣頻率
:?采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采
:樣頻率的選擇應(yīng)該遵曲奈奎斯特
一(HarryNyquist)采樣理論:如果對
:某一模擬信號進行采樣,則采樣后可還
:原的最高信號頻率只有采樣頻率的一半,
:或者說只要采樣頻率高于輸入信號最高
:頻率的兩倍,就能從采樣信號系列重構(gòu)
:原始信號
量化
Z量化位是兩化中一個十分重要的參數(shù),它是對模
■擬音頻信號的幅度軸進行數(shù)字化,決定了模擬信號數(shù)
Z字化以后的動態(tài)范圍。由于計算機按字節(jié)運算,一般
?的量化位數(shù)為8位和16位。量化位越高,信號的動態(tài)
z范圍越大,數(shù)字化后的音頻信號就越可能接近原始信
:號,但所需要的存貯空間也越大。
?量化有好幾種方法,但可歸納成兩類:一類稱為
Z,另一類稱為非均勻量化。如果采用相等的
,量化間隔對采樣得到的信號作量化,那么這種量化稱
Z為均勻量化。均勻量化就是采用相同的“等分尺”來
?度量采樣得到的幅度,也稱為線性量化,如圖所示。
Z這種方法稱為,用PCM表示
:非線性量化
:?非線性量化的基本想法是,對輸入信號進行量化時,
二大的輸入信號采用大的量化間隔,小的輸入信號采用小
Z的量化間隔。
2?在非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)
Z之間定義了兩種對應(yīng)關(guān)系,一種稱為口律壓(縮)擴(展)
■夏法,另一種稱為A律壓(縮)擴(展)算法。
:pi律壓(縮)擴(展)算法.■
:日律壓擴用在北美和日本等地區(qū)的數(shù)字電
:話通信中,按下面的式子確定量化輸入和
:輸出的關(guān)系:
:FR(x)=sgn(x)[ln(l+//1x|)/ln(l+//)]
:式中:X為輸入信號幅度,規(guī)格化成
:VI;sgn(x)為X的極性;〃為確定壓縮量的參
:數(shù),它反映最大量化間隔和最小量化間隔
一之比,取1004/4500。
A律壓(縮)擴(展)算法
BaeU
?A律(A-Law)壓擴用在歐洲和中國大陸等地區(qū)的
:數(shù)字電話通信中,按下面的式子確定量化輸入
:和輸出的關(guān)系:
一/"—{sgn(x)[(l+InZ|x|)/(1+InA)]\/A<|x|<1
:式中:X為輸入信號幅度,規(guī)格化成-1。。,
zSgn(x)為X的極性;4為確定壓縮量的參數(shù),它反
?映最大量化間隔和最小量化間隔之比。
增量調(diào)制
FNEXT]
增量調(diào)制DM(DeltaModulation)是一種預(yù)
測編碼技術(shù)。
DM是對實際的采樣信號與預(yù)測的采樣
信號之差的極性進行編碼,將極性變成
“0,,和“1,,這兩種可能的取值之一。如
果實際的采樣信號與預(yù)測的采樣信號之
差的極性為“正”,則用“1”表示;相
反則用“0”表示。
DM波形編碼的原理圖
NEXT
x[0]x[l]x[2]x[3]x[4]x[5]x[6]x[7]x[8]x[9]x[10]x[ll]x[12]…
?編碼輸出
三其中x[i]表示在i點的編碼輸出,y[i]表
:示輸入信號的實際值。
:增量調(diào)制的缺點
:EMU
:?一是會出現(xiàn)斜率過載,即增量調(diào)制器的
:輸出不能保持跟蹤輸入信號的快速變化
I?二是會產(chǎn)生粒狀噪聲。反饋回路輸出信
:號的最大變化速率受到量化階大小的限
:制,因為量化階的大小是固定的。
自適應(yīng)脈沖編碼調(diào)制《?
Baeu
?根據(jù)輸入信號幅度的均方根值的變化來改變
量化增量的一種編碼技術(shù)。
?改變量化階大小的方法有兩種:一種稱為前
向自適應(yīng)(forwardadaptation),另一種稱為后
向自適應(yīng)(backwardadaptation)。
輸入T量化器
z輸入"夏福m垣卜,輸出*輸出
?輸出量化增置適配播j
圖4.9前向自適應(yīng)圖4.10后向自適應(yīng)
-r
一
:差分脈沖編碼調(diào)制S
.EMU
:?利用樣本與樣本之間存在的
z信息冗余度來進行編碼的一
.種數(shù)據(jù)壓縮技術(shù)。輸入率使[土
:?差分脈沖編碼調(diào)制的思想是國軻
z根據(jù)過去的辭本去估算下一
-個樣本信號的幅度大小,這--------于
:個值稱為預(yù)測值,然后對實
?際信號值與預(yù)測值之差進行
z量化編碼,從而就減少了表
?示每個樣本信號的位數(shù)。
自適應(yīng)差分
脈沖編碼調(diào)制
?它的核心想法是:
:①利用自適應(yīng)的思想輸入LKI
z改變量化增量的大小;
?②使用過去的樣本值
:估算下一個輸入樣本
Z的預(yù)測值,使實際樣
:本值和預(yù)測值之間的
:差值總是最小。
音頻編碼標(biāo)準(zhǔn)
??ITU-TG系列聲音壓縮標(biāo)準(zhǔn)
*?MP3壓縮技術(shù)
:,MP4壓縮技術(shù)
*?樂器數(shù)字接口MIDI
ITU-TG系列
聲音壓縮標(biāo)準(zhǔn)BaeU
2?G.711
??G.722
Z?G.723
升G.728
z?G.729
--音頻編碼標(biāo)準(zhǔn)比較
:G.711
:KacL
?1972年CCITT為電話質(zhì)量和語音壓縮制
:定了PCM標(biāo)準(zhǔn)G.711。其速率為64kb/s,使
:用V律或A律的非線性量化技術(shù),主要用于
:公共電話網(wǎng)中。
G.722
BaeU
:?1988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮
:制定了G.722標(biāo)準(zhǔn),它使用子帶編碼(SBC)方
Z案,其濾波器組將輸入信號分成高低兩個子
:帶信號,然后分別使用ADPCM進行編碼。
:?G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號
:壓縮為64kb/s,主要用于視聽多媒體和會議電
Z視等。
G.722的主要目標(biāo)是保持64kb/s的數(shù)據(jù)率,而
;音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。
G.723
BaeU
:1996年ITU-T通過了G.723標(biāo)準(zhǔn)一“用
:于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話
:音編碼”。它采用多脈沖激勵最大似然量
:化(MP-MLQ)算法,此標(biāo)準(zhǔn)可應(yīng)用于可視
:電話及IP電話等系統(tǒng)中。
G.728
BaeU
為了進一步降低壓縮的速率,CCITT
于1992年制定了G.728標(biāo)準(zhǔn),使用基于低
時延碼本激勵線性預(yù)測編碼(LD-CELP)算
法,其速率為16kb/s,主要用于公共電話
網(wǎng)中。
:G.729」
:KacL
:ITU-T于1996年3月通過了G.729標(biāo)準(zhǔn),
?它使用8kb/s的共貌結(jié)構(gòu)代數(shù)碼激勵線性預(yù)
?測(CS-ACELP)算法,此標(biāo)準(zhǔn)將在無線移
:動網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計算機通信系
:統(tǒng)中應(yīng)用。
音頻編碼標(biāo)準(zhǔn)比較.
BaeU
標(biāo)選比摘蟀繇魅應(yīng)用制定日期
G.71164kb/sPCM公共電麗72年
G.72264kb/sSBC+ADPCM撕多媒體舲議電話88.11
G.7235.3kb/s或MP-MLQ963
懶電話及IP電話等
63kM
G.72816kMLD-CELP公共電麗92.9
G.7298kb/sCS-ACELP祓移拆、計算機通信系統(tǒng)等963
MP3壓縮技術(shù)
FNEXT]
??MP3(BPMotionPictureExpertsGroup-1audio
:layer3)是近年來發(fā)展非常迅速的一種音頻文
z件格式,具有文件小、音質(zhì)佳的特點,它利
?用MPEGAudioLayer3的技術(shù)將WAV文件再
Z加以壓縮成為標(biāo)準(zhǔn)音頻CD文件的十二分之一。
:?在一張存放16首歌曲的74分鐘的CD上,可以
:存儲大約160首歌曲而且能夠播放14個小時之
T多。
MPEG音頻編碼標(biāo)準(zhǔn)
NEXT
:?MPEG音頻編碼標(biāo)準(zhǔn)具有可伸縮性,根
:據(jù)采用的壓縮因子的不同可以獲得不同
:的音質(zhì)。
:?MPEG采用分層編碼方式,其層次與壓
:縮因子的關(guān)系如下表所示
1:4Layer1(相當(dāng)于384kbps立體嚴(yán)信號),
1:6...1:8Layer2(木魁于256..192kbps立體聲信號),
1:10...1:12Layer3(相當(dāng)于128..112kbps立體聲信號),
MP3的一些主要性能
BaeU
音質(zhì)帶寬模式tm¥壓縮比
電話音質(zhì)2.5kHz單聲道8kbps96:1
短波4.5kHz單聲道16kbps48:1
調(diào)幅收音機7.5kHz單聲道32kbps24:1
FM收音機11kHz雙聲道56...64kbps26...24:1
耐CD15kHz雙聲道96kbps16:1
CD>15kHz雙聲道112J28kbps14.,12:1
YV
MP4壓縮技術(shù)
FNEXT]
:?MP4采用的是美國電話電報公司(AT&T)
:所研發(fā)的、以“知覺編碼”為關(guān)鍵技術(shù)
?的a2b音樂壓縮技術(shù),可將壓縮比成功地
:提高到15:1(最大可達至1)20:1)而不影響音
X樂的實際聽感。
z?MP4在加密和授權(quán)方面也做了特別的設(shè)
T計。
:MP4的特點j
:KacL
??每首MP4樂曲就是一個擴展名為.exe的
?可執(zhí)行文件
??更小的體積和更好的音質(zhì)
Z?獨特的數(shù)字水印
??支持版權(quán)保護
??比較完善的功能
樂器數(shù)字接口MIDI
FNEXT]
??MIDI是樂器數(shù)字接口(MusicalInstrument
ZDigitalInterface)的英文縮寫,是數(shù)字音樂/電
2子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)。
:?MIDI規(guī)范不僅定義了電腦音樂程序、音樂合
一成器及其它電子音樂設(shè)備交換音樂信號的方
,式,而且還規(guī)定了不同廠家的電子樂器與電
:腦連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)
:議,可用于為不同樂器創(chuàng)建數(shù)字聲音,能很
?容易地模擬鋼琴、小提琴等傳統(tǒng)樂器的聲音。
:樂器數(shù)字接口MIDI
??相對于保存真實采樣數(shù)據(jù)的聲音文件,MIDI
:文件顯得更加緊湊,其文件的大小要比WAV
X文件小得多
:-MIDI本身并不能發(fā)出聲音,它是一個協(xié)議,
:只包含用于產(chǎn)生特定聲音的指令,而這些指
*令則包括調(diào)用何種MIDI設(shè)備的音色、聲音的
Z強弱及持續(xù)的時間等。電腦把這些指令交由
:聲卡去合成相應(yīng)的聲音(如依指令發(fā)出鋼琴聲
?或小提琴聲等)。
Z?電腦播放MIDI文件時,有兩種方法合成聲音:
?FM合成和波表合成。
Z聲音卡的組成
Z和工作原理
??聲音卡的發(fā)展歷史
??聲音卡的聲道
??聲音卡的功能
??聲音卡的工作原理
??聲音卡的選擇及應(yīng)用
:聲音卡的發(fā)展歷史
??從PC喇叭到ADLIB音樂卡
:,SoundBlaster系列
Z?SBAWE系列聲卡
??PCI聲卡
聲音卡的聲道
BaeU
...cgQia"
單聲道左聲=道.一仁:竽、.、口右聲道
/\I,、
/,、3。度:;'
立體聲r
四聲道環(huán)繞
:2。度3
5.1聲道左環(huán)繞1"
I~右環(huán)繞
圖5.155.1通道
聲音卡的功能
BaeU
5-錄制、編輯和回放數(shù)字聲音文件
三?控制各聲源的音量,并混合在一起,以
:便數(shù)字化
:■在記錄和回放數(shù)字文件時進行壓縮和解
:壓縮,以節(jié)省存儲空間
:■采用語音合成技術(shù),能讓電腦朗讀文件
■
Z?MIDI接口
聲音卡的工作原理
NEXT
;?主機通過總線將數(shù)字化的聲音
主*Line輸出
.信號以PCM的方式送到數(shù)模轉(zhuǎn)換D/A
?器(D/A),將數(shù)字信號變成模擬的機功放一?耳機/揚聲器
■音頻信號。同時又可以通過模數(shù)總麥克風(fēng)
線二A/D
:轉(zhuǎn)換器(A/D)將麥克風(fēng)或CD的輸Line輸入
.入信號轉(zhuǎn)換成數(shù)字信號,送到計
一算機進行處理。
z?聲音處理芯片是聲卡中的核心芯片,是一個完整的音頻子系
?統(tǒng)電路,通過對音頻信號的轉(zhuǎn)換、控制、加工、處理,在個人計
?算機上實現(xiàn)聲卡的另一關(guān)鍵芯片是合成器芯片。
Z?多媒體計算機只有通過合成器才能播放MIDI文件。了較理想
,的音響效果。
三
JSoundBlasterl6的結(jié)構(gòu)框圖
NEXT
一
-三
二
二
二
三
二
二
一
一
國
MIDI合成芯片邏輯框圖
BaeU
IRQXIxo
CLKO
數(shù)
據(jù)4BCO
總定時控制器
AO,AI線時鐘?LRO
WCO
控
CS,WR,RD制
包絡(luò)線-
■FM算了T累加器]
發(fā)生器.—X—1
PDO,▼線性內(nèi)插
寄存器陣列?DO
D0-D7相位發(fā)生器LFOI值計算器
:聲音卡的選擇及應(yīng)用S
.KacL
??聲卡的兼容性
Z,音頻技術(shù)指標(biāo)
:-聲卡的使用
語音識別技術(shù)及應(yīng)用
??語音識別的發(fā)展歷史
??語音識別技術(shù)
:?語音識別系統(tǒng)的類型
??語音識別的應(yīng)用
尚待成熟的語音識別
:?就在幾年羽,語音識別(SR)還是投資界的寵兒。蟲
—場領(lǐng)導(dǎo)廠商如Dragon和LernoutHauspie(L&H)有點被
?熱情沖昏了頭腦。98%的準(zhǔn)確率及能夠識別10萬余字
Z的功能似乎幾個月內(nèi)就會淘汰鍵盤、甚至手寫筆。
,?許多用戶對傳聞的準(zhǔn)確率感到失望。盡管許多公司竭
Z力炒作其技術(shù)可以實現(xiàn)很高的準(zhǔn)確率,但是準(zhǔn)確率往
一往只有80%到85%。SR對許多字?jǐn)嗾氯×x,尚未解決
,標(biāo)點問題,似乎老是聽不懂尖聲的嗓音、感冒患者的
Z聲音及各種口音。顯然,一項尚在發(fā)展的技術(shù)被人誤
?傳成了“成品”。這項技術(shù)即使接近廠商在上世紀(jì)末
?所做的承諾,恐怕也需要許多年。
語音識別的發(fā)展歷史
FNEXT]
Z?語音識別技術(shù)的研究工作始于20世紀(jì)50年代,當(dāng)時
-AT&TBell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字
Z的語音識別系統(tǒng)一Audry系統(tǒng)。
Z?60年代,計算機的應(yīng)用推動了語音識別的發(fā)展。
:?70年代,語音識別領(lǐng)域取得了突破。
:?80年代,語音識別研究進一步走向深入,其顯著特征
Z是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別
一中的成功應(yīng)用。
Z?90年代,隨著多媒體時代的來臨,迫切要求語音識別
■系統(tǒng)從實驗室走向?qū)嵱谩?/p>
:語音識別技術(shù)的發(fā)展.
.KacL
,如圖表示了從80年代初以來語音識別技術(shù)經(jīng)歷的從孤立詞、小詞匯
語音識別技術(shù)
BaeU
:?不同的語音識別系統(tǒng),雖然具體實現(xiàn)細
:節(jié)有所不同,但所采用的基本技術(shù)相似,
:它所涉及的領(lǐng)域包括:信號處理、模式
:識別、概率論和信息論、發(fā)聲機理和聽
2覺機理、人工智能等等。
Z?語音識別技術(shù)主要包括特征提取技術(shù)、
z模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。
;此外,還涉及到語音識別單元的選取。
典型語音識別系統(tǒng)
的實現(xiàn)過程
識別結(jié)果
:語音識別單元的選取.
:KacL
Z?選擇識別單元是語音識別研究的第一步
:?語音識別單元有單詞(句)、音節(jié)和音素三
Z種
:-單詞單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng)
:?音節(jié)單元多見于漢語語音識別
:-音素單元以前多見于英語語音識別的研究中,
Z但目前中、大詞匯量漢語語音識別系統(tǒng)也在
T越來越多地采用
特征參數(shù)提取技術(shù)
FNEXT]
:?語音信號中含有豐富的信息,這些信息
:稱為語音信號的聲學(xué)特征
二?特征提取是對語音信號進行分析處理,
:去除對語音識別無關(guān)緊要的冗余信息,
:獲得影響語音識別的重要信息
:?由于語音信號的時變特性,特征提取必
:須在一小段語音信號上進行,也即進行
■短講分析
:常用的一些聲學(xué)特征.
.KacL
??線性預(yù)測系數(shù)LPC
??倒譜系數(shù)CEP
**Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP
:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45146-2024道路車輛氣壓及氣頂液制動系統(tǒng)試驗方法
- 北師大版八年級物理上冊《第一章物態(tài)及其變化》章末測試卷含答案
- 北師大版四年級上冊數(shù)學(xué)教案
- 農(nóng)業(yè)循環(huán)經(jīng)濟模式提升效益
- 能源大數(shù)據(jù)分析理論與實踐 課件 1.大數(shù)據(jù)概述
- 2024屆湖南省普通高中學(xué)高考仿真模擬化學(xué)試卷含解析
- 廈門市2024-2025學(xué)年度一學(xué)期高二年級質(zhì)量檢測數(shù)學(xué)試題(定稿)
- 2024高中地理第四章自然環(huán)境對人類活動的影響2全球氣候變化對人類活動的影響課時作業(yè)含解析湘教版必修1
- 2024高中生物第二章動物與人體生命活動的調(diào)節(jié)第4節(jié)免疫調(diào)節(jié)訓(xùn)練含解析新人教版必修3
- 2024高考歷史一輪復(fù)習(xí)方案專題五當(dāng)今世界政治格局的多極化趨勢專題綜合測驗含解析人民版
- 2023年全國統(tǒng)一高考數(shù)學(xué)甲卷【文科+理科】試題及答案解析
- 廢品處置招標(biāo)書
- GA/T 1280-2024銀行自助設(shè)備安全性規(guī)范
- 數(shù)據(jù)標(biāo)注基地項目實施方案
- 靜脈治療??谱o士競聘
- 2024年第一季度醫(yī)療安全(不良)事件分析報告
- 中醫(yī)課件英語教學(xué)課件
- 《哪吒鬧?!冯娪百p析
- 2024年初一英語閱讀理解專項練習(xí)及答案
- 《邊緣計算與人工智能應(yīng)用開發(fā)技術(shù)》全套教學(xué)課件
- 人教部編版九年級語文下冊文言文基礎(chǔ)知識復(fù)習(xí)練習(xí)及答案(全冊文言文6篇)
評論
0/150
提交評論