多媒體計算機技術(shù)

上傳人：唯*** IP屬地：河北上傳時間：2024-05-11 格式：PDF 頁數(shù)：78 大小：9.64MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩73頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

多媒體計管機技術(shù)

號玄偉

hwlu@263.net

第四章音頻信號和聲音卡

思

2?音頻編碼基礎(chǔ)考

*?音頻處理涉及的內(nèi)容題

??音頻信號壓縮技術(shù)

??音頻編碼標(biāo)準(zhǔn)

??聲音卡的組成和工作原理

Z?語音識別技術(shù)及應(yīng)用

音頻處理涉及的內(nèi)容

，也即聲波的物理特性。

音頻的記錄和產(chǎn)生方式，包括模/數(shù)、數(shù)

/模轉(zhuǎn)換；數(shù)據(jù)壓縮和聲音合成。

:?音頻信號的處理方法大致可分為兩類：

:一種是數(shù)字音頻方式，另一種是分析一

■合成的方安

音頻編碼基礎(chǔ)

??聲音是攜帶信息的極其重要的媒體，是多媒體技術(shù)研

■究中的一個重要內(nèi)容。聲音的種類繁多，如人的話音、

Z樂器聲、動物發(fā)出的聲音、機器產(chǎn)生的聲音以及自然

2界的聲音等。

:?這些聲音有許多共同的特性，也有它們各自的特性。

Z在用計算機處理這些聲音時，既要考慮它們的共性，

■又要利用它們的各自的特性。

:?我們將研究聲音的基礎(chǔ)知識，掌握聲音數(shù)字化的兩個

?最基本的概念；了解基本的音頻信號編碼技術(shù)。

音頻編碼基礎(chǔ)

Z?聲音信號的特點

z.音頻信息的分類

?■音頻信號處理的方法

??音頻文件的存儲格式

聲音質(zhì)量的度量

頻帶寬度

BacU

?音頻信號的頻帶越寬，所包含的音頻信

號分量越豐富，音質(zhì)越好

CD-DA

FM廣橘

AM廣播

電話

1020502003.4K7K15K22Kf(Hz)

：動態(tài)范圍K

EaeL

:?動態(tài)范圍越大，信號強度的相對變化范

?圍越大，音響效果越好

X動態(tài)范圍（邢）406050100

信噪比

BacU

??信噪比SNR(SignaltoNoiseRatio)

:是有用信號與噪聲之比的簡稱。噪音可

:分為環(huán)境噪音和設(shè)備噪音。信噪比越大,

聲音質(zhì)量越好。

門加有用信號的平均功率

噪聲的平均功率

主觀度量法

BacU

:?人的感覺機理對聲音的度量最有決定意

:義。感覺上的、主觀上的測試是評價聲

二音質(zhì)量不可缺少的部分。當(dāng)然，可靠的

:主觀度量值是較難獲得的

音頻信息的分類

分類注釋

不規(guī)則聲音一般指不攜帶信息的噪音

語音是指具有語言內(nèi)涵和人類約定俗成的特殊媒體

音樂規(guī)范的符號化了的聲音

指人類熟悉的其它聲音，如動物發(fā)聲、機器產(chǎn)生的聲音、自然界的

風(fēng)雨雷電等。

規(guī)則音頻

BacU

?規(guī)則音頻是一種連續(xù)變化的模擬信號,可用一

條連續(xù)的曲線來表示，稱為聲波。模擬信號

的曲線無論多復(fù)雜，在任一時刻都可分解成

一系列正弦波的線性疊加：

聲音信號的特點

?聲音是通過空氣傳

播的一種連續(xù)的波,

這種連續(xù)性表現(xiàn)在

兩個方面，一個是

時間上的連續(xù)性，

另一方面是指它在

幅度上是連續(xù)的。

?音頻信號的特征：

?基頻與音調(diào)

?諧波與音色

*幅度與音強

?音寬與頻帶

：聲音信號的特點.

:EaeL

:-人的聽覺器官能感知的頻率范圍為20?

:20000Hz，能感知的聲音幅度范圍在0?

-120dB之間，而人的發(fā)音器官能夠發(fā)出

Z的聲音頻率范圍為80?3,400Hz。

z?聲音是一種彈性波，聲音信號可以分成

:周期信號與非周期信號兩類。

:-聲音的質(zhì)量與聲音的頻率范圍有關(guān)。

：基頻與音調(diào)IS

:EaeL

:?頻率是指信號每秒鐘變化的次數(shù)。人對聲音

Z頻率的感覺表現(xiàn)為音調(diào)的高低，在音樂中稱

2為音高。音調(diào)正是由頻率/所決定的。音樂

?中音階的劃分是在頻率的對數(shù)坐標(biāo)（20Xlog）

Z上取等分而得的：

■

■音階CDEFGAB

■簡諾符號1234567

■

頻率（Hz）

,261293330349392440494

■頻率（對數(shù)）48.349.350.350.851.852.853.8

:諧波與音色.

.EaeL

*?〃①0稱為①0的高次諧波分量，也稱為泛

:音。音色是由混入基音的泛音所決定的,

;高次諧波越豐富,音色就越有明亮感和

:穿透力。不同的諧波具有不同的幅值A(chǔ)”

:和相位偏移彼n,由此產(chǎn)生各種音色效

：?1y果No

幅度與音強

BacU

：?人耳對于聲音細節(jié)的分辨只有在強度適中時

:才最靈敏。人的聽覺響應(yīng)與強度成對數(shù)關(guān)系。

■一般的人只能察覺出3

Z?分貝的音強變化，再細分則沒有太多意義。

z我們常用音量來描述音強，以分貝

?（dB=201og）為單位。在處理音頻信號時，

:絕對強度可以放大，但其相對強度更有意義,

■一般用動態(tài)范圍定義：

Z動態(tài)范圍=20義log（信號的最大強度/信號的

?最小強度）（dB）

音寬與頻帶

BacU

:?頻帶寬度或稱為帶寬，它是描述組成復(fù)

:合信號的頻率范圍

音頻（Audio）帶寬

次聲帶一（_P—超聲帶

語音（Speech）帶寬

203003K20Kf(Hz)

音頻信號處理的方法.

國

?首先對聲音進行在時間軸和幅度兩個方

面進行離散化。

音頻文件的存儲格式

FNEXT]

:?目前比較流行的主要包括以下幾種：

:-主要用在PC上的以.wav(waveform)為擴展

:名的文件格式；

--主要用在Unix工作站上的以.au(audio)為擴

X展名的文件格式；

Z-主要用在蘋果機和美國視算科技有限公司

二的工作站上的以.aiff和snd為擴展名的文件

Z格式

:-PC機上比較流行的以.rm和.mp3

波形文件格式

??.wav為擴展名的

:文件格式稱為波ID:RIFF。

2形文件格式RIFF類型：WWEo

??由IBM和微軟公格式塊”

Z司于1991年8月

二聯(lián)合開發(fā)的聲音數(shù)據(jù)塊”

部分音頻文件的后綴盆.

文件的擴展名說明

Sun和NeXT公司的音頻文件存儲格式(8位四律編碼

或者16位線性編碼)

aif(AudioInterchange)Apple計算機上的音頻文件存儲格式

cmf(CreativeMusicFormat)聲霸(SB)卡帶的MIDI文件存儲格式

MIDI文件存儲格式

WMWe*t/1

mid(MIDI)Windows的MIDI文件存儲格式

mp2MPEGLayerI』

mp3MPEGLayerIII

Mod(Module)MIDI文件存儲格式

rm(RealMedia)則黝喊鼠公司的流式音頻文件格式

ra(RealAudio)四麒殿殿公司的流式音頻文件格式

聲音卡文件存儲格式

\RAAoA/Vl*Adlib

Snd(sound)Apple計算機上的音頻文件存儲格式

SeaMIDI文件存儲格式

MIDI文件存儲格式

聲霸卡存儲的音頻文件存儲格式

XV/v\oA/Wcv(CreativeVoice)

Windows采用的波形音頻文件存儲格式

\WAAAaAvAA(zWaveform)*

WrkCakewalkPro軟件采用的MID

：聲音質(zhì)量的度量.

:EaeL

：-聲音的質(zhì)量可以用聲音信號的帶寬和動態(tài)范

:圍來衡量，等級由高到低依次是DAT,CD,

.FM,AM和數(shù)字電話。

:?聲音質(zhì)量的度量還有兩種基本的方法：一種

z是客觀質(zhì)量度量，另一種是主觀質(zhì)量度量。

2?聲音客觀質(zhì)量的度量主要用值噪比SNR(signal

?tonioseratio)。

z?主觀質(zhì)量度量最常用的方法有平均意見得分

■(meanopinionscore，MOS)。

音頻信號壓縮技術(shù)

?,木既述

??脈沖編碼調(diào)制

:-增量調(diào)制

??自適應(yīng)脈沖編碼調(diào)制

??差分脈沖編碼調(diào)制

:?自適應(yīng)差分脈沖編碼調(diào)制

概述

爵aek

數(shù)據(jù)壓縮的主要依據(jù)是人耳朵的聽覺

特性，使用“心理聲學(xué)模型”來達到壓縮

聲音數(shù)據(jù)的目的：

-聽覺系統(tǒng)中存在一個聽覺閾值電平

-聽覺掩飾特性

脈沖編碼調(diào)制

BaeU

:?脈沖編碼調(diào)制PCM(PulseCodeModulation)是一

一種模數(shù)轉(zhuǎn)換的最基本編碼方法

Z?模數(shù)轉(zhuǎn)換有兩個步驟：第一步是采樣,就是每隔一

?段時間間隔讀一次聲音的幅度；第二步是量化,就

Z是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。

采樣時鐘

]|11nHi\

:采樣頻率

:?采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采

:樣頻率的選擇應(yīng)該遵曲奈奎斯特

一(HarryNyquist)采樣理論：如果對

:某一模擬信號進行采樣，則采樣后可還

:原的最高信號頻率只有采樣頻率的一半,

:或者說只要采樣頻率高于輸入信號最高

:頻率的兩倍，就能從采樣信號系列重構(gòu)

:原始信號

量化

Z量化位是兩化中一個十分重要的參數(shù)，它是對模

■擬音頻信號的幅度軸進行數(shù)字化，決定了模擬信號數(shù)

Z字化以后的動態(tài)范圍。由于計算機按字節(jié)運算，一般

?的量化位數(shù)為8位和16位。量化位越高，信號的動態(tài)

z范圍越大，數(shù)字化后的音頻信號就越可能接近原始信

:號，但所需要的存貯空間也越大。

?量化有好幾種方法，但可歸納成兩類：一類稱為

Z,另一類稱為非均勻量化。如果采用相等的

,量化間隔對采樣得到的信號作量化，那么這種量化稱

Z為均勻量化。均勻量化就是采用相同的“等分尺”來

?度量采樣得到的幅度，也稱為線性量化，如圖所示。

Z這種方法稱為，用PCM表示

:非線性量化

:?非線性量化的基本想法是，對輸入信號進行量化時，

二大的輸入信號采用大的量化間隔，小的輸入信號采用小

Z的量化間隔。

2?在非線性量化中，采樣輸入信號幅度和量化輸出數(shù)據(jù)

Z之間定義了兩種對應(yīng)關(guān)系，一種稱為口律壓（縮）擴（展）

■夏法，另一種稱為A律壓（縮）擴（展）算法。

:pi律壓(縮)擴(展)算法.■

:日律壓擴用在北美和日本等地區(qū)的數(shù)字電

:話通信中，按下面的式子確定量化輸入和

:輸出的關(guān)系：

:FR(x)=sgn(x)[ln(l+//1x|)/ln(l+//)]

:式中：X為輸入信號幅度，規(guī)格化成

：VI;sgn(x)為X的極性；〃為確定壓縮量的參

:數(shù)，它反映最大量化間隔和最小量化間隔

一之比，取1004/4500。

A律壓(縮)擴(展)算法

BaeU

?A律(A-Law)壓擴用在歐洲和中國大陸等地區(qū)的

:數(shù)字電話通信中，按下面的式子確定量化輸入

:和輸出的關(guān)系：

一/"—{sgn(x)[(l+InZ|x|)/(1+InA)]\/A<|x|<1

:式中：X為輸入信號幅度，規(guī)格化成-1。。，

zSgn(x)為X的極性；4為確定壓縮量的參數(shù)，它反

?映最大量化間隔和最小量化間隔之比。

增量調(diào)制

FNEXT]

增量調(diào)制DM(DeltaModulation)是一種預(yù)

測編碼技術(shù)。

DM是對實際的采樣信號與預(yù)測的采樣

信號之差的極性進行編碼，將極性變成

“0，，和“1，，這兩種可能的取值之一。如

果實際的采樣信號與預(yù)測的采樣信號之

差的極性為“正”，則用“1”表示;相

反則用“0”表示。

DM波形編碼的原理圖

x[0]x[l]x[2]x[3]x[4]x[5]x[6]x[7]x[8]x[9]x[10]x[ll]x[12]…

?編碼輸出

三其中x[i]表示在i點的編碼輸出，y[i]表

:示輸入信號的實際值。

：增量調(diào)制的缺點

:EMU

:?一是會出現(xiàn)斜率過載，即增量調(diào)制器的

:輸出不能保持跟蹤輸入信號的快速變化

I?二是會產(chǎn)生粒狀噪聲。反饋回路輸出信

:號的最大變化速率受到量化階大小的限

:制，因為量化階的大小是固定的。

自適應(yīng)脈沖編碼調(diào)制《?

Baeu

?根據(jù)輸入信號幅度的均方根值的變化來改變

量化增量的一種編碼技術(shù)。

?改變量化階大小的方法有兩種：一種稱為前

向自適應(yīng)(forwardadaptation),另一種稱為后

向自適應(yīng)(backwardadaptation)。

輸入T量化器

z輸入"夏福m垣卜，輸出*輸出

?輸出量化增置適配播j

圖4.9前向自適應(yīng)圖4.10后向自適應(yīng)

-r

一

：差分脈沖編碼調(diào)制S

.EMU

：?利用樣本與樣本之間存在的

z信息冗余度來進行編碼的一

.種數(shù)據(jù)壓縮技術(shù)。輸入率使［土

:?差分脈沖編碼調(diào)制的思想是國軻

z根據(jù)過去的辭本去估算下一

-個樣本信號的幅度大小，這--------于

:個值稱為預(yù)測值，然后對實

?際信號值與預(yù)測值之差進行

z量化編碼，從而就減少了表

?示每個樣本信號的位數(shù)。

自適應(yīng)差分

脈沖編碼調(diào)制

?它的核心想法是：

:①利用自適應(yīng)的思想輸入LKI

z改變量化增量的大小;

?②使用過去的樣本值

:估算下一個輸入樣本

Z的預(yù)測值，使實際樣

:本值和預(yù)測值之間的

:差值總是最小。

音頻編碼標(biāo)準(zhǔn)

??ITU-TG系列聲音壓縮標(biāo)準(zhǔn)

*?MP3壓縮技術(shù)

:,MP4壓縮技術(shù)

*?樂器數(shù)字接口MIDI

ITU-TG系列

聲音壓縮標(biāo)準(zhǔn)BaeU

2?G.711

??G.722

Z?G.723

升G.728

z?G.729

--音頻編碼標(biāo)準(zhǔn)比較

：G.711

:KacL

?1972年CCITT為電話質(zhì)量和語音壓縮制

:定了PCM標(biāo)準(zhǔn)G.711。其速率為64kb/s,使

:用V律或A律的非線性量化技術(shù)，主要用于

:公共電話網(wǎng)中。

G.722

BaeU

:?1988年CCITT為調(diào)幅廣播質(zhì)量的音頻信號壓縮

：制定了G.722標(biāo)準(zhǔn)，它使用子帶編碼(SBC)方

Z案，其濾波器組將輸入信號分成高低兩個子

:帶信號，然后分別使用ADPCM進行編碼。

:?G.722能將224kb/s的調(diào)幅廣播質(zhì)量的音頻信號

:壓縮為64kb/s,主要用于視聽多媒體和會議電

Z視等。

G.722的主要目標(biāo)是保持64kb/s的數(shù)據(jù)率，而

;音頻信號的質(zhì)量要明顯高于G.711的質(zhì)量。

G.723

BaeU

:1996年ITU-T通過了G.723標(biāo)準(zhǔn)一“用

:于多媒體傳輸?shù)?.3kb/s或6.3kb/s雙速率話

:音編碼”。它采用多脈沖激勵最大似然量

:化(MP-MLQ)算法，此標(biāo)準(zhǔn)可應(yīng)用于可視

:電話及IP電話等系統(tǒng)中。

G.728

BaeU

為了進一步降低壓縮的速率，CCITT

于1992年制定了G.728標(biāo)準(zhǔn)，使用基于低

時延碼本激勵線性預(yù)測編碼(LD-CELP)算

法，其速率為16kb/s,主要用于公共電話

網(wǎng)中。

：G.729」

:KacL

:ITU-T于1996年3月通過了G.729標(biāo)準(zhǔn)，

?它使用8kb/s的共貌結(jié)構(gòu)代數(shù)碼激勵線性預(yù)

?測(CS-ACELP)算法，此標(biāo)準(zhǔn)將在無線移

:動網(wǎng)、數(shù)字多路復(fù)用系統(tǒng)和計算機通信系

:統(tǒng)中應(yīng)用。

音頻編碼標(biāo)準(zhǔn)比較.

BaeU

標(biāo)選比摘蟀繇魅應(yīng)用制定日期

G.71164kb/sPCM公共電麗72年

G.72264kb/sSBC+ADPCM撕多媒體舲議電話88.11

G.7235.3kb/s或MP-MLQ963

懶電話及IP電話等

63kM

G.72816kMLD-CELP公共電麗92.9

G.7298kb/sCS-ACELP祓移拆、計算機通信系統(tǒng)等963

MP3壓縮技術(shù)

FNEXT]

??MP3(BPMotionPictureExpertsGroup-1audio

:layer3)是近年來發(fā)展非常迅速的一種音頻文

z件格式，具有文件小、音質(zhì)佳的特點，它利

?用MPEGAudioLayer3的技術(shù)將WAV文件再

Z加以壓縮成為標(biāo)準(zhǔn)音頻CD文件的十二分之一。

:?在一張存放16首歌曲的74分鐘的CD上，可以

：存儲大約160首歌曲而且能夠播放14個小時之

T多。

MPEG音頻編碼標(biāo)準(zhǔn)

:?MPEG音頻編碼標(biāo)準(zhǔn)具有可伸縮性，根

:據(jù)采用的壓縮因子的不同可以獲得不同

:的音質(zhì)。

：?MPEG采用分層編碼方式，其層次與壓

:縮因子的關(guān)系如下表所示

1:4Layer1（相當(dāng)于384kbps立體嚴(yán)信號），

1:6...1:8Layer2（木魁于256..192kbps立體聲信號），

1:10...1:12Layer3（相當(dāng)于128..112kbps立體聲信號），

MP3的一些主要性能

BaeU

音質(zhì)帶寬模式tm￥壓縮比

電話音質(zhì)2.5kHz單聲道8kbps96:1

短波4.5kHz單聲道16kbps48:1

調(diào)幅收音機7.5kHz單聲道32kbps24:1

FM收音機11kHz雙聲道56...64kbps26...24:1

耐CD15kHz雙聲道96kbps16:1

CD>15kHz雙聲道112J28kbps14.,12:1

MP4壓縮技術(shù)

FNEXT]

:?MP4采用的是美國電話電報公司（AT&T）

:所研發(fā)的、以“知覺編碼”為關(guān)鍵技術(shù)

?的a2b音樂壓縮技術(shù)，可將壓縮比成功地

:提高到15:1（最大可達至1）20:1）而不影響音

X樂的實際聽感。

z?MP4在加密和授權(quán)方面也做了特別的設(shè)

T計。

：MP4的特點j

:KacL

??每首MP4樂曲就是一個擴展名為.exe的

?可執(zhí)行文件

??更小的體積和更好的音質(zhì)

Z?獨特的數(shù)字水印

??支持版權(quán)保護

??比較完善的功能

樂器數(shù)字接口MIDI

FNEXT]

??MIDI是樂器數(shù)字接口(MusicalInstrument

ZDigitalInterface)的英文縮寫，是數(shù)字音樂/電

2子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)。

：?MIDI規(guī)范不僅定義了電腦音樂程序、音樂合

一成器及其它電子音樂設(shè)備交換音樂信號的方

,式，而且還規(guī)定了不同廠家的電子樂器與電

：腦連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)

:議，可用于為不同樂器創(chuàng)建數(shù)字聲音，能很

?容易地模擬鋼琴、小提琴等傳統(tǒng)樂器的聲音。

：樂器數(shù)字接口MIDI

??相對于保存真實采樣數(shù)據(jù)的聲音文件，MIDI

:文件顯得更加緊湊，其文件的大小要比WAV

X文件小得多

:-MIDI本身并不能發(fā)出聲音，它是一個協(xié)議，

：只包含用于產(chǎn)生特定聲音的指令，而這些指

*令則包括調(diào)用何種MIDI設(shè)備的音色、聲音的

Z強弱及持續(xù)的時間等。電腦把這些指令交由

:聲卡去合成相應(yīng)的聲音（如依指令發(fā)出鋼琴聲

?或小提琴聲等）。

Z?電腦播放MIDI文件時，有兩種方法合成聲音:

?FM合成和波表合成。

Z聲音卡的組成

Z和工作原理

??聲音卡的發(fā)展歷史

??聲音卡的聲道

??聲音卡的功能

??聲音卡的工作原理

??聲音卡的選擇及應(yīng)用

:聲音卡的發(fā)展歷史

??從PC喇叭到ADLIB音樂卡

:,SoundBlaster系列

Z?SBAWE系列聲卡

??PCI聲卡

聲音卡的聲道

BaeU

...cgQia"

單聲道左聲=道.一仁：竽、.、口右聲道

/\I,、

/,、3。度：；'

立體聲r

四聲道環(huán)繞

：2。度3

5.1聲道左環(huán)繞1"

I~右環(huán)繞

圖5.155.1通道

聲音卡的功能

BaeU

5-錄制、編輯和回放數(shù)字聲音文件

三?控制各聲源的音量，并混合在一起，以

:便數(shù)字化

：■在記錄和回放數(shù)字文件時進行壓縮和解

:壓縮，以節(jié)省存儲空間

：■采用語音合成技術(shù)，能讓電腦朗讀文件

■

Z?MIDI接口

聲音卡的工作原理

;?主機通過總線將數(shù)字化的聲音

主*Line輸出

.信號以PCM的方式送到數(shù)模轉(zhuǎn)換D/A

?器(D/A),將數(shù)字信號變成模擬的機功放一?耳機/揚聲器

■音頻信號。同時又可以通過模數(shù)總麥克風(fēng)

線二A/D

:轉(zhuǎn)換器(A/D)將麥克風(fēng)或CD的輸Line輸入

.入信號轉(zhuǎn)換成數(shù)字信號，送到計

一算機進行處理。

z?聲音處理芯片是聲卡中的核心芯片，是一個完整的音頻子系

?統(tǒng)電路，通過對音頻信號的轉(zhuǎn)換、控制、加工、處理，在個人計

?算機上實現(xiàn)聲卡的另一關(guān)鍵芯片是合成器芯片。

Z?多媒體計算機只有通過合成器才能播放MIDI文件。了較理想

,的音響效果。

三

JSoundBlasterl6的結(jié)構(gòu)框圖

一

-三

二

三

二

一

國

MIDI合成芯片邏輯框圖

BaeU

IRQXIxo

CLKO

數(shù)

據(jù)4BCO

總定時控制器

AO,AI線時鐘?LRO

WCO

控

CS,WR,RD制

包絡(luò)線-

■FM算了T累加器］

發(fā)生器.—X—1

PDO,▼線性內(nèi)插

寄存器陣列?DO

D0-D7相位發(fā)生器LFOI值計算器

：聲音卡的選擇及應(yīng)用S

.KacL

??聲卡的兼容性

Z,音頻技術(shù)指標(biāo)

:-聲卡的使用

語音識別技術(shù)及應(yīng)用

??語音識別的發(fā)展歷史

??語音識別技術(shù)

:?語音識別系統(tǒng)的類型

??語音識別的應(yīng)用

尚待成熟的語音識別

：?就在幾年羽，語音識別(SR)還是投資界的寵兒。蟲

—場領(lǐng)導(dǎo)廠商如Dragon和LernoutHauspie(L&H)有點被

?熱情沖昏了頭腦。98%的準(zhǔn)確率及能夠識別10萬余字

Z的功能似乎幾個月內(nèi)就會淘汰鍵盤、甚至手寫筆。

,?許多用戶對傳聞的準(zhǔn)確率感到失望。盡管許多公司竭

Z力炒作其技術(shù)可以實現(xiàn)很高的準(zhǔn)確率，但是準(zhǔn)確率往

一往只有80%到85%。SR對許多字?jǐn)嗾氯×x，尚未解決

，標(biāo)點問題，似乎老是聽不懂尖聲的嗓音、感冒患者的

Z聲音及各種口音。顯然，一項尚在發(fā)展的技術(shù)被人誤

?傳成了“成品”。這項技術(shù)即使接近廠商在上世紀(jì)末

?所做的承諾，恐怕也需要許多年。

語音識別的發(fā)展歷史

FNEXT]

Z?語音識別技術(shù)的研究工作始于20世紀(jì)50年代，當(dāng)時

-AT&TBell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字

Z的語音識別系統(tǒng)一Audry系統(tǒng)。

Z?60年代，計算機的應(yīng)用推動了語音識別的發(fā)展。

:?70年代，語音識別領(lǐng)域取得了突破。

:?80年代，語音識別研究進一步走向深入，其顯著特征

Z是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識別

一中的成功應(yīng)用。

Z?90年代，隨著多媒體時代的來臨，迫切要求語音識別

■系統(tǒng)從實驗室走向?qū)嵱谩?/p>

:語音識別技術(shù)的發(fā)展.

.KacL

,如圖表示了從80年代初以來語音識別技術(shù)經(jīng)歷的從孤立詞、小詞匯

語音識別技術(shù)

BaeU

：?不同的語音識別系統(tǒng)，雖然具體實現(xiàn)細

:節(jié)有所不同，但所采用的基本技術(shù)相似,

:它所涉及的領(lǐng)域包括：信號處理、模式

:識別、概率論和信息論、發(fā)聲機理和聽

2覺機理、人工智能等等。

Z?語音識別技術(shù)主要包括特征提取技術(shù)、

z模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。

;此外，還涉及到語音識別單元的選取。

典型語音識別系統(tǒng)

的實現(xiàn)過程

識別結(jié)果

:語音識別單元的選取.

:KacL

Z?選擇識別單元是語音識別研究的第一步

:?語音識別單元有單詞（句）、音節(jié)和音素三

Z種

:-單詞單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng)

:?音節(jié)單元多見于漢語語音識別

:-音素單元以前多見于英語語音識別的研究中,

Z但目前中、大詞匯量漢語語音識別系統(tǒng)也在

T越來越多地采用

特征參數(shù)提取技術(shù)

FNEXT]

:?語音信號中含有豐富的信息，這些信息

:稱為語音信號的聲學(xué)特征

二?特征提取是對語音信號進行分析處理，

:去除對語音識別無關(guān)緊要的冗余信息，

:獲得影響語音識別的重要信息

:?由于語音信號的時變特性，特征提取必

:須在一小段語音信號上進行，也即進行

■短講分析

:常用的一些聲學(xué)特征.

.KacL

??線性預(yù)測系數(shù)LPC

??倒譜系數(shù)CEP

**Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體計算機技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

多媒體計算機技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔