多媒體應(yīng)用設(shè)計(jì)師備考筆記

上傳人：浪*** IP屬地：河北上傳時(shí)間：2023-06-29 格式：PDF 頁(yè)數(shù)：50 大?。?0.20MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩45頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

專題一多媒體技術(shù)基礎(chǔ)

第一章多媒體計(jì)算機(jī)的定義和關(guān)鍵技術(shù)

媒體（Medium）在計(jì)算機(jī)領(lǐng)域中有兩種含義：

1、用以存儲(chǔ)信息的實(shí)體，如磁帶、磁盤、光盤和半導(dǎo)體存儲(chǔ)器；

2、信息的載體，如數(shù)字、文字、聲音、圖形和圖像。

多媒體技術(shù)中的媒體是指后者。

多媒體計(jì)算機(jī)技術(shù)定義

計(jì)算機(jī)綜合處理多種媒體信息（文本、圖形、圖象、音頻和視頻），使多種信息建立邏輯連接，集成為一個(gè)系統(tǒng)并具有交互性。

簡(jiǎn)單地說(shuō)：計(jì)算機(jī)綜合處理聲、文、圖信息；具有集成性和交互性；

總之多媒體計(jì)算機(jī)具有信息載體多樣性、集成性和交互性。

多媒體計(jì)算機(jī)的關(guān)鍵技術(shù)（把一臺(tái)普通計(jì)算機(jī)變?yōu)槎嗝襟w計(jì)算機(jī)要解決的的關(guān)鍵技術(shù)）

（1）視頻音頻信號(hào)獲取技術(shù)；

（2）多媒體數(shù)據(jù)壓縮編碼和解碼技術(shù)；

（3）視頻音頻數(shù)據(jù)的實(shí)時(shí)處理技術(shù)和特技：

（4）視頻音頻數(shù)據(jù)的輸出技術(shù)。

多媒體計(jì)算機(jī)的分類

家電制造廠商研制的：電視計(jì)算機(jī)一一靈巧電視SmartTV

計(jì)算機(jī)制造廠商研制的：計(jì)算機(jī)電視一一發(fā)展方向是TV-killer

在多媒體計(jì)算機(jī)發(fā)展史上卓有成效的公司和系統(tǒng)

1、Philips/Sony公司的CDT系統(tǒng)

2、Commodore公司的Amiga系統(tǒng)

3^Apple公司的HyperCard

4、Intel和IBM公司的DVI系統(tǒng)

HDTV（HighDefinitionTelevision高清晰度電視）特點(diǎn)：

（1）采用國(guó)際標(biāo)準(zhǔn)的壓縮編碼算法MPEG-2。（能與多媒體計(jì)算機(jī)兼容、通信）

（2）采用打包數(shù)據(jù)結(jié)構(gòu)。（圖像、聲音、及多媒體服務(wù)附加數(shù)據(jù)以包的方式發(fā)送，包可隨即次序傳送、大小動(dòng)態(tài)分配）

（3）采用雙層傳輸技術(shù)。（重要數(shù)據(jù)放到高優(yōu)先級(jí)的載波上傳輸，其他數(shù)據(jù)放到具有標(biāo)準(zhǔn)優(yōu)先級(jí)的載波上傳輸）

常規(guī)電視數(shù)字化：

湯姆遜（Thomson）消費(fèi)電子公司通過(guò)休斯銀河（HughesGalaxy）601衛(wèi)星，開(kāi)創(chuàng)世界首次全數(shù)字直接到戶的衛(wèi)星廣播業(yè)務(wù)

（DSS-l）igitalSatel1itesSystem及DBS-DirectBroadcastService）。消費(fèi)者很容易獲得120到150個(gè)頻道最受歡迎的電視

節(jié)目。用戶端只需要購(gòu)置一個(gè)易于安裝的18英寸或常規(guī)碟形天線，一個(gè)和錄像機(jī)體積差不多的接收機(jī)/解碼器以及一個(gè)易于控制和

操作的遙控器。

交互式電視技術(shù)（ITV）：

最常用的是節(jié)目間的交互，即V0D系統(tǒng)。典型的V0D系統(tǒng)主要由下述四部分組成；

（1）視頻服務(wù)器；（2）編碼器/路由器；（3）用戶請(qǐng)求計(jì)算機(jī)和記帳計(jì)算機(jī)；（4）機(jī)頂盒

多媒體計(jì)算機(jī)技術(shù)在常規(guī)電視和高清晰度電視，影視節(jié)目制作中的應(yīng)用分成兩個(gè)層次:

影視畫面的制作；影視的后期制作（如非線性編輯器）。

用多媒體技術(shù)制作V-CD及影視音響卡拉0K機(jī)

多媒體數(shù)據(jù)壓縮和解壓縮技術(shù)是多媒體計(jì)算機(jī)系統(tǒng)中的關(guān)鍵技術(shù)，首次將此技術(shù)應(yīng)用到VCD播放機(jī)中的是美國(guó)C-Cube公司。

VCD問(wèn)世于1993年，是多家公司聯(lián)合制定的數(shù)字電視視盤技術(shù)標(biāo)準(zhǔn)。安徽合肥萬(wàn)燕公司在世界上首先利用MPEG國(guó)際標(biāo)準(zhǔn)和CD

光盤技術(shù)，研制了全功能影視音響卡拉0K機(jī)CDK-320。

VCD播放機(jī)，由CD-ROM驅(qū)動(dòng)器、MPEG解壓卡及控制操作電路組成。

DVD與VCD的不同只是視頻和音頻的編碼標(biāo)準(zhǔn)不同，兩者的原理是一樣的。DVD的視頻和音頻編碼標(biāo)準(zhǔn)是MPEG-2或者AC-3而

不是MPEGT。

V-CD播放系統(tǒng)主要有下述兩種產(chǎn)品：MPEG播放卡、V-CD播放機(jī)

多媒體家庭網(wǎng)關(guān)

MHG（多媒體家庭網(wǎng)關(guān)）數(shù)據(jù)流向圖MHG結(jié)構(gòu)圖

一般認(rèn)為，多媒體技術(shù)研究的興起從（1984年，美國(guó)Apple公司推出Macintosh系列機(jī)）開(kāi)始

多媒體創(chuàng)作工具的分類:

基于時(shí)間的創(chuàng)作工具；

基于圖符（Icon）或流線（Line）創(chuàng)作工具；

基于卡片（Card）和頁(yè)面（Page）的創(chuàng)作工具；

以傳統(tǒng)程序語(yǔ)言為基礎(chǔ)的創(chuàng)作工具。

多媒體創(chuàng)作工具的應(yīng)用：

制作各種電子出版物、教材、參考書、地圖、醫(yī)藥衛(wèi)生、商業(yè)手冊(cè)及游戲娛樂(lè)節(jié)目。

多媒體應(yīng)用系統(tǒng)、演示系統(tǒng)或信息查詢系統(tǒng)、導(dǎo)游系統(tǒng)；培訓(xùn)和教育系統(tǒng)；娛樂(lè)、視頻動(dòng)畫及廣告等等。

多媒體數(shù)據(jù)庫(kù)的研究途徑：

（1）在現(xiàn)有商用數(shù)據(jù)庫(kù)管理系統(tǒng)的基礎(chǔ)上增加接口，以滿足多媒體應(yīng)用的需要；（實(shí)用，效率低）

（2）建立基于一種或幾種應(yīng)用的專用多媒體信息管理系統(tǒng)；（易實(shí)現(xiàn)，缺乏通用性，可擴(kuò)展性差）

（3）從數(shù)據(jù)模型入手，研究全新的通用多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)（研究和發(fā)展的主流，難度較大）

多媒體數(shù)據(jù)庫(kù)要解決的關(guān)鍵技術(shù)問(wèn)題：

（1）多媒體數(shù)據(jù)模型：采用面向?qū)ο蟮姆椒枋龊徒⒍嗝襟w數(shù)據(jù)模型是較好的方法。（2）數(shù)據(jù)的壓縮和解壓縮

（3）多媒體數(shù)據(jù)的存貯管理和存取方法（4）多媒體信息的再現(xiàn)及良好的用戶界面（5）分布式技術(shù)

多媒體數(shù)據(jù)存儲(chǔ)的問(wèn)題：巨大的數(shù)據(jù)量、存儲(chǔ)技術(shù)、多媒體對(duì)象存儲(chǔ)、多媒體文檔檢索。

多媒體數(shù)據(jù)庫(kù)基于內(nèi)容的檢索：目標(biāo)標(biāo)識(shí)，特征提取，數(shù)據(jù)庫(kù)查詢接口，檢索引擎，索引/過(guò)濾器

多媒體通信分類：

（1）對(duì)稱的全雙工的多媒體通訊。如分布式多媒體信息系統(tǒng)、視頻會(huì)議系統(tǒng)及計(jì)算機(jī)支持的協(xié)同工作系統(tǒng)；

（2）非對(duì)稱全雙工的多媒體通訊系統(tǒng)。如交互式電視系統(tǒng)（ITV）、點(diǎn)播電視系統(tǒng)（VOD）

多媒體通信的關(guān)鍵技術(shù)：（1）多媒體數(shù)據(jù)壓縮。（2）高速數(shù)據(jù)通訊問(wèn)題。尤其是視頻會(huì)議系統(tǒng)要解決視頻會(huì)議系統(tǒng)的國(guó)際標(biāo)準(zhǔn)問(wèn)題。

視頻會(huì)議系統(tǒng)可分為兩類：

（1）點(diǎn)對(duì)點(diǎn)視頻會(huì)議系統(tǒng)：如可視電話、臺(tái)式機(jī)一臺(tái)式機(jī)視頻會(huì)議（桌面視頻會(huì)議系統(tǒng)）、會(huì)議室一會(huì)議室視頻會(huì)議

（2）多點(diǎn)視頻會(huì)議系統(tǒng)：如三個(gè)或三個(gè)以上不同地點(diǎn)的參加者一起參加討論。多點(diǎn)會(huì)議系統(tǒng)的關(guān)鍵技術(shù)是：多點(diǎn)控制器（MCU）,

它能自動(dòng)的交換數(shù)據(jù)。

視頻會(huì)議系統(tǒng)的結(jié)構(gòu)：視頻會(huì)議終端、多點(diǎn)控制器、信道（網(wǎng)絡(luò)）、控制管理軟件。

MCU——多點(diǎn)控制單元/多點(diǎn)控制器

MCU是視頻會(huì)議系統(tǒng)的關(guān)鍵設(shè)備，它的主要功能是對(duì)視頻、語(yǔ)音及數(shù)據(jù)信號(hào)進(jìn)行切換。例如它會(huì)將傳送到MCU某會(huì)場(chǎng)的場(chǎng)景圖

像信號(hào)切換到所有會(huì)場(chǎng)，對(duì)于語(yǔ)音信號(hào)，若同時(shí)有幾個(gè)發(fā)言，可以對(duì)他們進(jìn)行混合處理，選出最高的音頻信號(hào)切換到其它會(huì)場(chǎng)。

MCU的主要組成部分：網(wǎng)絡(luò)接口單元、呼叫控制單元、多路復(fù)用和解復(fù)用單元、音頻處理器、視頻處理器、數(shù)據(jù)處理器、控制

處理器、密鑰處理分發(fā)器、呼叫控制處理器。

多媒體計(jì)算機(jī)的發(fā)展趨勢(shì)

（1）進(jìn)一步完善計(jì)算機(jī)支持的協(xié)同工作環(huán)境CSCW（ComputerSupportedCollaborativeWork）

（2）智能多媒體技術(shù)

（3）把多媒體信息實(shí)時(shí)處理和壓縮編碼算法作到CPU芯片中。（集成原則:壓縮算法采用國(guó)際標(biāo)準(zhǔn)設(shè)計(jì)；多媒體功能的單獨(dú)解

決變成集中解決；體系結(jié)構(gòu)設(shè)計(jì)和算法相結(jié)合。）

總之，多媒體計(jì)算機(jī)將朝著高分辨率、提高顯示質(zhì)量、高速化、簡(jiǎn)單化、智能化方向發(fā)展。

第二章多媒體信息處理技術(shù)

采樣、量化、數(shù)字化、數(shù)字圖像

多媒體計(jì)算機(jī)處理圖像和視頻，首先必須把連續(xù)的圖像函數(shù)f(x,y)進(jìn)行空間和幅值的離散化處理:

采樣:空間連續(xù)坐標(biāo)(X,y)的離散化

量化：f(x,y)顏色的離散化

數(shù)字化:兩種離散化結(jié)合在一起，叫做數(shù)字化。離散化的結(jié)果稱為數(shù)字圖像。

x,y的離散化稱為采樣

f(x,y)的離散化稱為量化

采樣

對(duì)連續(xù)圖像彩色函數(shù)f(x,y),沿x方向以等間隔Ax采樣，采樣點(diǎn)數(shù)為N,沿y方向以等間隔Ay采樣，采樣點(diǎn)數(shù)為N,于

是得到一個(gè)NXN的離散樣本陣列

[f(m,n)]NXN。

為了達(dá)到由離散樣本陣列以最小失真重建原圖的目的，采樣密度必須滿足香農(nóng)采樣定理采樣密度：與Ay)

采樣定理：采樣間隔與f(x,y)頻帶之間，頻帶愈窄，相應(yīng)的采樣頻率可以降低，采樣頻率是圖像變化頻率二倍時(shí)，就能保證

由離散圖像數(shù)據(jù)無(wú)失真地重建原圖。

顏色的基本概念

彩色可用亮度、色調(diào)和飽和度來(lái)描述，人眼看到任一彩色光都是這三個(gè)特性的綜合效果。

亮度：光作用于人眼時(shí)所引起的明亮程度的感覺(jué)，它與被觀察物體的發(fā)光強(qiáng)度有關(guān)。(光的強(qiáng)和弱)

色調(diào)：當(dāng)人眼看一種或多種波長(zhǎng)的光時(shí)所產(chǎn)生的彩色感覺(jué)，它反映顏色的種類，是決定顏色的基本特性。

飽和度：指顏色的純度，即摻入白光的程度(指顏色的深淺程度，對(duì)于同一色調(diào)彩色光，飽和度越深顏色越鮮明或者說(shuō)越純)。

紅色+白光>粉紅色>飽和度下降

紅色+綠色>黃色>色調(diào)發(fā)生變化

色度：色調(diào)和飽和度通稱為色度。

亮度表示某彩色光的明亮程度，而色度則表示顏色的類別與深淺程度。

三基色原理

三基色原理：自然界常見(jiàn)的各種顏色光，都可由紅(R)、綠(G)、藍(lán)(B)三種顏色光按不同比例相配而成，同樣絕

大多數(shù)顏色也可以分解成紅、綠、藍(lán)三種色光。

三基色的選擇不是唯一的，三種顏色必須是相互獨(dú)立的，即任何?種顏色都不能由其他兩種顏色合成。

相加混色：把三種基色光按不同比例相加稱之為相加混色。

常用亮度公式：(Y表示白光的亮度)

NTSC電視制式:Y=0.3R+0.59G+0.11B；

PAL電視制式：Y=0.222R+0.707G+0.071B

注：如果把單色光亮度定為100,則主觀感覺(jué)是綠光僅次白光，是三基色中最亮的，紅光次之，亮度約占綠光的一半，藍(lán)光最

弱，亮度約占紅光的1/3。注意0.3+0.59+0.11=1.0三原色的系數(shù)之所以不同是因?yàn)槿说难鄱脤?duì)不同波長(zhǎng)的顏色有著不同的敏感度。

RGB彩色空間

當(dāng)三基色按不同強(qiáng)度相加時(shí)，可得到任何一種顏色。在RGB彩色空間，某一種顏色和這三種顏色之間的關(guān)系可用下面的式子來(lái)

描述：F（顏色）=r[R]+g[G]+b[B]（r+g+b=l）

其中r、g、b為三色系數(shù)。r[R]、g[G]、b[B]為F色光的三色分量。當(dāng)三基色等量相加時(shí)，得到白色。

不管多媒體系統(tǒng)采用何種色彩空間，最后監(jiān)視器輸出一定要轉(zhuǎn)換成RGB色彩空間。

RGB和黑白電視信號(hào)不兼容。

YUV彩色空間

攝像機(jī)把攝得的彩色圖像信號(hào)，經(jīng)分色棱鏡分成RGB。三個(gè)分量的信號(hào)，分別經(jīng)放大和丫校正得到RGB,再經(jīng)過(guò)矩陣變換電路

得到亮度信號(hào)Y、色差信號(hào)R-Y和B-Y。

Y=0.3R+0.59G+0.UB~Y~■0.30.59o.ii-R

U=m(B-Y)=0.493(B-Y)U=-0.15-0.290.44G圖像子采樣

V=n(R-Y)=0.877(R-Y)V0.61-0.52-0.096B對(duì)圖像進(jìn)行采樣時(shí)，如果對(duì)色差信號(hào)

優(yōu)點(diǎn)：使用的采樣頻率比對(duì)亮度信號(hào)使用的采樣

1）亮度信號(hào)Y解決了彩色電視和黑白電視的兼容問(wèn)題。頻率低，這種采樣就稱為圖像子采樣

2）可以利用人眼的特性來(lái)降低數(shù)字彩色圖像所需要的存儲(chǔ)容量。（subsampling）o

YUV彩色空間，數(shù)字化后通常的比例為：Y:U:V=8:4:4Y:U:V=8:2:2

YIQ彩色空間

亮度：Y色差：I、Q

I軸：表示人眼最敏感的色軸

（123度的橙色及其相反方向的303度的青色，人眼對(duì)其具有最大的彩色分期

Q軸：表示人眼最不敏感的色軸

/=Teos330-ysin33°

優(yōu)點(diǎn)：

人眼分辨紅、黃之間顏色變化的能力最強(qiáng)，而分2=Psin330+Ucos33°

辨藍(lán)與紫之間顏色變化的能力最弱。在傳送分辨

力弱的信號(hào)時(shí)，可以用較窄的頻帶，而傳送分辨

力較強(qiáng)的信號(hào)時(shí)，可以用較寬的頻帶。

Y0.30.590.11R

I-0.6-0.28-032G

Q0.21-0.52031B

電視廣播制式

世界上主要使用的電視廣播制式有PAL、NTSC,SECAM三種，中國(guó)大部分地區(qū)使用PAL制式，日本、韓國(guó)及東南亞地區(qū)與美國(guó)

等歐美國(guó)家使用NTSC制式，俄羅斯則使用SECAM制式。PAL制式（.正交平衡調(diào)幅逐行倒相制）：采用YUV彩色空間；25幀/秒。

NTSC制式（正交平衡調(diào)幅制）：采用YIQ彩色空間。30幀/秒。SECA"制（行輪換調(diào)頻制）25幀/秒。

HSI彩色空間

H(hue)色調(diào)；S(saturation)飽和度；I(Intensity)光的強(qiáng)度

優(yōu)點(diǎn)：亮度分量與圖像的色彩信息無(wú)關(guān)；能夠減少彩色圖像處理的復(fù)雜性，它更接近人對(duì)彩色的認(rèn)識(shí)和解釋。廣泛用于計(jì)算

機(jī)視覺(jué)、圖像檢索和視頻檢索。rR+G+B

HSI彩色空間與RGB彩色空間之間的轉(zhuǎn)換:

H=+l90-arctan(F</5)+{0,G>B:180,G<B}]

其中

?2R-G-B

F=G-B

★全電視信號(hào)

電視攝像機(jī)把一幅圖像信號(hào)轉(zhuǎn)變成的輸出信號(hào)就是全電視信號(hào)。

光柵掃描

二維信號(hào)一維信號(hào)

（掃描方式：隔行掃描逐行掃描；隔行掃描：奇數(shù)場(chǎng)+偶數(shù)場(chǎng)=1幀：每一行有正程和逆程。）

黑白全電視信號(hào)=圖像信號(hào)（視頻信號(hào)）+復(fù)合消隱信號(hào)（行消隱、場(chǎng)消隱）+復(fù)合同步信號(hào)（行同步、場(chǎng)同步）

彩色全電視信號(hào)=色度信號(hào)+亮度信號(hào)+復(fù)合同步信號(hào)+復(fù)合消隱信號(hào)

在現(xiàn)代彩色電視系統(tǒng)中，通常采用YUV彩色空間或YIQ彩色空間，Y為亮度信號(hào)，它可以與黑白全電視信號(hào)兼容，U和V用載

波頻率3sc調(diào)制加到亮度Y上，最后形成彩色全電視信號(hào)，如下式所示：

CVBS=Y+F

F=Vcos<*>sct+Usinset（壓縮后的色度信號(hào)）

多媒體計(jì)算機(jī)常用的三種圖像及其獲取方式

多媒體計(jì)算機(jī)最常用的圖像有下述三種：圖形、靜態(tài)圖像、動(dòng)態(tài)圖像（視頻）。獲得這三種圖像可用下述方法：

（1）計(jì)算機(jī)產(chǎn)生彩色圖形，靜態(tài)圖像和動(dòng)態(tài)圖像：

（2）用彩色掃描儀，掃描輸入彩色圖形和靜態(tài)圖像：

（3）用視頻信號(hào)數(shù)字化儀，將彩色全電視信號(hào)數(shù)字化后，輸入到多媒體計(jì)算機(jī)中，可獲得靜態(tài)和動(dòng)態(tài)圖像。

★視頻采集卡（視頻信號(hào)獲取器）工作原理概述如下：

視頻信號(hào)源、攝像機(jī)、錄像機(jī)或激光視盤的信號(hào)經(jīng)過(guò)A/D變換，送到多制式數(shù)字解碼器進(jìn)行解碼得到Y(jié)、U、V數(shù)據(jù)，然后由

視頻窗口控制器對(duì)其進(jìn)行剪裁，改變比例后存入幀存儲(chǔ)器.

幀存儲(chǔ)器的內(nèi)容在窗口控制器的控制下，與VGA同步信號(hào)或視頻編碼器的同步信號(hào)同步，再送到D/A變換器模擬彩色空間變換

矩陣，同時(shí)送到數(shù)字式視頻編輯器進(jìn)行視頻編碼，最后輸出到VGA監(jiān)視器及電視機(jī)或錄像機(jī)，

視頻信號(hào)獲取器的六部分:

（1）A/D變換和數(shù)字解碼（2）窗口控制器（3）幀存儲(chǔ)器系統(tǒng)

（4）數(shù)模轉(zhuǎn)換和矩陣變換（5）視頻信號(hào)和VGA信號(hào)的疊加（6）數(shù)字式多制式視頻信號(hào)編碼部分

模擬視1

常用的i

?GI

GIF格式最多只能儲(chǔ)存256色。在壓縮過(guò)程中，圖像的像素資料不會(huì)被丟失，丟失的是圖像的色彩。

主要優(yōu)點(diǎn)在于壓縮率高、單一文件容量小，并且可以產(chǎn)生動(dòng)態(tài)的效果(可以在一個(gè)文件中存放多幅彩色圖形/圖像)，支持圖像

透明度。

?TIFF(TaggedImageFileFormat)——標(biāo)記圖像文件格式，擴(kuò)展名：.TIF

支持多種壓縮方法，特殊的圖像控制函數(shù)以及許多其它特性。它是一種非失真的壓縮格式(最高也只能做到2?3倍的壓縮比)

能保持原有圖像的顏色及層次，但占用空間大。如果使用LAW無(wú)損壓縮方法來(lái)壓縮文件，能夠產(chǎn)生大約2：1的壓縮比。

故TIFF常被應(yīng)用于較專業(yè)的用途，廣泛應(yīng)用于印刷業(yè)，如書籍出版、海報(bào)等，極少應(yīng)用于互聯(lián)網(wǎng)上。

?TGA(TargeImageFormat)目標(biāo)圖像格式

結(jié)構(gòu)簡(jiǎn)單，由文件頭和文件體組成。文件頭描述圖像的屬性；文件體描述各點(diǎn)像素值。支持32位圖像，其中包括8位Alpha

通道用于顯示實(shí)況電視。

什么是alpha通道？

32位顏色深度就是在24位顏色深度上增加一個(gè)8位的灰

?BMP位圖，擴(kuò)展名：.bmp

度通道，這個(gè)灰度通道是為每個(gè)象素存儲(chǔ)透明信息的通道，我

是windows系統(tǒng)交換圖像數(shù)據(jù)的標(biāo)準(zhǔn)圖像文件存儲(chǔ)格式。

們把視頻編輯中的這個(gè)8位的灰度通道叫做Alpha通道。

在windows環(huán)境下運(yùn)行的所有圖像軟件都支持這種格式。

bmp是一種與設(shè)備無(wú)關(guān)的圖像文件格式。它采用位映射存儲(chǔ)格式，除了圖像深度可選Ibit、4bit、8bit及24bit外，不采用

其他任何壓縮，因此占用空間大。BMP文件存儲(chǔ)數(shù)據(jù)時(shí)，圖像的掃描方式是按從左到右、從下到上的順序。

?PCXPCX圖像文件格式是Zsoft公司研制開(kāi)發(fā)的，主要與商業(yè)性PC—Paintbrush圖像軟件一起使用。

?MMPMMP圖像文件格式是Ani-Video公司以及清華大學(xué)計(jì)算機(jī)系在他們?cè)O(shè)計(jì)制造的視頻信號(hào)采集板中采用的圖像文件格

式。為了使視頻數(shù)據(jù)能和電視視頻信號(hào)兼容，它的圖像數(shù)據(jù)采用YUV的形式，并以Y:U:V=8:2:2的方式存儲(chǔ)。

在編制圖像文件格式轉(zhuǎn)換程序時(shí)，主要解決的幾個(gè)問(wèn)題

(1)識(shí)別文件頭和產(chǎn)生文件頭的程序；(2)文件體的解碼和編程程序；(3)文件體的數(shù)據(jù)轉(zhuǎn)換程序。

多媒體計(jì)算機(jī)中常用的動(dòng)態(tài)圖像的文件格式

?MPG、MPEG

MPG是IS0/IEC1993年8月1日正式頒布的國(guó)際標(biāo)準(zhǔn)。

MPEGT標(biāo)準(zhǔn)包括三個(gè)部分：MPEG視頻(核心)、MPEG音頻、MPEG系統(tǒng)

MPEG數(shù)據(jù)流分六個(gè)層次

序列層、圖像組層、圖像層、片層、宏塊層、塊層

(1)序列層：規(guī)定了MPEG解碼器的運(yùn)行狀態(tài)，包含圖像的水平尺寸、垂直尺寸、長(zhǎng)寬比、幀速率和位速率等信息。

(2)圖像組層：一個(gè)MPEG圖像序列分成若干個(gè)組，每組即為一個(gè)隨機(jī)存取點(diǎn)，實(shí)現(xiàn)了圖像隨機(jī)存取，一個(gè)圖像組可以單獨(dú)解碼。

圖像組第一幀為I圖像,第一個(gè)圖像組有7幀圖像,跟著的圖像組有9幀圖像，每個(gè)圖像組必須包含一個(gè)或多個(gè)I圖像。

(3)圖像層：一幅圖像對(duì)應(yīng)一幀，四種圖像形式：I幀內(nèi)圖P預(yù)測(cè)圖B雙向預(yù)測(cè)圖D直流分量圖

I圖:信息量最多，是預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償?shù)幕A(chǔ)；P圖是經(jīng)前面的I或P運(yùn)動(dòng)補(bǔ)償后得到的，有一定的數(shù)據(jù)壓縮；B圖是由前后

的I,P圖補(bǔ)償后得到的，它的數(shù)據(jù)壓縮率最大。

(4)片層：為容錯(cuò)考慮，將一幅圖劃分若干片，每片中都存有解碼所需的信息，某一片出錯(cuò)時(shí)，可以繼續(xù)查找下一片的起始信息

繼續(xù)進(jìn)行解碼，而不會(huì)因圖像的某一部分出錯(cuò)導(dǎo)致整幅圖的損壞。

(5)宏塊層：層是一個(gè)16*16的樣本塊，它是運(yùn)動(dòng)補(bǔ)償和更換量化級(jí)的單位，宏塊由該樣本塊的4個(gè)亮度塊和2個(gè)色度塊構(gòu)成,

在其首部存放著量化級(jí)和運(yùn)動(dòng)補(bǔ)償?shù)男畔ⅰ?/p>

(6)塊層：一個(gè)塊是8*8的矩陣，它是編碼的基本單元。

圖像序列頭圖像組圖像組序列尾圖像序列層

圖像組頭(1圖久)°圖……

?AVI——AudioVideoInterleave,即音頻視頻交叉存取格式

在AVI文件中，運(yùn)動(dòng)圖像和伴音數(shù)據(jù)以交織的方式存儲(chǔ)，并獨(dú)立于硬件設(shè)備。構(gòu)成一個(gè)AVI文件的主要參數(shù)包括影像、伴音

和壓縮參數(shù)等。影像和伴音分別存儲(chǔ)，因此可以把一段視頻中的影像與另一段視頻中的伴音組合在一起。

AVI的視窗大小可按4：3的比例或隨意調(diào)整，視窗越大，數(shù)據(jù)量越大。AVI的幀率也可以調(diào)整，而且與數(shù)據(jù)量成正比。不同

的幀率會(huì)產(chǎn)生不同的畫面連續(xù)效果。

?AVS

AVS是Intel和IBM公司共同研制的數(shù)字視頻交互DVI系統(tǒng)動(dòng)態(tài)圖像文件格式，AVS必須在DVI硬件系統(tǒng)的支持下才能讀寫,

這樣系統(tǒng)的造價(jià)較高。

數(shù)字化音頻的獲取，數(shù)字化音頻模數(shù)轉(zhuǎn)換過(guò)程

采樣：聲波是連續(xù)信號(hào)，或稱連續(xù)時(shí)間函數(shù)x(t)o用計(jì)算機(jī)處理這些信號(hào)時(shí)應(yīng)先離散化，即按一定的時(shí)間間隔(T)取值，

得到x(nT)(n為整數(shù)),T稱采樣周期，1/T稱采樣頻率(每秒鐘采樣次數(shù))，x(nT)稱采樣值(或離散信號(hào))

奈奎斯特(Nyqust)采樣定理：只要采樣頻率大于或者等于信號(hào)中所包含的最高頻率的兩倍；即當(dāng)信號(hào)是最高頻率時(shí)，每

個(gè)周期至少采樣兩個(gè)點(diǎn)，則理論上就可以完全恢復(fù)原來(lái)的信號(hào)。

量化：通過(guò)采樣得到的表示聲音強(qiáng)弱的函數(shù)x(nT)是連續(xù)的，為把x(nT)存入計(jì)算機(jī)，就必須將采樣值離散化，即量化成一

個(gè)有限個(gè)幅度值的集合

編碼：音頻模擬信號(hào)經(jīng)過(guò)采樣與量化之后，為把數(shù)字化音頻存入計(jì)算機(jī)，需對(duì)其編碼，即用二進(jìn)制數(shù)表示每個(gè)采樣的量化值，

完成整個(gè)模數(shù)轉(zhuǎn)換過(guò)程。采樣頻率、采樣精度和聲道數(shù)對(duì)聲音的音質(zhì)和占用的存儲(chǔ)空間起著決定性作用，如表所示：

聲音質(zhì)量采樣頻率(KHZ)采樣精度(bit)單聲道/雙聲道存儲(chǔ)容量(Mb/min)數(shù)字化文件數(shù)據(jù)量(字節(jié)/秒)

=采樣頻率(Hz)X(量化位數(shù)(bit)/8)X

電話音質(zhì)8810.46聲道數(shù)

(注意：lkHz=1000HZ)

AM音質(zhì)11.025810.63

FM音質(zhì)22.051625.05

CD音質(zhì)44.116210.09

DAT音質(zhì)4816210.99

常用的聲音文件格式

?WAV文件microsoft公司的波形音頻文件，擴(kuò)展名：.vaf

一種最直接的表達(dá)聲音波形的數(shù)字音頻文件，主要用于自然聲音的保存與重放。存儲(chǔ)容量大。電子幻燈片PowerPoint軟

件、各種算法語(yǔ)言及多媒體平臺(tái)軟件可直接使用，適合多媒體系統(tǒng)、音樂(lè)光盤制作等。

?VOC文件Creative公司的波形音頻文件，擴(kuò)展名：.voc

聲霸卡使用的音頻文件格式。由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個(gè)標(biāo)識(shí)、版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始的指針；

數(shù)據(jù)塊分成各種類型的子塊。利用聲霸卡提供的軟件可實(shí)現(xiàn)VOC和WAV轉(zhuǎn)換。

?MIDI文件一一樂(lè)器數(shù)字接口音頻文件，擴(kuò)展名：.mid

一種計(jì)算機(jī)數(shù)字音樂(lè)接口生成的數(shù)字描述音頻文件，文件中包含音符、定時(shí)和多達(dá)16個(gè)通道的樂(lè)器定義。文件不記載聲音

本身波形數(shù)據(jù)，用數(shù)字形式記錄聲音特征，描述演奏過(guò)程中的指令，數(shù)據(jù)量小。適合應(yīng)用在對(duì)資源占用要求苛刻的場(chǎng)合，比如多媒

體光盤、游戲制作、背景音樂(lè)等。主要用于計(jì)算機(jī)聲音的重放和處理。

擴(kuò)展名為RMI的文件是Microsoft公司的MIDI文件格式，可包括圖片、標(biāo)記和文本

?MP3文件——壓縮音頻文件，擴(kuò)展名：.mp3

采用MPEG標(biāo)準(zhǔn)音頻數(shù)據(jù)壓縮編碼中層III技術(shù)壓縮之后的數(shù)字音頻文件。壓縮比高、數(shù)據(jù)量小、音質(zhì)好，壓縮比例有10:

1,17:1,甚至70:1；數(shù)據(jù)率可以是64kbps,也可以是320kbps?

?WMA文件一流式音頻文件，擴(kuò)展名：.wma

Microsoft研制的一種壓縮離散文件或流式文件，相對(duì)于MP3具有較高壓縮率和良好音質(zhì)。當(dāng)小于128kbps時(shí)最為出色且編

碼后音頻文件很??；當(dāng)大于128kbps時(shí)音質(zhì)損失過(guò)大。

?PCM文件——數(shù)字音頻文件

模擬的音頻信號(hào)經(jīng)過(guò)模數(shù)轉(zhuǎn)換（A/D轉(zhuǎn)換）直接形成的二進(jìn)制數(shù)字序列，該文件沒(méi)有附加的文件頭和文件結(jié)束標(biāo)志。音源信息

完整，但冗余度過(guò)大；音源信息保存完整，音質(zhì)好；信息量大，體積大，冗余度過(guò)大。因?yàn)槟軌蜻_(dá)到最高保真水平的就是，所以被

廣泛用于素材保存及音樂(lè)欣賞。比如AudioCD（72min/650MB）。

音頻信號(hào)可分為兩類：語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。

樂(lè)音三要素

音調(diào)：取決于聲波的基頻?；l越低聲音越低沉，反之聲音尖銳。音強(qiáng)：響度，取決于聲音波形的幅度（振幅大小）。音色：有混

入基音（基波）的泛音（諧波）所決定。

音頻信號(hào)處理的特點(diǎn)

1）音頻信號(hào)是時(shí)間領(lǐng)帶的連續(xù)媒體。因此音頻處理的時(shí)序性要求很高。

2）應(yīng)有兩個(gè)聲道，即理想的合成聲音應(yīng)是立體聲。

3）對(duì)語(yǔ)音信號(hào)的處理不僅是信號(hào)處理問(wèn)題，還要抽取語(yǔ)意等其他信息“因此可能會(huì)涉及語(yǔ)言學(xué)、社會(huì)學(xué)、聲學(xué)等。

從人與計(jì)算機(jī)交互的角度來(lái)看音頻信號(hào)相應(yīng)的處理

1）人與計(jì)算機(jī)通信（計(jì)算機(jī)接收音頻信號(hào)）：音頻獲取

2）計(jì)算機(jī)與人通信（計(jì)算機(jī)輸出音頻）：音頻合成（包括語(yǔ)音合成盒音樂(lè)合成）與聲音定位（包括立體聲模擬；音視頻同步）

3）人通過(guò)計(jì)算機(jī)與別人通信（通過(guò)網(wǎng)絡(luò)與處于異地的人通信）：語(yǔ)音采集、音頻編/解碼、音頻傳輸?shù)取?/p>

★語(yǔ)音信號(hào)的冗余度和數(shù)據(jù)壓縮技術(shù)的三個(gè)重要指標(biāo)

語(yǔ)音信號(hào)存在著多種冗余度，其最主要部分可以分別從時(shí)域和頻域來(lái)考慮。人們?cè)趯?shí)施數(shù)據(jù)壓縮時(shí)，要在音頻質(zhì)量、數(shù)據(jù)量、

計(jì)算復(fù)雜度三方面進(jìn)行綜合考慮，即數(shù)據(jù)壓縮技術(shù)的三個(gè)重要指標(biāo)。

★音頻編碼的分類

1）基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼。

其典型技術(shù)是波形編碼，目標(biāo)是使重建語(yǔ)音波形保持原形狀。特點(diǎn)：適應(yīng)性強(qiáng)，音頻質(zhì)量好，但壓縮比不大，數(shù)據(jù)率較高。

例：PCM（脈沖編碼調(diào)制,無(wú)壓縮）、DPCM（預(yù)測(cè)脈沖編碼調(diào)制）、APCM（自適應(yīng)脈沖編碼調(diào)制）、ADPCM（自適應(yīng)預(yù)測(cè)編碼）

用途：公用網(wǎng)、ISDN、配音。質(zhì)量為蟲0—4.5。

2）基于音頻的聲學(xué)參數(shù)，進(jìn)行模型參數(shù)編碼（音源編譯碼）.

目標(biāo)是是重建音頻保持原有音頻的特性。建立聲音信號(hào)的產(chǎn)生模型，將聲音信號(hào)用模型參數(shù)表示。常用的音頻參數(shù)有共振峰、

線性預(yù)測(cè)系數(shù)、濾波器組等。特點(diǎn)：數(shù)據(jù)率低，但還原信號(hào)的質(zhì)量差、自然度低。

例：LPC（線性預(yù)測(cè)編碼）

用途：保密話聲，質(zhì)量為2.5—3.5。數(shù)據(jù)率為2.4Kb/s

3）混合編譯碼

結(jié)合上兩種算法，企圖尋找一種激勵(lì)信號(hào)，這種信號(hào)激勵(lì)產(chǎn)生的波形盡可能接近原話音波形。

例：MPLPC（多脈沖線性預(yù)測(cè)編碼）

CELPC（碼激勵(lì)線性預(yù)測(cè)編碼）用途：移動(dòng)通信。數(shù)據(jù)率4.8Kb/s。

VSELP（矢量和激勵(lì)LPC）用途：語(yǔ)音郵件。數(shù)據(jù)率8Kb/s

RPE-LTP（規(guī)則脈沖激勵(lì)編碼）用途：ISDN。數(shù)據(jù)率13.2Kb/s

4）基于人的聽(tīng)覺(jué)特性進(jìn)行的感知編碼

從人的聽(tīng)覺(jué)系統(tǒng)出發(fā)，利用掩蔽效應(yīng)，涉及心理聲學(xué)模型，實(shí)現(xiàn)更高效率的數(shù)字音頻壓縮。

例：MPEG、AC-3

用途：音響，質(zhì)量5.0

算法名稱數(shù)據(jù)率曷住一應(yīng)用質(zhì)量

PCM均勻量化64kb/sG.711

U(A)u(A)

APCM

波自適應(yīng)量化

形公共網(wǎng)

DPCM差值量化

編ISDN4.0~4.5

碼ADPCM自適應(yīng)差值量化32kb/sG.721話音

64kb/sG.722

子帶一自適應(yīng)

SB-ADPCM5.3kb/s

差值量化G.723

6.3kb/s

參數(shù)編碼LPC線性預(yù)測(cè)編碼2.4kb/s保密話聲2.5?3.5

CELPC激勵(lì)碼LPC4.6kb/s移動(dòng)通信

VSELP矢量和激勵(lì)LPC8語(yǔ)kb/s語(yǔ)音郵件

混

合4.0-3.7

RPE-LTP規(guī)則脈沖激勵(lì)編碼13.2Kb/sISDN

編

碼G.728

LD-CELP低延時(shí)碼激勵(lì)LPC16Kbps

G.729

MPEG多子帶感知編碼128KbpsCD5.0

AC-3感知編碼音響5.0

★音源編譯碼音樂(lè)合成技術(shù)

產(chǎn)生MIDI樂(lè)音的方法很多，現(xiàn)在用得較多的方法有兩種：一種是頻率調(diào)制（frequencymodulation,FM）合成法，另一種是樂(lè)

音樣本合成法，也稱為波形表（Wavetable）合成法。這兩種方法目前主要用來(lái)生成音樂(lè)。

頻率調(diào)制（FM）合成法：把幾種樂(lè)音的波形用數(shù)字來(lái)表達(dá)，并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來(lái)，通過(guò)數(shù)模

轉(zhuǎn)換器（digitaltoanalogconvertor,DAC）來(lái)生成樂(lè)音。但是使用FM合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困難的，有些樂(lè)音幾

乎不能產(chǎn)生。

波形表合成法：把真實(shí)樂(lè)器發(fā)出的聲音以數(shù)字的形式記錄下來(lái)，存在ROM里，播放時(shí)改變播放速度，從而改變音調(diào)周期，生成

各種音階的音符。樂(lè)音樣本的采集相對(duì)比較直觀。較好的聲卡均使用波表合成法。PCM波表合成器。

MIDI數(shù)字樂(lè)器接口

MIDI是數(shù)字音樂(lè)接口（MusicalInstrumentDigitalInterface）的縮寫。MIDI是用來(lái)酹電子樂(lè)器相互連接，或?qū)IDI設(shè)

備與電腦連接成系統(tǒng)的一種通訊協(xié)議。通過(guò)它，各種MIDI設(shè)備都可以準(zhǔn)確傳送MIDI信息。MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的

方法，用來(lái)把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDImessages”傳輸?shù)模梢员徽J(rèn)為是告訴音樂(lè)合成器(music

synthesizer)如何演奏一小段音樂(lè)的一?種指令，而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。

同WAV文件相比，MIDI文件有以下特點(diǎn)：

1.用樂(lè)譜指令代替聲音數(shù)據(jù)

2.有效記錄和重現(xiàn)各種樂(lè)器聲音

3.占用存儲(chǔ)空間極小

4.適合樂(lè)曲創(chuàng)作和遠(yuǎn)距離傳輸

聲卡的組成與工作原理

處理音頻信號(hào)的PC插卡是聲卡(AudioCard),又稱音頻卡，聲卡處理的音頻媒體有數(shù)字化聲音(Wave)、合成音樂(lè)(MIDI)、

CD音頻。采樣頻率中，22.05kHZ是當(dāng)前音頻卡所支持的。聲卡的功能包括：

(1)音頻錄放(錄制：把聲音轉(zhuǎn)換為文件；播放：把文件還原為聲音)

(2)編輯與合成(對(duì)聲音文件進(jìn)行各種特殊處理，如倒播、加回音、靜噪音、往返放音、交換聲道等)

(3)MIDI接口和音樂(lè)合成(依賴于合成芯片)

(4)文語(yǔ)轉(zhuǎn)換與語(yǔ)音識(shí)別

(5)CD-ROM接口與游戲棒接口

★聲卡主要組成部分：數(shù)字聲音處理器、混合信號(hào)處理器、功率放大器、音樂(lè)合成器及MIDI控制器、計(jì)算機(jī)總線接口和控制器。

聲卡的發(fā)展趨勢(shì)

(1)改善聲音質(zhì)量

(2)統(tǒng)一音頻卡標(biāo)準(zhǔn)

(3)簡(jiǎn)化安裝的即插即用音頻卡

(4)三維環(huán)繞立體聲

(5)全雙工聲音處理

(6)與通信技術(shù)的結(jié)合

(7)單一芯片

多媒體數(shù)據(jù)壓縮技術(shù)的性能指標(biāo)：壓縮比(=輸入數(shù)據(jù)和輸出數(shù)據(jù)比)；壓縮和解壓的速度；恢復(fù)效果要盡可能恢復(fù)原始數(shù)據(jù)。

多媒體數(shù)據(jù)壓縮的可能性

(1)空間冗余：例：圖象中的“A”是一個(gè)規(guī)則物體。光的亮度、飽和度及顏色都一樣，因此，數(shù)據(jù)A有很大的冗余。

(2)時(shí)間冗余

(3)信息焙冗余

信息量：指從N個(gè)相等的可能事件中選出一個(gè)事件所需要的信息度量和含量。

信息嫡：指一團(tuán)數(shù)據(jù)所帶的信息量，平均信息量就是信息牖(entropy)o

(4)結(jié)構(gòu)冗余：圖象有非常強(qiáng)的紋理結(jié)構(gòu)。如草席圖結(jié)構(gòu)上存在冗余。

(5)知識(shí)冗余：圖像的理解與某些基礎(chǔ)知識(shí)有關(guān)。

例:人臉的圖像有同樣的結(jié)構(gòu)：嘴的上方有鼻子，鼻子上方有眼睛，鼻子在中線上……

(6)視覺(jué)冗余：視覺(jué)冗余是非均勻、非線性的。

(7)其他冗余：空白的非定長(zhǎng)性

預(yù)測(cè)編碼

預(yù)測(cè)編碼主要是減少數(shù)據(jù)在空間和時(shí)間上的相關(guān)性。它根據(jù)某一模型利用以往的樣本值對(duì)新樣本值進(jìn)行預(yù)測(cè)，然后將樣本的

實(shí)際值與其預(yù)測(cè)值相減得到一個(gè)誤差值，進(jìn)而對(duì)這一誤差值進(jìn)行編碼。預(yù)測(cè)編碼方法中典型的有DPCM和ADPCM方法。

差分脈沖調(diào)制(DPCM)預(yù)測(cè)：是降低每個(gè)像素所需平均比特?cái)?shù)最實(shí)用的方法。對(duì)于絕大多數(shù)圖像來(lái)說(shuō)，在局部空間和時(shí)間上

是高度相關(guān)的，因而可以在已得到像素的基礎(chǔ)上通過(guò)對(duì)當(dāng)前像素的預(yù)測(cè)來(lái)減少圖像的數(shù)據(jù)量。預(yù)測(cè)器設(shè)計(jì)是預(yù)測(cè)編碼系統(tǒng)的核心，

預(yù)測(cè)器的復(fù)雜程度與線性預(yù)測(cè)中使用以前的樣本數(shù)有關(guān)，樣本數(shù)越多，預(yù)測(cè)器越復(fù)雜。在預(yù)測(cè)編碼系統(tǒng)中，圖像質(zhì)量下降的主要原

因是①預(yù)測(cè)誤差的量化，②由圖像傳輸過(guò)程中的誤碼在接收端預(yù)測(cè)器中引起的誤碼傳播。不帶量化器的DPCM線性預(yù)測(cè)編碼，屬于

無(wú)失真編碼系統(tǒng)；帶有量化器的DPCM線性預(yù)測(cè)編碼，屬于有失真編碼系統(tǒng)。

自適應(yīng)差分脈沖調(diào)制(ADPCM)預(yù)測(cè)：自適應(yīng)技術(shù)的概念是預(yù)測(cè)器的預(yù)測(cè)系數(shù)和量化器的量化參數(shù)，能夠根據(jù)圖像的局部區(qū)

域分布特點(diǎn)自動(dòng)調(diào)整。即定期地重新計(jì)算協(xié)方差矩陣和相應(yīng)的加權(quán)因子，充分利用其統(tǒng)計(jì)特性重新調(diào)整預(yù)測(cè)參數(shù)，使預(yù)測(cè)器隨著輸

入數(shù)據(jù)的變化而變化，從而得到較為理想的輸出。自適應(yīng)預(yù)測(cè)又可分為線性自適應(yīng)預(yù)測(cè)和非線性自適應(yīng)預(yù)測(cè)兩種。實(shí)踐證明，ADPCM

編、解碼系統(tǒng)與DPCM編、解碼系統(tǒng)相比，不僅能改善恢復(fù)圖像的評(píng)測(cè)質(zhì)量和視覺(jué)效果，同時(shí)還能進(jìn)一步壓縮數(shù)據(jù)。ADPCM系統(tǒng)包

括自適應(yīng)預(yù)測(cè)，即預(yù)測(cè)系數(shù)的自適應(yīng)調(diào)整和自適應(yīng)量化，即量化器參數(shù)的自適應(yīng)調(diào)整兩部分內(nèi)容。

變換編碼

變換編碼不是直接對(duì)時(shí)域圖像信號(hào)編碼，而是首先在數(shù)據(jù)壓縮前對(duì)原始輸入數(shù)據(jù)作某種正交變換，把圖像信號(hào)映射變換到另

外一個(gè)正交相量空間，產(chǎn)生一批變換系數(shù)，然后再對(duì)這些變換系數(shù)進(jìn)行編碼處理。利用圖像塊像素值之間的相關(guān)性，把圖像變換到

一組新的基上，使得能量集中到少數(shù)幾個(gè)變換系數(shù)上，通過(guò)存儲(chǔ)這些系數(shù)達(dá)到壓縮的目的。本方法采用對(duì)整幅的原始圖像分成許多

個(gè)矩形區(qū)域子圖像獨(dú)立進(jìn)行變換。常用變換有：卡亨南一洛維變換(KLT)、離散余弦變換(DCT)、沃爾什―哈達(dá)瑪變換(WHT),離

散傅里葉變換(DFT)?其中，K-L變換是以圖像的統(tǒng)計(jì)特性為基礎(chǔ)的一種正交變換，它是消除數(shù)據(jù)相關(guān)性最有效的正交變換，但由

于計(jì)算復(fù)雜度高，實(shí)際應(yīng)用中很少使用。

統(tǒng)計(jì)編碼

1、統(tǒng)計(jì)編碼原理——信息量和信息燧

(D信息:是用不確定性的量度定義的。

(2)信息量:從N個(gè)相等可能事件中選出一個(gè)事件所需要的信息度量或含量。

Shannon信息論把一個(gè)事件(字符si)所攜帶的信息量定義為：I(si)=log2(1/p)=-log2p(bit)

其中P為事件發(fā)生(字符出現(xiàn))的概率；I(si)即隨機(jī)事件或變量X取值為si時(shí)所攜帶的信息量。

(3)焙:如果將信源所有可能事件信息量進(jìn)行平均就得到信息的炳(燧就是平均信息量)。即：

H(x)=plIl+p2I2+",+piIi=pllog2(l/pl)+,,,.+pilog2(l/pi)

例：有一幅40個(gè)像素組成的灰度圖像，灰度共有5級(jí)，分別用符號(hào)A,B,C,D,E表示，40個(gè)像素出現(xiàn)不同灰度的結(jié)果如下

表所示。如果用3個(gè)位表示5個(gè)等級(jí)的灰度值，編碼這幅圖像總共需要120位。

按照shannon的理論，這幅圖像的燔為：

H(s)=15/40*log2(40/l5)+7/40*log2(40/7)++(5/40)*Iog2(40/5)=2.196

這就是說(shuō)每個(gè)符號(hào)用2.196位表示，共需2.196*40=87.84位。壓縮比約為3/2.196=1.37:1。

2、哈夫曼編碼

Huffman編碼就是利用變字長(zhǎng)最佳編碼實(shí)現(xiàn)信源符號(hào)按概率大小順序排列。讓最頻繁出現(xiàn)的符號(hào)具有最短的編碼。Huffman編

碼的過(guò)程=生成一棵二叉樹(shù)(H樹(shù))

Huffman具體編碼步驟

(1)將符號(hào)按概率從大到小順序排列

(2)出現(xiàn)概率最小的兩個(gè)符號(hào)概率相加合成一個(gè)概率。

(3)將合成概率看成一個(gè)新組合符號(hào)概率，重復(fù)上述做法，直到最后只剩下兩個(gè)符號(hào)概率為止。

(4)反過(guò)來(lái)逐步向前編碼，每一步有兩個(gè)分支各賦予一個(gè)二進(jìn)制碼，可以對(duì)概率大的賦編碼為“0”，概率小的賦編碼為“1”。

(反之，也可以大的賦“1”，小的賦“0”)

特點(diǎn)：它屬于不對(duì)稱、無(wú)損、變碼長(zhǎng)的幅編碼。碼長(zhǎng)雖然都是可變的，卻不需要另外附加同步代碼(即在譯碼時(shí)分割符號(hào)的特

Huffman編碼的兩個(gè)問(wèn)題：

(1)沒(méi)有錯(cuò)誤保護(hù)功能一在譯碼時(shí)，如果碼串中有哪怕

僅僅是1位出現(xiàn)錯(cuò)誤，則不但這個(gè)碼本身譯錯(cuò)，而且后面的

碼都會(huì)跟著錯(cuò)。稱這種現(xiàn)象為錯(cuò)誤傳播，計(jì)算機(jī)對(duì)這種錯(cuò)誤

也無(wú)能為力，不能知道錯(cuò)誤出在哪里，更談不上去糾正它

(2)不能隨機(jī)定位——因?yàn)槭强勺冮L(zhǎng)度碼，所以很難在壓

縮文件中直接對(duì)指定音頻或圖像位置的內(nèi)容進(jìn)行譯碼，這就

需要在存儲(chǔ)代碼之前加以考慮

3、算術(shù)編碼

算術(shù)編碼方法是將被編碼的一則消息或符號(hào)串(序列)表示成0和1之間的一個(gè)間隔(Interval),即對(duì)一串符號(hào)直接編碼成

［0,1］區(qū)間上的一個(gè)浮點(diǎn)小數(shù)。符號(hào)序列越長(zhǎng)，編碼表示它的間隔越小，表示這一間隔所需的位數(shù)就越多。信源中的符號(hào)序列仍然

要根據(jù)某種模式生成概率的大小來(lái)減少間隔。

例：給消息“state_tree”編碼。初始化時(shí)，6個(gè)字符被分配的范圍(range)如下表。編碼過(guò)程如下:

字符概率范圍

_(space)0.100<0.1

a0.10.1Wr<0.2

e0.30.2Wr<0.5

r0.10.5Wr<0.6

s0.10.6<r<0.7

t0.30.7^r<1.0

初始化Staetr3e

00.60.670.6730.67510.675280.675280.67529890.675302950.675303112

_(space)

0.10.610.6730.67330.675190.675307

0.20.620.6760.67360.675280.6753340.6753031120.6753031606

0.50.650.6850.67450.675550.675302950.6753033550.6753032335

0.60.660.6880.67480.67530376

0.70.670.6910.67510.6752989

10.70.70.6760.6760.675550.6753070.6753070.675303760.675303112

算術(shù)編碼解碼過(guò)程：

(1)設(shè)編碼初始化子區(qū)間為［0,D,Qe從0算起，則Pe=bQe。隨著被編碼數(shù)據(jù)流符號(hào)的輸入，子區(qū)間逐漸縮小。

(2)新子區(qū)間的起始位置=前子區(qū)間的起始位置+當(dāng)前符號(hào)的區(qū)間左端X前子區(qū)間長(zhǎng)度；

(3)新子區(qū)間的長(zhǎng)度=前子區(qū)間的長(zhǎng)度X當(dāng)前符號(hào)的概率(等價(jià)于范圍長(zhǎng)度)；

(4)最后得到的子區(qū)間的長(zhǎng)度決定了表示該區(qū)域內(nèi)的某一個(gè)數(shù)所需的位數(shù)。

在算術(shù)編碼中需要注意的幾個(gè)問(wèn)題：

(1)由于實(shí)際計(jì)算機(jī)精度不可能無(wú)限長(zhǎng)，運(yùn)算中溢出是明顯的問(wèn)題，但多數(shù)機(jī)器都有16位、32位或者64位的精度，因此可使

用比例縮放法解決。（2）算術(shù)編碼器對(duì)消息只產(chǎn)生一個(gè)碼字，這個(gè)碼字是在［0,1］中的一個(gè)實(shí)數(shù)，因此譯碼器在接受到表示這個(gè)實(shí)

數(shù)的所有位之前不能進(jìn)行譯碼。（3）算術(shù)編碼也是一種對(duì)錯(cuò)誤很敏感的編碼方法，如果有一位發(fā)生錯(cuò)誤就會(huì)導(dǎo)致整個(gè)消息譯錯(cuò)。

算術(shù)編碼可以是靜態(tài)的或者自適應(yīng)的。在靜態(tài)算術(shù)編碼中，信源符號(hào)的概率是固定的。在自適應(yīng)算術(shù)編碼中，信源符號(hào)的概率

根據(jù)編碼時(shí)符號(hào)出現(xiàn)的頻繁程度動(dòng)態(tài)地進(jìn)行修改，在編碼期間估算信源符號(hào)概率的過(guò)程叫做建模。需要開(kāi)開(kāi)發(fā)態(tài)算術(shù)編碼的原因是

因?yàn)槭孪戎谰_的信源概率是很難的，而且是不切實(shí)際的。當(dāng)壓縮消息時(shí)，我們不能期待一個(gè)算術(shù)編碼器獲得最大的效率，所能

做的最有效的方法是在編碼過(guò)程中估算概率。因此動(dòng)態(tài)建模就成為確定編碼器壓縮效率的關(guān)鍵。

4、RLE/RLC行程編碼或游程長(zhǎng)度編碼

RLE視數(shù)字信息為無(wú)語(yǔ)義的字符序列（字節(jié)流），對(duì)相鄰重復(fù)的字符，用一個(gè)數(shù)字表示連續(xù)相同字符的數(shù)目（稱為行程長(zhǎng)度），可

達(dá)到壓縮信息的目的。如未壓縮的數(shù)據(jù)：ABCCCCCCCCDEFFGGG；RLE編碼：AB8CDEFF3G

RLE所能獲得的壓縮比有多大，這主要是取決于圖像本身的特點(diǎn)。如果圖像中具有相同顏色的圖像塊越大，圖像塊數(shù)目越少，

獲得的壓縮比就越高。譯碼時(shí)按照與編碼時(shí)采用的相同規(guī)則進(jìn)行，還原后得到的數(shù)據(jù)與壓縮前的數(shù)據(jù)完全相同，是無(wú)損壓縮技術(shù)。

RLE壓縮編碼尤其適用于計(jì)算機(jī)生成的圖像，對(duì)減少圖像文件的存儲(chǔ)空間非常有效。RLE對(duì)顏色豐富的自然圖像就顯得力不從

心。但在自然圖像的壓縮中（如JPEG）還真少不了RLE,只不過(guò)是不能單純使用RLE一種編碼方法，需要和其他的壓縮編碼技術(shù)聯(lián)

合應(yīng)用。

靜態(tài)圖像壓縮編碼的國(guó)家標(biāo)準(zhǔn)JPEG（JointPhotographicExpertsGroup聯(lián)合圖象專家組標(biāo)準(zhǔn)）

JPEG給出了一個(gè)使用于連續(xù)色調(diào)圖像的壓縮方法。JPEG主要采用了以DCT為基礎(chǔ)的有損壓縮算法。而JPEG2000則采用的是

性能更優(yōu)秀的小波變換。JPEG使用量化和無(wú)損壓縮編碼相結(jié)合來(lái)去掉視角的冗余信息和數(shù)據(jù)本身的冗余信息。JPEG屬于結(jié)合變換

編碼（DCT）與燧編碼（RLE/Huffman）的混合編碼。JPEG算法與彩色空間無(wú)關(guān)，因此它可以壓縮來(lái)自不同彩色空間的數(shù)據(jù)，如RGB,YCbCr

和CMYK?

JPEG要求圖像應(yīng)達(dá)到目的的基本要求：

達(dá)到或接近當(dāng)前壓縮比與圖像保真度的技術(shù)水平，能覆蓋?個(gè)較寬的圖像質(zhì)量等級(jí)范圍，能達(dá)到“很好”到“極好”的評(píng)估，

與原始圖像相比，人的視覺(jué)難以分辨；JPEG在使用DCT進(jìn)行有損壓縮時(shí)，壓縮比可調(diào)整在壓縮10~30倍后，圖像效果仍然不錯(cuò)。

能適用于任何種類的連續(xù)色調(diào)的圖像，且長(zhǎng)寬比都不受限制，同時(shí)也不受限于景物內(nèi)容、圖像的復(fù)雜程度和統(tǒng)計(jì)特性等。

計(jì)算的復(fù)雜性是可控制的，其軟件可在各種C

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多媒體應(yīng)用設(shè)計(jì)師備考筆記

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多媒體應(yīng)用設(shè)計(jì)師備考筆記

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔