多媒體應(yīng)用設(shè)計(jì)師備考筆記_第1頁(yè)
多媒體應(yīng)用設(shè)計(jì)師備考筆記_第2頁(yè)
多媒體應(yīng)用設(shè)計(jì)師備考筆記_第3頁(yè)
多媒體應(yīng)用設(shè)計(jì)師備考筆記_第4頁(yè)
多媒體應(yīng)用設(shè)計(jì)師備考筆記_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

專題一多媒體技術(shù)基礎(chǔ)

第一章多媒體計(jì)算機(jī)的定義和關(guān)鍵技術(shù)

媒體(Medium)在計(jì)算機(jī)領(lǐng)域中有兩種含義:

1、用以存儲(chǔ)信息的實(shí)體,如磁帶、磁盤、光盤和半導(dǎo)體存儲(chǔ)器;

2、信息的載體,如數(shù)字、文字、聲音、圖形和圖像。

多媒體技術(shù)中的媒體是指后者。

多媒體計(jì)算機(jī)技術(shù)定義

計(jì)算機(jī)綜合處理多種媒體信息(文本、圖形、圖象、音頻和視頻),使多種信息建立邏輯連接,集成為一個(gè)系統(tǒng)并具有交互性。

簡(jiǎn)單地說(shuō):計(jì)算機(jī)綜合處理聲、文、圖信息;具有集成性和交互性;

總之多媒體計(jì)算機(jī)具有信息載體多樣性、集成性和交互性。

多媒體計(jì)算機(jī)的關(guān)鍵技術(shù)(把一臺(tái)普通計(jì)算機(jī)變?yōu)槎嗝襟w計(jì)算機(jī)要解決的的關(guān)鍵技術(shù))

(1)視頻音頻信號(hào)獲取技術(shù);

(2)多媒體數(shù)據(jù)壓縮編碼和解碼技術(shù);

(3)視頻音頻數(shù)據(jù)的實(shí)時(shí)處理技術(shù)和特技:

(4)視頻音頻數(shù)據(jù)的輸出技術(shù)。

多媒體計(jì)算機(jī)的分類

家電制造廠商研制的:電視計(jì)算機(jī)一一靈巧電視SmartTV

計(jì)算機(jī)制造廠商研制的:計(jì)算機(jī)電視一一發(fā)展方向是TV-killer

在多媒體計(jì)算機(jī)發(fā)展史上卓有成效的公司和系統(tǒng)

1、Philips/Sony公司的CDT系統(tǒng)

2、Commodore公司的Amiga系統(tǒng)

3^Apple公司的HyperCard

4、Intel和IBM公司的DVI系統(tǒng)

HDTV(HighDefinitionTelevision高清晰度電視)特點(diǎn):

(1)采用國(guó)際標(biāo)準(zhǔn)的壓縮編碼算法MPEG-2。(能與多媒體計(jì)算機(jī)兼容、通信)

(2)采用打包數(shù)據(jù)結(jié)構(gòu)。(圖像、聲音、及多媒體服務(wù)附加數(shù)據(jù)以包的方式發(fā)送,包可隨即次序傳送、大小動(dòng)態(tài)分配)

(3)采用雙層傳輸技術(shù)。(重要數(shù)據(jù)放到高優(yōu)先級(jí)的載波上傳輸,其他數(shù)據(jù)放到具有標(biāo)準(zhǔn)優(yōu)先級(jí)的載波上傳輸)

常規(guī)電視數(shù)字化:

湯姆遜(Thomson)消費(fèi)電子公司通過(guò)休斯銀河(HughesGalaxy)601衛(wèi)星,開(kāi)創(chuàng)世界首次全數(shù)字直接到戶的衛(wèi)星廣播業(yè)務(wù)

(DSS-l)igitalSatel1itesSystem及DBS-DirectBroadcastService)。消費(fèi)者很容易獲得120到150個(gè)頻道最受歡迎的電視

節(jié)目。用戶端只需要購(gòu)置一個(gè)易于安裝的18英寸或常規(guī)碟形天線,一個(gè)和錄像機(jī)體積差不多的接收機(jī)/解碼器以及一個(gè)易于控制和

操作的遙控器。

交互式電視技術(shù)(ITV):

最常用的是節(jié)目間的交互,即V0D系統(tǒng)。典型的V0D系統(tǒng)主要由下述四部分組成;

(1)視頻服務(wù)器;(2)編碼器/路由器;(3)用戶請(qǐng)求計(jì)算機(jī)和記帳計(jì)算機(jī);(4)機(jī)頂盒

多媒體計(jì)算機(jī)技術(shù)在常規(guī)電視和高清晰度電視,影視節(jié)目制作中的應(yīng)用分成兩個(gè)層次:

影視畫面的制作;影視的后期制作(如非線性編輯器)。

用多媒體技術(shù)制作V-CD及影視音響卡拉0K機(jī)

多媒體數(shù)據(jù)壓縮和解壓縮技術(shù)是多媒體計(jì)算機(jī)系統(tǒng)中的關(guān)鍵技術(shù),首次將此技術(shù)應(yīng)用到VCD播放機(jī)中的是美國(guó)C-Cube公司。

VCD問(wèn)世于1993年,是多家公司聯(lián)合制定的數(shù)字電視視盤技術(shù)標(biāo)準(zhǔn)。安徽合肥萬(wàn)燕公司在世界上首先利用MPEG國(guó)際標(biāo)準(zhǔn)和CD

光盤技術(shù),研制了全功能影視音響卡拉0K機(jī)CDK-320。

VCD播放機(jī),由CD-ROM驅(qū)動(dòng)器、MPEG解壓卡及控制操作電路組成。

DVD與VCD的不同只是視頻和音頻的編碼標(biāo)準(zhǔn)不同,兩者的原理是一樣的。DVD的視頻和音頻編碼標(biāo)準(zhǔn)是MPEG-2或者AC-3而

不是MPEGT。

V-CD播放系統(tǒng)主要有下述兩種產(chǎn)品:MPEG播放卡、V-CD播放機(jī)

多媒體家庭網(wǎng)關(guān)

MHG(多媒體家庭網(wǎng)關(guān))數(shù)據(jù)流向圖MHG結(jié)構(gòu)圖

一般認(rèn)為,多媒體技術(shù)研究的興起從(1984年,美國(guó)Apple公司推出Macintosh系列機(jī))開(kāi)始

多媒體創(chuàng)作工具的分類:

基于時(shí)間的創(chuàng)作工具;

基于圖符(Icon)或流線(Line)創(chuàng)作工具;

基于卡片(Card)和頁(yè)面(Page)的創(chuàng)作工具;

以傳統(tǒng)程序語(yǔ)言為基礎(chǔ)的創(chuàng)作工具。

多媒體創(chuàng)作工具的應(yīng)用:

制作各種電子出版物、教材、參考書、地圖、醫(yī)藥衛(wèi)生、商業(yè)手冊(cè)及游戲娛樂(lè)節(jié)目。

多媒體應(yīng)用系統(tǒng)、演示系統(tǒng)或信息查詢系統(tǒng)、導(dǎo)游系統(tǒng);培訓(xùn)和教育系統(tǒng);娛樂(lè)、視頻動(dòng)畫及廣告等等。

多媒體數(shù)據(jù)庫(kù)的研究途徑:

(1)在現(xiàn)有商用數(shù)據(jù)庫(kù)管理系統(tǒng)的基礎(chǔ)上增加接口,以滿足多媒體應(yīng)用的需要;(實(shí)用,效率低)

(2)建立基于一種或幾種應(yīng)用的專用多媒體信息管理系統(tǒng);(易實(shí)現(xiàn),缺乏通用性,可擴(kuò)展性差)

(3)從數(shù)據(jù)模型入手,研究全新的通用多媒體數(shù)據(jù)庫(kù)管理系統(tǒng)(研究和發(fā)展的主流,難度較大)

多媒體數(shù)據(jù)庫(kù)要解決的關(guān)鍵技術(shù)問(wèn)題:

(1)多媒體數(shù)據(jù)模型:采用面向?qū)ο蟮姆椒枋龊徒⒍嗝襟w數(shù)據(jù)模型是較好的方法。(2)數(shù)據(jù)的壓縮和解壓縮

(3)多媒體數(shù)據(jù)的存貯管理和存取方法(4)多媒體信息的再現(xiàn)及良好的用戶界面(5)分布式技術(shù)

多媒體數(shù)據(jù)存儲(chǔ)的問(wèn)題:巨大的數(shù)據(jù)量、存儲(chǔ)技術(shù)、多媒體對(duì)象存儲(chǔ)、多媒體文檔檢索。

多媒體數(shù)據(jù)庫(kù)基于內(nèi)容的檢索:目標(biāo)標(biāo)識(shí),特征提取,數(shù)據(jù)庫(kù)查詢接口,檢索引擎,索引/過(guò)濾器

多媒體通信分類:

(1)對(duì)稱的全雙工的多媒體通訊。如分布式多媒體信息系統(tǒng)、視頻會(huì)議系統(tǒng)及計(jì)算機(jī)支持的協(xié)同工作系統(tǒng);

(2)非對(duì)稱全雙工的多媒體通訊系統(tǒng)。如交互式電視系統(tǒng)(ITV)、點(diǎn)播電視系統(tǒng)(VOD)

多媒體通信的關(guān)鍵技術(shù):(1)多媒體數(shù)據(jù)壓縮。(2)高速數(shù)據(jù)通訊問(wèn)題。尤其是視頻會(huì)議系統(tǒng)要解決視頻會(huì)議系統(tǒng)的國(guó)際標(biāo)準(zhǔn)問(wèn)題。

視頻會(huì)議系統(tǒng)可分為兩類:

(1)點(diǎn)對(duì)點(diǎn)視頻會(huì)議系統(tǒng):如可視電話、臺(tái)式機(jī)一臺(tái)式機(jī)視頻會(huì)議(桌面視頻會(huì)議系統(tǒng))、會(huì)議室一會(huì)議室視頻會(huì)議

(2)多點(diǎn)視頻會(huì)議系統(tǒng):如三個(gè)或三個(gè)以上不同地點(diǎn)的參加者一起參加討論。多點(diǎn)會(huì)議系統(tǒng)的關(guān)鍵技術(shù)是:多點(diǎn)控制器(MCU),

它能自動(dòng)的交換數(shù)據(jù)。

視頻會(huì)議系統(tǒng)的結(jié)構(gòu):視頻會(huì)議終端、多點(diǎn)控制器、信道(網(wǎng)絡(luò))、控制管理軟件。

MCU——多點(diǎn)控制單元/多點(diǎn)控制器

MCU是視頻會(huì)議系統(tǒng)的關(guān)鍵設(shè)備,它的主要功能是對(duì)視頻、語(yǔ)音及數(shù)據(jù)信號(hào)進(jìn)行切換。例如它會(huì)將傳送到MCU某會(huì)場(chǎng)的場(chǎng)景圖

像信號(hào)切換到所有會(huì)場(chǎng),對(duì)于語(yǔ)音信號(hào),若同時(shí)有幾個(gè)發(fā)言,可以對(duì)他們進(jìn)行混合處理,選出最高的音頻信號(hào)切換到其它會(huì)場(chǎng)。

MCU的主要組成部分:網(wǎng)絡(luò)接口單元、呼叫控制單元、多路復(fù)用和解復(fù)用單元、音頻處理器、視頻處理器、數(shù)據(jù)處理器、控制

處理器、密鑰處理分發(fā)器、呼叫控制處理器。

多媒體計(jì)算機(jī)的發(fā)展趨勢(shì)

(1)進(jìn)一步完善計(jì)算機(jī)支持的協(xié)同工作環(huán)境CSCW(ComputerSupportedCollaborativeWork)

(2)智能多媒體技術(shù)

(3)把多媒體信息實(shí)時(shí)處理和壓縮編碼算法作到CPU芯片中。(集成原則:壓縮算法采用國(guó)際標(biāo)準(zhǔn)設(shè)計(jì);多媒體功能的單獨(dú)解

決變成集中解決;體系結(jié)構(gòu)設(shè)計(jì)和算法相結(jié)合。)

總之,多媒體計(jì)算機(jī)將朝著高分辨率、提高顯示質(zhì)量、高速化、簡(jiǎn)單化、智能化方向發(fā)展。

第二章多媒體信息處理技術(shù)

采樣、量化、數(shù)字化、數(shù)字圖像

多媒體計(jì)算機(jī)處理圖像和視頻,首先必須把連續(xù)的圖像函數(shù)f(x,y)進(jìn)行空間和幅值的離散化處理:

采樣:空間連續(xù)坐標(biāo)(X,y)的離散化

量化:f(x,y)顏色的離散化

數(shù)字化:兩種離散化結(jié)合在一起,叫做數(shù)字化。離散化的結(jié)果稱為數(shù)字圖像。

x,y的離散化稱為采樣

f(x,y)的離散化稱為量化

采樣

對(duì)連續(xù)圖像彩色函數(shù)f(x,y),沿x方向以等間隔Ax采樣,采樣點(diǎn)數(shù)為N,沿y方向以等間隔Ay采樣,采樣點(diǎn)數(shù)為N,于

是得到一個(gè)NXN的離散樣本陣列

[f(m,n)]NXN。

為了達(dá)到由離散樣本陣列以最小失真重建原圖的目的,采樣密度必須滿足香農(nóng)采樣定理采樣密度:與Ay)

采樣定理:采樣間隔與f(x,y)頻帶之間,頻帶愈窄,相應(yīng)的采樣頻率可以降低,采樣頻率是圖像變化頻率二倍時(shí),就能保證

由離散圖像數(shù)據(jù)無(wú)失真地重建原圖。

顏色的基本概念

彩色可用亮度、色調(diào)和飽和度來(lái)描述,人眼看到任一彩色光都是這三個(gè)特性的綜合效果。

亮度:光作用于人眼時(shí)所引起的明亮程度的感覺(jué),它與被觀察物體的發(fā)光強(qiáng)度有關(guān)。(光的強(qiáng)和弱)

色調(diào):當(dāng)人眼看一種或多種波長(zhǎng)的光時(shí)所產(chǎn)生的彩色感覺(jué),它反映顏色的種類,是決定顏色的基本特性。

飽和度:指顏色的純度,即摻入白光的程度(指顏色的深淺程度,對(duì)于同一色調(diào)彩色光,飽和度越深顏色越鮮明或者說(shuō)越純)。

紅色+白光>粉紅色>飽和度下降

紅色+綠色>黃色>色調(diào)發(fā)生變化

色度:色調(diào)和飽和度通稱為色度。

亮度表示某彩色光的明亮程度,而色度則表示顏色的類別與深淺程度。

三基色原理

三基色原理:自然界常見(jiàn)的各種顏色光,都可由紅(R)、綠(G)、藍(lán)(B)三種顏色光按不同比例相配而成,同樣絕

大多數(shù)顏色也可以分解成紅、綠、藍(lán)三種色光。

三基色的選擇不是唯一的,三種顏色必須是相互獨(dú)立的,即任何?種顏色都不能由其他兩種顏色合成。

相加混色:把三種基色光按不同比例相加稱之為相加混色。

常用亮度公式:(Y表示白光的亮度)

NTSC電視制式:Y=0.3R+0.59G+0.11B;

PAL電視制式:Y=0.222R+0.707G+0.071B

注:如果把單色光亮度定為100,則主觀感覺(jué)是綠光僅次白光,是三基色中最亮的,紅光次之,亮度約占綠光的一半,藍(lán)光最

弱,亮度約占紅光的1/3。注意0.3+0.59+0.11=1.0三原色的系數(shù)之所以不同是因?yàn)槿说难鄱脤?duì)不同波長(zhǎng)的顏色有著不同的敏感度。

RGB彩色空間

當(dāng)三基色按不同強(qiáng)度相加時(shí),可得到任何一種顏色。在RGB彩色空間,某一種顏色和這三種顏色之間的關(guān)系可用下面的式子來(lái)

描述:F(顏色)=r[R]+g[G]+b[B](r+g+b=l)

其中r、g、b為三色系數(shù)。r[R]、g[G]、b[B]為F色光的三色分量。當(dāng)三基色等量相加時(shí),得到白色。

不管多媒體系統(tǒng)采用何種色彩空間,最后監(jiān)視器輸出一定要轉(zhuǎn)換成RGB色彩空間。

RGB和黑白電視信號(hào)不兼容。

YUV彩色空間

攝像機(jī)把攝得的彩色圖像信號(hào),經(jīng)分色棱鏡分成RGB。三個(gè)分量的信號(hào),分別經(jīng)放大和丫校正得到RGB,再經(jīng)過(guò)矩陣變換電路

得到亮度信號(hào)Y、色差信號(hào)R-Y和B-Y。

Y=0.3R+0.59G+0.UB~Y~■0.30.59o.ii-R

U=m(B-Y)=0.493(B-Y)U=-0.15-0.290.44G圖像子采樣

V=n(R-Y)=0.877(R-Y)V0.61-0.52-0.096B對(duì)圖像進(jìn)行采樣時(shí),如果對(duì)色差信號(hào)

優(yōu)點(diǎn):使用的采樣頻率比對(duì)亮度信號(hào)使用的采樣

1)亮度信號(hào)Y解決了彩色電視和黑白電視的兼容問(wèn)題。頻率低,這種采樣就稱為圖像子采樣

2)可以利用人眼的特性來(lái)降低數(shù)字彩色圖像所需要的存儲(chǔ)容量。(subsampling)o

YUV彩色空間,數(shù)字化后通常的比例為:Y:U:V=8:4:4Y:U:V=8:2:2

YIQ彩色空間

亮度:Y色差:I、Q

I軸:表示人眼最敏感的色軸

(123度的橙色及其相反方向的303度的青色,人眼對(duì)其具有最大的彩色分期

Q軸:表示人眼最不敏感的色軸

/=Teos330-ysin33°

優(yōu)點(diǎn):

人眼分辨紅、黃之間顏色變化的能力最強(qiáng),而分2=Psin330+Ucos33°

辨藍(lán)與紫之間顏色變化的能力最弱。在傳送分辨

力弱的信號(hào)時(shí),可以用較窄的頻帶,而傳送分辨

力較強(qiáng)的信號(hào)時(shí),可以用較寬的頻帶。

Y0.30.590.11R

I-0.6-0.28-032G

Q0.21-0.52031B

電視廣播制式

世界上主要使用的電視廣播制式有PAL、NTSC,SECAM三種,中國(guó)大部分地區(qū)使用PAL制式,日本、韓國(guó)及東南亞地區(qū)與美國(guó)

等歐美國(guó)家使用NTSC制式,俄羅斯則使用SECAM制式。PAL制式(.正交平衡調(diào)幅逐行倒相制):采用YUV彩色空間;25幀/秒。

NTSC制式(正交平衡調(diào)幅制):采用YIQ彩色空間。30幀/秒。SECA"制(行輪換調(diào)頻制)25幀/秒。

HSI彩色空間

H(hue)色調(diào);S(saturation)飽和度;I(Intensity)光的強(qiáng)度

優(yōu)點(diǎn):亮度分量與圖像的色彩信息無(wú)關(guān);能夠減少彩色圖像處理的復(fù)雜性,它更接近人對(duì)彩色的認(rèn)識(shí)和解釋。廣泛用于計(jì)算

機(jī)視覺(jué)、圖像檢索和視頻檢索。rR+G+B

13

HSI彩色空間與RGB彩色空間之間的轉(zhuǎn)換:

H=+l90-arctan(F</5)+{0,G>B:180,G<B}]

其中

?2R-G-B

F=G-B

★全電視信號(hào)

電視攝像機(jī)把一幅圖像信號(hào)轉(zhuǎn)變成的輸出信號(hào)就是全電視信號(hào)。

光柵掃描

二維信號(hào)一維信號(hào)

(掃描方式:隔行掃描逐行掃描;隔行掃描:奇數(shù)場(chǎng)+偶數(shù)場(chǎng)=1幀:每一行有正程和逆程。)

黑白全電視信號(hào)=圖像信號(hào)(視頻信號(hào))+復(fù)合消隱信號(hào)(行消隱、場(chǎng)消隱)+復(fù)合同步信號(hào)(行同步、場(chǎng)同步)

彩色全電視信號(hào)=色度信號(hào)+亮度信號(hào)+復(fù)合同步信號(hào)+復(fù)合消隱信號(hào)

在現(xiàn)代彩色電視系統(tǒng)中,通常采用YUV彩色空間或YIQ彩色空間,Y為亮度信號(hào),它可以與黑白全電視信號(hào)兼容,U和V用載

波頻率3sc調(diào)制加到亮度Y上,最后形成彩色全電視信號(hào),如下式所示:

CVBS=Y+F

F=Vcos<*>sct+Usinset(壓縮后的色度信號(hào))

多媒體計(jì)算機(jī)常用的三種圖像及其獲取方式

多媒體計(jì)算機(jī)最常用的圖像有下述三種:圖形、靜態(tài)圖像、動(dòng)態(tài)圖像(視頻)。獲得這三種圖像可用下述方法:

(1)計(jì)算機(jī)產(chǎn)生彩色圖形,靜態(tài)圖像和動(dòng)態(tài)圖像:

(2)用彩色掃描儀,掃描輸入彩色圖形和靜態(tài)圖像:

(3)用視頻信號(hào)數(shù)字化儀,將彩色全電視信號(hào)數(shù)字化后,輸入到多媒體計(jì)算機(jī)中,可獲得靜態(tài)和動(dòng)態(tài)圖像。

★視頻采集卡(視頻信號(hào)獲取器)工作原理概述如下:

視頻信號(hào)源、攝像機(jī)、錄像機(jī)或激光視盤的信號(hào)經(jīng)過(guò)A/D變換,送到多制式數(shù)字解碼器進(jìn)行解碼得到Y(jié)、U、V數(shù)據(jù),然后由

視頻窗口控制器對(duì)其進(jìn)行剪裁,改變比例后存入幀存儲(chǔ)器.

幀存儲(chǔ)器的內(nèi)容在窗口控制器的控制下,與VGA同步信號(hào)或視頻編碼器的同步信號(hào)同步,再送到D/A變換器模擬彩色空間變換

矩陣,同時(shí)送到數(shù)字式視頻編輯器進(jìn)行視頻編碼,最后輸出到VGA監(jiān)視器及電視機(jī)或錄像機(jī),

視頻信號(hào)獲取器的六部分:

(1)A/D變換和數(shù)字解碼(2)窗口控制器(3)幀存儲(chǔ)器系統(tǒng)

(4)數(shù)模轉(zhuǎn)換和矩陣變換(5)視頻信號(hào)和VGA信號(hào)的疊加(6)數(shù)字式多制式視頻信號(hào)編碼部分

模擬視1

常用的i

?GI

GIF格式最多只能儲(chǔ)存256色。在壓縮過(guò)程中,圖像的像素資料不會(huì)被丟失,丟失的是圖像的色彩。

主要優(yōu)點(diǎn)在于壓縮率高、單一文件容量小,并且可以產(chǎn)生動(dòng)態(tài)的效果(可以在一個(gè)文件中存放多幅彩色圖形/圖像),支持圖像

透明度。

?TIFF(TaggedImageFileFormat)——標(biāo)記圖像文件格式,擴(kuò)展名:.TIF

支持多種壓縮方法,特殊的圖像控制函數(shù)以及許多其它特性。它是一種非失真的壓縮格式(最高也只能做到2?3倍的壓縮比)

能保持原有圖像的顏色及層次,但占用空間大。如果使用LAW無(wú)損壓縮方法來(lái)壓縮文件,能夠產(chǎn)生大約2:1的壓縮比。

故TIFF常被應(yīng)用于較專業(yè)的用途,廣泛應(yīng)用于印刷業(yè),如書籍出版、海報(bào)等,極少應(yīng)用于互聯(lián)網(wǎng)上。

?TGA(TargeImageFormat)目標(biāo)圖像格式

結(jié)構(gòu)簡(jiǎn)單,由文件頭和文件體組成。文件頭描述圖像的屬性;文件體描述各點(diǎn)像素值。支持32位圖像,其中包括8位Alpha

通道用于顯示實(shí)況電視。

什么是alpha通道?

32位顏色深度就是在24位顏色深度上增加一個(gè)8位的灰

?BMP位圖,擴(kuò)展名:.bmp

度通道,這個(gè)灰度通道是為每個(gè)象素存儲(chǔ)透明信息的通道,我

是windows系統(tǒng)交換圖像數(shù)據(jù)的標(biāo)準(zhǔn)圖像文件存儲(chǔ)格式。

們把視頻編輯中的這個(gè)8位的灰度通道叫做Alpha通道。

在windows環(huán)境下運(yùn)行的所有圖像軟件都支持這種格式。

bmp是一種與設(shè)備無(wú)關(guān)的圖像文件格式。它采用位映射存儲(chǔ)格式,除了圖像深度可選Ibit、4bit、8bit及24bit外,不采用

其他任何壓縮,因此占用空間大。BMP文件存儲(chǔ)數(shù)據(jù)時(shí),圖像的掃描方式是按從左到右、從下到上的順序。

?PCXPCX圖像文件格式是Zsoft公司研制開(kāi)發(fā)的,主要與商業(yè)性PC—Paintbrush圖像軟件一起使用。

?MMPMMP圖像文件格式是Ani-Video公司以及清華大學(xué)計(jì)算機(jī)系在他們?cè)O(shè)計(jì)制造的視頻信號(hào)采集板中采用的圖像文件格

式。為了使視頻數(shù)據(jù)能和電視視頻信號(hào)兼容,它的圖像數(shù)據(jù)采用YUV的形式,并以Y:U:V=8:2:2的方式存儲(chǔ)。

在編制圖像文件格式轉(zhuǎn)換程序時(shí),主要解決的幾個(gè)問(wèn)題

(1)識(shí)別文件頭和產(chǎn)生文件頭的程序;(2)文件體的解碼和編程程序;(3)文件體的數(shù)據(jù)轉(zhuǎn)換程序。

多媒體計(jì)算機(jī)中常用的動(dòng)態(tài)圖像的文件格式

?MPG、MPEG

MPG是IS0/IEC1993年8月1日正式頒布的國(guó)際標(biāo)準(zhǔn)。

MPEGT標(biāo)準(zhǔn)包括三個(gè)部分:MPEG視頻(核心)、MPEG音頻、MPEG系統(tǒng)

MPEG數(shù)據(jù)流分六個(gè)層次

序列層、圖像組層、圖像層、片層、宏塊層、塊層

(1)序列層:規(guī)定了MPEG解碼器的運(yùn)行狀態(tài),包含圖像的水平尺寸、垂直尺寸、長(zhǎng)寬比、幀速率和位速率等信息。

(2)圖像組層:一個(gè)MPEG圖像序列分成若干個(gè)組,每組即為一個(gè)隨機(jī)存取點(diǎn),實(shí)現(xiàn)了圖像隨機(jī)存取,一個(gè)圖像組可以單獨(dú)解碼。

圖像組第一幀為I圖像,第一個(gè)圖像組有7幀圖像,跟著的圖像組有9幀圖像,每個(gè)圖像組必須包含一個(gè)或多個(gè)I圖像。

(3)圖像層:一幅圖像對(duì)應(yīng)一幀,四種圖像形式:I幀內(nèi)圖P預(yù)測(cè)圖B雙向預(yù)測(cè)圖D直流分量圖

I圖:信息量最多,是預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償?shù)幕A(chǔ);P圖是經(jīng)前面的I或P運(yùn)動(dòng)補(bǔ)償后得到的,有一定的數(shù)據(jù)壓縮;B圖是由前后

的I,P圖補(bǔ)償后得到的,它的數(shù)據(jù)壓縮率最大。

(4)片層:為容錯(cuò)考慮,將一幅圖劃分若干片,每片中都存有解碼所需的信息,某一片出錯(cuò)時(shí),可以繼續(xù)查找下一片的起始信息

繼續(xù)進(jìn)行解碼,而不會(huì)因圖像的某一部分出錯(cuò)導(dǎo)致整幅圖的損壞。

(5)宏塊層:層是一個(gè)16*16的樣本塊,它是運(yùn)動(dòng)補(bǔ)償和更換量化級(jí)的單位,宏塊由該樣本塊的4個(gè)亮度塊和2個(gè)色度塊構(gòu)成,

在其首部存放著量化級(jí)和運(yùn)動(dòng)補(bǔ)償?shù)男畔ⅰ?/p>

(6)塊層:一個(gè)塊是8*8的矩陣,它是編碼的基本單元。

圖像序列頭圖像組圖像組序列尾圖像序列層

圖像組頭(1圖久)°圖……

?AVI——AudioVideoInterleave,即音頻視頻交叉存取格式

在AVI文件中,運(yùn)動(dòng)圖像和伴音數(shù)據(jù)以交織的方式存儲(chǔ),并獨(dú)立于硬件設(shè)備。構(gòu)成一個(gè)AVI文件的主要參數(shù)包括影像、伴音

和壓縮參數(shù)等。影像和伴音分別存儲(chǔ),因此可以把一段視頻中的影像與另一段視頻中的伴音組合在一起。

AVI的視窗大小可按4:3的比例或隨意調(diào)整,視窗越大,數(shù)據(jù)量越大。AVI的幀率也可以調(diào)整,而且與數(shù)據(jù)量成正比。不同

的幀率會(huì)產(chǎn)生不同的畫面連續(xù)效果。

?AVS

AVS是Intel和IBM公司共同研制的數(shù)字視頻交互DVI系統(tǒng)動(dòng)態(tài)圖像文件格式,AVS必須在DVI硬件系統(tǒng)的支持下才能讀寫,

這樣系統(tǒng)的造價(jià)較高。

數(shù)字化音頻的獲取,數(shù)字化音頻模數(shù)轉(zhuǎn)換過(guò)程

采樣:聲波是連續(xù)信號(hào),或稱連續(xù)時(shí)間函數(shù)x(t)o用計(jì)算機(jī)處理這些信號(hào)時(shí)應(yīng)先離散化,即按一定的時(shí)間間隔(T)取值,

得到x(nT)(n為整數(shù)),T稱采樣周期,1/T稱采樣頻率(每秒鐘采樣次數(shù)),x(nT)稱采樣值(或離散信號(hào))

奈奎斯特(Nyqust)采樣定理:只要采樣頻率大于或者等于信號(hào)中所包含的最高頻率的兩倍;即當(dāng)信號(hào)是最高頻率時(shí),每

個(gè)周期至少采樣兩個(gè)點(diǎn),則理論上就可以完全恢復(fù)原來(lái)的信號(hào)。

量化:通過(guò)采樣得到的表示聲音強(qiáng)弱的函數(shù)x(nT)是連續(xù)的,為把x(nT)存入計(jì)算機(jī),就必須將采樣值離散化,即量化成一

個(gè)有限個(gè)幅度值的集合

編碼:音頻模擬信號(hào)經(jīng)過(guò)采樣與量化之后,為把數(shù)字化音頻存入計(jì)算機(jī),需對(duì)其編碼,即用二進(jìn)制數(shù)表示每個(gè)采樣的量化值,

完成整個(gè)模數(shù)轉(zhuǎn)換過(guò)程。采樣頻率、采樣精度和聲道數(shù)對(duì)聲音的音質(zhì)和占用的存儲(chǔ)空間起著決定性作用,如表所示:

聲音質(zhì)量采樣頻率(KHZ)采樣精度(bit)單聲道/雙聲道存儲(chǔ)容量(Mb/min)數(shù)字化文件數(shù)據(jù)量(字節(jié)/秒)

=采樣頻率(Hz)X(量化位數(shù)(bit)/8)X

電話音質(zhì)8810.46聲道數(shù)

(注意:lkHz=1000HZ)

AM音質(zhì)11.025810.63

FM音質(zhì)22.051625.05

CD音質(zhì)44.116210.09

DAT音質(zhì)4816210.99

常用的聲音文件格式

?WAV文件microsoft公司的波形音頻文件,擴(kuò)展名:.vaf

一種最直接的表達(dá)聲音波形的數(shù)字音頻文件,主要用于自然聲音的保存與重放。存儲(chǔ)容量大。電子幻燈片PowerPoint軟

件、各種算法語(yǔ)言及多媒體平臺(tái)軟件可直接使用,適合多媒體系統(tǒng)、音樂(lè)光盤制作等。

?VOC文件Creative公司的波形音頻文件,擴(kuò)展名:.voc

聲霸卡使用的音頻文件格式。由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個(gè)標(biāo)識(shí)、版本號(hào)和一個(gè)指向數(shù)據(jù)塊起始的指針;

數(shù)據(jù)塊分成各種類型的子塊。利用聲霸卡提供的軟件可實(shí)現(xiàn)VOC和WAV轉(zhuǎn)換。

?MIDI文件一一樂(lè)器數(shù)字接口音頻文件,擴(kuò)展名:.mid

一種計(jì)算機(jī)數(shù)字音樂(lè)接口生成的數(shù)字描述音頻文件,文件中包含音符、定時(shí)和多達(dá)16個(gè)通道的樂(lè)器定義。文件不記載聲音

本身波形數(shù)據(jù),用數(shù)字形式記錄聲音特征,描述演奏過(guò)程中的指令,數(shù)據(jù)量小。適合應(yīng)用在對(duì)資源占用要求苛刻的場(chǎng)合,比如多媒

體光盤、游戲制作、背景音樂(lè)等。主要用于計(jì)算機(jī)聲音的重放和處理。

擴(kuò)展名為RMI的文件是Microsoft公司的MIDI文件格式,可包括圖片、標(biāo)記和文本

?MP3文件——壓縮音頻文件,擴(kuò)展名:.mp3

采用MPEG標(biāo)準(zhǔn)音頻數(shù)據(jù)壓縮編碼中層III技術(shù)壓縮之后的數(shù)字音頻文件。壓縮比高、數(shù)據(jù)量小、音質(zhì)好,壓縮比例有10:

1,17:1,甚至70:1;數(shù)據(jù)率可以是64kbps,也可以是320kbps?

?WMA文件一流式音頻文件,擴(kuò)展名:.wma

Microsoft研制的一種壓縮離散文件或流式文件,相對(duì)于MP3具有較高壓縮率和良好音質(zhì)。當(dāng)小于128kbps時(shí)最為出色且編

碼后音頻文件很??;當(dāng)大于128kbps時(shí)音質(zhì)損失過(guò)大。

?PCM文件——數(shù)字音頻文件

模擬的音頻信號(hào)經(jīng)過(guò)模數(shù)轉(zhuǎn)換(A/D轉(zhuǎn)換)直接形成的二進(jìn)制數(shù)字序列,該文件沒(méi)有附加的文件頭和文件結(jié)束標(biāo)志。音源信息

完整,但冗余度過(guò)大;音源信息保存完整,音質(zhì)好;信息量大,體積大,冗余度過(guò)大。因?yàn)槟軌蜻_(dá)到最高保真水平的就是,所以被

廣泛用于素材保存及音樂(lè)欣賞。比如AudioCD(72min/650MB)。

音頻信號(hào)可分為兩類:語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。

樂(lè)音三要素

音調(diào):取決于聲波的基頻?;l越低聲音越低沉,反之聲音尖銳。音強(qiáng):響度,取決于聲音波形的幅度(振幅大小)。音色:有混

入基音(基波)的泛音(諧波)所決定。

音頻信號(hào)處理的特點(diǎn)

1)音頻信號(hào)是時(shí)間領(lǐng)帶的連續(xù)媒體。因此音頻處理的時(shí)序性要求很高。

2)應(yīng)有兩個(gè)聲道,即理想的合成聲音應(yīng)是立體聲。

3)對(duì)語(yǔ)音信號(hào)的處理不僅是信號(hào)處理問(wèn)題,還要抽取語(yǔ)意等其他信息“因此可能會(huì)涉及語(yǔ)言學(xué)、社會(huì)學(xué)、聲學(xué)等。

從人與計(jì)算機(jī)交互的角度來(lái)看音頻信號(hào)相應(yīng)的處理

1)人與計(jì)算機(jī)通信(計(jì)算機(jī)接收音頻信號(hào)):音頻獲取

2)計(jì)算機(jī)與人通信(計(jì)算機(jī)輸出音頻):音頻合成(包括語(yǔ)音合成盒音樂(lè)合成)與聲音定位(包括立體聲模擬;音視頻同步)

3)人通過(guò)計(jì)算機(jī)與別人通信(通過(guò)網(wǎng)絡(luò)與處于異地的人通信):語(yǔ)音采集、音頻編/解碼、音頻傳輸?shù)取?/p>

★語(yǔ)音信號(hào)的冗余度和數(shù)據(jù)壓縮技術(shù)的三個(gè)重要指標(biāo)

語(yǔ)音信號(hào)存在著多種冗余度,其最主要部分可以分別從時(shí)域和頻域來(lái)考慮。人們?cè)趯?shí)施數(shù)據(jù)壓縮時(shí),要在音頻質(zhì)量、數(shù)據(jù)量、

計(jì)算復(fù)雜度三方面進(jìn)行綜合考慮,即數(shù)據(jù)壓縮技術(shù)的三個(gè)重要指標(biāo)。

★音頻編碼的分類

1)基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼。

其典型技術(shù)是波形編碼,目標(biāo)是使重建語(yǔ)音波形保持原形狀。特點(diǎn):適應(yīng)性強(qiáng),音頻質(zhì)量好,但壓縮比不大,數(shù)據(jù)率較高。

例:PCM(脈沖編碼調(diào)制,無(wú)壓縮)、DPCM(預(yù)測(cè)脈沖編碼調(diào)制)、APCM(自適應(yīng)脈沖編碼調(diào)制)、ADPCM(自適應(yīng)預(yù)測(cè)編碼)

用途:公用網(wǎng)、ISDN、配音。質(zhì)量為蟲0—4.5。

2)基于音頻的聲學(xué)參數(shù),進(jìn)行模型參數(shù)編碼(音源編譯碼).

目標(biāo)是是重建音頻保持原有音頻的特性。建立聲音信號(hào)的產(chǎn)生模型,將聲音信號(hào)用模型參數(shù)表示。常用的音頻參數(shù)有共振峰、

線性預(yù)測(cè)系數(shù)、濾波器組等。特點(diǎn):數(shù)據(jù)率低,但還原信號(hào)的質(zhì)量差、自然度低。

例:LPC(線性預(yù)測(cè)編碼)

用途:保密話聲,質(zhì)量為2.5—3.5。數(shù)據(jù)率為2.4Kb/s

3)混合編譯碼

結(jié)合上兩種算法,企圖尋找一種激勵(lì)信號(hào),這種信號(hào)激勵(lì)產(chǎn)生的波形盡可能接近原話音波形。

例:MPLPC(多脈沖線性預(yù)測(cè)編碼)

CELPC(碼激勵(lì)線性預(yù)測(cè)編碼)用途:移動(dòng)通信。數(shù)據(jù)率4.8Kb/s。

VSELP(矢量和激勵(lì)LPC)用途:語(yǔ)音郵件。數(shù)據(jù)率8Kb/s

RPE-LTP(規(guī)則脈沖激勵(lì)編碼)用途:ISDN。數(shù)據(jù)率13.2Kb/s

4)基于人的聽(tīng)覺(jué)特性進(jìn)行的感知編碼

從人的聽(tīng)覺(jué)系統(tǒng)出發(fā),利用掩蔽效應(yīng),涉及心理聲學(xué)模型,實(shí)現(xiàn)更高效率的數(shù)字音頻壓縮。

例:MPEG、AC-3

用途:音響,質(zhì)量5.0

算法名稱數(shù)據(jù)率曷住一應(yīng)用質(zhì)量

PCM均勻量化64kb/sG.711

U(A)u(A)

APCM

波自適應(yīng)量化

形公共網(wǎng)

DPCM差值量化

編ISDN4.0~4.5

碼ADPCM自適應(yīng)差值量化32kb/sG.721話音

64kb/sG.722

子帶一自適應(yīng)

SB-ADPCM5.3kb/s

差值量化G.723

6.3kb/s

參數(shù)編碼LPC線性預(yù)測(cè)編碼2.4kb/s保密話聲2.5?3.5

CELPC激勵(lì)碼LPC4.6kb/s移動(dòng)通信

VSELP矢量和激勵(lì)LPC8語(yǔ)kb/s語(yǔ)音郵件

合4.0-3.7

RPE-LTP規(guī)則脈沖激勵(lì)編碼13.2Kb/sISDN

碼G.728

LD-CELP低延時(shí)碼激勵(lì)LPC16Kbps

G.729

MPEG多子帶感知編碼128KbpsCD5.0

AC-3感知編碼音響5.0

★音源編譯碼音樂(lè)合成技術(shù)

產(chǎn)生MIDI樂(lè)音的方法很多,現(xiàn)在用得較多的方法有兩種:一種是頻率調(diào)制(frequencymodulation,FM)合成法,另一種是樂(lè)

音樣本合成法,也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來(lái)生成音樂(lè)。

頻率調(diào)制(FM)合成法:把幾種樂(lè)音的波形用數(shù)字來(lái)表達(dá),并且用數(shù)字計(jì)算機(jī)而不是用模擬電子器件把它們組合起來(lái),通過(guò)數(shù)模

轉(zhuǎn)換器(digitaltoanalogconvertor,DAC)來(lái)生成樂(lè)音。但是使用FM合成法來(lái)產(chǎn)生各種逼真的樂(lè)音是相當(dāng)困難的,有些樂(lè)音幾

乎不能產(chǎn)生。

波形表合成法:把真實(shí)樂(lè)器發(fā)出的聲音以數(shù)字的形式記錄下來(lái),存在ROM里,播放時(shí)改變播放速度,從而改變音調(diào)周期,生成

各種音階的音符。樂(lè)音樣本的采集相對(duì)比較直觀。較好的聲卡均使用波表合成法。PCM波表合成器。

MIDI數(shù)字樂(lè)器接口

MIDI是數(shù)字音樂(lè)接口(MusicalInstrumentDigitalInterface)的縮寫。MIDI是用來(lái)酹電子樂(lè)器相互連接,或?qū)IDI設(shè)

備與電腦連接成系統(tǒng)的一種通訊協(xié)議。通過(guò)它,各種MIDI設(shè)備都可以準(zhǔn)確傳送MIDI信息。MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的

方法,用來(lái)把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDImessages”傳輸?shù)模梢员徽J(rèn)為是告訴音樂(lè)合成器(music

synthesizer)如何演奏一小段音樂(lè)的一?種指令,而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。

同WAV文件相比,MIDI文件有以下特點(diǎn):

1.用樂(lè)譜指令代替聲音數(shù)據(jù)

2.有效記錄和重現(xiàn)各種樂(lè)器聲音

3.占用存儲(chǔ)空間極小

4.適合樂(lè)曲創(chuàng)作和遠(yuǎn)距離傳輸

聲卡的組成與工作原理

處理音頻信號(hào)的PC插卡是聲卡(AudioCard),又稱音頻卡,聲卡處理的音頻媒體有數(shù)字化聲音(Wave)、合成音樂(lè)(MIDI)、

CD音頻。采樣頻率中,22.05kHZ是當(dāng)前音頻卡所支持的。聲卡的功能包括:

(1)音頻錄放(錄制:把聲音轉(zhuǎn)換為文件;播放:把文件還原為聲音)

(2)編輯與合成(對(duì)聲音文件進(jìn)行各種特殊處理,如倒播、加回音、靜噪音、往返放音、交換聲道等)

(3)MIDI接口和音樂(lè)合成(依賴于合成芯片)

(4)文語(yǔ)轉(zhuǎn)換與語(yǔ)音識(shí)別

(5)CD-ROM接口與游戲棒接口

★聲卡主要組成部分:數(shù)字聲音處理器、混合信號(hào)處理器、功率放大器、音樂(lè)合成器及MIDI控制器、計(jì)算機(jī)總線接口和控制器。

聲卡的發(fā)展趨勢(shì)

(1)改善聲音質(zhì)量

(2)統(tǒng)一音頻卡標(biāo)準(zhǔn)

(3)簡(jiǎn)化安裝的即插即用音頻卡

(4)三維環(huán)繞立體聲

(5)全雙工聲音處理

(6)與通信技術(shù)的結(jié)合

(7)單一芯片

多媒體數(shù)據(jù)壓縮技術(shù)的性能指標(biāo):壓縮比(=輸入數(shù)據(jù)和輸出數(shù)據(jù)比);壓縮和解壓的速度;恢復(fù)效果要盡可能恢復(fù)原始數(shù)據(jù)。

多媒體數(shù)據(jù)壓縮的可能性

(1)空間冗余:例:圖象中的“A”是一個(gè)規(guī)則物體。光的亮度、飽和度及顏色都一樣,因此,數(shù)據(jù)A有很大的冗余。

(2)時(shí)間冗余

(3)信息焙冗余

信息量:指從N個(gè)相等的可能事件中選出一個(gè)事件所需要的信息度量和含量。

信息嫡:指一團(tuán)數(shù)據(jù)所帶的信息量,平均信息量就是信息牖(entropy)o

(4)結(jié)構(gòu)冗余:圖象有非常強(qiáng)的紋理結(jié)構(gòu)。如草席圖結(jié)構(gòu)上存在冗余。

(5)知識(shí)冗余:圖像的理解與某些基礎(chǔ)知識(shí)有關(guān)。

例:人臉的圖像有同樣的結(jié)構(gòu):嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中線上……

(6)視覺(jué)冗余:視覺(jué)冗余是非均勻、非線性的。

(7)其他冗余:空白的非定長(zhǎng)性

預(yù)測(cè)編碼

預(yù)測(cè)編碼主要是減少數(shù)據(jù)在空間和時(shí)間上的相關(guān)性。它根據(jù)某一模型利用以往的樣本值對(duì)新樣本值進(jìn)行預(yù)測(cè),然后將樣本的

實(shí)際值與其預(yù)測(cè)值相減得到一個(gè)誤差值,進(jìn)而對(duì)這一誤差值進(jìn)行編碼。預(yù)測(cè)編碼方法中典型的有DPCM和ADPCM方法。

差分脈沖調(diào)制(DPCM)預(yù)測(cè):是降低每個(gè)像素所需平均比特?cái)?shù)最實(shí)用的方法。對(duì)于絕大多數(shù)圖像來(lái)說(shuō),在局部空間和時(shí)間上

是高度相關(guān)的,因而可以在已得到像素的基礎(chǔ)上通過(guò)對(duì)當(dāng)前像素的預(yù)測(cè)來(lái)減少圖像的數(shù)據(jù)量。預(yù)測(cè)器設(shè)計(jì)是預(yù)測(cè)編碼系統(tǒng)的核心,

預(yù)測(cè)器的復(fù)雜程度與線性預(yù)測(cè)中使用以前的樣本數(shù)有關(guān),樣本數(shù)越多,預(yù)測(cè)器越復(fù)雜。在預(yù)測(cè)編碼系統(tǒng)中,圖像質(zhì)量下降的主要原

因是①預(yù)測(cè)誤差的量化,②由圖像傳輸過(guò)程中的誤碼在接收端預(yù)測(cè)器中引起的誤碼傳播。不帶量化器的DPCM線性預(yù)測(cè)編碼,屬于

無(wú)失真編碼系統(tǒng);帶有量化器的DPCM線性預(yù)測(cè)編碼,屬于有失真編碼系統(tǒng)。

自適應(yīng)差分脈沖調(diào)制(ADPCM)預(yù)測(cè):自適應(yīng)技術(shù)的概念是預(yù)測(cè)器的預(yù)測(cè)系數(shù)和量化器的量化參數(shù),能夠根據(jù)圖像的局部區(qū)

域分布特點(diǎn)自動(dòng)調(diào)整。即定期地重新計(jì)算協(xié)方差矩陣和相應(yīng)的加權(quán)因子,充分利用其統(tǒng)計(jì)特性重新調(diào)整預(yù)測(cè)參數(shù),使預(yù)測(cè)器隨著輸

入數(shù)據(jù)的變化而變化,從而得到較為理想的輸出。自適應(yīng)預(yù)測(cè)又可分為線性自適應(yīng)預(yù)測(cè)和非線性自適應(yīng)預(yù)測(cè)兩種。實(shí)踐證明,ADPCM

編、解碼系統(tǒng)與DPCM編、解碼系統(tǒng)相比,不僅能改善恢復(fù)圖像的評(píng)測(cè)質(zhì)量和視覺(jué)效果,同時(shí)還能進(jìn)一步壓縮數(shù)據(jù)。ADPCM系統(tǒng)包

括自適應(yīng)預(yù)測(cè),即預(yù)測(cè)系數(shù)的自適應(yīng)調(diào)整和自適應(yīng)量化,即量化器參數(shù)的自適應(yīng)調(diào)整兩部分內(nèi)容。

變換編碼

變換編碼不是直接對(duì)時(shí)域圖像信號(hào)編碼,而是首先在數(shù)據(jù)壓縮前對(duì)原始輸入數(shù)據(jù)作某種正交變換,把圖像信號(hào)映射變換到另

外一個(gè)正交相量空間,產(chǎn)生一批變換系數(shù),然后再對(duì)這些變換系數(shù)進(jìn)行編碼處理。利用圖像塊像素值之間的相關(guān)性,把圖像變換到

一組新的基上,使得能量集中到少數(shù)幾個(gè)變換系數(shù)上,通過(guò)存儲(chǔ)這些系數(shù)達(dá)到壓縮的目的。本方法采用對(duì)整幅的原始圖像分成許多

個(gè)矩形區(qū)域子圖像獨(dú)立進(jìn)行變換。常用變換有:卡亨南一洛維變換(KLT)、離散余弦變換(DCT)、沃爾什―哈達(dá)瑪變換(WHT),離

散傅里葉變換(DFT)?其中,K-L變換是以圖像的統(tǒng)計(jì)特性為基礎(chǔ)的一種正交變換,它是消除數(shù)據(jù)相關(guān)性最有效的正交變換,但由

于計(jì)算復(fù)雜度高,實(shí)際應(yīng)用中很少使用。

統(tǒng)計(jì)編碼

1、統(tǒng)計(jì)編碼原理——信息量和信息燧

(D信息:是用不確定性的量度定義的。

(2)信息量:從N個(gè)相等可能事件中選出一個(gè)事件所需要的信息度量或含量。

Shannon信息論把一個(gè)事件(字符si)所攜帶的信息量定義為:I(si)=log2(1/p)=-log2p(bit)

其中P為事件發(fā)生(字符出現(xiàn))的概率;I(si)即隨機(jī)事件或變量X取值為si時(shí)所攜帶的信息量。

(3)焙:如果將信源所有可能事件信息量進(jìn)行平均就得到信息的炳(燧就是平均信息量)。即:

H(x)=plIl+p2I2+",+piIi=pllog2(l/pl)+,,,.+pilog2(l/pi)

例:有一幅40個(gè)像素組成的灰度圖像,灰度共有5級(jí),分別用符號(hào)A,B,C,D,E表示,40個(gè)像素出現(xiàn)不同灰度的結(jié)果如下

表所示。如果用3個(gè)位表示5個(gè)等級(jí)的灰度值,編碼這幅圖像總共需要120位。

按照shannon的理論,這幅圖像的燔為:

H(s)=15/40*log2(40/l5)+7/40*log2(40/7)++(5/40)*Iog2(40/5)=2.196

這就是說(shuō)每個(gè)符號(hào)用2.196位表示,共需2.196*40=87.84位。壓縮比約為3/2.196=1.37:1。

2、哈夫曼編碼

Huffman編碼就是利用變字長(zhǎng)最佳編碼實(shí)現(xiàn)信源符號(hào)按概率大小順序排列。讓最頻繁出現(xiàn)的符號(hào)具有最短的編碼。Huffman編

碼的過(guò)程=生成一棵二叉樹(shù)(H樹(shù))

Huffman具體編碼步驟

(1)將符號(hào)按概率從大到小順序排列

(2)出現(xiàn)概率最小的兩個(gè)符號(hào)概率相加合成一個(gè)概率。

(3)將合成概率看成一個(gè)新組合符號(hào)概率,重復(fù)上述做法,直到最后只剩下兩個(gè)符號(hào)概率為止。

(4)反過(guò)來(lái)逐步向前編碼,每一步有兩個(gè)分支各賦予一個(gè)二進(jìn)制碼,可以對(duì)概率大的賦編碼為“0”,概率小的賦編碼為“1”。

(反之,也可以大的賦“1”,小的賦“0”)

特點(diǎn):它屬于不對(duì)稱、無(wú)損、變碼長(zhǎng)的幅編碼。碼長(zhǎng)雖然都是可變的,卻不需要另外附加同步代碼(即在譯碼時(shí)分割符號(hào)的特

Huffman編碼的兩個(gè)問(wèn)題:

(1)沒(méi)有錯(cuò)誤保護(hù)功能一在譯碼時(shí),如果碼串中有哪怕

僅僅是1位出現(xiàn)錯(cuò)誤,則不但這個(gè)碼本身譯錯(cuò),而且后面的

碼都會(huì)跟著錯(cuò)。稱這種現(xiàn)象為錯(cuò)誤傳播,計(jì)算機(jī)對(duì)這種錯(cuò)誤

也無(wú)能為力,不能知道錯(cuò)誤出在哪里,更談不上去糾正它

(2)不能隨機(jī)定位——因?yàn)槭强勺冮L(zhǎng)度碼,所以很難在壓

縮文件中直接對(duì)指定音頻或圖像位置的內(nèi)容進(jìn)行譯碼,這就

需要在存儲(chǔ)代碼之前加以考慮

3、算術(shù)編碼

算術(shù)編碼方法是將被編碼的一則消息或符號(hào)串(序列)表示成0和1之間的一個(gè)間隔(Interval),即對(duì)一串符號(hào)直接編碼成

[0,1]區(qū)間上的一個(gè)浮點(diǎn)小數(shù)。符號(hào)序列越長(zhǎng),編碼表示它的間隔越小,表示這一間隔所需的位數(shù)就越多。信源中的符號(hào)序列仍然

要根據(jù)某種模式生成概率的大小來(lái)減少間隔。

例:給消息“state_tree”編碼。初始化時(shí),6個(gè)字符被分配的范圍(range)如下表。編碼過(guò)程如下:

字符概率范圍

_(space)0.100<0.1

a0.10.1Wr<0.2

e0.30.2Wr<0.5

r0.10.5Wr<0.6

s0.10.6<r<0.7

t0.30.7^r<1.0

初始化Staetr3e

00.60.670.6730.67510.675280.675280.67529890.675302950.675303112

_(space)

0.10.610.6730.67330.675190.675307

a

0.20.620.6760.67360.675280.6753340.6753031120.6753031606

e

0.50.650.6850.67450.675550.675302950.6753033550.6753032335

r

0.60.660.6880.67480.67530376

s

0.70.670.6910.67510.6752989

t

10.70.70.6760.6760.675550.6753070.6753070.675303760.675303112

算術(shù)編碼解碼過(guò)程:

(1)設(shè)編碼初始化子區(qū)間為[0,D,Qe從0算起,則Pe=bQe。隨著被編碼數(shù)據(jù)流符號(hào)的輸入,子區(qū)間逐漸縮小。

(2)新子區(qū)間的起始位置=前子區(qū)間的起始位置+當(dāng)前符號(hào)的區(qū)間左端X前子區(qū)間長(zhǎng)度;

(3)新子區(qū)間的長(zhǎng)度=前子區(qū)間的長(zhǎng)度X當(dāng)前符號(hào)的概率(等價(jià)于范圍長(zhǎng)度);

(4)最后得到的子區(qū)間的長(zhǎng)度決定了表示該區(qū)域內(nèi)的某一個(gè)數(shù)所需的位數(shù)。

在算術(shù)編碼中需要注意的幾個(gè)問(wèn)題:

(1)由于實(shí)際計(jì)算機(jī)精度不可能無(wú)限長(zhǎng),運(yùn)算中溢出是明顯的問(wèn)題,但多數(shù)機(jī)器都有16位、32位或者64位的精度,因此可使

用比例縮放法解決。(2)算術(shù)編碼器對(duì)消息只產(chǎn)生一個(gè)碼字,這個(gè)碼字是在[0,1]中的一個(gè)實(shí)數(shù),因此譯碼器在接受到表示這個(gè)實(shí)

數(shù)的所有位之前不能進(jìn)行譯碼。(3)算術(shù)編碼也是一種對(duì)錯(cuò)誤很敏感的編碼方法,如果有一位發(fā)生錯(cuò)誤就會(huì)導(dǎo)致整個(gè)消息譯錯(cuò)。

算術(shù)編碼可以是靜態(tài)的或者自適應(yīng)的。在靜態(tài)算術(shù)編碼中,信源符號(hào)的概率是固定的。在自適應(yīng)算術(shù)編碼中,信源符號(hào)的概率

根據(jù)編碼時(shí)符號(hào)出現(xiàn)的頻繁程度動(dòng)態(tài)地進(jìn)行修改,在編碼期間估算信源符號(hào)概率的過(guò)程叫做建模。需要開(kāi)開(kāi)發(fā)態(tài)算術(shù)編碼的原因是

因?yàn)槭孪戎谰_的信源概率是很難的,而且是不切實(shí)際的。當(dāng)壓縮消息時(shí),我們不能期待一個(gè)算術(shù)編碼器獲得最大的效率,所能

做的最有效的方法是在編碼過(guò)程中估算概率。因此動(dòng)態(tài)建模就成為確定編碼器壓縮效率的關(guān)鍵。

4、RLE/RLC行程編碼或游程長(zhǎng)度編碼

RLE視數(shù)字信息為無(wú)語(yǔ)義的字符序列(字節(jié)流),對(duì)相鄰重復(fù)的字符,用一個(gè)數(shù)字表示連續(xù)相同字符的數(shù)目(稱為行程長(zhǎng)度),可

達(dá)到壓縮信息的目的。如未壓縮的數(shù)據(jù):ABCCCCCCCCDEFFGGG;RLE編碼:AB8CDEFF3G

RLE所能獲得的壓縮比有多大,這主要是取決于圖像本身的特點(diǎn)。如果圖像中具有相同顏色的圖像塊越大,圖像塊數(shù)目越少,

獲得的壓縮比就越高。譯碼時(shí)按照與編碼時(shí)采用的相同規(guī)則進(jìn)行,還原后得到的數(shù)據(jù)與壓縮前的數(shù)據(jù)完全相同,是無(wú)損壓縮技術(shù)。

RLE壓縮編碼尤其適用于計(jì)算機(jī)生成的圖像,對(duì)減少圖像文件的存儲(chǔ)空間非常有效。RLE對(duì)顏色豐富的自然圖像就顯得力不從

心。但在自然圖像的壓縮中(如JPEG)還真少不了RLE,只不過(guò)是不能單純使用RLE一種編碼方法,需要和其他的壓縮編碼技術(shù)聯(lián)

合應(yīng)用。

靜態(tài)圖像壓縮編碼的國(guó)家標(biāo)準(zhǔn)JPEG(JointPhotographicExpertsGroup聯(lián)合圖象專家組標(biāo)準(zhǔn))

JPEG給出了一個(gè)使用于連續(xù)色調(diào)圖像的壓縮方法。JPEG主要采用了以DCT為基礎(chǔ)的有損壓縮算法。而JPEG2000則采用的是

性能更優(yōu)秀的小波變換。JPEG使用量化和無(wú)損壓縮編碼相結(jié)合來(lái)去掉視角的冗余信息和數(shù)據(jù)本身的冗余信息。JPEG屬于結(jié)合變換

編碼(DCT)與燧編碼(RLE/Huffman)的混合編碼。JPEG算法與彩色空間無(wú)關(guān),因此它可以壓縮來(lái)自不同彩色空間的數(shù)據(jù),如RGB,YCbCr

和CMYK?

JPEG要求圖像應(yīng)達(dá)到目的的基本要求:

達(dá)到或接近當(dāng)前壓縮比與圖像保真度的技術(shù)水平,能覆蓋?個(gè)較寬的圖像質(zhì)量等級(jí)范圍,能達(dá)到“很好”到“極好”的評(píng)估,

與原始圖像相比,人的視覺(jué)難以分辨;JPEG在使用DCT進(jìn)行有損壓縮時(shí),壓縮比可調(diào)整在壓縮10~30倍后,圖像效果仍然不錯(cuò)。

能適用于任何種類的連續(xù)色調(diào)的圖像,且長(zhǎng)寬比都不受限制,同時(shí)也不受限于景物內(nèi)容、圖像的復(fù)雜程度和統(tǒng)計(jì)特性等。

計(jì)算的復(fù)雜性是可控制的,其軟件可在各種C

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論