版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、丑八怪出版Chapter 1 何謂(hwi)多媒體呢?“多媒體”一詞譯自英文“Multimedia” 即“Multiple”和”Media”的合成(hchng),其核心詞是媒體。 媒體:信息傳遞(chund)和存取的最基本的技術(shù)和手段 通常概念的“媒體” ,可分為以下五種類型: 感覺媒體:能直接作用于人們的感覺器官,從而能使人產(chǎn)生直接感覺的媒體。 表示媒體:為了傳送感覺媒體而人為研究出來的媒體。借助于此種媒體,便能更有效的存儲或傳送感覺媒體。如語言編碼、電報碼等。 顯示媒體:用于通信中使電信號和感覺媒體之間產(chǎn)生轉(zhuǎn)換用的媒體。如輸入、輸出設(shè)施,鍵盤鼠標(biāo)器、顯示器、打印機(jī)等。 傳輸媒體:用于傳輸某
2、些媒體的媒體。如電話線、電纜光纖等。 存儲媒體:用于存放某種媒體的媒體。如紙張、磁帶、磁盤、光盤等。 多媒體的定義: 多種媒體信息的綜合,文本、圖形、圖像、音頻和視頻各種媒體信息的綜合。 文本分為非格式化文本文件和格式化文本文件。 非格式化文本文件:只有文本信息沒有其他任何有關(guān)格式信息的文件,又稱為純文本文件。 如“.TXT ”文件。 格式化文本文件:帶有各種文本排版信息等格式信息的文本文件。 如“.DOC ”文件。 圖形(Graphic)一般指用計算機(jī)繪制的畫面,如直線、圓、圓弧、矩形、任意曲線和圖表等。在圖形文件中只記錄生成圖的算法和圖上的某些特征點,因此也稱矢量圖。 圖像(Image)是
3、指由輸入設(shè)備捕捉的實際場景畫面,或以數(shù)字化形式存儲的任意畫面。靜止的圖像是一個矩陣,陣列中的各項數(shù)字用來描述構(gòu)成圖像的各個點(稱為像素點 pixel )的強(qiáng)度與顏色等信息。這種圖像也稱為位圖( bit-mapped picture )。圖像文件在計算機(jī)中的存儲格式有多種,如 BMP、PCX、TIF、TGA、GIF、JPG 等,一般數(shù)據(jù)量都較大。 采樣頻率(sampling rate)是將模擬聲音波形轉(zhuǎn)換為數(shù)字時,每秒鐘所抽取聲波幅度樣本的次數(shù),單位是Hz(赫茲)。 數(shù)字音頻的存儲量:可用以下公式估算聲音數(shù)字化后每秒所需的存儲量(未經(jīng)壓縮的)存儲量 = 采樣頻率量化位數(shù) 聲道數(shù)8若使用(shyn
4、g)雙聲道,存儲量再增加一倍例如(lr),數(shù)字激光唱盤(CD-DA)的標(biāo)準(zhǔn)采樣(ci yn)頻率為44.1 kHz,量化位數(shù)為16 位,立體聲。一分鐘 CD-DA 音樂所需的存儲量為44.1 K162608 = 10584 KB 視頻文件的存儲格式有AVI、MPG、MOV等。 多媒體通信的三個主要特性 :集成性、交互性、同步性。 集成性是指以計算機(jī)為中心綜合處理多種信息媒體,它包括信息媒體的集成和處理這些媒體的設(shè)備的集成。 交互性是指用戶可以與計算機(jī)的多種信息媒體進(jìn)行交互操作,從而為用戶提供了更加有效地控制和使用信息的手段。 同步性是指在多媒體通信終端上所顯示的文字、聲音和圖像是以在時空上的同
5、步方式工作的。Chapter 2多媒體信息的特點: eq oac(,1)多媒體數(shù)據(jù)類型復(fù)雜(多樣性) eq oac(,2)多媒體數(shù)據(jù)的實時性 eq oac(,3)多媒體數(shù)據(jù)的同步性 eq oac(,4)數(shù)據(jù)量大 eq oac(,5)多媒體數(shù)據(jù)的交互性 eq oac(,6)碼率可變、突發(fā)性強(qiáng) 信息壓縮的必要性:信息量大,數(shù)據(jù)量大,通信系統(tǒng)中信道帶寬和存儲設(shè)備有限。 信息壓縮的可行性:空間冗余、時間冗余、視覺冗余、編碼冗余、結(jié)構(gòu)冗余、知識冗余、其他冗余。(主要是前三種)Chapter 3 聲音的頻率是多少?聲音分類頻率范圍亞聲波0-20 Hz人類聽力所能接受20-20K Hz超聲波20K-1G H
6、z超高聲波1G-10G Hz 采樣頻率: 話音信號的最高頻率約為3.4 kHz,采樣頻率一般選為8 kHz。音頻采樣頻率的常見標(biāo)準(zhǔn)有11.025kHz,22.05kHz,44.1kHz,48kHz等。 聲音未經(jīng)壓縮時的碼率可由下式算出: 聲音的碼率采樣頻率量化精度聲道數(shù)聲音類型聲音帶寬(Hz)采樣頻率(kHz)量化位數(shù)(bits)聲道數(shù)未壓縮時的碼率(kbps)數(shù)字語音300-340088164CD唱片20-2000044.11621411.2 掩蔽(ynb)效應(yīng):一種頻率的聲音阻礙(z i)聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。 前者稱為(chn wi)掩蔽聲音,后者稱為被掩蔽聲音
7、。 時域掩蔽效應(yīng):是指掩蔽效應(yīng)發(fā)生在掩蔽聲與被掩蔽聲不同時出現(xiàn)時,又稱異時掩蔽。 頻域掩蔽效應(yīng):一個強(qiáng)純音會掩蔽在其附近同時發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽。 ITU-T G系列音頻壓縮編碼標(biāo)準(zhǔn) 標(biāo)準(zhǔn) 比特速度 編碼技術(shù) 應(yīng)用 G.711 64kb/s PCM 公共電話網(wǎng) GSM音頻 13kb/s RPE-LPC GSM移動網(wǎng) Chapter 4 圖像的顏色模型 RGB模型-顯示系統(tǒng) (加色) 顏色R(紅的百分比)G(綠的百分比)B(藍(lán)的百分比) CMY模型-印刷工業(yè) 減色混合模型,用青色(C)、紫色(M)、黃色(Y)按一定比例產(chǎn)生的顏色 XYZ模型-傳輸存儲RGB模型不用傳輸
8、系統(tǒng)的原因:大大(d d)加寬視頻信號帶寬 與單色電視(dinsh)不兼容 增加(zngji)相關(guān)設(shè)備成本三種電視系統(tǒng):PAL:大多數(shù)西歐國家、中國、中東 25幀/秒 YUVNTSC:北美、日本等部分亞洲國家 30幀/秒 YIQSECAM:前蘇聯(lián)、東歐、法國、中東 25幀/秒 YUV YUV模型 Y表示亮度信號,UV表示色度信號,Y與UV是分離的。如只有Y,沒有UV,則為黑白灰度圖像。YIQ模型 Y表示亮度信號,IQ分量分別由UV分量旋轉(zhuǎn)33度YCbCr模型 YCbCr模型是YUV模型派生出來的模型 主要用于數(shù)字電視系統(tǒng)以及圖像視頻壓縮標(biāo)準(zhǔn) HSI模型-圖像處理 反映了人的視覺系統(tǒng)觀察彩色的方
9、式 ,I分量與圖像的彩色信息無關(guān),H和S分量與人感受顏色的方式是緊密相聯(lián)的 圖像的數(shù)字化包括采樣和量化、編碼等過程。 采樣:將空間上連續(xù)的圖像變換成離散點的操作稱為采樣。靜態(tài):先沿垂直方向采樣, 再沿水平方向采樣;運動:先在時間軸上采樣,再沿垂直方向采樣,最后沿水平方向采樣。 量化:把采樣后所得的各像素的灰度值轉(zhuǎn)換為整數(shù)的過程稱為量化。 與量化有關(guān)的概念1、表示像素明暗程度的整數(shù)稱為灰度級。(或灰度值、灰度) 2、一幅數(shù)字圖像中不同灰度級的個數(shù)稱為灰度級數(shù)(G) 3、G=2g,g表示存儲圖像灰度級數(shù)所需的比特位數(shù)(bit) (G灰度等級,g像素深度)如:灰度級數(shù)G=256,8比特量化,(0-2
10、55)或=6比特的量化,可以滿足視覺效果; 8比特量化 4、均勻量化和非均勻量化 一般使用均勻量化 目前使用的子采樣格式有如下幾種: (1) 4:4:4采樣方式 (2) 4:2:2采樣方式 如: (3) 4:1:1采樣方式 (4) 4:2:0采樣方式(注意:0不代表沒有)已知Y分量,如何求U、V分量?按比例計算 MATLAB指令: eq oac(,1)dct2函數(shù) eq oac(,2)idct2函數(shù) eq oac(,3)dctmtx函數(shù)功能:二維DCT正變換 功能:二維DCT反變換 功能:計算DCT變換矩陣格式:B=dct2(A) 格式:B=idct2(A) 格式:G=dctmtx(n) DC
11、T變換的性質(zhì):DCT是實數(shù)序列偶延拓后的DFT變換 變換矩陣與變換內(nèi)容無關(guān),正反變換變換核相同 DCT具有可分離性,二維DCT可變?yōu)閮纱我痪SDCT 去相關(guān)性僅次于K-L變換,由于其實現(xiàn)容易,因而廣泛應(yīng)用F(0,0)為直流系數(shù),其余則為交流系數(shù),系數(shù)主要集中(jzhng)在直流和低頻部分 圖像信號(xnho)的正交變換的特點: 能量守恒性: 能量集中(jzhng)性:空間域亮度均勻分布,頻率大部分能量集中在低頻系數(shù)上 去相關(guān)性:空間域相關(guān)像素,通過正交變換在頻域大大降低變換系數(shù)之間相關(guān)性。 熵保持性:變換系數(shù)F(u,v)的熵值和原圖像信號f(x,y)熵值相等。 圖像的統(tǒng)計特性 圖像空間域統(tǒng)計特性
12、 相鄰像素之間的相關(guān)特性隨兩像素之間距離增大而減小。 圖像差值信號統(tǒng)計特性 幀內(nèi)差值統(tǒng)計特性: 指對一幅(幀)圖像內(nèi)部像素進(jìn)行的統(tǒng)計特性。它為電視圖像的幀間壓縮編碼提供重要依據(jù)。 圖像頻域統(tǒng)計特性 從頻譜角度看出,電視/圖像信號絕大部分能量集中于頻率域中的低頻部分。 圖像壓縮的性能指標(biāo):平均碼字長度: 壓縮比: 編碼效率: 冗余度: 比特率:編碼的平均碼長 霍夫曼編碼編碼過程:按概率從大到小的順序排列信源符號 從最小的兩個概率開始編碼,將概率較大的信源符號編為1(或0),將概率較小的信源編為0(或1),如果兩個符號概率相同,則任意編碼1或者0對已編的兩個概率求和,其結(jié)果與未編碼的概率從大到小排
13、序 重復(fù)第二、三步,直到概率達(dá)到1為止 畫出每個信源符號的概率到1處的路徑 沿路徑的逆方向記下每個符號的二進(jìn)制序列,即為霍夫曼編碼 例子說明:編碼不唯一,但平均碼長相同 編碼效率相同,但對應(yīng)碼字不同 方差Var(C1)=1.36,Var(C2)=0.16,表明第二種編碼碼字變化小,是比較可取的方法,因在恒定碼率的情況下,字長變化小對緩沖器的容量就小 霍夫曼編碼是唯一可譯碼 結(jié)論:在霍夫曼編碼過程中,對縮減信源符號按概率由大到小的順序重新排列時,應(yīng)使合并后的新符號盡可能排在靠前位置,使新符號重復(fù)(chngf)編碼次數(shù)減少,使短碼得到充分利用 行程(xngchng)長度編碼 掃描一行中,黑白像素(
14、xin s)連續(xù)出現(xiàn)的數(shù)目 ,按照各個行程長度出現(xiàn)的概率分布為其分配相應(yīng)的碼字,達(dá)到壓縮的目的 國際傳真編碼標(biāo)準(zhǔn)G3采用改進(jìn)霍夫曼編碼,將碼表分為終止碼表和形成碼表 終止碼表 較短的行程發(fā)生的概率比較大,直接進(jìn)行編碼,即終止碼 統(tǒng)計表明:行程長度為063發(fā)生的概率大 形成碼表 對于發(fā)生概率小的較長的行程采用行程=64N+M的方式進(jìn)行編碼,N即為形成碼,M為終止碼 查表規(guī)則如下: G3規(guī)定:傳真每行為1728個像素行程小于64的,查終止碼表直接編碼 行程大于63的,以64的整數(shù)倍為索引查形成碼表,以余數(shù)為索引查終止碼表,兩者組合即為其編碼 G3規(guī)定,每一行以白長開始,其長度可以為0,以EOL碼結(jié)
15、束 JPEG編碼特點:壓縮比高,壓縮質(zhì)量比較好。圖像主觀質(zhì)量損傷難以察覺 有多個參數(shù)。用戶能得到所需的壓縮比或圖像質(zhì)量 無論連續(xù)色調(diào)圖像的維數(shù),彩色空間,像素寬高比或其他特征如何,都能得到良好的壓縮效果。 處理速度快,具有成熟的價格低廉的硬件電路支持。 四種運行模式 順序模式:掃描從左到右,從上到下 漸近模式:圖像壓縮由粗到細(xì) 無損模式:不允許有像素?fù)p失 分級模式:圖像在多分辨率下進(jìn)行壓縮 圖像預(yù)處理 格式轉(zhuǎn)換: RGBYUV RGB和YUV之間的變換不包含在JPEG算法中RGB各分量之間存在相關(guān)性,而YUV各分量之間的相關(guān)性弱 二次采樣: 人眼對亮度敏感,而對色度不敏感,可以采用YUV422
16、和YUV411 數(shù)據(jù)單元DU: 輸入圖像的每個分量被分割成相互(xingh)不重疊的88的子塊,塊內(nèi)的64個數(shù)據(jù)組成(z chn)一個數(shù)據(jù)單元 如果(rgu)圖像的行數(shù)或列數(shù)不是8的倍數(shù),則復(fù)制底行和最右邊一列至所需的倍數(shù) 最小編碼單元MCU: 以最低采樣頻率的分量為準(zhǔn),將該分量一個DU所對應(yīng)像區(qū)上覆蓋的所有各分量上的DU按順序編組為一個最小編碼單元 灰度圖像:只有一個Y分量,1個MCU只有一個DU彩色圖像:以YUV411采樣,則1個MCU有4個Y分量的DU,1個U分量的DU,一個V分量的DU DC系數(shù)和AC系數(shù)掃描 AC,DC均用二進(jìn)制補碼表示的整數(shù)量化后的系數(shù)表,仍是二維,且非零系數(shù)基本上
17、都集中在左上角。 DC系數(shù)遠(yuǎn)大于AC系數(shù),且相鄰子塊的DC系數(shù)具有很強(qiáng)的相關(guān)性。 直流系數(shù)(DC)編碼 編碼方法 前綴碼+尾碼 前綴碼:指明尾碼的有效位數(shù),其值為B尾碼:將Diff表示成B位二進(jìn)制 原始圖像分量為8bit精度時DC系數(shù)差值的典型霍夫曼編碼表 交流系數(shù)(AC)編碼 編碼方法 前綴碼+尾碼 前綴(qinzhu)碼:(零行程(xngchng),非零值),(NNNN,SSSS)NNNN:只能(zh nn)表示ZRL小于16的值,當(dāng)值ZRL大于15時,用11110000擴(kuò)展,再對ZRL=ZRL-16繼續(xù)編碼 SSSS:查AC系數(shù)的尾碼位數(shù)賦值表得數(shù)字B尾碼:非零AC系數(shù)值 AC系數(shù)的尾碼
18、位數(shù)賦值表 JPEG編碼舉例 源圖像采樣(a) 像素減128后圖像值(b) FDCT系數(shù)(c) 量化后DCT系數(shù)(d) 前一子塊量化后DC系數(shù)為3 掃描后的序列為: (2)(3),(0,3)(-5),(0,1)(-1),(0,1)(1),(0,1)(-1),(0,1)(-1),(1,1)(1),(0,1)(1),(0,0)查表: 尾數(shù)編碼為: 比特流為: 011,11,100,010,00,0,00,1,00,0,00,0,1100,1,00,1,1010壓縮比為r=864/35=14.63 序列圖像都是一幀一幀地傳輸,看作一個沿時間軸分布(fnb)的圖像序列,稱為序列圖像。(每幀為靜態(tài)(jn
19、gti)) 視頻信號編碼(bin m)的依據(jù): 依據(jù)1:從信源角度看,自然景物大多都處于相對不變或緩變狀態(tài),為幀間相關(guān)性存在前提條件。畫面分為3個各具特點區(qū)域:背景區(qū)、運動物體區(qū)、暴露區(qū)注意:如果將整個畫面從一類景物切換為另一類景物時,則談不上幀間相關(guān)性利用。因為整個畫面內(nèi)容數(shù)據(jù)全部改變了。 依據(jù)2:利用人眼視覺特性,在活動圖像編碼中針對圖像內(nèi)容在清晰度和活動性(幀頻)適當(dāng)調(diào)整碼率,可使重建圖像在視覺上保持一致主觀效果。 運動估計與補償預(yù)測方法: 相鄰畫面高度相似,其中差別變化是由于物體運動或攝象機(jī)運動所引起的。 畫面中物體或像素的運動是可以估計的。 因此,可以從前面的畫面預(yù)測當(dāng)前畫面,編碼器
20、只對預(yù)測誤差進(jìn)行編碼。 不能進(jìn)行預(yù)測的畫面或區(qū)域使用JPEG進(jìn)行編碼(利用畫面內(nèi)部相關(guān)性)。相鄰幀間的主要變化是由于構(gòu)成景物的各物體的運動引起的。 運動估計:將活動圖像分為若干個塊,檢測出當(dāng)前幀中每個塊在前一幀(參考幀)圖像中的對應(yīng)位置,從而可以估計出這個塊的位移,用運動矢量表示。這個過程叫做運動估計。(塊大小16x16) 菱形搜索法(DS)本算法經(jīng)過多次改進(jìn),已成為目前快速匹配算法中性能最優(yōu)異的算法之一 基本思想:使用兩種搜索(su su)模板,9個檢測點的大模板(mbn)LDSP和5個檢測點的小模板(mbn)SDSP搜索時,先用大模板計算,當(dāng)最匹配塊出現(xiàn)在中心點處時,換大模板為小模板,再進(jìn)
21、行匹配計算,5個點中的最匹配點即為最優(yōu)點。 算法步驟: 用LDSP在搜索區(qū)域中心及周圍8個點處進(jìn)行匹配計算,若最匹 配點位于中心,則進(jìn)行Step3;否則,到Step2 以上一次找到的最匹配點為中心點,用新的LDSP來計算,若最匹配點位于中心點,則進(jìn)行Step3;否則,重復(fù)本步 以上一次找到的最匹配點為中心點,將LDSP換為SDSP,在5個點處計算,找到最匹配點,該點所在位置即為最佳運動矢量。 三種常見的視頻幀 I幀:幀內(nèi)圖像 第一幀必須是I幀,且需定期傳送I幀 P幀:前向預(yù)測圖像 B幀雙向預(yù)測圖像 ITU: H.26X系列壓縮標(biāo)準(zhǔn) (通信) ISO/IEC: MPEG系列壓縮標(biāo)準(zhǔn) (音視頻傳輸) MPEG1數(shù)據(jù)傳輸速率為1.5Mb/s的數(shù)字存儲媒體運動圖像及其伴音編碼標(biāo)準(zhǔn) (音頻0.3Mbps,視頻
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 口譯就餐對話演示
- 企業(yè)標(biāo)準(zhǔn)的編寫合同5篇
- 二零二五年度智能車庫使用權(quán)出售及管理服務(wù)合同3篇
- 二零二五版2025年度情感修復(fù)協(xié)議書-自愿離婚調(diào)解合同3篇
- 2025版共享用工社會保險繳納協(xié)議范本3篇
- 設(shè)備維護(hù)保養(yǎng)培訓(xùn)教學(xué)案例
- 中考題型連連看近3年幻燈片課件
- 第8課現(xiàn)代文學(xué)和美術(shù)教學(xué)文案
- 電腦操作會考電腦2001-2002上課講義
- 二零二五年茶葉市場推廣合作合同2篇
- 帆軟報表培訓(xùn)課件
- 儀器分析課件 儀器分析緒論
- 英語現(xiàn)在完成時專項練習(xí)題(附答案)
- 制造樣品生產(chǎn)作業(yè)指導(dǎo)書
- 服務(wù)經(jīng)營培訓(xùn)課件ppt 老客戶經(jīng)營綜合版
- MT/T 199-1996煤礦用液壓鉆車通用技術(shù)條件
- GB/T 10357.1-2013家具力學(xué)性能試驗第1部分:桌類強(qiáng)度和耐久性
- 公寓de全人物攻略本為個人愛好而制成如需轉(zhuǎn)載注明信息
- 第5章-群體-團(tuán)隊溝通-管理溝通
- 腎臟病飲食依從行為量表(RABQ)附有答案
- 園林施工管理大型園林集團(tuán)南部區(qū)域養(yǎng)護(hù)標(biāo)準(zhǔn)圖例
評論
0/150
提交評論