




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第1頁(yè)n 數(shù)字音頻基礎(chǔ)n 音頻卡工作原理n 音頻編碼n 音頻信息處理(核心章節(jié))n 視覺(jué)媒體信息的處理(核心章節(jié)) 第2頁(yè)n 數(shù)字音頻的采樣與量化n音頻數(shù)字化:模擬音頻信號(hào)音頻數(shù)字化:模擬音頻信號(hào)有限個(gè)數(shù)字表示的離散有限個(gè)數(shù)字表示的離散序列序列n音頻的采樣:按一定的時(shí)間間隔(音頻的采樣:按一定的時(shí)間間隔(T)取值,得到)取值,得到x(nT).T稱為采樣周期,稱為采樣周期,1/T稱為采樣頻率。稱稱為采樣頻率。稱x(nT)為為離散信號(hào)。離散信號(hào)。 n常用的采樣頻率:常用的采樣頻率:8kHz, 11.025kHz, 22.050kHz, 44.1kHz, 8kHz,16kHz, 48kHz.第3頁(yè)n
2、 數(shù)字音頻的采樣與量化n音頻的量化:先將整個(gè)幅度劃分為有限個(gè)小幅度(量音頻的量化:先將整個(gè)幅度劃分為有限個(gè)小幅度(量化階距)的集合,把落入某個(gè)階距內(nèi)的樣本值歸為一化階距)的集合,把落入某個(gè)階距內(nèi)的樣本值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,類,并賦予相同的量化值。如果量化值是均勻分布的,稱為均勻量化。稱為均勻量化。 設(shè)設(shè)為量化階距,為量化階距,Xmax為量化器最大范圍,則:為量化器最大范圍,則:對(duì)于樣值對(duì)于樣值s, , 如果如果 ,則其量化值,則其量化值均為均為 。max22BX1122isi i第4頁(yè)n 音頻信息的采集(錄制)n用Microsoft Windows錄音機(jī)進(jìn)行錄
3、音,形成.wav格式文件。第5頁(yè)n 音頻信息的采集(錄制)n用CoolEditPro的錄音功能進(jìn)行錄音第6頁(yè)n 音頻信息的采集(錄制)n用Matlab語(yǔ)言實(shí)現(xiàn)錄音,存儲(chǔ),播放(DEMO) 用單聲道錄音,存儲(chǔ),播放Fs=11025;y=wavrecord(5*Fs, Fs, double);wavplay(y,Fs);wavwrite(y, Fs, testlininrecord.wav)用雙聲道錄音,存儲(chǔ),播放Fs=11025;y=wavrecord(5*Fs, Fs, 2, double);wavplay(y,Fs);wavwrite(y, Fs, testlininrecord2.wav)
4、audiorecorder();audioplayer;pause();resume();play();stop();第7頁(yè)n 音頻信息的顯示與理解聲音是由于空氣振動(dòng)產(chǎn)聲音是由于空氣振動(dòng)產(chǎn)生的,其表現(xiàn)形式就是生的,其表現(xiàn)形式就是聲波。聲波。聲波的振幅決定音量的聲波的振幅決定音量的大小大小聲波的頻率決定音調(diào)聲波的頻率決定音調(diào)第8頁(yè)nwav文件格式nwav文件:文件:Microsoft公司的音頻文件格式。記錄公司的音頻文件格式。記錄聲音波形。聲音波形。n利用該格式記錄的聲音文件能夠和原聲基本一致,利用該格式記錄的聲音文件能夠和原聲基本一致,質(zhì)量非常高,但這樣做的代價(jià)就是文件太大。質(zhì)量非常高,但這樣
5、做的代價(jià)就是文件太大。nwav文件所需存儲(chǔ)空間(文件所需存儲(chǔ)空間(byte/sec) 采樣頻率采樣頻率(Hz)量化位數(shù)量化位數(shù)(bit)聲道數(shù)聲道數(shù)/8n常用音頻文件格式第9頁(yè)nmp3數(shù)字音頻的文件格式 MPEG-1,Layer-3,擴(kuò)展名,擴(kuò)展名MP3:現(xiàn)在最流行的聲:現(xiàn)在最流行的聲音文件格式,因其壓縮率大,在網(wǎng)絡(luò)可視電話通信方面應(yīng)音文件格式,因其壓縮率大,在網(wǎng)絡(luò)可視電話通信方面應(yīng)用廣泛,但和用廣泛,但和CD唱片相比,音質(zhì)不能令人非常滿唱片相比,音質(zhì)不能令人非常滿意意。nReal Audio數(shù)字音頻的文件格式 Real Audio,擴(kuò)展名,擴(kuò)展名rm:壓縮比大,失真小。壓縮比大,失真小。與與
6、MP3相同,它也是為了解決網(wǎng)絡(luò)傳輸帶寬資源而設(shè)計(jì)的,因此相同,它也是為了解決網(wǎng)絡(luò)傳輸帶寬資源而設(shè)計(jì)的,因此主要目標(biāo)是主要目標(biāo)是壓縮比和容錯(cuò)性,其次才是音質(zhì)壓縮比和容錯(cuò)性,其次才是音質(zhì)。n常用音頻文件格式第10頁(yè)n音頻信號(hào)的分類n語(yǔ)音信號(hào),有復(fù)雜的語(yǔ)義和語(yǔ)法信息(語(yǔ)音信號(hào),有復(fù)雜的語(yǔ)義和語(yǔ)法信息(非特非特定人,孤立詞定人,孤立詞連續(xù)詞、小詞匯量連續(xù)詞、小詞匯量大詞匯量大詞匯量 算法算法:聚類、基于動(dòng)態(tài)規(guī)則的匹配:聚類、基于動(dòng)態(tài)規(guī)則的匹配n80年代中期,年代中期,隱馬爾可夫模型隱馬爾可夫模型(HMM)為基礎(chǔ)的各種系為基礎(chǔ)的各種系統(tǒng),美國(guó)統(tǒng),美國(guó)CMU的的Sphinx系統(tǒng)系統(tǒng) IBM的的Tangor
7、a20和和VoiceType3.0系統(tǒng)系統(tǒng) DRAGON公司的公司的Dragon Dictate系統(tǒng)系統(tǒng)n現(xiàn)在:關(guān)鍵時(shí)期,新模型、新方法及實(shí)用化系統(tǒng)研究現(xiàn)在:關(guān)鍵時(shí)期,新模型、新方法及實(shí)用化系統(tǒng)研究n 語(yǔ)音識(shí)別第57頁(yè)n 語(yǔ)音識(shí)別的發(fā)展和分類(Cont.)n分類n按識(shí)別詞匯量大小分按識(shí)別詞匯量大小分n小詞表語(yǔ)音識(shí)別小詞表語(yǔ)音識(shí)別(識(shí)別詞匯識(shí)別詞匯100)n中詞表語(yǔ)音識(shí)別中詞表語(yǔ)音識(shí)別(100識(shí)別詞匯識(shí)別詞匯1000)n按語(yǔ)音的輸入方式分按語(yǔ)音的輸入方式分n孤立詞:以單音節(jié)或短語(yǔ)為條目,條目?jī)?nèi)音節(jié)連續(xù),孤立詞:以單音節(jié)或短語(yǔ)為條目,條目?jī)?nèi)音節(jié)連續(xù),條目間有明顯停頓,如:條目間有明顯停頓,如:09
8、數(shù)字,人名、地名、控?cái)?shù)字,人名、地名、控制命令、英語(yǔ)單詞、漢語(yǔ)音節(jié)、短語(yǔ)制命令、英語(yǔ)單詞、漢語(yǔ)音節(jié)、短語(yǔ)n連接詞:多條目,需拆分連接詞:多條目,需拆分n連續(xù)語(yǔ)音:自然語(yǔ)言連續(xù)語(yǔ)音:自然語(yǔ)言n 語(yǔ)音識(shí)別第58頁(yè)n 語(yǔ)音識(shí)別的發(fā)展和分類(Cont.)n分類n按發(fā)音人按發(fā)音人n特定人:用特定人聲音訓(xùn)練后使用特定人:用特定人聲音訓(xùn)練后使用n限定人:多個(gè)特定人訓(xùn)練限定人:多個(gè)特定人訓(xùn)練n非特定人:不需要訓(xùn)練非特定人:不需要訓(xùn)練n按實(shí)現(xiàn)技術(shù)分按實(shí)現(xiàn)技術(shù)分n基于模板匹配的基于模板匹配的n基于概率統(tǒng)計(jì)模型基于概率統(tǒng)計(jì)模型n 語(yǔ)音識(shí)別第59頁(yè)n音節(jié)性很強(qiáng):每個(gè)字都是以單音節(jié)為單位,共有音節(jié)性很強(qiáng):每個(gè)字都是以單
9、音節(jié)為單位,共有400400多音多音節(jié),加上四聲共節(jié),加上四聲共13401340個(gè),識(shí)別基元少個(gè),識(shí)別基元少n音節(jié)構(gòu)成,簡(jiǎn)單規(guī)整:聲母韻母、韻母音節(jié)構(gòu)成,簡(jiǎn)單規(guī)整:聲母韻母、韻母n有調(diào)語(yǔ)言:音節(jié)發(fā)音時(shí)間長(zhǎng),有穩(wěn)定的有調(diào)段有調(diào)語(yǔ)言:音節(jié)發(fā)音時(shí)間長(zhǎng),有穩(wěn)定的有調(diào)段n音節(jié)偕同發(fā)音與音變少音節(jié)偕同發(fā)音與音變少優(yōu)勢(shì)優(yōu)勢(shì)難點(diǎn)難點(diǎn)n 語(yǔ)音識(shí)別n 漢語(yǔ)語(yǔ)音識(shí)別n漢語(yǔ)特點(diǎn)(相對(duì)于英語(yǔ))n同音字多同音字多n內(nèi)涵語(yǔ)言,語(yǔ)義與上下文、語(yǔ)氣均關(guān)連,語(yǔ)法簡(jiǎn)單、變化內(nèi)涵語(yǔ)言,語(yǔ)義與上下文、語(yǔ)氣均關(guān)連,語(yǔ)法簡(jiǎn)單、變化靈活靈活憑據(jù)憑據(jù)-評(píng)劇評(píng)劇-萍聚萍聚意義意義-異議異議-意譯意譯中國(guó)隊(duì)大勝(大?。┟绹?guó)隊(duì)中國(guó)隊(duì)大勝(大?。┟绹?guó)
10、隊(duì)第60頁(yè)n 漢語(yǔ)語(yǔ)音識(shí)別n漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)工作原理數(shù)據(jù)采集波形自動(dòng)切分預(yù)處理與特征參數(shù)提取聲學(xué)模型時(shí)間對(duì)準(zhǔn)組句分析識(shí)別結(jié)果整句輸出聲學(xué)基元模型庫(kù)語(yǔ)言模型庫(kù)統(tǒng)計(jì)信息與規(guī)則分幀后的語(yǔ)言特征矢量集合聲學(xué)音節(jié)候選語(yǔ)句候選語(yǔ)音流切分參數(shù)提取模板識(shí)別n 語(yǔ)音識(shí)別第61頁(yè)n 漢語(yǔ)語(yǔ)音識(shí)別(Cont.)n漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)工作原理n連續(xù)語(yǔ)音流預(yù)處理:連續(xù)語(yǔ)音流預(yù)處理:n模擬語(yǔ)音數(shù)字化模擬語(yǔ)音數(shù)字化n信號(hào)處理,包括帶通濾波、變換等信號(hào)處理,包括帶通濾波、變換等n波形切分:找出語(yǔ)音信號(hào)中的各種識(shí)別基元(音素、音節(jié)、波形切分:找出語(yǔ)音信號(hào)中的各種識(shí)別基元(音素、音節(jié)、半音節(jié)、聲韻母、單詞、意群)的起點(diǎn)和終點(diǎn)位置,將
11、連半音節(jié)、聲韻母、單詞、意群)的起點(diǎn)和終點(diǎn)位置,將連續(xù)語(yǔ)音處理變?yōu)閷?duì)各個(gè)語(yǔ)言單元的處理續(xù)語(yǔ)音處理變?yōu)閷?duì)各個(gè)語(yǔ)言單元的處理n特征參數(shù)提取:特征參數(shù)提?。簄表達(dá)語(yǔ)音特征又能彼此區(qū)別的參數(shù),是語(yǔ)音識(shí)別基礎(chǔ)表達(dá)語(yǔ)音特征又能彼此區(qū)別的參數(shù),是語(yǔ)音識(shí)別基礎(chǔ)n如:線性預(yù)測(cè)參數(shù)、倒頻譜系數(shù)、如:線性預(yù)測(cè)參數(shù)、倒頻譜系數(shù)、(RefRef.Chapter 2.Chapter 2語(yǔ)音識(shí)別語(yǔ)音識(shí)別 倒頻譜系數(shù)倒頻譜系數(shù).doc.doc)n參數(shù)模板庫(kù)參數(shù)模板庫(kù)n識(shí)別判決識(shí)別判決n 語(yǔ)音識(shí)別第62頁(yè)n 漢語(yǔ)語(yǔ)音識(shí)別(Cont.)n語(yǔ)音識(shí)別系統(tǒng)的最終目的n不限制說(shuō)話人,即非特定人不限制說(shuō)話人,即非特定人n不限制詞匯量,即基
12、于大詞匯表不限制詞匯量,即基于大詞匯表n不限制發(fā)音方式,即識(shí)別連續(xù)自然發(fā)音不限制發(fā)音方式,即識(shí)別連續(xù)自然發(fā)音n高識(shí)別率,應(yīng)達(dá)到人對(duì)自然語(yǔ)言的識(shí)別能力高識(shí)別率,應(yīng)達(dá)到人對(duì)自然語(yǔ)言的識(shí)別能力n 語(yǔ)音識(shí)別第63頁(yè)n 漢語(yǔ)語(yǔ)音識(shí)別(Cont.)n語(yǔ)音識(shí)別系統(tǒng)的困難n使用者的差別大,排除差異、保留共性難(口音、年齡、使用者的差別大,排除差異、保留共性難(口音、年齡、性別、發(fā)音速度、發(fā)音強(qiáng)度、發(fā)音習(xí)慣)性別、發(fā)音速度、發(fā)音強(qiáng)度、發(fā)音習(xí)慣)n識(shí)別的詞匯量大識(shí)別的詞匯量大, ,將導(dǎo)致系統(tǒng)的識(shí)別性能急劇下降而失去將導(dǎo)致系統(tǒng)的識(shí)別性能急劇下降而失去可用性,原因是:可用性,原因是:1 1)需要的時(shí)間和空間開(kāi)銷多;)
13、需要的時(shí)間和空間開(kāi)銷多;2 2)詞與)詞與詞之間的差異細(xì)微;詞之間的差異細(xì)微;n基元的識(shí)別有一定的局限性,而連續(xù)音識(shí)別又不能實(shí)現(xiàn)基元的識(shí)別有一定的局限性,而連續(xù)音識(shí)別又不能實(shí)現(xiàn)n實(shí)用的系統(tǒng)要求高可靠性,因此參數(shù)的魯棒性、抗噪聲能實(shí)用的系統(tǒng)要求高可靠性,因此參數(shù)的魯棒性、抗噪聲能力,環(huán)境適應(yīng)性等要求高,力,環(huán)境適應(yīng)性等要求高,太復(fù)雜太復(fù)雜n 語(yǔ)音識(shí)別第64頁(yè)n 漢語(yǔ)語(yǔ)音識(shí)別(Cont.)n語(yǔ)音識(shí)別技術(shù)的應(yīng)用 作為人機(jī)交互的手段,語(yǔ)音識(shí)別是為了實(shí)現(xiàn)聽(tīng)寫(xiě)和命令控制n辦公自動(dòng)化:在多種場(chǎng)合方便文件起草和編輯辦公自動(dòng)化:在多種場(chǎng)合方便文件起草和編輯n電話商業(yè)服務(wù):電話和計(jì)算機(jī)語(yǔ)音識(shí)別的結(jié)合電話商業(yè)服務(wù):
14、電話和計(jì)算機(jī)語(yǔ)音識(shí)別的結(jié)合, ,將為將為語(yǔ)音識(shí)別開(kāi)辟一個(gè)很大的應(yīng)用領(lǐng)域。語(yǔ)音識(shí)別開(kāi)辟一個(gè)很大的應(yīng)用領(lǐng)域。n 語(yǔ)音識(shí)別30/downloads/bighttp:/ 漢語(yǔ)語(yǔ)音識(shí)別(Cont.)n演示 (Vista; Windows Phone 7 Tellme; iPhone 4s Siri)n 語(yǔ)音識(shí)別http:/ 說(shuō)話人識(shí)別與語(yǔ)音識(shí)別的區(qū)別n 說(shuō)話人識(shí)別(Speaker Recognition, SR):從相同的一段語(yǔ)言中,識(shí)別出是誰(shuí)在講話。n 語(yǔ)音識(shí)別:關(guān)注說(shuō)話的內(nèi)容,把其轉(zhuǎn)換成對(duì)應(yīng)的文字,主要用于語(yǔ)音信息錄入。而不關(guān)注是誰(shuí)在講。第67頁(yè)n 說(shuō)話人識(shí)別技術(shù)
15、n 說(shuō)話人識(shí)別(Speaker Recognition, SR):以語(yǔ)音對(duì)說(shuō)話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。n SR基本問(wèn)題: (1)如何選取能夠唯一表征人的有效而可靠的參量,如何對(duì)它進(jìn)行處理 (2)如何規(guī)定相似性的測(cè)度,使相似性的計(jì)算既簡(jiǎn)單又可靠; (3)考慮到人的狀況在不斷變化,為使系統(tǒng)能夠可靠工作,如何使它的參考量不斷更新以適應(yīng)使用者。第68頁(yè)n 說(shuō)話人識(shí)別技術(shù)n 說(shuō)話人識(shí)別常用技術(shù) (1)模板匹配法 (2)概率模型法(如:HMM) (3)矢量量化法(VQ)第69頁(yè)n 視頻信息的采集n計(jì)算機(jī)常用圖像及其獲取手段計(jì)算機(jī)常用圖像及其獲取手段一張用掃描儀掃描的圖像2400dpi(d
16、ot per inch)圖形靜態(tài)圖像動(dòng)態(tài)圖像計(jì)算機(jī)軟件掃描儀視頻數(shù)字化設(shè)備數(shù)碼相機(jī)第70頁(yè)n 視頻信息的采集n計(jì)算機(jī)常用圖像及其獲取手段計(jì)算機(jī)常用圖像及其獲取手段第71頁(yè)n 視頻采集卡的分類和特點(diǎn)n按輸入信號(hào)類型分為:n數(shù)字視頻輸入卡數(shù)字視頻輸入卡n模擬視頻輸入卡模擬視頻輸入卡n數(shù)字視頻卡nUSB接口:當(dāng)前最流行,低接口成本,傳輸速度(接口:當(dāng)前最流行,低接口成本,傳輸速度(USB2.0為為 480Mbps,USB1.1為為12Mbps )n1394接口:低接口成本接口:低接口成本(100-300元元),傳輸速度傳輸速度(30-40Mbps)nCamera Link接口:接口成本接口:接口成本
17、(1萬(wàn)元萬(wàn)元),傳輸速度傳輸速度(600Mbps)n 視頻信息的采集視頻采集卡1394第72頁(yè)n 視頻采集卡的分類和特點(diǎn)(Cont.)n模擬視頻卡n黑白黑白/彩色彩色nVideo(包括:包括:P制、制、N制和多制制和多制)n分量輸入(包括:分量輸入(包括:YUV(亮度和色差),電視臺(tái)常用;(亮度和色差),電視臺(tái)常用;RBG,醫(yī)學(xué)上常用),醫(yī)學(xué)上常用)nS-Video輸入:亮度和色度分離輸入:亮度和色度分離n壓縮卡、非壓縮卡壓縮卡、非壓縮卡n 視頻信息的采集視頻采集卡第73頁(yè)n 視頻采集卡的供應(yīng)商及特點(diǎn)n國(guó)外n最大廠商:加拿大最大廠商:加拿大Matroxn其次:比利時(shí)其次:比利時(shí)Euresysn
18、特點(diǎn):價(jià)格高出國(guó)內(nèi)或合資一個(gè)數(shù)量級(jí),信噪比高,特點(diǎn):價(jià)格高出國(guó)內(nèi)或合資一個(gè)數(shù)量級(jí),信噪比高,多用于非批量及專業(yè)圖像處理多用于非批量及專業(yè)圖像處理n 視頻信息的采集視頻采集卡第74頁(yè)n 視頻采集卡的供應(yīng)商及特點(diǎn)(Cont.)n國(guó)內(nèi)n最大廠商:大恒圖像最大廠商:大恒圖像 特點(diǎn):特點(diǎn):支持多操作系統(tǒng),各特殊需求或行業(yè)的技術(shù)支持強(qiáng),支持多操作系統(tǒng),各特殊需求或行業(yè)的技術(shù)支持強(qiáng),適合中批量的產(chǎn)品開(kāi)發(fā)適合中批量的產(chǎn)品開(kāi)發(fā)n合資企業(yè):德加拉、圖碼合資企業(yè):德加拉、圖碼 特點(diǎn):特點(diǎn):低價(jià)格,不重視個(gè)性服務(wù)(或者說(shuō)技術(shù)來(lái)源于國(guó)外低價(jià)格,不重視個(gè)性服務(wù)(或者說(shuō)技術(shù)來(lái)源于國(guó)外其他企業(yè),技術(shù)服務(wù)成本高),大量產(chǎn)品(硬
19、盤(pán)錄像機(jī))用其他企業(yè),技術(shù)服務(wù)成本高),大量產(chǎn)品(硬盤(pán)錄像機(jī))用n臺(tái)灣:臺(tái)灣:Liseview 特點(diǎn):特點(diǎn):分工明確,研發(fā)、生產(chǎn)、銷售由不同的企業(yè)完成,分工明確,研發(fā)、生產(chǎn)、銷售由不同的企業(yè)完成,OEM (Original Equipment Manufacturer)造成多品牌,單造成多品牌,單家企業(yè)生產(chǎn),批量很大成本很低,適合家庭使用家企業(yè)生產(chǎn),批量很大成本很低,適合家庭使用n 視頻信息的采集視頻采集卡第75頁(yè)n 視頻采集卡的工作原理復(fù)合視頻輸入1 或Y1復(fù)合視頻輸入2 或C2復(fù)合視頻輸入3 或Y2復(fù)合視頻輸入4 或C3多路開(kāi)關(guān)數(shù)字解碼A/DYUV4:2:2緩存PCI總線 VGA顯示卡系統(tǒng)
20、內(nèi)存DH-VRT-CG200 圖像板復(fù)合視頻輸入5 或Y3復(fù)合視頻輸入6 或C1驅(qū)動(dòng)監(jiān)視器n 視頻信息的采集視頻采集卡第76頁(yè)n 視頻采集卡的硬件安裝n與VGA卡連接 n 視頻信息的采集視頻采集卡第77頁(yè)n 視頻采集卡的硬件安裝n與VGA顯示器連接 n 視頻信息的采集視頻采集卡第78頁(yè)n 視頻采集卡的硬件安裝n與視頻信號(hào)源的連接 n 視頻信息的采集視頻采集卡視頻線(同軸電纜)第79頁(yè)n 圖像類型n 真彩色圖像(24bit)n又稱又稱RGB圖像,用圖像,用R、G、B三個(gè)顏色分量表示一個(gè)三個(gè)顏色分量表示一個(gè)像素的顏色,通過(guò)三基色可以合成出任意顏色。像素的顏色,通過(guò)三基色可以合成出任意顏色。n對(duì)一個(gè)
21、尺寸為對(duì)一個(gè)尺寸為mn的彩色圖像來(lái)說(shuō),在的彩色圖像來(lái)說(shuō),在MATLAB中存儲(chǔ)為一個(gè)中存儲(chǔ)為一個(gè)mn3的多維數(shù)組。的多維數(shù)組。n圖像圖像a中任中任意意一點(diǎn)(一點(diǎn)(x,y)處的像素值)處的像素值 a(x,y,1:3);n真彩色圖像可用真彩色圖像可用“double”型存儲(chǔ),亮度值的范圍型存儲(chǔ),亮度值的范圍0,1,(0,0,0)代表黑色,代表黑色,(1,1,1)代表白色代表白色n真彩色圖像也可用真彩色圖像也可用“uint”型存儲(chǔ),亮度值范圍型存儲(chǔ),亮度值范圍0,255第80頁(yè)n 圖像類型n 索引色圖像n不同顏色對(duì)應(yīng)不同序號(hào),各像素不同顏色對(duì)應(yīng)不同序號(hào),各像素存儲(chǔ)的是顏色的序號(hào)存儲(chǔ)的是顏色的序號(hào),而不是
22、顏色本身。而不是顏色本身。n索引色圖像包含兩個(gè)結(jié)構(gòu):調(diào)色板和圖像數(shù)據(jù)矩陣。索引色圖像包含兩個(gè)結(jié)構(gòu):調(diào)色板和圖像數(shù)據(jù)矩陣。最多最多64K。n調(diào)色板是一個(gè)調(diào)色板是一個(gè)m3的色彩映射矩陣,矩陣的每一行代的色彩映射矩陣,矩陣的每一行代表一種色彩,通過(guò)三基色顏色強(qiáng)度的雙精度數(shù),形成表一種色彩,通過(guò)三基色顏色強(qiáng)度的雙精度數(shù),形成一種特定的顏色。一種特定的顏色。n用用Matlab的的hot(m)產(chǎn)生一個(gè)產(chǎn)生一個(gè)m3的調(diào)色板。顏色從的調(diào)色板。顏色從黑經(jīng)過(guò)紅、橘紅、黃到白。黑經(jīng)過(guò)紅、橘紅、黃到白。第81頁(yè)n 圖像類型n 索引色圖像(Demo)Demo:每個(gè)豎線代表一個(gè)顏色索引但是具體顯示顏色由colormap決
23、定imagesc(1:63);colormap(bone);colormap(pink);colormap(hot);Colormap有:Autumn,bone,colorcube,cool,copper,flag,gray,hotHsv,jet,lines,pink,prism,summer,white,winter第82頁(yè)n 圖像類型Demo:RGB索引色m1=imread(cyx.JPG);imagesc(dither(m1,bone);imagesc(dither(m1,hot);imagesc(dither(m1,cool);imagesc(dither(m1,pink);image
24、sc(dither(m1,bone);colormap(bone);DITHER Convert image using dithering. X = DITHER(RGB,MAP) creates an indexed image approximation of the RGB image in the array RGB by dithering the colors in colormap MAP. MAP cannot have more than 65536 colors.Demo:RGB索引色RGB = imread(cyx.jpg);X,map = rgb2ind(RGB,16
25、);imshow(X,map);IMAGESC Scale data and display as image. IMAGESC(.) is the same as IMAGE(.) except the data is scaled to use the full colormap.第83頁(yè)n 圖像類型n 灰度圖像n灰度圖像只有強(qiáng)度信息,而沒(méi)有顏色信息?;叶葓D像只有強(qiáng)度信息,而沒(méi)有顏色信息。n存儲(chǔ)灰度圖像只需要一個(gè)數(shù)據(jù)矩陣,每個(gè)元素表示對(duì)應(yīng)位置的存儲(chǔ)灰度圖像只需要一個(gè)數(shù)據(jù)矩陣,每個(gè)元素表示對(duì)應(yīng)位置的像素的灰度值。像素的灰度值。n灰度圖像的數(shù)據(jù)類型可以是灰度圖像的數(shù)據(jù)類型可以是double型,
26、也可以是型,也可以是uint型。型。n 二值圖像n只有黑白兩種值的圖像。只有黑白兩種值的圖像。n每個(gè)像素只取每個(gè)像素只取0或者或者1兩個(gè)數(shù)。兩個(gè)數(shù)。第84頁(yè)n 彩色空間(review)n RGBn HSV(HSI):面向用戶的一種符合主觀感覺(jué)的色彩模型,比RGB更接近人們對(duì)顏色的感知。nH(Hue)色度,表示顏色的種類;由)色度,表示顏色的種類;由0變到變到1,HSV顏色顏色由紅變?yōu)辄S,綠、青(由紅變?yōu)辄S,綠、青(cyan)、洋紅()、洋紅(magenta)、然)、然后變回紅色。后變回紅色。nS(Saturation)飽和度;由)飽和度;由0變到變到1,顏色由不飽和變?yōu)?,顏色由不飽和變?yōu)轱柡汀?/p>
27、飽和。nV (Value)亮度;由)亮度;由0變到變到1,顏色越來(lái)越亮。,顏色越來(lái)越亮。第85頁(yè)n 彩色空間的理解DEMO:用用PHOTOSHOP體會(huì)體會(huì)HSV和和RGB彩色空間彩色空間第86頁(yè)n RGB圖像空間的理解DEMO:D:Chapter 2imrender.m第87頁(yè)n RGB圖像空間的理解如何繪制二次色圖呢?第88頁(yè)n RGB圖像空間的理解10020030050100150200250300100200300501001502002503001002003005010015020025030010020030050100150200250300RGB第89頁(yè)n 靜態(tài)圖像的文件格式n
28、圖形變換格式圖形變換格式(graphics interchange format, GIF) 由由Compu-Serve公司于公司于1987年為制定彩色圖像傳輸協(xié)議而開(kāi)發(fā)年為制定彩色圖像傳輸協(xié)議而開(kāi)發(fā)的,它支持的,它支持64000像素的圖像,像素的圖像,256到到16M色的調(diào)色板色的調(diào)色板 支持一個(gè)文件包含多個(gè)子圖像(也稱子文件支持一個(gè)文件包含多個(gè)子圖像(也稱子文件subfiles)n 圖像文件格式及其轉(zhuǎn)換GIF格式文件第90頁(yè)n 靜態(tài)圖像的文件格式n圖形變換格式圖形變換格式(graphics interchange format, GIF) n 圖像文件格式及其轉(zhuǎn)換DEMO:用用FLASH制
29、作含多個(gè)子制作含多個(gè)子圖像的圖像的GIF格式文件格式文件制作步驟:(1)插入文本(2)右鍵,轉(zhuǎn)換為圖形元件(3)20幀處插入關(guān)鍵幀(4)用變形工具將文字變形(5)插入補(bǔ)間動(dòng)畫(huà)(6)發(fā)布設(shè)置,選中GIF(7)在GIF選項(xiàng)卡中將“動(dòng)畫(huà)”選中(8)導(dǎo)出成GIF格式動(dòng)畫(huà)第92頁(yè)n 靜態(tài)圖像的文件格式n標(biāo)記圖像文件格式標(biāo)記圖像文件格式(tag image file format, TIFF),也,也支持一個(gè)文件包含多個(gè)子圖像支持一個(gè)文件包含多個(gè)子圖像n 圖像文件格式及其轉(zhuǎn)換TIFF格式文件第93頁(yè)n 靜態(tài)圖像的文件格式n目標(biāo)圖像格式目標(biāo)圖像格式(target image format, TGA) TIP
30、S軟件使用的文件格式。由描述圖像屬性的軟件使用的文件格式。由描述圖像屬性的文件頭文件頭(header)和描述各點(diǎn)像素值的和描述各點(diǎn)像素值的文件體(文件體(body)組成組成n 圖像文件格式及其轉(zhuǎn)換TGA圖像文件結(jié)構(gòu)原理圖第94頁(yè)n 靜態(tài)圖像的文件格式n位圖位圖(bitmap, BMP) 與設(shè)備無(wú)關(guān)與設(shè)備無(wú)關(guān) Windows推薦使用推薦使用 位映射的存儲(chǔ)形式位映射的存儲(chǔ)形式n 圖像文件格式及其轉(zhuǎn)換BMP圖像文件結(jié)構(gòu)原理圖第95頁(yè)n 動(dòng)態(tài)圖像的文件格式nAVI格式文件轉(zhuǎn)換為格式文件轉(zhuǎn)換為MPEG格式格式DEMO (AimOne) DEMO (WinMPG)n 圖像文件格式及其轉(zhuǎn)換Drive.avi
31、Drive.mpg第96頁(yè)n 動(dòng)態(tài)圖像的文件格式nAVI格式文件轉(zhuǎn)換為格式文件轉(zhuǎn)換為.GIF格式圖像格式圖像 DEMO (AniMake) :用Windows Movie Maker錄像,用AniMake進(jìn)行文件格式轉(zhuǎn)換,保存為序列GIF圖,改變播放速度,改變播放順序,改變圖片方向,在某(些)幀增加說(shuō)明性文字。用Photoshop處理,然后返回保存n 圖像文件格式及其轉(zhuǎn)換Drive.aviDrive.gif第97頁(yè)n 用Matlab實(shí)現(xiàn)圖像的讀寫(xiě)和顯示n命令命令1: imread Imread函數(shù),用于讀入各種圖像文件函數(shù),用于讀入各種圖像文件 舉例:舉例:img1=imread(huangg
32、uoshu.jpg);n命令命令2: imwrite Imwrite函數(shù),用于讀入各種圖像文件函數(shù),用于讀入各種圖像文件 舉例:舉例:img1=imwrite(huangguoshu.jpg);n命令命令3: imageImage函數(shù),用于顯示圖像文件函數(shù),用于顯示圖像文件舉例舉例 image(img1);n 視頻信息的處理讀寫(xiě)和顯示圖像文件第98頁(yè)n 用Matlab實(shí)現(xiàn)圖像的疊加效果(DEMO)m1=imread(koala.JPG);m2=imread(penguins.JPG);axes(position,0 0 1 1);image(double(m1)/2+double(m2)/2)
33、/256);colorbar;n 視頻信息的處理圖像的疊加、二值化、邊緣提取n 用Matlab實(shí)現(xiàn)圖像的二值化m1=imread(koala.JPG);im2bw(m1);第99頁(yè)n 圖像信息的處理邊緣提取與圖像切割n 用Matlab實(shí)現(xiàn)邊緣提?。ǚ椒ㄒ唬﹎1=imread(cyx.JPG);imshow(bwperim(im2bw(m1);n 用Matlab實(shí)現(xiàn)邊緣提?。ǚ椒ǘ﹎1=imread(cyx.JPG);imshow(edge(rgb2gray(m1),canny); n 用Matlab實(shí)現(xiàn)圖像切割m1=imread(huangguoshu.JPG);subplot(1,2,1)
34、;axis equal;image(m1);subplot(1,2,2);axis equal;image(m1(300:1300,200:1200,:);試驗(yàn)另一種算子: prewitt第100頁(yè)n 用Matlab實(shí)現(xiàn)移動(dòng)目標(biāo)提?。◣罘ǎゝunction imgdiffimg1=imread(i1.bmp);img2=imread(i2.bmp);h=figure(1);set(h,Position,10 40 300*3 200);sub1=subplot(1,3,1);set(sub1,Position,0 0 1/3 1);image(img1);axis off;sub2=subp
35、lot(1,3,2);set(sub2,Position,1/3 0 1/3 1);image(img2);axis off;sub3=subplot(1,3,3);set(sub3,Position,2/3 0 1/3 1);image(uint8(abs(double(img2)-double(img1);axis off;return;n 視頻信息的處理移動(dòng)目標(biāo)提取第101頁(yè)nDemo(D:Chapter 2imageprocessingimgdiff.m)n 視頻信息的處理移動(dòng)目標(biāo)提取背景圖一幀圖像幀差法處理后圖像第102頁(yè)n 基于文字本質(zhì)特征的方法基于文字本質(zhì)特征的方法n 視頻信息的
36、處理文字提取 A 上上 (English) (Chinese) (Japanese) 文字有線段構(gòu)成 每個(gè)線段寬度基本相同 每個(gè)線段長(zhǎng)寬比例適中第103頁(yè)n Demon 視頻信息的處理文字提取 原始視頻信息 文字提取結(jié)果第104頁(yè)n 視頻信息的處理文字提取 Wearable Computer Display Digital Camera n 系統(tǒng)構(gòu)成系統(tǒng)構(gòu)成第105頁(yè)n 視頻信息的處理文字提取n 系統(tǒng)工作原理系統(tǒng)工作原理OCRSystemImageTextDetectionCutting &RotationBinarisationImageSize, Location &DirectionTr
37、anslatorCameraCut andRotatedImageBinarizedImageTranslated TextDisplayWearable ComputerRecognized TextOCR (Optical Character Recognition,光學(xué)字符識(shí)別) 中國(guó)OCR信息網(wǎng)http:/ 第106頁(yè)n 視頻信息的處理文字提取n OCROCR在線識(shí)別在線識(shí)別DEMODEMOhttp:/原文件原文件。A. Image Cutting and Rotation After detecting the characters, we should integrate some
38、 single characters into one wo涌which is much easier to be企derstood眷the we企er. We realize this function based on clustering. According to the difference of character size for different languages, we can predefine some thresholds. If the distance between some characters is less than the threshold, the
39、n they are clustered into one class (In English, it may be a word or some words). We use rectangles to confine the extracted words, seeing Figure 7. In order to speedup the recognition企OCR system, only the confined rectangle images are input into OCR system.,Wearable Robot Intelligent Glasses OCR識(shí)別結(jié)果識(shí)別結(jié)果第107頁(yè)n 視頻信息的處理文字提取n OCROCR在線識(shí)別在線識(shí)別DEMO-DEMO-漢王漢王PDF OCRPDF OCR系統(tǒng)系統(tǒng)原文件原文件圖像文件格式及其轉(zhuǎn)換_靜態(tài)圖像的文件格式_圖形變換格式(graphics interchange format, GIF) 由Compu-Serve公司于1987年為制定彩色圖像傳輸協(xié)議而開(kāi)發(fā) 的,它支持64000像素的圖像,256到16M色的調(diào)色板GIF格式文件OCR識(shí)別結(jié)果識(shí)別結(jié)果第108頁(yè)n 視頻信息的處理文字提取n DemoChapter 2視頻信息處理視頻信息處理wear_new.avi第109頁(yè)n 視頻信息
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 實(shí)務(wù)知識(shí)演練初級(jí)社會(huì)工作者試題及答案
- Msoffice技能提升與試題及答案
- 齊魯?shù)赜蛭幕囶}及答案
- 二級(jí)計(jì)算機(jī)考試全方位復(fù)習(xí)指南及答案
- 皮內(nèi)注射知識(shí)試題及答案
- 2025年石材、石料加工品及制品項(xiàng)目申請(qǐng)報(bào)告
- 網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)師考試高效學(xué)習(xí)策略試題及答案
- 網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)師考試學(xué)習(xí)隊(duì)伍及試題及答案
- 輔導(dǎo)員面試題及答案
- 設(shè)計(jì)師職業(yè)路徑規(guī)劃試題及答案
- 毛絨玩具驗(yàn)貨報(bào)告 格式
- GB/T 31517.1-2022固定式海上風(fēng)力發(fā)電機(jī)組設(shè)計(jì)要求
- GB/T 3098.2-2015緊固件機(jī)械性能螺母
- GB/T 20319-2017風(fēng)力發(fā)電機(jī)組驗(yàn)收規(guī)范
- FZ/T 93074-2011熔噴法非織造布生產(chǎn)聯(lián)合機(jī)
- Array產(chǎn)品技術(shù)培訓(xùn)手冊(cè)課件
- 老年人營(yíng)養(yǎng)篩查與評(píng)估
- 部編版二年級(jí)下冊(cè)第八單元口語(yǔ)交際課件
- 海洋生物活性成分的提取、分離與結(jié)構(gòu)分析
- 案場(chǎng)考試題庫(kù)
- 火力發(fā)電企業(yè)作業(yè)活動(dòng)風(fēng)險(xiǎn)分級(jí)管控清單(參考)
評(píng)論
0/150
提交評(píng)論