版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、多媒體信息處理劉 剛網(wǎng)絡搜索教研中心模式識別與智能系統(tǒng)實驗室2022年5月4日星期三信息工程導論 目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié)2022年5月4日2信息與通信工程學院 1.概述 什么是多媒體 為什么要研究多媒體信息 信息處理流程 多媒體信息處理研究內(nèi)容2022年5月4日3信息與通信工程學院 1.1 什么是多媒體 媒體(Media)就是人與人之間實現(xiàn)信息交流的中介,簡單地說,就是信息的載體,也稱為媒介。 多媒體就是多重媒體的意思 可以理解為直接作用于人感官的文字、圖形、圖像、動畫、聲音和視頻等各種媒體的統(tǒng)稱,即多種信息載體的表現(xiàn)形式和傳遞方式
2、。2022年5月4日4信息與通信工程學院 信息來源統(tǒng)計 根據(jù)美國哈佛商學院有關(guān)研究人員的分析資料表明,人的大腦每天通過五種感官接受外部信息的比例分別為:味覺1%,觸覺1.5%,嗅覺3.5%,聽覺11%,以及視覺83%。 主要的三個媒體 聲音: 語音(語言的表達形式之一),音樂,音效(一般音頻) 圖像: 圖形,圖像,動畫,視頻 文本(抽象): 文本(語言的表達形式之一),數(shù)據(jù)等2022年5月4日5信息與通信工程學院 1.2 為什么要研究多媒體信息 多媒體是信息載體的總稱,是信息的承載形式或表現(xiàn)形式。 多媒體信息處理,實際上就是信息處理。 信息及其處理是當前時代的標志 信息處理是信息工程專業(yè)的使命
3、 多媒體信息處理又有自身的特點2022年5月4日6信息與通信工程學院 2022年5月4日信息與通信工程學院 7信息及其處理是當前時代的標志l社會發(fā)展史:l 農(nóng)業(yè)社會(物質(zhì)資源)l 擴展人的體質(zhì)能力l工業(yè)社會(能量資源)l 擴展人的體力能力l信息社會(信息資源)l 擴展人的智力能力l沒有物質(zhì)什麼都不存在,沒有能量什麼都沒有物質(zhì)什麼都不存在,沒有能量什麼都不發(fā)生,沒有信息什麼都沒意義不發(fā)生,沒有信息什麼都沒意義信息處理是信息工程專業(yè)的使命 信息工程的使命 信息工程是面向信息通信行業(yè),口徑寬、適應面廣的專業(yè)。該專業(yè)培養(yǎng)系統(tǒng)掌握信息傳輸和處理的基本理論和基本知識,掌握信息獲取和應用的核心技術(shù),能從事現(xiàn)
4、代信息網(wǎng)絡和智能信息系統(tǒng)的設計、開發(fā)、研究及運營等方面工作的高素質(zhì)專門人才。2022年5月4日8信息與通信工程學院多媒體信息處理又有自身的特點 音頻-隨機 視頻-隨機 文本/數(shù)據(jù)-確定 多媒體融合2022年5月4日信息與通信工程學院 9如何結(jié)合不同媒體的特點進行如何結(jié)合不同媒體的特點進行更好的信息處理更好的信息處理如何進行多個媒體的信息融合如何進行多個媒體的信息融合處理處理1.3 信息處理的流程2022年5月4日信息與通信工程學院 10信息處理的流程 信息科學基本原理2022年5月4日信息與通信工程學院 11通信通信1.3 信息處理的流程2022年5月4日信息與通信工程學院 12信息獲取通信信
5、息決策信息施效通信多媒體信息處理多媒體信息處理主要研究與媒體相主要研究與媒體相關(guān)的部分關(guān)的部分1.4 多媒體信息處理研究內(nèi)容2022年5月4日信息與通信工程學院 13數(shù)字信號處理數(shù)據(jù)采集技術(shù)通信原理信息處理與編碼模式識別Web搜索語音信號數(shù)字處理 , 數(shù)字圖像處理信號層次內(nèi)容層次1.4 多媒體信息處理研究內(nèi)容 研究如何更有效地產(chǎn)生、傳輸、存儲、獲取和應用多媒體信息 多媒體信息采集 多媒體通信/存儲 多媒體編碼/譯碼-信源編碼 多媒體內(nèi)容處理-智能信息處理 多媒體信息識別 多媒體信息檢索 多媒體信息生成2022年5月4日14信息與通信工程學院 目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別
6、多媒體信息檢索多媒體信息生成總結(jié)2022年5月4日15信息與通信工程學院 2.多媒體信息采集 概述 傳感器 模數(shù)轉(zhuǎn)換/數(shù)模轉(zhuǎn)換 噪聲處理等預處理2022年5月4日16信息與通信工程學院 2.1多媒體信息采集-概述 采集原則 不失真 有用信號不失真 噪聲干擾小 處理過程 傳感器采集 模數(shù)轉(zhuǎn)換/數(shù)模轉(zhuǎn)換 噪聲處理等預處理2022年5月4日17信息與通信工程學院 2.2 傳感器 傳感器 transducer/sensor 一種檢測裝置,能感受到被測量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號或其他所需形式的信息輸出 兩個功能 信號敏感 換能2022年5月4日信息與通信工程學院 182.2
7、傳感器 傳感器是人類五官的延長,又稱之為電五官 光敏傳感器視覺 聲敏傳感器聽覺 氣敏/化學傳感器嗅覺 化學傳感器味覺 壓敏、溫敏、流體 傳感器觸覺2022年5月4日信息與通信工程學院 19可燃氣體感器二氧化氮傳感器鹽度傳感器紅外壓力可穿戴柔性觸覺2.2 傳感器-Mic陣列2022年5月4日20信息與通信工程學院 2.2 傳感器-Mic陣列2022年5月4日21信息與通信工程學院 2.2 傳感器-Mic陣列2022年5月4日22信息與通信工程學院 針對復雜應用如: 音源定位 遠距離聲音采集 聲場分析等2022年5月4日信息與通信工程學院 012345672.3 模數(shù)轉(zhuǎn)換模數(shù)轉(zhuǎn)換量化量化編碼編碼0
8、00011 011100 100101110 111 111 111111110101 011010量化誤差量化誤差0.5-0.5抽樣抽樣23圖像二值化等2022年5月4日24信息與通信工程學院 2.3 預處理 噪聲的去除和有用信息的初步提取 降噪 分割 檢測 2022年5月4日信息與通信工程學院 25語音預處理 語音增強 語音端點檢測2022年5月4日信息與通信工程學院 26譜減法語音增強Kalman濾波法2022年5月4日27圖像的降噪http:/ 2022年5月4日28圖像增強信息與通信工程學院 2022年5月4日29圖像恢復圖像恢復運動模糊圖像運動模糊圖像恢復圖像恢復圖像信息與通信工程
9、學院 2022年5月4日30圖像的分割信息與通信工程學院 周界檢測系統(tǒng)l 系統(tǒng)可以自動檢測到進入到場景中的運動目標,判斷是否進入設定警戒區(qū)域。l 應用場景:機場,小區(qū),軍事禁區(qū)2022年5月4日31信息與通信工程學院 目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié)2022年5月4日32信息與通信工程學院 3.多媒體通信和存儲多媒體編碼 為什么要進行編碼 信源編碼-壓縮,提高有效性 為什么可以壓縮 信號本身的冗余度-語音 感知特性-人耳的聽覺特性 語音-G.721,G.729,G.723.1 混合音頻編碼 圖像-JPEG、JPEG2000 視頻- MPEG-
10、1,MPEG-2和MPEG-4,H261,H.263,MPEG7,MPEG212022年5月4日33信息與通信工程學院 目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié)2022年5月4日34信息與通信工程學院 4. 多媒體信息識別 模式識別概述 語音識別 音頻事件識別 圖像識別 多模態(tài)模式識別2022年5月4日35信息與通信工程學院 4.1 模式識別 模式識別(Pattern Recognition) 模式分類 模式識別是從模式到類別的映射 模式識別是模擬人的某些功能 模擬人的視覺: 計算機+光學系統(tǒng)-圖像識別 模擬人的聽覺: 計算機+聲音傳感器-語音識別
11、模擬人的嗅覺和觸覺: 計算機+傳感器 模式識別是從模式到類別的映射2022年5月4日36信息與通信工程學院 模式識別在智能信息處理中的地位2022年5月4日37信息與通信工程學院 模式識別在信息處理中的地位2022年5月4日信息與通信工程學院 382022年5月4日信息與通信工程學院 38信息獲取通信信息處理信息施效通信模式識別的原理框圖2022年5月4日39信息與通信工程學院 模式識別的原理4.2 語音識別 什么是語音識別 語音識別是研究如何采用數(shù)字信號處理技術(shù)自動提取以及決定語音信號中最基本、最有意義的信息的一門新興的邊緣學科。 分類 語音識別(內(nèi)容) 特定人/非特定人,孤立詞/連續(xù)語音/
12、關(guān)鍵詞識別 說話人識別/聲紋 語種識別/方言識別 性別識別 情緒識別,母語/ 非母語,發(fā)音評價,疾病診斷,說話時吃東西?2022年5月4日41信息與通信工程學院 演示系統(tǒng) 語音輸入法/語音搜索 谷歌、百度、搜狗、訊飛、微信 語音問答系統(tǒng) 蘋果 SIRI 計算機聲控系統(tǒng)2022年5月4日42信息與通信工程學院 4.3 音頻事件識別 語音音頻 音頻事件識別 關(guān)鍵事件-安全監(jiān)控 腳步聲,關(guān)門開門聲,槍聲,玻璃破碎聲,重物落地聲,語音等 音頻場景分析/情境計算 音視頻摘要、檢索2022年5月4日43信息與通信工程學院 演示系統(tǒng)2022年5月4日信息與通信工程學院 444.4 圖像識別 一、二維條碼識別
13、簡單問題 文字識別、指紋識別、虹膜識別、掌紋識別、人臉識別、車牌識別 物體識別2022年5月4日45信息與通信工程學院 46字符識別脫機 offline OCR聯(lián)機 online 手寫輸入2022年5月4日信息與通信工程學院 2022年5月4日47 遼C79388信息與通信工程學院 人臉識別 人臉識別是指通過人臉進行身份確認或者身份查找的技術(shù) 人臉圖像采集 人臉定位 人臉識別預處理 身份確認以及身份查找等;2022年5月4日48信息與通信工程學院 49人臉檢測2022年5月4日信息與通信工程學院 50人臉識別2022年5月4日信息與通信工程學院 51指紋識別2022年5月4日信息與通信工程學院
14、 52虹膜識別2022年5月4日信息與通信工程學院 生物特征識別u生物特征識別:未來的身份驗證方法!u生物:指紋、虹膜、人臉、掌紋、手形、視網(wǎng)膜、紅外溫譜u行為:筆跡、步態(tài)、聲紋2022年5月4日53信息與通信工程學院 手勢識別 體態(tài)識別 靜止 運動 步態(tài)識別2022年5月4日54信息與通信工程學院 物體識別(圖像解析)2022年5月4日55信息與通信工程學院 4.5 多模態(tài)模式識別 聽覺視覺雙模態(tài)語音識別聽覺視覺雙模態(tài)語音識別 視頻與聽覺語音聯(lián)合使用,提高識別率-多媒體融合2022年5月4日56信息與通信工程學院 目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生
15、成總結(jié)2022年5月4日57信息與通信工程學院 5.多媒體信息檢索 文本檢索 語音檢索 音頻檢索 圖像檢索 多媒體融合信息檢索2022年5月4日58信息與通信工程學院 5.1文本檢索 另外一講 多媒體檢索與文本檢索的異同 文本檢索是信息檢索的基礎(chǔ) 多媒體檢索需要進行識別再進行檢索 識別錯誤會產(chǎn)生影響2022年5月4日信息與通信工程學院 595.2 語音檢索 查詢方式文本,語音 檢索對象文本,語音2022年5月4日60信息與通信工程學院 語音檢索演示 語音檢索 檢索對象: 廣播新聞語音,如新聞聯(lián)播 檢索輸入: 文本2022年5月4日61信息與通信工程學院 2022年5月4日信息與通信工程學院 6
16、25.3 音頻檢索 基于樣例的音頻檢索 哼唱檢索 基于語義的音頻檢索音頻事件檢索音頻場景檢索2022年5月4日63信息與通信工程學院 基于樣例的音頻檢索 功能簡介 通過音頻片斷(原始的音頻片段或者錄制的)搜索到整個音頻的完整信息 2022年5月4日64信息與通信工程學院 2022年5月4日信息與通信工程學院 65基于樣例的音頻檢索哼唱檢索 QBH(Query By Humming) 通過哼唱歌曲的某個片段來找到想要搜尋的歌曲,是一種基于內(nèi)容的音樂信息檢索方式。2022年5月4日66信息與通信工程學院 2022年5月4日信息與通信工程學院 67多媒體融合信息檢索-以音樂檢索為例 檢索輸入 信息:
17、 歌名,歌手,歌詞,旋律,曲譜,流派,風格等 形式: 文本,語音,哼唱,音頻,圖像(曲譜) 檢索對象(輸出) 文本,語音,歌曲,圖像等 技術(shù) 文本檢索,語音檢索(語音識別),哼唱檢索,流派識別,樣例檢索,音頻屬性檢索,多媒體信息融合等2022年5月4日68信息與通信工程學院 5.4 圖像信息檢索 圖片檢索(谷歌、百度圖片搜索) 文本檢索圖片 圖片檢索圖片 基于圖像的商品檢索2022年5月4日69信息與通信工程學院 基于基于3G3G手機的圖片檢索系統(tǒng)手機的圖片檢索系統(tǒng)2022年5月4日70信息與通信工程學院 目錄概述多媒體信息采集多媒體通信/存儲多媒體信息識別多媒體信息檢索多媒體信息生成總結(jié)20
18、22年5月4日71信息與通信工程學院 6.多媒體信息生成 -虛擬現(xiàn)實/增強現(xiàn)實 多媒體信息的再生-轉(zhuǎn)換 多媒體信息的合成-合成 人臉表情合成 語音合成 聽覺場景生成 視覺場景生成 3D 4D 5D電影-全息 。2022年5月4日72信息與通信工程學院 6.1 語音合成(TTS) 什么是TTS Text To Speech 讓機器開口說話 評價指標 可懂度、自然度2022年5月4日73信息與通信工程學院 6.2 人臉表情合成2022年5月4日74信息與通信工程學院 6.2 人臉表情合成2022年5月4日75信息與通信工程學院 聽覺場景生成 計算聽覺場景分析 用計算機技術(shù)將人類聽覺對聲音的處理過程
19、( 聽覺場景分析) 建模, 使計算機具備從混合聲音中分離各物理聲源并作出合理解釋的能力。 聽覺場景生成 通過多揚聲器在新的聲學空間重現(xiàn)聲學場景 環(huán)繞立體聲 免提全息電話 Bee游戲 虛擬現(xiàn)實2022年5月4日76信息與通信工程學院 視覺場景生成 全息投影全息投影/景象景象 往往包括音頻(即聽覺)往往包括音頻(即聽覺) 3D 4D 5D電影-全息 Microsoft HoloLens 全息眼鏡 Magic Leap2022年5月4日信息與通信工程學院 773D,4D,5D電影 3D立體效果的基礎(chǔ)上增加動感座椅,環(huán)境特效,5D電影院讓觀眾從聽覺、視覺、觸覺,這幾方面達到最強大的逼真感 如同置身于影
20、片中,通過環(huán)境模擬實現(xiàn)風、雨、電、煙、雪花、泡泡、火焰掃腿、捅背、震動、香煙等環(huán)境效果,順著影視內(nèi)容變化可實時感受到置身“閃電、煙霧、雪花”中,在“火焰”前有灼熱感,海浪撲身時會“濕”了衣裳。體驗下墜、震動、刮風、下雨、掃腿等全新的真切感覺,對電影行業(yè)有一定的推動作用。2022年5月4日信息與通信工程學院 78Microsoft HoloLens 全息眼鏡 Holograms借助頭戴設備HoloLen的幫助,讓用戶的眼前出現(xiàn)懸浮界面,以實際環(huán)境作為載體,實時處理、獲取虛擬信息:如在墻上查看消息、查找聯(lián)系人,在地上玩游戲、在客廳墻上直接進行 Skype 視頻通話、觀看球賽。2022年5月4日信息與通信工程學院 7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個人與建筑公司借款合同范本匯編4篇
- 二零二五年度企業(yè)員工關(guān)系管理與沖突預防協(xié)議范本3篇
- 2025年度新型環(huán)保材料租賃經(jīng)營合同模板4篇
- 二零二五年度商業(yè)活動場地借用及宣傳合同2篇
- 二零二五年度體育產(chǎn)業(yè)普通合伙企業(yè)合作協(xié)議范本4篇
- 2025年度5G產(chǎn)業(yè)投資理財協(xié)議
- 2025年三方知識產(chǎn)權(quán)轉(zhuǎn)讓還款協(xié)議書范本及內(nèi)容說明3篇
- 個性化定制2024年版民間資金借貸協(xié)議范本版B版
- 2025年酒店住宿賠償協(xié)議范本
- 個人股份轉(zhuǎn)讓協(xié)議書
- 2024-2030年中國海泡石產(chǎn)業(yè)運行形勢及投資規(guī)模研究報告
- 動物醫(yī)學類專業(yè)生涯發(fā)展展示
- 2024年同等學力申碩英語考試真題
- 消除“艾梅乙”醫(yī)療歧視-從我做起
- 非遺文化走進數(shù)字展廳+大數(shù)據(jù)與互聯(lián)網(wǎng)系創(chuàng)業(yè)計劃書
- 2024山西省文化旅游投資控股集團有限公司招聘筆試參考題庫附帶答案詳解
- 科普知識進社區(qū)活動總結(jié)與反思
- 加油站廉潔培訓課件
- 現(xiàn)金日記賬模板(帶公式)
- 消化內(nèi)科??票O(jiān)測指標匯總分析
- 混凝土結(jié)構(gòu)工程施工質(zhì)量驗收規(guī)范
評論
0/150
提交評論