基于內(nèi)容的音頻信息檢索_第1頁(yè)
基于內(nèi)容的音頻信息檢索_第2頁(yè)
基于內(nèi)容的音頻信息檢索_第3頁(yè)
基于內(nèi)容的音頻信息檢索_第4頁(yè)
基于內(nèi)容的音頻信息檢索_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于內(nèi)容的音頻信息檢索武港山Tel:83594243Office:蒙民偉樓608BEmail:gswu@2023/10/9WuGangshan:ModernInformationRetrieval2Contents概述查詢方式語(yǔ)音檢索音頻檢索音樂(lè)檢索2023/10/9WuGangshan:ModernInformationRetrieval31音頻檢索概述音頻是多媒體中的一種重要媒體。我們能夠聽(tīng)見(jiàn)的音頻頻率范圍是60Hz~20kHz。其中語(yǔ)音大約分布在300Hz~4kHz之內(nèi),而音樂(lè)和其他自然聲響是全范圍分布的。聲音經(jīng)過(guò)模擬設(shè)備記錄或再生,成為模擬音頻,再經(jīng)數(shù)字化成為數(shù)字音頻。數(shù)字化時(shí)的采樣率必須高于信號(hào)帶寬的2倍,才能正確恢復(fù)信號(hào)。樣本可用8位或16位比特表示。2023/10/9WuGangshan:ModernInformationRetrieval41音頻檢索概述音頻是聲音信號(hào)的表示形式,作為一種信息載體,音頻可以分為三種類型:波形聲音對(duì)模擬聲音數(shù)字化而得到的數(shù)字音頻信號(hào)。它可以代表語(yǔ)音、音樂(lè)、自然界和合成的聲響。語(yǔ)音具有字詞、語(yǔ)法等語(yǔ)素,是一種高度抽象的概念交流媒體。語(yǔ)音經(jīng)過(guò)識(shí)別可以轉(zhuǎn)換為文本。文本是語(yǔ)音的一種腳本形式。音樂(lè)具有節(jié)奏、旋律或和聲等要素,是人聲或/和樂(lè)器音響等配合所構(gòu)成的一種聲音。音樂(lè)可以用樂(lè)譜來(lái)表示。2023/10/9WuGangshan:ModernInformationRetrieval5音頻信息的特征不同類型的聲音具有不同的內(nèi)在內(nèi)容。人們感受到的內(nèi)容不同。但從整體看,音頻內(nèi)容分為三個(gè)級(jí)別:最低層的物理樣本級(jí)、中間層的聲學(xué)特征級(jí)和最高層的語(yǔ)義級(jí),如下圖所示。從低級(jí)到高級(jí),其內(nèi)容逐級(jí)抽象,內(nèi)容的表示逐級(jí)概括。2023/10/9WuGangshan:ModernInformationRetrieval6音頻信息的特征音樂(lè)敘事、音頻對(duì)象描述、語(yǔ)音識(shí)別文本、事件……感知特征:音調(diào)、音高;旋律、節(jié)奏…聲學(xué)特征:能量、過(guò)零率、LPC系數(shù)…音頻結(jié)構(gòu)化表示采樣率、時(shí)間刻度樣本、格式、編碼……語(yǔ)義特征級(jí)物理特征級(jí)樣本數(shù)據(jù)級(jí)模糊匹配(基于內(nèi)容的檢索)嚴(yán)格匹配2023/10/9WuGangshan:ModernInformationRetrieval7

級(jí)別特征顯式表示可否用于檢索物理級(jí)聲學(xué)級(jí)語(yǔ)義級(jí)音頻信息的特征取樣頻率、量化精度、編碼方法、聲道數(shù)目、時(shí)間刻度信息(時(shí):分:秒:幀)...音量、音高、音域、音色、….如一段語(yǔ)音的中心思想、包含的關(guān)鍵詞、類型等,一段音樂(lè)的旋律、情緒、主題等...是否否少部分部分全部2023/10/9WuGangshan:ModernInformationRetrieval81音頻檢索概述基于人工輸入的屬性和描述來(lái)進(jìn)行音頻檢索是容易首先想到的方法。該方法的主要缺點(diǎn)反映在:當(dāng)數(shù)據(jù)量越來(lái)越多時(shí),人工的注釋強(qiáng)度加大;人對(duì)音頻的感知,如音樂(lè)的旋律、音調(diào)、音質(zhì)等,難以用文字注釋表達(dá)清楚。這些正是基于內(nèi)容的音頻檢索需要研究和解決的問(wèn)題。但同時(shí)應(yīng)該注意到音頻檢索可以利用的一個(gè)優(yōu)勢(shì),那就是語(yǔ)音是一種特殊類型的音頻,它與文本可以互相轉(zhuǎn)換,因此,可以利用文本檢索技術(shù)進(jìn)行概念檢索。2023/10/9WuGangshan:ModernInformationRetrieval9基于內(nèi)容的音頻檢索What?從聲學(xué)特征和語(yǔ)義特征進(jìn)行音頻信息的檢索稱為基于內(nèi)容的音頻檢索。困難:1數(shù)字音頻是一種不透明的位流,它不顯式地包含可識(shí)別或可比較的語(yǔ)義實(shí)體;2人工輸入音頻數(shù)據(jù)的屬性和內(nèi)容描述,工作量極大,注釋的準(zhǔn)確性依賴于人的水平、經(jīng)驗(yàn)和工作態(tài)度;3人對(duì)音頻信息(特別是音樂(lè))的感知,如音樂(lè)的旋律、音調(diào)、音質(zhì)等,難以用文字表達(dá)清楚。2023/10/9WuGangshan:ModernInformationRetrieval102、查詢方式:需求檢索包含特定內(nèi)容的一段講話(計(jì)算機(jī),互連網(wǎng),多媒體技術(shù)...)檢索指定說(shuō)話人的一段講話檢索指定類型的一段音頻(音樂(lè)、歌曲、報(bào)告、談話...)檢索指定旋律的一段音樂(lè)檢索指定樂(lè)器演奏的一段音樂(lè)2023/10/9WuGangshan:ModernInformationRetrieval112、查詢方式:用戶表達(dá)示例方式(byexample)也稱為擬聲方式(onomatopoeia)。用戶使用一個(gè)聲音例子表達(dá)其檢索要求,查找出與該聲音相似的所有聲音。例如:用戶可以發(fā)出嗡嗡聲來(lái)查找蜜蜂或電氣嘈雜聲檢索與飛機(jī)的轟鳴聲相似的所有聲音。直喻(simile)方式。通過(guò)選擇一些聲學(xué)/感知特性來(lái)描述檢索要求,如音色、音調(diào)等。2023/10/9WuGangshan:ModernInformationRetrieval122、查詢方式:用戶表達(dá)主觀特征方式。用描述語(yǔ)言來(lái)描述聲音,如尋找“歡快”的聲音。這需要預(yù)先訓(xùn)練系統(tǒng)理解這些描述語(yǔ)言的含義。瀏覽方式。對(duì)數(shù)據(jù)庫(kù)中所有的聲音逐個(gè)審聽(tīng),尋找所需要的聲音。這需要在分類的基礎(chǔ)上進(jìn)行,最好預(yù)先為每一段聲音做好摘要。2023/10/9WuGangshan:ModernInformationRetrieval13基于內(nèi)容的檢索過(guò)程用戶的查詢說(shuō)明示例一般性描述相似性匹配返回一組候選結(jié)果結(jié)束修改查詢說(shuō)明從候選結(jié)果中選擇一個(gè)示例滿意?NY2023/10/9WuGangshan:ModernInformationRetrieval14基于內(nèi)容檢索的特點(diǎn)是一種相似檢索,得到的是與用戶指定要求相似的一組結(jié)果。檢索時(shí)可以指定返回結(jié)果的數(shù)目,或要求檢索結(jié)果能滿足一定的相似度。可以強(qiáng)調(diào)或忽略某些特征,對(duì)指定特征施加“l(fā)ess”或“more”等模糊運(yùn)算。3語(yǔ)音檢索2023/10/9WuGangshan:ModernInformationRetrieval16語(yǔ)音檢索的對(duì)象及應(yīng)用檢索對(duì)象:語(yǔ)音文檔(broadcastradio,TVprograms,videotapes,lectures,voicememo,voicemail,voicephonebook,etc.)查詢方式:textand/orspeech

技術(shù):語(yǔ)音識(shí)別技術(shù),應(yīng)用:在電臺(tái)節(jié)目、電話錄音、會(huì)議錄音、教學(xué)錄音的數(shù)據(jù)管理與應(yīng)用中極為有用。2023/10/9WuGangshan:ModernInformationRetrieval17(1)利用語(yǔ)音識(shí)別技術(shù)進(jìn)行檢索利用自動(dòng)語(yǔ)音識(shí)別技術(shù)預(yù)先把語(yǔ)音轉(zhuǎn)換為文本(腳本):誤識(shí)率較高,含噪音數(shù)據(jù),無(wú)格式信息:標(biāo)題,段落,標(biāo)點(diǎn)符號(hào).需添加語(yǔ)音和文本的對(duì)齊信息:time-align含有語(yǔ)音的聲學(xué)特征信息和感知信息對(duì)腳本進(jìn)行處理,抽取摘要、關(guān)鍵詞等信息,采用常規(guī)的文本檢索方法進(jìn)行檢索。問(wèn)題:OOV(OutofVocabulary)問(wèn)題,1%是OOV詞匯,

2023/10/9WuGangshan:ModernInformationRetrieval18(2)基于說(shuō)話人辨認(rèn)進(jìn)行檢索辨別出說(shuō)話人語(yǔ)音的特點(diǎn),來(lái)檢索出指定人的錄音資料,如某位教授的講課錄音等。實(shí)現(xiàn):根據(jù)說(shuō)話人語(yǔ)音的變化分割錄音,預(yù)先建立錄音的結(jié)構(gòu)和索引;這種技術(shù)是簡(jiǎn)單地辨別出說(shuō)話人話音的差別,而不是識(shí)別出說(shuō)的是什么。2023/10/9WuGangshan:ModernInformationRetrieval19(2)基于說(shuō)話人辨認(rèn)進(jìn)行檢索它在合適的環(huán)境中可以做到非常準(zhǔn)確。利用這種技術(shù),可以根據(jù)說(shuō)話人的變化分割錄音,并建立錄音索引。用這種技術(shù)檢測(cè)視頻或多媒體資源的聲音軌跡中的說(shuō)話人的變化,建立索引和確定某種類型的結(jié)構(gòu)(如對(duì)話)。例如,分割和分析會(huì)議錄音,分割的區(qū)段對(duì)應(yīng)于不同的說(shuō)話人,可以方便地直接瀏覽長(zhǎng)篇的會(huì)議資料。2023/10/9WuGangshan:ModernInformationRetrieval20(3)基于關(guān)鍵詞發(fā)現(xiàn)技術(shù)進(jìn)行檢索“關(guān)鍵詞發(fā)現(xiàn)”(Spotting)技術(shù):在語(yǔ)音文檔中,自動(dòng)地檢測(cè)出指定的詞或短語(yǔ)的技術(shù),(例如通過(guò)“進(jìn)球”這個(gè)關(guān)鍵詞可以找到體育比賽實(shí)況錄音中進(jìn)球前后的解說(shuō))實(shí)現(xiàn):預(yù)先識(shí)別出指定集合中的關(guān)鍵詞,建立索引。問(wèn)題:關(guān)鍵詞集合固定,數(shù)量有限;語(yǔ)音數(shù)據(jù)以特征向量序列表示,索引很不方便.2023/10/9WuGangshan:ModernInformationRetrieval21Sub-wordLatticeBasedWordSpotting子詞(Sub-word)單位可以是音素、音節(jié)或半音節(jié)等.它是語(yǔ)音分析過(guò)程中的產(chǎn)物,與語(yǔ)種無(wú)關(guān).

Sub-wordLattice是一種有向無(wú)環(huán)圖.查詢時(shí)使用的關(guān)鍵詞,實(shí)時(shí)生成其子詞序列,子詞序列和Sub-wordLattice的進(jìn)行相似度匹配(后向搜索).t-1t0.850.210.730.352023/10/9WuGangshan:ModernInformationRetrieval22語(yǔ)音識(shí)別技術(shù)的應(yīng)用領(lǐng)域Growinginterestinthisarea:Videomailretrieval(Cam,UK)BBCnewsretrieval.Digitallibraryprojects(CMU的Informedia,Michagen的MSU,Sheffield和Cam的THIRLProject,Maryland的VoiceGraph,AT&TSCAN).ARPAbroadcastnews和TREC6,7,8的SDRWorkshop.4基于聲學(xué)特征的音頻檢索2023/10/9WuGangshan:ModernInformationRetrieval244基于聲學(xué)特征的音頻檢索音頻檢索是以波形聲音為對(duì)象的檢索,這里的音頻可以是汽車發(fā)動(dòng)機(jī)聲、雨聲、鳥(niǎo)叫聲,也可以是語(yǔ)音和音樂(lè)等,這些音頻都統(tǒng)一用聲學(xué)特征來(lái)檢索。雖然ASR可以對(duì)語(yǔ)音內(nèi)容給出有價(jià)值的線索,但是,還有大量其他的音頻數(shù)據(jù)需要處理,從聲音效果到動(dòng)物叫聲以及合成聲音等。因此,對(duì)于一般的音頻,僅僅有語(yǔ)音技術(shù)是不夠的,使用戶能從大型音頻數(shù)據(jù)庫(kù)中或一段長(zhǎng)錄音中找到感興趣的音頻內(nèi)容是音頻檢索要做的事。2023/10/9WuGangshan:ModernInformationRetrieval254基于聲學(xué)特征的音頻檢索音頻數(shù)據(jù)的訓(xùn)練、分類和分割方便了音頻數(shù)據(jù)庫(kù)的瀏覽和查找,基于聽(tīng)覺(jué)特征的檢索為用戶提供高級(jí)的音頻查詢接口。這里指的音頻檢索就是針對(duì)廣泛的聲音數(shù)據(jù)的檢索,分析和檢索的音頻可以包含語(yǔ)音和音樂(lè),但是采用的是更一般性的聲學(xué)特性分析方法。2023/10/9WuGangshan:ModernInformationRetrieval26(1)聲音訓(xùn)練和分類通過(guò)訓(xùn)練來(lái)形成一個(gè)聲音類。用戶選擇一些表達(dá)某類特性的聲音例子(樣本),如“腳步聲”。對(duì)于每個(gè)進(jìn)入數(shù)據(jù)庫(kù)中的聲音,先計(jì)算其N維聲學(xué)特征矢量,然后計(jì)算這些訓(xùn)練樣本的平均矢量和協(xié)方差矩陣,這個(gè)均值和協(xié)方差就是用戶訓(xùn)練得出的表達(dá)某類聲音的類模型。2023/10/9WuGangshan:ModernInformationRetrieval27(1)聲音訓(xùn)練和分類聲音分類是把聲音按照預(yù)定的類組合。首先計(jì)算被分類聲音與以上類模型的距離,可以利用Euclidean距離等方式度量,然后距離值與門限(閾值)比較,以確定是否該聲音納入或不屬于比較的聲音類。也有某個(gè)聲音不屬于任何比較的類的情況發(fā)生,這時(shí)可以建立新的類,或納入一個(gè)“其他”類,或歸并到距離最近的類中。2023/10/9WuGangshan:ModernInformationRetrieval28(2)聽(tīng)覺(jué)檢索聽(tīng)覺(jué)感知特性,如基音和音高等,可以自動(dòng)提取并用于聽(tīng)覺(jué)感知的檢索,也可以提取其他能夠區(qū)分不同聲音的聲學(xué)特征,形成特征矢量用于查詢。例如:按時(shí)間片計(jì)算一組聽(tīng)覺(jué)感知特征:基音、響度、音調(diào)等。考慮到聲音波形隨時(shí)間的變化,最終的特征矢量將是這些特征的統(tǒng)計(jì)值,例如用平均值、方差和自相關(guān)值表示。這種方法適合檢索和對(duì)聲音效果數(shù)據(jù)進(jìn)行分類,如動(dòng)物聲、機(jī)器聲、樂(lè)器聲、語(yǔ)音和其他自然聲等。2023/10/9WuGangshan:ModernInformationRetrieval29(3)音頻分割以上方法適合單體聲音的情況,如一小段電話鈴聲、汽車?guó)Q笛聲等。但是,一般的情況是一段錄音包含許多類型的聲音,由多個(gè)部分組成。更為復(fù)雜的情況是,以上各種聲音可能會(huì)混在一起,如一個(gè)有背景音樂(lè)的朗誦、同聲翻譯等。這需要在處理單體聲音之前先分割長(zhǎng)段的音頻錄音。另外,還涉及到區(qū)分語(yǔ)音、音樂(lè)或其他聲音。例如對(duì)電臺(tái)新聞節(jié)目進(jìn)行分割,分割出語(yǔ)音、靜音、音樂(lè)、廣告聲和音樂(lè)背景上的語(yǔ)音等。2023/10/9WuGangshan:ModernInformationRetrieval30(3)音頻分割處理通過(guò)信號(hào)的聲學(xué)分析并查找聲音的轉(zhuǎn)變點(diǎn)就可以實(shí)現(xiàn)音頻的分割。轉(zhuǎn)變點(diǎn)是度量特征突然改變的地方。轉(zhuǎn)變點(diǎn)定義信號(hào)的區(qū)段,然后這些區(qū)段就可以作為單個(gè)的聲音處理。例如,對(duì)一段音樂(lè)會(huì)的錄音,可通過(guò)自動(dòng)掃描找到鼓掌聲音,以確定音樂(lè)片斷的邊界。這些技術(shù)包括:暫停段檢測(cè)、說(shuō)話人改變檢測(cè)、男女聲辨別,以及其他的聲學(xué)特征。2023/10/9WuGangshan:ModernInformationRetrieval31(3)音頻分割的好處音頻是時(shí)基線性媒體?,F(xiàn)在我們看到的典型音頻播放接口是與磁帶錄音機(jī)相似的界面,具有停止、暫停、播放、快進(jìn)、倒帶等按鈕。為了不丟失其中的重要東西,必須從頭到尾聽(tīng)一遍聲音文件,這樣要花費(fèi)很多時(shí)間,即使使用“快進(jìn)”,也容易丟失重要的片斷,不能滿足信息技術(shù)的要求。因此,在分割的基礎(chǔ)上,就可以結(jié)構(gòu)化表示音頻的內(nèi)容,建立超越常規(guī)的順序?yàn)g覽界面和基于內(nèi)容的音頻瀏覽接口。2023/10/9WuGangshan:ModernInformationRetrieval32補(bǔ)充:AudioFeaturesFeaturesderivedinthetimedomain:~averageenergy~zerocrossingrate(ZCR):Itindicatesthefreqofsignalamplitudesignchange.~silenceratio:Thresholdingmaybetricky.Featuresderivedinthefreqdomain~soundspectrum【頻譜】~bandwidth【帶寬】:Musicusuallyhasahigherbandwidththanspeech.~energydistribution【能量分布】:Musicusuallyhasmorehighfreqcomponentsthanspeech.=>spectralcentroid/brightness(midpointofthespec

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論