音頻內(nèi)容沒法檢索_第1頁
音頻內(nèi)容沒法檢索_第2頁
音頻內(nèi)容沒法檢索_第3頁
音頻內(nèi)容沒法檢索_第4頁
音頻內(nèi)容沒法檢索_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——音頻內(nèi)容沒法檢索綜述音頻檢索內(nèi)容

[摘要]音頻是一種重要的媒體,它包含豐富的聽覺特征。根據(jù)基于內(nèi)容的音頻檢索的研究現(xiàn)狀,本文總結(jié)出基于內(nèi)容音頻檢索系統(tǒng)的概念,給出音頻檢索的根本布局,綜述了音頻檢索的關(guān)鍵技術(shù),并展望基于內(nèi)容音頻檢索領(lǐng)域的進(jìn)展前景。

[關(guān)鍵詞]基于內(nèi)容的音頻檢索音頻特征提取音頻分類音頻檢索

引言

隨著多媒體和Internet的廣泛應(yīng)用和深入普及,多媒體數(shù)據(jù)的數(shù)量正在呈指數(shù)增長,音頻數(shù)據(jù)作為多媒體數(shù)據(jù)的重要組成片面,其信息量也在急速膨脹,如何快速、切實的檢索到所需要的信息已經(jīng)成為現(xiàn)代信息檢索領(lǐng)域的一個重點。基于文本檢索的常規(guī)信息檢索技術(shù)已經(jīng)無法得志大量音頻數(shù)據(jù)的檢索需要,基于內(nèi)容的音頻信息檢索技術(shù)應(yīng)運而生。

基于內(nèi)容的音頻信息檢索突破了傳統(tǒng)的基于文本表達(dá)的局限,直接對音頻舉行分析,從中抽取內(nèi)容特征,然后利用這些內(nèi)容特征建立索引并舉行檢索,制止了用字符標(biāo)識音頻信息的轉(zhuǎn)化過程。他涉及音頻數(shù)字信號處理、語音識別、信息檢索、數(shù)據(jù)庫系統(tǒng)、模式識別、人工智能、數(shù)據(jù)挖掘等大量相關(guān)技術(shù),在Internet音樂檢索、數(shù)字音樂圖書館、點歌系統(tǒng)等領(lǐng)域中具有重要的應(yīng)用。

1基于內(nèi)容的音頻檢索的概念

基于內(nèi)容的音頻檢索,指通過音頻特征分析,對不同音頻數(shù)據(jù)賦以不同語義,使具有一致語義的音頻在聽覺上保持好像。該技術(shù)在大量領(lǐng)域都有極大應(yīng)用價值。

基于內(nèi)容的音頻檢索主要有兩個方面的含義:一是檢索音頻內(nèi)容本身,如通過“哼”某音樂的曲調(diào)查找音樂;二是檢索與音頻內(nèi)容相關(guān)的信息,如通過語音查找說話人等。

基于內(nèi)容的音頻索引和檢索通常采用下面的步驟:

(1)將音頻數(shù)據(jù)分類,通常可分為語音、音樂和噪聲等類型。

(2)不同類型的音頻數(shù)據(jù)可以以不同的方式舉行處理和索引。如,對語音可運用語音識別技術(shù)且可基于識別過的詞匯對其舉行索引。

(3)查詢音頻片段要同樣地舉行分類、處理和索引。

(4)根據(jù)查詢索引和數(shù)據(jù)中音頻索引之間的好像性,對音頻片段舉行檢索。

2基于內(nèi)容的音頻檢索系統(tǒng)根本布局

基于內(nèi)容的音頻數(shù)據(jù)庫檢索系統(tǒng)是一種重要的和關(guān)鍵的多媒體信息處理技術(shù)。一般可把基于內(nèi)容的音頻數(shù)據(jù)庫檢索系統(tǒng)看作是介于信息用戶和數(shù)據(jù)庫之間的一種信息服務(wù)系統(tǒng)。在音頻檢索中,需要經(jīng)過特征提取、音頻分割、音頻識別分類和索引檢索這幾個關(guān)鍵步驟[目:

特征提取指的是探索原始音頻信號表達(dá)形式,提取能代表原始信號的數(shù)據(jù)。要提取特征和屬性,通常要對數(shù)據(jù)庫中的多媒體數(shù)據(jù)項舉行預(yù)處理。由于在檢索過程中,其實是對這些特征和屬性而不是對信息項本省舉行探尋和對比,所以特征提取的質(zhì)量抉擇著檢索結(jié)果。

基于內(nèi)容的音頻檢索,一般分為音頻特征提取、音頻識別分類、檢索三個過程。在提取音頻特征之前,一般還需要對音頻數(shù)據(jù)舉行預(yù)處理,預(yù)處理主要包括預(yù)加重和加窗,加窗使音頻數(shù)據(jù)形成音頻幀。特征提取音頻的物理、聽覺或語義特征,其中根本要素的特征提取是以音頻幀為單位或者以若干幀組成的音頻片段為單位來舉行。音頻識別分類是對音頻舉行歸類劃分,分類本身可以是一種檢索方式,也可以作為檢索的一個輔佐手段,歸類越精確,一般來說檢索就越切實。檢索的過程是一個匹配的過程,根據(jù)音頻特征間的好像度給出檢索結(jié)果。檢索系統(tǒng)一般分為兩片面:一片面是數(shù)據(jù)庫的生成,即音頻數(shù)據(jù)及其特征錄入到數(shù)據(jù)庫;一片面是數(shù)據(jù)庫查詢,即用戶通過輸入音頻或輸入特征字符串在數(shù)據(jù)庫中查找所需要的音頻。系統(tǒng)根本構(gòu)成如圖2.2所示。

3基于內(nèi)容的音頻檢索系統(tǒng)特點

基于內(nèi)容的音頻檢索技術(shù)突破了基于關(guān)鍵詞匹配的傳統(tǒng)索引技術(shù)的限制,它根據(jù)音頻本身所固有的特征而不是人工標(biāo)注的外部屬性或者關(guān)鍵詞對音頻舉行檢索。它的核心思想是通過確定的計算處理,分析音頻的布局和語義,建立它們的布局化的組織和索引,使得“無序”的音頻變的“有序”,從而有利于用戶的檢索和欣賞。

基于內(nèi)容的音頻檢索技術(shù)的主要特點有:

(1)從媒體內(nèi)容中提取信息線索?;趦?nèi)容的檢索突破了傳統(tǒng)的基于表達(dá)式檢索的局限,利用音頻內(nèi)容特征建立索引舉行檢索。

(2)基于內(nèi)容的音頻檢索,躊躇內(nèi)容表達(dá)的不精確,必然是一種近似的檢索。結(jié)果中往往展現(xiàn)誤檢和遺漏。

(3)數(shù)據(jù)庫的快速檢索。在實際的多媒體數(shù)據(jù)庫中,不僅數(shù)據(jù)量巨大,而且種類和數(shù)量繁多,要求基于內(nèi)容的檢索技術(shù)實現(xiàn)對多媒體信息的快速檢索。

(4)作為一種多媒體技術(shù),具有很強(qiáng)的交互性(用戶可以參與檢索過程)。

4基于內(nèi)容的音頻檢索系統(tǒng)關(guān)鍵技術(shù)

4.1音頻特征提取

音頻特征提取是整個基于內(nèi)容的音頻檢索技術(shù)的核心技術(shù)。音頻內(nèi)容描述是在音頻內(nèi)容獲取的根基之上舉行的,同時是進(jìn)一步舉行音頻特征好像度匹配的必要前提。特征提取是指探索原始音頻信號表達(dá)形式,提取能代表原始信號的數(shù)據(jù)。要抽取特征和屬性,通常要對數(shù)據(jù)庫中的多媒體數(shù)據(jù)項舉行預(yù)處理。在檢索過程,需要對這些特征和屬性舉行不斷的探尋和對比。

4.1.1音頻時域特征的提取

可提取的音頻時域特征有平均能量、過零率和靜音比等。

平均能量說領(lǐng)略音頻信號的強(qiáng)度,可用于靜音檢測,對于一個音頻例子,如這個音頻例子中的某一短時幀的平均能量低于一個事先設(shè)定的閾值,那么可判定該短時幀為靜音。

過零率指每秒內(nèi)信號值通過零值的次數(shù),確定程度上說,它說領(lǐng)略平均信號頻率。一般語音信號由單詞構(gòu)成,單詞又由元音和輔音交替的音節(jié)組成,輔音信號的過零率低,而元音信號的過零率高。語音信號開頭和終止都大量集中了輔音信號,所以其開頭和終止片面的過零率總會有顯著升高,利用過零率可判斷語音是否開頭和終止。另外,大多數(shù)音樂信號集中在低頻片面,其過零率不表現(xiàn)出突然升高或降落的起伏特性,所以有時也可用過零率來區(qū)分語音和音樂兩種不同音頻信號。

靜音比表示靜音的聲音片段的比例。

4.1.2音頻頻域特征的提取

傅里葉變換可分解出音頻信號的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等。

(1)帶寬說領(lǐng)略聲音的頻率范圍,音樂通常比語音信號具有更高的帶寬;

(2)頻譜中心也稱亮度,是一個聲音頻譜能量分布的中心點。語音與音樂相比,頻譜中心較低;

(3)頻率為最低頻率的倍數(shù)的頻譜成分稱為諧音。在有諧音的聲音中,頻譜成分大片面是最低頻率的整數(shù)倍數(shù),音樂通常比其他聲音具有更多的諧音;

(4)音調(diào)是聽覺辨識聲音上下的特性,完全由頻率抉擇,可通過頻譜估計。

只有階段性的聲音,如那些由音樂設(shè)備和語音產(chǎn)生的聲音,才會產(chǎn)生一種音調(diào)的感覺。可根據(jù)音調(diào)的級別對聲音排序。音調(diào)是一個主觀特征。

4.2音頻分類與歸納

分類(classification)用于預(yù)料音頻對象的所屬類別。而聚類(clustering)是一個將數(shù)據(jù)集劃分為若干組或類的過程,通??梢远x為音頻的歸類問題.分類用于判別用戶提交的例如音頻或音頻文本屬于哪個類別,也可用于將一段新的音頻歸入已有的分類中(音頻識別)。

根據(jù)音頻的特征值可將音頻分類。常見的分類方法是:首先計算輸入音頻片段的頻譜中心,假設(shè)其頻譜中心值比預(yù)先設(shè)定的閾值高,那么認(rèn)為它是音樂:否那么它是語音,但由于有的音樂也具有低的頻譜中心值,因此它也可能是音樂。其次,計算靜音比,假設(shè)它的靜音比低,那么認(rèn)為它是音樂:否那么,認(rèn)為它是語音或獨奏音樂。結(jié)果計算平均過零率ZCR,假設(shè)它有著分外高的ZCR可變性,那么它是語音,否那么它是獨奏音樂。

在這種分類方法中,特征判定的依次是分外重要的,通常由計算的繁雜性和特征的區(qū)別抉擇。一般首先判定區(qū)別性大、繁雜性低的特征,這樣可裁減一個特殊音頻片段將要體驗的步驟數(shù),同時也可降低所需的整個計算量。

將音頻分類為語音和音樂后,就可以使用不同的技術(shù)對它們舉行單獨處理。

4.3音頻檢索

4.3.1語音識別和檢索

語音索引和檢索的根本方法是運用語音識別技術(shù)把語音信號轉(zhuǎn)化為文本,然后應(yīng)用IR技術(shù)舉行索引和檢索。除實際的發(fā)聲詞匯(spokenwords)外,包含在語音中的其他信息,如發(fā)音者的身份和心緒等,都有助語音索引和檢索。

語音檢索是采用語音識別、語音處理技術(shù)完成音頻信息檢索。主要包括大詞匯語音識別技術(shù)檢索:子詞單元檢索:關(guān)鍵詞識別檢索:對說話人的鑒別舉行分割檢索。

(1)大詞匯語音識別技術(shù)檢索

這種方法是利用自動語音識別(ASR)技術(shù)把語音轉(zhuǎn)換為文本,從而可以采用文本檢索方法舉行檢索。

(2)字詞單元檢索

當(dāng)語音識別系統(tǒng)處理各方面無限制主題的大范圍語音資料時,識別性能會變差,尤其當(dāng)一些專業(yè)詞匯不在系統(tǒng)詞庫中時。一種變通的方法是利用子詞索引單元,當(dāng)執(zhí)行查詢時,用戶的查詢首先被分解為子詞單元,然后將這些單元的特征與庫中儲蓄好的特征舉行匹配。

(3)關(guān)鍵詞識別檢索

在無約束的語音中自動檢測詞或短語通常稱為關(guān)鍵詞的察覺。利用該技術(shù),識別或標(biāo)記出長段錄音或音軌中反映用戶感興趣的事情,這些標(biāo)記就可以用于檢索。如通過抓獲體育比賽闡明詞中“進(jìn)球”的詞語可以標(biāo)記進(jìn)球的內(nèi)容。

(4)對說話人的鑒別舉行分割

這種技術(shù)是簡樸地分辯出說話人話音的區(qū)別,而不是識別出說的是什么,它在適合的環(huán)境中可以做到分外切實。利用這種技術(shù),可以根據(jù)說話人的變化分割錄音,并建立錄音索引。如用這種技術(shù)檢測視頻或多媒體資源的聲音軌跡中的說話人的變化,建立索引和確定某種類型的布局。

4.3.2音樂索引和檢索

音樂的類型有兩種:布局化的(或綜合的)音樂和基于樣本的音樂。一般說來,音樂索引和檢索的有效技術(shù)的研發(fā)仍處于初期階段。

(1)布局化音樂的索引和檢索

布局化音樂和聲音效果是由一系列指令或算法來表示的。最常見的布局化音樂是MIDI,它把音樂表示成大量的音符和操縱指令。由于布局化音頻的簡明布局和音符描述的理由,沒有必要從音頻信號中抽取特征,因此布局化音頻更便于檢索。

對于布局化音樂和聲音效果,由于兩個音符序列之間的好像性定義的困難性,基于好像性的檢索很繁雜。目前一種可行的方法是基于音符序列的音調(diào)變化來檢索音樂。其根本思想是:查詢聲音和數(shù)據(jù)庫聲音文件中的每個音符(第一個音符除外)都被轉(zhuǎn)換成相對前一個音符的音調(diào)變化。音調(diào)變化有三種狀態(tài):該音符比前一音符高(U)、該音符比前一音符低(D)和該音符與前一音符一致或好像(S)。按這種規(guī)矩,任意一段旋律可轉(zhuǎn)化為一個包含字母U、D、s的符號序列,檢索任務(wù)也就變成了一個字符串匹配過程。該方法是針對基于樣本的聲音檢索提出的,也同樣適用于布局化聲音檢索,根據(jù)音符音階可較輕易地獲得音調(diào)變化。

(2)基于樣本的音樂的索引和檢索

對于基于樣本的音樂的索引和檢索有兩種通用的方法:一是基于抽取的聲音特征集合,二是基于音樂音符的音調(diào)。

基于特征集的音樂檢索;在這種音樂檢索方法中,對每種聲音(包括查詢)抽取聽覺特征集,將其表示成一個矢量。通過計算查詢音樂和每個存儲音樂片段相應(yīng)的特征矢量之間的近似度來計算它們的好像性。該方法可應(yīng)用于一般的聲音中,包括音樂、語音和聲音效果。MuscleFishLLC完成的一項研究工作就是使用該方法的一個較好的實例。在這項研究中,共使用了5個音頻特征:強(qiáng)度、音調(diào)、亮度、帶寬和諧音。這些特征隨著時間的變化而變化,因此可對每個幀舉行計算,然后用統(tǒng)計學(xué)中的均值、方差和自動相關(guān)3個參數(shù)來表示每個特征。查詢矢量和每個存儲的音樂片段的特征矢量之間的歐幾里德距離或Manhattan距離可用作它們之間的距離。

基于音調(diào)的音樂檢索;該方法與基于音調(diào)的布局化音樂檢索好像。二者之間的主要識別在于基于音調(diào)的音樂檢索務(wù)必抽取或估計每個音符的音調(diào)。將一段旋律轉(zhuǎn)化為一系列相對音調(diào)轉(zhuǎn)移序列的過程稱為稱為音調(diào)跟蹤。音調(diào)跟蹤是自動化音樂轉(zhuǎn)錄的簡化形式,它把音樂聲音轉(zhuǎn)化成符號表示。該方法的根本思想為:由于音樂的每個音符都是由它的音調(diào)表示的,因此一個音樂片段或片面可表示成一個序列或音調(diào)串。檢索是以查詢音樂和每個存儲音樂片段相應(yīng)的音調(diào)串之間的好像性為根基,音調(diào)跟蹤和串好像測量是檢索過程的關(guān)鍵。

5展望

基于內(nèi)容的音樂檢索主要是基于音頻特征矢量匹配和近似音調(diào)匹配。計算機(jī)對信息的表達(dá)歸根結(jié)底是一種狀態(tài)表達(dá),要將聽覺感知的信息借助計算機(jī)舉行存儲與檢索,這當(dāng)中舉行的轉(zhuǎn)換難以制止實際信息的失真。對于音頻檢索來說,由于感官上與表達(dá)上的不一致性大大增加了檢索的處理難度。因此,基于內(nèi)容的音頻檢索只能是一種好像性檢索,而無法實現(xiàn)傳統(tǒng)的精確匹配檢索。雖然研究人員已在基于內(nèi)容的音樂檢索技術(shù)方面做了大量的研究,但是為了得志大容量數(shù)據(jù)庫和檢索的要求還有大量工作要做。

上基于內(nèi)容的音頻檢索問題,需要研究快速的大規(guī)模音頻庫的欣賞、檢索和提交:長音頻的欣賞,即布局化表示音頻流,并設(shè)計出新形式的內(nèi)容欣賞界面:長音頻的檢索,研究通用的基于片段級的內(nèi)容檢索,在時間軌跡上匹配一組特征,這需要研究模糊的匹配方法:持續(xù)研究有效的聽覺解析特征,以支持通用和專用的音頻檢索問題:用戶的音頻查

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論