基于內容的音頻檢索關鍵技術.ppt_第1頁
基于內容的音頻檢索關鍵技術.ppt_第2頁
基于內容的音頻檢索關鍵技術.ppt_第3頁
基于內容的音頻檢索關鍵技術.ppt_第4頁
基于內容的音頻檢索關鍵技術.ppt_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于內容的音頻檢索關鍵技術的研究,問題: 傳統(tǒng)的方法,其主要缺點有: 一是當數據量越來越多時,人工注釋的工作量加大; 二是人對音頻的感知有時難以用文字注釋表達清楚,人工注釋存在不完整性和主觀性; 三是不能支持實時音頻數據流的檢索。 這里主要綜述了音頻檢索方法,討論了一些音頻檢索中的關鍵技術:音頻特征提取、音頻分類、語音識別技術等。,總體介紹,該圖給出音頻信息檢索的系統(tǒng)結構. 預處理:語音處理,音頻分割、特征提取、分類等等. 用戶的查詢:用戶查詢接口、檢索引擎. 元數據庫:特征庫、索引和模型描述庫等. 一段長音頻, 首先進行分割處理,獲得音頻錄音的結構關系。然后進行特征提取.通過分割處理。音頻經

2、過樣本的訓練和分類,建立分類目錄.語音識別把語音信號轉換為文本,存入文本庫.提取的聲音特征保存在特征數據庫中元數據庫中的記錄與音頻數據庫中的媒體記錄關聯(lián).,用戶通過用戶查詢接口檢索音頻信息.用戶可以查詢音頻信息,或瀏覽分類目錄,對于長段的音頻,可以進行基于內容的瀏覽,即根據音頻的結構進行非線性瀏覽.檢索引擎利用相似性和相關度來搜索用戶要求的信息.查詢矢量和庫中音頻矢量之間的相似性由距離測度.每類特征都可以有不同的距離測度方法,以便在特定應用或實現中更為有效.,從以下幾個方面分別細說 1.基于內容的音頻檢索操作步驟 2.音頻特征提取 3. 音頻分類 4.音頻檢索,1.基于內容的音頻檢索操作步驟:

3、,(1)將音頻數據分類,分成語音、音樂及一般類型。 (2)不同類型的音頻數據可以以不同的方式進行處理和索引。 (3)查詢音頻片段要同樣地進行分類、處理和索引。 (4)根據查詢索引和數據庫中音頻索引之間的相似性,對音頻片段進行檢索。再根據相關度進行排序。,2.1 音頻特征提取,時域特征提取和頻域特征提取 (1) 音頻時域特征的提取 平均能量說明了音頻信號的強度, 過零率指每秒內信號值通過零值的次數, 靜音比表示靜音的聲音片段的比例。,傅里葉變換可分解出音頻信號的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調等。 帶寬說明了聲音的頻率范圍。 頻譜中心也稱亮度,是一個聲音頻譜能量分布的中

4、心點。 諧音為最低頻率的倍數的頻譜成分。 音調是聽覺分辨聲音高低的特性,完全由頻率決定,可通過頻譜估計,2.2 音頻頻域特征的提取,3.1 音頻分類,(1) 不同類型聲音的主要特征,3.2音頻分類方法及順序,首先計算輸入音頻片段的頻譜中心,如果比閾值高,則認為是音樂;否則是語音, 其次計算靜音比,如果靜音比低,則認為是音樂;否則,認為它是語音或獨奏音樂。 最后計算平均過零率ZCR,如果ZCR 可變性高,則它是語音,否則它是獨奏音樂。 特征判定的順序是非常重要的,一般首先判定差別性大、復雜性低的特征,這樣可降低整個計算量。,4.音頻檢索,將音頻分為語音和音樂,使用不同的技術對它們進行單獨處理。

5、1. 語音識別和檢索 語音索引和檢索的基本方法是運用語音識別技術把語音信號轉化為文本,然后應用IR技術進行索引和檢索。 1.1 語音識別 自動的語音識別(ASR)問題就是一個模式匹配問題。一個ASR系統(tǒng)通常包括訓練和模式匹配兩個階段。 在訓練階段, ASR系統(tǒng)收集大量的發(fā)音者的語音序列,然后ASR系統(tǒng)提取每個語音單位的特征并存放在系統(tǒng)中。,在識別過程中,ASR系統(tǒng)用與訓練階段相似的方法對輸入語音進行處理,產生特征矢量,找到與輸入語音的特征矢量最匹配的特征矢量的單詞序列。 其中基于HMM 的技術是最為流行且語音識別性能最好的,下面將詳細介紹。 首先將每個音素分解成輸入狀態(tài)、中間狀態(tài)和輸出狀態(tài) 3

6、個可聽到的狀態(tài),每個狀態(tài)可持續(xù)超過一個幀的時間(通常為 10ms)。在訓練階段,使用訓練語音數據為每個可能的音素構建 ASR 。每個 ASR都具有以上3個狀態(tài),并由狀態(tài)轉換概率和符號發(fā)生概率來定義。由于時間只向前流動,,因此一些轉換是不允許的。 在訓練階段末期,由不同的發(fā)音者、時間變化和周圍的聲音引起的變化,是每個音素都由捕獲不同幀的特征矢量變化的一個 ASR表示。 在語音識別階段,按照幀的順序計算每個輸入音素的特征矢量。識別問題的目的是去發(fā)現哪個音素 ASR最可能產生輸入音素的特征矢量序列。ASR對應的音素被認為是輸入音素,由于一個單詞含有大量的音素,因此通常把音素序列放在一起進行識別。 1

7、.2發(fā)音者識別,(2)音樂索引和檢索,音樂的類型有兩種:結構化的(或綜合的)音樂和基于樣本的音樂。 2.1 結構化音樂的索引和檢索 結構化音樂和聲音效果是由一系列指令或算法來表示的。最常見的結構化音樂是 MIDI,它把音樂表示成大量的音符和控制指令。結構化音樂和聲音效果非常適合于音頻基于精確匹配的查詢。用戶可指定一個音符序列作為查詢,盡管可以找到該音符序列的精確匹配,但是由于相同結構化的聲音文件可以由不同的設備以不同的方式進行表現。,目前一種可行的方法是基于音符序列的音調變化來檢索音樂。其基本思想是:將聲音文件中的每個音符(第一個音符除外) 轉換成相對前一個音符的音調變化。三種狀態(tài):該音符比前

8、一音符高(U)、該音符比前一音符低 (D)和該音符與前一音符相同或相似(S)。按這種規(guī)則,任意一段旋律可轉化為一個包含字母 U、D、S 的符號序列,檢索任務也就變成了一個字符串匹配過程。該方法是針對基于樣本的聲音檢索提出的,也同樣適用于結構化聲音檢索。,2.2 基于樣本的音樂的索引和檢索,基于樣本的音樂的索引和檢索有兩種通用的方法: 一是基于抽取的聲音特征集合,二是基于音樂音符的音調。 1. 基于特征集的音樂檢索 對每種聲音抽取聽覺特征集,將其表示成一個矢量。通過計算查詢音樂和每個存儲音樂片段相應的特征矢量之間的近似度來計算它們的相似性。該方法可應用于一般的聲音中,包括音樂、語音和聲音效果。 2.基于音調的音樂檢索 該方法與基于音調的結構化音樂檢索相似,兩者之間的主要區(qū)別在于基于音調的音樂檢索必須抽取或估計每個音符的音調。,將一段旋律轉化為一系列相對音調轉移序列的過程稱為音調跟蹤。音調跟蹤是自動化音樂轉錄的簡化形式,它把音樂聲音轉化成符號表示。 該方法的基本思想為:由于音樂的每個音符都是由它的音調表示的,因此一個音樂片段或部分可表示成一個序列或音調串。檢索是以查詢音樂和每個存儲音樂片段相應的音調串之間的相似性為基礎,音調跟蹤和串相似測量是檢索過程的關鍵

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論