下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于高維空間連續(xù)神經元覆蓋的基音頻率識別
隨著計算機硬件技術的發(fā)展,語音識別技術也取得了很大進步。但是,由于語音信號的復雜性和多樣性,以及連續(xù)語音識別中的協(xié)同發(fā)音現象廣泛存在,目前的語音識別算法在一定程度上還不能滿足人們使用的需要。以漢語為例,漢語的發(fā)音音節(jié)很短,一般只有一個音節(jié),由聲母和韻母組成,因此在語音信號中的信息量很小,給識別帶來很大困難。另外,漢語是一種有調語言,不同音調的音節(jié)之間的混淆是識別中最常見的替代錯誤。因此,針對漢語的特有性質,有人利用不同的特征在不同的空間分別建模,但勢必造成系統(tǒng)的結構過于復雜。實驗表明,如果在進行語音識別之前,事先知道待識別語音的性別,則會大大提高最后的識別效果。在進行語音識別之前,先對識別樣本進行性別識別,再用不同的模型對不同的性別進行語音識別,這樣不僅訓練出來的模型更加精確,而且也可以減小模型的混合次數,降低模型的復雜度。仿生模式識別是王守覺院士于2002年提出的一種新的模式識別的方法和理論,在此理論基礎上提出一種高維空間覆蓋算法,通過不同樣本在高維空間中覆蓋的不同區(qū)域對樣本進行劃分,并將該算法應用于語音信號的性別識別。1語音的性別特征語音信號中有很多特征參數,如時域中的短時能量,短時過零率,短時自相關,以及頻率域中的頻譜,基音頻率等。要想對語音信號進行性別劃分,就要抓住最能體現語音性別特征的參數。圖1(a)和圖1(b)分別為男性和女性說話人發(fā)出漢語讀音“元素”時的波形圖,語譜圖以及有效基音頻率的曲線。從圖中可以看到,男性和女性的基音頻率分布在不同的區(qū)域。圖2中通過對比發(fā)現,女性基頻值明顯高于男性。語音中的濁音是準周期信號,基音頻率的物理含義是濁音的聲帶振動基頻。統(tǒng)計顯示,不同性別的說話人,基音頻率具有不同的分布。男性說話者的基頻大部分集中在60~200Hz之間,女性大部分在200~450Hz。2自殺檢測2.1類模式類的基本框架模式識別是通過對具體的事物進行觀測所得到的具有時間與空間分布的信息,模式所屬的類別或同一類中的模式的總稱為模式類,其中個別具體的模式稱為樣本。其基本框架如圖3所示。其中,起決定作用的是分類器的設計。現存的分類方法有很多種,如基于統(tǒng)計決策分類理論的統(tǒng)計識別,起源于生物神經系統(tǒng)研究的神經網絡,事先設定模版的模版匹配識別,以及基于知識向量機理論的模式識別等。2.2仿生模式的概念傳統(tǒng)模式識別中,人們考慮模式識別問題的主要出發(fā)點都是若干類別的最佳劃分問題;而仿生模式識別的基本出發(fā)點是把模式識別問題看成對各種各樣模式的“認識”過程,而不是劃分。正如人類能很快地分辨出周圍的物體,是因為人類很好的認識了每一種事物的特征,并不是以對每種事物的分類為前提的。仿生模式識別的基點為:特征空間中同類樣本全體的連續(xù)性規(guī)律。傳統(tǒng)的模式識別的所有知識都存在于訓練樣本中,因此基本上都是基于大數據量的訓練樣本。而仿生模式識別則認為,自然界任何預被認識的事物(包括事物,圖像,聲音,語言,狀態(tài)等等)若存在兩個“同源”同類而不完全相等的事物,而這兩個事物的差別是可以漸變的或非量子化的,則這兩個同類事物之間必至少存在一個漸變的過程,在這個漸變過程中間的各事物都是屬于同一類的,以數學公式描述為:特征空間Rn中,設所有屬于A類事物的全體所構成的點集為A,若集合A中存在任意兩個元素x與y,則對ε為任意大于零的值時,必定存在集合B使:即在樣本足夠多的情況下,所有同類模式所構成的樣本在高維空間中應構成一個或多個閉合的區(qū)域,其中任意兩個樣本之間是連續(xù)的。也就是說,如果一個待識別樣本出現在某一類模式的這個閉合區(qū)域,則該樣本應該是屬于這類模式。仿生模式識別抓住任兩個相近同類樣本之間的相似性,通過對訓練樣本的“認識”過程來為每一種模式建立模型。這樣建立起來的模型不僅能夠反映出訓練樣本中所攜帶的信息,也能通過連續(xù)的思想,將鄰近的兩個同類樣本之間的信息保存在模型中。3模擬識別適用于性別識別3.1第三,基音頻率的估計特征提取的目的是從語音信號中抽取出能完全,精確的表達語音信號所攜帶的全部的用于識別的信息參數。特征提取是該系統(tǒng)的第一步,也是至關重要的一步,因為有的語音特征在反映性別特征的過程中沒有積極作用,反而造成系統(tǒng)數據的冗余?;纛l率在語音信號中是區(qū)分男女性別的主要特征,而且結構簡單,每一幀數據只有一維基頻,能夠簡化分類識別過程。本文中實驗數據采樣頻率為8kHz,位深度16bit,采用文獻中的幅度差和函數方法對樣本進行基音頻率的估計,并用Viterbi算法進行后處理。將不存在基音的幀舍棄。3.2平均幀數及方向函數仿生模式識別基本出發(fā)點是對一類一類樣本的“認識”,利用神經元建立高維空間復雜幾何形體,完成對某類樣本的最佳覆蓋過程。本文采用一種類高斯混合模型的神經元:其中,d為樣本的維數,在性別識別中為樣本的幀數,即一個樣本代表高維空間中的一個點,th為設定門限值,R=[r1,r2,…,rd]為每一個神經元的核心權值,表示每一維數據在高維空間中的中心;V=[v1,v2,…,vd]為方向權值,表示在每一個方向上距離中心的大小。其中:M為訓練樣本的個數,δ為調整大小的參數。訓練時,首先計算所有訓練樣本之間的距離:m、n代表任意兩個訓練樣本。從中選擇距離最大的兩個樣本,即一類模式的兩個邊緣,從任意一個邊緣處開始對樣本進行高維空間的覆蓋。尋找平均距離最小的M個樣本,完成一個神經元的訓練,直至所有的樣本都被覆蓋,這時所有的神經元就形成對該類別所有樣本在高維空間的覆蓋。3.3分類識別樣本首先,對待識別樣本進行和訓練樣本同樣過程的特征提取,將與訓練樣本相同幀數的基音頻率保存下來。對待識別樣本進行性別識別的過程,就是判斷被識別樣本是否落在代表男性或是女性的訓練樣本所圍成的高維有限空間的并集中。識別時的判別函數為:其中,Ymi代表所有的由男性訓練樣本得出的神經元,Yfi代表所有由女性樣本得出的神經元,f為判別函數。4仿生模式實驗該實驗采用的數據庫為WSJ英文語音數據庫。為了突出仿生模式識別的性能優(yōu)勢,減少實驗結果受隨機因素的影響,本次實驗主要采取小數據集訓練,大數據集測試的原則。訓練數據和測試數據均提取前30幀有效基頻,男女各用50條數據進行訓練,850條數據進行測試。由于訓練數據比較少,可能會出現由于數據采集時不同人的不同聲音特征不具代表性,而影響最后統(tǒng)計結果的普遍性,因此該實驗共進行6次,分別使用不同的數據進行訓練,相同的數據進行測試。實驗結果如表1所示。同時,使用相同的數據采用HMM的方法進行實驗。實驗使用HTK工具箱,分別為男女建模,模型中狀態(tài)數為5,混合數為6,同樣對以上6組數據進行識別,實驗對比結果如表2所示。仿生模式識別的算法設計結果不僅受訓練樣本的影響,高維空間的維數也會影響識別結果。因此,接下來的實驗,依次增大高維空間的維數,從5維增加到100維。訓練數據100個,測試數據500個。不同實驗的訓練數據和測試數據為相同的語料,提取其中的不同幀數的基音頻率用于識別。實驗結果如表3所示。該實驗中,男性女性識別率具體的變化趨勢如圖4所示。本文分析了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度新能源儲能項目農民工勞務合同規(guī)范4篇
- 二零二五版年薪制勞動合同:大數據分析行業(yè)專家協(xié)議4篇
- 2025年度農行房貸利率調整專項合同書2篇
- 二零二五白蟻滅治與老舊建筑改造服務合同3篇
- 二零二五年度建筑工程合同履行補充協(xié)議范本3篇
- 個人承包旅游景區(qū)開發(fā)與經營合同(2024版)3篇
- 二零二五年度節(jié)能環(huán)保門窗定制采購合同2篇
- 二手住宅買賣合同(2024版)范例2篇
- 二零二五版木托盤租賃與物流信息化建設合同4篇
- 管理決策知到智慧樹章節(jié)測試課后答案2024年秋山西財經大學
- 飛鼠養(yǎng)殖技術指導
- 壞死性筋膜炎
- 2024輸血相關知識培訓
- 整式的加減單元測試題6套
- 股權架構完整
- 山東省泰安市2022年初中學業(yè)水平考試生物試題
- 注塑部質量控制標準全套
- 人教A版高中數學選擇性必修第一冊第二章直線和圓的方程-經典例題及配套練習題含答案解析
- 銀行網點服務禮儀標準培訓課件
- 二年級下冊數學教案 -《數一數(二)》 北師大版
- 晶體三極管資料
評論
0/150
提交評論