【《基于MFCC和DTW算法的語音導診系統(tǒng)設計與實現》16000字】_第1頁
【《基于MFCC和DTW算法的語音導診系統(tǒng)設計與實現》16000字】_第2頁
【《基于MFCC和DTW算法的語音導診系統(tǒng)設計與實現》16000字】_第3頁
【《基于MFCC和DTW算法的語音導診系統(tǒng)設計與實現》16000字】_第4頁
【《基于MFCC和DTW算法的語音導診系統(tǒng)設計與實現》16000字】_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能是未來醫(yī)療的發(fā)展趨勢,近些年來,隨著語音識別關鍵技術的不斷突破,經被廣泛應用。但是據我們調查發(fā)現,語音識別技術在息錄入和輸出,減輕醫(yī)院咨詢臺和護士站工作人員的服務壓力,提高工作效率與質量。(1)運用了傳統(tǒng)的端點檢測方法雙門限端點檢測法。先對語音信號進行預處理,包(2)運用了Mel倒譜系數(MFCC)對語音進行特征提取。在端點檢測后著重說明了使用的MFCC原理與設計過程。并對MFCC、LPC和LPCC方法進行了比較說明。(3)使用了DTW算法。本文利用了DTW算法,著重說明了算法原理和步驟。并與傳統(tǒng)算法HMM和ANN進行了對比,給出了本課題使用DTW算法的原因。(4)設計了GUI界面。設計的GUI界面包括了語音錄入、特征參數提取、識別等主要部分。并且通過GUI界面可以方便快捷地讓用戶操縱系統(tǒng)。 1 1 1 21.3導診助手應用 41.3.1應用 41.3.2功能 4 51.4.1語音識別系統(tǒng)組成 51.4.2語音識別系統(tǒng)的分類 6 62語音信號的分析與處理 7 7 72.1.2語音信號的采集 72.2預處理 82.2.1預加重 82.2.2語音信號的去噪 92.2.3分幀加窗 9 9 3語音信號的特征參數的提取 3.1梅爾頻率預測倒譜系數(MFCC) 13.1.1Mel濾波器組 3.1.2MFCC特征參數提取 3.2線性預測系數(LPC) 3.3線性預測倒譜系數(LPCC) 3.4本章小結 4語音識別模式訓練和匹配方法 4.1DTW在語音識別中的應用 4.1.1DTW基本原理 4.1.2DTW算法步驟 4.2與其他方法比較 5GUI界面的制作與程序運行過程 5.1GUI界面的制作過程 5.2程序運行過程 2 6.1全文總結 6.2展望 音則作為人和機器對話的橋梁,是交流信息最簡活中廣泛的應用,人們發(fā)現在人與機器之間,最形式中,語音尤為重要,人和機器的對話,則是在21世紀以來人們一直期待的事情。處理也是人與計算機交互的重要手段之一(許詩茵,何澤宇,2022)。目前,隨著科技市場而言,語音識別的前景廣泛,如在醫(yī)療服務、信息查詢、智能家居、工業(yè)控制等。含了人的情感,例如,一句同樣的話不同的人說就有著不同的情感(盧俊豪,汪澤楷,2023)。在傳統(tǒng)的語言處理系統(tǒng)中,人們往往以語言傳達的準確性為首要目標,而忽視1.1研究背景和意義 (汪明輝,陳麗娟,2021)。本文設計的智能語音導診助手可以很好的減輕醫(yī)院工作人目前DTW算法是一種有效計算語音測度和時間規(guī)正的方法,在綜合識別中廣泛應用,本文基于DTW和MFCC算法,基于本文的研究前提這種情況被納入了研究范圍對探索其在醫(yī)療行業(yè)上的具體應用,同時希望提高和改進識別的效率和速度(周思遠,許一凡,2021)。1.2國內外研究現狀及未來發(fā)展趨勢貝爾在1872年首次發(fā)明了遠程廣播聲音技術。杜德利發(fā)明了20世紀30年代全世具有劃設代的意義。而語音識別最早的研究可追溯到上個世紀的50年代,1952年貝爾運用每個數字的元音部分的頻譜特征進行語音識別(金俊豪,洪澤楷,2018)?;谇拔闹摂?956年,RCA實驗室的Olson等研究人員從8個帶通濾波器組提取頻譜參數來作為語音的特征。20世紀60年代,日本的很多研究人員開發(fā)了很多硬件產品來進行語音識別,在這一期間的諸多研究成果為后來將近20多年的語音研究奠定了堅實的基礎(傅正浩,羅曼玲,2019)。RCA實驗室的馬丁等人在60年代末開發(fā)了時間歸正的方法,由此背景出發(fā)此舉大大提升了識別的性能。同時期的蘇聯專家Vint動態(tài)時間規(guī)劃這個方法來解決兩種不同語音的時間對準問題。這也是為動態(tài)時間彎折(DTW)奠定了基礎,但是在當時Vintsyuk并不被人們所知,知道DTW算法廣為人知的時候,大家才逐步了解到了當時Vintsyuk的研究工作(雷振華,傅宇軒,2019)。20世紀70年代以來,日本學者Sakoe提出了一種動態(tài)時間語音識別規(guī)劃方法,即DTW算法,其成功之處在于時間歸一化和距離測量的結合,這是一種非線性歸一化技域。AT&T的貝爾實驗室在一系列非特定說話人的語音識別研究中也很活躍(廖景云,20世紀80年代初,琳達和其他研究人員提出了一種矢量量化方法,并將矢量量化而80年代開始就采用了統(tǒng)計模型的技術,其中隱馬爾科夫模型(HMM)技術就是經典據分析、智能算法等前沿工具正日益成為科研探索的關鍵支據處理能力,還能揭示傳統(tǒng)方法難以把握的深層知識與規(guī)律文應積極嘗試將這些尖端技術整合進分析體系,以提升研究結果的精確度和深度理解。所以后來還是被人們廣泛應用在語音識別中。由于HMM方法可以使大量詞匯連續(xù)性語音識別的開發(fā)成為可能,所以HMM方法至今依然是語音識別技術中的主流方法。上世紀80年代末,美國卡爾加里梅隆大學的Sphinx系統(tǒng)采用VQ/HMM方法實現了97個獨20世紀90年代初,人們開始探索人工神經網絡(ANN)并將其用于語言識別技術中去。而近年來,從NIST的評測結果可以看出來,國際上對于語音識別的研究工作逐步從實驗研究偏向實際問題應用中,諸多發(fā)達國家比如美國、日本、歐洲等國以及IBM、在中國,有人在20世紀50年代末提出了語言識別的概念,直到70年代相關研究人員和科學家才開始研究語言識別。通過邏輯推理可知從上世紀80年代開始,國家開始重視語言識別技術的研究,中國科學院聲學研究所、清華大學等多所高校都逐步開始語音識別研究,20世紀80年代末(王浩宇,趙欣怡,2019),他們從最開始的小詞匯孤立詞識別研究開始,到大詞匯量連續(xù)語音識別,開展了一系列語音識別研究,從上述情況能夠了解到他們的研究為中國的語音識別領域打下了堅實的基礎。到了上個世紀90年代,先是哈工大與四達技術開發(fā)中心合作推出了全新的產品,之后在國家“863”計劃的大力支持下,清華大學和中科院聲學所在語音識別研究上紛紛取得了重大突破(鄧芝和,張弘揚,2020)。初步研究成果和計算數據與前文綜述的結果本研究方法的有效性和可信度。這種吻合不僅支持了早期的研究結論,也為當前理論模型提供了額外的驗證。通過嚴格的研究流程、資料搜集及分析手段,本文成功再現了先前的關鍵發(fā)現,并在此基礎上進行了更深層次的探討。這不僅增強了對假設的信心,也展示了所采用方法的科學性。此外,這種一致性為不同研究間的對比奠定了基礎,有助于構建一個更加完整和系統(tǒng)的理論框架。近年來,隨著我國國力的強化和改革開放的深化,漢語識別得到了前所未有的重視,我國在語音識別技術上已經取得了重大成果,科大訊飛、百度等知名企業(yè)已經在語音識雖然當下我國的語音識別技術已經有了喜人的成果,但是很多技術并未應用到人們的生活中來,比如在醫(yī)學領域、軍事領域、移動應用領域,語音識別技術都還有廣闊的應用空間。在目前的語音識別技術上,我們還面臨著一些困難:多段語音之間的混淆問題;(1)非特定人的問題。由于漢語中有很多方言,加上每個人的□音不同,對語音識別造成了額外的困難;(2)噪聲處理問題。由于在生活中的不同環(huán)境下噪聲的干擾或多或少,處理噪聲是語音識別需要著重解決的問題之一;(3)語音的連續(xù)性問題。漢語中的語言連續(xù)性較高,導致識別難度加大。1.3導診助手應用當今國家正在加強基本衛(wèi)生制度,促進了全民治療,優(yōu)化了醫(yī)療資源,而人工智能的快速發(fā)展使人們以往的夢想—一智慧醫(yī)療演變成為了現實。研究人員利用人工智能與傳統(tǒng)醫(yī)院咨詢服務的歷史融合優(yōu)勢,提供患者選擇咨詢服務,解放了導診臺和護士站,讓人工智能去完成這項技術含量低,重復性高,工作針對性強的工作實在是最優(yōu)選擇(成智能導診機器人的首要目標是解決門診咨詢量少、問題和答案反復出現的現實,一旦醫(yī)院業(yè)務高峰期到來,醫(yī)院里人滿為患,在這樣的狀況下智能醫(yī)療服務機器人可以及時做出反應,引導患者就醫(yī),選擇患者并進行醫(yī)院的醫(yī)療環(huán)境、門診治療程序和患者保健知識(賈鵬飛,張慧萍,2022)。通過識別語言、語音合成、理解自然語言和其他技術,領先的機器人支持語音、觸摸、影像等互動方式,改善醫(yī)療體驗,提高醫(yī)療服務質量,這是智慧醫(yī)療的重要元素和具體體現。目前國內的導診助手產品已經陸續(xù)投入到市場,如科大訊飛公司的“曉醫(yī)”,它可以提供問路,導診等功能,還有獵戶星空、安澤智能等諸多科技公司都推出了導診機器人,旨在服務大眾。目前國內外都還沒有成熟的機器人導診產品,國外更注重與AI技術相結合的問診需求體系,大多數國家的導診機器人咨詢服務只能提供簡單的問題解答,或在初審和評估中按照標準的問題模型進行幫助,而不能真正起到優(yōu)化醫(yī)療服務流程、提高醫(yī)院日常工作績效的作用,與國外產品相比,在這種布局里很多地區(qū)和場景的導診機器人都實施了業(yè)務整合,而機器人代替人工服務的模式將逐步推廣到全國進行使用(高偉濤,黃靖宇,目前的國內的導診機器人的功能主要有以下幾方面:(1)用藥指導;(2)健康知識;(3)醫(yī)院咨詢;(4)導航分診。本文的智能語音導診助手根據語音識別技術,主要設計了導航分診的功能,實現快速信息錄入和輸出,減輕醫(yī)院咨詢臺和護士站工作人員的服務壓力,提高工作效率與質1.4語音識別系統(tǒng)概述如圖1-1所示,語音識別系統(tǒng)主要分為三個模塊,分別為預處理模塊、特征提取模塊和模式匹配模塊。其中預處理模塊包括了語音的預加重、分幀加窗和端點檢測,預加重目的就是加強信號的高頻部分(黃彥霖,趙思潔,2022)5,這明顯地揭示了意圖提高此部分的能量,使得在頻域內語音信號變得更為平坦。加窗分幀的目的是將語音信號分成一段一段的短時信號以便分析它的特征參數,其中,每一小段叫做一幀。特征提取是將一段語音中的特征參數提取出來。模板訓練是將多個人語音信號作為參考模板,基于本文的研究前提這種情況被納入通過對當前階段性研究成果的梳理,本文對后續(xù)研究有了新的視角。首要的是在研究方式上,本文能辨識出多處可優(yōu)化和升級的空間。過往的研究歷程為本文提供了寶貴的經驗,讓本文清楚哪些方法有效,哪些需要改進或淘汰。在數據收集環(huán)節(jié),本文應更重視樣本的多樣性和廣泛代表性,確保樣本能準確反映目標群體的特性。同時,針對各類研究議題,靈活運用多種數據收集手段能提升數據的全面性和準確性。模式匹配是就將所輸入的語音與樣本庫的語音參數相對比匹配,匹配相似度最高的語音識別系統(tǒng)的分類如上圖1-2所示。分為三個類別:(1)按照詞匯量來分(2)按照識別對象來分識別對象指的是非特定人或特定人。如個人的手機語音助手是特定人的語音識別,(3)按照發(fā)音方式來分的單詞組成的,如漢語中的一個詞語,英語中的一個單詞這都屬于孤立詞。連1.5論文結構安排(3)第三章介紹了特征參數音編碼,就是所謂的將這些語音信息中的韻律、響度、基音周期的升降等表示出來!。另外,技術手段的發(fā)展水平也對結論的核實過程產生重要影響,隨著科技的不斷發(fā)展,由于聲音信號是一種模擬信號,而我們要進行數字化處理的話必須進行模數轉換,這兩個過程,語音信號可以得到時間上和幅度上的離散數字信號41。在MATLAB中,=wavread(wavFilename)(馮梓萱,鄭晨光,2018)。其中“wavFilename”指的是以“.wav”為擴展名的文件,“y”是輸出參數,是數字化的音頻信號?!癴s”是采樣頻率,“nbits”是比特數。和GUI界面設計來實現語音錄入,按鈕2是語音庫,里面包含了所有的測試語音。圖2-2是錄入語音“咳嗽”的時域波形,同時在錄入語音后可以在GUI界面上顯示。錄音錄音選擇語音庫2.2預處理預處理部分在語音處理應用中有著重要的地位,它為后面的語音識別工作做了充分的準備。在預處理部分,我們首先要對語音信號進行預濾波,通過邏輯推理可知預加重,加強語音的高頻部分使整個語音頻域變得平坦,提高語音處理的質量,除此之外后面還要進行特征參數提取、模式匹配等工作(許子晴,王翠云,2022)。本研究在既有的理論支撐下,構建了此次的模型架構,無論是在信息流通體系還是數據分析途徑上,都展現了對前人研究成果的借鑒與發(fā)揚,并在此基礎上實現了新的突破。在信息流程的設計層面,本文引入了信息處理領域的經典理論,確保信息從收集、傳輸到分析的每一環(huán)節(jié)都能高效且無誤地運作。通過嚴格把控信息來源及執(zhí)行標準化處理步驟,信息的可靠性得到了切實保障,同時也更加注重信息流的透明度與可回溯特性。2.2.1預加重預加重是在發(fā)射端提升語音信號的高頻,其實就是將語音信號通過一個高通濾波器。事實上,語音信號經過高通濾波器。從上述情況能夠了解到語音信號將變得更為平滑,并且這樣也能改善高頻部分,并將語音信號保持在頻帶內。它的目的是突出高頻中的共振峰,消除我們的嘴和聲帶在講話過程中的唇帶效應。其函數為(李東風,吳麗娜,2022):其實現的框圖如下圖2-3所示:圖2-3預加重實現框圖我們知道語音信號是非穩(wěn)態(tài)的、時變的信號,這個特性十分不利于數字化分析5。點就是幀。總體上,幀時間約為20ms30ms,從微觀角度看,幀時間很小,可以看作 (若為窗函數,則幀長就是窗長),inc為幀移。輸出f代表了分幀之后的數據(劉亦菲,吳昊天,2022)。對信號進行加窗處理就是為了讓信號末端變得平坦連續(xù)。本文在數地,研究還實施了敏感性評估,以測量各個因素的變化對最中用hamming這個函數來完成。提取的時候要選擇說話部分的語音.所以雙門限端點檢測就是處干此目的(任志強.陸麗 (如圖2-2)的起始點可以看出幾乎沒有振幅波動,這是因為錄音時剛開始的時候沒用雙門限端點檢測利用了短時能量和短時過零率這的部分視為說話部分,反之為靜音或噪音部分,直接去除。實際效果如下圖2-4所示:開始端點檢測。其中,程序中,x為語音輸入,先進行分幀操作,設置好幀置是為了按照上面的x1和x2對SF和NF進行賦值。SF和NF都是1*fn的數組,SF=1束的時間。其中代碼speechIndex=find[SF==1]是為了尋找出SF中數值等于1的地址隨后,設計使用了findSegment函數,它是根據SF中出每一組有話段的開始結束時間以及語音的長度。由此背景出發(fā)它的調用格式為:最后,我們使用了vad_ezm1函數對語音“咳嗽”進行了端點檢測,運行后檢測出的詞語“咳嗽”的參數和結果圖如下:圖2-5語音參數“咳嗽”的端點檢測Q×圖2-6語音“咳嗽”的端點檢測結果2.3本章小結3.1梅爾頻率預測倒譜系數(MFCC)在語音識別最常用到的語音特征就是Mel頻率倒譜系數(MelFrequencyCepstralCoefficients,簡稱MFCC),MFCC的分析時基于人耳的聽覺機理,即根據人的聽覺實驗結果來分析語音的頻譜,以此期望能獲得更好的語音特性[12]。它不依賴輸入信號的任何性質(范怡君,蔡俊輝,2020)。對人類聽覺機制的研究表明,人耳的靈敏度因不同聲波的頻率而異。對語音清晰度影響比較大的語音信號大概在2000Hz到5000Hz左右。高音量頻率元素的存在會影響對低音量頻率成分的感知,并使其難以檢測。鑒于這樣的情況掩蔽效應是一種現象,這種現象即響度高的頻率成分會干擾到頻率低的成分(韓雨辰,趙博涵,2019)。但是對于高頻聲音來說,很難屏蔽低頻聲音,空閑時的聲屏蔽帶的臨界帶寬比高頻時要低,這就是為什么人們在低頻段形成一個低頻濾波器組,根據不同的頻率對輸入信號進行濾波是非常重要的,帶式濾波器信號的輸出能量被認為是信號的基本元素,可以用作輸入特征。在數據分析方法的選擇上,本文不僅采用了傳統(tǒng)的統(tǒng)計方法,如描述統(tǒng)計、回歸分析等,還吸納了近年來迅猛發(fā)展的數據挖掘技術和算法。例如,本文采用聚類分析來識別數據中的潛在模式,或利用決策樹模型來預測未來趨勢。這些前沿手段為深入理解復雜現象提供了強大助力,并有助于揭示隱藏在海量數據中的深層聯系。此外,本文還著重強調了混合方法的應用,即將量化研究與質性研究相結合,以獲取更為全面的研究洞察。通過邏輯推理可知由于此功能不依賴于信號的特征,對輸入信號基本不做假設和邊界,并使用了聽覺模型的測試結果,因此,與基于聲線模型的LPCC相比,該參數具有更好的魯棒性,從上述情況能夠了解到更接近人耳的聽覺特性,而且在降低信噪比的情況下,人耳對聲音信號的感知是非線性的,梅爾頻譜與線性頻率有下面的公式:公式3-1中,Fmel表示為單位是Mel的感知頻率,f是單位為Hz的實際頻率。下圖展示了Mel頻率與線性頻率的關系,可以看出,原先不統(tǒng)一的頻譜可以用統(tǒng)一的濾波器由上圖可以看出,在這樣的狀況下在Mel頻域中,人耳對聲音的感知與Mel頻率線性相關。3.1.1Mel濾波器組在Mel頻率的計算過程中,進行的濾波使用的濾波組是帶通濾波器,通常選用的每個濾波器都帶有三角形濾波特征。每個三角濾波器的中心頻率為f(m),每個濾波器的傳遞函數如公式(3-2):為語音信號進行FFT時的長度,一般取256;M為濾波器的個數,在這種布局里一般取在本設計中使用了melbankm函數,目的是為了設計在Mel頻率上的平均分布的濾波器。它是MATLAB中自帶的函數,可以在voicebox工具箱中找到。Melbankm函數的波器的個數p取24,在一幀的FFT后的數據長度n取的是256,窗函數用的是漢明窗對應的是w='m’,當然也可以選用三角窗(w='t’),這明顯地揭示了意圖下圖是設3.1.2MFCC特征參數提取首先,MFCC特征參數提取原理框圖如下圖3-4所示:(1)預處理率泄露,窗函數每一幀都需要添加?;谇拔闹摂噙@(2)快速傅里葉變換(FFT)對每一幀的信號都要進行快速傅利葉變換,的作用就是語音信號由時域轉變?yōu)轭l域。(3)計算譜線能量標軸將一幀語音的頻譜表示出來,然后將其進行90度的翻折,可以發(fā)現現在的橫坐標實際需求靈活調整或更新,同時保持整體結構的行深入開發(fā)或優(yōu)化,以推動相關研究的不斷進步。于此特定環(huán)可以觀察共振峰的變化來觀察聲音的特征變化以便干準確地識別語音(楊浩然,劉子琪,2023)。在上文已經詳細介紹了Mel濾波器的設計,其主轉換為可以體現人的聽覺特性的Mel頻譜。(5)計算DCT倒譜最后要在Mel頻譜上做倒譜的分析,先要取對數做逆變換,然后逆變換一般通過DCT來實現,取DCT后的第2到第6個系數作為MFCC系數,以上分析作為基礎這樣就可以計算出來MFCC參數,而這一幀語音的特征就是MFCC。在本設計中,使用了MATLAB中的mfcc函數,在設計中由于靈活性受限,從而修改了傳統(tǒng)的mfcc函數程序,使mel濾波器組的采樣頻率、幀長、幀移等都可以靈活選陳麗娟,2021)參數的距離。在對兩段語音作了相同的長度等參數設置后,由此背景出發(fā)出圖(圖如下)顯示這些幀的前16個參數,由圖顯而易見,系數分別都在45度左右,文件(E)編輯(E)查看(V)窗口(W)3.2線性預測系數(LPC)可以用其前續(xù)時刻的若干個采樣值來描述,把前續(xù)的采樣值通過線性組合來無限逼近x[n],這樣的描述方式可以決定唯一的一組預測系數5。這樣的預測系數就叫作線性預型相類似,但是又有著不同的地方,零極點模型中有特例的存在,一是全之處。往后的研究工作,完全能在現有成果上更進一步,尤其在樣本甄良以及理論體系健全等層面,還有著充裕的上升空間可供挖LPCC(LinearPredictiveCepstralCoding)即在LPC(linearpredictivecoding)上進3.4本章小結本章主要介紹了常見的兩個語音特征參數(LPCC和MFCC),本設計使用的是MFCC。之所以使用MFCC作為特征參數是因為在語音識別領域,MFCC比其他的特征提取算法都有著更好的表示。正如本章所介音,相較于LPCC,MFCC把線性頻率轉化為mel頻率能更好的適應人類的聽覺特性,所以不具有抗噪聲的能力7。所以結合多種原因,本文設計選擇使用了MFCC作為特征提取系數。4語音識別模式訓練和匹配方法語音識別系統(tǒng)就相當于模式匹配系統(tǒng),就是根據模式匹配原則,按照一定的相似度量法則,使未知模式與參考模式庫中的某個參考模型作對比取得最佳匹配的一個過程31。目前常用的識別算法包括DTW(DynamicTimeWarping)、HMM(HiddenMarkovModel)、ANN(ArtificialNeuronNetwork)等等(張子寧,孫佳怡,2022)。從上述情況能夠設計使用的是DTW算法,因為相對于后兩個算法,而且對于孤立詞識別來說,DTW的算法應用的更加廣泛,且更為高效簡單。本章將著重介紹DTW算法,以及實現的過程。4.1DTW在語音識別中的應用4.1.1DTW基本原理DTW(DynamicTimeWarping)是一種有效的時間歸正和語音測度的計算方法,廣泛應用在孤立詞識別中II。在本課題中,正是基于孤立詞的語音識別系統(tǒng),病患說出他的病癥特征,系統(tǒng)進行識別來進行相應的智能導診。在這樣的狀況下在當病患說病情的單詞時,有可能發(fā)出的聲音被外界干擾,或者是一些音長一些音短,而即使在相同的條件下有時候發(fā)出來的語音信號也不完全一致。所以我們采用DTW算法,專門解決此類DTW(DynamicTimeWarping)在語音識別中主要是在一定的邊界條件下,求待測模板和參考模板之間的歐式距離,以此來規(guī)劃一條路線使得待測模板可以和參考模板之間進行匹配(張建華,李思遠,2022)?。歐氏距離指的是失真度量d,它的計算方式是沿Programming)將解決優(yōu)化問題的方式從整體變?yōu)榫植俊T谶@種布局里測試模板和參考模板我們可以用T和R來表示,而D[t,r]是它們之間的距離,距離越小相似度越高,距離越大相似度越高。如果它們之間的距離不等,我們就要對齊T和R。動態(tài)規(guī)劃計算 (DynamicProgramming)簡稱DP就是對齊的方法。在科研探索中,本文強調對誤差的嚴格把控,主要通過一系列精細方法與措施,來保障數據的真實性和結果的可靠性。本文構思了精密的研究路徑,并對可能引入誤差的多元因素進行了全面分析與評估,包括環(huán)境波動、人為操作的不一致性以及測量計算的精確性。通過執(zhí)行標準化作業(yè)流程與高科技手段,本文確保了數據的一致性與可重復性。為了深化數據質量,本文還引入了雙重數據錄入與交叉校驗機制,有效避免了人為失誤或鍵入錯誤帶來的數據偏差。下圖所示的是兩段語言信號時域圖,可以大致看出兩語音比較相似,但是由于很多外界條件因素導致每個語音信號的波形并不相同,如果我們直接進行對比,結果顯然不行,如圖a和b。所以我們將處于相同時刻上的兩聲音進行對比,如a和b’,但是顯然由圖上可以看出,它們的位置有偏差,這明顯地揭示了意圖所以我們需要將它們先對齊再進行相似度計算。DTW算法正是應用了以上的理論,它可以找到兩個對應的點并且使它們的距離計算的合理(汪明輝,陳麗娟,2021)。4.1.2DTW算法步驟首先我們要構造一個m*n的矩陣A來進行對齊。其中矩陣A(i,j)就是T;和R;的距離。比如A(1,2)就是T2和R2的距離(周思遠,許一凡,2021)。正如下圖4-2所示,我們提取的英文單詞的語音特征,他們的長度不相等,第一個語音有105幀而第二個語音有123幀。所以我們可以構造出一個123*105的矩陣。然后計算每個點的距離?;诒疚牡难芯壳疤徇@種情況被納入了研究范圍每個點的距離我們通常用歐氏距離來表示,代碼是d(i,j)=sum(t(i,:)-r(j,:).^2)。具體代碼表示如圖4-3所示。我們將每一維的點進行計算求和就可以表示出總距離。在經過循環(huán)的計算后,我們可以得出距離矩陣d。如下圖4-4所示(金俊豪,洪澤楷,2018)。12345678172937455671899隨后,在知道我們所有的點的距離后我們要尋找最短對齊路徑。經過距離的累加,找到最短路徑W需要滿足邊界條件、連續(xù)性條件和單調性條件。下面進行三個條件的分析(傅正浩,羅曼玲,2019):(2)連續(xù)性條件我們在路徑的選擇上不能跳過某點,比如當前在W(a,b)上,下個點為W(a’,b’(3)單調性條件單調性條件就是我們的路徑必須是往前推進的,假設當前在W(a,b)上,下個點為行不斷向前累加,直到終點。這部分代碼如下圖4-5所示。由以上條件,我們可以計算圖4-4的最短距離,如下圖4-6中的紅線所示。田11234567823456789最后就是識別的過程,我們將待識別的語音的特征參數與樣本庫中的語音的特征參數經過DTW計算后,得到的最短距離,對比它們的大小,然后可以判斷相似度的高低。4.2與其他方法比較目前來看,本課題之所以選擇使用DTW算法,一是本設計是基于孤立詞識別的系統(tǒng),DTW算法在孤立詞識別應用中被廣泛應用(雷振華,傅宇軒,2019)。二是因為DTW算法方便小巧,它有著識別快、靈活等優(yōu)點。它與HMM算法相比,它的計算量比HMM少,但是在應對連續(xù)語音、大詞匯量識別系統(tǒng)時,它不如HMM算法,識別效果較差,于此特定環(huán)境中很容易就能看出但相對于本課題,DTW算法較為合適。而另外的廣為應用的ANN算法,它是一種模擬人的大腦神經網絡的算法,具有一些人大腦特有的特性。它的優(yōu)點就是它有著很強的學習能力,正如人的大腦一樣(廖景云,甄俊熙,2020)。但是它的缺點就是計算時間較長,而且識別的準度不高,不是很適合本課題的應用,通常我們使用ANN算法都需要將其與其他傳統(tǒng)算法相結合,這樣才能得到較好的識別效果。本章主要介紹了DTW的算法原理和本課題應用的具體步驟,分析了DTW的優(yōu)點以及適用于本設計的原因,最后對比了主流的模式匹配算法。5.1GUI界面的制作過程圖形用戶界面(GraphicalUserInterfaces)簡稱GUI界面是可以人機交互的一種工具。它可以通過用戶的一系列操作使計算機產生圖像計算等功能。一個良好的GUI界面(1)在MATLAB中輸入guide打開GUI啟動界面。如圖5-1。(2)新建界面或者打開已有界面。圖如下。GUIDE快速入門新建GUI打開現有GUI□將新圖窗另存為:E:\MTB\bin\untitled1.fig□(3)設計GUI界面在點擊新建GUI后,會出現空白的GUI界面,如下圖。我們需要用左邊的工具欄進行GUI設計。其中常用的工具有,以上分析作為基礎按鈕、可編輯文本、彈出式菜單等等。本設計的GUI界面主要有按鈕和坐標軸組成。圖5-3空白GUI界面(4)本文設計的GUI界面本此語音導診助手的GUI界面如下圖5-4所示。國按鈕智能語音導診助手圓面板選擇語音庫提取特征參數其中我使用了六個按鈕三個文本框,以及一個坐標軸。按鈕包括錄音、選擇語音庫、提取特征參數、選擇語音、識別、關閉。坐標軸主要體現語音信號以及端點檢測后的語音信號。在GUI界面上,為了體現導診助手的實用性,我添加了現場語音錄制功能,在點擊“錄音”按鈕后,我們進行語音(病情)輸入,由此背景出發(fā)然后出現可編輯文本進行命名,然后添加到準備好的醫(yī)療信息語語音庫中(徐雅麗,鄭向陽,2022)。“選擇語音庫”是讓用戶選擇語音文件,“提取特征參數”是提取語音的特征參數?!斑x擇語音”是選擇測試語音庫中的語音文件并播放選中的語音?!白R別”是利用DTW算法進行的模式匹配,鑒于這樣的情況然后識別出語音結果,以及輸出病癥語音對應的科室,如語音“咳嗽”對應的科室為“耳鼻喉科”。在識別過程中坐標軸還可以顯示出端點檢測后的語音信號。最后的“退出”按鈕可以供用戶選擇繼續(xù)進行識別操作還是退出(朱文博,魏曉茜,2020)。5.2程序運行過程(1)首先點擊GUI界面上的開始按鈕。如圖5-5。圖5-5開始(2)點擊開始后會出現可以運行的GUI界面。如圖5-6。錄音關閉(3)隨后單擊“錄音”按鈕錄入語音,比如“咳嗽”。然后在彈出的文本框中輸入病癥語音名稱“咳嗽”,隨后自動保存在語音庫中。如圖5-7?!吝x擇語音庫提取特征參數選擇語音圖5-7第一步錄音(4)單擊“選擇語音庫”,選擇錄入的醫(yī)療病情信息語音庫。如下圖5-8?!麄€《畢設相關>語音導診助手(修改)>wav>哈文檔系統(tǒng)(D:)《P圖5-8選擇語音庫(5)點擊“提取特征參數”,單機后會迅速彈出進度條(大概0.2秒),隨后長文本框中出現“特征參數提取完畢”,表示提取完畢可以進行下一步操作。如圖5-9。特征參數提取完畢!特征參數提取完畢!圖5-9提取特征參數(6)點擊“選擇語音”選擇訓練庫中的語音。X(7)點擊“識別”進行語音識別。出現識別結果,如下圖5-10。X智能語音導診助手智能語音導診助手0結果咳嗽識別完畢!進1圖5-10語音識別結果(8)最后可以進行繼續(xù)識別,也可以點擊“關閉”退出操作。6.1全文總結音輸入來進行相應的導診功能。本文的主要突出了DTW和MFCC算法的研究。使用了(3)分析介紹了DTW算法。本設計選用了DTW算法,并且對傳統(tǒng)的DTW算法進行了簡單改進應用到導診助手設計中,使得對于孤立詞語音的識別速度大大增加,6.2展望本次設計使用的是MATLAB平臺的GUI界面來實現設計應用,雖便于仿真,但是[1]許詩茵,何澤宇.場景特定詞的非特定人語音識別[D].西安電子科技大學,2022.[2]盧俊豪,汪澤楷.非特定人孤立詞語音識別算法研究[D].南京郵電大學,2023.[3]汪明輝,陳麗娟.非特定人語音識別關鍵技術研究[D].國防科學技術大學,2021.[4]周思遠,許一凡.基于D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論