版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標(biāo)注工程——概念、方法、工具與案例人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標(biāo)注工程1第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.1語音數(shù)據(jù)標(biāo)注簡介5.3典型開源語音數(shù)據(jù)標(biāo)注工具5.4語音數(shù)據(jù)標(biāo)注整體流程5.5多樣化語音數(shù)據(jù)標(biāo)注項(xiàng)目5.6本章小結(jié)5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用隨著深度學(xué)習(xí)算法的發(fā)展,智能語音處理技術(shù)正在經(jīng)歷革命性的變化,算法、算力、數(shù)據(jù)成為驅(qū)動智能語音處理技術(shù)快速發(fā)展的三大因素。其中,語音數(shù)據(jù)資源是智能語音處理技術(shù)的基石,只有擁有大規(guī)模精準(zhǔn)、高質(zhì)量的語音數(shù)據(jù)集,智能語音處理技術(shù)才會有更好的發(fā)展。另一方面,雖然當(dāng)下的智能語音處理技術(shù)在一些業(yè)務(wù)中有非常好的表現(xiàn),但依然存在效果不太理想的場景,比如重口音、方言、嘈雜環(huán)境、多人同時(shí)說話、遠(yuǎn)場語音等,這不僅需要進(jìn)一步提升深度學(xué)習(xí)算法的有效性,還需要設(shè)計(jì)、獲取和生產(chǎn)更多豐富場景下的語音數(shù)據(jù)資源。在當(dāng)今互聯(lián)網(wǎng)時(shí)代下,高質(zhì)量的語音數(shù)據(jù)集對于語音產(chǎn)業(yè)的蓬勃發(fā)展起到關(guān)鍵作用,具有重大實(shí)用意義。5.1
語音數(shù)據(jù)標(biāo)注簡介第5章
語音數(shù)據(jù)標(biāo)注隨著深度學(xué)習(xí)算法的發(fā)展,智能語音處理技術(shù)正在經(jīng)歷革命性的變化(1)近些年來,在人工智能發(fā)展的浪潮下,智能語音處理領(lǐng)域獲得了突破性進(jìn)展,尤其是在深度學(xué)習(xí)的不斷滲入下,以端到端技術(shù)為代表的各種新算法不斷出現(xiàn)并應(yīng)用在實(shí)際業(yè)務(wù)系統(tǒng)中,極大地提升了智能語音處理技術(shù)的效果。(2)機(jī)器人電話客服系統(tǒng)、智能手機(jī)助手、智能音箱等大規(guī)模應(yīng)用在限定場景下已經(jīng)有比較好的表現(xiàn)。未來的落地場景會越來越多。(3)目前,智能語音處理技術(shù)中熱門研究方向如下圖所示。5.1.1語音數(shù)據(jù)標(biāo)注相關(guān)背景5.1
語音數(shù)據(jù)標(biāo)注簡介第5章
語音數(shù)據(jù)標(biāo)注(1)近些年來,在人工智能發(fā)展的浪潮下,智能語音處理領(lǐng)域獲得(1)認(rèn)知語音信號:從物理學(xué)角度分析,聲音即是以聲波形式傳播的機(jī)械振動,因此,聲音的特征取決于聲波的屬性,日常應(yīng)用中常見的語音聲音特征主要有:①音色/音質(zhì):指能夠區(qū)分兩種不同聲音的基本特征,比如人說話的聲音和小提琴的聲音。在語音信號處理技術(shù)中,人聲識別研究常將音色作為重要研究對象;②音調(diào):指聲音的高低,由聲波的頻率決定。比如在一般情況下,男聲聽起來比較低沉,而女聲聽起來會比較尖銳;③音強(qiáng):指聲音的強(qiáng)弱,由聲波的振動幅度決定,可簡單理解為語音信號波形圖中的信號幅度;④音長:指聲音的長短,由發(fā)音時(shí)間的長短決定。5.1.2語音信號基礎(chǔ)知識5.1
語音數(shù)據(jù)標(biāo)注簡介第5章
語音數(shù)據(jù)標(biāo)注(1)認(rèn)知語音信號:從物理學(xué)角度分析,聲音即是以聲波形式傳播(2)數(shù)字化語音信號:數(shù)字化(也可稱作離散化)語音信號的功能是將人們發(fā)出的語音連續(xù)模擬信號轉(zhuǎn)化為計(jì)算機(jī)方便處理的離散數(shù)字信號,該過程涉及以下幾個(gè)概念,它們都是保存、傳輸語音數(shù)據(jù)的關(guān)鍵選項(xiàng):①采樣率:指在連續(xù)的語音模擬信號上,每秒鐘采樣的次數(shù),單位為Hz;②量化位數(shù):將采樣得到的語音信號的幅度值轉(zhuǎn)化為一定范圍內(nèi)的數(shù)值,該過程即為量化。量化位數(shù)指計(jì)算機(jī)存儲轉(zhuǎn)化后數(shù)值的二進(jìn)制比特?cái)?shù)。③聲音通道數(shù):也稱聲道數(shù),是指輸入或輸出信號的通道數(shù),也就是聲音錄制時(shí)的音源數(shù)量或回放時(shí)相應(yīng)的揚(yáng)聲器的數(shù)量。常見的聲道數(shù)有單聲道、雙聲道、立體聲等。④語音編碼格式:指按一定格式壓縮采樣和量化后的數(shù)值,從而降低音頻的數(shù)據(jù)量,便于音頻數(shù)據(jù)的存儲和傳輸。常用的編碼格式有PCM(WAV)、MP3等。5.1.2語音信號基礎(chǔ)知識5.1
語音數(shù)據(jù)標(biāo)注簡介第5章
語音數(shù)據(jù)標(biāo)注(2)數(shù)字化語音信號:數(shù)字化(也可稱作離散化)語音信號的功能第5章語音數(shù)據(jù)標(biāo)注5.1語音數(shù)據(jù)標(biāo)注簡介人工智能技術(shù)應(yīng)用核心課程系列教材5.2語音數(shù)據(jù)標(biāo)注概述5.3典型開源語音數(shù)據(jù)標(biāo)注工具5.4語音數(shù)據(jù)標(biāo)注整體流程5.5多樣化語音數(shù)據(jù)標(biāo)注項(xiàng)目5.6本章小結(jié)5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標(biāo)注5.1語音數(shù)據(jù)標(biāo)注簡介人工智能技術(shù)應(yīng)用語音數(shù)據(jù)標(biāo)注任務(wù)具有不同的形式,大致可從以下不同緯度考察它們的特點(diǎn):(1)按照智能應(yīng)用場景,可劃分為智能家居、智能會議、智能客服、智能車載等;(2)按照語音信號處理研究方向,可劃分為語音識別、語音合成、說話人識別、情感識別、語音分離等;(3)按照音源與拾音器之間的距離,可劃分為近場語音、遠(yuǎn)場語音;(4)按照語音時(shí)長,可劃分為短語音、長語音;(5)按照難度等級,可劃分為簡單、中等、高難度;(6)按照口音,可劃分為普通話、方言、帶地方口音的普通話等。除此之外,小語種、外語相關(guān)的語音數(shù)據(jù)標(biāo)注任務(wù)則需要有相應(yīng)專業(yè)背景的專業(yè)人士來完成,這也加大了標(biāo)注任務(wù)的難度。5.2.1標(biāo)注任務(wù)分類5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注語音數(shù)據(jù)標(biāo)注任務(wù)具有不同的形式,大致可從以下不同緯度考察它們在語音數(shù)據(jù)標(biāo)注的過程中,需對這些異常數(shù)據(jù)加以鑒別并挑選出來,保證標(biāo)注數(shù)據(jù)的整潔性。常見的語音異?,F(xiàn)象包括以下幾種:(1)丟幀:在語音錄制過程中,由于音頻設(shè)備的問題而表現(xiàn)出的發(fā)音卡頓,比如語音段中某0.1秒內(nèi)突然沒有聲音,0.1秒過后語音又恢復(fù)正常,此現(xiàn)象稱為“丟幀”;(2)切音:在語音錄制過程中,由于過早結(jié)束或過晚開始錄制導(dǎo)致個(gè)別字被截?cái)喽憩F(xiàn)出的發(fā)音不完整,此現(xiàn)象稱為“切音”,切音示意圖如下;5.2.2
常見數(shù)據(jù)異常5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注在語音數(shù)據(jù)標(biāo)注的過程中,需對這些異常數(shù)據(jù)加以鑒別并挑選出來,(3)吞音:在說話人發(fā)音時(shí),由于個(gè)別字的聲母或韻母未完全發(fā)音而表現(xiàn)出的發(fā)音不完整,此現(xiàn)象稱為“吞音”;(4)噴麥:在說話人發(fā)音時(shí),由于距離麥克風(fēng)太近而表現(xiàn)出的錄入語音不清晰,聽起來有明顯噗噗的聲音,此現(xiàn)象稱為“噴麥”;(5)重音:在說話人發(fā)音時(shí),語音中出現(xiàn)兩個(gè)或多個(gè)說話人,他們的音量大小相近且有大段重疊,無法分清主次,此現(xiàn)象稱為“重音”;(6)空曠音:在錄制過程中,由于周圍環(huán)境較為空曠而表現(xiàn)出來的發(fā)音中帶有回音,此現(xiàn)象稱為“空曠音”;(7)混響:混響是另一種常見的聲學(xué)場景。與回聲不同,混響是語音經(jīng)多次反射、折射后疊加而成的聲音。通常情況下,上述情況下的異常語音數(shù)據(jù)會被認(rèn)定為無效語音。5.2.2
常見數(shù)據(jù)異常5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注(3)吞音:在說話人發(fā)音時(shí),由于個(gè)別字的聲母或韻母未完全發(fā)音(1)語音段落截?。簩τ诙喽温涞拈L語音,比如演講語音、會議記錄等,標(biāo)注人員需要從中截取出多個(gè)語音小段,對切開的每個(gè)語音小段,進(jìn)行分開標(biāo)注。在截取語音段時(shí)需注意以下事項(xiàng):①考慮語義連貫性,以說話人的一整句為單位進(jìn)行截取。若一整句的時(shí)長超過8秒,也可以截取成分句。根據(jù)經(jīng)驗(yàn),每個(gè)語音小段平均在5-6秒左右;②每個(gè)時(shí)間邊界的最佳位置應(yīng)在語音波形圖的最低點(diǎn);③不同說話人的語音分開截取到不同的語音小段;④截取的語音小段前后盡量保留0.2至0.3秒的靜音段,若本身沒有這么長時(shí)間的靜音則不強(qiáng)求;⑤盡可能截取沒有突發(fā)噪音的語音段,可以為了避開突發(fā)噪音,而縮短語音前后的預(yù)留靜音時(shí)間,但不能出現(xiàn)切音的情況;⑥只有一個(gè)字表示應(yīng)答的(如嗯、哦、對),不用單獨(dú)分割成獨(dú)立語音段;⑦若說話人第一遍讀錯(cuò)句子,停頓后又重復(fù)朗讀一遍該句子,則只截取朗讀正確的句子即可。5.2.3
基本標(biāo)注規(guī)范5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注(1)語音段落截?。簩τ诙喽温涞拈L語音,比如演講語音、會議記(2)有效語音判定:在語音數(shù)據(jù)標(biāo)注時(shí),不合格的無效語音段必須加以說明和丟棄。判定一段語音為無效語音的情況有:
①該段語音是用規(guī)定之外的語言朗讀的,比如規(guī)定是用印度英語朗讀,而實(shí)際卻是用中式英語朗讀的;②整段語音段沒有說話人的語音,只含有噪聲或者靜音(可視為無聲音);③語音段中含有很強(qiáng)的背景噪音,以至于覆蓋掉說話人的聲音;④說話人的聲音極小而導(dǎo)致無法聽清語音內(nèi)容;⑤說話人語速過快而導(dǎo)致發(fā)音不清楚或吞音;⑥說話人發(fā)音時(shí)一字一頓,每個(gè)停頓時(shí)間超過1秒;⑦說話人發(fā)音時(shí)語氣夸張,故意怪里怪氣地朗讀;⑧語音段存在切音、吞音、丟幀、噴麥、重音等異常;⑨語音段存在影響語音清晰度的空曠音、混響等異常。5.2.3
基本標(biāo)注規(guī)范5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注(2)有效語音判定:在語音數(shù)據(jù)標(biāo)注時(shí),不合格的無效語音段必須(3)語音內(nèi)容轉(zhuǎn)寫:語音數(shù)據(jù)標(biāo)注的重中之重即語音內(nèi)容的轉(zhuǎn)寫。語音內(nèi)容轉(zhuǎn)寫的基本原則為“所聽即所寫”,即轉(zhuǎn)寫文本必須與說話人發(fā)音內(nèi)容完全一致。具體規(guī)范包含以下幾個(gè)方面:①詞匯:轉(zhuǎn)寫的詞匯必須和聽到的語音完全一致,不能多字、少字、錯(cuò)字;②感嘆詞:在轉(zhuǎn)寫語音中出現(xiàn)的感嘆詞時(shí)應(yīng)使用其標(biāo)準(zhǔn)拼寫格式,如“呃、啊、嗯、哦、唉、吶”等,要按照正確發(fā)音進(jìn)行轉(zhuǎn)寫;③數(shù)字:所有數(shù)字應(yīng)根據(jù)實(shí)際發(fā)音轉(zhuǎn)寫為文本,絕不能寫成阿拉伯?dāng)?shù)字;④英文:語音中的英文發(fā)音應(yīng)轉(zhuǎn)寫成相應(yīng)的漢字或英文,根據(jù)不同情況而定;⑤標(biāo)點(diǎn)符號:陳述句用“。”,疑問句用“?”,感嘆句用“!”等;⑥其他符號:如果存在除標(biāo)點(diǎn)符號意外的其他符號,要根據(jù)發(fā)音轉(zhuǎn)寫成對應(yīng)漢字或英文;⑦噪音:有些情況下,除了需要轉(zhuǎn)寫語音內(nèi)容之外,也需要標(biāo)識語音段中含有的噪音情況,一般有分為四類(NSPT)。5.2.3
基本標(biāo)注規(guī)范5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注(3)語音內(nèi)容轉(zhuǎn)寫:語音數(shù)據(jù)標(biāo)注的重中之重即語音內(nèi)容的轉(zhuǎn)寫。(4)說話人屬性標(biāo)注:對于語音合成、說話人識別等語音研究而言,說話人信息也是非常重要的特征,因此,有些語音數(shù)據(jù)還需要對說話人的信息加以標(biāo)識,比如說話人的性別、年齡、口音等。若語音段含有多個(gè)說話人的聲音,則需要分別標(biāo)注所有說話人的以上屬性,并標(biāo)注說話人身份信息,如記為“speaker1”、“speaker2”等。5.2.3
基本標(biāo)注規(guī)范5.2語音數(shù)據(jù)標(biāo)注概述第5章
語音數(shù)據(jù)標(biāo)注(4)說話人屬性標(biāo)注:對于語音合成、說話人識別等語音研究而言第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.3典型開源語音數(shù)據(jù)標(biāo)注工具5.6本章小結(jié)5.4語音數(shù)據(jù)標(biāo)注整體流程5.5多樣化語音數(shù)據(jù)標(biāo)注項(xiàng)目5.1語音數(shù)據(jù)標(biāo)注簡介5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用語音學(xué)軟件Praat,是一款跨平臺的多功能語音學(xué)專業(yè)軟件,主要用于對數(shù)字化的語音信號進(jìn)行分析、標(biāo)注、處理及合成等實(shí)驗(yàn)。目前,Praat已經(jīng)成為世界上實(shí)驗(yàn)語音學(xué)、語言學(xué)、語言調(diào)查、語言處理等相關(guān)領(lǐng)域的研究人員普遍使用的軟件。下圖是利用Praat軟件進(jìn)行語音數(shù)據(jù)標(biāo)注的界面圖。5.3.1Praat語音學(xué)軟件5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注語音學(xué)軟件Praat,是一款跨平臺的多功能語音學(xué)專業(yè)軟件,主本部分以數(shù)據(jù)堂數(shù)加加語音數(shù)據(jù)標(biāo)注平臺為樣例進(jìn)行講解。數(shù)加加語音數(shù)據(jù)標(biāo)注平臺的操作界面圖如下圖所示。5.3.2語音數(shù)據(jù)標(biāo)注平臺5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注本部分以數(shù)據(jù)堂數(shù)加加語音數(shù)據(jù)標(biāo)注平臺為樣例進(jìn)行講解。數(shù)加加語在該標(biāo)注平臺中,執(zhí)行語音數(shù)據(jù)標(biāo)注任務(wù)的基本框架由8個(gè)子模塊組成,它們分別是:(1)語音數(shù)據(jù)展示模塊:如下圖所示,該模塊以時(shí)域波形圖的形式刻畫了待標(biāo)注語音數(shù)據(jù)的能量分布,上方的時(shí)間刻度指示著語音段的時(shí)間維度。在該模塊,標(biāo)注人員可以參照時(shí)間刻度與語音能量分布選取特定的語音時(shí)段,點(diǎn)擊被選波形區(qū)域即可播放該時(shí)段的語音。5.3.2語音數(shù)據(jù)標(biāo)注平臺5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注在該標(biāo)注平臺中,執(zhí)行語音數(shù)據(jù)標(biāo)注任務(wù)的基本框架由8個(gè)子模塊組(2)語音數(shù)據(jù)標(biāo)注統(tǒng)計(jì)模塊:如下圖所示,該模塊不僅顯示了本條語音的總時(shí)長信息,而且實(shí)時(shí)統(tǒng)計(jì)并顯示了正在進(jìn)行中的語音數(shù)據(jù)標(biāo)注情況,包括標(biāo)注為有效語音段的總時(shí)長、標(biāo)注為無效語音段的總時(shí)長、未標(biāo)注語音內(nèi)容的總時(shí)長。(3)語音播放控制模塊:如下圖所示,該模塊主要包括播放/暫停、快進(jìn)、快退三大功能選項(xiàng),除此之外,該模塊還提供了語音播放速度調(diào)控、語音時(shí)域波形縮放控制功能。5.3.2語音數(shù)據(jù)標(biāo)注平臺5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注(2)語音數(shù)據(jù)標(biāo)注統(tǒng)計(jì)模塊:如下圖所示,該模塊不僅顯示了本條(4)屬性標(biāo)注模塊:如下圖所示,該模塊可根據(jù)具體標(biāo)注任務(wù)的要求設(shè)計(jì)待標(biāo)注屬性及其展示形式,不同任務(wù)可能具有不同的樣式。(5)語音內(nèi)容轉(zhuǎn)寫模塊:如下圖所示,標(biāo)注人員通過傾聽待標(biāo)注段落的語音、鑒別說話人的發(fā)音內(nèi)容并按照文本數(shù)據(jù)標(biāo)注章節(jié)所述語音內(nèi)容轉(zhuǎn)寫規(guī)則書寫出規(guī)范的語音內(nèi)容轉(zhuǎn)寫文本。5.3.2語音數(shù)據(jù)標(biāo)注平臺5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注(4)屬性標(biāo)注模塊:如下圖所示,該模塊可根據(jù)具體標(biāo)注任務(wù)的要(6)標(biāo)注時(shí)段檢索模塊:如下圖所示,該模塊可輔助標(biāo)注人員更為快捷地搜索、定位已標(biāo)注語音段落,它支持分段式檢索、位置搜索與條件搜索。(7)標(biāo)注信息綜合模塊:如下圖所示,該模塊用于顯示已標(biāo)注語音段落的所有內(nèi)容,它綜合了語音段落的時(shí)長信息、屬性標(biāo)注結(jié)果、內(nèi)容轉(zhuǎn)寫結(jié)果等。5.3.2語音數(shù)據(jù)標(biāo)注平臺5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注(6)標(biāo)注時(shí)段檢索模塊:如下圖所示,該模塊可輔助標(biāo)注人員更為(8)標(biāo)注進(jìn)度控制模塊:一般而言,標(biāo)注人員需要對大批量的語音數(shù)據(jù)進(jìn)行語音數(shù)據(jù)標(biāo)注,該模塊即負(fù)責(zé)數(shù)據(jù)標(biāo)注的進(jìn)度控制,如下圖所示。(9)半自動化語音數(shù)據(jù)標(biāo)注模塊:當(dāng)標(biāo)注數(shù)據(jù)量較大時(shí),半自動標(biāo)注方式可以采用訓(xùn)練好的模型對目標(biāo)數(shù)據(jù)進(jìn)行檢測,進(jìn)而大幅減少標(biāo)注人員標(biāo)注量。5.3.2語音數(shù)據(jù)標(biāo)注平臺5.3典型開源語音數(shù)據(jù)標(biāo)注工具第5章
語音數(shù)據(jù)標(biāo)注(8)標(biāo)注進(jìn)度控制模塊:一般而言,標(biāo)注人員需要對大批量的語音第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.4語音數(shù)據(jù)標(biāo)注整體流程5.3典型開源語音數(shù)據(jù)標(biāo)注工具5.6本章小結(jié)5.5多樣化語音數(shù)據(jù)標(biāo)注項(xiàng)目5.1語音數(shù)據(jù)標(biāo)注簡介5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用本節(jié)以多人自然對話語音數(shù)據(jù)標(biāo)注項(xiàng)目為例,介紹語音數(shù)據(jù)標(biāo)注流程。語音識別、語音合成等智能語音處理技術(shù)在單一說話人、發(fā)音規(guī)范、背景噪音良好的情況下已經(jīng)具有較為突出的表現(xiàn),然而,當(dāng)前阻礙智能語音處理技術(shù)實(shí)用化的一大困難即是復(fù)雜條件下性能降低的問題。在實(shí)際生活場景中,自然發(fā)音、口音、復(fù)雜噪聲、聲音混疊等現(xiàn)象隨處可見,另一方面,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)對于訓(xùn)練模型的影響越來越重要,因此,生產(chǎn)復(fù)雜場景下的智能語音數(shù)據(jù)無論對于學(xué)術(shù)研究還是對于企業(yè)開發(fā),均具有重大意義。多人自然對話語音數(shù)據(jù)即是在單一說話人朗讀類數(shù)據(jù)的基礎(chǔ)上增加難度,對應(yīng)于實(shí)際生活中的會議、小組討論、聚會等場景,為復(fù)雜場景下的語音識別、說話人識別、性別檢測等智能語音處理技術(shù)的研究提供重要的數(shù)據(jù)支撐。5.4.1項(xiàng)目背景與意義5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注本節(jié)以多人自然對話語音數(shù)據(jù)標(biāo)注項(xiàng)目為例,介紹語音數(shù)據(jù)標(biāo)注流程語音數(shù)據(jù)標(biāo)注是語音數(shù)據(jù)產(chǎn)品生產(chǎn)流程中的一個(gè)環(huán)節(jié),總的來說,語音數(shù)據(jù)產(chǎn)品生產(chǎn)包含了從語音采集到數(shù)據(jù)交付的各個(gè)環(huán)節(jié),各個(gè)環(huán)節(jié)之間相輔相成、緊緊相扣。如下圖所示,語音數(shù)據(jù)產(chǎn)品生產(chǎn)過程具體包括語音采集、數(shù)據(jù)預(yù)處理、語音數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)檢與數(shù)據(jù)交付模塊。5.4.2語音項(xiàng)目整體規(guī)程5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注語音數(shù)據(jù)標(biāo)注是語音數(shù)據(jù)產(chǎn)品生產(chǎn)流程中的一個(gè)環(huán)節(jié),總的來說,語(1)語音采集模塊:利用移動互聯(lián)網(wǎng)的發(fā)展,發(fā)揮廣大群眾的智慧,通過個(gè)人智能手機(jī)對各類人工智能相關(guān)的底層數(shù)據(jù)進(jìn)行大規(guī)模采集;(2)數(shù)據(jù)預(yù)處理模塊:對采集的數(shù)據(jù)進(jìn)行嚴(yán)格的把關(guān),才能有效提高后續(xù)質(zhì)量。數(shù)據(jù)清洗、信息脫敏是常見的數(shù)據(jù)預(yù)處理方法;(3)語音數(shù)據(jù)標(biāo)注模塊:多類型、大體量的樣本空間及高質(zhì)量數(shù)據(jù)是人工智能技術(shù)精度的重要保障,語音數(shù)據(jù)標(biāo)注是語音數(shù)據(jù)產(chǎn)品生產(chǎn)流程中的關(guān)鍵環(huán)節(jié);(4)數(shù)據(jù)質(zhì)檢模塊:在語音采集、語音數(shù)據(jù)標(biāo)注環(huán)節(jié),根據(jù)嚴(yán)格制定的通用質(zhì)檢點(diǎn)的特征來檢查數(shù)據(jù)質(zhì)量的過程即為數(shù)據(jù)質(zhì)檢。(5)數(shù)據(jù)交付模塊:數(shù)據(jù)交付是語音數(shù)據(jù)產(chǎn)品生產(chǎn)的最后一個(gè)環(huán)節(jié),在完成語音數(shù)據(jù)的生產(chǎn)后需準(zhǔn)備齊全的說明文檔與規(guī)范化的數(shù)據(jù)存儲格式。5.4.2語音項(xiàng)目整體規(guī)程5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注(1)語音采集模塊:利用移動互聯(lián)網(wǎng)的發(fā)展,發(fā)揮廣大群眾的智慧(1)分析待標(biāo)注語音數(shù)據(jù):經(jīng)過語音采集與數(shù)據(jù)預(yù)處理環(huán)節(jié),已經(jīng)生成大規(guī)模的多人自然對話型語音數(shù)據(jù)。這些待標(biāo)注語音數(shù)據(jù)為在相對安靜的環(huán)境下、說話人統(tǒng)一采用標(biāo)準(zhǔn)普通話的發(fā)音方式所錄制而成的,語音數(shù)據(jù)為由2至5人組成的小組就某一話題展開的自由對話,圍繞每一話題展開的自然對話的平均時(shí)長約為30分鐘左右。語音數(shù)據(jù)的數(shù)據(jù)量、說話人性別分布、年齡分布、地域分布均符合在其應(yīng)用場景下的機(jī)器學(xué)習(xí)和模型訓(xùn)練的需要;(2)制定標(biāo)注說明規(guī)則:根據(jù)項(xiàng)目背景、意義及數(shù)據(jù)應(yīng)用場景,按照該領(lǐng)域的專業(yè)常識,從機(jī)器學(xué)習(xí)算法的角度出發(fā),制定滿足機(jī)器學(xué)習(xí)模型訓(xùn)練的標(biāo)注規(guī)則。5.2.3為通用語音數(shù)據(jù)標(biāo)注規(guī)則,具體項(xiàng)目會有所改動。在本項(xiàng)目中,若語音涉及說話人的手機(jī)號、銀行卡號、身份證號、家庭住址等敏感信息,則出現(xiàn)這些具體內(nèi)容的句子判定為無效語音段,并需要記錄錯(cuò)誤類型為“含敏感信息”。5.4.3語音數(shù)據(jù)標(biāo)注過程詳情5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注(1)分析待標(biāo)注語音數(shù)據(jù):經(jīng)過語音采集與數(shù)據(jù)預(yù)處理環(huán)節(jié),已經(jīng)(3)設(shè)計(jì)語音數(shù)據(jù)標(biāo)注平臺:在進(jìn)行語音數(shù)據(jù)標(biāo)注前,必須根據(jù)項(xiàng)目特點(diǎn)設(shè)計(jì)更易操作、更高效的語音數(shù)據(jù)標(biāo)注平臺。該任務(wù)中待標(biāo)注語音數(shù)據(jù)具有說話人眾多、對話內(nèi)容自由、語音時(shí)長較長、背景噪音小等特點(diǎn),這決定了在設(shè)計(jì)與之配合的語音數(shù)據(jù)標(biāo)注平臺時(shí),需考慮更為全面、詳細(xì)的標(biāo)注方式:①在該標(biāo)注任務(wù)中,語音段落截取是首要的重點(diǎn)工作,需嚴(yán)格按照5.2.3規(guī)范(尤其是多人交談可能發(fā)生的語音重疊情形)將長語音截取成多段待標(biāo)注語音段。②在屬性標(biāo)注模塊,除了判斷該段語音段是否有效之外,還需對說話人的角色、性別屬性加以標(biāo)識。③在該任務(wù)中,由于待標(biāo)注語音數(shù)據(jù)時(shí)長較長、數(shù)據(jù)量偏大,考慮借助語音端點(diǎn)檢測算法、語音識別算法、角色識別算法及性別檢測算法預(yù)先對待標(biāo)注語音進(jìn)行有效語音段截取、語音預(yù)識別、角色預(yù)判定、性別預(yù)判定,標(biāo)注人員可根據(jù)預(yù)判定結(jié)果進(jìn)行準(zhǔn)確鑒別與轉(zhuǎn)寫語音內(nèi)容。5.4.3語音數(shù)據(jù)標(biāo)注過程詳情5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注(3)設(shè)計(jì)語音數(shù)據(jù)標(biāo)注平臺:在進(jìn)行語音數(shù)據(jù)標(biāo)注前,必須根據(jù)項(xiàng)(3)設(shè)計(jì)語音數(shù)據(jù)標(biāo)注平臺:配置好的標(biāo)注平臺界面如圖所示。5.4.3語音數(shù)據(jù)標(biāo)注過程詳情5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注(3)設(shè)計(jì)語音數(shù)據(jù)標(biāo)注平臺:配置好的標(biāo)注平臺界面如圖所示。5(4)開展語音數(shù)據(jù)標(biāo)注任務(wù):在開展語音數(shù)據(jù)標(biāo)注任務(wù)時(shí),需首先利用語音端點(diǎn)檢測、語音識別、角色識別、性別檢測等模型預(yù)先判定待標(biāo)注語音數(shù)據(jù)的標(biāo)注結(jié)果,繼而將待標(biāo)注語音數(shù)據(jù)及預(yù)標(biāo)注結(jié)果上傳至半自動標(biāo)注平臺。在標(biāo)注前,還需對標(biāo)注人員進(jìn)行相關(guān)任務(wù)培訓(xùn),包括標(biāo)注平臺的使用方法、標(biāo)注任務(wù)的目的、標(biāo)注內(nèi)容和標(biāo)準(zhǔn)。(5)標(biāo)注結(jié)果質(zhì)量檢查:該環(huán)節(jié)的目的在于確保數(shù)據(jù)標(biāo)注的結(jié)果具有價(jià)值,符合應(yīng)用場景。在標(biāo)注結(jié)果質(zhì)量檢查中,如果根據(jù)通用質(zhì)檢點(diǎn)的特征判斷出語句的一部分出現(xiàn)了以下標(biāo)注錯(cuò)誤:錯(cuò)誤標(biāo)注,有效錯(cuò)誤等,則認(rèn)定這句話為錯(cuò)誤標(biāo)注語句。標(biāo)注準(zhǔn)確率的計(jì)算公式為:標(biāo)注準(zhǔn)確率=1-(錯(cuò)誤的標(biāo)注語句數(shù)/全部標(biāo)注語句數(shù))一般來說,若對標(biāo)注結(jié)果的準(zhǔn)確率要求比較高,則標(biāo)注結(jié)果的句正確率應(yīng)該在97%(含)以上。5.4.3語音數(shù)據(jù)標(biāo)注過程詳情5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注(4)開展語音數(shù)據(jù)標(biāo)注任務(wù):在開展語音數(shù)據(jù)標(biāo)注任務(wù)時(shí),需首先(6)標(biāo)注結(jié)果輸出:語音數(shù)據(jù)標(biāo)注的結(jié)果包含語音標(biāo)簽的時(shí)間位置和標(biāo)簽的具體內(nèi)容(例如轉(zhuǎn)寫內(nèi)容、說話人信息、噪聲等)。標(biāo)注文件的輸出格式為TXT文件或其他通用的輸出格式,其中文件應(yīng)包含詳細(xì)的標(biāo)簽信息,如下圖所示。
在交付數(shù)據(jù)時(shí),完整的交付內(nèi)容包括:原始數(shù)據(jù)、標(biāo)注結(jié)果、說明文檔、關(guān)于標(biāo)注數(shù)據(jù)的Metadata(包括描述原始數(shù)據(jù)的元信息)。此外,交付的數(shù)據(jù)最好以規(guī)范的存儲結(jié)構(gòu)保存,如下為多人對話類語音數(shù)據(jù)存儲結(jié)構(gòu):5.4.3語音數(shù)據(jù)標(biāo)注過程詳情5.4語音數(shù)據(jù)標(biāo)注整體流程
第5章
語音數(shù)據(jù)標(biāo)注(6)標(biāo)注結(jié)果輸出:語音數(shù)據(jù)標(biāo)注的結(jié)果包含語音標(biāo)簽的時(shí)間位置第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用核心課程系列教材5.5多樣化語音數(shù)據(jù)標(biāo)注項(xiàng)目5.3典型開源語音數(shù)據(jù)標(biāo)注工具5.4語音數(shù)據(jù)標(biāo)注整體流程5.6本章小結(jié)5.1語音數(shù)據(jù)標(biāo)注簡介5.7作業(yè)與練習(xí)第5章語音數(shù)據(jù)標(biāo)注5.2語音數(shù)據(jù)標(biāo)注概述人工智能技術(shù)應(yīng)用(1)智能家居兒童語音標(biāo)注:智能家居行業(yè)是人工智能在生活服務(wù)領(lǐng)域的重要落地場景,也是我們感知人工智能落地最深的行業(yè)之一。特別地,由于成年人的工作等原因,導(dǎo)致這些智能家居產(chǎn)品更多的是服務(wù)于常在家里的兒童和老人。兒童吐字不清、發(fā)音不流暢等問題是當(dāng)前影響智能家居語音產(chǎn)品性能的一大問題,因此,大量的智能家居場景下的兒童語音標(biāo)注數(shù)據(jù)對于提升語音產(chǎn)品性能具有關(guān)鍵作用。(2)智能音箱語音數(shù)據(jù)標(biāo)注:智能音箱作為音箱的升級產(chǎn)物,是用戶通過語音進(jìn)行網(wǎng)上各類行為的一個(gè)重要工具,比如點(diǎn)播歌曲、上網(wǎng)購物,或是了解天氣預(yù)報(bào),它也可以對智能家居設(shè)備進(jìn)行控制,極大地方便了用戶的各類操作。而國內(nèi)市場很多小廠商的智能音箱并不“智能”,對于用戶的指令,并不能很好的響應(yīng)。而其中所欠缺的就是對用戶指令的理解,首要的就是用戶語音識別。這也就需要標(biāo)注人員對大量的真實(shí)用戶語音進(jìn)行加工,轉(zhuǎn)寫為對應(yīng)的文本內(nèi)容,進(jìn)而不斷訓(xùn)練和優(yōu)化智能音箱的語音識別算法,達(dá)到更優(yōu)的識別率。5.5
多樣化語音數(shù)據(jù)標(biāo)注項(xiàng)目
第5章
語音數(shù)據(jù)標(biāo)注(1)智能家居兒童語音標(biāo)注:智能家居行業(yè)是人工智能在生活服務(wù)(3)智能家居語音拼音標(biāo)注:拼音標(biāo)注也是語音數(shù)據(jù)標(biāo)注的一種形式。語音拼音標(biāo)注的目的是為整個(gè)數(shù)據(jù)庫提供準(zhǔn)確的、逐字的拼音記錄。拼音記錄的順序與音頻文件的時(shí)序一致,音頻信號及其他語音特征用特殊符號標(biāo)注。語音數(shù)據(jù)標(biāo)注人員在有參照文本的情況下將聽到的語音文件譯成拼音。每一條音譯結(jié)果包含一組拼音序列及其他特殊標(biāo)注符號等。(4)演講語音數(shù)據(jù)標(biāo)注:在實(shí)際生活中,與會議記錄、課堂討論等場景不同,有些應(yīng)用場景比如演
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)業(yè)科技企業(yè)勞動合同保密協(xié)議范本2篇
- 二零二五年度小微企業(yè)擔(dān)保合同標(biāo)準(zhǔn)文本3篇
- 二零二五年度施工現(xiàn)場安全管理人員職責(zé)及考核合同3篇
- 二零二五年醫(yī)療機(jī)構(gòu)病房樓場地租賃及醫(yī)療設(shè)備租賃協(xié)議3篇
- 2025年度電影發(fā)行融資居間服務(wù)協(xié)議3篇
- 二零二五年度文化遺產(chǎn)保護(hù)項(xiàng)目工程合同樣本3篇
- 運(yùn)動課程設(shè)計(jì)與展示
- 二零二五年度辦公樓能源消耗監(jiān)測與節(jié)能服務(wù)合同2篇
- 二零二五年度按揭車輛轉(zhuǎn)讓與汽車租賃服務(wù)結(jié)合合同2篇
- 2025年度施工安全用電安全保障措施合同范本2份3篇
- 水利工程施工單位竣工資料目錄
- 技術(shù)經(jīng)濟(jì)學(xué)(中國石油大學(xué)(華東))-知到答案、智慧樹答案
- 《中國高鐵作業(yè)設(shè)計(jì)方案-2023-2024學(xué)年科學(xué)冀人版》
- 招標(biāo)代理服務(wù)服務(wù)方案
- 工地生活垃圾處理方案
- 初一數(shù)學(xué)上冊有理數(shù)加減混合運(yùn)算練習(xí)題及答案(共100題)
- 論蘇軾詩詞中的曠達(dá)風(fēng)格
- 肩部健身理論知識講座
- 電腦IT維護(hù)崗位 KPI績效考核指標(biāo)
- 部編人教版八年級下冊英語同步訓(xùn)練全套
- 運(yùn)輸成本核算
評論
0/150
提交評論