自然對(duì)話(huà)語(yǔ)音標(biāo)注規(guī)范_第1頁(yè)
自然對(duì)話(huà)語(yǔ)音標(biāo)注規(guī)范_第2頁(yè)
自然對(duì)話(huà)語(yǔ)音標(biāo)注規(guī)范_第3頁(yè)
自然對(duì)話(huà)語(yǔ)音標(biāo)注規(guī)范_第4頁(yè)
自然對(duì)話(huà)語(yǔ)音標(biāo)注規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、標(biāo)注內(nèi)容兩個(gè)人的自然對(duì)話(huà)。每組對(duì)話(huà)45分鐘左右,每組對(duì)話(huà)可能有一個(gè)或分成多個(gè)砲v文件保 存(文件名以ZXXXX開(kāi)頭,例如Z0001*. wav表示屬于第1組對(duì)話(huà))。質(zhì)量要求文字錯(cuò)誤率:3%以?xún)?nèi)注:文字錯(cuò)誤率指語(yǔ)音內(nèi)容標(biāo)注錯(cuò)誤,只要有一個(gè)字錯(cuò),該條語(yǔ)音就算錯(cuò)。其他錯(cuò)誤率:5%以?xún)?nèi)注:綜合錯(cuò)誤率指:除了語(yǔ)音內(nèi)容以外的其他標(biāo)注項(xiàng)錯(cuò)誤,只要有一項(xiàng)錯(cuò),該條語(yǔ)音 就算錯(cuò)。標(biāo)注工具praat. exe,輸出textgrid格式的標(biāo)注結(jié)果(TextGrid文件)標(biāo)注要求根據(jù)不同說(shuō)話(huà)人加時(shí)間戳(每個(gè)片段不超過(guò)10秒,如果說(shuō)話(huà)人連續(xù)說(shuō)了 10秒以上,可 按句子截成多個(gè)10秒以?xún)?nèi)的片段)并標(biāo)出說(shuō)話(huà)人的文字內(nèi)容 無(wú)效

2、語(yǔ)音段寫(xiě)為W:聽(tīng)不清的、搶話(huà)的、噪音大、靜音的語(yǔ)音片段均被認(rèn)為無(wú)效語(yǔ)音內(nèi)容必須和聽(tīng)到的語(yǔ)音完全一致,不能多字、少字、錯(cuò)字。阿拉伯?dāng)?shù)字要寫(xiě)成漢字形式,如“一二三”,而不是“123”。注意區(qū)分“一”和“幺”。 “二”和“兩”標(biāo)注中只能含有中文、英文以及常用標(biāo)點(diǎn)符號(hào)(空格、逗號(hào)、句號(hào)、問(wèn)號(hào))語(yǔ)氣詞:音頻中說(shuō)話(huà)人清楚地講出的語(yǔ)氣詞,如“呃啊嗯哦唉吶”等,要按照 正確發(fā)音進(jìn)行轉(zhuǎn)寫(xiě)。語(yǔ)氣詞除了 “了不”沒(méi)有口字旁,其他基本上都有口字旁。轉(zhuǎn)寫(xiě)內(nèi)容的完整性要與實(shí)際發(fā)音一致,不得刪減;如發(fā)音為:我是北北京人;“北”字有重復(fù)現(xiàn)象,那轉(zhuǎn)寫(xiě)的時(shí)候要寫(xiě)成:我是北, 北京人。英文比較復(fù)雜,轉(zhuǎn)寫(xiě)的原則是:按字母讀的情況(如

3、縮寫(xiě)詞,網(wǎng)址等)一律大寫(xiě),按 詞讀的則小寫(xiě),例如“APPLE”表示用戶(hù)是逐個(gè)字母念的,“apple”表示用戶(hù)按單詞 念的。明顯的兒化音必須標(biāo)注出來(lái)句子間要用標(biāo)點(diǎn)符號(hào)隔開(kāi)。例如“就把這事跟我媽說(shuō)了我媽也挺生氣的就找來(lái)我舅其 中有個(gè)哥是我舅家的孩子”應(yīng)寫(xiě)為“就把這事跟我媽說(shuō)了,我媽也挺生氣的,就找來(lái) 我舅。其中有個(gè)哥是我舅家的孩子”上述文字內(nèi)容中的特殊標(biāo)記 *:表示人發(fā)音但無(wú)法標(biāo)注語(yǔ)音(有一兩個(gè)字聽(tīng)不懂或聽(tīng)不清)如果有噪音,則需在噪音開(kāi)始的位置插入噪音符號(hào)。a) f:表示說(shuō)話(huà)人說(shuō)話(huà)過(guò)程中的暫停停頓,例如發(fā)音:“uh”,"um”, "er” 和 “mm”。b) s:表示說(shuō)話(huà)人的各

4、種非文本內(nèi)容的噪聲信息,包括唇咂嘴,咳嗽,清嗓子聲, 嘖嘖聲,重呼吸,笑聲。c) n:非人發(fā)出的聲音,主要是一些偶然出現(xiàn)的噪聲,例如:鼠標(biāo)操作聲音,敲 擊鍵盤(pán)的聲音等。d) t:穩(wěn)定的噪聲,主要是錄音環(huán)境的一些非偶然噪聲,例如周?chē)魳?lè),風(fēng)聲, 空調(diào)聲等。e) p:非說(shuō)話(huà)人的周?chē)税l(fā)出的聲音,包括,唇咂嘴,咳嗽,清嗓子聲,嘖嘖聲, 重呼吸,笑聲。附:標(biāo)注工具用法1.對(duì)一個(gè)沒(méi)標(biāo)過(guò)的錄音文件進(jìn)行標(biāo)注1) 雙擊標(biāo)注軟件praat.exe,彈出三個(gè)界面,只保留Praat objects即可,其他關(guān)閉。2) 點(diǎn)擊菜單欄中“Open”下的“read from file."按鈕,載入某個(gè)錄音文件(如

5、a. wav)3) 選中該錄音文件a. wav,在右側(cè)菜單中選擇Annotate下的To TextGrid,如圖1所示:X Praat Objects - 回圖1生成TextGrida)在彈出的對(duì)話(huà)框中,將第二項(xiàng)Which of these are point tiers設(shè)為空(刪去原來(lái) 的Bell)o第一項(xiàng)All tiers name設(shè)為兩個(gè)說(shuō)話(huà)人的代號(hào)如果是一男一女對(duì)話(huà),則填寫(xiě)'男女”如果是兩個(gè)男的對(duì)話(huà),則填寫(xiě)“男1男2”如果是兩個(gè)女的對(duì)話(huà),則填寫(xiě)“女1女2”Sound: To TcxtGrid*氷圖2兩個(gè)女的對(duì)話(huà)Sound:TextGridAll tier narre:Cance

6、l舛旳 | OK Wkch of ihczc ore pohl ticu?Slandads圖4 一男一女對(duì)話(huà)b)點(diǎn)擊OK,會(huì)自動(dòng)生成和語(yǔ)音文件名同名的標(biāo)注文件,如a. TextGrido按住Ctrl鍵同 時(shí)選中語(yǔ)音文件a. wav和標(biāo)注文件a. TextGrid,點(diǎn)擊右側(cè)的view&Edit按鈕,出現(xiàn) 標(biāo)注界面。I 回 Praat Objectsfil« Wl QNty Sew Safocf InBarvW ficwdary Twr SpecBtm KHi brHnthy Formart hit««Total duraiion 2636 288000 se

7、conds(7 3X>圖6標(biāo)注界面請(qǐng)點(diǎn)擊標(biāo)注界面右上角的最大化按鈕,這樣可以顯示全(否則最下方的滾動(dòng)條可能顯示 不出來(lái))。圖中最上面顯示語(yǔ)音波形,下面依次顯示定義的兩個(gè)說(shuō)話(huà)人層。單擊標(biāo)注界面左下角的 “in”(或鍵盤(pán)按ctrl+i). “out”(或鍵盤(pán)按ctrl+o)按鈕可以在時(shí)間軸上放大或縮小語(yǔ)音波 形顯示。用標(biāo)注界面最下的滑動(dòng)條可以在時(shí)間軸拖動(dòng)語(yǔ)音波形。播放技巧:按鍵盤(pán)上的” Tab”鍵可以播放或暫停語(yǔ)音(鼠標(biāo)點(diǎn)在某個(gè)位置,會(huì)從該位置往后播 放)。鼠標(biāo)框選一個(gè)區(qū)域后,可以點(diǎn)Tab鍵或最上面或最下面的時(shí)間值,都可播放該區(qū)域語(yǔ) 音點(diǎn)擊播放選中語(yǔ)音C)生成語(yǔ)句分隔符:根據(jù)文本和發(fā)音來(lái)確定

8、一段語(yǔ)音的分隔點(diǎn),具體操作方法是在語(yǔ)音 波形上用鼠標(biāo)點(diǎn)擊兩段語(yǔ)音之間的靜音段,即出現(xiàn)一條紅色虛線(xiàn),同時(shí)該紅色虛線(xiàn)與 下面的說(shuō)話(huà)人層相交兩個(gè)空心圓圈。用鼠標(biāo)點(diǎn)擊兩個(gè)空心圓圈內(nèi)部,會(huì)出來(lái)兩根相連 的藍(lán)線(xiàn),從而隔出一段語(yǔ)音(如圖7所示)。圖7如何生成分隔線(xiàn)(注:分割線(xiàn)可以移動(dòng)位置。要去除分隔線(xiàn),需選中該分隔線(xiàn),然后點(diǎn)擊菜單欄中 uBoundaryn下的"Remove"按鈕或按快捷鍵Alt+BackSpace,即可去除該分隔線(xiàn))。點(diǎn)擊說(shuō)話(huà)人層后,可以看到該語(yǔ)音段被選中(變成粉色),按Tab鍵或點(diǎn)擊最上面或 最下面的時(shí)間值,都可播放該段語(yǔ)音。d)根據(jù)說(shuō)話(huà)人層(“女1女2”或“男1男2

9、”或“男女O 將某段語(yǔ)音對(duì)應(yīng)的文字內(nèi) 容填到該說(shuō)話(huà)人層中,表示是該說(shuō)話(huà)人說(shuō)的話(huà)。因?yàn)樾枰獏^(qū)分兩個(gè)說(shuō)話(huà)人,所以不能 把A的說(shuō)話(huà)內(nèi)容放到B的層里。e)標(biāo)注文件的保存:標(biāo)注完成后,點(diǎn)擊菜單欄中的“File”下的“Save TextGrid as(建議用快捷鍵ctrl+s)按鈕,彈出一個(gè)保存對(duì)話(huà)框,然后點(diǎn)“確定”,即完成一 份錄音文件的標(biāo)注。注:工具不會(huì)自動(dòng)保存你的結(jié)果。所以為了避免數(shù)據(jù)丟失或工具異常,標(biāo)注中間要勤 保存,多按ctrl+s,若系統(tǒng)提示文件已存在,則點(diǎn)擊替換。f)每屏只會(huì)顯示30秒的時(shí)長(zhǎng),所以記得點(diǎn)最下面的滾動(dòng)條來(lái)顯示并標(biāo)注后面的。Total duraticr) 2636 288000 secxKis2.對(duì)一個(gè)標(biāo)過(guò)的錄音文件(可能沒(méi)標(biāo)完、可能已標(biāo)完)進(jìn)行修改或査看1)雙擊標(biāo)注軟件praat.exe,彈出三個(gè)界面,只保留Praat objects

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論