人工智能-第7章-自然語言處理技術(shù)7_第1頁
人工智能-第7章-自然語言處理技術(shù)7_第2頁
人工智能-第7章-自然語言處理技術(shù)7_第3頁
人工智能-第7章-自然語言處理技術(shù)7_第4頁
人工智能-第7章-自然語言處理技術(shù)7_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工智能第7章自然語言處理技術(shù)7.7機(jī)器翻譯7.8自動文摘7.9語音識別17.7機(jī)器翻譯

7.7.1概述方法一:將抽象表達(dá)設(shè)計(jì)為一種與具體語種無關(guān)的“中間語言”,它可以作為許多自然語言的中介。翻譯分成兩個(gè)階段:從源語言到中間語言,從中間語言到目標(biāo)語言。方法二:將源語言表達(dá)轉(zhuǎn)化成為目標(biāo)語言的等價(jià)表達(dá)形式。翻譯分成三個(gè)階段:分析輸入文本并將它表達(dá)為抽象的源語言;將源語言轉(zhuǎn)換成抽象的目標(biāo)語言;最后生成目標(biāo)語言。2商業(yè)翻譯系統(tǒng)可分為:直接型、中間語言型和轉(zhuǎn)換型。大多數(shù)著名的大型機(jī)器翻譯系統(tǒng)本質(zhì)上都是“直接翻譯”型的系統(tǒng),如Systran

Logos

FujitsuAtlas該系統(tǒng)在開始設(shè)計(jì)時(shí)只能完成從俄文到英文的翻譯,但現(xiàn)在它已經(jīng)可以完成很多語種之間的互譯。Logos開始只針對德語到英語的翻譯市場,而現(xiàn)在可以將英語翻譯成法語、德語、意大利語,以及將德語翻譯成法語和意大利語。該系統(tǒng)至今仍局限于英日、日英的翻譯。3最重要的大型機(jī)“轉(zhuǎn)換型”機(jī)器翻譯系統(tǒng)是METAL。目前最有名的兩個(gè)“轉(zhuǎn)換型”系統(tǒng):Grenoble的Ariane和歐洲共同體委員會提供基金的Eurotra項(xiàng)目。80年代末,日本政府出資支持開發(fā)用于亞洲語言之間互譯的中間語言系統(tǒng),中國、泰國、馬來西亞和印度尼西亞等國的研究人員均參加了這一研究。進(jìn)入20世紀(jì)90年代后,在歐美、日本等發(fā)達(dá)國家,機(jī)器翻譯不僅用于文字處理系統(tǒng),而且正在朝著智能聲控翻譯通信技術(shù)的方向發(fā)展。如電話定票機(jī)器翻譯系統(tǒng)。4日本——翻譯復(fù)印機(jī),機(jī)內(nèi)裝有容量為3.7萬個(gè)英文詞量的數(shù)據(jù)庫,能逐字逐句地把英文譯成日文。日本、美國和德國——自動翻譯電話。日本——通過計(jì)算機(jī)與通信網(wǎng)絡(luò)連接的自動翻譯電話。5種語言(英、法、德、意和西班牙)進(jìn)行交談——語音翻譯機(jī),它內(nèi)存有1萬個(gè)單詞,6.5萬個(gè)短語,發(fā)出的聲音標(biāo)準(zhǔn)、清晰、易懂。美國——旅游用袖珍翻譯機(jī)器,它準(zhǔn)備了2250個(gè)常用短語(15種語言,每種各150個(gè)短語)。5中國:軍事科學(xué)院在1987研制開發(fā)出了“KY-l”實(shí)用型全文與題錄兼容的英漢機(jī)器翻譯系統(tǒng),即經(jīng)過中軟商品化后的“譯星全文翻譯系統(tǒng)”。1994年,國防科技大學(xué)陳火旺院士組織研制成了英漢機(jī)器翻譯系統(tǒng)Matrix,并進(jìn)行了商品化。陳火旺院士61994年,國防科技大學(xué)研制成了英漢機(jī)器翻譯系統(tǒng)Matrix,并進(jìn)行了商品化。完成人:史曉東

1966年12月出生,江蘇江陰人,國防科技大學(xué)博士畢業(yè)。2001年5月開始,擔(dān)任聯(lián)合國大學(xué)UNL中心中國語言中心副主任。2002年加盟廈門大學(xué)計(jì)算機(jī)科學(xué)系,現(xiàn)任廈門大學(xué)語言技術(shù)中心副主任。史曉東71994年5月,Matrix英漢機(jī)器翻譯系統(tǒng),在國家863-306主題專家組組織的智能接口評測獲得第二名。1995年5月,Matrix系統(tǒng)參加了Intel公司與中國軟件行業(yè)協(xié)會舉辦的第一屆中國應(yīng)用軟件大獎(jiǎng)賽,獲得了二等獎(jiǎng),進(jìn)入了加拿大市場,并在當(dāng)年863-306主題的第二次評測中獲得第一名。1998年3月,Matrix1.0和他新開發(fā)的Light1.0Beta3囊括863-306英漢機(jī)器翻譯評測前兩名。1999年5月,推出國內(nèi)第一家免費(fèi)網(wǎng)頁翻譯網(wǎng)站—“看世界”,開創(chuàng)了國內(nèi)網(wǎng)絡(luò)翻譯的新時(shí)代。1999年7月,桑夏公司以他為主開發(fā)的英漢機(jī)器翻譯技術(shù)作價(jià)2000萬元,與燃?xì)夤煞莺腺Y成立“海南桑夏環(huán)球網(wǎng)絡(luò)有限公司”,主推“看世界”網(wǎng)站,致力于解決華人上網(wǎng)的語言障礙。8中國科學(xué)院計(jì)算所等單位聯(lián)合開發(fā)研制了“863智能型英漢翻譯系統(tǒng)”,該系統(tǒng)實(shí)現(xiàn)了對原文的語法、語義和常識的一體化分析,具有面向多文種翻譯軟件環(huán)境;臺灣地區(qū)的“功學(xué)電腦自動翻譯系統(tǒng)”,可使用戶在“電子資訊”、“歷史法律”、“軍事”等方面進(jìn)行計(jì)算機(jī)翻譯。其他“通譯”、“金山快譯”、“東方快車”、“雅信CAT”、“翻譯網(wǎng)上通2000”、“讀寫通”等。9東北大學(xué)自然語言處理實(shí)驗(yàn)室成立于八十年代初,在姚天順教授和朱靖波教授的領(lǐng)導(dǎo)下,主要從事計(jì)算語言學(xué)的研究,包括語言分析、文本信息智能處理技術(shù)、多國語機(jī)器翻譯等領(lǐng)域的研究工作。2002年5月,科技著作《自然語言處理》——一種讓計(jì)算機(jī)懂得人類語言的研究,第二版由清華大學(xué)出版社出版。10實(shí)驗(yàn)室二十多年積累的資源:一百萬的漢語樹庫和五百萬帶標(biāo)注的中文語料十七萬詞匯量的電子中文詞典八萬詞匯量的電子英文詞典二十六種專業(yè)的電子詞典二十六萬詞匯量的英文詞庫及其操作軟件三千中國人姓氏庫四千基本姓氏庫三十萬特征庫(動態(tài)語義庫)中文名詞和動詞Wordnet

合作開發(fā)的中-英-韓多國語言機(jī)器翻譯系統(tǒng)中-英文雙向機(jī)器翻譯系統(tǒng)中間語言、規(guī)則描述語言及其編譯器的完整設(shè)計(jì)11機(jī)器翻譯離工業(yè)化應(yīng)用的標(biāo)準(zhǔn)還相差甚遠(yuǎn)。國內(nèi)某些機(jī)器翻譯軟件稱譯文的可讀性最高達(dá)到90%以上,但實(shí)際上機(jī)器翻譯譯文的可讀性也只在70%,而正確率也只在20%左右。有太多讓人不明白的地方;文不對題、莫名其妙譯文比比皆是,正是“滿篇洋文難不住,滿篇譯文看不懂”。12金山快譯不是人才學(xué)人才學(xué)翻譯:Isn'ttalentedperson'sscholarabilityandlearning再翻譯:沒被才能人的學(xué)者能力和學(xué)問再翻譯:Didn'tdrivethencantheperson'sscholar'sabilityandtheknowledge13“不是人,才學(xué)人才學(xué)”翻譯:Isn'taperson,abilityandlearningperson'sabilityandlearning“不是人才,學(xué)人才學(xué)”翻譯:Isn'tatalentedperson,scholarabilityandlearning14Effects-BasedOperations賁可榮翻譯:

基于效果作戰(zhàn)機(jī)器翻譯:

以效果為基礎(chǔ)的操作機(jī)器將“基于效果作戰(zhàn)”翻譯為:Battleaccordingtotheresult再翻譯:依照結(jié)果搏斗15167.7.2機(jī)器翻譯理論與方法高質(zhì)量的翻譯系統(tǒng)不但需要對原文的內(nèi)在組成、語法結(jié)構(gòu)進(jìn)行把握,而且需要了解各組成單位之間復(fù)雜的相互作用關(guān)系,即語法、語義和語用等知識。上下文環(huán)境、相關(guān)的常識都是正確翻譯的必需知識。翻譯系統(tǒng)也逐漸從詞法型、語法型發(fā)展到語義型。計(jì)算機(jī)雖然不能像人一樣進(jìn)行思考,但肯定能綜合、積累人類的聰明智慧,完成一定的翻譯工作。17機(jī)器翻譯系統(tǒng)類型:1.直譯式翻譯系統(tǒng)(directtranslationMTsystems)透過快速的分析和雙語詞典,將原文譯出,并且重新排列譯文的詞匯,以符合譯文的句法。182.基于規(guī)則翻譯系統(tǒng)(rule-basedMTsystems)先分析原文內(nèi)容,產(chǎn)生原文的句法結(jié)構(gòu),再轉(zhuǎn)換成譯文的句法結(jié)構(gòu),最后再生成譯文。它通過識別、標(biāo)注兼類多義詞的詞類,對多義詞意義進(jìn)行排歧;對某些同類詞性的多義詞再按其詞法規(guī)則不同消除歧義。依靠該技術(shù)的系統(tǒng),如譯星、華建和史曉東等的英漢翻譯系統(tǒng)。當(dāng)前主流的機(jī)器翻譯都是基于規(guī)則的機(jī)器翻譯系統(tǒng)。193.中介語式翻譯系統(tǒng)(inter-lingualMTsystems)類似轉(zhuǎn)換式系統(tǒng),但會先生成一種中介的表達(dá)方式,而非特定語言的結(jié)構(gòu);再由中介的表達(dá)式,轉(zhuǎn)換成譯文。程序語言的編譯,也經(jīng)常采取此種策略。204.知識庫翻譯系統(tǒng)(knowledge-basedMTsystems)此類研究多半有限定范圍,并且使用知識獲取工具,自動或半自動的大量收集相關(guān)知識,以充實(shí)知識庫的內(nèi)容。5.范例式翻譯系統(tǒng)(example-basedMTsystems)將過去的翻譯結(jié)果,當(dāng)成范例,產(chǎn)生一個(gè)范例庫。在翻譯一段文字時(shí),參考范例庫中近似的例子,并處理差異處。216.統(tǒng)計(jì)式翻譯系統(tǒng)(statistics-basedMTsystems)利用漢莎語料庫(Hansardcorpus,英法雙語語料庫),總共有

2,205,733英法句對作為訓(xùn)練語料,實(shí)現(xiàn)了英語到法語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。2003年美國的計(jì)算語言學(xué)者們不滿足現(xiàn)有的,多達(dá)2000萬詞的英國國家語料庫帶標(biāo)語料庫的需求,發(fā)布了美國國家語料庫(VER1)。這是一個(gè)具有11,508,216詞匯的帶標(biāo)語料庫。由兩部分內(nèi)容組成:其中口語3,224,388字,書面語8,283,828字。

227.混合式翻譯系統(tǒng)(hybridMTsystems)采用多種策略。如通譯公司經(jīng)過多年的理論和應(yīng)用實(shí)驗(yàn)研究,總結(jié)出了“基于規(guī)則,重在語料”的機(jī)器翻譯思路。思想:(1)系統(tǒng)需要強(qiáng)大的語言知識的支持。詞法和語法規(guī)則的研究與歸納總結(jié)是機(jī)器翻譯的基礎(chǔ)。規(guī)則源于語言應(yīng)用環(huán)境,必須以豐富的自然語言語料庫為基礎(chǔ),應(yīng)該采用KDD和數(shù)據(jù)挖掘技術(shù)從大規(guī)模語料庫中提取規(guī)則。23(2)自然語言中有許多不規(guī)則的表達(dá)方式,必須用翻譯記憶技術(shù)不斷豐富和完善。自然語言包羅萬象,但如果針對特定的專業(yè)領(lǐng)域,其歧義多解的現(xiàn)象就會大大減少。(3)專業(yè)化的研發(fā)道路必須緊密結(jié)合行業(yè)用戶,根據(jù)行業(yè)用戶的需求設(shè)計(jì)產(chǎn)品。(4)軟件技術(shù)的支持是機(jī)器翻譯實(shí)用化的根本保障。(5)系統(tǒng)的設(shè)計(jì)必須具有長遠(yuǎn)的戰(zhàn)略眼光。程序與語言知識數(shù)據(jù)分離的高度模塊化設(shè)計(jì)是必由之路。248.翻譯記憶(TM,TranslationMemory)建立翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源,給出參考譯文。翻譯記憶庫同時(shí)在后臺不斷學(xué)習(xí)和自動儲存新的譯文。翻譯記憶支持多語種之間的雙向互譯。德國產(chǎn)品基于UNICODE,支持55種語言。257.8自動文摘自動文摘四種:自動摘錄、基于理解的自動文摘、信息抽取和基于結(jié)構(gòu)的自動文摘。1、自動摘錄將文本視為句子的線性序列,將句子視為詞的線性序列。分4步進(jìn)行:①計(jì)算詞的權(quán)值;②計(jì)算句子的權(quán)值;③對所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句;④將文摘句按照它們在原文中的出現(xiàn)順序輸出。計(jì)算權(quán)值的依據(jù)是文本的6種特征:詞頻、標(biāo)題、位置、句法結(jié)構(gòu)、線索詞和指示性短語。262、基于理解的自動文摘以NLP技術(shù)為基礎(chǔ)的文摘方法。利用語言學(xué)知識獲取語言結(jié)構(gòu),利用領(lǐng)域知識進(jìn)行判斷推理,得到文摘的意義表示并生成摘要。基本步驟:語法分析、語義分析、語用分析信息提取、文本生成。篇章意義是原文分析的結(jié)果和文摘生成的依據(jù),用腳本、概念從屬結(jié)構(gòu)、框架、一階謂詞等表示。273、信息抽取以文摘框架為中樞,分為選擇與生成兩個(gè)階段。文摘框架是一張申請單,它以空槽的形式提出應(yīng)從原文中獲取的各項(xiàng)內(nèi)容。在選擇階段利用特征詞從文本中抽取相關(guān)的短語或句子填充文摘框架,在生成階段利用文摘模板將文摘框架中的內(nèi)容轉(zhuǎn)換為文摘輸出。文摘模板是帶有空白部分的現(xiàn)成的套話,其空白部分與文摘框架中的空槽相對應(yīng)。由于文摘框架的編寫完全依賴于領(lǐng)域知識,必須為每個(gè)領(lǐng)域都編寫一個(gè)文摘框架,先進(jìn)行主題識別,根據(jù)主題調(diào)用相應(yīng)的文摘框架。284、基于結(jié)構(gòu)的自動文摘篇章是有機(jī)的結(jié)構(gòu)體,其中的不同部分承擔(dān)著不同的功能,彼此存在錯(cuò)綜復(fù)雜的關(guān)系。通過分析篇章結(jié)構(gòu)來找出核心部分。不同學(xué)者用來識別篇章結(jié)構(gòu)的手段也有很大差別。它更符合科技文獻(xiàn)文摘編寫的標(biāo)準(zhǔn)。297.9語音識別將語音直接轉(zhuǎn)換為文檔。需要使用者訓(xùn)練識別器。某些現(xiàn)代航空器使用有限的詞匯,允許飛行員使用語音發(fā)出命令。計(jì)算機(jī)上的軟件包也能對語音命令產(chǎn)生反應(yīng)。目前無法處理下面句子:BackupalltheprogramfilesfortheprojectsIhaveworkedontoday.30這樣的命令需要自然語言理解。如果理解系統(tǒng)的輸入是語音,那么復(fù)雜度就要大得多。當(dāng)對單個(gè)單詞進(jìn)行識別時(shí),口語有很多的不確定性。很多情況下,當(dāng)與朋友進(jìn)行交流時(shí),可以猜測他所說的是哪一個(gè)單詞,這種猜測往往是根據(jù)上下文提供的信息而得到的。與朋友交談時(shí),說話者還可以使用音調(diào)、面部表情和手勢等來傳達(dá)很多信息。說話者會經(jīng)常更正他所說過的話,而且會使用不同的詞來重復(fù)某些信息。因?yàn)椴煌脑~可能發(fā)音相同,這將使問題變得更復(fù)雜。如:fare和fair,mail和male等。31首先從聲波分析開始,抽取與構(gòu)成單詞的發(fā)音單元相關(guān)的特征。發(fā)音單元的清晰特性是不確定的,在最終的單詞識別階段,采用一個(gè)模型,將已提煉出的發(fā)音單元序列與單詞序列進(jìn)行匹配。327.9.1組成單詞讀音的基本單元詞語聲波,信號處理器模擬信號,能量、頻率等特征。特征音素(單個(gè)語音單元)“可能的”音素序列單詞序列。語音的產(chǎn)生要求將單詞映射為音素序列,然后將之傳送給語音合成器,單詞的聲音通過說話者從語音合成器發(fā)出。語調(diào)計(jì)劃器,使得合成器知道如何使用聲音變化,而不是應(yīng)用不自然的單調(diào)對話來講話。33構(gòu)成單詞發(fā)音的獨(dú)立單元是音素。對于一種語言,如英語,必須將聲音的不同單元識別出來并分成組。分組時(shí),應(yīng)該確保語言中的所有單詞都能被區(qū)分,兩個(gè)不同的單詞最好由不同的音素組成。下面列出了幾個(gè)音素:[b]bin[p]pin[th]thin[1]1ip[er]bird[ay]iris34音素可能由于上下文不同而發(fā)音不同。如:three中音素th的發(fā)音不同于then中th的發(fā)音。音素變體。抽取讀音的差別將其歸入音位的通用分組。音位寫在斜線中間,例如:/th/是一個(gè)音位,依據(jù)上下文的不同而有不同讀音。單詞可以在音位層表示,若需要更多信息,可在音素變體層表示。357.9.2信號處理聲波特征:1)振幅,它可以衡量某一時(shí)間點(diǎn)的空氣壓力;2)頻率,它是振幅變化的速率。振動膜離開它的固定位置的偏移量就是振幅的度量。當(dāng)聲波被采樣時(shí),繪制成一個(gè)x-y平面圖,x軸表示時(shí)間,y軸表示振幅,每秒鐘聲波重復(fù)的次數(shù)為頻率。每一次重復(fù)是一個(gè)周期,所以,頻率為10意味著1秒內(nèi)聲波重復(fù)10次——每秒10個(gè)周期或更一般地表示為10Hz。36

聲音的音量與功率的大小有關(guān),與振幅的平方有關(guān)。從麥克風(fēng)所捕獲的數(shù)據(jù)包含了所需單詞的信息。應(yīng)該將信號分割成若干塊,從塊中抽取大量不連續(xù)的值,這些不連續(xù)的值通常稱為特征。信號的每個(gè)塊稱為幀,為了保證可能落在幀邊緣的重要信息不會丟失,應(yīng)該使幀有重疊。37人們說話的頻率在1OkHz以下(每秒10000個(gè)周期)。每秒得到的樣本數(shù)量應(yīng)是需要記錄的最高語音頻率的兩倍。從理論上說,這樣做可以使頻率不會丟失(見圖7-9)。當(dāng)使用2OkHz的采樣頻率時(shí),標(biāo)準(zhǔn)的一幀為10ms,包含200個(gè)采樣值。每個(gè)采樣值都是一個(gè)實(shí)數(shù)值,表示一種強(qiáng)度。每個(gè)實(shí)數(shù)值都將被轉(zhuǎn)化為一個(gè)整數(shù)存儲起來,這樣做稱做量化。實(shí)數(shù)值必須進(jìn)行四舍五入。采樣將連續(xù)的信號轉(zhuǎn)換為一串不連續(xù)的值。下一階段是要獲取數(shù)字化的信號并抽取特征。38圖7-9實(shí)線正弦波是真實(shí)波,它在每個(gè)標(biāo)虛線的波周期內(nèi)完成3個(gè)周期。黑色圓圈表示以真實(shí)波兩倍的頻率所獲取的樣本,這個(gè)采樣捕獲了真實(shí)的正弦波。星號表示正在被采樣,以這樣的采樣率,可認(rèn)為得到的是虛線波,它是真實(shí)波頻率的三分之一。這表明,采樣頻率應(yīng)為所需測量最高頻率的兩倍39圖7-10左圖的波是右圖的三個(gè)正弦段波的組合從數(shù)字化信號中抽取特征的一種方法是進(jìn)行傅里葉變換。一段聲波可以表示為正弦波的組合,如圖7-10所示。每個(gè)正弦波都有頻率與振幅。傅里葉變換可以用來識別組成聲波時(shí)影響最大的頻率,抽取出的頻率集合稱做頻譜。40圖7-11左圖的波由三個(gè)正弦波組成,它們的振幅和頻率都顯示于右圖的頻譜中。頻譜中有三個(gè)峰值,每個(gè)峰值都在正弦波的頻率中心,這段頻譜是由數(shù)字化采樣波經(jīng)過傅里葉變換得到的在圖7-11中的波已被數(shù)字化采樣,它是3個(gè)正弦波之和:2sin(2π*50t)+sin(2π*120t)+4sin(2π*200t)這里t是時(shí)間,該波的頻譜如圖7-11所示。41在語音識別中,常用線性預(yù)測編碼(LPC)的技術(shù)來抽取特征。傅里葉變換可用來在后一階段中提取附加信息。LPC把信號的每個(gè)采樣表示為前面采樣的線性組合。預(yù)測需要對系數(shù)進(jìn)行估計(jì),系數(shù)估計(jì)可以通過使預(yù)測信號和附加真實(shí)信號之間的均方誤差最小來實(shí)現(xiàn)。頻譜代表波不同頻率的組成成分,它可以利用傅里葉變換、LPC或其他方法得到。42頻譜能識別出與不同音素相匹配的主控頻率,這種匹配可以產(chǎn)生不同音素的可能性估計(jì)。語音處理包括從一段連續(xù)聲波中采樣,將每個(gè)采樣值量化,產(chǎn)生一個(gè)波的壓縮數(shù)字化表示。采樣值位于重疊的幀中,對于每一幀,抽取出一個(gè)描述頻譜內(nèi)容的特征向量。然后,音素的可能性可通過每幀的向量來計(jì)算。437.9.3識別下一個(gè)任務(wù)是識別這些特征所代表的單詞。識別系統(tǒng)的輸入是特征序列——單詞對應(yīng)于字母序列。如果要分析一個(gè)大的單詞庫,就要識別某種字母序列比其他字母序列更有可能發(fā)生的模式。例如:字母y跟在ph后面出現(xiàn)的概率要大于跟在t后面出現(xiàn)的概率。馬爾可夫模型是表示序列可能出現(xiàn)的一種方法。44圖7-12是馬爾可夫模型的一個(gè)例子。模型中有4個(gè)狀態(tài),分別標(biāo)記為1~4。邊代表從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)移概率。在圖7-12中,狀態(tài)4不會再轉(zhuǎn)向其他狀態(tài),被認(rèn)為是終止?fàn)顟B(tài)。對于任何狀態(tài),只能順著箭頭的方向進(jìn)行狀態(tài)轉(zhuǎn)移,而從一個(gè)狀態(tài)發(fā)出的所有箭頭上的概率之和為1。狀態(tài)可以代表組成單詞的字母,但這里只討論通常的狀態(tài)。45○10.5○20.7○40.5○60.6○20.3○40.1○60.4○20.2○30.2○50.2○70.1○80.2圖7-12一個(gè)隱馬爾可夫模型。圓圈表示狀態(tài),邊表示狀態(tài)之間的合法轉(zhuǎn)換。每條邊上有一個(gè)權(quán)值,表示從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率。下面的值是觀察權(quán)值,每個(gè)狀態(tài)可以發(fā)出它下面列出的符號之一,權(quán)值是概率,顯示發(fā)出每個(gè)符號的相對頻率。注意:一個(gè)符號可以被多個(gè)狀態(tài)發(fā)出46圖7-12中的模型可以看做一個(gè)序列生成器。例如,若從狀態(tài)1開始,在狀態(tài)4結(jié)束,下面是可能生成的一些序列:12341223334123341222234任何序列生成的概率都可以計(jì)算出來,生成某個(gè)序列的概率就是生成該序列路徑上的所有概率之積。47例如,對于序列:12334路徑是下列邊的集合:1-2,2-3,3-3,3-4概率為:0.9*0.5*0.4*0.6=0.108某些序列比其他序列生成的可能性更高。馬爾可夫模型的關(guān)鍵假設(shè)是下一個(gè)狀態(tài)只取決于當(dāng)前狀態(tài)。487.9.4隱馬爾可夫模型在討論有關(guān)語音識別的具體問題前,首先對隱馬爾可夫模型(HMM,HiddenMarkovModel)進(jìn)行一般性介紹。在語音識別中,輸入數(shù)據(jù)是從聲波中抽取出的特征。馬爾可夫模型中的狀態(tài)相當(dāng)于聲音的單元(如音素)。使用者不知道輸入的特征相當(dāng)于什么狀態(tài)。即便特征并不準(zhǔn)確地對應(yīng)于隱馬爾可夫模型中的狀態(tài),使用者也可以對可能的狀態(tài)做出較好的猜測。盡管音素有一些共同的聲音特征,但是不同的音素發(fā)音不同,音素間的差異可以使人們猜出某個(gè)音素到底是什么。于是,給定一個(gè)特征,可以知道哪些狀態(tài)更有可能與此特征相對應(yīng)。49盡管不能確定到底是哪一個(gè)狀態(tài),但至少問題變得容易了,因?yàn)楹芏酄顟B(tài)己經(jīng)被排除在外。假設(shè)有一個(gè)特征序列,識別器獲取了第一個(gè)特征,它并不清楚這個(gè)特征相當(dāng)于哪一個(gè)狀態(tài),但它可以通過猜測來減少可能狀態(tài)的數(shù)目。然后,識別器獲取了第二個(gè)特征,繼續(xù)減少可能的狀態(tài)數(shù)。在獲取第三個(gè)特征后仍然以這種方式繼續(xù)。當(dāng)識別器獲取更多的特征時(shí),將能進(jìn)一步減少可能出現(xiàn)的狀態(tài)數(shù)量,因?yàn)樗滥承┨卣骺赡軙l繁地同時(shí)出現(xiàn)——識別器有一些有關(guān)特征序列,以及一個(gè)音素在另一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論