![2023自然語言處理導(dǎo)論 8機(jī)器翻譯_第1頁](http://file4.renrendoc.com/view/8f4acf52c5d4671090a4f693b4f689f7/8f4acf52c5d4671090a4f693b4f689f71.gif)
![2023自然語言處理導(dǎo)論 8機(jī)器翻譯_第2頁](http://file4.renrendoc.com/view/8f4acf52c5d4671090a4f693b4f689f7/8f4acf52c5d4671090a4f693b4f689f72.gif)
![2023自然語言處理導(dǎo)論 8機(jī)器翻譯_第3頁](http://file4.renrendoc.com/view/8f4acf52c5d4671090a4f693b4f689f7/8f4acf52c5d4671090a4f693b4f689f73.gif)
![2023自然語言處理導(dǎo)論 8機(jī)器翻譯_第4頁](http://file4.renrendoc.com/view/8f4acf52c5d4671090a4f693b4f689f7/8f4acf52c5d4671090a4f693b4f689f74.gif)
![2023自然語言處理導(dǎo)論 8機(jī)器翻譯_第5頁](http://file4.renrendoc.com/view/8f4acf52c5d4671090a4f693b4f689f7/8f4acf52c5d4671090a4f693b4f689f75.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第八章機(jī)器翻譯自然語言處理導(dǎo)論機(jī)器翻譯概述8.1基于統(tǒng)計(jì)的機(jī)器翻譯方法8.2基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法8.3目錄Contents2機(jī)器翻譯語料庫(kù)8.48信息抽取概述3根據(jù)聯(lián)合國(guó)統(tǒng)計(jì),目前世界上正在使用的語言約有6000種,教育系統(tǒng)和公共領(lǐng)域中使用到的語言也有數(shù)百種之多。WarrenWeaver就在1947年提出了利用計(jì)算機(jī)翻譯人類語言的可能。機(jī)器翻譯(MachineTranslation)是指利用計(jì)算機(jī)將一種語言(源語言)自動(dòng)翻譯為另外一種語言(目標(biāo)語言)的過程。機(jī)器翻譯是自然語言處理中研究歷史最長(zhǎng)也最重要的任務(wù)之一。機(jī)器翻譯概述8.1基于統(tǒng)計(jì)的機(jī)器翻譯方法8.2基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法8.3目錄Contents4機(jī)器翻譯語料庫(kù)8.48.1機(jī)器翻譯概述5機(jī)器翻譯(MachineTranslation,MT)這一概念擁有很長(zhǎng)的歷史,相關(guān)領(lǐng)域的研究最早可以追溯到17世紀(jì)。1629年Descartes等人就提出使用統(tǒng)一符號(hào)表達(dá)不同語言中的同一概念的語義?,F(xiàn)代機(jī)器翻譯的研究始于上世紀(jì)五十年代,Bar-Hillel等人在1951年就開始了對(duì)機(jī)器翻譯的研究,并在1952年組織了第一屆國(guó)際機(jī)器翻譯會(huì)議(InternationalConferenceonMachineTranslation)。機(jī)器翻譯的任務(wù)定義相對(duì)簡(jiǎn)單,目標(biāo)就是通過計(jì)算機(jī)將源語言(SourceLanguage)翻譯為目標(biāo)語言(TargetLanguage)。8.1.1機(jī)器翻譯發(fā)展歷程6機(jī)器翻譯的發(fā)展歷程基本代表了自然語言處理領(lǐng)域的發(fā)展過程,迄今為止,機(jī)器翻譯的研究與發(fā)展大體上經(jīng)歷了三次主要的浪潮:基于規(guī)則的機(jī)器翻譯、基于統(tǒng)計(jì)的機(jī)器翻譯以及基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯?;谝?guī)則的機(jī)器翻譯是機(jī)器翻譯任務(wù)的第一套解決方案,它基于“每一種語義在不同的語言當(dāng)中都存在與其相對(duì)應(yīng)的符號(hào)”這一假設(shè)。對(duì)于某種語言中的大多數(shù)單詞而言,通常都能夠在另一種語言當(dāng)中找到表達(dá)相同含義的對(duì)應(yīng)的單詞。翻譯過程通常被看作一個(gè)源語言的詞替換過程。之所以被稱為“基于規(guī)則的方法”,是因?yàn)橥环N語義在不同的語言當(dāng)中通常會(huì)以不同的詞序去表達(dá),詞替換過程相對(duì)應(yīng)地需要兩種語言的句法規(guī)則作為指導(dǎo)。源語言中的每一個(gè)單詞需要被放置在目標(biāo)語言中相對(duì)應(yīng)的位置?;谝?guī)則的機(jī)器翻譯方法的理論非常簡(jiǎn)潔清晰,但在實(shí)踐中的性能卻不盡如人意。這是由于選擇與給定源語言相適配的句法規(guī)則在計(jì)算上非常低效。同時(shí),為了應(yīng)對(duì)多樣的語言現(xiàn)象,語言學(xué)家們?cè)O(shè)計(jì)了規(guī)模龐大的句法規(guī)則。但是,這些規(guī)則很難被有效地組織,甚至?xí)霈F(xiàn)不同規(guī)則相互矛盾的情況。8.1.1機(jī)器翻譯發(fā)展歷程7基于統(tǒng)計(jì)的機(jī)器翻譯:在過去的20年以來,統(tǒng)計(jì)機(jī)器翻譯(StatisticalMachineTranslation,SMT)已經(jīng)成為機(jī)器翻譯領(lǐng)域的主流方法,并在工業(yè)界得到了廣泛的實(shí)際應(yīng)用。統(tǒng)計(jì)機(jī)器翻譯完全從數(shù)據(jù)驅(qū)動(dòng)的角度建模機(jī)器翻譯任務(wù)。具體來說,通過對(duì)雙語語料庫(kù)的統(tǒng)計(jì)找到表達(dá)相同含義的單詞或短語。給定一個(gè)源語言句子,統(tǒng)計(jì)機(jī)器翻譯首先將其分割成若干個(gè)子句,接下來每個(gè)部分可以被目標(biāo)語言的單詞或短語替代。統(tǒng)計(jì)機(jī)器翻譯中最主流的方法是基于詞的統(tǒng)計(jì)機(jī)器翻譯(Word-basedMT)以及基于短語的統(tǒng)計(jì)機(jī)器翻譯(Phrase-basedSMT),總體包含預(yù)處理、句子對(duì)齊、詞對(duì)齊、短語抽取、短語特征準(zhǔn)備、語言模型訓(xùn)練等步驟?;谏窠?jīng)網(wǎng)絡(luò)的機(jī)器翻譯:神經(jīng)網(wǎng)絡(luò)方法在機(jī)器翻譯任務(wù)上的第一次成功應(yīng)用是Kalchbrenner和Blunsom等人在2013年提出的基于遞歸神經(jīng)網(wǎng)絡(luò)的方法。神經(jīng)機(jī)器翻譯模型在對(duì)語言學(xué)知識(shí)的依賴更少的前提下達(dá)到與之前方法相媲美的性能。8.1.2機(jī)器翻譯現(xiàn)狀與挑戰(zhàn)8機(jī)器翻譯在經(jīng)歷了幾十年的發(fā)展后,特別是深度神經(jīng)網(wǎng)絡(luò)有效應(yīng)用于機(jī)器翻譯,使得模型機(jī)器翻譯的效果有了很大的提高,在特定條件下機(jī)器翻譯的效果已經(jīng)能夠達(dá)到非常好的效果,甚至可以接近人工翻譯效果。然而,在開放環(huán)境中,翻譯效果還遠(yuǎn)沒有達(dá)到直接使用的程度。根據(jù)機(jī)器翻譯權(quán)威評(píng)測(cè)WMT21給出的人工評(píng)測(cè)結(jié)果,在新聞?lì)I(lǐng)域最好的中文到英文翻譯系統(tǒng)評(píng)分也僅有75分左右(滿分100分)。機(jī)器翻譯完全代替人工翻譯還有很長(zhǎng)的道路。以王佐良先生對(duì)SamuelUllman所著的《Youth》譯文為例:原文:Youthisnotatimeoflife;itisastateofmind;itisnotamatterofrosycheeks,redlipsandsuppleknees;itisamatterofthewill,aqualityoftheimagination,avigoroftheemotions;itisthefreshnessofthedeepspringsoflife.機(jī)器翻譯結(jié)果:青春不是生命的時(shí)光;這是一種心態(tài);這不是紅潤(rùn)的臉頰、紅潤(rùn)的嘴唇和柔軟的膝蓋;這是意志的問題,是想象力的質(zhì)量,是情感的活力;它是生命深泉的清新。王佐良譯文:青春不是年華,而是心境;青春不是桃面、丹唇、柔膝,而是深沉的意志,恢宏的想象,炙熱的感情;青春是生命的深泉在涌流。8.1.2機(jī)器翻譯現(xiàn)狀與挑戰(zhàn)9機(jī)器翻譯雖然經(jīng)過很多年的發(fā)展,目前在特定應(yīng)用場(chǎng)景下已經(jīng)能夠有很好的效果,整個(gè)翻譯的效果距離人工翻譯“信達(dá)雅”的要求還是有很大的差距,仍然面臨如下挑戰(zhàn):(1)自然語言復(fù)雜度高:自然語言具有高度的復(fù)雜性、概括性以及多變性,并且是在不斷發(fā)展的過程中。雖然目前已經(jīng)有深度神經(jīng)網(wǎng)絡(luò)模型參數(shù)量達(dá)到了1.75萬億,但是相比于自然語言的復(fù)雜度來說還是相差很多。(2)翻譯結(jié)果不可解釋:目前機(jī)器翻譯算法多采用數(shù)據(jù)驅(qū)動(dòng)的方法,所采用的模型通常不具備可解釋性。這就造成了機(jī)器翻譯算法雖然給出了翻譯結(jié)果,并且效果可能還很好,但是其對(duì)語言的理解和翻譯過程與人的理解和翻譯過程完全不同。(3)翻譯結(jié)果評(píng)測(cè)困難:語言有很大的靈活性和多樣性,同樣一句話可以有非常多種的翻譯方法。對(duì)機(jī)器翻譯性能進(jìn)行評(píng)測(cè)可以采用人工評(píng)測(cè)和半自動(dòng)評(píng)測(cè)方法。機(jī)器翻譯概述8.1基于統(tǒng)計(jì)的機(jī)器翻譯方法8.2基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法8.3目錄Contents10機(jī)器翻譯語料庫(kù)8.48.2基于統(tǒng)計(jì)的機(jī)器翻譯方法11機(jī)器翻譯任務(wù)到今天已經(jīng)經(jīng)歷了長(zhǎng)達(dá)數(shù)十年的發(fā)展歷史。在很長(zhǎng)一段時(shí)間之內(nèi),基于統(tǒng)計(jì)的機(jī)器翻譯方法在學(xué)術(shù)界受到了許多關(guān)注并在工業(yè)界得到了廣泛地應(yīng)用。盡管這些模型在當(dāng)下已經(jīng)不再是人們關(guān)注的焦點(diǎn),回顧這些方法仍然對(duì)我們完整地了解機(jī)器翻譯的過去以及展望未來的研究具有十分重要的意義。8.2.1任務(wù)定義與基本問題12IBM機(jī)器翻譯模型構(gòu)建在噪聲信道模型(NoiseChannelModel)的基礎(chǔ)之上,其模型基本框架如下圖所示。源語言句子s和候選的目標(biāo)語言句子ti通過一個(gè)噪聲信道相連,在已知s和噪音信道性質(zhì)的前提之下,就能夠得到信源,也即目標(biāo)語言的分布P(t|s)。機(jī)器翻譯的過程本質(zhì)上就是在給定源語言句子s的前提下,從分布P(t|s)找到最有可能的目標(biāo)語言t作為輸出,這一搜索過程也被稱為解碼。8.2.1任務(wù)定義與基本問題13在上述噪聲信道基礎(chǔ)框架下,統(tǒng)計(jì)機(jī)器翻譯任務(wù)需要解決如下三個(gè)核心的基本問題:?jiǎn)栴}1:建模
如何通過易于被計(jì)算機(jī)處理的數(shù)學(xué)模型對(duì)P(t|s)進(jìn)行合理地建模以刻畫源語言和目標(biāo)語言之間的關(guān)系。問題2:訓(xùn)練
如何從給定的平行語料庫(kù)(即源語言-目標(biāo)語言對(duì)組成的語料集合)中獲得最優(yōu)的模型參數(shù)。問題3:解碼
如何從模型P(t|s)中搜索出最優(yōu)的目標(biāo)語言序列t。8.2.1任務(wù)定義與基本問題14統(tǒng)計(jì)機(jī)器翻譯模型的核心在于對(duì)P(t|s)的定義,這一定義決定了模型性能的上限并且也是后續(xù)訓(xùn)練和解碼的基礎(chǔ)。IBM模型通過貝葉斯公式對(duì)這一翻譯概率做如下變換:通過上述變換,翻譯模型P(t|s)$被分解為了三個(gè)部分:從目標(biāo)語言指向源語言的翻譯概率P(s|t);目標(biāo)語言的語言模型P(t);源語言序列語言模型P(s)。需要注意的是,通過貝葉斯變換,P(t|s)
和
P(s|t)
只是翻譯的方向不同,建模難度并沒有下降。其核心是為了引入目標(biāo)語言的語言模型。這是由于IBM模型本質(zhì)上是一種基于詞的統(tǒng)計(jì)機(jī)器翻譯模型,僅通過翻譯概率$P(s|t)很難有效地建模目標(biāo)語言單詞之間的相對(duì)位置關(guān)系,也即目標(biāo)語言序列的流暢程度。8.2.1任務(wù)定義與基本問題15P(s)是一個(gè)不變量,不會(huì)影響到最終的解碼過程,在建模的過程當(dāng)中P(s)通常不需要被計(jì)算,可以省略:基于上述分析,IBM模型的建模問題轉(zhuǎn)換為如何建模翻譯概率P(s|t)以及語言模型P(t)。翻譯概率P(s|t)主要用于衡量源語言和目標(biāo)語言之間的匹配程度。然而,自然語言擁有極其龐大的潛在的組合方式。假設(shè)某種語言對(duì)應(yīng)的詞表大小為10000,那么一個(gè)簡(jiǎn)單的長(zhǎng)度為10的句子就對(duì)應(yīng)著1000010=1040種不同的組合方式?;谌魏我延械钠叫姓Z料庫(kù),直接在句子層級(jí)對(duì)上述翻譯概率進(jìn)行估計(jì),都會(huì)面臨嚴(yán)重的數(shù)據(jù)稀缺問題。因此,IBM模型將句子層級(jí)的翻譯概率進(jìn)一步拆解為單詞級(jí)別的對(duì)應(yīng)關(guān)系的組合,從而緩解上述數(shù)據(jù)稀疏的問題,這一拆解過程又被稱為詞對(duì)齊。8.2.1任務(wù)定義與基本問題16詞對(duì)齊作為IBM模型構(gòu)建的重要基礎(chǔ)之一,描述了目標(biāo)語言和源語言之間單詞級(jí)別的對(duì)應(yīng)關(guān)系。以下圖中的對(duì)齊實(shí)例為例,給定源語言文本“機(jī)器
翻譯”,對(duì)應(yīng)的目標(biāo)語言翻譯為“MachineTranslation”。其中,“機(jī)器”一詞對(duì)應(yīng)“Machine”而“翻譯”一詞對(duì)應(yīng)“Translation”。使用記號(hào)a={a1,...,am}表示這種對(duì)應(yīng)關(guān)系,其中aj表示源語言中的單詞sj和目標(biāo)語言中的單詞taj存在對(duì)應(yīng)關(guān)系。舉例來說,在上述對(duì)齊實(shí)例中,a1=1
a2=2。8.2.1任務(wù)定義與基本問題17為了建模方便,IBM模型對(duì)詞對(duì)齊做了如下兩個(gè)限制:對(duì)于每一個(gè)源語言單詞,至多只能對(duì)齊到一個(gè)目標(biāo)語言單詞上。下圖對(duì)齊實(shí)例2中,源語言單詞“機(jī)器”同時(shí)對(duì)應(yīng)到了兩個(gè)目標(biāo)語言單詞``Machine''和``Translation'',這就違反了上述IBM模型假設(shè)。而其余的對(duì)齊實(shí)例均滿足這一假設(shè)。存在一些源語言單詞,它們可以對(duì)齊到一個(gè)額外增設(shè)的虛擬目標(biāo)語言單詞``Null''上,也即對(duì)空。下圖的對(duì)齊實(shí)例4中的“機(jī)器”一詞就對(duì)應(yīng)到了目標(biāo)語言的``Null''上。對(duì)空情況的額外考慮并不是沒有意義的。事實(shí)上,對(duì)空的現(xiàn)象在翻譯的過程當(dāng)中頻繁出現(xiàn),如虛詞的翻譯。8.2.1任務(wù)定義與基本問題18IBM模型認(rèn)為句子級(jí)別的翻譯概率可以通過單詞級(jí)別的翻譯概率組合而成,并將詞對(duì)齊作為一種隱變量整合到翻譯概率的建模過程中。這樣,原本較為困難的句子級(jí)別的建模問題就被分解為一個(gè)分步學(xué)習(xí)的問題:其中,s={s1,
s2,
...,
sm}表示一個(gè)長(zhǎng)度為m的源語言序列,t={t1,t2,...tl}表示一個(gè)長(zhǎng)度為l的目標(biāo)語言序列,a={a1,a2,...,am}表示源語言中每一個(gè)單詞sj對(duì)應(yīng)的目標(biāo)語言單詞序號(hào)aj。直接建模P(s|t)仍然非常復(fù)雜,為了解決這個(gè)問題,IBM模型對(duì)上述概率通過鏈?zhǔn)椒▌t做了進(jìn)一步展開,并為后續(xù)的簡(jiǎn)化做了準(zhǔn)備。其中,
表示源語言序列中前j-1個(gè)單詞的詞對(duì)齊,表示源語言序列中的前j-1個(gè)單詞。這一展開看似較為復(fù)雜,實(shí)際上每個(gè)部分都具有較為清晰的物理含義。給定一個(gè)目標(biāo)語言序列
t,首先通過概率P(m|t)估計(jì)源語言序列的長(zhǎng)度m。接下來,通過m次循環(huán)從左向右依次生成源語言序列和它們的詞對(duì)齊。在第
j
次循環(huán)當(dāng)中,首先通過目標(biāo)語言序列
t,前
j-1
次循環(huán)中生成的詞對(duì)齊序列
以及源語言序列
產(chǎn)生當(dāng)前位置的詞對(duì)齊
aj,即
接下來結(jié)合
aj
進(jìn)一步生成當(dāng)前位置的源語言單詞
sj,也即至此,翻譯概率的建模實(shí)際上就被轉(zhuǎn)換為源語言文本和詞對(duì)齊的生成問題8.2.1任務(wù)定義與基本問題198.2.1任務(wù)定義與基本問題20翻譯概率的建模實(shí)際上就被轉(zhuǎn)換為源語言文本和詞對(duì)齊的生成問題。但是,仍然還存在兩個(gè)迫切需要解決的問題:(1)為了最終實(shí)現(xiàn)對(duì)翻譯概率P(s|t)的建模,在公式中需要對(duì)所有可能的詞對(duì)齊進(jìn)行求和。然而,可能的詞對(duì)齊的數(shù)量隨著源語言序列的長(zhǎng)度呈指數(shù)級(jí)別增長(zhǎng),如何計(jì)算這一求和式是第一個(gè)需要被解決的問題。(2)公式中通過鏈?zhǔn)椒纸鉃榻(s,a|t)提供了一種可行的方向,然而如何通過目標(biāo)語言序列估計(jì)源語言序列的長(zhǎng)度P(m|t),以及如何建模源語言和詞對(duì)齊的生成過程尚待解決。對(duì)于上述兩個(gè)問題的解決實(shí)際上對(duì)應(yīng)著五個(gè)不同的IBM模型8.2.1任務(wù)定義與基本問題21在完成了對(duì)翻譯概率P(s|t)以及語言模型P(t)的建模與優(yōu)化之后,下一個(gè)需要解決的問題就是解碼,8.2.2IBM模型I22IBM模型
I
假定源語言句子序列長(zhǎng)度的生成概率服從均勻分布,即:源語言中的每一個(gè)單詞被認(rèn)為是等可能地和目標(biāo)語言中的所有單詞對(duì)齊當(dāng)對(duì)齊關(guān)系明確之后,IBM模型I
假設(shè)當(dāng)前時(shí)刻源語言單詞sj的生成只依賴于和它對(duì)齊的目標(biāo)語言單詞taj:8.2.2IBM模型I23經(jīng)過上述三個(gè)部分的化簡(jiǎn),翻譯概率
P(s|t)
可以按照下面的方式得到:觀察IBM模型I最終的建模結(jié)果可以發(fā)現(xiàn),翻譯概率P(s|t)最終變成了在所有可能的詞對(duì)齊的基礎(chǔ)上,對(duì)單詞對(duì)翻譯概率的連乘。8.2.2IBM模型I24另一個(gè)需要解決的問題是對(duì)齊序列a的求和問題。一個(gè)長(zhǎng)度為m的源語言序列的每一個(gè)單詞有可能對(duì)齊到長(zhǎng)度為l+1的目標(biāo)語言的任何一個(gè)位置上。在實(shí)際的計(jì)算過程中,IBM模型采用如下的計(jì)算技巧:8.2.2IBM模型I25此處的計(jì)算技巧通過將若干個(gè)連乘結(jié)果的加和轉(zhuǎn)換為若干加和結(jié)果的連乘。計(jì)算復(fù)雜度由原本的O((l+1)m
·m降低為O((l+1)
·
m)8.2.2IBM模型I26IBM模型I的優(yōu)化過程本質(zhì)上基于極大似然估計(jì)的思想,也即找到一組參數(shù),使得模型能夠?qū)τ?xùn)練集中的句對(duì)
(s,t)輸出盡可能大的概率,形式化的描述如下:利用拉格朗日乘子法將上式轉(zhuǎn)換為無約束優(yōu)化問題,得到如下無約束的優(yōu)化目標(biāo):8.2.3IBM模型II27IBM模型I雖然很好地簡(jiǎn)化了模型的復(fù)雜程度使得翻譯的建模成為了可能,但其中的一些簡(jiǎn)化與真實(shí)情況存在著較大的差異,導(dǎo)致翻譯性能受到了較大的限制。最突出的問題是詞對(duì)齊的概率服從均勻分布。IBM模型I
對(duì)這一問題作出了修正,它認(rèn)為詞對(duì)齊存在著一定的傾向性。具體來說,IBM模型I
假設(shè)源語言單詞
xj
的對(duì)齊位置
aj
的生成概率與它所在的位置
j
和源語言序列長(zhǎng)度
m
以及目標(biāo)語言序列長(zhǎng)度
l
有關(guān),形式化表示為:8.2.3IBM模型II28a(aj|j,m,l)表示源語言序列中第j個(gè)位置詞對(duì)齊的生成概率,它被建模為IBM模型II中的一個(gè)需要學(xué)習(xí)的參數(shù)。除了詞對(duì)齊假設(shè)之外,其余的模型假設(shè)均與IBM模型I相同,將新的詞對(duì)齊生成概率按照上一小節(jié)所述的建模過程能夠得到IBM模型II的翻譯建模表達(dá)式為:8.2.4IBM模型III29IBM模型I和II存在的一個(gè)共同的問題是將單詞翻譯的過程建模為了一個(gè)獨(dú)立的過程,這就導(dǎo)致它們不能很好地描述多個(gè)源語言單詞對(duì)齊到同一個(gè)目標(biāo)語言單詞的情況。IBM模型III是一種基于繁衍率的模型,可以在一定程度上解決上述問題。這里的繁衍率(Fertility)是指每個(gè)目標(biāo)語言單詞生成源語言單詞的個(gè)數(shù)。模型首先確定每個(gè)目標(biāo)語言單詞的繁衍率φi依據(jù)繁衍率確定目標(biāo)語言對(duì)應(yīng)的源語言單詞是什么,這樣就得到了每個(gè)目標(biāo)語言單詞所對(duì)應(yīng)的源語言單詞列表8.2.4IBM模型III30IBM模型III的翻譯概率的形式如下所示:詳細(xì)過程可以參閱文獻(xiàn)[411]8.2.5IBM模型IV31當(dāng)一個(gè)目標(biāo)語言單詞對(duì)應(yīng)多個(gè)源語言單詞時(shí),這些源語言單詞往往會(huì)構(gòu)成一個(gè)整體,也即一個(gè)短語。然而前面所述的三個(gè)IBM模型并沒有對(duì)與這種情況做特殊的設(shè)計(jì),這就導(dǎo)致了源語言中的單詞短語可能會(huì)被打散。針對(duì)這個(gè)問題,IBM模型IV做出了進(jìn)一步的修正。它將原本單詞之間的對(duì)應(yīng)關(guān)系拓寬到了概念(Concept)之間的對(duì)應(yīng)。這里的概念是指具有獨(dú)立語法或語義的一組單詞。IBM模型IV將目標(biāo)語言的概念約束為那些非空對(duì)齊的目標(biāo)語言單詞,且要求所有的目標(biāo)語言概念都只能由一個(gè)單詞構(gòu)成。8.2.5IBM模型IV32IBM模型IV所做的修正主要體現(xiàn)在扭曲度的建模,對(duì)于[i]對(duì)應(yīng)的源語言單詞列表中的第一個(gè)單詞,它的扭曲度計(jì)算公式如下:此處的
表示目標(biāo)語言序列中第
i
個(gè)單詞所對(duì)應(yīng)的源語言列表中的第
k
個(gè)單詞的位置。對(duì)于列表中其他單詞的扭曲度,則使用如下公式進(jìn)行計(jì)算:其中,A(·)和B(·)$分別表示從源語言、目標(biāo)語言單詞向單詞詞類映射的函數(shù)。這一扭曲度函數(shù)的改進(jìn)背后的思想是,在生成
t[i]的第一個(gè)源語言單詞時(shí),要考慮平均位置
⊙
[i]和這個(gè)源語言單詞之間的絕對(duì)距離。隨后生成的單詞所放置的位置則要考慮前一個(gè)放置完的單詞的相對(duì)位置,以及當(dāng)前源語言單詞的詞類。這個(gè)過程實(shí)際上,使得同一個(gè)目標(biāo)語言單詞所生成的源語言單詞之間可以相互影響,從而避免了獨(dú)立生成各個(gè)源語言單詞所帶來的沖突問題。8.2.6IBM模型V33IBM模型V針對(duì)詞對(duì)齊的過程做了進(jìn)一步的約束。它認(rèn)為同一個(gè)源語言單詞不應(yīng)當(dāng)由多個(gè)目標(biāo)語言單詞轉(zhuǎn)換而來。如下圖所示,前面4種詞對(duì)齊方式都是合法的。然而,對(duì)于詞對(duì)齊a5和a6來說,源語言單詞“機(jī)器”和“翻譯”分別對(duì)應(yīng)著兩個(gè)目標(biāo)語言單詞。8.2.6IBM模型V34為了約束這種情況的出現(xiàn),IBM模型V在放置每一個(gè)源語言單詞時(shí)都會(huì)檢查這個(gè)位置是否已經(jīng)放置了其他單詞。為了實(shí)現(xiàn)這一點(diǎn),引入一個(gè)新的變量,它表示在放置之前,源語言的前j個(gè)位置還有多少空余。為了簡(jiǎn)便起見,后續(xù)記這個(gè)變量為vj。這樣,對(duì)于單詞[i]所對(duì)應(yīng)的源語言單詞列表中的第一個(gè)單詞有:對(duì)于其他單詞,有:此處的
是用來判斷第j個(gè)位置是否為空。如果第
j
個(gè)位置為空,則
,這樣
。這樣就避免了詞對(duì)齊的沖突問題。機(jī)器翻譯概述8.1基于統(tǒng)計(jì)的機(jī)器翻譯方法8.2基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法8.3目錄Contents35機(jī)器翻譯語料庫(kù)8.48.3基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法36傳統(tǒng)機(jī)器翻譯方法高度依賴于繁雜的特征工程,合理特征的設(shè)計(jì)對(duì)系統(tǒng)構(gòu)建者的語言學(xué)背景具有較高的要求,同時(shí)需要在不斷地試錯(cuò)過程中修正。這些特征往往不能夠完整地反映輸入文本的語義。語言模型作為傳統(tǒng)機(jī)器翻譯模型的重要組成部分,為了降低模型復(fù)雜度而引入的馬爾可夫假設(shè)使得上下文窗口之外的語義依賴無法被建模從輸入文本表示的角度來說,經(jīng)典的詞袋模型(bag-of-words,BOW)則忽略了詞序?qū)斎胛谋颈硎镜挠绊憘鹘y(tǒng)機(jī)器翻譯方法存在一些固有缺陷影響其進(jìn)一步提升:以最具代表性的基于短語的統(tǒng)計(jì)機(jī)器翻譯方法為例,翻譯通過將輸入的源語言切分成短語并替換為目標(biāo)語言的過程完成,短語范圍之外的長(zhǎng)程依賴在這一過程中被完全忽略,進(jìn)而造成翻譯結(jié)果中的錯(cuò)誤和不一致性。同時(shí),為了提升翻譯的準(zhǔn)確性和流暢度,越來越多的功能模塊不斷被設(shè)計(jì)并添加到統(tǒng)計(jì)翻譯模型當(dāng)中(如語言模型、調(diào)序模型、長(zhǎng)度調(diào)整模型等)。復(fù)雜的翻譯組件使得系統(tǒng)的整體調(diào)優(yōu)和穩(wěn)定性受到一定程度的影響。8.3基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法37神經(jīng)網(wǎng)絡(luò)模型作為一個(gè)強(qiáng)力的特征抽取器,能夠自動(dòng)地學(xué)習(xí)輸入文本的最優(yōu)表征,從而在很大程度上減少對(duì)領(lǐng)域知識(shí)的要求及繁瑣的特征工程預(yù)處理步驟。而以循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer為代表的神經(jīng)機(jī)器翻譯方法能夠有效地建模長(zhǎng)程依賴,端到端的特性也使得系統(tǒng)的整體結(jié)構(gòu)變得更加緊湊易于調(diào)整?,F(xiàn)代神經(jīng)機(jī)器翻譯模型大多依據(jù)序列到序列的方式對(duì)任務(wù)進(jìn)行建模。給定源語言輸入文本,訓(xùn)練目標(biāo)是找到最合適的目標(biāo)語言句子作為譯文。8.3基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法38神經(jīng)網(wǎng)絡(luò)模型作為一個(gè)強(qiáng)力的特征抽取器,能夠自動(dòng)地學(xué)習(xí)輸入文本的最優(yōu)表征,從而在很大程度上減少對(duì)領(lǐng)域知識(shí)的要求及繁瑣的特征工程預(yù)處理步驟。而以循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer為代表的神經(jīng)機(jī)器翻譯方法能夠有效地建模長(zhǎng)程依賴,端到端的特性也使得系統(tǒng)的整體結(jié)構(gòu)變得更加緊湊易于調(diào)整?,F(xiàn)代神經(jīng)機(jī)器翻譯模型大多依據(jù)序列到序列的方式對(duì)任務(wù)進(jìn)行建模。給定源語言輸入文本,訓(xùn)練目標(biāo)是找到最合適的目標(biāo)語言句子作為譯文。形式化地來說,給定源語言序列S={s1,s2,...,sn},神經(jīng)機(jī)器翻譯模型試圖找到具有最大條件概率P(T|S)的目標(biāo)語言序列T={t1,t2,...,tm}$,n和m分別表示源語言和目標(biāo)語言的長(zhǎng)度。在生成目標(biāo)語言句子的每個(gè)單詞時(shí),源語言和已經(jīng)生成的目標(biāo)語言信息會(huì)被使用。因此,神經(jīng)機(jī)器翻譯的整體過程可以按照如下公式描述:8.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型39神經(jīng)機(jī)器翻譯模型大多基于序列到序列的架構(gòu),完成從源語言到目標(biāo)語言的轉(zhuǎn)換過程。不同神經(jīng)機(jī)器翻譯模型的主要區(qū)別在于編碼器和解碼器所采用的結(jié)構(gòu)上的差異。自然語言文本可以看做一種時(shí)間序列數(shù)據(jù),因此一種常見做法是采用基于循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)完成對(duì)源語言文本的編碼以及目標(biāo)語言文本的生成。8.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型40左側(cè)為編碼器部分,源語言單詞按照其在文本序列中的先后順序被依次送入到循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)當(dāng)中。在每個(gè)時(shí)間步t中,模型依據(jù)送入的源語言單詞xt對(duì)應(yīng)修改維護(hù)其模型內(nèi)部的隱狀態(tài)ht,這個(gè)隱狀態(tài)編碼了輸入的源語言序列前t個(gè)時(shí)刻的所有必要信息。按照這種方式當(dāng)m個(gè)輸入全部被送入到編碼器之后,所對(duì)應(yīng)的hm
可以認(rèn)為包含了源語言序列的所有信息。右半部分是RNN解碼器部分,它接收編碼器輸出的編碼源語言句子信息的向量hm
作為初始隱狀態(tài)s0。由于RNN的循環(huán)過程在每個(gè)時(shí)間步都要求一個(gè)輸入單詞,為了啟動(dòng)解碼過程,一般會(huì)使用一個(gè)保留的特殊符號(hào)``[Start]''作為翻譯開始的標(biāo)記送入到RNN解碼器當(dāng)中,并解碼出目標(biāo)語言序列的第一個(gè)單詞z1。接下來,z1會(huì)作為下一個(gè)時(shí)刻的輸入被送入到循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)中并按照不斷迭代產(chǎn)生后續(xù)的預(yù)測(cè)。8.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型41通過循環(huán)網(wǎng)絡(luò)對(duì)源語言文本進(jìn)行編碼,并生成目標(biāo)語言翻譯結(jié)果的過程十分簡(jiǎn)單。然而,它僅僅使用一個(gè)定長(zhǎng)的向量hm
編碼整個(gè)源語言序列。這對(duì)于較短的源語言文本沒有什么問題,但隨著文本序列長(zhǎng)度的逐漸加長(zhǎng),單一的一個(gè)向量hm
可能不足以承載源語言序列當(dāng)中的所有信息。藍(lán)色的線代表上述簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)性能隨源語言文本長(zhǎng)度的變化趨勢(shì)。當(dāng)文本長(zhǎng)度在20個(gè)單詞以內(nèi)時(shí),單一向量能夠承載源語言文本中的必要信息。隨著文本序列的進(jìn)一步增加,翻譯性能的評(píng)價(jià)指標(biāo)BLEU的值就開始出現(xiàn)明顯地下降。8.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型42引入注意力機(jī)制的循環(huán)機(jī)器翻譯架構(gòu)與基于簡(jiǎn)單循環(huán)網(wǎng)絡(luò)的機(jī)器翻譯模型大體結(jié)構(gòu)相似,均采用循環(huán)神經(jīng)網(wǎng)絡(luò)作為編碼器與解碼器的實(shí)現(xiàn)。關(guān)鍵的不同點(diǎn)在于注意力機(jī)制的引入使得不再需要把原始文本中的所有必要信息壓縮到一個(gè)向量當(dāng)中。引入注意力機(jī)制的循環(huán)機(jī)器翻譯架構(gòu)如下圖所示。8.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型43具體來說,給定源語言序列經(jīng)過編碼器輸出的向量序列,注意力機(jī)制旨在依據(jù)解碼端翻譯的需要,自適應(yīng)地從這個(gè)向量序列中查找對(duì)應(yīng)的信息。與簡(jiǎn)單循環(huán)網(wǎng)絡(luò)相類似,在t時(shí)刻,旨在通過t-1時(shí)刻的隱狀態(tài)st-1以及t時(shí)刻的輸入維護(hù)循環(huán)隱狀態(tài)并生成當(dāng)前時(shí)刻目標(biāo)語言翻譯結(jié)果。為了更高效地考慮源語言上下文語義來提高翻譯質(zhì)量,注意力機(jī)制通過通過計(jì)算一組匹配分?jǐn)?shù)并利用softmax歸一化為一組權(quán)重自適應(yīng)地確定源語言中需要聚焦的部分。具體計(jì)算公式如下:8.3.1循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯模型44基于上述權(quán)重能夠得到生成譯文所必要的源語言信息,進(jìn)一步地,可以將這部分源語言信息與當(dāng)前時(shí)刻的輸入拼接送入RNN作為新的輸入:通過這樣的修改,在維護(hù)RNN任意時(shí)刻隱藏狀態(tài)并生成譯文的過程中,能夠自適應(yīng)地考慮源語言中的哪部分信息需要被聚焦,從而生成更加高質(zhì)量的譯文。8.3.2卷積神經(jīng)網(wǎng)絡(luò)翻譯模型45卷積神經(jīng)網(wǎng)絡(luò)也是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),被廣泛地使用在自然語言處理的各項(xiàng)任務(wù)當(dāng)中。相較于循環(huán)神經(jīng)網(wǎng)絡(luò)來說,卷積神經(jīng)網(wǎng)絡(luò)每一步卷積操作并不依賴于前一時(shí)間步的計(jì)算結(jié)果,因而能夠充分并行化以更好地利用GPU的計(jì)算資源。ConvS2S的整體結(jié)構(gòu)如左圖所示,它采用卷積神經(jīng)網(wǎng)絡(luò)作為編碼器(圖片上側(cè))和解碼器(圖片左下側(cè))的具體實(shí)現(xiàn),完成對(duì)源語言和目標(biāo)語言的特征提取。這種模型結(jié)構(gòu)使得每一層的網(wǎng)絡(luò)計(jì)算可以完全并行化。通過堆疊多層卷積結(jié)構(gòu),上下文窗口的范圍得以不斷擴(kuò)大,從而逐漸建模輸入文本中的遠(yuǎn)距離依賴。8.3.2卷積神經(jīng)網(wǎng)絡(luò)翻譯模型46ConvS2S主要由下述幾個(gè)部件構(gòu)成:位置編碼:由于ConvS2S摒棄了循環(huán)結(jié)構(gòu),因此需要在輸入層引入位置編碼來標(biāo)識(shí)輸入序列中詞與詞之間的相對(duì)位置關(guān)系。卷積層與門控線性單元:這部分是編碼器與解碼器的實(shí)現(xiàn)模塊,分別用于抽取源語言和目標(biāo)語言的上下文語義特征。殘差連接:編碼器和解碼器中堆疊的多層卷積結(jié)構(gòu)當(dāng)中增加了殘差連接結(jié)構(gòu),直接連接每一層的輸入與輸出,從而提高信息傳播效率,減小模型的優(yōu)化難度。多步注意力機(jī)制:與循環(huán)神經(jīng)機(jī)器翻譯模型類似,也采用注意力機(jī)制自適應(yīng)地從源語言端檢索譯文對(duì)應(yīng)的源語言信息。不同的是,此處的注意力計(jì)算在解碼器的每一層當(dāng)中都會(huì)出現(xiàn),因而被稱為“多步”注意力。8.3.2卷積神經(jīng)網(wǎng)絡(luò)翻譯模型47位置編碼由于ConvS2S不再使用基于循環(huán)的結(jié)構(gòu)編碼輸入序列,因此模型失去了對(duì)于輸入文本中詞與詞之間相對(duì)位置關(guān)系的感知。位置編碼旨在重新給予模型這部分信息。為了使得卷積模型能夠感知到輸入序列中單詞的相對(duì)位置關(guān)系,使用額外的位置嵌入用于標(biāo)識(shí)每個(gè)單詞在句子中的絕對(duì)位置詞嵌入和位置嵌入同時(shí)被使用作為編碼器和解碼器的輸入8.3.2卷積神經(jīng)網(wǎng)絡(luò)翻譯模型48門控卷積結(jié)構(gòu)編碼器和解碼器均采用門控卷積結(jié)構(gòu)作為建模源語言和目標(biāo)語言的基本部件,這一部件由序列維度上的一維卷積運(yùn)算和非線性門控機(jī)制結(jié)合而成。卷積過程能夠有效地建模待處理文本中的局部上下文信息,而序列中的長(zhǎng)程依賴問題則可以通過多層卷積結(jié)構(gòu)的堆疊得到緩解。非線性門控機(jī)制使得我們能夠建模輸入視野下更加復(fù)雜的依賴關(guān)系。具體來說,對(duì)于嵌入層輸入的文本表示,通過一個(gè)線性映射將維度轉(zhuǎn)換到$d$維之后,我們能夠得到卷積操作的每個(gè)上下文窗口的輸入。對(duì)其進(jìn)行卷積運(yùn)算如下:對(duì)
X
進(jìn)行卷積操作得到對(duì)應(yīng)兩組輸出A
,
B后,基于門控線性單元(GatedLinearUnits)的非線性變換被用作激活函數(shù)得到最終輸出:殘差鏈接(residualconnections)被引入到模型構(gòu)建當(dāng)中。具體來說,每一層卷積單元的輸入被直接連接到輸出當(dāng)中如下所示:8.3.2卷積神經(jīng)網(wǎng)絡(luò)翻譯模型49多步自注意力機(jī)制解碼器同樣采用了堆疊的多層門控卷積結(jié)構(gòu)完成對(duì)目標(biāo)語言的解碼,并在每一層門控卷積之后通過注意力機(jī)制參考源語言信息。以解碼器第l層第i個(gè)時(shí)間步的注意力計(jì)算為例,為了確定需要參考源語言中的哪部分信息,當(dāng)前時(shí)刻的解碼器狀態(tài)以及前一個(gè)時(shí)刻解碼出的目標(biāo)語言嵌入用于作出決策的依據(jù):基于當(dāng)前位置的狀態(tài)依據(jù)
,目標(biāo)語言位置
i
相對(duì)源語言第
j
個(gè)單詞的注意力得分
可以通過
和源語言編碼器對(duì)應(yīng)位置的輸出
計(jì)算得到:基于上述過程得到的注意力得分,可以對(duì)源語言不同位置的信息進(jìn)行加權(quán)整合得到為了預(yù)測(cè)當(dāng)前位置目標(biāo)語言單詞所需的依據(jù):8.3.2卷積神經(jīng)網(wǎng)絡(luò)翻譯模型50這里的源語言端同時(shí)利用了編碼器的輸出以及對(duì)應(yīng)位置的輸入詞嵌入。這兩者對(duì)應(yīng)著更加全面的源語言信息,在實(shí)踐中也證明十分有效?;谏鲜鲈凑Z言信息,可以得到解碼器端第$l$層的輸出為:上述多步注意力機(jī)制中的“多步”一詞主要從兩個(gè)方面體現(xiàn)。首先從多層卷積堆疊的角度來說,前一層中通過注意力機(jī)制動(dòng)態(tài)地決定哪些相關(guān)信息需要被關(guān)注并傳遞到下一層當(dāng)中,而下一層在計(jì)算對(duì)源語言不同位置的注意力得分過程中又會(huì)考慮到這些信息。從時(shí)間步的角度來說,在計(jì)算目標(biāo)語言每個(gè)位置i的注意力分布時(shí),前k個(gè)位置的注意力歷史信息都會(huì)作為輸入的一部分被考慮。8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型51Transformer是由谷歌在2017年提出的一種Seq2Seq架構(gòu)。它的出現(xiàn)使得機(jī)器翻譯的性能和效率邁向了一個(gè)新的階段。它摒棄了循環(huán)結(jié)構(gòu),并完全通過注意力機(jī)制完成對(duì)源語言序列和目標(biāo)語言序列全局依賴的建模。在抽取每個(gè)單詞的上下文特征時(shí),Transformer通過自注意力機(jī)制(self-attention)衡量上下文中每一個(gè)單詞對(duì)當(dāng)前單詞的重要程度,在這個(gè)過程當(dāng)中沒有任何的循環(huán)單元參與計(jì)算。這種高度可并行化的編碼過程使得模型的運(yùn)行變得十分高效。8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型52基于Transformer的機(jī)器翻譯模型架構(gòu)如左圖所示,左側(cè)和右側(cè)分別對(duì)應(yīng)著Seq2Seq模型的編碼器和解碼器結(jié)構(gòu)。它們均由若干個(gè)基本的Transformer層組成(對(duì)應(yīng)著圖中的灰色框)。每個(gè)Transformer層都接收一個(gè)向量序列作為輸入,并輸出一個(gè)等長(zhǎng)的向量序列作為輸出。這里的xi
和yi
分別對(duì)應(yīng)著文本序列中的一個(gè)單詞的表示。而yi
是當(dāng)前Transformer對(duì)輸入xi
進(jìn)一步整合其上下文語義后對(duì)應(yīng)的輸出。在從輸入到輸出的語義抽象過程中,主要涉及如下幾個(gè)模塊:8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型53自注意力子層:對(duì)應(yīng)圖中的Multi-HeadAttention部分。使用自注意力機(jī)制整合上下文語義,它使得序列中任意兩個(gè)單詞之間的依賴關(guān)系可以直接被建模而不基于傳統(tǒng)的循環(huán)結(jié)構(gòu),從而更好地解決文本的長(zhǎng)程依賴。前饋?zhàn)訉樱簩?duì)應(yīng)圖中的FeedForward部分。通過全連接層對(duì)輸入文本序列中的每個(gè)單詞表示進(jìn)行更復(fù)雜的變換。殘差連接:對(duì)應(yīng)圖中的Add部分。它是一條分別作用在上述兩個(gè)子層當(dāng)中的直連通路,被用于連接它們的輸入與輸出。從而使得信息流動(dòng)更加高效,有利于模型的優(yōu)化。層標(biāo)準(zhǔn)化:對(duì)應(yīng)圖中的Norm部分。作用于上述兩個(gè)子層的輸出表示序列中,對(duì)表示序列進(jìn)行層標(biāo)準(zhǔn)化操作,同樣起到穩(wěn)定優(yōu)化的作用。8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型54解碼器的每個(gè)Transformer層的第一個(gè)自注意力子層額外增加了注意力掩碼,對(duì)應(yīng)圖中的掩碼多頭注意力(MaskedMulti-HeadAttention)部分。額外增加的掩碼是用來掩蓋后續(xù)的文本信息,以防模型在訓(xùn)練階段直接看到后續(xù)的文本序列進(jìn)而無法得到有效地訓(xùn)練。解碼器端還額外增加了一個(gè)多頭注意力(Multi-HeadAttention)模塊,需要注意的是它同時(shí)接收來自編碼器端的輸出以及當(dāng)前Transformer層第一個(gè)掩碼注意力層的輸出。它的作用是在翻譯的過程當(dāng)中,為了生成合理的目標(biāo)語言序列需要觀測(cè)待翻譯的源語言序列是什么。待翻譯的源語言文本,首先經(jīng)過編碼器端的每個(gè)Transformer層對(duì)其上下文語義的層層抽象,最終輸出每一個(gè)源語言單詞上下文相關(guān)的表示。解碼器端以自回歸的方式生成目標(biāo)語言文本,即每個(gè)時(shí)間步t參考編碼器端輸出的所有源語言文本表示以及前t-1個(gè)時(shí)刻生成的目標(biāo)語言文本生成當(dāng)前時(shí)刻的目標(biāo)語言單詞。8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型55位置編碼:對(duì)于待翻譯的文本序列,首先通過輸入嵌入層(InputEmbedding)將每個(gè)單詞轉(zhuǎn)換為其相對(duì)應(yīng)的向量表示。在送入編碼器端建模其上下文語義之前,一個(gè)非常重要的操作是在詞嵌入中加入位置編碼這一特征。由于Transfomer不再使用基于循環(huán)的方式建模文本輸入,序列中不再有任何信息能夠提示模型單詞之間的相對(duì)位置關(guān)系。因此補(bǔ)充這部分信息是十分必要的。具體來說,序列中每一個(gè)單詞所在的位置都對(duì)應(yīng)一個(gè)實(shí)值向量。這一實(shí)值向量會(huì)與單詞表示對(duì)應(yīng)相加并送入到后續(xù)模塊中做進(jìn)一步處理。在訓(xùn)練的過程當(dāng)中,模型會(huì)自動(dòng)地學(xué)習(xí)到如何利用這部分位置信息。為了得到不同位置對(duì)應(yīng)的編碼,Transformer使用不同頻率的正余弦函數(shù)如下所示:其中,pos表示單詞所在的位置,2i和2i+1表示位置編碼向量中的對(duì)應(yīng)維度,d則對(duì)應(yīng)位置編碼的總維度。8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型56自注意力子層:自注意力(Self-Attention)機(jī)制是基于Transformer的機(jī)器翻譯模型的基本操作,在源語言的編碼和目標(biāo)語言的生成中頻繁地被使用以建模源語言、目標(biāo)語言任意兩個(gè)單詞之間的依賴關(guān)系。給定由單詞語義嵌入及其位置編碼疊加得到的輸入表示,為了實(shí)現(xiàn)對(duì)上下文語義依賴的建模,進(jìn)一步引入在自注意力機(jī)制中涉及到的三個(gè)元素:查詢qi
(Query),鍵ki(Key),值vi(Value)。在編碼輸入序列中每一個(gè)單詞的表示的過程中,這三個(gè)元素用于計(jì)算上下文單詞所對(duì)應(yīng)的權(quán)重得分。直觀地說,這些權(quán)重反映了在編碼當(dāng)前單詞的表示時(shí)對(duì)于上下文不同部分所需要的關(guān)注程度。8.3.3自注意力神經(jīng)網(wǎng)絡(luò)翻譯模型57通過三個(gè)線性變換,,
將輸入序列中的每一個(gè)單詞表示轉(zhuǎn)換為其對(duì)應(yīng)向量,,為了得到編碼單詞
xi
時(shí)所需要關(guān)注的上下文信息,通過位置
I
查詢向量與其他位置的鍵向量做點(diǎn)積得到匹配分?jǐn)?shù):經(jīng)過Softmax歸一化為概率之后,與其他位置的值向量相乘來聚合我
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 高端住宅的室內(nèi)空間規(guī)劃與設(shè)計(jì)思路
- 打造高效的小微企業(yè)金融服務(wù)體系研究
- 跨文化家庭的和諧溝通實(shí)踐
- 語數(shù)融合推動(dòng)教育現(xiàn)代化進(jìn)程
- 車險(xiǎn)行業(yè)中的個(gè)性化需求挖掘與滿足
- 校園文化在培養(yǎng)學(xué)生道德品質(zhì)中的作用
- 科技賦能校園緊急避險(xiǎn)智慧教育探索
- 日常習(xí)慣養(yǎng)成與疾病預(yù)防的關(guān)系
- 疫情防控下的寵物行業(yè)新趨勢(shì)
- 班級(jí)心理活動(dòng)的有效設(shè)計(jì)與組織案例分析
- (正式版)HG∕T 20644-2024 彈簧支吊架選用標(biāo)準(zhǔn)
- 項(xiàng)目采購(gòu)管理培訓(xùn)
- (高清版)DZT 0399-2022 礦山資源儲(chǔ)量管理規(guī)范
- 面試官面試技巧(精簡(jiǎn)版)課件
- 中央空調(diào)節(jié)能改造方案
- 高校圖書館服務(wù)
- 環(huán)衛(wèi)一體化運(yùn)營(yíng)方案
- 科技進(jìn)步類現(xiàn)代軌道交通綜合體設(shè)計(jì)理論與關(guān)鍵技術(shù)公
- 源代碼審計(jì)報(bào)告模板
- 干式變壓器知識(shí)大全課件
- 重大危險(xiǎn)源公示牌(完整)-2
評(píng)論
0/150
提交評(píng)論