單詞和短語的分布式表示和他們的組合性_第1頁
單詞和短語的分布式表示和他們的組合性_第2頁
單詞和短語的分布式表示和他們的組合性_第3頁
單詞和短語的分布式表示和他們的組合性_第4頁
單詞和短語的分布式表示和他們的組合性_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、單詞和短語的分布式表示和他們的組合性文摘最近推出的Skip-gram模型是一種有效的方法來學(xué)習(xí)高品質(zhì)的分布式向量表示,它捕捉了大量num-ber精確的語法和語義詞的關(guān)系和方法。在本文中我們提出幾個擴展,提高質(zhì)量的向量和訓(xùn)練速度。通過頻繁的二次抽樣,使我們的學(xué)習(xí)得到顯著加速同時也學(xué)更多的定期字表示。我們還描述了一個簡單的alterna-tive層次,softmax稱為負采樣。詞表示有著特定的局限性,他們無法代表習(xí)慣用語。例如,“加拿大”和“空氣”不能容易地組合以獲得“加拿大航空公司,通過這個例子中,我們提出了用于查找文本短語的簡單方法,這個便使得學(xué)習(xí)良好的向量表示和為數(shù)百萬短語成為可能。1引言在

2、向量空間中分布表示的單詞可以幫助學(xué)習(xí)算法更好的實現(xiàn)在自然語言處理任務(wù)分組中相似的單詞。最早的一個使用字表示的歷史可以追溯到1986年,源自于Rumelhart,Hinton和 Williams 13。這個想法已經(jīng)被應(yīng)用到統(tǒng)計語言獲得相當(dāng)大的成功。后續(xù)工作包括應(yīng)用自動語音識別、機器翻譯14 7和廣泛的自然語言處理的任務(wù)2, 20, 15, 3, 18, 19, 9。最近,Mikolov等人引入了一種叫Skip-gram模型,是一種有效的從大量的非結(jié)構(gòu)化的文本數(shù)據(jù)中學(xué)習(xí)高質(zhì)量的向量表示單詞的方法。不同于大多數(shù)以前使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)單詞載體,在Skip-gram模型中(見圖1)并不涉及稠密矩陣乘

3、法。這使得訓(xùn)練效率極高:一個優(yōu)化的單價可以實現(xiàn)每天訓(xùn)練超過1000億人。這個詞表示計算使用神經(jīng)網(wǎng)絡(luò)非常有趣, ,因為學(xué)到的向量進行明確編碼和遵循許多語言規(guī)律和模式。有點令人驚訝的是,許多這些模式可以表示成線性的翻譯。舉例來說, 一個向量計算的結(jié)果VEC(“馬德里”) - VEC(“西班牙”)+ VEC(“法國”)是不是任何其他文字更貼近VEC(“巴黎”)。圖1:Skip-gram模型架構(gòu)。培訓(xùn)目標(biāo)是學(xué)習(xí)單詞向量表示擅長預(yù)測附近的單詞。在本文中,我們提出skip-gram模型的幾個擴展。我們表明,二次抽樣期間可以顯著加速訓(xùn)練頻繁出現(xiàn)的詞匯(約2倍- 10倍),以及提高了頻率較低單詞表述的準(zhǔn)確性。

4、此外,我們提出了一個簡單的噪聲對比估算的變量(NCE)4skip-gram模型導(dǎo)致更快的培訓(xùn)和頻繁出現(xiàn)的詞匯更好的向量表示,SOFTMAX分層相比于這個更復(fù)雜8。受限于詞表示他們無法使慣用短語成分個別單詞。例如,“波士頓環(huán)球報”是一個報紙,所以它不是一個自然的組合的含義“波士頓”和“全球”。 因此,使用向量repre-sent整個短語比Skip-gram模型表達得多。其他技術(shù),主要在的句子通過組合這個詞向量,如遞歸來表示句子2的含義15,也將受益于使用短語向量代替這個詞向量。從文字?jǐn)U展為基礎(chǔ),以基于短語的模型比較簡單。首先我們確定一個大的采用數(shù)據(jù)驅(qū)動的方法短語號碼,然后我們對待短語作為單獨的標(biāo)

5、記。在培訓(xùn)期間。為了評估這句話向量質(zhì)量,我們開發(fā)了一個用于類比同時包含單詞和短語推理任務(wù)的測試器。從我們的測試中看到一個典型的比喻是對“蒙特利爾”:“蒙特利爾加拿大人”:“多倫多”:“多倫多楓葉”。如果最近表示它會被認(rèn)為是已經(jīng)正確回答,以VEC(“蒙特利爾加拿大人”) - VEC(“蒙特利爾”)+VEC(“多倫多”)VEC(“多倫多楓葉”)。最后,我們描述了跳過-gram模型的另一個有趣的特性。我們發(fā)現(xiàn),簡單向量加法往往能產(chǎn)生有意義的結(jié)果。例如,VEC(“俄羅斯”)+ VEC(“河”)是接近VEC(“伏爾加河”),和VEC(“德國”)+ VEC(“資本”)接近VEC(“柏林”)。 這個組合性暗

6、示的語言理解非常顯而易見可以通過獲得使用上的字向量表示基本的數(shù)學(xué)運算。2 Skip-gram模型skip-gram模型的訓(xùn)練目標(biāo)用字表示是獲取在一個句子或文檔周圍的的用詞。更正式地說,由于序列訓(xùn)練單詞w1,W2,W3,。 。 。 ,WT,skip-gram模型的目標(biāo)是最大化的平均數(shù)概率。 (1)其中c是訓(xùn)練上下文(其可以是中心單詞重量的函數(shù))的大小。在訓(xùn)練時間為代價的前提下,更多的訓(xùn)練示例并因此較大C結(jié)果可導(dǎo)致更高的精度?;維kip-gram公式定義了p(wt + j | wt)將要使用softmax函數(shù): (2)其中,vw和v'w是“輸入”和“輸出”向量表示,W是數(shù)在詞匯。這種提取

7、的方法是不切實際的,因為計算成本和logP(WO| WI)是成正比的,這往往是(105-107項)。2.1 Softmax分層SOFTMAX的計算效率近似于分層SOFTMAX。 神經(jīng)網(wǎng)絡(luò)語言模型最早是由莫蘭和Bengio12提出。該主要優(yōu)點是代替在神經(jīng)網(wǎng)絡(luò)中評估W的輸出節(jié)點,以獲得概率分布,則需要評估僅約LOG2(W)的節(jié)點。分層SOFTMAX使用輸出層的二進制樹表示用W字作為其葉子和,對于每個節(jié)點,明確地表示它的子節(jié)點的相對概率。 這些定義分配概率的話便可以隨機游走。更精確地說,每一個字,我們也可以從樹的根的適當(dāng)路徑到達。設(shè)n(重量,j)的是從根為w的路徑上的第j個節(jié)點,并設(shè)L(w)的是該路

8、徑的長度,因此n(重量,1)=根和n(W,L(W)=瓦特此外,對于任何內(nèi)部節(jié)點n,讓通道(n)是n的任意的固定子和如果x為真,否則返回-1讓X為1。然后分層SOFTMAX限定P(WO| WI)如下: (3)在(x)= 1 /(1 + exp(x)。它可以證實這意味著成本計算logp(我們| wI)和logp(我們| wI)L成正比(我們),平均值不大于W。也不像的標(biāo)準(zhǔn)softmax方法和Skip-gram分配兩個表示vw每個單詞和vw w,層次softmax配方對每個詞都有一個表示vw和一個表示vn為每個內(nèi)部節(jié)點n的二叉樹。由于分級SOFTMAX使用的樹結(jié)構(gòu)對性能有很大影響,所以Mnih和辛頓

9、探索了許多方法用于構(gòu)造的樹結(jié)構(gòu)并同時在訓(xùn)練時間的效果和所產(chǎn)生的模型精度的方法10。在我們的工作中,我們使用二進制哈夫曼樹,因為它能夠分配短代碼而導(dǎo)致快速訓(xùn)練。在此之前,利用分組的話可以通過頻率工作以及用于基于神經(jīng)網(wǎng)絡(luò)的語言模型把一個非常簡單的加速技術(shù)放到到一起5,8。2.2 負抽樣分層SOFTMAX的一種替代是噪聲對比估計模型(NCE),這是由古特曼和許韋里寧4引入并通過Mnih和德施加到語言模型11.NCE假定,一個好的模型應(yīng)該能夠從區(qū)分?jǐn)?shù)據(jù)邏輯回歸方式的噪音。這有點像由Collobert和韋斯頓2使用的損耗誰由排名高于噪聲的數(shù)據(jù)訓(xùn)練的模型。指標(biāo)可以顯示softmax的對數(shù)概率最大化,Ski

10、p-gram模型只關(guān)心學(xué)習(xí)質(zhì)量的向量表示,所以只要我們利用定義消極抽樣(否定)的目標(biāo)可以簡化指標(biāo)向量表示保留它們的質(zhì)量 (4)利用主成分分析法(PCA)和資本向量投影的國家圖2:二維主要分析的投影Skip-gram向量的國家及其首都城市。下圖說明了模型的能力,自動組織觀念和學(xué)習(xí)含蓄它們之間的關(guān)系,因為在訓(xùn)練期間,我們沒有提供關(guān)于任何受監(jiān)管的信息一個省會城市的意思。用于替換每個日志Skip-gram P(我們| wI)項目標(biāo)。因此,任務(wù)是區(qū)分目標(biāo)詞我們從噪聲分布吸引Pn(w)使用邏輯回歸的,哪里有k負樣本為每個數(shù)據(jù)樣本。我們的實驗表明,k值范圍在5 - 20是有用的為小型訓(xùn)練數(shù)據(jù)集,而對于大型數(shù)

11、據(jù)集可以小至2 - 5 k。負采樣和出版社之間的主要區(qū)別是,一旦需要這樣的人樣本和噪聲的數(shù)值概率分布,而負采樣只使用樣品。雖然出版社約日志將softmax概率最大化,但是這個屬性對應(yīng)用程序并不重要NCE和NEG把負的噪聲分布Pn(w)作為一個自由參數(shù)。我們調(diào)查了一些對的Pn選擇(重量),并發(fā)現(xiàn)該單字組分布U(w)的上升到3 /4RD功率(即,U(W)3/4 / Z)顯著優(yōu)于單字組和均勻分布,為NCE和NEG上的每一項任務(wù),我們嘗試包括語言模型(這里不報道)。2.3頻繁的二次抽樣在非常大的語料庫中,最頻繁的字可以很容易地出現(xiàn)數(shù)億倍(例如,“在”,“該”,和“一個”)。這樣的話通常提供比生僻字信息

12、的價值少。 對于這樣的情況,,Skip-gram模型可以觀察“法國”、“巴黎”,它從觀察頻繁的出現(xiàn)“法國”、“的”,幾乎每一個詞經(jīng)常在一個句子都存與“的”。 這種想法也可應(yīng)用于在相反的方向,頻繁的二次抽樣可以改變幾百萬的實訓(xùn)例子。為了應(yīng)對罕見的頻繁的詞與詞之間的不平衡,我們用一個簡單的二次抽樣的方法,就是用每個字被丟棄的概率由公式來計算 (5) 表1:各種Skip-gram 300 -模型精度在類比推理任務(wù)8中定義。 NEG-K代表與每個正樣本k陰性樣品抽樣負; NCE代表噪聲對比估計和HS-霍夫曼表示分層SOFTMAX與基于頻率的霍夫曼碼。其中,f(WI)是單詞w的頻率,t是一個選擇的閾值,

13、通常約10-5.我們選擇這個二次抽樣式,因為它積極的單詞次級樣本頻率大于t的排名,同時保留頻率。雖然這種二次抽樣公式屬于啟發(fā)式選擇,我們發(fā)現(xiàn)它在實踐中很好地工作。它可以加速學(xué)習(xí)甚至顯著提高的罕見字的學(xué)習(xí)的精度,這將在以下部分中所示被介紹。3實證結(jié)果在本節(jié)中,我們評估來分層Softmax(HS),大概包括噪音對比評估,負采樣,二次抽樣的試驗。我們使用類比推理任務(wù)1來引入Mikolov 等。8。該任務(wù)包括類比,如“德國”的:“柏林”:“法”:?, 這是找到一個向量x,使得VEC(x)根據(jù)余弦距離(我們從搜索輸入字)(“法國”)。 這個具體的例子被認(rèn)為是已被正確地回答如果x為“巴黎”。該任務(wù)有兩個大

14、類:句法類比(如“快速”:“迅速”:“慢”:“慢慢來”)和語義類比,如全國省會城市的關(guān)系。Skip-gram模型的試驗,我們已經(jīng)使用了大量的數(shù)據(jù)集,包括各種新聞報道(內(nèi)置谷歌的數(shù)據(jù)集十億字)。我們將詞匯丟棄所有單詞再訓(xùn)練數(shù)據(jù),這導(dǎo)致尺寸692K的詞匯發(fā)生不足5次。以上的字類比試驗Skip-gram模型的性能列于表1。該表顯示,抽樣負優(yōu)于分層SOFTMAX的類比推理任務(wù),并有稍微大于噪聲的對比更好的性能。該頻繁的字二次采樣提高了訓(xùn)練速度數(shù)次,讓這個詞表達更準(zhǔn)確??梢哉f,skip-gram模型使其向量的線性更適合線性類比推理,但Mikolov等人的結(jié)果 8還表明通過標(biāo)準(zhǔn)的遞歸神經(jīng)網(wǎng)絡(luò)(其是高度非線

15、性的)可以改善這種情況,使得訓(xùn)練數(shù)據(jù)量增加,這表明非線性模型也有偏愛這個詞表示的線性結(jié)構(gòu)。4學(xué)習(xí)短語正如前面所討論的,很多短語都有意義,他們并不是一個簡單的組合單個單詞,我們首先找到單詞經(jīng)常出現(xiàn)在一起的地方,很少在其他的情況。例如,“紐約時報”“多倫多楓葉”是由訓(xùn)練數(shù)據(jù)的獨特記號代替,而兩字“這是”將保持不變。表2:例子類比推理任務(wù)的短語(完整的測試集有3218個例子)。我們的目標(biāo)是計算使用前三個第四句話。我們最好在這個數(shù)據(jù)集模型實現(xiàn)了72%的準(zhǔn)確性。通過這種方式,我們可以形成許多合理的短語并且不會大幅提高詞匯量的大小;在理論上,我們可以訓(xùn)練Skip-gram模型使用所有字格,但是這將會使得內(nèi)

16、存更加密集。之前許多技術(shù)已經(jīng)開發(fā)出了識別文本中的詞語; 然而,它超出了我們的工作來所認(rèn)識它們的范圍,所以我們決定用一個簡單的數(shù)據(jù)驅(qū)動的方法,其中,短語根據(jù)單字組和雙字組計數(shù)形成的, (6)是作為折現(xiàn)系數(shù),主要是為了防止太多的短語組成的非常罕見單詞。如果有會出現(xiàn)頻率高的單詞,通常,我們運行2 - 4通過降低閾值的訓(xùn)練數(shù)據(jù), 主要是用來防止幾個單詞較長的詞組。我們評估這句話的質(zhì)量的短語用一個新的類比推理任務(wù)表示。表2示出的例子的五類在這個任務(wù)中使用的類比。此數(shù)據(jù)集是在web2的公開。4.1 Skip-Gram短語結(jié)果從之前所得要的數(shù)據(jù)的基礎(chǔ)上再進行實驗,首先要根據(jù)訓(xùn)練資料來構(gòu)造短語,然后我們用不同

17、的超參數(shù)來訓(xùn)練幾個Skip-gram模型。像之前一樣,我們使用向量維數(shù)300和上下文大小為5的設(shè)置。這個設(shè)置可以使數(shù)據(jù)集變得跟家良好, 而且可以讓我們快速比較負抽樣和分層SOFTMAX,這樣就不會有有頻繁的標(biāo)記二次抽樣。該結(jié)果歸納于表3中。結(jié)果表明,當(dāng)負采樣達到k= 5的時候就會達到可觀的精度,當(dāng)K =15取得的精度會跟家精確。出人意料的是,當(dāng)我們下采樣頻繁的時候我們發(fā)現(xiàn)了分層SOFTMAX會獲得較低的性能在不需要進行二次抽樣培訓(xùn)的情況下,這使得它成為了最好的執(zhí)行方法。這表明,至少在某些情況下,子采樣可以導(dǎo)致更快的訓(xùn)練,也可以提高精度。表3:Skip-gram模型的精度度在于短語類比數(shù)據(jù)集。從

18、新聞中知道這個模型培訓(xùn)了大概十億字。 表4:最接近給定實體的短語要使用兩種不同的模型。表5:向量組合使用element-wise加法。四個載體中被標(biāo)記的最近的兩個最好用Skip-gram模型。整個句子的上下文中,為了最大限度地提高該短語類比任務(wù)的準(zhǔn)確性,我們提高了訓(xùn)練數(shù)據(jù)的數(shù)量通過使用數(shù)據(jù)集,約330億字。在全文中我們使用分層SOFTMAX模型,這導(dǎo)致模型的精度達到72。這樣的話我們實現(xiàn)了低精度66%減少訓(xùn)練數(shù)據(jù)集的大小為6 b,這表明大量的訓(xùn)練數(shù)據(jù)是非常重要的。為了進一步深入了解不同型號模型表現(xiàn)的不同,我們便對相鄰的短語模型做手工檢查。在表4中,我們展示出了一個樣品的比較。與之前的結(jié)果看來,

19、似乎最好短語表示是短語學(xué)模型與層次softmax和二次抽樣。 5附加的語意組合性我們表明,單詞和短語的線性結(jié)構(gòu)表示由Skip-gram模型展示,使得它可以用簡單的向量執(zhí)行精確的類比推理運算。有趣的是,我們發(fā)現(xiàn),Skip-gram模型表現(xiàn)出另一種線性的結(jié)構(gòu),使得它可以通過一個個元素的加法并且有意義的結(jié)合其他詞語。這種現(xiàn)象在表5中示出。向量的加和性可以通過檢查培訓(xùn)目標(biāo)來解釋。這個詞向量的線性關(guān)系由softmax非線性輸入。因為這個詞向量,載體可以被看作是代表其中出現(xiàn)的單詞在上下文的分布。這些值相關(guān)的對數(shù)由輸出層計算概率,所以兩條字向量涉及到這兩個方面的分布產(chǎn)品。該產(chǎn)品在這里工作內(nèi)容及功能:單詞由這

20、兩個詞向量被分配,高的將具有高概率,以及換言之將有低概率。因此,如果“伏爾加河”在同一個句子頻頻出現(xiàn),上面就會寫著“俄羅斯”和“河”,這兩個詞向量的總和將導(dǎo)致這個詞向量的意思,接近“伏爾加河”詞向量。6 發(fā)布詞表示的比較許多工作者曾經(jīng)研究基于神經(jīng)網(wǎng)絡(luò)的表示方法,其中最知名的作者有Collobert、 Weston2、Turian 17、Mnih和Hinton10等人。我們可以從WEB3中下載他們的信息。 Mikolov等人 8已經(jīng)評估了這些信息,其中Skip-gram模型可以實現(xiàn)最佳性能,并且可以獲得巨大的利潤。表6:在大家所認(rèn)知的模型和skip-gram模型中擁有300億個被使用過的子??諉卧脑捯馕吨~不是詞匯表中。給予更多的了解學(xué)習(xí)質(zhì)量的差別向量,我們提供實證比較,顯示最近的鄰居罕見字在表6所示。這些例子表明,大Sk

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論