單詞和短語(yǔ)的分布式表示和他們的組合性_第1頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第2頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第3頁(yè)
單詞和短語(yǔ)的分布式表示和他們的組合性_第4頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、單詞和短語(yǔ)的分布式表示和他們的組合性文摘最近推出的 Skip-gram 模型是一種有效的方法來(lái)學(xué)習(xí)高品質(zhì)的分布式向量表示,它捕捉了大量 num-ber 精確的語(yǔ)法和語(yǔ)義詞的關(guān)系和方法。在本文中我們提出幾個(gè)擴(kuò)展 , 提高質(zhì)量的向量和訓(xùn)練速度。通過(guò)頻繁的二次抽樣,使我們的學(xué)習(xí)得到顯著加速同時(shí)也學(xué)更多的定期字表示。我們還描述了一個(gè)簡(jiǎn)單的alterna-tive層次, softmax 稱為負(fù)采樣。詞表示有著特定的局限性, 他們無(wú)法代表習(xí)慣用語(yǔ)。 例如, “加拿大”和“空氣”不能容易地組合以獲得“加拿大航空公司, 通過(guò)這個(gè)例子中, 我們提出了用于查找文本短語(yǔ)的簡(jiǎn)單方法, 這個(gè)便使得學(xué)習(xí)良好的向量表示和為

2、數(shù)百萬(wàn)短語(yǔ)成為可能。1 引言在向量空間中分布表示的單詞可以幫助學(xué)習(xí)算法更好的實(shí)現(xiàn)在自然語(yǔ)言處理任務(wù)分組中相似的單詞。最早的一個(gè)使用字表示的歷史可以追溯到 1986 年,源自于 Rumelhart,Hinton 和 Williams 13 。這個(gè)想法已經(jīng)被應(yīng)用到統(tǒng)計(jì)語(yǔ)言獲得相當(dāng)大的成功。后續(xù)工作包括應(yīng)用自動(dòng)語(yǔ)音識(shí)別、機(jī)器翻譯 14 7 和廣泛的自然語(yǔ)言處理的任務(wù) 2, 20, 15, 3, 18, 19, 9 。最近 ,Mikolov 等人引入了一種叫 Skip-gram 模型 , 是一種有效的從大量的非結(jié)構(gòu)化的文本數(shù)據(jù)中學(xué)習(xí)高質(zhì)量的向量表示單詞的方法。 不同于大多數(shù)以前使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)單

3、詞載體,在 Skip-gram 模型中(見(jiàn)圖 1)并不涉及稠密矩陣乘法。這使得訓(xùn)練效率極高: 一個(gè)優(yōu)化的單價(jià)可以實(shí)現(xiàn)每天訓(xùn)練超過(guò) 1000 億人。這個(gè)詞表示計(jì)算使用神經(jīng)網(wǎng)絡(luò)非常有趣 , ,因?yàn)閷W(xué)到的向量進(jìn)行明確編碼和遵循許多語(yǔ)言規(guī)律和模式。有點(diǎn)令人驚訝的是 , 許多這些模式可以表示成線性的翻譯。舉例來(lái)說(shuō) , 一個(gè)向量計(jì)算的結(jié)果 VEC(“馬德里”) - VEC (“西班牙”)+ VEC(“法國(guó)”)是不是任何其他文字更貼近 VEC(“巴黎”)。圖 1:Skip-gram 模型架構(gòu)。培訓(xùn)目標(biāo)是學(xué)習(xí)單詞向量表示擅長(zhǎng)預(yù)測(cè)附近的單詞。在本文中,我們提出 skip-gram 模型的幾個(gè)擴(kuò)展。 我們表明,

4、二次抽樣期間可以顯著加速訓(xùn)練頻繁出現(xiàn)的詞匯(約 2 倍- 10 倍),以及提高了頻率較低單詞表述的準(zhǔn)確性。此外,我們提出了一個(gè)簡(jiǎn)單的噪聲對(duì)比估算的變量(NCE)4skip-gram 模型導(dǎo)致更快的培訓(xùn)和頻繁出現(xiàn)的詞匯更好的向量表示, SOFTMAX 分層相比于這個(gè)更復(fù)雜 8 。受限于詞表示他們無(wú)法使慣用短語(yǔ)成分個(gè)別單詞。例如, “波士頓環(huán)球報(bào)”是一個(gè)報(bào)紙 , 所以它不是一個(gè)自然的組合的含義“波士頓”和“全球”。 因此 , 使用向量 repre-sent 整個(gè)短語(yǔ)比 Skip-gram 模型表達(dá)得多。其他技術(shù) , 主要在的句子通過(guò)組合這個(gè)詞向量 , 如遞歸來(lái)表示句子 2 的含義 15, 也將受益

5、于使用短語(yǔ)向量代替這個(gè)詞向量。從文字?jǐn)U展為基礎(chǔ), 以基于短語(yǔ)的模型比較簡(jiǎn)單。 首先我們確定一個(gè)大的采用數(shù)據(jù)驅(qū)動(dòng)的方法短語(yǔ)號(hào)碼, 然后我們對(duì)待短語(yǔ)作為單獨(dú)的標(biāo)記。在培訓(xùn)期間。 為了評(píng)估這句話向量質(zhì)量, 我們開(kāi)發(fā)了一個(gè)用于類比同時(shí)包含單詞和短語(yǔ)推理任務(wù)的測(cè)試器。從我們的測(cè)試中看到一個(gè)典型的比喻是對(duì)“蒙特利爾”:“蒙特利爾加拿大人” : “多倫多”:“多倫多楓葉”。如果最近表示它會(huì)被認(rèn)為是已經(jīng)正確回答,以 VEC(“蒙特利爾加拿大人”)- VEC (“蒙特利爾”) +VEC(“多倫多”) VEC(“多倫多楓葉”)。最后,我們描述了跳過(guò) -gram 模型的另一個(gè)有趣的特性。我們發(fā)現(xiàn),簡(jiǎn)單向量加法往往能

6、產(chǎn)生有意義的結(jié)果。例如, VEC(“俄羅斯”) + VEC(“河”)是接近 VEC(“伏爾加河”),和 VEC(“德國(guó)”) + VEC(“資本”)接近 VEC(“柏林”)。 這個(gè)組合性暗示的語(yǔ)言理解非常顯而易見(jiàn)可以通過(guò)獲得使用上的字向量表示基本的數(shù)學(xué)運(yùn)算。2 Skip-gram模型skip-gram 模型的訓(xùn)練目標(biāo)用字表示是獲取在一個(gè)句子或文檔周圍的的用詞。更正式地說(shuō),由于序列訓(xùn)練單詞 w1, W2,W3,。 。 。 ,WT, skip-gram 模型的目標(biāo)是最大化的平均數(shù)概率。1TT t 1 c j c, j 0log p( wtj | wt )(1)其中 c 是訓(xùn)練上下文(其可以是中心單詞

7、重量的函數(shù))的大小。在訓(xùn)練時(shí)間為代價(jià)的前提下,更多的訓(xùn)練示例并因此較大C 結(jié)果可導(dǎo)致更高的精度?;維kip-gram 公式定義了 p(wt + j | wt)將要使用 softmax 函數(shù) :p( wo | wt )exp(v'wo vwt )Ww 1 exp(v 'wvwt )(2)其中,vw 和 v'w 是“輸入”和“輸出”向量表示, W是數(shù)在詞匯。這種提取的方法是不切實(shí)際的,因?yàn)橛?jì)算成本和 ? logP (WO| WI)是成正比的,這往往是( 105-107 項(xiàng))。2.1 Softmax分層SOFTMAX的計(jì)算效率近似于分層 SOFTMAX。 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型最

8、早是由莫蘭和 Bengio12 提出。該主要優(yōu)點(diǎn)是代替在神經(jīng)網(wǎng)絡(luò)中評(píng)估 W的輸出節(jié)點(diǎn),以獲得概率分布,則需要評(píng)估僅約 LOG2(W)的節(jié)點(diǎn)。分層 SOFTMAX使用輸出層的二進(jìn)制樹(shù)表示用 W字作為其葉子和,對(duì)于每個(gè)節(jié)點(diǎn),明確地表示它的子節(jié)點(diǎn)的相對(duì)概率。 這些定義分配概率的話便可以隨機(jī)游走。更精確地說(shuō),每一個(gè)字,我們也可以從樹(shù)的根的適當(dāng)路徑到達(dá)。設(shè)n(重量,j )的是從根為 w 的路徑上的第 j 個(gè)節(jié)點(diǎn),并設(shè) L(w)的是該路徑的長(zhǎng)度,因此n(重量, 1)=根和 n(W,L( W)=瓦特此外,對(duì)于任何內(nèi)部節(jié)點(diǎn)n,讓通道(n)是 n 的任意的固定子和如果 x 為真,否則返回 -1 讓X 為 1。然

9、后分層 SOFTMAX 限定 P(WO| WI)如下:L (w)1p(w | wI )( n( w, j 1) ch(n( w, j )'n ( w, j ) w, I )j 1(3)在 (x)= 1 /(1 + exp(- x) 。它可以證實(shí)這意味著成本計(jì)算logp( 我們 | wI) 和 ? logp( 我們 | wI)L 成正比 ( 我們 ), 平均值不大于 W。也不像的標(biāo)準(zhǔn)softmax方法和Skip-gram分配兩個(gè)表示softmax 配方對(duì)每個(gè)詞都有一個(gè)表示vw 和一個(gè)表示vw 每個(gè)單詞和vw w, 層次vn為每個(gè)內(nèi)部節(jié)點(diǎn) n 的二叉樹(shù)。由于分級(jí) SOFTMAX使用的樹(shù)結(jié)構(gòu)

10、對(duì)性能有很大影響,所以Mnih 和辛頓探索了許多方法用于構(gòu)造的樹(shù)結(jié)構(gòu)并同時(shí)在訓(xùn)練時(shí)間的效果和所產(chǎn)生的模型精度的方法 10 。在我們的工作中, 我們使用二進(jìn)制哈夫曼樹(shù), 因?yàn)樗軌蚍峙涠檀a而導(dǎo)致快速訓(xùn)練。 在此之前,利用分組的話可以通過(guò)頻率工作以及用于基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型把一個(gè)非常簡(jiǎn)單的加速技術(shù)放到到一起 5,8 。2.2 負(fù)抽樣分層 SOFTMAX的一種替代是噪聲對(duì)比估計(jì)模型( NCE),這是由古特曼和許韋里寧 4 引入并通過(guò) Mnih 和德施加到語(yǔ)言模型 11.NCE 假定,一個(gè)好的模型應(yīng)該能夠從區(qū)分?jǐn)?shù)據(jù)邏輯回歸方式的噪音。這有點(diǎn)像由 Collobert 和韋斯頓 2 使用的損耗誰(shuí)由排名

11、高于噪聲的數(shù)據(jù)訓(xùn)練的模型。指標(biāo)可以顯示 softmax 的對(duì)數(shù)概率最大化 ,Skip-gram 模型只關(guān)心學(xué)習(xí)質(zhì)量的向量表示 , 所以只要我們利用定義消極抽樣 ( 否定 ) 的目標(biāo)可以簡(jiǎn)化指標(biāo)向量表示保留它們的質(zhì)量klog (v 'wo vwi )wi pn ( w) log( v 'wi vwi )i 1(4)利用主成分分析法 (PCA)和資本向量投影的國(guó)家圖 2: 二維主要分析的投影 Skip-gram 向量的國(guó)家及其首都城市。下圖說(shuō)明了模型的能力, 自動(dòng)組織觀念和學(xué)習(xí)含蓄它們之間的關(guān)系, 因?yàn)樵谟?xùn)練期間, 我們沒(méi)有提供關(guān)于任何受監(jiān)管的信息一個(gè)省會(huì)城市的意思。用于替換每個(gè)日

12、志 Skip-gram P( 我們 | wI) 項(xiàng)目標(biāo)。因此 , 任務(wù)是區(qū)分目標(biāo)詞我們從噪聲分布吸引 Pn(w)使用邏輯回歸的 , 哪里有 k 負(fù)樣本為每個(gè)數(shù)據(jù)樣本。我們的實(shí)驗(yàn)表明 ,k 值范圍在 5 - 20 是有用的為小型訓(xùn)練數(shù)據(jù)集 , 而對(duì)于大型數(shù)據(jù)集可以小至 2 - 5 k 。負(fù)采樣和出版社之間的主要區(qū)別是 , 一旦需要這樣的人樣本和噪聲的數(shù)值概率分布 , 而負(fù)采樣只使用樣品。雖然出版社約日志將 softmax 概率最大化 , 但是這個(gè)屬性對(duì)應(yīng)用程序并不重要NCE和 NEG把負(fù)的噪聲分布 Pn(w) 作為一個(gè)自由參數(shù)。 我們調(diào)查了一些對(duì)的 Pn 選擇(重量),并發(fā)現(xiàn)該單字組分布 U(

13、w)的上升到 3 /4RD 功率(即, U(W)3/4 / Z )顯著優(yōu)于單字組和均勻分布,為 NCE和 NEG上的每一項(xiàng)任務(wù),我們嘗試包括語(yǔ)言模型(這里不報(bào)道)。2.3 頻繁的二次抽樣在非常大的語(yǔ)料庫(kù)中,最頻繁的字可以很容易地出現(xiàn)數(shù)億倍(例如,“在”,“該”,和“一個(gè)”)。這樣的話通常提供比生僻字信息的價(jià)值少。 對(duì)于這樣的情況, ,Skip-gram 模型可以觀察“法國(guó)”、“巴黎” , 它從觀察頻繁的出現(xiàn)“法國(guó)”、 “的” , 幾乎每一個(gè)詞經(jīng)常在一個(gè)句子都存與“的”。 這種想法也可應(yīng)用于在相反的方向,頻繁的二次抽樣可以改變幾百萬(wàn)的實(shí)訓(xùn)例子。為了應(yīng)對(duì)罕見(jiàn)的頻繁的詞與詞之間的不平衡, 我們用一個(gè)

14、簡(jiǎn)單的二次抽樣的方法,就是用每個(gè)字被丟棄的概率由公式來(lái)計(jì)算P(wi )1tf (wi )( 5)表 1: 各種 Skip-gram 300 - 模型精度在類比推理任務(wù) 8 中定義。 NEG-K代表與每個(gè)正樣本 k 陰性樣品抽樣負(fù) ; NCE 代表噪聲對(duì)比估計(jì)和 HS-霍夫曼表示分層SOFTMAX與基于頻率的霍夫曼碼。其中,f (WI)是單詞 w的頻率, t 是一個(gè)選擇的閾值,通常約 10-5. 我們選擇這個(gè)二次抽樣式,因?yàn)樗e極的單詞次級(jí)樣本頻率大于 t 的排名 , 同時(shí)保留頻率。雖然這種二次抽樣公式屬于啟發(fā)式選擇, 我們發(fā)現(xiàn)它在實(shí)踐中很好地工作。 它可以加速學(xué)習(xí)甚至顯著提高的罕見(jiàn)字的學(xué)習(xí)的精

15、度,這將在以下部分中所示被介紹。3 實(shí)證結(jié)果在本節(jié)中 , 我們?cè)u(píng)估來(lái)分層 Softmax(HS), 大概包括噪音對(duì)比評(píng)估 , 負(fù)采樣 , 二次抽樣的試驗(yàn)。我們使用類比推理任務(wù) 1 來(lái)引入 Mikolov 等。 8 。該任務(wù)包括類比,如“德國(guó)”的:“柏林” : “法”:? , 這是找到一個(gè)向量 x,使得 VEC ( x)根據(jù)余弦距離(我們從搜索輸入字)(“法國(guó)”)。 這個(gè)具體的例子被認(rèn)為是已被正確地回答如果 x 為“巴黎”。該任務(wù)有兩個(gè)大類:句法類比(如“快速”:“迅速” : “慢”:“慢慢來(lái)”)和語(yǔ)義類比,如全國(guó)省會(huì)城市的關(guān)系。Skip-gram 模型的試驗(yàn),我們已經(jīng)使用了大量的數(shù)據(jù)集, 包括

16、各種新聞報(bào)道(內(nèi)置谷歌的數(shù)據(jù)集十億字)。我們將詞匯丟棄所有單詞再訓(xùn)練數(shù)據(jù),這導(dǎo)致尺寸692K的詞匯發(fā)生不足 5 次。以上的字類比試驗(yàn) Skip-gram 模型的性能列于表 1。該表顯示,抽樣負(fù)優(yōu)于分層 SOFTMAX的類比推理任務(wù), 并有稍微大于噪聲的對(duì)比更好的性能。該頻繁的字二次采樣提高了訓(xùn)練速度數(shù)次,讓這個(gè)詞表達(dá)更準(zhǔn)確??梢哉f(shuō) ,skip-gram 模型使其向量的線性更適合線性類比推理,但 Mikolov 等人的結(jié)果 8 還表明通過(guò)標(biāo)準(zhǔn)的遞歸神經(jīng)網(wǎng)絡(luò) (其是高度非線性的) 可以改善這種情況,使得訓(xùn)練數(shù)據(jù)量增加, 這表明非線性模型也有偏愛(ài)這個(gè)詞表示的線性結(jié)構(gòu)。4 學(xué)習(xí)短語(yǔ)正如前面所討論的 ,

17、 很多短語(yǔ)都有意義 , 他們并不是一個(gè)簡(jiǎn)單的組合單個(gè)單詞 , 我們首先找到單詞經(jīng)常出現(xiàn)在一起的地方 , 很少在其他的情況。例如,“紐約時(shí)報(bào)”“多倫多楓葉” 是由訓(xùn)練數(shù)據(jù)的獨(dú)特記號(hào)代替, 而兩字“這是” 將保持不變。表 2: 例子類比推理任務(wù)的短語(yǔ) ( 完整的測(cè)試集有 3218 個(gè)例子 ) 。我們的目標(biāo)是計(jì)算使用前三個(gè)第四句話。我們最好在這個(gè)數(shù)據(jù)集模型實(shí)現(xiàn)了72%的準(zhǔn)確性。通過(guò)這種方式,我們可以形成許多合理的短語(yǔ)并且不會(huì)大幅提高詞匯量的大小 ; 在理論上,我們可以訓(xùn)練 Skip-gram 模型使用所有字格, 但是這將會(huì)使得內(nèi)存更加密集。之前許多技術(shù)已經(jīng)開(kāi)發(fā)出了識(shí)別文本中的詞語(yǔ) ; 然而,它超出了

18、我們的工作來(lái)所認(rèn)識(shí)它們的范圍,所以我們決定用一個(gè)簡(jiǎn)單的數(shù)據(jù)驅(qū)動(dòng)的方法,其中,短語(yǔ)根據(jù)單字組和雙字組計(jì)數(shù)形成的,count(wi w j )score(wi , wj )count( wj ) count(wj )(6)是作為折現(xiàn)系數(shù), 主要是為了防止太多的短語(yǔ)組成的非常罕見(jiàn)單詞。 如果有會(huì)出現(xiàn)頻率高的單詞,通常 , 我們運(yùn)行 2 - 4 通過(guò)降低閾值的訓(xùn)練數(shù)據(jù) , 主要是用來(lái)防止幾個(gè)單詞較長(zhǎng)的詞組。 我們?cè)u(píng)估這句話的質(zhì)量的短語(yǔ)用一個(gè)新的類比推理任務(wù)表示。表 2 示出的例子的五類在這個(gè)任務(wù)中使用的類比。此數(shù)據(jù)集是在web2的公開(kāi)。4.1 Skip-Gram 短語(yǔ)結(jié)果從之前所得要的數(shù)據(jù)的基礎(chǔ)上再進(jìn)

19、行實(shí)驗(yàn) , 首先要根據(jù)訓(xùn)練資料來(lái)構(gòu)造短語(yǔ),然后我們用不同的超參數(shù)來(lái)訓(xùn)練幾個(gè) Skip-gram 模型。像之前一樣 , 我們使用向量維數(shù) 300 和上下文大小為 5 的設(shè)置。這個(gè)設(shè)置可以使數(shù)據(jù)集變得跟家良好 , 而且可以讓我們快速比較負(fù)抽樣和分層 SOFTMAX,這樣就不會(huì)有有頻繁的標(biāo)記二次抽樣。該結(jié)果歸納于表3 中。結(jié)果表明,當(dāng)負(fù)采樣達(dá)到k= 5 的時(shí)候就會(huì)達(dá)到可觀的精度,當(dāng)K =15 取得的精度會(huì)跟家精確。出人意料的是,當(dāng)我們下采樣頻繁的時(shí)候我們發(fā)現(xiàn)了分層SOFTMAX會(huì)獲得較低的性能在不需要進(jìn)行二次抽樣培訓(xùn)的情況下,這使得它成為了最好的執(zhí)行方法。這表明,至少在某些情況下,子采樣可以導(dǎo)致更快

20、的訓(xùn)練,也可以提高精度。表 3:Skip-gram 模型的精度度在于短語(yǔ)類比數(shù)據(jù)集。從新聞中知道這個(gè)模型培訓(xùn)了大概十億字 。表 4: 最接近給定實(shí)體的短語(yǔ)要使用兩種不同的模型。表 5: 向量組合使用 element-wise 加法。四個(gè)載體中被標(biāo)記的最近的兩個(gè)最好用 Skip-gram 模型。整個(gè)句子的上下文中, 為了最大限度地提高該短語(yǔ)類比任務(wù)的準(zhǔn)確性,我們提高了訓(xùn)練數(shù)據(jù)的數(shù)量通過(guò)使用數(shù)據(jù)集,約 330 億字。在全文中我們使用分層SOFTMAX模型,這導(dǎo)致模型的精度達(dá)到 72。這樣的話我們實(shí)現(xiàn)了低精度 66%減少訓(xùn)練數(shù)據(jù)集的大小為 6 b ,這表明大量的訓(xùn)練數(shù)據(jù)是非常重要的。為了進(jìn)一步深入了

21、解不同型號(hào)模型表現(xiàn)的不同, 我們便對(duì)相鄰的短語(yǔ)模型做手工檢查。在表 4 中,我們展示出了一個(gè)樣品的比較。與之前的結(jié)果看來(lái),似乎最好短語(yǔ)表示是短語(yǔ)學(xué)模型與層次 softmax 和二次抽樣。5 附加的語(yǔ)意組合性我們表明,單詞和短語(yǔ)的線性結(jié)構(gòu)表示由 Skip-gram 模型展示,使得它可以用簡(jiǎn)單的向量執(zhí)行精確的類比推理運(yùn)算。有趣的是,我們發(fā)現(xiàn), Skip-gram 模型表現(xiàn)出另一種線性的結(jié)構(gòu), 使得它可以通過(guò)一個(gè)個(gè)元素的加法并且有意義的結(jié)合其他詞語(yǔ)。這種現(xiàn)象在表 5 中示出。向量的加和性可以通過(guò)檢查培訓(xùn)目標(biāo)來(lái)解釋。這個(gè)詞向量的線性關(guān)系由 softmax 非線性輸入。因?yàn)檫@個(gè)詞向量,載體可以被看作是代

22、表其中出現(xiàn)的單詞在上下文的分布。 這些值相關(guān)的對(duì)數(shù)由輸出層計(jì)算概率, 所以兩條字向量涉及到這兩個(gè)方面的分布產(chǎn)品。 該產(chǎn)品在這里工作內(nèi)容及功能: 單詞由這兩個(gè)詞向量被分配,高的將具有高概率,以及換言之將有低概率。因此,如果“伏爾加河”在同一個(gè)句子頻頻出現(xiàn),上面就會(huì)寫(xiě)著“俄羅斯”和“河”,這兩個(gè)詞向量的總和將導(dǎo)致這個(gè)詞向量的意思,接近“伏爾加河”詞向量。6 發(fā)布詞表示的比較許多工作者曾經(jīng)研究基于神經(jīng)網(wǎng)絡(luò)的表示方法,其中最知名的作者有Collobert、 Weston2 、Turian 17、Mnih 和 Hinton10等人。我們可以從WEB3中下載他們的信息。Mikolov等人 8已經(jīng)評(píng)估了這些信息,其中Skip-gram 模型可以實(shí)現(xiàn)最佳性能,并且可以獲得巨大的利潤(rùn)。表 6:在大家所認(rèn)知的模型和 skip-gram 模型中擁有 300 億個(gè)被使用過(guò)的子??諉卧脑捯馕吨~不是詞匯表中。給予更多的了解學(xué)習(xí)質(zhì)量的差別向量 , 我們

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論