




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
人工智能技術(shù)與應用9.詞向量模型Word2Vec課程概況—基本情況PART01Word2Vec算法Word2Vec算法概述Word2Vec算法的實現(xiàn)Word2Vec的訓練Word2Vec概述Word2Vec概述:概述:
WordtoVector,由詞到向量,
Word2Vec使用一層神經(jīng)網(wǎng)絡將one-hot(獨熱編碼)形式的詞向量映射到分布式形式的詞向量。使用了Hierarchicalsoftmax,negativesampling等技巧進行訓練速度上的優(yōu)化。逆向概率:作用:我們?nèi)粘I钪惺褂玫淖匀徽Z言不能夠直接被計算機所理解,當我們需要對這些自然語言進行處理時,就需要使用特定的手段對其進行分析或預處理。使用one-hot編碼形式對文字進行處理可以得到詞向量,但是,由于對文字進行唯一編號進行分析的方式存在數(shù)據(jù)稀疏的問題,Word2Vec能夠解決這一問題,實現(xiàn)wordembeddingWord2Vec實現(xiàn):在處理自然語言時,通常將詞語或者字做向量化,例如one-hot編碼,例如我們有一句話為:“我愛北京天安門”,我們分詞后對其進行one-hot編碼,結(jié)果如圖所示。這樣,我們就可以將每個詞用一個向量表示了。但是如果n個詞語而不是4個,任何一個詞的編碼只有一個1,n-1位為0,這會導致數(shù)據(jù)非常稀疏(0特別多,1很少),存儲開銷也很大。Word2Vec實現(xiàn)Word2Vec實現(xiàn):于是,分布式表示被提出來了,什么是分布式表示?它的思路是通過訓練,將每個詞都映射到一個較短的詞向量上來。這個較短的詞向量維度是多大呢?這個一般需要我們在訓練時自己來指定。現(xiàn)在很常見的例如300維。例如下面圖展示了四個不同的單詞,可以用一個可變化的維度長度表示(圖中只畫出了前4維),其實可以是多少維由你指定。假設為4維。Word2Vec實現(xiàn)
Word2Vec實現(xiàn)Word2Vec實現(xiàn):有了向量就可以用各種方法來計算相似度,例如余弦相似度(Cosine)歐式距離相似度(Euclidean)曼哈頓距離(Manhattan)。通常數(shù)據(jù)的維度越高,信息也越多,計算結(jié)果更可靠Word2Vec實現(xiàn)Word2Vec實現(xiàn):Word2Vec就是要把這些詞轉(zhuǎn)換為向量,也就是一組float數(shù)值,入下圖所示:例如一個詞50維的Word2Vec實現(xiàn)Word2Vec實現(xiàn):如果使用熱力圖來表示可以直觀的看到詞向量的相似度Word2Vec實現(xiàn)Word2Vec實現(xiàn):所有這些不同的單詞都有一條直的紅色列。它們在這個維度上是相似的(雖然我們不知道每個維度是什么)你可以看到“woman”和“girl”在很多地方是相似的,“man”和“boy”也是一樣“boy”和“girl”也有彼此相似的地方,但這些地方卻與“woman”或“man”不同。這些是否可以總結(jié)出一個模糊的“youth”概念?可能吧。除了最后一個單詞,所有單詞都是代表人。我添加了一個對象“water”來顯示類別之間的差異。你可以看到藍色列一直向下并在“water”的詞嵌入之前停下了。Word2Vec實現(xiàn)Word2Vec實現(xiàn):由“king-man+woman”生成的向量并不完全等同于“queen”,但“queen”是我們在此集合中包含的400,000個字嵌入中最接近它的單詞。Word2Vec實現(xiàn)語言模型:自然語言處理最典型的例子,那應該就是智能手機輸入法中的下一單詞預測功能。這是個被數(shù)十億人每天使用上百次的功能。我們可以認為該模型接收到兩個綠色單詞(我打)并推薦了一組單詞(“電話”就是其中最有可能被選用的一個):word2vec模型我打?Inputfeature1Inputfeature2Outputlabelword2vec模型:word2vec模型其實就是簡單化的神經(jīng)網(wǎng)絡。它對所有它知道的單詞(模型的詞庫,可能有幾千到幾百萬個單詞)的按可能性打分,輸入法程序會選出其中分數(shù)最高的推薦給用戶。自然語言模型的輸出就是模型所知單詞的概率評分,我們通常把概率按百分比表示,但是實際上,40%這樣的分數(shù)在輸出向量組是表示為0.4word2vec模型TrainedLanguageModelTask:PredictthenextwordInputfeatureOutputpredict我打電話TrainedLanguageModelTask:PredictthenextwordInputfeatureOutputpredict我打電話40%王者10%排位2%算0.5%word2vec模型:模型是一個簡化的神經(jīng)網(wǎng)絡input:詞向量權(quán)重網(wǎng)絡上下文的-隱藏層Softmax層word2vec模型word2vec模型:對于句子“IlikedeeplearningandNLP”,我們基于這個句子,可以構(gòu)建一個大小為6的詞匯表,假設我們使用300個特征去表示一個單詞。記上面的權(quán)重矩陣為w(6,300),有獨熱碼wt表示矩陣為(300,1)wt×w兩個矩陣相乘,隱層神經(jīng)網(wǎng)絡輸出的是一個d×1維矩陣word2vec模型word2vec模型:對于句子“IlikedeeplearningandNLP”,我們基于這個句子,可以構(gòu)建一個大小為6的詞匯表,假設我們使用300個特征去表示一個單詞。記上面的權(quán)重矩陣為w(6,300),有獨熱碼wt表示矩陣為(300,1)wt×w兩個矩陣相乘,隱層神經(jīng)網(wǎng)絡輸出的是一個d×1維矩陣word2vec模型模型數(shù)據(jù):先是獲取大量文本數(shù)據(jù)(例如所有維基百科內(nèi)容)然后我們建立一個可以沿文本滑動的窗(例如一個窗里包含三個單詞)利用這樣的滑動窗就能為訓練模型生成大量樣本數(shù)據(jù)word2vec模型數(shù)據(jù)模型數(shù)據(jù):前兩個單詞單做特征,第三個單詞單做標簽:生產(chǎn)了數(shù)據(jù)集中的第一個樣本窗口滑動到下一個位置并生產(chǎn)第二個樣本word2vec模型數(shù)據(jù)模型數(shù)據(jù):所有數(shù)據(jù)集上全部滑動后,我們得到一個較大的數(shù)據(jù)集word2vec模型數(shù)據(jù)不同模型對比CBOW和Skip-gramword2vec模型數(shù)據(jù)不同模型對比CBOW和Skip-gramword2vec模型數(shù)據(jù)Skip-gram模型所需訓練數(shù)據(jù)集CBOW和Skip-gramword2vec模型數(shù)據(jù)Skip-gram模型所需訓練數(shù)據(jù)集CBOW和Skip-gramword2vec模型數(shù)據(jù)如何訓練數(shù)據(jù)
如word2Vec訓練模型如何訓練數(shù)據(jù)
如果一個語料庫稍微大一些,可能的結(jié)果簡直太多了,最后一層相當于softmax,計算起來十分耗時,有什么辦法來解決嘛?輸入兩個單詞,看他們是不是前后對應的輸入和輸出,也就相當于一個二分類任務word2Vec訓練模型如何訓練數(shù)據(jù)出發(fā)點非常好,但是此時訓練集構(gòu)建出來的標簽全為1,無法進行較好的訓練word2Vec訓練模型如何訓練數(shù)據(jù)改進方案:加入一些負樣本(負采樣模型)word2Vec訓練模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 出資固定收益合同標準文本
- 個人之間房屋合伙合同標準文本
- 度節(jié)能設備采購合同
- 創(chuàng)新創(chuàng)業(yè)水果項目
- 2013合同能源合同標準文本
- 書版合同標準文本
- 公司合同標準文本備案查詢
- 浙江省商品房買賣合同(旅游度假型公寓)
- 借款仲裁合同標準文本
- 上海電氣合同標準文本
- 換電式重卡換電站:消防安全設計規(guī)范
- 音樂產(chǎn)業(yè)與行業(yè)分析
- 人教版小學六年級下冊美術(shù)教案全冊
- 不規(guī)則圖形的周長課件
- 海馬藥材培訓課件
- 《林業(yè)小班區(qū)劃》課件
- 搏擊俱樂部可行性方案
- VTE預防與風險評估
- 國談藥雙通道落地存在的問題及對策建議
- 外貿(mào)跨境電商與報關技術(shù)培訓教材
- 《護理心理學》實訓教學大綱全套
評論
0/150
提交評論