人工智能導(dǎo)論-第四課自然語(yǔ)言處理_第1頁(yè)
人工智能導(dǎo)論-第四課自然語(yǔ)言處理_第2頁(yè)
人工智能導(dǎo)論-第四課自然語(yǔ)言處理_第3頁(yè)
人工智能導(dǎo)論-第四課自然語(yǔ)言處理_第4頁(yè)
人工智能導(dǎo)論-第四課自然語(yǔ)言處理_第5頁(yè)
已閱讀5頁(yè),還剩44頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)前饋網(wǎng)絡(luò)2卷積神經(jīng)網(wǎng)絡(luò)三個(gè)核心局部感受域每個(gè)隱層節(jié)點(diǎn)(神經(jīng)元)只連接到圖像某個(gè)足夠小局部的像素點(diǎn)上3卷積神經(jīng)網(wǎng)絡(luò)三個(gè)核心局部感受域每個(gè)隱層節(jié)點(diǎn)只連接到圖像某個(gè)足夠小局部的像素點(diǎn)上權(quán)值共享同一個(gè)卷積核內(nèi),所有的神經(jīng)元的權(quán)值是相同的4卷積神經(jīng)網(wǎng)絡(luò)三個(gè)核心局部感受域每個(gè)隱層節(jié)點(diǎn)只連接到圖像某個(gè)足夠小局部的像素點(diǎn)上權(quán)值共享同一個(gè)卷積核內(nèi),所有的神經(jīng)元的權(quán)值是相同的池化卷積神經(jīng)網(wǎng)絡(luò)沒(méi)有必要對(duì)原圖像做處理,可以使用池化“壓縮”方法5卷積神經(jīng)網(wǎng)絡(luò)卷積過(guò)程舉個(gè)栗子6卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程以船的識(shí)別為例輸入圖像=船,目標(biāo)矢量=[0,0,1,0]1.使用隨機(jī)值設(shè)置參數(shù)/權(quán)重,初始化濾波器2.接收訓(xùn)練圖像作為輸入,前向傳播計(jì)算各類(lèi)的輸出概率3.計(jì)算輸出層總誤差4.使用反向傳播算法,計(jì)算網(wǎng)絡(luò)權(quán)重誤差梯度,使用梯度下降算法更新濾波器值/權(quán)重以及參數(shù)值,使輸出誤差最小化5.對(duì)訓(xùn)練數(shù)據(jù)重復(fù)步驟1~47卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程反向傳播過(guò)程從高層到底層,逐層進(jìn)行分析多層感知器層使用多層感知器的參數(shù)估計(jì)方法,得到最低一個(gè)隱層S的殘差向量δs將殘差傳播到光柵化層

R,光柵化的時(shí)候并沒(méi)有對(duì)向量的值做修改,因此其激活函數(shù)為恒等函數(shù),其導(dǎo)數(shù)為單位向量。8卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程反向傳播過(guò)程從高層到底層,逐層進(jìn)行分析光柵化層從上一層傳過(guò)來(lái)的殘差為重新整理成為一系列矩陣即可,若上一層Q有q個(gè)池化核,則傳播到池化層的殘差為9卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程反向傳播過(guò)程從高層到底層,逐層進(jìn)行分析池化層應(yīng)池化過(guò)程中常用的兩種池化方案,反傳殘差的時(shí)候也有兩種上采樣方案最大池化:將1個(gè)點(diǎn)的殘差直接拷貝到4個(gè)點(diǎn)。均值池化:將1個(gè)點(diǎn)的殘差平均到4個(gè)點(diǎn)。傳播到卷積層的殘差為10卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程反向傳播過(guò)程從高層到底層,逐層進(jìn)行分析卷積層卷積層有參數(shù),所以卷積層的反傳過(guò)程需要更新權(quán)值,并反傳殘差。先考慮權(quán)值更新,考慮卷積層某個(gè)“神經(jīng)中樞”中的第一個(gè)神經(jīng)元多層感知器的梯度公式11卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程反向傳播過(guò)程從高層到底層,逐層進(jìn)行分析卷積層僅考慮對(duì)θ11的偏導(dǎo)數(shù)對(duì)卷積層P中的某個(gè)“神經(jīng)中樞”p,權(quán)值更新公式為12卷積神經(jīng)網(wǎng)絡(luò)卷積網(wǎng)絡(luò)訓(xùn)練過(guò)程反向傳播過(guò)程從高層到底層,逐層進(jìn)行分析卷積層考慮殘差反傳考慮淡藍(lán)色像素點(diǎn)影響到的神經(jīng)元如果前邊的池化層Q′的某個(gè)特征圖q′連接到這個(gè)卷積層P中的某“神經(jīng)中樞”集合C,那么傳播到q′的殘差為13卷積神經(jīng)網(wǎng)絡(luò)卷積圖像應(yīng)用同一化核(Identity)邊緣檢測(cè)核(EdgeDetection)圖像銳化核(SharpnessFilter)均值模糊(BoxBlur/Averaging)14傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不考慮歷史數(shù)據(jù)歷史可以幫助我們推測(cè)未來(lái),不可輕易拋棄。15遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)“書(shū)讀百遍,其義自見(jiàn)”研究表示,在大腦皮層中局部回路的基本連接可以通過(guò)一系列的互聯(lián)規(guī)則所捕獲,而且這些規(guī)則在大腦皮層中處于不斷循環(huán)之中。模擬人腦利用歷史信息來(lái)做決策兩種不同神經(jīng)網(wǎng)絡(luò)的縮寫(xiě)。時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork)結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork)RNN由Hopfield網(wǎng)絡(luò)啟發(fā)變種而來(lái),最早被應(yīng)用于NLP,是深度學(xué)習(xí)的三大模型之一16遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò)表現(xiàn)形式有循環(huán)結(jié)構(gòu),使得過(guò)去輸出的信息作為記憶而被保留下來(lái),并可應(yīng)用于當(dāng)前輸出的計(jì)算中。RNN的同一隱層之間的節(jié)點(diǎn)是有連接的。17遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)ElmanRNN網(wǎng)絡(luò)結(jié)構(gòu)和符號(hào)形式化定義18遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)RNN網(wǎng)絡(luò)訓(xùn)練算法時(shí)間反向傳播(BackPropagationThroughTime,簡(jiǎn)稱(chēng)BPTT)問(wèn)題建模確定隱層和輸出層的輸出函數(shù)假設(shè)隱層用激活函數(shù)sigmoid,在任意第t時(shí)間步,隱層的輸出s(t)可表示為:在第t時(shí)間步的輸出層o(t)可表示為:RNN網(wǎng)絡(luò)訓(xùn)練算法問(wèn)題建模對(duì)于分類(lèi)模型,輸出層還要利用softmax激活函數(shù)做歸一化處理,將一個(gè)m維的向量壓縮為一個(gè)m維的實(shí)數(shù)向量,最終輸出形式為:優(yōu)化目標(biāo)函數(shù)構(gòu)建損失函數(shù),設(shè)法求損失函數(shù)最小值,形成優(yōu)化目標(biāo)函數(shù)J(θ)19遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)RNN網(wǎng)絡(luò)訓(xùn)練算法參數(shù)求解和傳統(tǒng)BP反向傳播算法一樣,BPTT算法的核心也是求解參數(shù)的導(dǎo)數(shù)利用隨機(jī)梯度下降等優(yōu)化策略,來(lái)指導(dǎo)網(wǎng)絡(luò)參數(shù)的更新RNN常采用的激活函數(shù)是sigmoid,其導(dǎo)數(shù)值域鎖定在[0,1/4]范圍,隨著傳遞時(shí)間步數(shù)的不斷增加,梯度會(huì)呈現(xiàn)指數(shù)級(jí)遞減趨勢(shì)20遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)RNN網(wǎng)絡(luò)問(wèn)題原始RNN隱層中的神經(jīng)元只有一個(gè)狀態(tài),記為h,它對(duì)短期輸入非常敏感“天空中飛來(lái)一只__”“我在中國(guó)北京長(zhǎng)大,我兄弟5人,我哥叫牛A,我還有三個(gè)弟弟分別叫牛C、牛D和牛F,我排名老二,因此大家都叫我牛B,我們都能說(shuō)一口流利的__”。21遞歸(循環(huán))神經(jīng)網(wǎng)絡(luò)(RNN)核心本質(zhì)通過(guò)引入巧妙的可控自循環(huán),以產(chǎn)生讓梯度能夠得以長(zhǎng)時(shí)間可持續(xù)流動(dòng)的路徑。網(wǎng)絡(luò)結(jié)構(gòu)在原有神經(jīng)元的基礎(chǔ)上再增加一個(gè)狀態(tài),即c,讓它“合理地”保存長(zhǎng)期的狀態(tài)。新增加的狀態(tài)c,稱(chēng)為記憶單元態(tài)(cellstate),亦稱(chēng)為“記憶塊(memoryblock)”,用以取代傳統(tǒng)的隱含神經(jīng)元節(jié)點(diǎn)。它負(fù)責(zé)把記憶信息從序列的初始位置,傳遞到序列的末端。22長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)長(zhǎng)期狀態(tài)c控制機(jī)制設(shè)計(jì)3把控制門(mén)開(kāi)關(guān)(gate)打造一個(gè)可控記憶神經(jīng)元23長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)前向計(jì)算“門(mén)開(kāi)關(guān)”實(shí)際上是一個(gè)全連接網(wǎng)絡(luò)層,它的輸入是一個(gè)復(fù)雜的矩陣向量,輸出是一個(gè)0到1之間的實(shí)數(shù)向量。LSTM通過(guò)調(diào)控某些全連接層網(wǎng)絡(luò)參數(shù),來(lái)達(dá)到調(diào)控輸出的目的。如果輸出可控,那么“門(mén)”的開(kāi)和關(guān)就可以模擬出來(lái)。假設(shè)W是門(mén)的權(quán)重向量,b為偏置向量,“門(mén)”可表示為:24長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)前向計(jì)算遺忘門(mén)目的在于控制從前面的記憶中,丟棄多少信息,或者說(shuō)要繼承過(guò)往多大程度的記憶??赏ㄟ^(guò)如下公式的激活函數(shù)來(lái)實(shí)現(xiàn)遺忘門(mén)前一隱層的輸出st?1

與當(dāng)前的輸入xt的線性組合,然后利用激活函數(shù),將其輸出值壓縮到0到1的區(qū)間之內(nèi)。當(dāng)輸出值越靠近1,表明記憶體(cellblock)保留的信息就越多;反之,越靠近0,表明保留的就越少。25長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)前向計(jì)算輸入門(mén)目的在于決定了當(dāng)前時(shí)刻的輸入信息xt,以多大程度添加至記憶信息流中??赏ㄟ^(guò)如下公式的激活函數(shù)來(lái)實(shí)現(xiàn)26長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)前向計(jì)算候選門(mén)目的在于計(jì)算當(dāng)前輸入的單元狀態(tài)。可通過(guò)如下所示的激活函數(shù)來(lái)實(shí)現(xiàn)。27長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)前向計(jì)算記憶更新通過(guò)遺忘門(mén)過(guò)濾掉不想保留得部分記憶,大小可記為:ft×Ct?1添加當(dāng)前新增的信息,添加的比例由輸入門(mén)控制,大小可記為:it×C′t然后將這兩個(gè)部分線性組合,得到更新后的記憶信息Ct28長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)前向計(jì)算輸出門(mén)作用在于控制有多少記憶可以用于下一層網(wǎng)絡(luò)的更新中??赏ㄟ^(guò)如下公式的激活函數(shù)來(lái)實(shí)現(xiàn)此外,用激活函數(shù)tanh把記憶值變換一下,將其變換為-1至+1之間的數(shù)。負(fù)值區(qū)間表示不但不能輸出,還得壓制一點(diǎn),正數(shù)區(qū)間表示合理的輸出。最終輸出門(mén)的公式為29長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)LSTM訓(xùn)練反向傳播算法前向計(jì)算每個(gè)神經(jīng)元的輸出值確定優(yōu)化目標(biāo)函數(shù)根據(jù)損失函數(shù)的梯度指引,更新網(wǎng)絡(luò)權(quán)值參數(shù)30長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)自然語(yǔ)言處理32自然語(yǔ)言處理詞的表示計(jì)算機(jī)表示詞的意思通常使用語(yǔ)義詞典,包含有上位詞(is-a)關(guān)系和同義詞集33自然語(yǔ)言處理詞的表示語(yǔ)義詞典存在的問(wèn)題可能在一些細(xì)微之處有缺失,例如這些同義詞準(zhǔn)確嗎:adept,expert,good,practiced,proficient,skillful?會(huì)錯(cuò)過(guò)一些新詞,幾乎不可能做到及時(shí)更新:wicked,badass,nifty,crack,ace,wizard,genius,ninjia有一定的主觀傾向需要大量的人力物力很難用來(lái)計(jì)算兩個(gè)詞語(yǔ)的相似度34自然語(yǔ)言處理詞向量one-hotrepresentation最簡(jiǎn)單的詞向量方式舉個(gè)栗子“話筒”表示為[000

1

000000000000…]

“麥克”表示為[00000000

1

0000000…]無(wú)法對(duì)詞向量做比較,任意兩個(gè)詞之間都是孤立的35自然語(yǔ)言處理詞向量使用上下文來(lái)表示單詞使用共現(xiàn)矩陣(Cooccurrencematrix)一個(gè)基于窗口的共現(xiàn)矩陣?yán)哟翱陂L(zhǎng)度是1(一般是5-10)語(yǔ)料樣例Ilikedeeplearning.IlikeNLP.Ienjoyflying36自然語(yǔ)言處理詞向量共現(xiàn)矩陣存在的問(wèn)題規(guī)模隨著語(yǔ)料庫(kù)詞匯的增加而增加非常高的維度,需要大量的存儲(chǔ)分類(lèi)模型會(huì)遇到稀疏問(wèn)題模型不夠健壯解決方案:低維向量將最重要的信息存儲(chǔ)在固定的,低維度的向量里:密集向量(densevector)SVD(奇異值分解)直接學(xué)習(xí)低維度的詞向量37自然語(yǔ)言處理詞向量SVD(奇異值分解)38自然語(yǔ)言處理詞向量有趣的語(yǔ)義模式39自然語(yǔ)言處理詞向量Distributedrepresentation直接學(xué)習(xí)低維度的詞向量通過(guò)訓(xùn)練將某種語(yǔ)言中的每一個(gè)詞映射成一個(gè)固定長(zhǎng)度的短向量(當(dāng)然這里的“短”是相對(duì)于one-hotrepresentation的“長(zhǎng)”而言的),將所有這些向量放在一起形成一個(gè)詞向量空間,而每一向量則可視為該空間中的一個(gè)點(diǎn),在這個(gè)空間上引入“距離”,則可以根據(jù)詞之間的距離來(lái)判斷它們之間的(詞法、語(yǔ)義上的)相似性了。Word2vec與一般的共現(xiàn)計(jì)數(shù)不同,主要預(yù)測(cè)單詞周邊的單詞預(yù)測(cè)一個(gè)窗口長(zhǎng)度為c的窗口內(nèi)每個(gè)單詞的周邊單詞概率目標(biāo)函數(shù):對(duì)于一個(gè)中心詞,最大化周邊任意單詞的log概率40自然語(yǔ)言處理詞向量Distributedrepresentationword2vec中存在的線性關(guān)系可以很好的對(duì)詞語(yǔ)相似度進(jìn)行編碼,在嵌入空間里相似度的維度可以用向量的減法來(lái)進(jìn)行類(lèi)別測(cè)試41自然語(yǔ)言處理語(yǔ)言模型“其實(shí)就是看一句話是不是正常人說(shuō)出來(lái)的”語(yǔ)言模型形式化的描述就是給定一個(gè)字符串,看它是自然語(yǔ)言的概率P(w1,w2,…,wt),w1

到wt

依次表示這句話中的各個(gè)詞。P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt?1)常用的語(yǔ)言模型都是在近似地求P(wt|w1,w2,…,wt?1),比如n-gram模型就是用P(wt|wt?n+1,…,wt?1)近似表示前者。42自然語(yǔ)言處理訓(xùn)練語(yǔ)言模型經(jīng)典之作Bengio等人在2001年發(fā)表在NIPS上的文章《ANeuralProbabilisticLanguageModel》用三層神經(jīng)網(wǎng)絡(luò)構(gòu)建語(yǔ)言模型,同樣也是n-gram模型43自然語(yǔ)言處理詞向量評(píng)價(jià)詞向量的評(píng)價(jià)大體上可以分成兩種方式第一種是把詞向量融入現(xiàn)有系統(tǒng)中,看對(duì)系統(tǒng)性能的提升;第二種是直接從語(yǔ)言學(xué)的角度對(duì)詞向量進(jìn)行分析,如相似度、語(yǔ)義偏移等提升現(xiàn)有系統(tǒng)直接用于神經(jīng)網(wǎng)絡(luò)模型的輸入層將訓(xùn)練好的詞向量作為輸入,用前饋網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)完成了詞性標(biāo)注、語(yǔ)義角色標(biāo)注等一系列任務(wù)將詞向量作為輸入,用遞歸神經(jīng)網(wǎng)絡(luò)完成了句法分析、情感分析等多項(xiàng)任務(wù)。作為輔助特征擴(kuò)充現(xiàn)有模型將詞向量作為額外的特征來(lái)進(jìn)一步提高命名實(shí)體識(shí)別和短語(yǔ)識(shí)別的效果44DL+NLP應(yīng)用文本分類(lèi)CNN網(wǎng)絡(luò)(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論