




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、高級(jí)大數(shù)據(jù)人才培養(yǎng)之一,大數(shù)據(jù)挖掘技術(shù)與應(yīng)用深度學(xué)習(xí)BIG DATA張 燕總主編主編趙海峰副主編 全國高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用第九章深度學(xué)習(xí)在文本中的應(yīng)用概述9.1 1自然語言處理基礎(chǔ)9.2 2基于深度學(xué)習(xí)的文本處理9.3 3應(yīng)用舉例:機(jī)器翻譯2 of 379.4 4應(yīng)用舉例:聊器人習(xí)題概述第四章 深度學(xué)習(xí)基本過程自然語言處理(Natural Language Processing,簡稱NLP)需要兼顧到不同平面的知識(shí):u 詞匯學(xué),描述詞匯系統(tǒng)的規(guī)定說明單詞本身固有的語義特性和語法特性;u 句法學(xué),根據(jù)單詞和詞組之間的結(jié)構(gòu)規(guī)則說明單詞和詞組怎樣形成句子;u 語義學(xué)
2、,描述句子中各個(gè)成分之間的語義關(guān)系,這樣的語義關(guān)系是與情境是無關(guān)的;u 語用學(xué),描述與情境有關(guān)的情景語義,說明怎樣推導(dǎo)出句子具有的與周圍話語有關(guān)的各種涵義。3 of 37每個(gè)層面具備自身的特點(diǎn):詞匯學(xué)主要描述具體的單詞的構(gòu)成成份,如語素、屈折變化形式等;句法學(xué)涉 及的是詞和詞組怎樣組成句子的知識(shí);語義學(xué)指的是給句子指派意義;語用學(xué)則涉及在對話中話語焦點(diǎn)的 轉(zhuǎn)移以及在給定的上下文中解釋句子的含義。 全國高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用第九章深度學(xué)習(xí)在文本中的應(yīng)用概述9.1 1自然語言處理基礎(chǔ)9.2 2基于深度學(xué)習(xí)的文本處理9.3 3應(yīng)用舉例:機(jī)器翻譯4 of 379.4 4
3、應(yīng)用舉例:聊器人習(xí)題9.1 1自然語言處理基礎(chǔ)9.1.1. 正則表達(dá)式和自動(dòng)機(jī)第四章 深度學(xué)習(xí)基本過程5 of 37u 正則表達(dá)式(regular expression,簡稱RE)是字符文本序列的標(biāo)準(zhǔn)記錄方式,是一種用于描述文本搜索符號(hào)串的語言,廣泛應(yīng)用于各類信息檢索中。u 有限狀態(tài)自動(dòng)機(jī)(finite-state automaton,簡稱FSA)能夠而且只能夠生成或識(shí)別滿足形式語言定義所要求的形式語言的字符串。u 示例,五個(gè)狀態(tài):節(jié)點(diǎn)0是初始狀態(tài)(start state),節(jié)點(diǎn)4是最后狀態(tài)(final state),用雙圓圈表示,另外還有4個(gè)轉(zhuǎn)移(transition),用箭頭線表示。6 o
4、f 379 . 1自然語言處理基礎(chǔ)第四章 深度學(xué)習(xí)基本過程9.1.2. 句法處理u 句法(syntax)是指把單詞和詞組安排在一起怎樣形成句子的方法。u 單詞是語言處理的單元,句法是骨架,句法研究單詞之間的形式關(guān)系。u 單詞可以類聚為詞類(part-of-speech),或者與相鄰的單詞組合成短語。Peter gave the book to Ana.(彼得把這本書給了安娜。)The book was given to Ana by Peter.(這本書被彼得給了安娜。)句子的結(jié)構(gòu)并不反映句子的意義,相同的句法結(jié)構(gòu),在不同的環(huán)境下,具有不同的意義。9 . 1自然語言處理基礎(chǔ)第四章 深度學(xué)習(xí)基本
5、過程9.1.3. 詞類和詞類標(biāo)注u 詞類又稱為POS(Part-of-Speech)能夠提供關(guān)于單詞及其鄰近成分的信息。u 詞類標(biāo)注(Part-of-Speech tagging或POS tagging ),簡稱標(biāo)注,指給語料庫中的單詞指派詞類標(biāo)記的過程。這些標(biāo)記也用來標(biāo)注標(biāo)點(diǎn)符號(hào),因此自然語言的標(biāo)注過程與計(jì)算機(jī)語言的詞例還原(tokenization)過程是一樣的。u 英語詞類標(biāo)注中的常用標(biāo)記集: Penn Treebank的標(biāo)記集包含45個(gè)標(biāo)記,是小標(biāo)記集; CLAWS(the Constituent Likelihood Automatic Word-tagging System)使用的
6、標(biāo)記集C5 包含61個(gè)標(biāo)記,是中型的標(biāo)記集,用于標(biāo)注英國國家語料庫(the British National Corpus, 簡稱BNC);7 of 37 第三個(gè)標(biāo)記集是包含146個(gè)標(biāo)記的大型標(biāo)記集C7。8 of 379 . 1自然語言處理基礎(chǔ)第四章 深度學(xué)習(xí)基本過程9.1.4. 上下文無關(guān)語法u 上下文無關(guān)語法(Context-Free Grammar,簡稱CFG),上下文無關(guān)語法又稱為短語結(jié)構(gòu)語法(Phrase-Structure Grammar),由規(guī)則(rule)以及詞表(lexicon)構(gòu)成。u Chomsky層次語法理論:9 . 1自然語言處理基礎(chǔ)第四章 深度學(xué)習(xí)基本過程9.1.5
7、. 淺層句法分析u 淺層語法分析(shallow parsing)也稱為局部語法分析(partial parsing),處理層次可分為: 詞 短語 句子u 常見的淺層語法分析主要有兩類: 基于統(tǒng)計(jì) 基于規(guī)則9 of 37u 基于規(guī)則的方法就是根據(jù)人工書寫的或半自動(dòng)獲取的語法規(guī)則標(biāo)注出短語的邊界和短語的類型。規(guī)則 的使用相對簡單,但是規(guī)則的獲取卻比較困難。10 of 379 . 1自然語言處理基礎(chǔ)第四章 深度學(xué)習(xí)基本過程9.1.6. 語義分析u 判斷一句話的意思要分兩步來進(jìn)行: 首先,計(jì)算出它上下文無關(guān)的標(biāo)記形式,稱之為邏輯形式(logical form); 然后,在上下文中對邏輯形式進(jìn)行解釋,
8、生成最終的意義表示。u 對上下文無關(guān)意義的研究稱為語義學(xué)。u 對上下文相關(guān)語言的研究稱為語用學(xué)。11 of 379 . 1自然語言處理基礎(chǔ)第四章 深度學(xué)習(xí)基本過程9.1.7. 語義網(wǎng)絡(luò)u 語義網(wǎng)絡(luò)是一種詞法知識(shí)的表示方法,由帶標(biāo)記的鏈和帶標(biāo)記的節(jié)點(diǎn)組成的圖。u 節(jié)點(diǎn)表示詞義,鏈表示節(jié)點(diǎn)之間的語義關(guān)系。u 典型詞匯關(guān)系信息庫有: WordNet ConceptNet FrameNet 全國高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用第九章深度學(xué)習(xí)在文本中的應(yīng)用概述9.1 1自然語言處理基礎(chǔ)9.2 2基于深度學(xué)習(xí)的文本處理9.3 3應(yīng)用舉例:機(jī)器翻譯12 of 379.4 4應(yīng)用舉例:聊
9、器人習(xí)題13 of 379.2 2基于深度學(xué)習(xí)的文本處理第四章 深度學(xué)習(xí)基本過程9.2.1. 詞匯向量化表示u 使用神經(jīng)網(wǎng)絡(luò)的方法自動(dòng)學(xué)習(xí)詞匯的向量化表示,其基本原則是:一個(gè)詞包含的意義應(yīng)該由該詞周圍 的詞決定。9 . 2基于深度學(xué)習(xí)的文本處理第四章 深度學(xué)習(xí)基本過程9.2.2. 句法分析u 使用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)可以實(shí)現(xiàn)對樹型結(jié)構(gòu)的預(yù)測。u 遞歸神經(jīng)網(wǎng)絡(luò)的輸入層有兩部分: 左子節(jié)點(diǎn)的向量表示; 右子節(jié)點(diǎn)的向量表示。u 兩個(gè)子節(jié)點(diǎn)的向量表示通過神經(jīng)網(wǎng)絡(luò)后生成父節(jié)點(diǎn)的向量表示,同時(shí)生成一個(gè)打分,表示父節(jié)點(diǎn)的可信度。u 父節(jié)點(diǎn)的向量表示又可以與
10、其他子節(jié)點(diǎn)組合形成更大的父節(jié)點(diǎn)。14 of 37u 依次遞歸,從而形成一棵完整的句法分析樹。15 of 379 . 2基于深度學(xué)習(xí)的文本處理第四章 深度學(xué)習(xí)基本過程9.2.3. 神經(jīng)機(jī)器翻譯遞歸自動(dòng)編碼的神經(jīng)網(wǎng)絡(luò)用于學(xué)習(xí)雙語的片段向量化表示,使用交互優(yōu)化的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò):u 首先,固定目標(biāo)語言片段的向量表示;u 然后,以該向量表示為優(yōu)化目標(biāo),優(yōu)化源語言的神經(jīng)網(wǎng)絡(luò);u 最后,固定源語言片段的向量表示,優(yōu)化目標(biāo)語言的神經(jīng)網(wǎng)絡(luò)。雙語約束得到的片段表示應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯的概率估計(jì)中,取得了顯著的效果。16 of 379 . 2基于深度學(xué)習(xí)的文本處理第四章 深度學(xué)習(xí)基本過程9.2.4. 情感分析u 理
11、解人類情感是人工智能的目標(biāo),深度學(xué)習(xí)可用來判斷情感類別及強(qiáng)度。u 為處理情感分析問題中語義合成的問題(如“不是很喜歡”與“喜歡”的情感極性相反),利用自然語言的遞歸性質(zhì)與語義的可合,句子的情感語義進(jìn)行建模。u 半監(jiān)督遞歸自動(dòng)編碼模型在由詞向量構(gòu)建短語向量表示時(shí),可以更多地保留情感信息。u 句法分析樹用來決定語義合成的順序,以此替代遞歸自動(dòng)編碼模型中通過貪心搜索損失最小的遞歸結(jié)構(gòu)。u 將每個(gè)詞的情感語義操作信息嵌入到詞向量中,進(jìn)而用來選擇不同的語義合成函數(shù)。 全國高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用第九章深度學(xué)習(xí)在文本中的應(yīng)用概述9.1 自然語言處理基礎(chǔ)9.2 2基于深度學(xué)習(xí)的
12、文本處理9.3 3應(yīng)用舉例:機(jī)器翻譯17 of 379.4 4應(yīng)用舉例:聊器人習(xí)題9 . 3應(yīng)用舉例: 機(jī)器翻譯第四章 深度學(xué)習(xí)基本過程基于理性主義的機(jī)器翻譯方法u 主張:由人類專家通過編纂規(guī)則的方式,將自然語言之間的轉(zhuǎn)換規(guī)律“傳授”給計(jì)算機(jī)。u 主要優(yōu)點(diǎn)是: 能夠顯式描述深層次的語言轉(zhuǎn)換規(guī)律。u 主要缺點(diǎn)是: 對于人的要求非常高,通曉源語言和目標(biāo)語言,熟悉待翻譯文本領(lǐng)域背景知識(shí),還需熟練掌握相關(guān)計(jì)算機(jī)操作技能。 使得研制系統(tǒng)的人工成本高、開發(fā)周期長,面向小語種開發(fā)垂直領(lǐng)域的機(jī)器翻譯因人才稀缺而變得極其困難。18 of 37 當(dāng)翻譯規(guī)則庫達(dá)到一定的規(guī)模后,如何確保新增的規(guī)則與已有規(guī)則不沖突也是
13、非常大的挑戰(zhàn)。 錯(cuò)誤傳播。9 . 3應(yīng)用舉例: 機(jī)器翻譯第四章 深度學(xué)習(xí)基本過程基于經(jīng)驗(yàn)主義的機(jī)器翻譯方法u 主張:計(jì)算機(jī)自動(dòng)從大規(guī)模數(shù)據(jù)中“學(xué)習(xí)”自然語言之間的轉(zhuǎn)換規(guī)律。u 主要優(yōu)點(diǎn)是: 人工成本低; 開發(fā)周期短。u 主要缺點(diǎn)是: 線性不可分; 缺乏合適的語義表示; 難以設(shè)計(jì)特征; 難以充分利用非局部上下文;19 of 37 數(shù)據(jù)稀疏;20 of 379.3 3應(yīng)用舉例: 機(jī)器翻譯第四章 深度學(xué)習(xí)基本過程基于深度學(xué)習(xí)的方法大致可以分為兩類方法。u 利用深度學(xué)習(xí)改進(jìn)統(tǒng)計(jì)機(jī)器翻譯:仍以統(tǒng)計(jì)機(jī)器翻譯為主體框架,利用深度學(xué)習(xí)改進(jìn)其中的關(guān)鍵模塊。u 端到端神經(jīng)機(jī)器翻譯:一種全新的方法體系,直接利用神經(jīng)
14、網(wǎng)絡(luò)實(shí)現(xiàn)源語言文本到目標(biāo)語言文本的映射。21 of 379 . 3應(yīng)用舉例: 機(jī)器翻譯第四章 深度學(xué)習(xí)基本過程深度學(xué)習(xí)改進(jìn)統(tǒng)計(jì)機(jī)器翻譯u 核心思想是以統(tǒng)計(jì)機(jī)器翻譯為主體,使用深度學(xué)習(xí)改進(jìn)其中的關(guān)鍵模塊,如語言模型、翻譯模型、調(diào)序模型、詞語對齊等。u 優(yōu)點(diǎn): 能夠幫助機(jī)器翻譯緩解數(shù)據(jù)稀疏問題。 能夠解決特征難以設(shè)計(jì)的問題。22 of 379 . 3應(yīng)用舉例: 機(jī)器翻譯第四章 深度學(xué)習(xí)基本過程端到端神經(jīng)機(jī)器翻譯u 基本思想是使用神經(jīng)網(wǎng)絡(luò)直接將源語言文本映射成目標(biāo)語言文本,直接采用神經(jīng)網(wǎng)絡(luò)以端到端方式進(jìn)行翻譯建模的機(jī)器翻譯方法。u 優(yōu)點(diǎn): 不再需要人工設(shè)計(jì)的詞語對齊、短語切分、句法樹等隱結(jié)構(gòu); 不再
15、需要人工設(shè)計(jì)特征,僅使用非線性的神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)文本的轉(zhuǎn)換。23 of 379 . 3應(yīng)用舉例: 機(jī)器翻譯第四章 深度學(xué)習(xí)基本過程循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)翻譯u 兩個(gè)RNNs首尾相連,第一個(gè)RNN給句子生成編碼,第二RNN遵循相反的邏輯,解碼得到目標(biāo)語言,就可以將一序列源語言轉(zhuǎn)換成同樣的目標(biāo)語言序列。u 神經(jīng)機(jī)器翻譯的翻譯性能取得了突破,超過了發(fā)展多年的傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯。 全國高校標(biāo)準(zhǔn)教材云計(jì)算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用第九章深度學(xué)習(xí)在文本中的應(yīng)用概述9.1 1自然語言處理基礎(chǔ)9.2 2基于深度學(xué)習(xí)的文本處理9.3 3應(yīng)用舉例:機(jī)器翻譯24 of 379.4 4應(yīng)用舉例:聊器人習(xí)題25 of
16、 379.4 4應(yīng)用舉例: 聊器人第四章 深度學(xué)習(xí)基本過程9.4.1. 聊器人的主要功能模塊u 語音識(shí)別模塊;u 自然語言處理模塊;u 對話管理模塊。26 of 659 . 4應(yīng)用舉例: 聊器人第四章 深度學(xué)習(xí)基本過程9.4.2. 主要的技術(shù)挑戰(zhàn)u 對話上下文建模:對話的過程是一個(gè)在特定背景下的連續(xù)交互過程,一句話的意義往往要結(jié)合上下文或者背景才能確定。而現(xiàn)有的自然語言處理的技術(shù)主要還是基于上下文無關(guān)假設(shè),因此對上下文的建模成為亟待解決的問題。u 對話過程中的知識(shí)表示:知識(shí)表示是人工智能研究的重要基礎(chǔ),也是聊 器 量提升的重要前提,涉及到眾多復(fù)雜的因素,只有全面地描述這些因素的含義和關(guān)系,才能
17、實(shí)現(xiàn)真正的人機(jī)交流。27 of 379 . 4應(yīng)用舉例: 聊器人第四章 深度學(xué)習(xí)基本過程9.4.3. 深度學(xué)習(xí)構(gòu)建智能聊器人u 大多采用Encoder-Decoder框架,主要用于文本處理的研究,比如:機(jī)器翻譯、文本摘要、句法分析。u 一般采用RNN模型,因?yàn)镽NN模型對于線性序列的字符串來說是比較有效的深度學(xué)習(xí)模型,RNN的改進(jìn)模型LSTM也是經(jīng)常使用的模型。u 根據(jù)用戶輸入的問題,自動(dòng)生成回答。深度學(xué)習(xí)解決多輪會(huì)話的上下文信息問題時(shí)大致思路相同,都是在Encoder階段把上下文信息及當(dāng)前輸入的問題同時(shí)編碼,以促進(jìn)Decoder階段可以參考上下文信息生成回答。28 of 379.4 4應(yīng)用舉
18、例: 聊器人第四章 深度學(xué)習(xí)基本過程語音服務(wù)系統(tǒng)u “自動(dòng)語音系統(tǒng)”通過機(jī)器人將傳統(tǒng)的多層自助語音菜單扁平化,用更人性化的方式實(shí)現(xiàn)語音導(dǎo)航、語音交互、語音咨詢等常用功能。u 用戶還可以通過語音對話直接告知業(yè)務(wù)需求,實(shí)現(xiàn)快速辦理相關(guān)業(yè)務(wù),如:查詢手機(jī)流量情況、申請信用卡額度調(diào)整等。 習(xí)題: 1 正則表達(dá)式與有限狀態(tài)向量機(jī)的關(guān)系是什么?2 C h o m s k y 層次語法理論包含哪幾種類型的語法?3 為什么在文本處理中常用遞歸神經(jīng)網(wǎng)絡(luò)( R N N ) , 他的特點(diǎn)有哪些?4 嘗試用L S T M 方法進(jìn)行機(jī)器自動(dòng)翻譯?AIRack人工智能實(shí)驗(yàn)平臺(tái)一站式的人工智能實(shí)驗(yàn)平臺(tái)DeepRack深度學(xué)習(xí)一體機(jī)開箱即用的AI科研平臺(tái)BDRack大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31∕717-2020 滌綸長絲單位產(chǎn)品能源消耗限額
- 黃金知識(shí)培訓(xùn)課件
- 認(rèn)真學(xué)習(xí)黨章黨規(guī)做合格的黨員
- 2025年中考第一次模擬考試化學(xué)(青海省卷)
- 電影產(chǎn)業(yè)票房統(tǒng)計(jì)表
- 工程預(yù)算管理實(shí)務(wù)指南
- 山東省建筑工程施工技術(shù)資料管理規(guī)程
- 生產(chǎn)計(jì)劃與物料管理
- 太陽能照明路燈安裝合同
- 叉車工勞動(dòng)合同協(xié)議書
- 金波讀書樂課件
- 2《中國老年糖尿病診療指南(2024年版)》解讀
- 國自科項(xiàng)目申報(bào)協(xié)議書模板
- 2024年北京中考地理試卷
- 四川蜀道集團(tuán)筆試題
- 零食門市轉(zhuǎn)讓協(xié)議書范本
- 電氣自動(dòng)化工程師考試題庫
- 小學(xué)利潤問題應(yīng)用題100道附答案(完整版)
- 醫(yī)院智能化系統(tǒng)內(nèi)網(wǎng)、外網(wǎng)及設(shè)備網(wǎng)系統(tǒng)拓?fù)鋱D-可編輯課件
- 小學(xué)生心理健康主題家長會(huì)
- 社交禮儀-儀態(tài)禮儀
評(píng)論
0/150
提交評(píng)論