項目10-自然語言處理_第1頁
項目10-自然語言處理_第2頁
項目10-自然語言處理_第3頁
項目10-自然語言處理_第4頁
項目10-自然語言處理_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

信息技術(shù)與人工智能基礎項目10

自然語言處理01項目概述02思維導圖03思政聚焦04項目知識準備05項目任務目錄CONTENTS06項目小結(jié)與展望01項目概述人機交流的關(guān)鍵--自然語言處理你有沒有用過百度翻譯來進行不同語言的翻譯?它將一段文字用一種語言翻譯成另一種語言的容易程度是相當驚人的。你有沒有用過百度搜索對某件事或某個物體的信息進行搜索,而搜索引擎除了給你一系列相關(guān)的網(wǎng)頁以外,還會直接給出一個具體的答案。你有沒有用過淘寶網(wǎng)站的自動回復客服小蜜,通過回復許多常見的問題,節(jié)約時間、提高效率。自然語言處理(NaturalLanguageProcessing,簡稱NLP)就是其中的關(guān)鍵。02思維導圖項目七思維導圖03思政聚焦自然語言處理與傳統(tǒng)文化的結(jié)合百度旗下人工智能硬件品牌小度憑借自身過硬的人工智能實力,與故宮文化“跨界聯(lián)名”,推出了故宮主題智能音箱—小度在家1S故宮文化限定版,這一輪國內(nèi)頂尖科技與中國傳統(tǒng)文化的相互融合,將故宮聯(lián)名熱潮推至頂峰。讓傳統(tǒng)文化插上AI的翅膀,活化經(jīng)典。小度與故宮文化的“跨界聯(lián)名”04項目知識準備自然語言處理概念自然語言處理(NLP)是用計算機來處理、理解以及運用人類語言(如中文、英文等),其技術(shù)目標就是使機器能夠“聽懂”人類的語言,并進行翻譯,實現(xiàn)人和機器的相互交流。目標:讓機器用人類語言做一些聰明的事情和利用人類語言進行自我表達。NLP被譽為“人工智能皇冠上的珍珠”。自然語言處理的發(fā)展歷程自然語言處理(NLP)的歷史幾乎跟計算機和人工智能(AI)一樣長,自計算機出現(xiàn)后就有了人工智能的研究,而人工智能領域最早的研究就是機器翻譯以及自然語言理解。自然語言處理的發(fā)展大致經(jīng)歷了以下三個階段:自然語言處理的兩大流程自然語言處理機制涉及兩個流程,包括自然語言理解(NLU,LanguageUnderstanding)和自然語言生成(NLG,NaturalLanguageGeneration)。NLU是指使計算機理解自然語言(人類語言文字)等,重在理解。具體來說,就是理解語言、文本等,提取出有用的信息。NLG是指提供結(jié)構(gòu)化的數(shù)據(jù)、文本、圖表、音頻、視頻等,生成人類可以理解的自然語言形式的文本。NLP在解決具體問題的時候,通常既需要NLU,也需要NLG。比如常見的語音助手、智能音箱等產(chǎn)品自然語言處理的層次理解自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次,可以更好地體現(xiàn)語言本身的構(gòu)成,五個層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析。(1)語音分析:要根據(jù)音位規(guī)則,從語音流中區(qū)分出一個個獨立的音素,再根據(jù)音位形態(tài)規(guī)則找出音節(jié)及其對應的詞素或詞。(2)詞法分析:找出詞匯的各個詞素,從中獲得語言學的信息。詞是漢語中能夠獨立的最小語言單位,正確的單詞切分取決于對文本語義的正確理解,而單詞切分又是理解語言的最初的一道工序。

例如“我們研究所有東西”這句話進行分詞后可能會得到“我們/研究/所有/東西”,或“我們/研究所/有/東西”自然語言處理的層次理解(3)句法分析:對句子和短語的結(jié)構(gòu)進行分析,目的是要找出詞、短語等的相互關(guān)系以及各自在句中的作用。

例如:“反對│的│是│少數(shù)人”,“咬死了|獵人|的|狗”(4)語義分析:找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定語言所表達的真正含義或概念。

例如“你約我吃飯”和“我約你吃飯”,意思完全不同(5)語用分析:研究語言所存在的外界環(huán)境對語言使用者所產(chǎn)生的影響。

例如“我要一個漢堡包”,在不同的上下文中會有不同的含義。04項目任務任務1:智能文本分析1、任務描述

智能文本分析是輸入一段待分析的文本內(nèi)容,通過文本分句、分詞、命令實體識別這三個重要步驟,從該文本范圍中提取出時間、地點、人物、事件等關(guān)鍵信息。這些關(guān)鍵信息能形成反映出中心內(nèi)容的文本摘要,實現(xiàn)對文本的分類、情感分析,最終生成文本分析報告。任務1:智能文本分析2、技術(shù)分析文本分析處理流程如圖所示。(1)獲取原始文本

原始文本的獲取主要有兩種方式:資料整理、網(wǎng)上下載、抓取文本。(2)文本預處理

主要包括數(shù)據(jù)清洗、分句、分詞、詞性標注這四個重要步驟。(3)特征提取

兩種常用的表示模型分別是詞袋模型和詞向量。任務1:智能文本分析2、技術(shù)分析文本分析處理流程如圖所示。(4)模型訓練

傳統(tǒng)的有監(jiān)督和無監(jiān)督等機器學習模型,如KNN、SVM、NaiveBayes、決策樹、GBDT、K-means等模型;深度學習模型比如CNN、RNN、LSTM、Seq2Seq、FastText、TextCNN等。。(5)輸出結(jié)果

輸入待分析的文本數(shù)據(jù),調(diào)用訓練好的算法模型處理,提取關(guān)鍵信息,對文本進行分類、情感分析,輸出智能文本分析報告。任務1:智能文本分析3、任務實現(xiàn)---請大家掃二維碼根據(jù)步驟測試實現(xiàn)任務2:機器人寫詩1、任務描述機器人寫詩是輸入詩的標題、類型,通過模型訓練,自動生成符合格式要求的詩詞。任務2:機器人寫詩2、技術(shù)分析在寫詩之前需要學習各種不同類型的風格或不同主題的詩,獲得詩的一些基本特征規(guī)律,然后基于這些知識進行詩生成,這是人工智能寫詩的基本過程。目前主流的詩歌生成技術(shù)方法有:采用基于深度學習。長短期記憶網(wǎng)絡LSTM(LongShort-TermMemory)是常用到的深度學習方法。任務2:機器人寫詩2、技術(shù)分析基于LSTM的詩生成過程如下:

①首先需要獲取足夠的訓練詩集

②搭建長短期記憶網(wǎng)絡

③確定好層數(shù)后,設置定輸出維度、激活函數(shù)等信息。

④進行模型訓練,生成對應的LTSM模型,保存模型。

⑤調(diào)用訓練好的模型,自動生成五言律詩、五言絕句等詩歌數(shù)據(jù)。任務2:機器人寫詩3、任務實現(xiàn)---請大家掃二維碼根據(jù)步驟測試實現(xiàn)04項目小結(jié)與展望項目小結(jié)

本項目首先介紹了自然語言處理的定義、發(fā)展歷史、兩大流程等相關(guān)概念內(nèi)容,然后介紹了智能文本分析、機器人寫詩這兩個自然語言處理項目任務具體實踐過程。

智能文本分析實現(xiàn)過程主要包括文本分句、分詞、命名實體識別、關(guān)鍵信息提取、文本分類、情感分析等重要步驟。

機器人寫詩則主要是通過輸入詩的標題和類型,自動生成詩歌。項目展望

人工智能自然語言處理將是信息科學技術(shù)中長期發(fā)展的一個新的戰(zhàn)略新高度,自然語言處理技術(shù)會讓大家的生活越來越方便。與此同時,技術(shù)的進步也會給我們的生活帶來一些沖擊。比如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論