版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能技術(shù)篇自然語言處理第九章本章導(dǎo)讀隨著信息技術(shù)的發(fā)展,以及智能設(shè)備在實(shí)際生活中的廣泛應(yīng)用,自然語言處理技術(shù)迅速升級(jí)為人工智能必不可少的研究熱點(diǎn)之一。自然語言處理技術(shù)實(shí)現(xiàn)了人與機(jī)器之間的自然語言交流,為人們的生活帶來了諸多便利。本章首先介紹自然語言處理的基本概念、發(fā)展歷程、研究方向和基本框架,然后詳細(xì)介紹自然語言處理的層次化過程和基本流程,最后分析自然語言處理技術(shù)的某一應(yīng)用方向,即情感分析。學(xué)習(xí)目標(biāo)熟悉自然語言處理的基本概念和基本框架。掌握理解自然語言處理的過程劃分。掌握自然語言處理的基本流程。目錄
4自然語言處理概述自然語言處理的過程劃分自然語言處理的基本流程01020304案例分析:情感分析自然語言處理概述01自然語言處理(naturallanguageprocessing,NLP)主要研究用電子計(jì)算機(jī)模擬人的語言交際過程,使計(jì)算機(jī)能理解和運(yùn)用人們生活中使用的自然語言,并實(shí)現(xiàn)人機(jī)之間的自然語言通信,從而進(jìn)一步實(shí)現(xiàn)計(jì)算機(jī)代替人進(jìn)行部分腦力勞動(dòng)的目標(biāo)。其中,部分腦力勞動(dòng)主要包括查詢資料、解答問題、摘錄文獻(xiàn)、匯編資料,以及一切與自然語言信息有關(guān)的加工處理。自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,它主要包括自然語言理解和自然語言生成兩方面內(nèi)容。自然語言理解又稱為計(jì)算語言學(xué),是指將自然語言轉(zhuǎn)化成易于計(jì)算機(jī)程序理解和處理的形式。自然語言生成則是將存儲(chǔ)于計(jì)算機(jī)中的數(shù)據(jù)轉(zhuǎn)化為人們能夠理解的自然語言。自然語言處理的基本概念9.1.1自然語言處理的發(fā)展歷程可分為5個(gè)時(shí)期,如圖所示。自然語言處理的發(fā)展歷程9.1.2自然語言處理的發(fā)展歷程自然語言處理的研究和應(yīng)用是人工智能領(lǐng)域的一項(xiàng)重大突破,必將為科學(xué)技術(shù)的發(fā)展做出重要貢獻(xiàn),同時(shí)促進(jìn)其他學(xué)科的進(jìn)一步發(fā)展,并對(duì)人們的生活產(chǎn)生深遠(yuǎn)的影響。隨著計(jì)算機(jī)技術(shù)和硬件設(shè)備的大幅度提升,自然語言處理的研究方向也越來越廣闊。如表列舉了自然語言處理的部分研究方向。自然語言處理的研究方向9.1.3研究方向簡介機(jī)器翻譯借助計(jì)算機(jī)把文字或演講從一種自然語言自動(dòng)翻譯成另一種自然語言,如將漢語翻譯成英語文字識(shí)別借助計(jì)算機(jī)自動(dòng)識(shí)別印刷體或手寫體文字,將它們轉(zhuǎn)化為可供計(jì)算機(jī)處理的電子文本,如字符的圖像識(shí)別語音識(shí)別將人類語音中的詞語內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的書面語,如語音撥號(hào)、語音導(dǎo)航等自動(dòng)文摘利用計(jì)算機(jī)提煉指定文章的摘要,即自動(dòng)歸納原文檔的主要內(nèi)容和含義,提煉并形成摘要,如機(jī)械文摘句法分析運(yùn)用自然語言的句法和其他相關(guān)知識(shí)確定輸入句中各成分的功能,建立一種數(shù)據(jù)結(jié)構(gòu),用于獲取輸入句子的意義研究方向簡介文本分類在給定的分類體系和分類標(biāo)準(zhǔn)下,根據(jù)文本內(nèi)容利用計(jì)算機(jī)自動(dòng)判別文本類型,實(shí)現(xiàn)文本自動(dòng)歸類信息檢索利用計(jì)算機(jī)從海量文檔中查找用戶需要的相關(guān)文檔信息獲取利用計(jì)算機(jī)從大量的文本中自動(dòng)抽取待定的一類信息(如事件和事實(shí)等),并形成結(jié)構(gòu)化數(shù)據(jù),填入數(shù)據(jù)庫中供用戶查詢使用信息過濾利用計(jì)算機(jī)自動(dòng)識(shí)別和過濾滿足特定條件的文檔信息中文自動(dòng)分詞使用計(jì)算機(jī)對(duì)中文文本進(jìn)行詞語的自動(dòng)切分語音合成將書面文本自動(dòng)轉(zhuǎn)換成對(duì)應(yīng)的語音自然語言處理的研究方向自然語言處理不是一個(gè)獨(dú)立的技術(shù),它受到大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí)等多方面理論的支撐。
自然語言處理的基本框架可用圖表示。自然語言處理的基本框架9.1.4自然語言處理的基本框架自然語言處理的過程劃分02自然語言是由字成詞,由詞成句,由句成段的一個(gè)層次化過程。因此,完整的自然語言處理也是一個(gè)層次化的過程。許多現(xiàn)代語言學(xué)家將這個(gè)過程劃分為5個(gè)層次,如圖所示。自然語言處理的過程
語音分析是根據(jù)音位規(guī)則,從語音流中區(qū)分出獨(dú)立的音素,再根據(jù)音位形態(tài)規(guī)則找出音節(jié)及其對(duì)應(yīng)的詞素或詞語的過程。語音以聲波的形式傳送,語音分析系統(tǒng)接收聲波(模擬信號(hào)),并從中抽取頻率、能量等特征,之后,將這些特征映射為音素(單個(gè)聲音單元),最后將音素序列轉(zhuǎn)換成單詞序列。語音的產(chǎn)生是將單詞映射為音素序列,然后傳送給語音合成器,單詞的聲音通過說話者(機(jī)器人或語音助手等)從語音合成器發(fā)出。語音分析9.2.1
詞法分析是從句子中切分出單詞,找出詞語的各個(gè)詞素,從中獲得單詞的語言學(xué)信息并確定單詞的詞義。不同的語言(如英語、漢語等)對(duì)詞法分析的要求是不同的。在英語中,由于單詞之間是以空格自然分割開的,因此,很容易從句子中切分出單詞。但是,英語單詞有詞性、時(shí)態(tài)、數(shù)量和派生等變化,無疑是增加了找出詞素的復(fù)雜性。要想找出詞素,通常需要對(duì)詞尾或詞頭進(jìn)行分析。詞法分析9.2.2句法分析是對(duì)句子或短語結(jié)構(gòu)進(jìn)行分析,其目的是確定構(gòu)成句子的詞、短語等之間的相互關(guān)系,以及它們?cè)诰渥又械淖饔玫龋⑦@些關(guān)系以一種層次結(jié)構(gòu)表達(dá),最后對(duì)句法結(jié)構(gòu)進(jìn)行規(guī)范化。句法分析的最大單位是一個(gè)句子。文法是用于描述句子語法結(jié)構(gòu)的形式規(guī)則,任何一種語言都有它自己的文法。最常見的文法類型有4種,即無約束短語結(jié)構(gòu)文法(0型文法)、上下文有關(guān)文法(1型文法)、上下文無關(guān)文法(2型文法)和正則文法(3型文法)。句法分析9.2.3語義分析是通過找出詞義、結(jié)構(gòu)意義及不同詞結(jié)合的意義,確定語言所表達(dá)的真正含義或意思。常用的語義分析方法有語義文法和格文法。語義文法是將文法知識(shí)和語義知識(shí)組合起來,并以統(tǒng)一方式定義的文法規(guī)則集。它可以排除無意義的句子,且能夠忽略對(duì)語義沒有影響的句法問題,還具有較高的效率。格文法允許以動(dòng)詞為中心構(gòu)造分子結(jié)構(gòu),其目的是找出動(dòng)詞和名詞(與動(dòng)詞都處于結(jié)構(gòu)關(guān)系中)的語義關(guān)系。格文法是一種有效的語義分析方法,有助于刪除句法分析的歧義性,且易于使用。語義分析9.2.4
語用分析就是研究語言所在的外界環(huán)境對(duì)語言使用產(chǎn)生的影響。
例如,人在恐慌時(shí)的表達(dá)方式與平時(shí)生活中的表達(dá)方式具有很大的差異性,這是由環(huán)境變化引起的。語用分析是自然語言處理中更高層次的研究。語用分析9.2.5自然語言處理的基本流程03
雖然自然語言處理技術(shù)可應(yīng)用于多個(gè)不同的領(lǐng)域,但其基本流程大致相同,其中,基于語料庫的自然語言處理技術(shù)的基本流程可用圖表示。自然語言處理的基本流程語料是指語言材料,它是構(gòu)成語料庫的基本單元。通常,人們會(huì)簡單地用文本表示語料,并把文本中的上下文關(guān)系作為現(xiàn)實(shí)世界中語言的上下文關(guān)系的替代品。通常將一個(gè)文本集合稱為語料庫,將多個(gè)這樣的文本集合稱為語料庫集合。語料的獲取途徑有兩種,即整理語料和抓取語料。整理語料是指在已有語料的基礎(chǔ)上,對(duì)很多業(yè)務(wù)部門、公司等單位積累的大量紙質(zhì)或者電子文本資料稍加整合,并把紙質(zhì)的文本全部電子化就可以作為語料庫。抓取語料是指在沒有語料的情況下,可通過網(wǎng)絡(luò)下載國內(nèi)外公開的語料庫或利用爬蟲技術(shù)抓取網(wǎng)絡(luò)的公開數(shù)據(jù)構(gòu)建語料庫。獲取語料9.3.1語料預(yù)處理是自然語言處理流程中的關(guān)鍵步驟,語料預(yù)處理的好壞直接影響到自然語言處理技術(shù)的性能。
語料預(yù)處理的基本過程可用圖描述。語料預(yù)處理9.3.2語料預(yù)處理的基本過程1.?dāng)?shù)據(jù)清洗數(shù)據(jù)清洗是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并保證數(shù)據(jù)一致性。在這里,數(shù)據(jù)清洗主要是在語料中找到感興趣的內(nèi)容,將不感興趣和視為噪音的內(nèi)容清洗刪除。例如,對(duì)原始文本提取標(biāo)題、摘要、正文等信息,而對(duì)爬取的網(wǎng)頁內(nèi)容,去除廣告、標(biāo)簽、HTML、JS等代碼和注釋等。常用的數(shù)據(jù)清洗方法有人工去重、標(biāo)記、降噪和對(duì)齊等,規(guī)則提取內(nèi)容、正則表達(dá)式匹配、根據(jù)詞性和命名實(shí)體提取等,編寫腳本或代碼批處理等。2.分詞分詞是指將短文本和長文本處理為最小單位粒度(詞或詞語)的過程。常見的分詞方法有基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于規(guī)則的分詞方法等。
其中,每種方法下面對(duì)應(yīng)許多具體的算法。添磚加瓦
當(dāng)前,中文分詞算法的主要難點(diǎn)有歧義識(shí)別和新詞識(shí)別。
例如,“羽毛球拍賣完了”可以切分為“羽毛—球拍—賣—完—了”,也可切分成“羽毛球—拍賣—完—了”,如果不依賴上下文其他的句子,很難知道該如何理解該句子。3.詞性標(biāo)注詞性標(biāo)注就是給每個(gè)詞或者詞語打詞類標(biāo)簽,如形容詞、動(dòng)詞、名詞等。它有助于讓文本在后面的處理中融入更多有用的語言信息。詞性標(biāo)注是一個(gè)經(jīng)典的序列標(biāo)注問題,不過對(duì)于某些基于自然語言處理的問題,詞性標(biāo)注不是必需的。例如,常見的文本分類問題不需要關(guān)心詞性問題。但是,類似情感分析、知識(shí)推理等問題,詞性標(biāo)注卻是必不可少的。常見的詞性標(biāo)注方法有基于最大熵的詞性標(biāo)注、基于統(tǒng)計(jì)最大概率輸出的詞性標(biāo)注和基于HMM(隱馬爾可夫模型)的詞性標(biāo)注等。4.去停用詞停用詞一般指對(duì)文本特征沒有任何貢獻(xiàn)的字或詞,如標(biāo)點(diǎn)符號(hào)、語氣、人稱等。但是,在實(shí)際的操作中要根據(jù)具體的場景決定將哪些停用詞去掉。例如,在情感分析中,由于語氣詞、感嘆號(hào)等對(duì)表示語氣程度、感情色彩有一定的貢獻(xiàn)和意義,故應(yīng)該保留它們。
語料預(yù)處理結(jié)束后,首先要考慮的問題是如何將分詞之后的字和詞語表示成可供計(jì)算機(jī)計(jì)算的類型。因此,須將字和詞語的字符串形式轉(zhuǎn)化成向量形式。常用的表示模型有詞袋模型和詞向量。詞袋模型(bagofwords,BOW)不考慮詞語在句子中的原本順序,直接將每一個(gè)詞語或符號(hào)統(tǒng)一放置在一個(gè)集合(如list)中,然后按照計(jì)數(shù)的方式對(duì)詞語或符號(hào)出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。詞向量是將字和詞語轉(zhuǎn)換成矩陣向量的計(jì)算模型。目前,常用的詞表示方法有One-Hot、Word2Vec、Doc2Vec、WordRank和FastText等。特征工程9.3.3
在實(shí)際問題中,為了構(gòu)造好的特征向量,要選擇合適的、表達(dá)能力強(qiáng)的特征。特征選擇是一個(gè)很有挑戰(zhàn)的過程,更多地依賴于經(jīng)驗(yàn)和專業(yè)知識(shí)。目前,有很多現(xiàn)成的算法可以進(jìn)行特征選擇,如DF、MI、IG、CHI、WLLR、WFO等。特征選擇9.3.4提示
文本特征一般都是詞語,還具有語義信息,使用特征選擇能夠找出一個(gè)特征子集,且仍然可以保留其語義信息;但通過特征提取找到的特征子空間,將會(huì)丟失部分語義信息。
因此,在自然語言處理中常使用特征選擇方法構(gòu)造特征向量。
特征向量已選好,接下來對(duì)模型進(jìn)行訓(xùn)練。針對(duì)不同的應(yīng)用需求,要使用不同的模型。
傳統(tǒng)的機(jī)器學(xué)習(xí)模型有KNN、SVM、K-means和決策樹等;深度學(xué)習(xí)模型有CNN、RNN、TextCNN和LSTM等。模型訓(xùn)練9.3.5
模型訓(xùn)練好之后,需要對(duì)模型進(jìn)行評(píng)估,目的是使模型對(duì)語料具有較好的泛化能力。
常用的評(píng)價(jià)指標(biāo)有錯(cuò)誤率、準(zhǔn)確率、精確度、召回率、F1衡量、ROC曲線和AUC曲線等。模型評(píng)估9.3.6模型評(píng)估合格之后,模型上線,進(jìn)入應(yīng)用階段。目前主流的應(yīng)用方式有提供服務(wù)的方式和將模型持久化的方式。提供服務(wù)的方式是在線下訓(xùn)練模型,然后將模型做線上部署,發(fā)布成接口服務(wù),供業(yè)務(wù)系統(tǒng)使用。將模型持久化的方式是在線訓(xùn)練模型,訓(xùn)練完成之后把模型pickle持久化,在線服務(wù)接口模板通過讀取pickle實(shí)現(xiàn)改變接口服務(wù)。模型上線應(yīng)用9.3.7模型重構(gòu)在自然語言處理中并不是必需的,而是當(dāng)模型應(yīng)用到其他領(lǐng)域效果不好時(shí)或需要增加其他業(yè)務(wù)需求時(shí),才需要對(duì)模型的整體進(jìn)行重構(gòu)。根據(jù)業(yè)務(wù)的不同側(cè)重點(diǎn)對(duì)自然語言處理流程中的每一步進(jìn)行調(diào)整,并重新訓(xùn)練模型上線。模型重構(gòu)9.3.8案例分析:情感分析04在信息時(shí)代,人們接觸和獲取的信息遠(yuǎn)遠(yuǎn)超過了他們自己的需要,且他們不完全具備處理大量信息的能力,這導(dǎo)致信息過載的現(xiàn)象出現(xiàn)。因此,計(jì)算機(jī)自動(dòng)歸納文檔和自主理解信息含義的能力就顯得尤為重要。情感分析作為自然語言處理中常見的應(yīng)用,可以從大量的文檔數(shù)據(jù)中獲取、識(shí)別并歸納有用的信息,而且它還可以理解這些信息中更深層次的含義。由此可見,通過對(duì)用戶評(píng)價(jià)的情感分析,可以挖掘產(chǎn)品在各個(gè)維度的優(yōu)劣,從而有針對(duì)性地改進(jìn)產(chǎn)品。情感分析的實(shí)現(xiàn)方法有兩種,即基于情感詞典的方法和基于深度學(xué)習(xí)的方法。
基于情感詞典的方法是傳統(tǒng)的情感分析方法,其執(zhí)行過程可用左圖描述。首先,輸入文本(短語或句子等);然后,對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、分詞、詞性標(biāo)注和去停用詞等;接著,將獲得的分詞載入已經(jīng)構(gòu)建好的情感詞典中;最后,利用判斷規(guī)則確定文本分詞后的詞語屬于情感詞典中的哪一類,從而實(shí)現(xiàn)情感分類?;谇楦性~典的方法9.4.1基于情感詞典的情感分析1.情感詞典
情感詞典在整個(gè)情感分析中至關(guān)重要,其主要包含4種詞語表,即積極情感詞語表,消極情感詞語表、否定詞語表和程度副詞表,如圖所示。情感詞典2.情感詞典文本匹配算法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村房屋買賣流轉(zhuǎn)合同范例
- 出售大理庭院房屋合同范例
- 2024年標(biāo)準(zhǔn)木材買賣合同版B版
- 2024外教英語口語培訓(xùn)項(xiàng)目聘用合同3篇
- 2024年標(biāo)準(zhǔn)公司股權(quán)轉(zhuǎn)讓及對(duì)賭條款合同版
- 2024年水泥涵管綠色建材認(rèn)證與推廣合同3篇
- 陜西服裝工程學(xué)院《大數(shù)據(jù)實(shí)踐》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年度圖書編纂與專業(yè)印刷服務(wù)委托合作協(xié)議3篇
- 2024年深井施工打井合同協(xié)議書
- 2024年清潔工職責(zé)與權(quán)益協(xié)議范例版B版
- 2024-2025學(xué)年上海市虹口區(qū)高三一模地理試卷(含答案)
- 企業(yè)管理制度-薪酬管理制度
- 2024年軍事理論知識(shí)全冊(cè)復(fù)習(xí)題庫及答案
- 第十一屆“大唐杯”新一代信息通信技術(shù)大賽(省賽)考試題及答案
- 中國文化交流英語(大連理工大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年大連理工大學(xué)
- 抵制宗教進(jìn)校園
- 大貓英語分級(jí)閱讀 三級(jí)1 How to Have a Party 課件
- 常用焊接英語詞匯大全
- 數(shù)控技術(shù)專業(yè)實(shí)踐教學(xué)體系
- 福伊特液力變矩器的結(jié)構(gòu)及工作原理的使用
- 涼山中小學(xué)期末考試題-涼山州2017-2018學(xué)年度上期期末試題八年級(jí)數(shù)學(xué)答案
評(píng)論
0/150
提交評(píng)論