人工智能應(yīng)用基礎(chǔ) 課件 項目6 自然語言處理_第1頁
人工智能應(yīng)用基礎(chǔ) 課件 項目6 自然語言處理_第2頁
人工智能應(yīng)用基礎(chǔ) 課件 項目6 自然語言處理_第3頁
人工智能應(yīng)用基礎(chǔ) 課件 項目6 自然語言處理_第4頁
人工智能應(yīng)用基礎(chǔ) 課件 項目6 自然語言處理_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能應(yīng)用基礎(chǔ)授課人:周老師

技術(shù)篇項目5?自然語言處理01項目描述05項目拓展02項目分析06項目小結(jié)03相關(guān)知識07項目練習(xí)04項目實施目錄項目描述01文字是我們傳遞信息的基本媒介,在互聯(lián)網(wǎng)高度發(fā)達(dá)的今天,文字形式的信息也以爆炸式的速度增長著。媒體一刻不停地在網(wǎng)絡(luò)上發(fā)布著最新的新聞,人們隨時隨地通過手機(jī)談?wù)撝磉叺氖虑?,每時每刻都有大量的文字從各種渠道生產(chǎn)出來。面對海量的文本數(shù)據(jù),我們又該用什么樣的人工智能技術(shù)對其進(jìn)行分析與理解,從而節(jié)省人類有限的閱讀時間與精力呢?5.1項目描述02項目分析為了使用人工智能技術(shù)理解文本內(nèi)容以及發(fā)掘文本的潛在語義,需要建立龐大的語料庫,將文字編碼為機(jī)器能“閱讀”的數(shù)據(jù)格式。當(dāng)遇到大量的文本信息,諸如博客,新聞,書籍等大文檔,怎么快速的從中理解關(guān)鍵信息就是自然語言處理可以發(fā)揮作用的地方。全面了解自然語言處理的關(guān)鍵技術(shù),需要學(xué)習(xí)以下內(nèi)容:1.

文本表示方法2.

文檔分類3.機(jī)器翻譯5.2項目分析03相關(guān)知識文本表示自然語言處理中的第一個關(guān)鍵步驟是將原始文本轉(zhuǎn)換為計算機(jī)可以有效處理的格式。最基本的處理流程包括預(yù)處理、分詞、編碼三個步驟。5.3相關(guān)知識編碼的過程①預(yù)處理:在處理文本之前,文本需要標(biāo)準(zhǔn)化以確保一致性,如刪除標(biāo)點符號。對于英文來說還需要統(tǒng)一字母大小寫,或者一些縮寫的形式,比如:“I’m”和“Iam”。②分詞:預(yù)處理后的文本需要拆分為單詞,也稱為token。例如,句子“我愛北京天安門”,分詞結(jié)果為:“我/愛/北京/天安門”,而英文句子的分詞可以根據(jù)單詞之間的空格進(jìn)行拆分。③編碼:由于計算機(jī)以數(shù)字為依據(jù)進(jìn)行操作,每個token都會轉(zhuǎn)換為數(shù)字表示。最簡單的方法可以為每個token分配一個唯一的數(shù)字標(biāo)識符。“我/正在/學(xué)習(xí)/人工智能”分配的數(shù)字分別為5,22,16,73。除了這個直接轉(zhuǎn)換為數(shù)字的方法,也可以將token轉(zhuǎn)換成一個多維向量的形式,叫做獨熱編碼(one-hot)5.3相關(guān)知識獨熱編碼基本思想是使用一個跟句子長度一樣的向量來表示一個詞,向量中只在該詞出現(xiàn)的位置設(shè)置為1,其余全部為0。比如我們的句子一共有4個詞{我,正在,學(xué)習(xí),人工智能},那么向量長度則為4,“我”就表示為[1,0,0,0,],“正在”就表示為[0,1,0,0],“學(xué)習(xí)”就表示為[0,0,1,0],“人工智能”就表示為[0,0,0,1]。5.3相關(guān)知識詞嵌入詞嵌入將文本表示為一個詞向量,是一種將詞匯表中的每個單詞映射到一個高維向量的技術(shù)。將獨熱編碼改成詞向量后,男人、女人、國王、皇后四個詞語,映射到一個7維的空間中,每個詞語都對應(yīng)了一個7維的向量。這樣,每個單詞在這個空間內(nèi)都有一個唯一的、稠密的實數(shù)向量作為表示,稱為詞向量。5.3相關(guān)知識詞嵌入詞向量可以發(fā)掘出詞與詞的類比關(guān)系,我們可以在詞向量上做加法和減法,最后得到一些有趣的結(jié)果。比如:國王-男人+女人=皇后,國王-皇后=男人-女人。按照這種方法表示出:中國-北京=法國-巴黎,do-did=go–went等等。5.3相關(guān)知識詞向量的應(yīng)用假設(shè)小明要做一個性格測試,要從不同維度上給自己在0到100的范圍打分。5.3相關(guān)知識詞向量的應(yīng)用小明認(rèn)為自己比較外向,給自己在“外向-內(nèi)向”的維度上在打了20分。這里0分是極度外向,100分是極度內(nèi)向。然后標(biāo)準(zhǔn)化一下得分,使其保持在-1和1之間,得到的分?jǐn)?shù)是-0.4,這樣小明在“外向-內(nèi)向”的維度由一個實數(shù)-0.4來表示,該維度可看成是描述性格的一個特征。5.3相關(guān)知識詞向量的應(yīng)用按照同樣的方法在第二個特征上打分,先在0~100之間打分,再標(biāo)準(zhǔn)化后得到0.8?,F(xiàn)在小明的性格可以由[-0.4,0.8]的二維向量來表示。5.3相關(guān)知識詞向量的應(yīng)用可以根據(jù)這個向量在前兩個特征上的得分看對方是否和自己性格相似,這時候的性格只考慮了二個特征維度。5.3相關(guān)知識詞向量的應(yīng)用對性格特征完整打分后轉(zhuǎn)換成4維向量,每一個維度上的數(shù)字就代表性格中某一特征的得分,計算機(jī)很容易能計算出這些向量之間的相似程度。如果將它運(yùn)用到單詞中,就是詞嵌入。5.3相關(guān)知識詞向量的應(yīng)用選擇一些英文單語如:cat,kitten,dog,houses,利用詞嵌入生成多維的詞向量。然后使用降維算法,將詞向量降維至2維,從而在平面上將詞向量繪制出來。在自然語言處理中,詞嵌入把單詞(word)轉(zhuǎn)換成實數(shù)向量(vector),因此大家都也把詞嵌入稱為word2vec,用到的技術(shù)最多的也是神經(jīng)網(wǎng)絡(luò)。5.3相關(guān)知識詞向量的應(yīng)用當(dāng)嵌入“學(xué)習(xí)”這個詞,可以把“我”,“正在”,“學(xué)習(xí)”,“人工智能”這幾個上下文單詞一同輸入神經(jīng)網(wǎng)絡(luò),這樣能夠更好的表現(xiàn)“學(xué)習(xí)”在語句中的含義與位置。當(dāng)然,輸入到神經(jīng)網(wǎng)絡(luò)的是這些單詞的編碼,可以是簡單的數(shù)字編碼,也可以是獨熱編碼,最終輸出“學(xué)習(xí)”這個詞的詞向量。5.3相關(guān)知識文檔主題分類對于多個單詞組成的句子,我們利用詞嵌入技術(shù)將句子中的單詞生成對應(yīng)的詞向量后,將這些詞向量拼接起來形成表示整個句子的向量。這個向量會比較長,可以再通過一個神經(jīng)網(wǎng)絡(luò)進(jìn)行轉(zhuǎn)換,來生成一個維度比較小的句子向量。5.3相關(guān)知識文檔主題分類同樣的原理,我們可以用句向量再組合成文檔向量,然后用最終生成的文檔向量來代表整個文檔的嵌入表達(dá)。5.3相關(guān)知識情感傾向分析將情感傾向分析看作一個分類任務(wù),將情感分為正面、負(fù)面和中性三類。英文句子:“Ilikethisphotoverymuch!”。該句子包含七個“元素”,采用詞嵌入的方法將這個七個元素轉(zhuǎn)換成詞向量(標(biāo)點符號也可以看作一個單詞),假設(shè)每個“詞向量”的維度被設(shè)定為5,那么整個句子可以表示成一個7行5列矩陣。5.3相關(guān)知識情感傾向分析形成的矩陣在計算機(jī)看來跟一張分辨率為7×5的圖像是差不多的,而卷積神經(jīng)網(wǎng)絡(luò)剛好特別擅長圖像分類,于是可以搭建一個卷積神經(jīng)網(wǎng)絡(luò)模型,并用大量標(biāo)注過的文本數(shù)據(jù)將模型訓(xùn)練好,然后對這個矩陣進(jìn)行分類,分類的結(jié)果設(shè)置為情感分析的三個類別:正面、負(fù)面、中性5.3相關(guān)知識機(jī)器翻譯用于實現(xiàn)不同語言之間的自動轉(zhuǎn)換,常見的模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)模型和Transformer模型。常見的RNN模型結(jié)構(gòu),該模型有兩個隱藏層。RNN是專門設(shè)計用來處理序列數(shù)據(jù)的深度學(xué)習(xí)模型,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,RNN具有循環(huán)結(jié)構(gòu)5.3相關(guān)知識機(jī)器翻譯在翻譯一個句子時,比如“知識就是力量”,這是一個文字序列,用RNN翻譯時,會把輸出結(jié)構(gòu)又連接回輸入,這種結(jié)構(gòu)特別適合用來處理序列。我們把RNN的結(jié)構(gòu)展開,查看它的結(jié)構(gòu)。5.3相關(guān)知識機(jī)器翻譯機(jī)器翻譯前,要將句子進(jìn)行編碼(one-hot,或者是詞向量),可以將編碼這一步也用一個RNN實現(xiàn),并統(tǒng)一到整個翻譯架構(gòu)中,形成RNN翻譯框架。5.3相關(guān)知識Transformer注意力模型注意力機(jī)制的目標(biāo)是計算當(dāng)前單詞與整個句子中其它單詞的相關(guān)性,經(jīng)過計算后,假設(shè)“知”與“識”的相關(guān)性得分為0.8,但是與“就”的相關(guān)性得分只為0.2,說明“知”與“識”更相關(guān),通過這種方式就可以得到整個句子中每兩個單詞之間的關(guān)系。5.3相關(guān)知識Transformer注意力模型計算出“知”與其它所有詞的相關(guān)性得分后,根據(jù)分?jǐn)?shù)進(jìn)行加權(quán)求和,生成編碼e0,與“知”相關(guān)性得分越大的詞,如“識”、“力”,“量”,在編碼e0中所占的比重就越大。5.3相關(guān)知識Transformer注意力模型句子經(jīng)過多次編碼之后,會再通過解碼器進(jìn)行解碼。解碼器也是基于同樣的注意力機(jī)制,并且是多層的。編碼器負(fù)責(zé)將輸入序列(源語言句子)轉(zhuǎn)換為一個向量表示(上下文向量),這個表示包含了輸入序列的所有信息。解碼器則根據(jù)這個向量逐步生成輸出序列(目標(biāo)語言句子),從而實現(xiàn)翻譯。5.3相關(guān)知識04項目實施打開EasyDL平臺通過網(wǎng)址進(jìn)入到百度智能云平臺的文本情感傾向分析的主頁面:/product/nlp_apply/sentiment_classify,里面有一個情感分析的演示功能?!扒楦袃A向分類”5.4項目實施輸入文本在文本框中輸入一段帶有感情色彩的文字,如“人工智能很難學(xué),但是非常有用,我很想學(xué)好”,在你輸入文字的過程中,頁面會實時的分析內(nèi)容,我們可以在文本框下面查看情感傾向結(jié)果?!扒楦袃A向分類”5.4項目實施05項目拓展通過網(wǎng)址進(jìn)入到百度智能云平臺的地址信息識別的主頁面:/product/nlp_apply/address,里面有一個地址識別的演示功能,可以幫我們抽取文本中的地址信息。輸入一段地址信息,如“湖南省長沙市岳麓區(qū)含浦路139號張,然后點擊“開始分析”按鈕,即可在下方結(jié)果欄看到抽取的結(jié)果5.5項目拓展06項目小結(jié)在自然語言處理中,詞嵌入表示是關(guān)鍵部分,可用神經(jīng)網(wǎng)絡(luò)模型生成詞向量。在詞向量中,單詞每個維度用一個實數(shù)向量來表示。因此,通過向量來代表單詞,可以將單詞置于高維度的空間中,意義相近的單詞在空間中傾向于聚集在一起,共同表達(dá)相似的意思。注意力機(jī)制是一種模仿人類視覺和認(rèn)知系統(tǒng)的方法,它允許神經(jīng)網(wǎng)絡(luò)在處理輸入數(shù)據(jù)時集中注意力于相關(guān)的部分。通過引入注意力機(jī)制,神經(jīng)網(wǎng)絡(luò)能夠自動地學(xué)習(xí)并選擇性地關(guān)注輸入中的重要信息,提高模型的性能和泛化能力。5.6項目小結(jié)07項目練習(xí)一、選擇題

1.?將原始文本轉(zhuǎn)換為計算機(jī)可以有效處理的格式,不包括下列哪個過程?(

A.?預(yù)處理B.?采樣C.?分詞D.?編碼

2.?預(yù)處理后的文本需要拆分為單詞,也稱為什么?(

)A.?token

B.?樣本C.?wordD.?分詞3.?詞嵌入技術(shù)的主要作用是什么?(

)A.?將單詞轉(zhuǎn)換為高維向量B.?將句子轉(zhuǎn)換為圖像C.?統(tǒng)計單詞數(shù)量D.?將文本轉(zhuǎn)換為二進(jìn)制代碼5.7項目練習(xí)一、選擇題

4.?句子由多個單詞組成,可以將句子中單詞的詞向量進(jìn)行拼接,形成什么?(

A.?文檔B.?句子C.?主題D.?句向量

5.?在自然語言處理中,情感分析的主要目的是什么?(

)A.?確定單詞在句子中的位置B.?提取句子

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論