




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
目錄前言 [2]。文本表示模型結構化自注意句嵌入結構及計算模型結構化自注意句嵌入的結構及其提取模型如圖4.1所示。結構化自注意句嵌入的提取模型是從句子的詞嵌入提取出句嵌入的計算模型。該模型的輸入是一個句子所含詞序列的詞嵌入向量序列,輸出是計算取得的結構化自注意句嵌入矩陣。記詞嵌入為xt,則表示句子的詞嵌入序列SS首先,通過基于長短時記憶的雙向循環(huán)神經網絡來計算句子中詞序列的隱含層狀態(tài),以獲取包含上下文信息的詞隱含狀態(tài)。在序列中,時序為t的詞隱含層狀態(tài)計算為:??通過連接組合獲取詞的隱含層狀態(tài)?t?整句所含詞序列的隱含層狀態(tài)序列則可表示為H:H此處,H的維度為n×2u。其中,u表示長短時記憶的單元數(shù)。由于采用了雙向長短時記憶進行循環(huán)神經網絡計算,因此,每一個詞的隱含層狀態(tài)向量長度均為2u。注意力機制通過計算注意力權重實現(xiàn)對序列內各詞不同的注意效果,注意力機制計算的注意力權重向量a的方式為:a其中,uw是詞序列級別的上下文向量,在訓練中習得。此處,注意力機制產生的是1×n在結構化自注意中,我們需要提取出多重含義,因此需要提取出多個注意力權重向量,即提取出注意力權重矩陣。假設提取r重注意力,那么注意力權重矩陣A可如下計算:A其中,Uw是以uw為參照的上下文矩陣。相較傳統(tǒng)注意力機制中,維度為1×da的注意力向量u,自注意結構采用的注意力矩陣維度為r取得自注意權重矩陣后,即可與句子的詞序列隱含層狀態(tài)矩陣H相乘計算結構化自注意句嵌入M:M至此,我們計算得到了結構化自注意句嵌入的結果,其維度為r×2u,代表句子的r重語義。結構化自注意句嵌入的懲罰項結構化自注意句嵌入在模型訓練時會遇到冗余問題。句嵌入矩陣中的各行如不采取措施控制,經過訓練會出現(xiàn)及其相似的情況,因此造成句嵌入矩陣所提取的多重語義信息高度重復,造成冗余。為了解決結構化自注意句嵌入的冗余問題,需要在代價函數(shù)中加入懲罰項,將對冗余度的懲罰計入損失。對注意力權重矩陣的冗余度的控制可以實現(xiàn)控制最終句嵌入矩陣冗余度的目的。對注意力權重矩陣的冗余度的量化可以通過如下計算實現(xiàn),懲罰項P為:P其中,A為注意力權重矩陣,I為單位矩陣(Identity/Unitmatrix),?F表示弗羅貝尼烏斯范數(shù)(Frobeniusnorm在層次注意力網絡中引入結構化自注意句嵌入引入結構化自注意句嵌入機制后,原層次注意力網絡模型中的句嵌入從向量形式變成了矩陣形式。對于相應變?yōu)榫S度為r×2u的文本表示二維矩陣,將其視為r個長度為2u層面層面注意力αααv??v??v??udoc層面編碼器圖4.2層面編碼器與層面注意力結構圖本文對層次注意力網絡的修改基于這樣的認知假設:一個句子具有多重語義含義,那么句子組成的文本也具有多重語義含義。文本的各重含義不是孤立存在的,不會相互保持獨立、毫無關聯(lián),而是互相影響。文本的整體語義由文本的各層面語義構成,且各層面的語義對文本的整體語義重要性不同?;谶@樣的認知假設,我在句嵌入以上的上層結構加入了層面級,包含層面編碼器和層面注意力,引入與層次注意力網絡中相同的編碼器、注意力機制實現(xiàn)對多層面語義的處理:層面編碼器層面編碼器的輸入是句注意力層輸出的文本表示矩陣,將其作為r個不同層面的文本表示向量,輸出是包含各層面上下文語義和自身層面語義的文本隱含狀態(tài)。處理方式與詞、句編碼器一致:???至此,計算得到了各層語義的隱含狀態(tài)?i層面注意力機制層面注意力機制的輸入是層面編碼器輸出文本的r個各層面的隱含狀態(tài),輸出是經過注意力機制加權平均處理后的文本特征向量。uαdoc至此,計算得到了文本包含各層面語義信息的文本特征向量doc。分類器模型分類器部分在基于層次注意力網絡的文本分類實驗基礎上,因引入結構化自注意句嵌入機制,需要進行相應地修改。在損失函數(shù)中,我們需要加入懲罰項,并設置懲罰系數(shù)實現(xiàn)對懲罰度的調參控制。Loss此處,coefp是對應與懲罰項P實驗基于層次注意力網絡的文本分類實驗整體的不同,引入結構化自注意句嵌入機制后,模型復雜度增大,訓練耗時增長。因此,為了平衡模型訓練程度與時間代價,本文對實驗過程做了相應調整。為了能夠與基于層次注意力網絡的文本分類進行對比,本文實驗同樣基于調整后的數(shù)據(jù)集、參數(shù)等,重新訓練并取得了層次注意力模型的文本分類數(shù)據(jù)作為對照實驗。數(shù)據(jù)集數(shù)據(jù)集與第三章實驗一致,采用Yelpreview數(shù)據(jù)集和YahooAnswers數(shù)據(jù)集??紤]到Yelpreview包含4736897條點評文本,達到了470萬條的規(guī)模,較為龐大。結合實驗中的實際情況,在基于結構化自注意句嵌入的層次注意力網絡模型文本分類實驗中,從Yelpreview數(shù)據(jù)中取50萬條以便縮短訓練時間,加快模型迭代速度,更快地取得實驗數(shù)據(jù)以便研究分析。提取出的數(shù)據(jù)以隨機分布處理,按98%、3%、2%的比例劃分數(shù)據(jù)集為訓練集、開發(fā)集、測試集。YahooAnswers數(shù)據(jù)集為第三章實驗中提取的十主題分類的問答數(shù)據(jù),因提取后約150萬條的數(shù)據(jù)量規(guī)模適中,因此處理方式與基于層次注意力網絡的文本分類實驗中保持一致。訓練、調參等實驗細節(jié)說明實驗中采用小批訓練,每批包含64條文本。詞、句、層面各層神經循環(huán)神經網絡均采用門式循環(huán)單元,為加快迭代,設置單元數(shù)為50。為加快模型擬合速度,將學習率提高至0.01,采用學習率衰減機制,以指數(shù)學習率衰減隨訓練步數(shù)縮小學習率,衰減率為0.9,衰減步長為200。為避免學習率衰減在大數(shù)據(jù)集上因訓練步數(shù)較大而持續(xù)衰減至極小,實驗中在學習率衰減機制后通過TensorFlow框架的clip機制控制學習率衰減下限,具體使用clip_by_value方法并設置學習率衰減下限為0.0001。在詞、句及層面注意力機制輸出處均建立dropout機制以避免過擬合,留存率為0.5。在實驗過程中,發(fā)現(xiàn)如果懲罰系數(shù)設置過大,易在模型訓練梯度下降時,出現(xiàn)數(shù)值nan錯誤(NotANumber)造成訓練失效問題。因此調參時應注意控制懲罰系數(shù)大小,懲罰項不應過大??s小懲罰系數(shù)后,模型擬合即恢復正常。實驗結果及分析對Yelpreview數(shù)據(jù)集,實驗設置懲罰系數(shù)為0.2,學習率衰減步長100,在句嵌入層面數(shù)r=對YahooAnswers數(shù)據(jù)集根據(jù)Yelpreview數(shù)據(jù)集上的懲罰系數(shù)0.1,學習率衰減步長200進行實驗。表4.1基于層次注意力網絡(HAN)的文本分類及基于結構化自注意句嵌入的層次注意力網絡(HAN-SA)文本分類實驗數(shù)據(jù)對比(數(shù)值為準確率,單位為%;注:r=1時,HAN-SA模型無需懲罰冗余度,懲罰系數(shù)p-coef為0;HAN模型無r值,無冗余度懲罰項,學習率衰減步長lr-decayStep均按200設置)數(shù)據(jù)集p-coef/lr-decayStepHAN-SAr=1*HAN-SAr=5HAN-SAr=10HAN-SAr=15HAN*Yelpreview0.2/10064.1865.1365.9153.2167.110.1/20064.7865.0766.2965.95YahooAnswers74.0772.9773.2073.5474.93另外,作為本章結構化自注意句嵌入改進實驗的對照組,設置標準層次注意力網絡模型訓練時的學習率衰減步長為相同的200并進行實驗。圖4.3不同的層面數(shù)r在Yelpreview和YahooAnswers數(shù)據(jù)集上的文本分類表現(xiàn)(數(shù)值為準確率,單位為%;注:懲罰系數(shù)p-coef為0.1,學習率衰減步長lr-decayStep為200)根據(jù)對懲罰項系數(shù)p-coef、學習率衰減步長lr-decayStep和層面數(shù)r的調參實驗對比,最終選取懲罰項系數(shù)0.1、學習率衰減步長200作為HAN和HAN-SA模型參數(shù),選取層面數(shù)10作為應用于Yelpreview的HAN-SA模型的參數(shù),選取層面數(shù)15作為應用于YahooAnswers的HAN-SA模型的參數(shù)。根據(jù)模型的調參結果,在測試集上對HAN-SA模型和HAN模型進行測試檢驗,實驗結果如表4.2。表4.2HAN-SA模型和HAN模型的調參結果對比測試(數(shù)值為準確率,單位為%)測試模型YelpreviewYahooAnswersHAN-SA66.1273.39HAN67.2374.78結合實驗數(shù)據(jù)進行分析,如表4.1、表4.2和圖4.3,可以發(fā)現(xiàn):在HAN-SA的實驗數(shù)據(jù)對比中,層面數(shù)r值對文本分類表現(xiàn)的影響因數(shù)據(jù)集情況而異。對Yelpreview數(shù)據(jù)集,較大的層面數(shù)r值總體而言提升了文本分類準確率。對YahooAnswers數(shù)據(jù)集,較大的層面數(shù)r值反而劣化了文本分類準確率。Yelpreview數(shù)據(jù)集為餐飲、旅宿消費點評,屬于情感分類,YahooAnswers數(shù)據(jù)集為互聯(lián)網知識問答數(shù)據(jù),屬于主題分類。結構化自注意句嵌入機制對句子語義的特征提取能力的提升需要結合實際使用場景進行分析和運用。在HAN與HAN-SA的實驗數(shù)據(jù)對比中,盡管在本次實驗的多組實驗數(shù)據(jù)中,HAN-SA模型的文本分類準確率逼近HAN模型的文本分類水平,但以實際的實驗數(shù)據(jù)而言,HAN仍然保持更高的文本性能,且HAN模型結構相比更簡單,計算更快,更利于機器學習訓練迭代。引入結構化自注意句嵌入模型作為本文在研究層次注意力網絡模型基礎之上的創(chuàng)新嘗試,相較于標準的層次注意力網絡模型,在實際的實驗中未能實現(xiàn)理想的文本分類準確率提升效果。分析原因可能包含:實驗中對模型參數(shù)的調試可能仍有深入和提升的空間;引入結構化自注意句嵌入模型后,對層次注意力網絡模型的結構進行的相應的增改可能未能契合文本本身的結構特性,劣化了文本特征提取的性能;結構化自注意句嵌入模型的特征提取性能建立在對句子多層面語義的提取和表示之上,對文本分類準確率的實際影響可能與數(shù)據(jù)集的文本內容有關;結構化自注意句嵌入模型的特征提取性能可能依賴于長短時記憶結構;結構化自注意句嵌入模型可能不適用于層次注意力網絡模型,劣化了文本特征提取性能;總結與展望本章對本文的文本分類研究進行總結,對未來的文本分類研究提出展望??偨Y文本分類問題作為自然語言處理領域的基礎性問題,對眾多領域應用有著廣泛的影響。文本分類技術的研究水平很大程度上決定了情感分析、主題標記、垃圾/有害信息攔截等諸多上層應用的實現(xiàn)水平。本文概述了文本分類技術發(fā)展歷程,解釋了文本分類系統(tǒng)的主要結構,介紹了自基于統(tǒng)計的自然語言處理誕生以來,文本分類技術的主要類別及各類典型技術,并依據(jù)近年相關研究的實驗數(shù)據(jù)統(tǒng)計,進行了對比與分析。本文主要研究基于層次注意力模型的文本分類方法,介紹了該模型的誕生背景和主要思想,闡述了該模型的多層結構與計算原理,完成了基于該模型的文本分類實驗,并進一步實現(xiàn)了對層次注意力的可視化輸出與分析。在主要研究基于層次注意力網絡模型的文本分類基礎之上,本文嘗試了對層次注意力網絡模型進行改進,引入了結構化自注意句嵌入模型,用于層次注意力模型的句嵌入。結合句嵌入模型的修改,本文對層次注意力網絡模型的結構做了適應性改進,并完成了基于該修改模型的文本分類實驗,給出了實驗數(shù)據(jù)對比與分析。展望文本表示的質量,即文本特征提取的水平,是影響文本分類水平的核心因素。詞/句嵌入、卷積神經網絡、循環(huán)神經網絡、長短時記憶及循環(huán)神經單元、注意力機制、層次結構的不斷提出與流行逐步提升了文本特征提取的精細程度,提升了文本表示的質量,推動了文本分類水平的提高。因此,未來對文本分類的研究可以關注于文本特征提取,在文本表示上嘗試創(chuàng)新,例如:引入對語句的句法信息的分析處理,以便在詞、句等注意力的學習過程中提供修正。本文所實現(xiàn)的基于結構化自注意句嵌入的層次注意力網絡模型,在文本分類實驗中仍存在不足,未能超越層次注意力網絡模型的文本分類水平。結構化自注意句嵌入機制的特征提取特性與合適的應用場景值得進一步研究。在文本分類的分類器設計中,本文均使用的是多層感知器結構,具體為單隱含層的全連接神經網絡,是常見的分類器設計。未來對文本分類的研究也可以對分類器嘗試研究與創(chuàng)新,例如:是否可以通過更復雜的分類器模型實現(xiàn)對復雜分類問題實現(xiàn)更加精細、準確的分類,并處理好復雜分類器模型可能存在的過擬合問題。參考文獻ZichaoYang,DiyiYang,ChrisDyer,XiaodongHe,AlexSmola,EduardHovy.Hierarchicalattentionnetworksfordocumentclassification[C]//Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.2016:1480-1489.ZhouhanLin,MinweiFeng,CiceroNogueiradosSantos,MoYu,BingXiang,BowenZhou,YoshuaBengio.Astructuredself-attentivesentenceembedding[J].arXivpreprintarXiv:1703.03130,2017.WeAreSocial,Hootsuite.GlobalDigitalReport2018[EB/OL]./blog/2018/01/global-digital-report-2018.,2018.WeAreSocial,Hootsuite.Digitalin2017GlobalOverview[EB/OL]./special-reports/digital-in-2017-global-overview.,2017.WeAreSocial,Hootsuite.Digitalin2016[EB/OL]./special-reports/digital-in-2016.,2016.WeAreSocial,Hootsuite.DigitalSocialMobileWorldwide2015[EB/OL]./special-reports/digital-social-mobile-worldwide-2015.,2015.WeAreSocial,Hootsuite.DigitalSocialMobileWorldwide2014[EB/OL]./blog/2014/01/social-digital-mobile-worldwide-2014.,2014.DzmitryBahdanau,KyungHyunCho,YoshuaBengio.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[J].arXivpreprintarXiv:1409.0473,2014.MehranSahami,SusanDumais,DavidHeckerman,EricHorvitz.ABayesianapproachtofilteringjunke-mail[C]//LearningforTextCategorization:Papersfromthe1998workshop.1998,62:98-105.AndrewL.Maas,RaymondE.Daly,PeterT.Pham,DanHuang,AndrewY.Ng,ChristopherPotts.Learningwordvectorsforsentimentanalysis[C]//Proceedingsofthe49thannualmeetingoftheassociationforcomputationallinguistics:Humanlanguagetechnologies-volume1.AssociationforComputationalLinguistics,2011:142-150.SidaWangandChristopherD.Manning.Baselinesandbigrams:Simple,goodsentimentandtopicclassification[C]//Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics:ShortPapers-Volume2.AssociationforComputationalLinguistics,2012:90-94.TomasMikolov,HyaSutskever,KaiChen,GregCorrado,JeffreyDean.Distributedrepresentationsofwordsandphrasesandtheircompositionality[C]//Advancesinneuralinformationprocessingsystems.2013:3111-3119.SvetlanaKiritchenko,XiaodanZhu,SaifM.Mohammad.Sentimentanalysisofshortinformaltexts[J].JournalofArtificialIntelligenceResearch,2014,50:723-762.DuyuTang,FuruWei,NanYang,MingZhou,TingLiu,BingQin.Learningsentiment-specificwordembeddingfortwittersentimentclassification[C]//Procee
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 機械施工現(xiàn)場安全管理措施
- 2025幼兒園秋季情景劇表演計劃
- 小學《勞動與家庭》教育實踐計劃
- 一年級勞動教育課程實施細則
- 航空航天項目部職責與團隊協(xié)作
- 非營利組織活動物品購買申請報告范文
- 食品安全ISO9001質量管理體系內部審核計劃
- 電子產品質量管理體系與措施
- 冬季室內裝修施工材料儲存措施
- 小學語文綜合素養(yǎng)培養(yǎng)計劃
- 廣東省廣州市白云區(qū)2023-2024學年八年級上學期期末英語試題(答案)
- 品管圈PDCA案例-提高成人術后疼痛評估與護理規(guī)范率醫(yī)院品質管理成果匯報
- 我的家鄉(xiāng)湖南岳陽
- 《QOHAB123-2023高端G系列冷鐓鋼用熱軋盤條》
- 揚塵防治(治理)監(jiān)理實施細則(范本)
- 華為智慧礦山解決方案
- 幼兒園辦園行為督導評估指標體系表
- 房地產項目能源管理制度制定
- 核心素養(yǎng)下小學道德與法治實踐性作業(yè)設計探究
- DB11∕T 161-2012 融雪劑 地方標準
- 會務活動質量保障措施
評論
0/150
提交評論