《行為金融學(xué)論文:基于LSTM模型的股吧評論情感分析案例》11000字_第1頁
《行為金融學(xué)論文:基于LSTM模型的股吧評論情感分析案例》11000字_第2頁
《行為金融學(xué)論文:基于LSTM模型的股吧評論情感分析案例》11000字_第3頁
《行為金融學(xué)論文:基于LSTM模型的股吧評論情感分析案例》11000字_第4頁
《行為金融學(xué)論文:基于LSTM模型的股吧評論情感分析案例》11000字_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

行為金融學(xué)論文:基于LSTM模型的股吧評論情感分析案例摘要隨著機器學(xué)習(xí)、情感分析技術(shù)的廣泛快速發(fā)展,原本認為難以量化分析的投資者情感可以通過投資者在網(wǎng)絡(luò)空間的留言內(nèi)容作為分析其情感的切入點。此外結(jié)合文本數(shù)據(jù)分析模型能夠幾何級別地提升分析效率,且相關(guān)模型中擬合度較好的模型準確率一般可以達到85-90%。運用神經(jīng)網(wǎng)絡(luò)建模分析文本情感,預(yù)測輿情變化趨勢成為熱門話題,循環(huán)神經(jīng)網(wǎng)絡(luò)因相較于CNN有更強的持續(xù)學(xué)習(xí)能力和更好的學(xué)習(xí)效果而更受歡迎。本文探討了人們在網(wǎng)絡(luò)投資者社區(qū)評論中所蘊含的情感狀態(tài),從東方財富網(wǎng)上證指數(shù)股吧爬取用戶評論數(shù)據(jù)保存并進行情感分析,使用Word2Vec詞向量模型將評論文本轉(zhuǎn)化為詞向量,用于對投資者情緒進行模擬。從而模擬中國證券投資者的投資情緒變化。統(tǒng)計投資者留下評論中所蘊含的積極、消極、中性情感,結(jié)合TextRNN+LSTM分析模型有選擇性地分析判斷用戶情感傾向與證券走勢的相互關(guān)系,提出了投資者的情緒會在幾天的時間里對證券市場產(chǎn)生一定程度的影響,在影響程度較為明顯時,利好政策的出現(xiàn)對投資者情緒的影響較為明顯。同時也證實了從統(tǒng)計學(xué)角度來看,投資者情緒變化是股市收益產(chǎn)生波動的其中一個充分條件。本文也對LSTM模型使用過程進行總結(jié)分析,探討該模型未來在情感分析領(lǐng)域的突破與發(fā)展。例如改進模型結(jié)構(gòu),增加邏輯層數(shù),減少梯度下降造成的損失。本文的創(chuàng)新點在于:1、運用LSTM與其他模型結(jié)合使用以解決RNN模型在預(yù)測文本數(shù)據(jù)時常常出現(xiàn)的梯度消失或梯度爆炸問題、2、使用TextRNN用于長文本處理。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;文本數(shù)據(jù)分析;神經(jīng)網(wǎng)絡(luò);LSTM模型目錄TOC\o"1-2"\h\z\u16590緒論 1592(一)研究背景與意義 119342(二)文獻綜述 110805一、相關(guān)理論分析與應(yīng)用 329710(一)網(wǎng)絡(luò)文本對情緒的反應(yīng) 326183(二)計算機量化金融行為的發(fā)展 423742(三)神經(jīng)網(wǎng)絡(luò)量化文本情緒的發(fā)展 47328二、分析模型的選擇與組合 54886(一)模型選擇 528052(二)LSTM模型的優(yōu)勢 517383(三)TextRNN與LSTM的結(jié)合 728984三、基于LSTM模型的運用 829528(一)數(shù)據(jù)獲取 815856(二)文本情感評價 1023980(三)文本特征提取 1026783(四)模型結(jié)構(gòu)建立 113900(五)檢驗指標的選擇 1229492四、分析結(jié)果與檢驗 1330034(一)載入訓(xùn)練集 131180(二)載入測試集 1330402(三)模型的準確性檢驗 1423918(四)模型優(yōu)化策略與結(jié)果 1423166(五)模型成果總結(jié) 1522217結(jié)論 1513161(一)模型優(yōu)勢與不足 1525908(二)研究過程的反思 161087(三)總結(jié)與未來展望 1610123主要參考文獻 179039附錄 18緒論(一)研究背景與意義投資者因為各種各樣的原因,對未來的市場發(fā)展、資產(chǎn)收益的預(yù)期存在偏差REF_Ref25737\r\h[11],這樣的偏差并不是無跡可尋,除此之外,行為金融學(xué)的研究學(xué)者認為上述特性是可以被量化的。而在其量化方式的選擇上,隨著文本學(xué)習(xí)技術(shù)的發(fā)展,從網(wǎng)絡(luò)文本為切入點,通過文本數(shù)據(jù)分析個體投資情緒的方式成為可能。而針對投資者情緒的變量研究也從一維變量逐漸向高維發(fā)展,這就為使用機器學(xué)習(xí)等方法建立分析模型,分析參與者行為創(chuàng)造了理論基礎(chǔ)和條件。通過對于網(wǎng)絡(luò)用戶的評論文本分析,人們得以研究一段時間內(nèi)網(wǎng)絡(luò)用戶的情感傾向。通過神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)來針對投資者情緒進行研究有很多實踐性意義:對于相關(guān)網(wǎng)絡(luò)文本的情感分析可以探索中國投資者的情緒與市場變化的關(guān)聯(lián),建立符合情況的投資者情緒文本詞典,而針對這方面的研究能夠完善對于中國市場的金融投資行為研究理論的補充,對中國投資者的投資行為與心理理論的完善做出貢獻,分析我國投資者對于金融市場活動以及各類相關(guān)消息、輿論的反應(yīng)程度與態(tài)度,有助于我國更好地完善股票市場產(chǎn)品的定價機制和管理體制并關(guān)注投資者的心理狀態(tài),如可以運用相關(guān)文本分析技術(shù)將包括評論在內(nèi)的網(wǎng)絡(luò)文本數(shù)據(jù)轉(zhuǎn)化為詞向量,用相關(guān)分詞后的文本數(shù)據(jù)進行訓(xùn)練和模擬預(yù)測未來的情感趨勢。在機器學(xué)習(xí)的應(yīng)用實踐中,有一種研究方法是對投資者的行為數(shù)據(jù)進行挖掘與分析,將金融理論知識同計算機技術(shù)相結(jié)合始終是十分熱門的課題,通過大數(shù)據(jù)和機器學(xué)習(xí)構(gòu)建投資者模型,不僅可以分析價格變動的深層原因,探尋投資價值規(guī)律,也能預(yù)防系統(tǒng)風(fēng)險,為監(jiān)管機構(gòu)更好地把握投資者情緒,監(jiān)測情緒,疏導(dǎo)輿情,維護合理市場秩序,從而對保護消費者或企業(yè)產(chǎn)生作用MMF&ITHESISFINANCIALDISINTERMEDIATION——KELLYWRIGHT(2010)。MMF&ITHESISFINANCIALDISINTERMEDIATION——KELLYWRIGHT(2010)(二)文獻綜述1.理論研究現(xiàn)狀從行為金融學(xué)的相關(guān)理論來看人們投資者的行為時會發(fā)現(xiàn),人們的投資活動也容易受自身的心理因素影響REF_Ref2862\r\h[9]。投資活動往往暴露了一些投資者的感性情緒,據(jù)此研究工作人員認為,決策者的投資偏好一般都是多個方面、容易改變的,這種投資偏好往往只在進行決策的過程中才能逐漸形成;投資者往往由于自身勢單力薄,缺乏專業(yè)知識REF_Ref4548\r\h[15],消息渠道和投資經(jīng)驗等原因根據(jù)“噪聲信息”投資,相關(guān)投資社區(qū)等就容易因同類用戶的聚集而形成噪聲并互相影響,干擾自身判斷,也有明顯的羊群效應(yīng)REF_Ref26434\r\h[1],“出盈保虧”現(xiàn)象也很普遍,這些無不說明投資者的情緒會對其行為產(chǎn)生影響,由此分析投資者的情緒表達對于其投資行為是十分重要的參考REF_Ref26692\r\h[2]。從情緒衡量的指標來看,許多研究人員從尋找可以衡量投資者情緒的數(shù)據(jù)來源出發(fā),使用時間序列模型分析其與股市收益的相關(guān)性,并得出其與股市收益存在長期正相關(guān)的關(guān)系,也說明了投資者情緒與社會投資活動存在較強的關(guān)聯(lián),其決策會對市場變化發(fā)生一定程度的影響REF_Ref1932\r\h[6]。而隨著深度學(xué)習(xí)技術(shù)的發(fā)展,現(xiàn)代量化投資者情緒可以從海量的網(wǎng)絡(luò)文本數(shù)據(jù)中高效地挖掘出其隱含的情緒狀態(tài),并從中提取出有價值的信息。2.理論發(fā)展人們的非理性的行為可能產(chǎn)生持續(xù)性影響,通過結(jié)合心理學(xué)與行為學(xué)的相關(guān)理論,系統(tǒng)地研究金融活動中的參與者行為REF_Ref512\r\h[14],理查德·塞勒證明了人的性格確實會對個人決策與市場結(jié)果造成系統(tǒng)性影響。邁爾斯塔特曼從行為投資組合、心理會計、行為資產(chǎn)定價模型論述投資者的認識偏差、認知錯誤。神經(jīng)網(wǎng)絡(luò)模擬人腦中各個神經(jīng)元對于信息的傳遞處理過程,按照其連接形態(tài)和方式可以組成不同的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點之間相互連接構(gòu)成,每一個節(jié)點都可以用來代表一個輸出的函數(shù),這個節(jié)點輸出的函數(shù)也被我們統(tǒng)統(tǒng)地稱為一個激勵函數(shù),而每兩個節(jié)點之間的相互連接都可以代表一個對于通過該節(jié)點連接產(chǎn)生信號的加權(quán)值,這個節(jié)點的加權(quán)值也被我們統(tǒng)統(tǒng)地稱為輸出的權(quán)重,整個神經(jīng)網(wǎng)絡(luò)的每一個輸出根據(jù)其所受連接的方式、激勵函數(shù)以及其權(quán)重的不同而變化。有的研究者提出可以將其應(yīng)用于自然語言處理領(lǐng)域,這么做的最大優(yōu)勢主要就是無需再花費大量的時間精力在進行特征提取與選擇上。將單詞的分布式表達器輸入應(yīng)用到了神經(jīng)網(wǎng)絡(luò)中,運用卷積、點乘、非線性函數(shù)、矩陣相乘等運算,自動地提取并給出對文本進行分類有價值的信息,具有易讀性,具備抗干擾能力,能夠保持模型相對穩(wěn)定REF_Ref31277\r\h[3]。在情緒衡量方面,網(wǎng)絡(luò)用戶的行為、評論往往是運用分析模型計算的重要領(lǐng)域,Da、Engelberg&Gao(2015)通過民眾在互聯(lián)網(wǎng)上的搜索內(nèi)容來衡量投資者情緒的變化。Jiangetal.(2016)通過LM詞典對經(jīng)理人的文本情感指數(shù)予以搭建,根據(jù)相關(guān)研究和分析,未來股市收益、情感指數(shù)二者間的關(guān)系即反向影響。MeenaRambocas回顧在線情緒分析的營銷文獻,并從分析單元、抽樣分析和情緒分析的角度得出了情緒對用戶的營銷作用REF_Ref22767\r\h[17]。在國內(nèi),研究人員通過從虛擬交流平臺獲取數(shù)據(jù),構(gòu)建出一系列可以用來評價投資者心理狀態(tài)的指標;或者采用相關(guān)指標,如消費者信心指數(shù)(池麗旭、莊心田,2009)、好淡指數(shù)(呂志巖,2013、曾炫川,2015)、新增開戶數(shù)、開放式股票型基金資金凈流入(王春,2014)等對投資者偏好,信心,投資者增加量等相對較為廣泛接受的指標進行間接分析。REF_Ref31336\r\h[5]從文本情感分析的角度,人們研究的對象從IPO公司上市前主流財經(jīng)媒體正負面詞匯數(shù)(汪昌云、武佳薇,2015)、東方財富網(wǎng)標題內(nèi)容的詞頻統(tǒng)計(易洪波等,2015)、用戶在股吧、論壇的評論數(shù)(劉珂言,2015)、知網(wǎng)、微博話題信息文本分析(孟雪井、孟祥蘭、胡楊洋,2016)以及東方財富網(wǎng)股吧的評論數(shù)據(jù)(孟志青、鄭國杰、趙韻文,2018)等都有作為直接代理變量衡量投資者情緒指標REF_Ref15290\r\h[10]。3.理論應(yīng)用及成果憑借著文本分類技術(shù)的快速發(fā)展與進步,金融學(xué)領(lǐng)域的文本分析效率得到大幅度的提高,利用文本挖掘技術(shù)精煉非結(jié)構(gòu)化文本數(shù)據(jù),機器學(xué)習(xí)在文本分析上的應(yīng)用是十分熱門的課題。通過解析人們的評價和言論獲取的文本數(shù)據(jù),可以用于刻畫關(guān)注度、情緒或語調(diào)、可讀性、新聞隱含波動率和意見分歧等方面。文本信息的來源多種多樣,從虛擬網(wǎng)絡(luò)社區(qū)的發(fā)帖與跟評,消費者對產(chǎn)品的評價,上市公司經(jīng)營報告,電話錄音文稿,分析師研究報告,會議紀要,由央行等政府機構(gòu)發(fā)布的權(quán)威報告等等都屬于文本大數(shù)據(jù)的范疇。在信息浩如煙海的時代,由于文本數(shù)據(jù)搜集難度與成本都較高,加上文本含義豐富,表達意味多樣,傳統(tǒng)數(shù)據(jù)收集方式搜集效率逐漸下降。而隨著文本信息從傳統(tǒng)收集方式向互聯(lián)網(wǎng)傳遞介質(zhì)的方式轉(zhuǎn)變,文本數(shù)據(jù)收集和傳輸成本有了更為簡便有效率的途徑,網(wǎng)絡(luò)詞庫的規(guī)模不斷得到補充和豐富。模型訓(xùn)練也讓龐大的數(shù)據(jù)文本得以被發(fā)掘出其深層涵義,為計算機領(lǐng)域的自然語言處理方法提供了適合的發(fā)揮空間。傳統(tǒng)數(shù)據(jù)需要經(jīng)過系統(tǒng)性的組織和安排來收集,常用的經(jīng)濟和金融領(lǐng)域數(shù)據(jù)多需要一段時間的累積才能形成其結(jié)果,而文本大數(shù)據(jù)的頻率可以高達秒級,面對這為高頻研究提供了數(shù)據(jù)基礎(chǔ)。針對文本數(shù)據(jù)的分析能夠更清晰判斷用戶的喜好。文本分類中的一個關(guān)鍵問題是特征表示,它通?;谠~袋模型,其中unigrams、bigrams、ngrams通常被提取為特征。此外,幾種特征選擇方法,如頻率、MI、PLSA、LDA被應(yīng)用于選擇更具鑒別性的特征。然而,傳統(tǒng)的特征表示方法往往忽略了文本中的上下文信息或詞序有時可能對于文本含義的把握出現(xiàn)偏差,這就需要循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建更長的文義依賴關(guān)系。未來幾年,在經(jīng)濟和金融領(lǐng)域運用文本大數(shù)據(jù)研究方面,將開拓更為豐富的數(shù)據(jù)源,通過訓(xùn)練與分析篩選更適合的機器學(xué)習(xí)模型、改良深度學(xué)習(xí)方法來優(yōu)化文本數(shù)據(jù)的分析效果,提高模型準確度與預(yù)測能力REF_Ref27451\r\h[12]。由于文本數(shù)據(jù)不可避免的帶有發(fā)出者的主觀情緒意圖,數(shù)據(jù)也存在情緒色彩,可能對研究產(chǎn)生偏差,此外無監(jiān)督學(xué)習(xí)過程也相對復(fù)雜,文本數(shù)據(jù)是否能夠準確反映所研究的潛在內(nèi)容,需要更多研究。一、相關(guān)理論分析與應(yīng)用網(wǎng)絡(luò)文本對情緒的反應(yīng)近年來,關(guān)于情感分析的研究工作得到許多關(guān)注,近年來,關(guān)于情感分析的研究工作得到許多關(guān)注,相關(guān)研究人員在文本情感分析方面經(jīng)過了不懈努力,取得了較大進步。文本情感分析,是對帶有海量數(shù)據(jù)文本分析處理,挖掘意見,探究情感傾向并預(yù)測其變化發(fā)展。隨著現(xiàn)代科技的迅猛發(fā)展,互聯(lián)網(wǎng)社區(qū)交流成為網(wǎng)絡(luò)用戶的新型交流手段,虛擬空間往往讓人們能夠更直白地表達自己的情緒。投資者情緒指數(shù)的構(gòu)建,關(guān)鍵在于選擇合適的搜索關(guān)鍵詞集,能夠準確全面地反映投資者的心理特征。網(wǎng)絡(luò)的虛擬性使民眾選擇網(wǎng)絡(luò)平臺展現(xiàn)自己的情感,網(wǎng)民的發(fā)言真假難辨,有時候許多非理性的情緒更容易借由網(wǎng)絡(luò)不斷傳播,對網(wǎng)絡(luò)社區(qū)用戶心理產(chǎn)生影響。針對網(wǎng)絡(luò)輿情的動態(tài)分析可以觀察到相關(guān)情緒變化趨勢,對于社會輿情關(guān)注有很大作用。計算機量化金融行為的發(fā)展隨著計算機技術(shù)的發(fā)展,分析繁雜的金融數(shù)據(jù)并探索相關(guān)規(guī)律有了更高效的金融量化分析手段REF_Ref31336\r\h[5]。熱門的機器學(xué)習(xí)、深度學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘等方面都有不小的應(yīng)用前景。在預(yù)測股票市場發(fā)展的可行性方面,孟毅等人(2009)通過用BP神經(jīng)網(wǎng)絡(luò)預(yù)測股價模型,證明合適的網(wǎng)絡(luò)模型結(jié)構(gòu)是可以對股票市場進行相對準確的預(yù)測孟毅,呂渭濟.基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘及在股價預(yù)測中的應(yīng)用[J]孟毅,呂渭濟.基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘及在股價預(yù)測中的應(yīng)用[J].現(xiàn)代計算機(專業(yè)版),2009(02):106-108+126.針對金融市場出現(xiàn)的諸多不確定因素以及投資者的心理因素變化,文本大數(shù)據(jù)分析可以用來對投資者的情緒,波動程度,文本數(shù)據(jù)變化進行度量,對于定量分析投資者情緒和投資市場輿情狀態(tài)都有很多幫助,循環(huán)神經(jīng)網(wǎng)絡(luò)在文本分析中已經(jīng)得到了較為廣泛的運用并取得了一定的成效。傳統(tǒng)情感分類方法有基于情感詞典分類以及基于機器學(xué)習(xí)分類兩種。傳統(tǒng)的基于情感詞典分類要求模型先記入基本的表達文本態(tài)度情感的詞匯并判斷其情感,使用訓(xùn)練后的情感詞典進行后續(xù)分類的使用,不同領(lǐng)域中某些字或詞匯可能有不同的含義,例如“綠”、“熊”等字在投資中往往與虧損等消極因素聯(lián)系?;跈C器學(xué)習(xí)分類則是選出一部分積極語料與消極語料交給模型學(xué)習(xí),再通過訓(xùn)練得出分類規(guī)則,獲得訓(xùn)練后的標簽結(jié)果來對測試集進行情感預(yù)測,其分析的準確程度會受到情感詞典的質(zhì)量以及詞典文本覆蓋度的影響。機器學(xué)習(xí)需要對文本分類進行標注,如將褒義文本標注為1,貶義文本標注為0,將文本含義劃分為積極文本與消極文本,這樣的標注方法更貼合讀者對于文本含義的評價,此外,在一些社區(qū)也可以用星級評價,“贊”、“踩”,轉(zhuǎn)發(fā)等行為來判斷網(wǎng)絡(luò)用戶的情感。分詞統(tǒng)計需要構(gòu)建特征詞矩陣,將特征向量化,而一些行業(yè)中專用的詞匯也需要特別留意,并將其加入詞典。機器學(xué)習(xí)依賴高質(zhì)量的數(shù)據(jù)集,需要高質(zhì)量的特征構(gòu)造與提取,這對于數(shù)據(jù)集質(zhì)量提出了一定的要求。而深度學(xué)習(xí)方法將需要分類的評論語料轉(zhuǎn)化為詞向量,通過不同的資料語義文本組織和數(shù)據(jù)合成的分析方法,得到基于相應(yīng)語料文本的評論特點和語義表達式,最后通過深度神經(jīng)網(wǎng)絡(luò)對其語料進行了綜合分類,并輸出評價結(jié)果。而深度學(xué)習(xí)往往需求文本數(shù)據(jù)量相當(dāng)大,有時在數(shù)據(jù)搜集上較為困難。神經(jīng)網(wǎng)絡(luò)量化文本情緒的發(fā)展情緒分類是通過提取文本語料中的情緒要素,并利用之前訓(xùn)練好的分類模型,將其劃分到之前預(yù)定義的情緒類別中。這項技術(shù)可以應(yīng)用于幫助公安機關(guān)準確掌握社會情緒動態(tài),為后期實現(xiàn)對網(wǎng)絡(luò)輿情的監(jiān)控、預(yù)測和管理提供支持。在以往的研究中,針對文本情緒分類的研究大多集中在正負向的情感分類中,并且取得了一定的成果。近年來,對于文本語料的情緒分類逐漸成為自然語言處理領(lǐng)域的熱點問題。隨著深度學(xué)習(xí)理論的不斷發(fā)展,文本分類的研究重點逐漸轉(zhuǎn)移到了對于合適的神經(jīng)網(wǎng)絡(luò)的分類模型的研究上。中文情緒分類已經(jīng)成為自然語言處理領(lǐng)域的熱點問題?;ヂ?lián)網(wǎng)評論信息通常為短文本,受字數(shù)的限制,往往內(nèi)容簡短、且直接表達含義REF_Ref27451\r\h[12]。中文屬于象形文字,它的表達單元雖然也是詞,但是卻以兩個或兩個以上的多字詞為主,詞與詞之間沒有固定的分隔符,邊界非常模糊,在不經(jīng)過分詞的情況下,計算機很難準確識別中文詞語的具體含義,也就無法準確完成情緒分類的任務(wù)。因此,對語料的分詞是否準確是影響模型最終分類效果的一個關(guān)鍵因素。二、分析模型的選擇與組合(一)模型選擇傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型并不能做到長期保留之前學(xué)習(xí)的內(nèi)容,或先前的事件推斷后續(xù)的事件,隨著傳遞時間的逐漸增加,后獲取的信息對于整個模型的影響弱于先進入的信息。RNN解決了這個問題。RNN是包含循環(huán)的網(wǎng)絡(luò),允許信息的持續(xù)輸入輸出和長時間的分析與記憶。本文的分析模型選擇以RNN類型的模型,而LSTM模型(LongShort-TermMemory)屬于時間遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的一種。LSTM模型相對于它的前身RNN模型,LSTM模型也具有神經(jīng)網(wǎng)絡(luò)的重復(fù)模塊鏈,多個模塊則分別具有不同的結(jié)構(gòu)類型。與神經(jīng)網(wǎng)絡(luò)的簡單的一層相比,LSTM擁有四層,這四層以特殊的方式進行交互。LSTM能夠?qū)⒁欢螕碛休^長文字內(nèi)容的文本向量讀入并分析,避免了因上下文分析缺失導(dǎo)致的情感判斷失誤。適用于一些表達含蓄,正話反說等類型文本。RNN模型一樣具備遞歸連接,而LSTM模型能夠有效針對長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題,而這是傳統(tǒng)RNN模型不具備的。LSTM模型的優(yōu)勢長文本分析領(lǐng)域深度神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于復(fù)雜文本分析,但隨著深度的增加,也容易導(dǎo)致出現(xiàn)梯度的消失與發(fā)生梯度爆炸等問題。梯度消失的主要因素在于深度的神經(jīng)網(wǎng)絡(luò)以及反向傳播,數(shù)據(jù)在較長的傳播過程中由于其權(quán)值過小導(dǎo)致文本數(shù)據(jù)誤差逐漸減小。為了更好地優(yōu)化分析模型,尋找到最簡單的損失函數(shù)及其最低值,我們通常需要考慮梯度消失下降的途徑,而這種梯度消失往往是在兩種類型的情況下較容易發(fā)生的:深層神經(jīng)網(wǎng)絡(luò)以及選擇在其模型中都選擇了不適合的損失函數(shù)。梯度式的爆炸通常會發(fā)生在深層網(wǎng)絡(luò)以及權(quán)值的初始化取得閾值過高的條件下,文本數(shù)據(jù)誤差越發(fā)增大。綜上所述,相較于普通的RNN模型,LSTM模型能夠在較長的文本序列分析中有更好的表現(xiàn)。LSTM的門結(jié)構(gòu)圖SEQ圖\*ARABIC1LSTM細胞結(jié)構(gòu)圖LSTM模型具有輸入門,遺忘門,輸出門等結(jié)構(gòu),LSTM的關(guān)鍵就在細胞狀態(tài)的更新,即過程Ct-1→Ct,細胞狀態(tài)類與傳送帶相似,直接在整個鏈上運行,僅僅少量的線性數(shù)據(jù)進行交流,這使得細胞信息便于保持。LSTM通過其這種獨特的被稱為“門”的結(jié)構(gòu),擁有了增加或去除細胞狀態(tài)上的信息的能力,能夠有選擇性地處理相關(guān)信息REF_Ref30201\r\h[13]。其結(jié)構(gòu)組成中文本數(shù)據(jù)依次遺忘門,輸入門細胞更新狀態(tài)和輸出門,傳遞到下一層。表SEQ表\*ARABIC1LSTM的結(jié)構(gòu)與原理結(jié)構(gòu)名稱原理結(jié)構(gòu)公式遺忘門決定從上一層細胞狀態(tài)中丟棄哪些信息,主要通過一定的遺忘概率來判斷是否要遺忘上一層的細胞隱藏狀態(tài)。ft=輸入門σ:通過輸出一個[0,1]之間的概率值決定通過的比例Wf::記憶單元遺忘上一層細胞狀態(tài)的概率xt:當(dāng)前時刻輸入值ht-1:上一時刻輸出值細胞更新狀態(tài)決定t時刻細胞內(nèi)容CtC輸出門是否將當(dāng)前時刻xt輸入細胞狀態(tài)Ct圖SEQ圖\*ARABIC2LSTM模型圖圖SEQ圖\*ARABIC3GRU模型圖LSTM和GRU是解決短時記憶問題的解決方案,都有多個信息輸入渠道。它們具有稱為“門”的內(nèi)部機制,可以調(diào)節(jié)信息流,在學(xué)習(xí)過程中,他們能只保留相關(guān)信息來進行預(yù)測,并忘記不相關(guān)的數(shù)據(jù)。門的概念類似于tanh雙曲正切函數(shù)tanh雙曲正切函數(shù)tanhx表SEQ表\*ARABIC2GRU模型結(jié)構(gòu)更新門決定了要忘記哪些信息以及哪些新信息需要被添加。重置門重置門用于決定遺忘先前信息的程度。LSTM的層級LSTM可以設(shè)計多層結(jié)構(gòu),將上層輸出數(shù)據(jù)作為下層輸入數(shù)據(jù)讀取并使用,如在大規(guī)模翻譯中,簡單的堆疊LSTM層最多可以工作4層。深度堆疊的LSTM通常比較淺的模型提供更好的精度。然而,簡單地堆疊更多的LSTM層只適合一定數(shù)量的層,超過一定程度,就會加重訓(xùn)練網(wǎng)絡(luò)時的負擔(dān),導(dǎo)致訓(xùn)練效率下降。TextRNN與LSTM的結(jié)合在這里我利用TextRNN提取文本信息并分類,TextRNN模型可以對不同大小的局部文本數(shù)據(jù)進行提取,將LSTM模型與TextRNN模型共同運用,取得的文本特征既有局部特征,同時還有全局特征。Sklearn結(jié)構(gòu)可以使用LSTM或GRU單元結(jié)構(gòu),在層級上可以建立單向或雙向的LSTM并將雙向LSTM每一個時間步長上的兩個隱藏狀態(tài)拼接在一起,也可以在單層LSTM每一個RNN核后添加dropout層以防止過擬合。此外在訓(xùn)練過程中,如果出現(xiàn)一段時間擬合后,精確度不再提高的情況時,停止擬合以節(jié)約時間資源。圖SEQ圖\*ARABIC4TextRNN相關(guān)參數(shù)的配置如圖4為TextRNN模型中設(shè)置的相關(guān)參數(shù),建立2層隱藏層,每層128個神經(jīng)元,設(shè)置dropout保留比例0.8,學(xué)習(xí)率0.001,一次訓(xùn)練選用128個樣本,總迭代20輪次。每每100輪輸出一次結(jié)果,每進行10輪將數(shù)據(jù)存入tensorboard。三、基于LSTM模型的運用數(shù)據(jù)獲取數(shù)據(jù)來源評論文本數(shù)據(jù)來源自東方財富網(wǎng)上證指數(shù)股吧的評論數(shù)據(jù)。股吧數(shù)據(jù)所代表的用戶主要是投資活動的積極參與者,該網(wǎng)站重要指數(shù)股吧往往具有更多的關(guān)注數(shù),作為中國金融市場重要參考之一的上證指數(shù)知名度高,其股吧用戶基數(shù)大,用戶質(zhì)量相對較高,因此爬取該區(qū)域獲取投資者情緒較為有效率。將網(wǎng)頁按發(fā)帖時間排列。檢查網(wǎng)頁源代碼后發(fā)現(xiàn)股吧評論標題存儲在div元素類名articleh下,據(jù)此編寫代碼獲取該元素下的內(nèi)容。數(shù)據(jù)預(yù)處理讀取網(wǎng)絡(luò)爬取所獲得的數(shù)據(jù),將文本進行切詞,分段,移除無關(guān)數(shù)據(jù),刪除缺失數(shù)據(jù)、清除不需要的html標簽,統(tǒng)一文字,刪除與用戶情緒無關(guān)數(shù)據(jù),刪除無用字段,文本分詞,去除停用詞,統(tǒng)計選擇特征值等等,將數(shù)據(jù)匯總,存入csv文件,以utf-8編碼。使用了Word2Vec詞向量模型將評論文本轉(zhuǎn)化為向量。Word詞嵌入緩解了詞語含義稀疏的問題,能夠捕獲有價值的文本含義。Word2Vec的把自然語言中的每一個詞,表示成一個統(tǒng)一意義統(tǒng)一維度的短向量。它的工作過程屬于單詞聚類的方法,能夠?qū)崿F(xiàn)單詞語義推測、句子情感分析等目的,適用于序列數(shù)據(jù)的處理。它的本質(zhì)其實是簡單化的神經(jīng)網(wǎng)絡(luò)模型。經(jīng)過一系列整理后,從2021年3月1日起在上證指數(shù)股吧獲取了約1000條符合條件的數(shù)據(jù)信息,去除多余的標簽后存入文件。從圖2中的節(jié)選部分評論數(shù)據(jù)就可以看出,股吧用戶的評論數(shù)據(jù)有很多專有俚語或行業(yè)術(shù)語,這些詞匯在投資者群體中往往起到詞義簡明但內(nèi)涵豐富的作用,相關(guān)專用詞語也是在分析過程中不可缺少的部分,在使用情感詞典進行分析時就需要將相關(guān)詞匯的含義載入,在使用人工判斷語義情感的機器學(xué)習(xí)模型時,則會對于分詞者的相關(guān)行業(yè)知識儲備有一定的要求。數(shù)據(jù)保存與劃分將所獲取數(shù)據(jù)的70%劃為訓(xùn)練集,30%劃為測試集。本論文代碼部分使用python語言,其中所運用的代碼庫有Numpy和Pandas,選擇了Tensorflow,keras深度學(xué)習(xí)相關(guān)框架并使用了tensorboard將模型結(jié)構(gòu)與分析結(jié)果可視化REF_Ref2366\r\h[7]。文本特征的標注上,用0標注消極情感評論,1標記積極情感評論,用sklearn隨機選擇評論數(shù)據(jù)進行劃分,獲得測試集與訓(xùn)練集。使用requests和BeautifulSoup兩個庫,并將requests進一步封裝成根據(jù)url獲取HTML的函數(shù)。使用User-Agent,運行程序獲得爬取結(jié)果,保存數(shù)據(jù)存入csv文件。表SEQ表\*ARABIC3函數(shù)表函數(shù)名功能build_vocab(train_dir,vocab_dir,vocab_size=5000)根據(jù)訓(xùn)練集構(gòu)建詞匯表并存儲read_vocab(vocab_dir)讀取詞匯表read_category()讀取分類目錄(積極、中立、消極)batch_iter(x,y,batch_size=64)生成批次數(shù)據(jù)圖SEQ圖\*ARABIC5部分評論數(shù)據(jù)節(jié)選文本情感評價將所獲取的原始評論文本切分保存后,我首先是搜集了投資相關(guān)的專業(yè)知識與術(shù)語,,有一定的投資相關(guān)知識積累后,參考其他針對投資者的情緒分析研究文獻中的投資者情緒正負性劃分邏輯規(guī)律,用人工標記投資者情緒正負性劃分邏輯規(guī)律,建立一個關(guān)于投資者情緒詞典,但其精準性可能會受到一些主觀因素的影響較大,而且效率較低。之后我再次調(diào)用了百度的情緒分析api對情緒的正負性進行分析,通過調(diào)用它的api就已經(jīng)能夠很好地實現(xiàn)對情緒的分類,其效率與準確度較為理想。文本特征提取文本特征提取要求將原始文本結(jié)構(gòu)化,抽象為數(shù)學(xué)向量組以便計算機進行分析。使用Word2Vec對分類文本進行預(yù)處理和特征提取。Word2Vec可以將詞語嵌入一個數(shù)字空間,把一個詞語轉(zhuǎn)換成對應(yīng)向量形式。在運用TextRNN前,一般要制定固定長度的文本序列,我使用了<pad>標簽將文本長度固定為同一水平,對過長的文本向量進行分詞,提取關(guān)鍵特征。TextRNN是專門用于解決文本分類問題的循環(huán)神經(jīng)網(wǎng)絡(luò),其后一前一步時間輸出為后一步時間輸入,能夠很好地保存序列中的長距離依賴關(guān)系,用深層卷積以捕捉長序列信息。TensorFlow具有多層級結(jié)構(gòu),在創(chuàng)建深度學(xué)習(xí)網(wǎng)絡(luò)時對數(shù)據(jù)進行數(shù)值和圖形計算。借助TensorFlow深度學(xué)習(xí)框架,設(shè)計實現(xiàn)了基于LSTM-TextRNN的中文短文本情緒分類模型。圖SEQ圖\*ARABIC6TextRNN結(jié)構(gòu)模型結(jié)構(gòu)建立關(guān)于模型分析思路,即模擬將LSTM模型用于分析股票市場行情對投資者產(chǎn)生情緒的影響,預(yù)測未來趨勢。模型分析流程及所經(jīng)過的主要步驟有:選擇建立合適的深度學(xué)習(xí)框架,使用Word2Vec將文本數(shù)據(jù)轉(zhuǎn)化為詞向量,建立深度學(xué)習(xí)模型進行訓(xùn)練與測試,對模型進行優(yōu)化,防止過擬合現(xiàn)象發(fā)生。圖6學(xué)習(xí)模型全流程檢驗指標的選擇我選擇了二分模型指標作為檢驗參考指標。混淆矩陣(confusionmatrix)的結(jié)果類型一共有以下四種:TP,TN,F(xiàn)P,F(xiàn)N,其中(TP+TN)為估計中正確的估計結(jié)果。圖SEQ圖\*ARABIC7混淆矩陣的四種結(jié)果類型圖SEQ圖\*ARABIC8模型準確度分析指標計算公式表SEQ表\*ARABIC4模型準確度分析常用指標precision精確度recall召回率f1-scoreF1率Support支持度Accuracy準確率macro_avg宏平均weighed_avg權(quán)重平均四、分析結(jié)果與檢驗載入訓(xùn)練集載入訓(xùn)練集與驗證集,驗證每一批的準確率,訓(xùn)練集數(shù)據(jù)經(jīng)過一定次數(shù)擬合,當(dāng)次數(shù)達到一定數(shù)額,精確度達到最高值且經(jīng)過一定輪次后并未提升,提前結(jié)束訓(xùn)練。寫入輸出的結(jié)果。此時TrainLoss為0.078,準確度從57.5%提升到98%。Valloss從1.1降低至0.078。圖SEQ圖\*ARABIC9使用訓(xùn)練集的訓(xùn)練過程載入測試集使用測試集數(shù)據(jù)將訓(xùn)練好的模型及其效果進行預(yù)測,測試集數(shù)據(jù)分析結(jié)果如圖所示,積極或消極數(shù)據(jù)的精度、召回率均達到相當(dāng)高的水平,而中立評價因為數(shù)據(jù)量較少,精度等情況遜于其他情緒的精度。圖SEQ圖\*ARABIC10測試集的模擬結(jié)果.模型的準確性檢驗使用Tensorboard可視化工具可以查看訓(xùn)練集精確度和損失率的發(fā)展情況。較于普通的神經(jīng)網(wǎng)絡(luò)模型,LSTM模型對股票時間序列的預(yù)測更優(yōu),其通過門的使用學(xué)會對信息的適時記憶和遺忘,更有效地吸收了有用的數(shù)據(jù)。在平滑度0.6時,準確度約95%,損失值約0.1。圖SEQ圖\*ARABIC11Tensorflow計算圖模型優(yōu)化策略與結(jié)果不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)方式,LSTM是一種自回歸模型。通過改變LSTM網(wǎng)絡(luò)的結(jié)構(gòu),例如加入autoencoding層,可以擴展特征維度。另外,LSTM在預(yù)測方面還可以加入除了時間外的其他特征以優(yōu)化預(yù)測結(jié)果。圖SEQ圖\*ARABIC12tensorboard查看訓(xùn)練集精確度與損失率如果使用時間序列分析投資情緒時可能會出現(xiàn)邏輯上的漏洞,由于投資行為是一個連續(xù)性的時間過程,這意味著劃分訓(xùn)練集的數(shù)據(jù)不能采用隨機抽取的方式劃分,從常識和邏輯上來思考,即昨天的投資者不能根據(jù)明天的投資情況和市場狀態(tài)來決定他的投資行為。基于lstm網(wǎng)絡(luò)的架構(gòu),我們可以對其進行調(diào)節(jié)并加入多種特征,這一定在很大程度上將存在的問題改變?yōu)橐粋€監(jiān)督學(xué)習(xí)問題。也能夠?qū)Χ喾N特點進行預(yù)測。此外在模型精確度增強方面,可以考慮使用多層LSTM模型,或?qū)δP徒Y(jié)構(gòu),層級進行優(yōu)化以提高準確度和預(yù)測能力。一般LSTM模型使用層數(shù)為4層或6層,層數(shù)過多并不會對分析精確度有正向的幫助。模型成果總結(jié)從模型結(jié)果中我們可以看出,LSTM模型結(jié)合TextRNN針對股吧數(shù)據(jù)的訓(xùn)練集進行學(xué)習(xí),將學(xué)習(xí)后的模型用于模擬測試集,經(jīng)過多次驗證后模型準確度達到95%??梢哉J為其準確度較高,具有一定的預(yù)測能力。結(jié)論(一)模型優(yōu)勢與不足文本情感分析的分類對象是有一定長度的詞語序列,而文章則是由一段段詞語序列組成的。文本的情感有時不能只看單個詞匯的累計,也要考慮詞組與詞組,前文與下文的關(guān)聯(lián)。LSTM模型將一整段話視為一串文本序列,這是因為相較于與RNN模型,LSTM模型可以用于長依賴的文本分析,通過設(shè)置LSTM的遺忘門邏輯,可以學(xué)習(xí)只保留相關(guān)信息來進行預(yù)測,并忘記不相關(guān)的數(shù)據(jù),遺忘門的設(shè)計強化了模型的排除無用信息的能力,多層的細胞狀態(tài)可以用于保留先前的特征數(shù)據(jù)。相較于傳統(tǒng)的文本分析法,LSTM取得了很多進步:首先是LSTM的結(jié)構(gòu)優(yōu)勢,其細胞狀態(tài)以及多輸入渠道是LSTM具有持續(xù)文本學(xué)習(xí),聯(lián)系上下文能力的保證,其引入遺忘門的結(jié)構(gòu)機制可以在學(xué)習(xí)過程中準確識別出無意義的停用詞并將其拋出學(xué)習(xí)過程,從而將更多的有價值文本吸收進入模型,從而提高模型的準確度。從相關(guān)遺忘函數(shù)的選擇上也可以對于保留程度進行一定的調(diào)整。但是在模型內(nèi)部的參數(shù)更新、模型優(yōu)化上依舊有很多值得提升的地方。一種提升方法是使用雙向的Bi-LSTM模型來代替原有模型,從而更容易找到損失函數(shù)的最小值并提高準確度。另外,在文本情感的分析過程中,交叉熵常被視為損失函數(shù)的一個好的選擇。在迭代過程中,損失函數(shù)值越小,一般代表著模型的效果越好,但是這并不意味著損失函數(shù)值越小等價于模型的準確率越好。從理論上來說,在損失函數(shù)的說明中,提到的是損失函數(shù)值越小,模型最后得到的數(shù)據(jù)分布越接近數(shù)據(jù)的真實分布。如何在這一前提下,讓模型更有效率、更有目的性地進行更新,原生的LSTM模型中并沒有考慮到。因此關(guān)于該模型的優(yōu)化提升還有很大的探索空間。例如研究過程中可以看到LSTM-TextRNN模型的accuracy值在95%左右。(二)研究過程的反思東方財富網(wǎng)頁在反爬取設(shè)計上較強,在我利用Python進行網(wǎng)頁爬取時不可避免地遇到了一定的困難,由于設(shè)備不足和技術(shù)原因,我放棄了多線程爬取,選擇了降低爬取速度處理,進行多次爬取活動,效率較低。不同的股吧帖子,投資者的關(guān)注度是不一樣的,關(guān)注度越高則股吧帖子的瀏覽量和討論量越大,因此可從每一條帖子對應(yīng)的閱讀數(shù)量和評論數(shù)量中提取投資者的關(guān)注度作為權(quán)重,加入到標題得出的投資者情緒中來構(gòu)建當(dāng)天的投資者情緒指數(shù)。另外對于文本分析而言,表示情感極性和程度范圍的字詞也需要多加注意,比如不僅僅考慮情感詞前面一個詞語是否是否定詞或程度副詞,使得所構(gòu)建的投資者情緒指數(shù)更合理和客觀。此外在研究過程中我使用sklearn庫中的相應(yīng)函數(shù)計算準確度,精確度,召回率等指標,生成隨機數(shù)種子用于劃分訓(xùn)練集,這樣的劃分方式可能對于標簽分布不均勻的樣本存在較大的偏差。最后針對LSTM模型,應(yīng)繼續(xù)進行合理的參數(shù)調(diào)節(jié)和模型優(yōu)化,使得模型具備一定的泛化能力和穩(wěn)健性,且應(yīng)嘗試更多適用于股票市場的時間序列分類模型的變體和拓展模型,達到提升最終預(yù)測準確率的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論