版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
▍語義大模型時代來臨,更強(qiáng)的LP技術(shù)有望賦能融文本應(yīng)用在NP技術(shù)上,語義大模型有哪些特點和優(yōu)勢?特點一基于ansfomer結(jié)構(gòu)深度提取語料信息217年shshaswani在論文《ttntionIsAlouNeed》中首次提出了rasfomer結(jié)構(gòu),后續(xù)的大模型基于rafomer結(jié)構(gòu)在海量語料上訓(xùn)練學(xué)習(xí),進(jìn)而生產(chǎn)億級參數(shù)。其中,T模型采用rafomer的編碼器模塊,而GT系列則采用rasfomr的解碼器模塊。特點二:采用“超大樣本自監(jiān)督學(xué)習(xí)算法”增強(qiáng)大模型性能。自監(jiān)督學(xué)習(xí)算法能在無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練。大模型學(xué)習(xí)數(shù)據(jù)量更大,參數(shù)量更大,則泛化能力更強(qiáng)。年,arlCobe在論文《mergentbltesofLrgeLngugeModes》中實驗證明了大模型的表現(xiàn)并非隨著規(guī)模增加而線性增長而是訓(xùn)練量或者參數(shù)量提升到一定臨界值后大幅增強(qiáng)。特點三經(jīng)“小樣本遷移學(xué)習(xí)算法微調(diào)模型在垂直應(yīng)用場景中性能提升明顯。遷移學(xué)習(xí)是將從一項任(例如文本分類中學(xué)到“知識應(yīng)用到另一項任務(wù)(如情感分析大模型借助遷移學(xué)習(xí)在小樣本中微調(diào)可適配不同垂直場景任務(wù)表示,經(jīng)過微調(diào)后的大模型在不同應(yīng)用中的提升非常明顯(例如,微調(diào)后G-3在解數(shù)學(xué)題中準(zhǔn)確度能提升-4倍。圖:大模型礎(chǔ)Tfmr的結(jié)構(gòu) 圖:通用PT3和微后GPT3分別在數(shù)學(xué)目上正確率 通用GPT的準(zhǔn)確率 微調(diào)后GPT的準(zhǔn)確率0%0%0%0%Cui版本GPT3 Davici版GPT3資料來源:《AttentionIsAllYouNeed》AshishVaswani,
資料來源:《TrainingVerifierstoSolveMathWordProblems》KarlCobbe,在金融文本處理任務(wù)中早期一般采用基于規(guī)則或者傳統(tǒng)機(jī)器學(xué)習(xí)方(比如線回歸、CA等)提取文本信息;隨著大數(shù)據(jù)和NLP技術(shù)的發(fā)展,以神經(jīng)網(wǎng)絡(luò)為代表的度學(xué)習(xí)模型進(jìn)一步提升準(zhǔn)確度但只能完成單一的分類任務(wù)而大模型運(yùn)用于金融文本分析有以下幾優(yōu)勢:)語義理解能力強(qiáng):預(yù)訓(xùn)練大模型已完成建模和大語料學(xué)習(xí),參數(shù)規(guī)模巨大,天生具備強(qiáng)大的語義理解能力;)支持多任務(wù)處理能力:相較于傳統(tǒng)模型單一分類功能大模型能完成多類文本任(比如金融文本情感判斷上市公司或者主題別等成本優(yōu)勢傳模型的構(gòu)建需要相應(yīng)的開發(fā)人員和大規(guī)模的標(biāo)注數(shù)據(jù)而大型降低了I研發(fā)難度和訓(xùn)練成本,采用小樣本數(shù)據(jù)微調(diào)模型即可適配投研場景。表:傳統(tǒng)語模型s語義大型傳統(tǒng)機(jī)器學(xué)習(xí)模型(例如:oii、PCA等)與特征數(shù)線相關(guān)一般
深度學(xué)習(xí)模型(例如:、SM等
語義大模型(例如:GP、EIE等)參數(shù)規(guī)訓(xùn)練樣
過萬級即使增訓(xùn)練本能也無法提升
千萬、個參級別 千億、億個數(shù)級別預(yù)訓(xùn)練千億觀測量級百萬、萬個測值級微調(diào):個觀值量級預(yù)訓(xùn)練月級訓(xùn)練代價 小時級 天
微調(diào):時級語義能力 弱 強(qiáng) 極是否支持多任務(wù)
否 否 能落地成本
需要較的模開發(fā)力和注數(shù)據(jù)
需要較的模開發(fā)力大樣本注數(shù)據(jù)
小樣本準(zhǔn)數(shù)據(jù)資料來源:《金融學(xué)文本大數(shù)據(jù)挖掘方法與研究進(jìn)展》姚加權(quán),借助大模型NP技術(shù)開展金融文本分析,有利于掌握投資先機(jī)海量金融文本蘊(yùn)含增量lpha隨著信息化的發(fā)展很多影響市場的信息最先以文的方式進(jìn)行傳播大量的金融新聞中都包含有對上市公司經(jīng)營狀況的正面或負(fù)面描述于股票定價來說金融文本可能蘊(yùn)含有傳統(tǒng)投資數(shù)據(jù)之外的增量信息本文嘗試對財經(jīng)聞、分析師報告和公司公告文本庫開展分析。圖:文本信影響場示圖 資料來源:表:金融文數(shù)據(jù)介紹數(shù)據(jù)名稱 文本研究對象 數(shù)據(jù)起始時間 缺失情況 滯后性 更新頻率新聞輿情 媒體 3年1月 部分媒缺失部分券數(shù)據(jù)在
滯后期三個易每日日以內(nèi)分析師告 分析師 6年1
無滯后期 每日缺失滯后期兩個易公司公告 管理層 8年1月 無缺資料來源:wind,朝陽永續(xù),
每日日以內(nèi)開展文本信息分析,即可監(jiān)測市場動向。金融文本大數(shù)據(jù)的分析可以從三方面展:關(guān)注度:上市公司在文本中(例如:新聞報道、分析師研報)提及次數(shù)越多,意味著市場關(guān)注度越高與此同時行業(yè)在金融文本中提及次數(shù)的突然增加也可能意味著市場注熱點的切換,我們也能從中捕捉到行業(yè)層面的投資機(jī)會;)情緒指標(biāo):文本中情緒常有正面和負(fù)面積極和消極看漲和看跌等不同表述通“語調(diào)可以跟蹤文本對象緒;)市場分歧指標(biāo):基于文本情緒可以進(jìn)一步構(gòu)建市場分歧指標(biāo)。當(dāng)市場上的投資者觀點不同時,樂觀的交易者會推動價格上升,市場則可能出現(xiàn)獲利的機(jī)會。為此本篇報告詳細(xì)描述了預(yù)訓(xùn)練大模型在金融文本分析任務(wù)上的構(gòu)建步驟構(gòu)建標(biāo)并檢驗數(shù)據(jù)策略的有效性以及適用范圍,具體研究工作主要包括以下兩個方面:首先,梳理了大模型的構(gòu)建流程,基于預(yù)測結(jié)果分析并構(gòu)建指標(biāo);其次,構(gòu)建數(shù)據(jù)策略,對于定期選股、重要指數(shù)分層進(jìn)行詳細(xì)地分析討論。圖:借助大型P技術(shù)開展融文本析示圖 資料來源:▍金融文本提供多維視角,文本蘊(yùn)含市場消息面信息財經(jīng)新聞:發(fā)文數(shù)量逐年增長,數(shù)據(jù)易獲取且覆蓋全A較完整財經(jīng)新聞數(shù)據(jù)庫說明:我們采用ind底層數(shù)據(jù)庫中的金融新聞數(shù)據(jù),該數(shù)據(jù)中部財經(jīng)新聞文本與所涉及的股票對應(yīng)上部分新聞有正負(fù)面的情感標(biāo)注可利用標(biāo)注好的聞數(shù)據(jù)微調(diào)大模型,從而應(yīng)用到更多未標(biāo)注的金融文本上。表:財經(jīng)新數(shù)據(jù)的原數(shù)樣本發(fā)布時間 新聞標(biāo)題 新聞內(nèi)容 新聞來源 相關(guān)公司 市場情阿里巴將走組織理的新段,構(gòu)
3月8日阿里巴團(tuán)董事主席首席行官張發(fā)出封全信,宣啟動里巴4年來最重要的織變革三六零實際制人周鴻祎將.公司份分割胡歡下
建「++」的組織結(jié):在巴巴集團(tuán)之下設(shè)立里云能寶貓商本地生、國數(shù)字業(yè)、鳥大文娛等6大業(yè)務(wù)團(tuán)和家業(yè)公司具備條件的業(yè)集團(tuán)公司都有立資和上市的可性。三六零告,司實控制周祎與胡歡經(jīng)友協(xié)商已辦解除姻系手并就股分割事宜出相安。周鴻祎擬將接持的司.股份分割至胡歡名。本權(quán)益動不導(dǎo)公司控股股東實際制人生變,涉及公司控制變更。
6氪 阿里巴財聯(lián)社 三六零
O:港股正面O:公司正面O:市場情緒:正面情緒.K:螞蟻集團(tuán)正面.S:三六 零 負(fù) 面JF:負(fù)面新聞O:市場情緒TITLEF:標(biāo)題預(yù)警O:A股負(fù)面資料來:in,財經(jīng)新聞逐年增長,每月新發(fā)文數(shù)超0萬條。截至23年4月9日,nd上可獲取的財經(jīng)新聞共計超1837萬條,今年3月財經(jīng)新聞共有42.5萬條,同比增長26%,創(chuàng)當(dāng)月發(fā)文數(shù)量歷史新高。從數(shù)據(jù)源來看,2022-01-01至2023-03-31,和證券之星是主要的財經(jīng)新聞來源,在top10數(shù)據(jù)源發(fā)文量中占比分別達(dá)到33.3%和19.6%。圖:各月份經(jīng)新數(shù)量及比增速 財經(jīng)新數(shù)量 同增(),0,0,0,0,0,0,0,0,00
.4.21.8.6.4.20.2.4-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3資料來源:wind,圖:22年以來ind金融數(shù)據(jù)庫部分據(jù)來分布 證券之星 新浪 格隆匯 財聯(lián)社每日經(jīng)濟(jì)新聞第一財經(jīng) 鳳凰網(wǎng) 證券時報網(wǎng) 金融界,0,0,0,0,0,0,0,0,0,00資料來源:wind,新聞媒體對于A股市場覆蓋較完備。截至3年3月底,滬深0成分股和中證0成分股內(nèi)覆蓋度已經(jīng)達(dá)到%全A股覆蓋度達(dá)到%隨著時間的推移全A股覆蓋度也在逐漸上升數(shù)據(jù)滯后期來看絕大部分財經(jīng)新聞文本當(dāng)天入庫2--至3--,9%的財經(jīng)新聞均能當(dāng)天被收錄,新聞信息有效性有一定保障。圖:按月度計的聞輿覆度情況 圖:ind財經(jīng)新入庫后情況滬深股 中證全A股
.%
.%-1-5-1-5-9-1-5-9-1-5-9-1-5-9-1-5-9-1資料來源:wind, 資料來源:wind,財經(jīng)新聞數(shù)量能夠反映當(dāng)前市場主題熱度。從新聞數(shù)量來看,2年年初,數(shù)字經(jīng)濟(jì)和穩(wěn)增長主題的新聞報道數(shù)量較多而到了今年年初數(shù)字經(jīng)濟(jì)大模型和IGC主的新聞報道迎來爆發(fā)式增長,穩(wěn)增長主題熱度有所下降。圖:22年以來個主新聞量變化況 ,0,00大模型聞數(shù)(單:篇) AIG新聞數(shù)量單位篇)數(shù)字經(jīng)新聞量(位:) 穩(wěn)增長,0,00資料來源:wind,從正面新聞與負(fù)面新聞數(shù)量的對比來看根據(jù)nd標(biāo)簽可以看到在7年至年,正面新聞的數(shù)量總體上要多于負(fù)面新聞,在9年之后,負(fù)面新聞的數(shù)量則遠(yuǎn)多正面新聞,而在近期今年三月份正面新聞明顯增多。圖:正面新聞負(fù)面聞數(shù)對比情況 正面情新聞量 負(fù)面情新聞量(軸),0,0,0,0,0,0,0,0,0,00
,0,0,0,0,0,0,0--1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3資料來源:wind,我們將2年以來的新聞文本進(jìn)行分詞并統(tǒng)計詞頻。詞云中的字號越大說明詞頻高正面情緒的新聞中“增長“增持“看好“改善“中標(biāo)等詞出現(xiàn)次數(shù)較多負(fù)面情緒的新聞中“利空“虧損“減持“辭職“下降”等詞出現(xiàn)次數(shù)較多。圖:正面情緒財經(jīng)聞詞云 圖:負(fù)面情緒財經(jīng)聞詞云 資料來源:wind, 資料來源:wind,分析師研報:時效性和有效性較強(qiáng),文本觀點和語調(diào)具有較大挖掘價值分析師研報數(shù)據(jù)庫說明朝陽永續(xù)作為市場上專業(yè)的研究報告大數(shù)據(jù)分析平臺收不同類型的公司研報文本該數(shù)據(jù)庫中所有分析師公司研報文本包含標(biāo)題和研報首頁容,所有分析師公司研報都有公司評級,后續(xù)可基于公司評級作為對比策略。隨著國內(nèi)權(quán)益市場的快速發(fā)展分析師公司研究報告數(shù)量逐步增長根據(jù)朝陽永續(xù)的數(shù)據(jù)22年前9個月報告數(shù)量超過7萬篇日均報告數(shù)達(dá)到0篇從分析師發(fā)布報告的頻次來看分析師發(fā)布報告時間相對集中每年的3月4月8月0月報告數(shù)量明顯多于其他月份,主要因為財報發(fā)布后,分析師及時更新觀點和預(yù)測數(shù)據(jù)。圖:各月份分師公研究告數(shù)量及同增速公司研報告量(位:篇) 同比增(右).0.5.0.5.0.5.0.5.0.5.0
資料來源:朝陽永續(xù),分析師報告的類型多樣化報告信息入庫及時從覆蓋領(lǐng)域來看分析師報告囊括個股港股行業(yè)研究宏觀策略基金研究等等其中個股及行業(yè)研究報告是分析師報的主要構(gòu)成這二大類占比達(dá)73另外朝陽永續(xù)對于分析師報告的收錄具有較高的及時性,-1至-03,超過8%的報告在分析師發(fā)布兩天內(nèi)能夠及時入庫。圖:朝陽永續(xù)析師股報分布情況 圖:朝陽永續(xù)析師股報入庫滯情況 告 預(yù)表深度報告 新股研究 調(diào)研報告60,50,00040,00030,00020,00010,0000
-1-2-3-4-5-1-2-3-4-5-6-7-8-9-0-1-2-1-2-3資料來源:朝陽永續(xù),,注:數(shù)據(jù)時間范圍為2022-01至,同下
資料來源:朝陽永續(xù),近年來隨著注冊制的實施全市場的公司研報覆蓋率呈現(xiàn)上升趨勢近年來A股上市公司數(shù)量迅速增加這導(dǎo)致了分析師覆蓋的絕對數(shù)量有所提升但覆蓋率有所下行年之前分析師能夠覆蓋%以上的股票,7年之后隨著新股發(fā)行速度的提升,覆蓋率下降到%左右;而1年覆蓋率僅為%,下降至近十年最低值;2年覆蓋率為%,開始逐步呈現(xiàn)上升趨勢。圖:個股報告量以覆蓋情況 個股報覆蓋(右) 個股報數(shù)量 A股上市公司量0
資料來源:朝陽永續(xù),wind,我們將2年以來的分析師研報的標(biāo)題和首頁進(jìn)行分詞并統(tǒng)計詞頻,詞云中的字越大說明詞頻越高“買入評級公司研報中“增長“做多“發(fā)展“低估值“提速等詞出現(xiàn)次數(shù)較多“賣出評級公司研報中“風(fēng)險“回避“下行“壓力“下降”等詞出現(xiàn)次數(shù)較多。圖:“買入”級公研報詞云 圖:“賣出”級公研報詞云 資料來源:朝陽永續(xù), 資料來源:朝陽永續(xù),公司公告:反映管理層的決策和意圖,文本包含未來公司重要信息公司公告數(shù)據(jù)庫說明:對于公司公告數(shù)據(jù)的獲取,我們使用ind底層公司公告數(shù)據(jù)庫原始數(shù)據(jù)包括公告發(fā)布時間公告標(biāo)題公告內(nèi)容公告類型等信息由于公司公告的類型較多,我們選取了有價值信息的公告進(jìn)行處理分析,包括:財務(wù)報告、重大事項、交易提示、配股、增發(fā)、股權(quán)股本以及一般公告。表:公司公數(shù)據(jù)的原數(shù)樣本發(fā)布時間 公告標(biāo)題 公告主要內(nèi)容 類型本期業(yè)預(yù)計況、業(yè)績告間:3年1月1日至3年3月1日、預(yù)計的營業(yè):預(yù)凈利為值且屬下列形之:凈潤利:0萬元0萬元盈.7萬比上年期增.%.扣除非經(jīng)常
錢江摩托3年一度業(yè)績告中國移動關(guān)實際制人增公司份進(jìn)展暨增計劃期的公告
性損益的凈潤盈0萬元0萬元盈.9萬元比年同期長:.%.基本股收利:.9元股–.8元股盈利:.8元股業(yè)績變原因明報期績增長要原為公內(nèi)銷排摩托車量及收入同大幅增長銀行款息收入比增。重要內(nèi)提示中國動有公(以下公司本公實際制中國移通信團(tuán)有公(簡“中移動團(tuán)計自2年1月日至2年2月1日期間內(nèi)機(jī)增持公司民幣通以簡“A)股份計增金額少于民幣0億元且不超過民幣0億以下簡“增持計劃持計延期原及有關(guān)排基對公未來續(xù)健發(fā)展信心和長期資價的認(rèn)為應(yīng)資者切積極行承更保廣大投者的利益強(qiáng)投者信同受司定期告靜窗口授第期期權(quán)項靜默窗口以及假日市等觀因影響中國動集本次份持計劃能法在原期限完成。
財務(wù)報告:業(yè)績預(yù)報重大事項股份增持資料來:in(含預(yù)測),公司公告發(fā)布數(shù)量常年穩(wěn)定,財報披露期公司發(fā)文較多。截至3年4月9日,wnd上可獲取的公司公告共計超8萬條。結(jié)合以往公告數(shù)量來看,公司發(fā)布公告存著周期性其中年報披露期4月份與半年報披露期8月份往往是公司發(fā)文數(shù)量“點,而2月份與1月份一般是公司公告數(shù)量的“低點。圖:各月份公公告量以同比增速 公司公數(shù)量 同比增(右),0,0,0,0,0,0,0,0,00
10%20%30%--1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3-5-7-9-1-1-3資料來源:wind,一般公告、重大事項和財務(wù)報告為最主要的來源。據(jù)nd數(shù)據(jù)庫數(shù)據(jù),-至3-,一般公告、重大事項和財務(wù)報告在全部公司公告文本中占比分別為%、%和%;并且%公告均能當(dāng)天被收錄,公告信息的有效性有一定保障。圖:公司公告布情況 圖:公司公告庫滯情況一般公告 重大事項 財務(wù)報告 股權(quán)股招股 增發(fā) 交易提示 配股200,000
.%150,000100,000,0-1--1-2-3-4-5-6-7-8-9-0-1-2-1-2-3當(dāng)天入庫 非當(dāng)天庫資料來源:wind,,注:數(shù)據(jù)時間范圍為2022-01至,同下
資料來源:wind,我們將2年以來的公告標(biāo)題和正文進(jìn)行分詞并統(tǒng)計詞頻,詞云中的字號越大說明詞頻越高正面公告中“增長“業(yè)績“提速“改善“信心等詞出現(xiàn)次數(shù)較多。負(fù)面公告中“下降“減持“虧損“風(fēng)險“壓力”等詞出現(xiàn)次數(shù)較多。圖:正面公告詞云 圖:負(fù)面公告詞云 資料來源:wind, 資料來源:wind,▍基于大模型的金融文本應(yīng)用指標(biāo)構(gòu)建流程面向金融文本任務(wù)大模型微調(diào)流程主要分四個步驟模型選擇模型參數(shù)以及計硬件設(shè)置微調(diào)數(shù)據(jù)預(yù)處理和模型預(yù)測使用微調(diào)模型構(gòu)建金融文本應(yīng)用指標(biāo)有三類注度指標(biāo)、情緒指標(biāo)和市場分歧指標(biāo)。面向垂類金融文本數(shù)據(jù)應(yīng)用,下載并微調(diào)國內(nèi)中文大模型步驟一:考慮數(shù)據(jù)安全和可及性,選擇國內(nèi)百度文心大模型作為基礎(chǔ)模型。一方面,百度文心大模型更具有本地優(yōu)勢在中文語境中表現(xiàn)優(yōu)異并保障了數(shù)據(jù)安全另一方面,百度基于蒸餾方式利用了文心大模型的規(guī)模優(yōu)勢在蒸餾完成后保證學(xué)生模型的效果和寸豐富性,方便不同性能需求的應(yīng)用場景使用。根據(jù)百度描述,文心RNIE0ny在線蒸餾方案效果顯著,模型參數(shù)壓縮率可達(dá)%,壓縮版模型僅保留%參數(shù)規(guī)模就能與原有模型效果相當(dāng)刷新了中文小模型的A成績相比常見的T模型文心RNIE3.0ny在大多數(shù)中英文任務(wù)上具有更優(yōu)異的表現(xiàn)。圖:百度文心線蒸技術(shù)意圖 資料來:PleP官網(wǎng)表:百度心EE.0iny預(yù)訓(xùn)練模效果于ETinyE,hinee(對比模型)FQ(對比模型)FQMC.%.%WS.%.%同領(lǐng)域內(nèi)數(shù)據(jù)測試IFLEK.%.%(ndm)OLI.%.%LWSC.%.%SL.%.%跨領(lǐng)域數(shù)據(jù)測試CLI.%.%(utdomi)SOPIG0.%.%SM.%.%摘要提取任務(wù)(wourc)EPSMT.%SLP.%.%平均值-.%.%
百度E.0iny資料來源:《ERNIE3.0Tiny:FrustratinglySimpleMethodtoImproveTask-AgnosticDistillationGeneralization》WeixinLiu,接著,使用adeNLP只需要一行代碼就可以下載并獲取百度文心RNIE3.0ny預(yù)訓(xùn)練模型,之后可以用自己的下游數(shù)據(jù)進(jìn)行微調(diào)。目前RNIE3.0ny主要開放了三類功能:文本分類、序列標(biāo)注以及閱讀理解。圖:百度文心E.0Tiny模型目提供大功能資料來:PleP官網(wǎng),步驟二設(shè)置微調(diào)參數(shù)以及本地硬件配置參數(shù)在微調(diào)階段模型在與目標(biāo)任務(wù)或域相關(guān)的更具體更小的數(shù)據(jù)集上進(jìn)一步訓(xùn)練這有助于模型適應(yīng)任務(wù)的特殊要求這我們給出了本地部署模型時微調(diào)參數(shù)和硬件配置參數(shù)。表:EIE.0iny微調(diào)參數(shù)硬件配設(shè)置名稱類型參數(shù)選擇說明ie.tiny模型名稱-大模型線蒸技術(shù)產(chǎn)出多輕量型。Ech模型微參數(shù),,,,}微調(diào)練型的代次。Bcsie模型微參數(shù),,,}微調(diào)時型一訓(xùn)練抓取數(shù)樣本數(shù)。tteinte模型微參數(shù)模型微參數(shù).,.}.,.,.,.}微調(diào)時練模的裁程度可過設(shè)置數(shù)避免型過合。微調(diào)時練模的學(xué)率。asleth模型微參數(shù)文本最長度超過分會斷。GPU硬件配參數(shù)APIEB模型訓(xùn)和預(yù)時需的運(yùn)硬。內(nèi)存硬件配參數(shù)模型訓(xùn)和預(yù)時需的運(yùn)空。硬盤硬件配參數(shù)存儲數(shù)所需硬件間。資料來源:PaddleNLP官網(wǎng),步驟三:預(yù)處理微調(diào)所需的文本數(shù)據(jù)。微調(diào)所需的數(shù)據(jù)集來源于雪球和nd資訊布的正負(fù)面新聞,采集到6條新聞標(biāo)題作為種子數(shù)據(jù)集,其中正面新聞7條,負(fù)面新聞9條。該數(shù)據(jù)包括了新聞發(fā)布時間、新聞標(biāo)題、新聞內(nèi)容、新聞來源、新聞應(yīng)公司的股票代碼和情感分類標(biāo)簽等內(nèi)容在運(yùn)用于后續(xù)任務(wù)之前需要對金融輿情數(shù)進(jìn)行預(yù)處理,步驟如下:篩選出與A股個股相關(guān)的新聞;剔除行情類的新聞以及標(biāo)題中含有“快訊“漲“跌”的新聞;將新聞標(biāo)題與新聞內(nèi)容整合為一條文本,并去除文本中的空格;提取文本情感分類結(jié)果,將正面新聞打上標(biāo)簽,將負(fù)面新聞打上標(biāo)簽;保留新聞發(fā)布時間、新聞來源、情感分類標(biāo)簽、股票代碼和新聞文本五個字段步驟四檢驗?zāi)P臀⒄{(diào)結(jié)果使用調(diào)參好的大模型對文本中每一句文本的情感得分進(jìn)行預(yù)測并展示三類文本模型預(yù)測效果由以下案例可見從預(yù)測的準(zhǔn)確性來看大模對于金融文本的情感分析都是比較合理的,做出了與人類相似的判斷。發(fā)布時間標(biāo)題主要內(nèi)容文本類型情感預(yù)測情緒得分三六零實際三六零告,發(fā)布時間標(biāo)題主要內(nèi)容文本類型情感預(yù)測情緒得分三六零實際三六零告,司實控制周祎與胡經(jīng)友協(xié)商已辦理控制人鴻祎解除婚關(guān)系續(xù),就股分等事宜出相安排周鴻祎擬將.公擬將其接持的司.股份分割至歡名。本權(quán)益變新聞輿情負(fù)面.1司股份割至動不會致公控股東、際制人發(fā)變化不涉公司控胡歡名下制權(quán)變。德業(yè)份核心觀點司逆器銷快速量利能持續(xù)升驅(qū)動業(yè)年年報評:績高增隨著司產(chǎn)和市結(jié)進(jìn)一步化,及產(chǎn)規(guī)模擴(kuò)光儲逆器量,盈持高增張釋放盈利望延高增。整公司5年S預(yù)測 正面 .2告分別為././.4元予目價8(對應(yīng)3年7倍),維“買”評。重要內(nèi)提示中國動有公實際控人中移動信集團(tuán)中國移動關(guān)于有限公計劃自2年1月1日至2年2月1日期間內(nèi)實際控人增擇機(jī)增本公人民普通股,累計持金不少人民幣持公司份進(jìn)0億元且不超過民幣0億元增持計延期原因有關(guān)安 公司公告 正面 .3展暨增計劃排基于公司來持穩(wěn)健展信心和期投價值認(rèn)可,延期的告為回應(yīng)資者切積極行承更保護(hù)大投者的益、增強(qiáng)投者信。分析師報資料來源:wind,朝陽永續(xù),雪球,測算關(guān)注度指標(biāo):實時反映當(dāng)前熱點,當(dāng)前成長科技類行業(yè)關(guān)注度高基于大模型標(biāo)注的新聞數(shù)量構(gòu)建關(guān)注度指標(biāo)作為金融市場的信息制造和傳播者媒體的關(guān)注一方面可以影響市場參與者的關(guān)注另一方面也影響市場信息的傳播效率和模式基于此關(guān)注度反映的是財經(jīng)媒體對于特定上市公司行業(yè)或市場的關(guān)注程度基于大型在財經(jīng)新聞上標(biāo)注的上市公司統(tǒng)計特定新聞媒體所發(fā)布的新聞數(shù)量來構(gòu)建關(guān)注度們按照以下步驟完成個股和行業(yè)的關(guān)注度指標(biāo)構(gòu)建:首先,在每個觀察日里獲取過去N天內(nèi)的特定媒體所發(fā)布的財經(jīng)新聞文本;之后使用微調(diào)后大模型的閱讀理解能力獲取財經(jīng)新聞中的相關(guān)上市公司信息;構(gòu)建公司關(guān)注度指標(biāo),統(tǒng)計上市公司相關(guān)的新聞絕對數(shù)量作為關(guān)注度指標(biāo);構(gòu)建行業(yè)關(guān)注度指標(biāo)對行業(yè)內(nèi)上市公司的關(guān)注度求和除以當(dāng)日行業(yè)內(nèi)處于市狀態(tài)的成分股總數(shù),基于標(biāo)準(zhǔn)化得到行業(yè)層面的關(guān)注度。圖:上市公司關(guān)注構(gòu)建意圖資料來源:圖:行業(yè)的關(guān)度構(gòu)示意圖資料來源:個股層面,行業(yè)龍頭股關(guān)注度較高。根據(jù)構(gòu)建的指標(biāo),2年以來,寧德時代、比亞迪和貴州茅臺穩(wěn)居每月關(guān)注度前三名,并且排名前十的個股大多數(shù)市值超百億。表:2年以來月關(guān)度t0上市公司op1op2op3op4op5op6op7op8op9op寧德時代比亞迪貴州茅臺九安醫(yī)療中國移動招商銀行興業(yè)銀行長城汽車中信證券萬科A寧德時代比亞迪貴州茅臺中國移動藥明康德萬科A興業(yè)銀行東方財富長城汽車招商銀行貴州茅臺比亞迪寧德時代萬科A招商銀行興業(yè)銀行中國醫(yī)藥中國平安五糧液建設(shè)銀行寧德時代比亞迪貴州茅臺招商銀行萬科A隆基綠能五糧液保利發(fā)展工商銀行陽光電源比亞迪寧德時代貴州茅臺長城汽車招商銀行新華制藥中通客車格力電器長安汽車隆基綠能比亞迪寧德時代貴州茅臺長安汽車萬科A天齊鋰業(yè)光大證券隆基綠能長城汽車招商銀行比亞迪寧德時代貴州茅臺天齊鋰業(yè)招商銀行隆基綠能長安汽車贛鋒鋰業(yè)通威股份興業(yè)銀行比亞迪寧德時代貴州茅臺隆基綠能天齊鋰業(yè)通威股份長安汽車招商銀行中國中免萬科A比亞迪寧德時代貴州茅臺萬科A天齊鋰業(yè)招商銀行隆基綠能五糧液通威股份順豐控股比亞迪貴州茅臺寧德時代五糧液瀘州老窖隆基綠能山西汾酒東方財富招商銀行海天味業(yè)op1op2op3op4op5op6op7op8op9op比亞迪寧德時代貴州茅臺萬科A中國聯(lián)通以嶺藥業(yè)隆基綠能眾生藥業(yè)歌爾股份五糧液比亞迪寧德時代貴州茅臺新華制藥五糧液以嶺藥業(yè)萬科A隆基綠能中國聯(lián)通中國移動比亞迪寧德時代貴州茅臺五糧液隆基綠能招商銀行天齊鋰業(yè)中國平安長安汽車東方財富比亞迪寧德時代貴州茅臺科大訊飛漢王科技中國電信五糧液云從科技海天瑞聲隆基綠能資料來源:wind,測算行業(yè)層面,指標(biāo)覆蓋全行業(yè),今年3月計算機(jī)、通信、建筑、石油石化行業(yè)關(guān)注高。wnd財經(jīng)新聞數(shù)據(jù)庫顯示財經(jīng)新聞數(shù)據(jù)覆蓋全行業(yè)但媒體對于不同行業(yè)的關(guān)注存在向。3年3月,計算機(jī)、通信、傳媒等成長類行業(yè)關(guān)注度較高,個股平均被報道次高于市場均值相較之下綜合消費(fèi)者服務(wù)電力及公共事業(yè)紡織服裝等行業(yè)關(guān)注偏低。行業(yè)新聞報道數(shù)量的變遷也反映了市場關(guān)注點的變化。比如,2年6月汽車、鋼鐵以及煤炭行業(yè)關(guān)注度處于市場前列,但是到了今年3月下滑到中游水平。相比之下通信、計算機(jī)以及傳媒等行業(yè)在今年增幅較大,成為當(dāng)前的市場熱點。圖:2年以來每行業(yè)度資料來源:wind,測算情緒指標(biāo):指標(biāo)對收益率具有一定預(yù)測能力基于大模型標(biāo)注的情感結(jié)果構(gòu)建情緒指標(biāo)情緒指標(biāo)反映的是媒體分析師以及管理層對于上市公司的情緒并且通過匯總行業(yè)內(nèi)個股情緒可以得到整個行業(yè)的情緒值首先獲得大模型對相關(guān)文本中每個句子的情感判斷后采用線性衰減加權(quán)方法構(gòu)建個股情緒標(biāo),之后聚集個股得到行業(yè)情緒指標(biāo),具體步驟如下:) 首先,對于每個入庫日??,使用微調(diào)后的大模型分別預(yù)測財經(jīng)新聞、分析師研報以及公司公告的情感的得分,每個文本的情感得分區(qū)間為-,];) 通過等權(quán)求和方式,計算上市公司每日??情感得分??????。其中,??????最大值為說明當(dāng)日所有研究對象都是正面情緒如果??????為-則都是負(fù)面情緒;構(gòu)建公司情緒指標(biāo),計算上市公司過去??天的情感得分,通過線性衰減加權(quán)求方式得到(越靠近當(dāng)日得分權(quán)重越大;構(gòu)建行業(yè)情緒指標(biāo),采用同樣的行業(yè)關(guān)注度計算方式得到行業(yè)情緒指標(biāo)。圖:上市公司緒指構(gòu)建意圖 資料來源:我們統(tǒng)計2年以來個股和行業(yè)層面的情緒指標(biāo)。結(jié)果顯示,每月情緒前十個股排名變動較大并且前十大個股市值分布較分散行業(yè)層面通信石油石化傳媒食品飲料、計算機(jī)行業(yè)情緒較好,相較之下,農(nóng)林牧漁、電力設(shè)備新能源、輕工制造、銀行、汽車等行業(yè)情緒偏弱。表:2年以來月緒t0上市公司op1op2op3op4op5op6op7op8op9op捷捷微電江鈴汽車陜鼓動力國芯科技亞信安全中原傳媒永順生物海寧皮城惠泰醫(yī)療掌閱科技德源藥業(yè)紅日藥業(yè)皓元醫(yī)藥錦浪科技時代新材桂林旅游平煤股份兆威機(jī)電吉比特遠(yuǎn)興能源柳藥集團(tuán)貝因美中金嶺南富臨精工維力醫(yī)療匠心家居蓋世食品艾為電子天宜上佳創(chuàng)業(yè)慧康凱添燃?xì)獯▋x股份天潤乳業(yè)廣大特材安徽鳳凰江中藥業(yè)愛建集團(tuán)聚辰股份同享科技南僑食品北方稀土連城數(shù)控新益昌凱萊英盛天網(wǎng)絡(luò)奇正藏藥招商證券蘭劍智能凱賽生物永貴電器英搏爾華鐵應(yīng)急海汽集團(tuán)南京銀行禾川科技飛科電器中欣氟材創(chuàng)遠(yuǎn)信科沃頓科技斯萊克錦江B股大金重工派特爾震裕科技家聯(lián)科技中國電影萬凱新材新風(fēng)光國檢集團(tuán)七一二長白山深科技新風(fēng)光隆華新材方大特鋼浙能電力捷邦科技海興電力中油工程東方國信op1op2op3op4op5op6op7op8op9op重慶建工硅寶科技美格智能哈鐵科技怡和嘉業(yè)玉禾田奧普家居利元亨南網(wǎng)科技順網(wǎng)科技江鈴汽車永順泰飛力達(dá)海洋王萬凱新材鼎泰高科川環(huán)科技同力日升中信海直華林證券揚(yáng)杰科技北京城鄉(xiāng)聯(lián)特科技仕凈科技廈門象嶼貴州輪胎諾力股份三人行大悅城網(wǎng)達(dá)軟件瑞奇智造珠城科技萬馬科技福斯達(dá)英方軟件螢石網(wǎng)絡(luò)鑫磊股份合肥高科正海生物洪都航空佐力藥業(yè)龍迅股份坤泰股份惠豐鉆石路維光電三特索道風(fēng)神股份力合科創(chuàng)滄州大化聯(lián)化科技寶地礦業(yè)上海建科潤普食品海源復(fù)材凌瑋科技聯(lián)合水務(wù)富淼科技必創(chuàng)科技納睿雷達(dá)新澳股份南化股份C光大同星帥爾南礦集團(tuán)中科磁業(yè)雅達(dá)股份C恒尚軍信股份科拓生物中國衛(wèi)通資料來:in,朝陽永續(xù),圖:2年以來每行業(yè)指標(biāo)(剔除合、合金)資料來源:wind,朝陽永續(xù),測算情緒指標(biāo)與基本面具有一定關(guān)聯(lián)性且情緒較好的個股未來短期內(nèi)能有超額收益據(jù)各公司Q3情緒值進(jìn)行分組,并統(tǒng)計各組Q3的RO、營收增速、歸母凈利潤增速均值從結(jié)果來看情緒居前的分組財務(wù)狀況普遍較優(yōu)公司質(zhì)地較為優(yōu)良另外我們在3年-2月分別計算回看1天3天5天0天情緒正向個股在未來3個5個0個0個0個交易日內(nèi)的平均收益率,結(jié)果顯示大多數(shù)能超過上證指數(shù)。表:13不同情個股組基本面標(biāo)對比O()營業(yè)收入同比增速()歸母凈利潤同比增速()情緒取值前個股.6.8.1情緒取值前個股.4.2.8情緒取值前個股.0.0.3情緒取值后個股.7.7.9情緒取值后個股.3.3.9資料來源:wind,朝陽永續(xù),測算圖:情緒正向股在來的均超額益情況資料來源:wind,朝陽永續(xù),測算,注:超額收益的計算基準(zhǔn)為上證指數(shù)分歧指標(biāo):基于情緒方差構(gòu)建行業(yè)分歧度,指標(biāo)與股票振幅相關(guān)聯(lián)基于情緒方差構(gòu)建行業(yè)分歧度由于部分冷門個股關(guān)注度較低難以統(tǒng)計個股市場分歧度目前我們只計算行業(yè)層面的市場分期指數(shù)首先根據(jù)大模型計算出的文本情感得分,之后,統(tǒng)計一段時間內(nèi)行業(yè)所有文本情感得分的標(biāo)準(zhǔn)差來構(gòu)建行業(yè)的市場分歧指標(biāo)。圖:行業(yè)市場歧指構(gòu)建意圖資料來源:從回溯結(jié)果來看,行業(yè)分歧度與價格振幅大小走勢具有關(guān)聯(lián)性。根據(jù)回測結(jié)果,-1至-0構(gòu)建的各行業(yè)分歧度與價格振幅的相關(guān)系數(shù)為指標(biāo)與價格波動具有一定關(guān)聯(lián)性另外行業(yè)市場分歧度在一定程度上也反映行業(yè)的活躍程度預(yù)示未來價格可能會有所波動一般來說行業(yè)處于低位時分歧度大則未來可能存在價格漲的機(jī)會;而行業(yè)處于高位時,分歧度大則預(yù)示著未來存在價格下跌的風(fēng)險。圖:2年以來每行業(yè)度指標(biāo)已剔綜合綜合融)資料來源:wind,朝陽永續(xù),測算圖:計算機(jī)行月度幅s行業(yè)市場歧度 圖:電力設(shè)備新能行業(yè)度振幅s行業(yè)市分歧度.0.0.0.0.0.0.0.0
中信計算行業(yè)度振(單:)計算機(jī)業(yè)分度(一化,軸
.8.7.6.5.4.3.2.1//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3
.0.0.0.0.0.0.0
中信電新業(yè)月振幅單位)電新行分歧(歸化后右
.21.8.6.4.2//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3資料來源:wind,測算 資料來源:wind,測算圖:煤炭行業(yè)度幅s行市場分度 圖:石油石化業(yè)月振幅s行業(yè)市分歧度 中信煤炭業(yè)月振幅單位)煤炭行分歧(歸化后右654321//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3
.9.8.7.6.5.4.3.2.10
.53.52.51.50
中信石油化行月度幅(位:)石油石行業(yè)歧度歸一后右軸
.9.8.7.6.5.4.3.2.1//1/2/3/4/5/6/7/8/9/0/1/2/1/2/3資料來源:wind,測算 資料來源:wind,測算▍基于大模型文本情緒指標(biāo)的投資策略構(gòu)建選股策略:情緒指標(biāo)具有較強(qiáng)超額收益能力,可提供文本增量lpha從前文的統(tǒng)計來看大模型預(yù)測情緒越高的股票其投資價值相對來講也就越高所以可以通過持有情緒最好的個股來獲取超額收益按照這個思路我們構(gòu)建了定期選股策略具體做法為固定調(diào)倉時間并以調(diào)倉頻率計算過去一段時間內(nèi)的情感指標(biāo)對股票進(jìn)行排序持有情感最好的幾支股票,構(gòu)建方式如下:) 樣本空間全A股中剔除TT股票以及每個截面期下一交易日停牌的股票;) 回測區(qū)間:8年1月1日至3年3月1日;) 月度調(diào)倉:每個月最后一個交易日計算個股情緒得分并進(jìn)行排名,構(gòu)建N股組合,并在下一交易內(nèi)等權(quán)買入組合內(nèi)個股,暫時不考慮換手費(fèi)用。為了對比研報情感指標(biāo)和傳統(tǒng)分析師指標(biāo)我們用類似的方法構(gòu)建了分析師研報評指標(biāo)根據(jù)朝陽永續(xù)整理的研報評級進(jìn)行個股打分取值如下圖表所示之后按照情緒標(biāo)構(gòu)建方式構(gòu)造分析師評價指標(biāo)。表:朝陽永續(xù)報
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年土地整治項目土地抵押合同范例3篇
- 2024年某物業(yè)管理公司與某小區(qū)關(guān)于物業(yè)服務(wù)合同
- 房屋租賃合同模板合集五篇
- 七年級第一學(xué)期生物教案模板
- 跟崗實習(xí)工作總結(jié)范文
- 舉行春游活動方案
- 配音比賽策劃書
- 店長述職報告15篇
- 學(xué)生競選演講稿怎么寫才能吸引人?【5篇】
- 投標(biāo)承諾書集錦15篇
- 社區(qū)居家養(yǎng)老方案
- 2024年英語專業(yè)四級考試真題及詳細(xì)答案
- 輸液巡視不及時品管圈課件
- 中班自主游戲總結(jié)匯報
- 加油站防偷盜與防災(zāi)安全培訓(xùn)
- 玻璃制造企業(yè)的管理與技術(shù)創(chuàng)新
- 《護(hù)理病人隱私保護(hù)措施》
- MHT:中小學(xué)生心理健康檢測(含量表與評分說明)
- 企業(yè)戰(zhàn)略管理顧問聘用合同
- 貴州壯麗山水文化之旅
- 遼寧省朝陽市朝陽縣2023-2024學(xué)年九年級上學(xué)期期末數(shù)學(xué)試題
評論
0/150
提交評論