版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
提綱03總結(jié)02LLMs
進化結(jié)構(gòu)01基本面因子挖掘框架更新因子挖掘三種范式資料來源:Alpha-GPT:
Human-AI
Interactive
Alpha
Mining
for
Quantitative
Investment,P1:
手動挖掘因子,
依靠研究員主觀經(jīng)驗,效率低且成本較高P2:算法挖掘,利用GP,RL等算法自動大量挖掘因子,因子可解釋性較差P3:
Huaman-AI交互算法,利用LLMs分析因子,按照人類要求進行因子挖掘,自動批量生成可解釋的因子基本面因子挖掘統(tǒng)一框架融入LLMs財務(wù)數(shù)據(jù)(季頻)時序,截面
算子PIT算子市值,一致預期等(日頻)時序,截面
算子fitnessFactor
Pool線性IC非線性特征重要性隨機法枚舉式領(lǐng)域知識因子生成因子計算因子驗證因子篩選因子進化GP+LLMs資料來源:并非直接使用LLMs生成因子,而是在同一框架中融合LLMs進行基本面因子挖掘,在因子進化時,將因子信息提供給大模型,使其更好的理解因子含義以及規(guī)律,生成改進后的因子。因子生成資料來源:隨機法:這種方法通過隨機方式構(gòu)造因子結(jié)構(gòu),主要用于啟發(fā)式算法中的種群初始化。在生成個體時,我們會限制其結(jié)構(gòu)的復雜度以及量綱的合法性,以確保因子具有簡潔性并保持較高的可解釋性。枚舉法:與之前openfe算法生成因子一致,在因子生成過程中通過設(shè)定因子結(jié)構(gòu)的約束條件,如(a+b/c+d),在給定的子空間內(nèi)進行全局搜索,以期找到局部最優(yōu)解。領(lǐng)域知識:這種方法依賴于專家的主觀經(jīng)驗,通過專業(yè)知識構(gòu)造一系列基本面因子。然后利用啟發(fā)式算法不斷優(yōu)化這些因子,結(jié)合剪枝和基因結(jié)構(gòu)分析等技術(shù),篩選出適應(yīng)度較高的基因及個體。接著,通過枚舉法合成新的因子個體,并從中挑選出表現(xiàn)優(yōu)異的個體。因子計算兩層因子計算結(jié)構(gòu),自動處理因子量綱,頻率,公告期等問題。第一層:原始財務(wù)數(shù)據(jù)之間的計算。包括資產(chǎn)負債表、現(xiàn)金流量表、利潤表以及各種財務(wù)指標。將現(xiàn)金流量表和利潤表等時間段數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為單季度數(shù)據(jù),按照公告期計算TTM/YOY/QOQ等第二層:不同頻率因子的結(jié)合。在處理不同頻率的數(shù)據(jù)時,首先對低頻數(shù)據(jù)按照信息發(fā)布日期進行隱式的頻率轉(zhuǎn)換(PIT),將其轉(zhuǎn)換為高頻數(shù)據(jù),然后再與其他高頻數(shù)據(jù)進行計算。量綱限制:不同量綱之間數(shù)據(jù)計算設(shè)置相應(yīng)的規(guī)則。量綱類型包括,元(營收,凈利潤等),
無量綱(ROE,PE等),市值(總市值,流動市值等)財務(wù)數(shù)據(jù)(季頻)時序,截面
算子PIT算子市值,一致預期等(日頻)時序,截面
算子資料來源:因子計算資料來源:算子:包括元素,時序,截面三類算子算子會對應(yīng)相應(yīng)的量綱規(guī)則m代表基本面數(shù)據(jù),v代表常數(shù)項,取值為1,2,4,8,12.對于季頻因子,常數(shù)項單位為季度,取值從一個季度到三年,如果為日頻因子,單位為月,時間長度從一個月到一年算子解釋量綱要求元素運算符add(m1,m2)m1+m2輸入相同量綱,輸出不改變量綱sub(m1,
m2)m1-m2輸入相同量綱,輸出不改變量綱div(m1,m2)m1/m2輸入相同量綱,輸出無量綱mul(m1,
m2)m1*m2輸入為不同量綱,輸出為帶量綱時間序列運算符ts_mean(m,v)過去v期m的平均值輸出不改變量綱ts_std(m,v)過去v期m的標準差輸出不改變量綱ts_delay(m,v)m滯后v期輸出不改變量綱ts_delta(m,v)m與過去v期的差值輸出不改變量綱ts_pct(m,v)m與過去v期的變化率輸出無量綱ts_max(m,v)過去v期m的最大值輸出不改變量綱ts_min(m,v)過去v期m的最小值輸出不改變量綱ts_min_max_diff(m,v)過去v期m的最大值與最小值的差輸出不改變量綱yoy
(m)m的同比值輸出無量綱qoq(m)m的環(huán)比值輸出無量綱ttm(m)m的TTM值輸出不改變量綱ts_slope
(m,v)過去v期m的斜率輸出不改變量綱ts_resi(m,v)過去v期m的殘差輸出不改變量綱ts_rsquare
(m,v)過去v期m的r2輸出無量綱ts_regression_slope
(m1,m2,v)過去v期m1對m2回歸的斜率輸入相同量綱,輸出無量綱ts_regression_resi(m1,m2,v)過去v期m1對m2回歸的殘差輸入相同量綱,輸出不改變量綱ts_regression_rsquare
(m1,m2,v)過去v期m1對m2回歸的r2輸入相同量綱,輸出無量綱橫截面運算符cs_norm(m)m的橫截面標準化輸出無量綱cs_minmax(m)m的minmax標準化輸出無量綱cs_rank(m)m的橫截面排序輸出無量綱因子計算Cython+流式計算加速+雙層算子:傳統(tǒng)groupby+rolling
apply計算因子:
時間復雜度為:O(M*T*N),M為股票數(shù)量,T為時間長度,N正比于Rolling的長度,例如計算5000只股票5年的20日PE平均值,大約需要5000*1250*20次運算。流式計算:基于已有結(jié)果進行更新。時間復雜度O(M*T),每次更新的時間復雜度為O(1),相比傳統(tǒng)方式,效率提升N倍。以ts_regression_slope算子為例,如果使用傳統(tǒng)的scipy.stats.linregress函數(shù),對一只股票兩個因子間進行1000次T為12的滾動回歸,耗時約8.15秒,采用cython+流式計算技術(shù),耗時約0.07秒,效率提升116倍。其中cython帶來的提升約為9.6倍,流式計算帶來的提升約為12倍。雙層算子:對于長表和寬表,分別構(gòu)建基于pandas和numpy的兩套算子,充分利用pandas的靈活性和numpy的高效性,再結(jié)合lazy
+
cache,進一步提高因子計算效率。資料來源:雙層算子長表寬表Pandas
groupby計算numpy計算不斷
resample
極其耗時,初始cache數(shù)據(jù)resample結(jié)果,中間進行惰性計算(Lazilyevaluated)資料來源:惰性計算(Lazily
evaluated):這是一種常用的設(shè)計模式,利用裝飾器將Python類中的方法轉(zhuǎn)變?yōu)閷傩?,通常用于計算量大,頻繁調(diào)用,且不帶參數(shù)的方法,這樣在實例化的時候只計算一次,并保存到類屬性中,以后直接拿來用就行因子進化-遺傳規(guī)劃算法資料來源:Quant
4.0:
Engineering
Quantitative
Investment
with
Automated,
Explainable
and
Knowledge-driven
Artificial
Intelligence,遺傳規(guī)劃GP:
樹形表達式結(jié)合進化算法對樹結(jié)構(gòu)進行交叉變異,子樹變異,生成新的子代。本質(zhì)上是一種前向隨機變異過程,進化主要是通過篩選完成。錦標賽法+改進后適應(yīng)度篩選相關(guān)性低的個體,增加種群多樣性。因子進化-LLMs進化資料來源:LLMs進化:
大模型分析因子含義以及規(guī)律,生成新的因子提示詞構(gòu)建:系統(tǒng)提示詞你的任務(wù)是對這些因子進行細致的分析,理解其邏輯,目標是在維持因子結(jié)構(gòu)相對簡潔的前提""“作為專業(yè)的量化分析師,你的專長在于深入分析及優(yōu)化因子以提升其信息系數(shù)(
IC)表現(xiàn)。用戶將提供一組因子及其當前的IC指標,每個因子由特定的算子與基礎(chǔ)數(shù)據(jù)構(gòu)成。下,通過調(diào)整算子或者數(shù)據(jù)來增強因子的有效性,
改進方法可以是:##
算子替換:
例如
add
->
sub,
ts_mean
->
ts_max等##
數(shù)據(jù)替換:
例如
s_fa_workingcapital
->
s_fa_investcapital;
1
->
2等注意這里我只是舉了幾個例子,具體如何替換根據(jù)你自己的理解進行,可替換的算子和數(shù)據(jù)參考:
\n""""""改進生成新的因子,
目標是實現(xiàn)IC值的顯著提升。請確保給出新的改進因子,不要給出已有因子,在改進過程中注重實效性與因子的可解釋性,
避免不必要的復雜度增加。完成優(yōu)化后,
直接輸出最終優(yōu)化的因子表達式的列表,
給出10
個優(yōu)化因子,
并將其格式化為JSON,以便于用戶直接應(yīng)用及后續(xù)的分析工作,輸出格式為:{"優(yōu)化因子列表"
:[{"因子":"***","改進原因":"***"},......{"因子":"***","改進原因":"***"}]}"""因子進化-LLMs進化資料來源:用戶提示詞"以下是已知的因子及其IC:{}
\n,
你上次給出的因子:
{}
\n請根據(jù)以上信息給出新的改進因子,不能使用已有因子,也不要和上次給出和上次相同的因子,必須給出新的改進因子".format(llm_factor_info,
last_info)其中l(wèi)lm_factor_info為篩選出的表現(xiàn)最好且相關(guān)性最高的因子及IC信息,
last_info為LLMs上次輸出的結(jié)果。輸出結(jié)果:{'優(yōu)化因子列表’:
[{'因子':
'ets_max(ets_pct(ediv(eadd(ets_delta(s_qfa_grossprofitmargin,
1),
div(empl_ben_payable,
dq_mv)),
s_qfa_salescashintoor),
2),
1)','改進原因':
'通過使用ets_max和ets_pct算子,增強了因子的敏感性和穩(wěn)定性,預期能提升IC值。'},{'因子':
'ets_regression_resi(ets_slope(cts_pct(acct_payable,
1),
8),
eadd(esub(esub(ets_delay(div(s_fa_grossmargin,
val_mv),
2),
s_fa_yoynetprofit_deducted),s_fa_deductedprofittoprofit),div(oper_profit,val_mv)),
12)','改進原因':
'通過增加ets_regression_resi算子,提高了因子對數(shù)據(jù)變化的捕捉能力,預期能提升IC值。'},{'因子':
'ediv(esub(ecs_norm(s_fa_equitytodebt),
ccs_rank(tot_shrhldr_eqy_incl_min_int)),
div(cadd(s_fa_workingcapital,
s_fa_investcapital),
val_mv))','改進原因':
'通過使用ediv和esub算子,優(yōu)化了因子的結(jié)構(gòu),預期能提升IC值。'},{'因子':
'ecs_rank(ediv(ets_delta(div(s_fa_deductedprofit,
val_mv),
4),
ecs_minmax(ets_mean(s_qfa_yoygr,
12))))','改進原因':
'通過增加ecs_rank和ediv算子,提高了因子的區(qū)分度和穩(wěn)定性,預期能提升IC值。'},{'因子':
'div(cmul(ets_min_max_diff(s_fa_roe_deducted,
12),
cadd(stm_bs_tot,
net_cash_flows_inv_act)),
val_mv)','改進原因':
'通過使用div和cmul算子,優(yōu)化了因子的結(jié)構(gòu),預期能提升IC值。'},{'因子':
'ccs_rank(cmul(ets_regression_rsquare(s_fa_gctogr,
ets_regression_resi(s_fa_yoyocf,
s_qfa_yoysales,
2),
2),
cts_delay(cts_delay(s_fa_ebit,
4),
4)))','改進原因':
'通過增加ccs_rank和cmul算子,提高了因子的區(qū)分度和穩(wěn)定性,預期能提升IC值。'},{'因子':
'ecs_minmax(ets_min(ccs_rank(oper_profit),
2))','改進原因':
'通過使用ecs_minmax和ets_min算子,增強了因子的敏感性和穩(wěn)定性,預期能提升IC值。'},{'因子':
'ets_slope(ecs_norm(cts_pct(cts_min(undistributed_profit,
1),
1)),
8)','改進原因':
'通過增加ets_slope和ecs_norm算子,提高了因子的區(qū)分度和穩(wěn)定性,預期能提升IC值。'},{'因子':
'ets_max(ecs_norm(ets_min_max_diff(s_fa_taxtoebt,
8)),
4)','改進原因':
'通過使用ets_max和ecs_norm算子,增強了因子的敏感性和穩(wěn)定性,預期能提升IC值。'},{'因子':
'ets_min(ccs_rank(cts_max(net_cash_flows_fnc_act,
4)),
2)','改進原因':
'通過增加ets_min和ccs_rank算子,提高了因子的區(qū)分度和穩(wěn)定性,預期能提升IC值。’}]}LLMs能夠“理解”因子的含義,且每次進化均能給出合理原因因子結(jié)果-因子表現(xiàn)ICICIR今年以來IC今年以來IRfactor_zoo_00.04000.43380.04570.0987factor_zoo_10.03570.33520.02630.1154factor_zoo_20.03670.31810.06220.2019factor_zoo_3-0.0482-0.6713-0.06390.0742factor_zoo_40.05960.43460.09410.1735factor_zoo_50.03960.54660.06400.0997factor_zoo_6-0.0499-0.6248-0.05990.1359factor_zoo_70.04440.70370.03340.0492factor_zoo_8-0.0398-0.3476-0.03740.1332factor_zoo_90.08160.67770.15000.1533factor_zoo_100.04510.72690.06470.0571factor_zoo_110.06300.45750.08120.1536資料來源:Factor
Zoo
數(shù)據(jù)庫因子結(jié)果-因子表現(xiàn)factorzoo4資料來源:factorzoo6factorzoo11factorzoo9因子結(jié)果-因子表現(xiàn)factorzoo4資料來源:factorzoo6factorzoo11factorzoo9因子結(jié)果-模型回測收益指標ALPHA累計收益年化收益夏普比率信息比率索提諾比率詹森阿爾法特雷諾比率勝率正收益期數(shù)BETA年化波動率跟蹤誤差下行風險在險價值最大回撤最大回撤形成期最大回撤修復期連續(xù)下跌最大幅度R-Square組合68.37%53.65%12.40%0.471.340.320.170.1151.73%4791.0223.33%0.78%2.12%-2.17%-31.53%73147-19.80%0.72業(yè)績基準0.00%-14.72%-4.24%-0.30---0.180.00-0.0649.35%4571.0019.43%0.00%1.97%-1.92%-39.33%523null-12.86%1.00資料來源:
ifind,訓練模型:
LightGBM數(shù)據(jù)集:
17年開始全A數(shù)據(jù),3年訓練集,1年驗證集,
3個月滾動訓練因子:factor
zoo 12個因子回測區(qū)間:
2021.1
–
2024.10調(diào)倉頻率:月初調(diào)倉持倉數(shù)量:
100只因子結(jié)果-模型回測收益指標ALPHA累計收益年化收益夏普比率信息比率索提諾比率詹森阿爾法特雷諾比率勝率正收益期數(shù)BETA年化波動率跟蹤誤差下行風險在險價值最大回撤最大回撤形成期最大回撤修復期連續(xù)下跌最大幅度R-Square組合88.83%74.11%16.29%0.551.090.410.200.1555.51%5140.9926.86%1.19%2.28%-2.46%-42.29%24null-37.08%0.51業(yè)績基準0.00%-14.72%-4.24%-0.30---0.180.00-0.0649.35%4571.0019.43%0.00%1.97%-1.92%-39.33%523null-12.86%1.00資料來源:
ifind,訓練模型:
LightGBM數(shù)據(jù)集:
17年開始全A數(shù)據(jù),3年訓練集,1年驗證集,
3個月滾動訓練因子:openfe
60個因子回測區(qū)間:
2021.1
–
2024.10調(diào)倉頻率:月初調(diào)倉持倉數(shù)量:
100只因子結(jié)果-模型回測收益指標ALPHA累計收益年化收益夏普比率信息比率索提諾比率詹森阿爾法特雷諾比率勝率正收益期數(shù)BETA年化波動率跟蹤誤差下行風險在險價值最大回撤最大回撤形成期最大回撤修復期連續(xù)下跌最大幅度R-Square組合93.50%78.77%17.13%0.651.510.460.210.1653.78%4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 銅仁學院《工業(yè)機器人技術(shù)》2023-2024學年第一學期期末試卷
- 鐵門關(guān)職業(yè)技術(shù)學院《用戶體驗服務(wù)體系設(shè)計》2023-2024學年第一學期期末試卷
- 鐵嶺衛(wèi)生職業(yè)學院《區(qū)域分析方法計量地理學》2023-2024學年第一學期期末試卷
- 國畫山水畫系統(tǒng)課程設(shè)計
- 標本館課程設(shè)計
- 機械課程設(shè)計 傳動軸
- 智慧運輸專業(yè)課程設(shè)計
- 液壓課程設(shè)計學習記錄
- 推廣運營直播課程設(shè)計
- 衛(wèi)星數(shù)字電視綜合接收解碼器(IRD)行業(yè)相關(guān)投資計劃提議
- 起世經(jīng)白話解-
- 新形勢下我國保險市場營銷的現(xiàn)狀、問題及對策
- 完整版焦慮抑郁自評量表SASSDS
- ISO14001內(nèi)審檢查表
- 五金件成品檢驗報告
- CDN基礎(chǔ)介紹PPT課件
- SPC八大控制圖自動生成器v1.01
- 新形勢下加強市場監(jiān)管局檔案管理工作的策略
- 上海旅游資源基本類型及其旅游區(qū)布局特點(共5頁)
- 六一湯_醫(yī)方類聚卷一○二引_御醫(yī)撮要_減法方劑樹
- 基于四層電梯的PLC控制系統(tǒng)設(shè)計83892727
評論
0/150
提交評論