综合在线视频,午夜视频一区,日本免费在线播放,国产精品一区二区资源,国产精品免费aⅴ片在线观看,性感美女的诱惑,国产国语一级毛片全部

當(dāng)前位置:首頁(yè) > 產(chǎn)品展示 > 正文

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘

【新澳门内部资料精准大全】
【2024澳门天天开好彩大全】
【管家婆一肖-一码-一中一特】
【澳门一肖一码必中一肖一码】
【2024澳门正版资料免费大全】
【澳门一肖一码100准免费资料】
【2024澳门特马今晚开奖】
【2024正版资料大全免费】
【2024澳门天天六开彩免费资料】
【澳门今晚必中一肖一码准确9995】
【澳门资料大全正版资料2024年免费】
【澳门2024正版资料免费公开】
【澳门天天开彩好正版挂牌】
【2024澳门天天六开彩免费资料】
【澳门一码一肖一特一中2024】
【澳门管家婆一肖一码100精准】
【澳门王中王100%的资料】
【今期澳门三肖三码开一码】
【2024澳门天天开好彩大全】
【2024一肖一码100精准大全】
【494949澳门今晚开什么】
【香港二四六开奖免费资料】
【澳门平特一肖100%免费】
【7777888888管家婆中特】
【2024澳门天天六开彩免费资料】
【2024澳彩管家婆资料传真】
【管家婆精准一肖一码100%l?】

本研究在前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)的基礎(chǔ)上,將大模型因子挖掘擴(kuò)展至基本面與高頻因子挖掘場(chǎng)景。本文繼續(xù)沿用前期報(bào)告中的多智能體架構(gòu),核心改變?cè)谟卺槍?duì)基本面與高頻因子定制化設(shè)計(jì)算子,以盡可能保證因子表達(dá)式的合乎邏輯。從結(jié)果上看,GPT因子工廠2.0在基本面因子挖掘中表現(xiàn)尚可,在高頻因子挖掘中表現(xiàn)優(yōu)異,因子相關(guān)性均普遍偏低。此外,本文利用GPT因子工廠產(chǎn)出的因子進(jìn)行指增策略實(shí)踐,基于高頻因子構(gòu)建中證1000指增策略(回測(cè)區(qū)間20161230- 20240920),年化超額收益率為31.32%,信息比率為4.20,策略效果較為出色。

人工智能82:GPT因子工廠擴(kuò)展至基本面與高頻因子挖掘

本研究在前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)的基礎(chǔ)上,將大模型因子挖掘擴(kuò)展至基本面與高頻因子挖掘場(chǎng)景。本文繼續(xù)沿用前期報(bào)告中的多智能體架構(gòu),核心改變?cè)谟卺槍?duì)基本面與高頻因子定制化設(shè)計(jì)算子,以盡可能保證因子表達(dá)式的合乎邏輯。在基本面因子挖掘中,因子周度IC均值為0.011,周度RankIC均值為0.013;對(duì)于高頻因子挖掘,因子周度IC均值為0.020,周度RankIC均值為0.031,GPT因子工廠2.0挖掘高頻因子質(zhì)量較高。利用GPT因子工廠2.0產(chǎn)出的高頻因子構(gòu)建中證1000指增策略(回測(cè)區(qū)間20161230- 20240920),年化超額收益率為31.32%,信息比率為4.20。

因子挖掘與GPT因子工廠:大模型因子挖掘或成為因子挖掘新興方案

因子挖掘在量化研究中占據(jù)核心地位,是為多因子模型補(bǔ)充Alpha源的重要途徑。傳統(tǒng)的因子挖掘主要包括人工手動(dòng)挖掘和算法自動(dòng)挖掘兩種方案:人工手動(dòng)挖掘依賴于量化研究員對(duì)市場(chǎng)的理解與直覺(jué),離不開(kāi)研究員的專業(yè)素養(yǎng),需消耗高昂的人力成本;算法自動(dòng)挖掘?qū)⒁蜃油诰蛄鞒套詣?dòng)化,有效降低人力成本,然而其缺陷是過(guò)擬合風(fēng)險(xiǎn)與可解釋性難題。大模型因子挖掘或?qū)⒊蔀樾屡d的因子挖掘方案,其可行性在前期報(bào)告中已得到證明,同時(shí)大模型可給予清晰的邏輯解釋,過(guò)擬合風(fēng)險(xiǎn)或更可控。

基本面與高頻因子挖掘:或是自動(dòng)化因子挖掘難涉之境

算法自動(dòng)化因子挖掘相比于人工挖掘存在諸多優(yōu)勢(shì),但卻鮮有針對(duì)基本面或高頻因子的自動(dòng)化因子挖掘,人工挖掘因子似乎更具優(yōu)勢(shì)。對(duì)于基本面因子挖掘而言,傳統(tǒng)算法在無(wú)法利用專業(yè)知識(shí)的前提下,難以構(gòu)造具備邏輯性的基本面因子。對(duì)于高頻因子而言,傳統(tǒng)算法可能難以在表達(dá)式中融入日頻化采樣,高頻因子表達(dá)式的復(fù)雜性形成一道隱形的墻。大模型或許是解決之道,一方面在于大模型近乎人類的邏輯推理能力,另一方面在于,從自然語(yǔ)言中誕生的大模型擁有更靈活的因子構(gòu)建與因子計(jì)算能力。

因子挖掘效果:基本面因子表現(xiàn)尚可,高頻因子效果優(yōu)異

本文對(duì)GPT因子工廠2.0產(chǎn)出的基本面因子和高頻因子挖掘效果進(jìn)行測(cè)試,分別進(jìn)行30次因子挖掘,每次因子挖掘僅包括首次挖掘。因子IC方面,30個(gè)基本面因子IC均值為0.011,RankIC均值為0.013,|t|均值為1.542;23個(gè)篩選后的高頻因子IC均值為0.020,RankIC均值為0.031,|t|均值為4.588。因子相關(guān)性方面,基本面因子相關(guān)系數(shù)絕對(duì)值均值為0.10,高頻因子相關(guān)系數(shù)絕對(duì)值均值為0.17,因子工廠產(chǎn)出的因子相關(guān)性普遍偏低。

指數(shù)增強(qiáng)策略實(shí)踐:基于量?jī)r(jià)與高頻因子的指增策略均表現(xiàn)較出色

本文基于量?jī)r(jià)和高頻因子分別進(jìn)行指增策略實(shí)踐檢驗(yàn)。對(duì)于前期報(bào)告初次挖掘產(chǎn)出的量?jī)r(jià)因子,滬深300、中證500、中證1000指增策略年化超額收益率分別為7.18%、10.34%、18.50%,對(duì)于高頻因子,三類指增年化超額分別為13.78%、18.40%、31.32%。將合成后的量?jī)r(jià)因子與高頻因子按1:4權(quán)重合并,合并后因子三類指增年化超額分別為12.38%、17.74%、30.72%。指增策略實(shí)踐表明,GPT因子工廠產(chǎn)出的高頻因子效果總體優(yōu)于量?jī)r(jià)因子,基于高頻因子可構(gòu)建效果較出色的指增策略。

01 導(dǎo)言

“一法通,萬(wàn)法通”? ——諺語(yǔ)

自多因子框架誕生以來(lái),因子挖掘便成為無(wú)數(shù)量化從業(yè)者與學(xué)術(shù)研究者百談不厭的話題。因子挖掘的常規(guī)技法不外乎兩種:人工挖掘與機(jī)器挖掘,后者包括遺傳規(guī)劃、深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)等。與常規(guī)技法不同,隨著大語(yǔ)言模型的興起,利用大模型挖掘因子也成為大模型在量化領(lǐng)域的先鋒應(yīng)用之一,華泰金工在前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)中做了深度探索。

量?jī)r(jià)因子挖掘是自動(dòng)化因子挖掘的“起手式”,遺傳規(guī)劃等如此,大模型亦是如此。對(duì)于狹義的因子挖掘而言,產(chǎn)出的因子需要具備明確的因子表達(dá)式,量?jī)r(jià)數(shù)據(jù)恰恰擁有形成明確表達(dá)式的諸多優(yōu)勢(shì):含義清晰、格式整齊、維度一致等等。然而,在面對(duì)基本面與高頻因子時(shí),遺傳規(guī)劃等方案常陷入困境,原因在于,一方面基本面因子往往需要清晰的邏輯支撐,僅憑算子的組合很難形成邏輯效果兼?zhèn)涞囊蜃樱硪环矫娓哳l因子日頻化操作需要復(fù)雜的格式轉(zhuǎn)換,需要考量算子間細(xì)致的邏輯關(guān)系。大模型近乎人類的邏輯推理能力或許能成為基本面因子與高頻因子挖掘困境的解決之道。

本文是對(duì)前序研究GPT因子工廠在基本面與高頻因子挖掘場(chǎng)景下的擴(kuò)展。在框架設(shè)計(jì)上,本文沿用了GPT因子工廠的多智能體框架:FactorGPT負(fù)責(zé)因子挖掘,CodeGPT負(fù)責(zé)代碼撰寫(xiě),EvalGPT負(fù)責(zé)因子評(píng)估。字段方面,對(duì)于基本面因子挖掘,我們篩選資產(chǎn)負(fù)債表、現(xiàn)金流量表、利潤(rùn)表中的部分財(cái)務(wù)指標(biāo)作為底層字段;對(duì)于高頻因子挖掘,我們使用分鐘頻原始量?jī)r(jià)數(shù)據(jù)作為底層字段,包括最高價(jià)、最低價(jià)、開(kāi)盤價(jià)、收盤價(jià)、成交額、成交量和成交筆數(shù)7個(gè)字段。算子方面,為了貼合基本面與高頻因子挖掘,本文設(shè)計(jì)構(gòu)建定制化的算子列表,以實(shí)現(xiàn)不同場(chǎng)景下的因子挖掘功能。

GPT因子工廠2.0顯示出較優(yōu)異的因子挖掘性能。對(duì)于基本面因子,因子工廠產(chǎn)出的30個(gè)基本面因子IC均值為0.011,RankIC均值為0.013,|t|均值為1.542,因子總體效果尚可,因子相關(guān)系數(shù)為正的系數(shù)均值為0.10,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.09,所有相關(guān)系數(shù)絕對(duì)值的均值為0.10,總體相關(guān)性較低。對(duì)于高頻因子,因子工廠產(chǎn)出30個(gè)因子,經(jīng)篩選后保留23個(gè)因子,其IC均值為0.020,RankIC均值為0.031,|t|均值為4.588,因子表現(xiàn)較為出色,相關(guān)性方面,相關(guān)系數(shù)為正的系數(shù)均值為0.20,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.13,所有相關(guān)系數(shù)絕對(duì)值的均值為0.17,因子相關(guān)性同樣偏低。

與此同時(shí),本文利用前序研究GPT因子工廠中產(chǎn)出的量?jī)r(jià)因子與本文產(chǎn)出的高頻因子進(jìn)行指增策略實(shí)證。對(duì)于前序研究初次挖掘產(chǎn)出的量?jī)r(jià)因子,滬深300指增策略年化超額收益率為7.18%,信息比率1.53,中證500指增策略年化超額收益率為10.34%,信息比率1.61,中證1000指增策略年化超額收益率為18.50%,信息比率2.61。對(duì)于高頻因子,滬深300指增策略年化超額收益率為13.78%,信息比率2.73,中證500指增策略年化超額收益率為18.40%,信息比率為2.68,中證1000指增策略年化超額收益率為31.32%,信息比率4.20。將合成后的量?jī)r(jià)因子與高頻因子按1:4權(quán)重合并,量?jī)r(jià)高頻合并因子滬深300指增策略年化超額收益率為12.38%,信息比率2.45,中證500指增策略年化超額收益率為17.74%,信息比率為2.56,中證1000指增策略年化超額收益率為30.72%,信息比率4.08。上述結(jié)果表明,僅基于GPT因子工廠產(chǎn)出因子即可構(gòu)建效果較出色的指增策略,有效彰顯了GPT因子工廠的實(shí)用價(jià)值。

02大語(yǔ)言模型與因子挖掘

近幾年來(lái),由ChatGPT引發(fā)的大模型浪潮席卷各行各業(yè),大模型應(yīng)用在不同領(lǐng)域不斷帶來(lái)技術(shù)革新。金融領(lǐng)域亦是如此,大語(yǔ)言模型的海量文本處理能力、邏輯推理能力、生成能力使其在金融領(lǐng)域具有廣闊的應(yīng)用前景。Zhao et al.(2024)認(rèn)為,大模型在金融任務(wù)中展現(xiàn)出的能力可分為5種:?jiǎn)柎稹⑶楦蟹治?、命名?shí)體識(shí)別、時(shí)序預(yù)測(cè)、以及數(shù)學(xué)推理,基于這些能力,大模型在金融工程、金融預(yù)測(cè)、金融風(fēng)險(xiǎn)管理、金融實(shí)時(shí)問(wèn)答等任務(wù)中的應(yīng)用被廣泛探索。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第1張

在大模型自身能力的基礎(chǔ)上,合理的應(yīng)用架構(gòu)是提升大模型應(yīng)用效果的必經(jīng)之路,例如多智能體(Multi-Agent)架構(gòu)。舉例而言,Zhang et al.(2024)提出專為金融交易場(chǎng)景設(shè)計(jì)的大模型智能體架構(gòu)FinAgent。FinAgent通過(guò)其多模態(tài)能力處理金融市場(chǎng)數(shù)值、文本和視覺(jué)數(shù)據(jù)在內(nèi)的多模態(tài)數(shù)據(jù),同時(shí)利用低層反思模塊分析市場(chǎng)價(jià)格變動(dòng)、高層反思模塊評(píng)估歷史交易決策,在融合專家指導(dǎo)與技術(shù)分析指標(biāo)后實(shí)現(xiàn)最終的交易決策。從測(cè)試結(jié)果上看,F(xiàn)inAgent的交易盈利效果顯著好于傳統(tǒng)技術(shù)交易策略(MACD、KDJ&RSI等)和其他復(fù)雜算法(SAC、PPO、DQN、FinGPT和FinMem),顯示出智能體架構(gòu)加持下的大模型應(yīng)用潛力。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第2張

基于大模型的因子挖掘

因子挖掘在量化研究中占據(jù)核心地位,是為多因子模型補(bǔ)充Alpha源的重要途徑。傳統(tǒng)的因子挖掘主要有兩種方案,一種是人工手動(dòng)挖掘,另一種是算法自動(dòng)挖掘。對(duì)于人工手動(dòng)挖掘而言,量化研究員將其對(duì)市場(chǎng)的理解與直覺(jué)轉(zhuǎn)化為因子表達(dá)式,進(jìn)而捕捉Alpha,這一過(guò)程將會(huì)不斷循環(huán),依賴的是研究員的專業(yè)素養(yǎng)以及高昂的人力成本。對(duì)于算法自動(dòng)挖掘,因子表達(dá)式將由算法生成,例如遺傳規(guī)劃在上百個(gè)算子與字段構(gòu)成的探索空間中不斷試錯(cuò),以逐漸提升因子IC值等為優(yōu)化目標(biāo),而這類方案的缺陷在于龐大探索空間帶來(lái)的高昂算力成本,并且算法無(wú)法提供任何因子含義,可解釋性往往受到詬病。

利用大模型進(jìn)行因子挖掘或許是一種解決之道。在前期研究“GPT因子工廠”中,我們基于GPT+多智能體架構(gòu)搭建了大模型驅(qū)動(dòng)的因子挖掘框架,為大模型的因子挖掘能力提供證據(jù)支持。在GPT因子工廠中,三個(gè)智能體有序分工:FactorGPT負(fù)責(zé)因子表達(dá)式與因子釋義生成,CodeGPT基于FactorGPT產(chǎn)出的因子表達(dá)式撰寫(xiě)因子計(jì)算代碼,EvalGPT對(duì)因子回測(cè)結(jié)果進(jìn)行評(píng)估并提出優(yōu)化建議。在多智能體架構(gòu)的加持下,我們完成了因子挖掘流程的拆解,使得GPT因子工廠的因子產(chǎn)出過(guò)程穩(wěn)定且有效。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第3張

學(xué)界同樣對(duì)基于大模型的因子挖掘進(jìn)行了諸多探索,港科大和IDEA研究院等機(jī)構(gòu)開(kāi)發(fā)的Alpha-GPT是其中的代表。Alpha-GPT的設(shè)計(jì)理念是提供一個(gè)可交互的自動(dòng)化因子挖掘框架,因此在其架構(gòu)設(shè)計(jì)中,大模型發(fā)揮的作用在于將研究人員的思路轉(zhuǎn)化為遺傳規(guī)劃算法參數(shù),再由遺傳規(guī)劃算法進(jìn)行因子挖掘,最后將表現(xiàn)較好的因子返回給研究人員。Alpha-GPT的優(yōu)勢(shì)在于既能將研究人員的想法融入到因子挖掘過(guò)程中,又能結(jié)合大模型與遺傳算法的優(yōu)勢(shì),大大節(jié)省人力成本。

Alpha-GPT 2.0借助多智能體架構(gòu)對(duì)Alpha-GPT進(jìn)行了全面升級(jí)。Alpha-GPT 2.0由Alpha Mining Agent,Alpha Modeling Agent和Alpha Analysis Agent構(gòu)成,其中,Alpha Mining Agent負(fù)責(zé)根據(jù)市場(chǎng)數(shù)據(jù)進(jìn)行因子挖掘,結(jié)合研究人員見(jiàn)解構(gòu)建因子或進(jìn)行因子增強(qiáng),Alpha Modeling Agent負(fù)責(zé)因子的機(jī)器學(xué)習(xí)建模、構(gòu)建有效的Alpha信號(hào),Alpha Analysis Agent則結(jié)合實(shí)時(shí)知識(shí),對(duì)因子進(jìn)行全面的投資組合分析和風(fēng)險(xiǎn)管理。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第4張

基本面與高頻因子挖掘

盡管算法自動(dòng)化因子挖掘相比于人工挖掘有諸多優(yōu)勢(shì),但卻鮮有針對(duì)基本面因子和高頻因子的自動(dòng)化因子挖掘,人工挖掘因子在這些場(chǎng)景下似乎更具優(yōu)勢(shì)。對(duì)于基本面因子挖掘而言,底層字段主要來(lái)源于各類財(cái)務(wù)報(bào)表,報(bào)表與指標(biāo)間的勾稽關(guān)系較為復(fù)雜,傳統(tǒng)算法在無(wú)法利用專業(yè)知識(shí)的前提下,難以構(gòu)造具備邏輯性的基本面因子。對(duì)于高頻因子而言,傳統(tǒng)算法挖掘方案的困境在于難以在表達(dá)式中融入日頻化采樣,當(dāng)前主流的高頻因子挖掘方案實(shí)際是利用時(shí)序神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高頻數(shù)據(jù)的隱含規(guī)律,直接預(yù)測(cè)未來(lái)股票收益,本質(zhì)上已經(jīng)脫離了公式化的傳統(tǒng)因子挖掘方案,但神經(jīng)網(wǎng)絡(luò)“黑箱”問(wèn)題仍然是難解之痛。

在前序研究“GPT因子工廠”的基礎(chǔ)上,本文嘗試?yán)^續(xù)使用大模型進(jìn)行基本面因子與高頻因子挖掘。對(duì)于基本面因子挖掘,我們篩選資產(chǎn)負(fù)債表、現(xiàn)金流量表、利潤(rùn)表中的部分財(cái)務(wù)指標(biāo)作為底層字段,同時(shí)設(shè)計(jì)了基本面因子構(gòu)造中常用的算子;對(duì)于高頻因子挖掘,我們使用分鐘頻原始量?jī)r(jià)數(shù)據(jù)作為底層字段,同樣也為高頻因子構(gòu)造了一批定制算子。除此之外,本文嘗試分別利用GPT因子工廠產(chǎn)出的量?jī)r(jià)因子與高頻因子構(gòu)建指數(shù)增強(qiáng)策略,最終將經(jīng)過(guò)LGBM模型合成后的量?jī)r(jià)因子與高頻因子加權(quán)合成,構(gòu)建最終的指數(shù)增強(qiáng)策略。

03?方法

本文主要探究“GPT因子工廠”在基本面與高頻因子挖掘場(chǎng)景下的適用性。在應(yīng)用架構(gòu)設(shè)計(jì)層面,本文仍然遵循以往“GPT因子工廠”的多智能體架構(gòu):FactorGPT、CodeGPT與EvalGPT。核心改進(jìn)在于字段與算子方面,基本面因子挖掘主要基于原始財(cái)務(wù)指標(biāo)數(shù)據(jù),高頻因子挖掘主要基于分鐘K線量?jī)r(jià)數(shù)據(jù),算子則針對(duì)因子特性進(jìn)行個(gè)性化設(shè)計(jì)及篩選。無(wú)論是基本面還是高頻因子挖掘,所有步驟均由智能體自動(dòng)執(zhí)行,因子工廠將依據(jù)參數(shù)設(shè)定源源不斷產(chǎn)出因子,同時(shí)將因子的表達(dá)式、含義、計(jì)算代碼、回測(cè)結(jié)果以及優(yōu)化建議保存至本地。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第5張

基本面因子挖掘

字段

基本面因子版GPT因子工廠主要依賴于Wind數(shù)據(jù)源中的AShareCashFlow、AShareBalanceSheet和AShareIncome三張表,具體底層字段如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第6張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第7張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第8張

算子

基本面因子版GPT因子工廠主要依賴于以下算子:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第9張

高頻因子挖掘

字段

高頻因子版GPT因子工廠依賴于以下底層字段:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第10張

算子

高頻因子版GPT因子工廠依賴于以下算子:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第11張

選股組合構(gòu)建

為檢驗(yàn)GPT因子工廠產(chǎn)出因子的實(shí)用性,我們基于前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)挖掘的量?jī)r(jià)因子與本期報(bào)告挖掘的高頻因子構(gòu)建指數(shù)增強(qiáng)選股組合。通過(guò)將因子輸入LightGBM模型中進(jìn)行訓(xùn)練,利用訓(xùn)練完成的模型預(yù)測(cè)股票未來(lái)收益,最后基于股票預(yù)測(cè)收益構(gòu)建選股組合。模型訓(xùn)練與選股組合構(gòu)建的參數(shù)如下表所示。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第12張

04?結(jié)果

在GPT因子工廠2.0的測(cè)試中,我們共產(chǎn)出30個(gè)基本面因子和30個(gè)高頻因子。對(duì)于FactorGPT而言,我們使用的模型為gpt-4-1106-preview,與前期報(bào)告GPT因子工廠中的一致,而其他智能體均改為gpt-4o,這意味著對(duì)于產(chǎn)出的因子而言,其樣本外區(qū)間為2023年11月6日之后,保留較長(zhǎng)的樣本外區(qū)間能夠提供因子及策略效果的觀察窗口,確保結(jié)論的可靠性。此次測(cè)試中我們僅對(duì)因子進(jìn)行初次挖掘,未進(jìn)行因子優(yōu)化循環(huán),一方面盡可能反映大模型直接產(chǎn)出因子的能力,另一方面為避免可能的未來(lái)信息。

基本面因子挖掘?qū)嵗?/p>

以下展示基本面因子版GPT因子工廠2.0的產(chǎn)出實(shí)例。圖表13-15展示GPT因子工廠2.0挖掘出的一個(gè)基本面因子實(shí)例:從因子釋義看,該因子被GPT命名為“短期償債能力因子”,因子同時(shí)考慮企業(yè)貨幣資金同比增長(zhǎng)排名和短期負(fù)債排名,并將二者相除,試圖反映企業(yè)流動(dòng)性管理水平,因子釋義與因子表達(dá)式相符;從累計(jì)周度IC和RankIC看,因子表現(xiàn)尚可,正向趨勢(shì)較為明顯;從分層回測(cè)結(jié)果上看,分層1年化收益率、夏普比率和年化超額收益率優(yōu)于其他分層,因子總體分層效果在可接受范圍內(nèi)。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第13張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第14張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第15張

基本面因子挖掘效果

我們對(duì)30個(gè)基本面因子進(jìn)行總體效果評(píng)估。圖表16與17展示所有基本面因子的累計(jì)周度IC和累計(jì)RankIC,總體而言,大部分基本面因子的周度IC或RankIC累計(jì)趨勢(shì)較為明確,少數(shù)因子累計(jì)值趨近于0或存在較大波動(dòng),局部看,不乏累計(jì)周度IC和RankIC持續(xù)單調(diào)且波動(dòng)較小的優(yōu)質(zhì)基本面因子。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第16張

從相關(guān)性上看,GPT因子工廠2.0產(chǎn)出的基本面因子相關(guān)性普遍偏低。因子相關(guān)系數(shù)最大值為0.91,最小值為-0.94,相關(guān)系數(shù)為正的系數(shù)均值為0.10,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.09,所有相關(guān)系數(shù)絕對(duì)值的均值為0.10。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第17張

高頻因子挖掘?qū)嵗?/p>

對(duì)于高頻因子挖掘,我們同樣展示一個(gè)GPT因子工廠2.0的產(chǎn)出實(shí)例。圖表19-21是一個(gè)高頻因子實(shí)例:從因子釋義看,該因子被GPT命名為“高頻價(jià)格量相關(guān)波動(dòng)因子”,通過(guò)計(jì)算收盤價(jià)滾動(dòng)波動(dòng)性與成交量滾動(dòng)波動(dòng)性間的相關(guān)系數(shù)得到因子值,大模型認(rèn)為價(jià)格與成交量之間的短期相關(guān)性反映了市場(chǎng)的情緒變動(dòng);從累計(jì)周度IC和RankIC看,因子方向?yàn)樨?fù)向,周度IC與RankIC均較為穩(wěn)定;從分層回測(cè)結(jié)果上看,分層5各項(xiàng)指標(biāo)均優(yōu)于其他分層,因子總體分層效果較優(yōu)。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第18張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第19張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第20張

高頻因子挖掘效果

總體效果上,GPT因子工廠在高頻因子挖掘上展現(xiàn)出較大的潛力。從累計(jì)周度IC和RankIC的結(jié)果中看,因子的累計(jì)周度IC與RankIC趨勢(shì)均較為明確,部分因子展現(xiàn)出持續(xù)強(qiáng)勁的IC和RankIC累計(jì)趨勢(shì),表明因子效果較為穩(wěn)定。值得強(qiáng)調(diào)的是,部分因子的累計(jì)曲線中間部分為直線且后續(xù)存在缺失值,原因可能在于因子計(jì)算過(guò)程中出現(xiàn)極端值導(dǎo)致長(zhǎng)期空值。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第21張

從因子相關(guān)性上看,GPT因子工廠2.0產(chǎn)出的高頻因子相關(guān)性同樣普遍偏低。將周度IC與RankIC累計(jì)曲線異常的因子剔除,我們保留剩下的23個(gè)因子進(jìn)行相關(guān)性檢驗(yàn):因子相關(guān)系數(shù)最大值為0.97,最小值為-0.86,相關(guān)系數(shù)為正的系數(shù)均值為0.20,相關(guān)系數(shù)為負(fù)的系數(shù)均值為-0.13,所有相關(guān)系數(shù)絕對(duì)值的均值為0.17。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第22張

基于GPT因子工廠的指數(shù)增強(qiáng)策略實(shí)踐

作為因子挖掘的一種手段,GPT因子工廠并不直接輸出投資組合或量化策略。為驗(yàn)證GPT因子工廠因子產(chǎn)出的實(shí)際效果,我們將因子輸入機(jī)器學(xué)習(xí)模型,基于模型預(yù)測(cè)結(jié)果構(gòu)建指數(shù)增強(qiáng)策略。由于基本面因子頻率較低,較難與量?jī)r(jià)因子和高頻因子混合,這里我們僅對(duì)量?jī)r(jià)因子和高頻因子進(jìn)行測(cè)試。

基于合成量?jī)r(jià)因子的指數(shù)增強(qiáng)策略

對(duì)于前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)中產(chǎn)出的量?jī)r(jià)因子,我們選取首次挖掘的50個(gè)因子,不進(jìn)行額外篩選,直接輸入LGBM模型中進(jìn)行訓(xùn)練,具體訓(xùn)練參數(shù)請(qǐng)參考圖表12。

經(jīng)LGBM模型合成后的因子TOP層相對(duì)凈值及累計(jì)雙周度IC和RankIC如圖表25和26,因子TOP層在樣本外并未衰減,雙周度IC與RankIC保持穩(wěn)定。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第23張

基于LGBM合成量?jī)r(jià)因子構(gòu)建的滬深300指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第24張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第25張

基于LGBM合成量?jī)r(jià)因子構(gòu)建的中證500指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第26張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第27張

基于LGBM合成量?jī)r(jià)因子構(gòu)建的中證1000指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第28張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第29張

基于合成高頻因子的指數(shù)增強(qiáng)策略

對(duì)于GPT因子工廠2.0產(chǎn)出的高頻因子,我們選取前文中保留的23個(gè)因子,同樣不再進(jìn)行額外篩選,直接輸入LGBM模型中進(jìn)行訓(xùn)練,具體訓(xùn)練參數(shù)請(qǐng)參考圖表12。經(jīng)LGBM模型合成后的因子TOP層相對(duì)凈值及累計(jì)雙周度IC和RankIC如圖表33和34。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第30張

基于LGBM合成高頻因子構(gòu)建的滬深300指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第31張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第32張

基于LGBM合成高頻因子構(gòu)建的中證500指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第33張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第34張

基于LGBM合成高頻因子構(gòu)建的中證1000指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第35張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第36張

基于量?jī)r(jià)高頻合并因子的指數(shù)增強(qiáng)策略

我們將經(jīng)過(guò)LGBM合成后的量?jī)r(jià)因子與高頻因子按1:4的權(quán)重合并,形成量?jī)r(jià)高頻合并因子,基于該因子構(gòu)建分別構(gòu)建滬深300、中證500與中證1000指數(shù)增強(qiáng)策略?;诹?jī)r(jià)高頻合并因子構(gòu)建的滬深300指數(shù)增強(qiáng)組合策略凈值與績(jī)效如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第37張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第38張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第39張

基于量?jī)r(jià)高頻合并因子構(gòu)建的中證500指數(shù)增強(qiáng)組合策略表現(xiàn)如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第40張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第41張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第42張

基于量?jī)r(jià)高頻合并因子構(gòu)建的中證1000指數(shù)增強(qiáng)組合策略表現(xiàn)如下:

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第43張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第44張

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第45張

總結(jié)而言,量?jī)r(jià)高頻合并因子的效果主要來(lái)源于高頻合成因子,量?jī)r(jià)合成因子一定程度上成為拖累。基于量?jī)r(jià)高頻合并因子構(gòu)建的滬深300增強(qiáng)策略年化超額收益率為12.38%,略遜于合成高頻因子的13.78%。基于量?jī)r(jià)高頻合并因子的中證500增強(qiáng)策略歷史表現(xiàn)優(yōu)異,年化超額收益率,但近一年來(lái)效果平平。而中證1000增強(qiáng)策略歷史區(qū)間超額收益穩(wěn)定,在2024年年內(nèi)測(cè)試區(qū)間也獲得了11%左右的年化超額收益,總體效果較好。

此外,我們測(cè)試了華泰金工前期報(bào)告《基于全頻段量?jī)r(jià)特征的選股模型》(20231208)中全頻段因子與本文因子間的相關(guān)性,結(jié)果如下表。全頻段因子與本文產(chǎn)出的量?jī)r(jià)合成因子、高頻合成因子與量?jī)r(jià)高頻合并因子總體相關(guān)性較低,分別為0.38、0.26與0.31;量?jī)r(jià)合成因子與高頻合成因子相關(guān)性略高,為0.57。

華泰金工 | GPT因子工廠2.0:基本面與高頻因子挖掘  第46張

05?總結(jié)

本文是GPT因子工廠擴(kuò)展至基本面與高頻因子挖掘場(chǎng)景的深入實(shí)踐。在GPT因子工廠2.0中,架構(gòu)上基本沿用之前的多智能體架構(gòu),即FactorGPT生成因子表達(dá)式和因子釋義,CodeGPT生成因子計(jì)算代碼,EvalGPT負(fù)責(zé)評(píng)估因子結(jié)果以及生成優(yōu)化建議。在因子效果方面,30個(gè)基本面因子IC均值為0.011,RankIC均值為0.013,|t|均值為1.542;23個(gè)篩選后的高頻因子IC均值為0.020,RankIC均值為0.031,|t|均值為4.588。因子相關(guān)性方面,基本面因子相關(guān)系數(shù)絕對(duì)值均值為0.10,高頻因子相關(guān)系數(shù)絕對(duì)值均值為0.17,因子工廠產(chǎn)出的因子相關(guān)性普遍偏低。基本面因子效果總體尚可,高頻因子表現(xiàn)出色。

因子挖掘一直是量化研究皇冠上的明珠之一,基于大模型的因子挖掘在未來(lái)或?qū)⒊蔀闃O具潛力的新興方案。傳統(tǒng)因子挖掘無(wú)論是基于人工還是自動(dòng)化算法,皆存在得此失彼的現(xiàn)狀,大模型一方面能夠降低人工挖掘因子的高人力成本,另一方面能夠有效彌補(bǔ)自動(dòng)化算法缺乏可解釋性與靈活性的缺陷。華泰金工前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)是對(duì)大模型挖掘因子可行性的有力證明,而本文不僅進(jìn)一步將這種可行性擴(kuò)展至基本面與高頻因子挖掘,同時(shí)利用GPT產(chǎn)出因子構(gòu)建出較出色的中證1000指數(shù)增強(qiáng)策略,有效彰顯了GPT因子工廠的實(shí)用價(jià)值。

本文的主要結(jié)果及結(jié)論如下:

1. GPT因子工廠可擴(kuò)展至基本面與高頻因子挖掘場(chǎng)景,因子產(chǎn)出質(zhì)量較好。因子工廠產(chǎn)出的30個(gè)基本面因子IC均值為0.011,RankIC均值為0.013,因子工廠產(chǎn)出的23個(gè)高頻因子IC均值為0.020,RankIC均值為0.031。

2. GPT產(chǎn)出的因子相關(guān)性偏低繼續(xù)在基本面與高頻因子挖掘中得到體現(xiàn)。基本面因子相關(guān)系數(shù)絕對(duì)值均值為0.10,高頻因子相關(guān)系數(shù)絕對(duì)值均值為0.17。

3. GPT因子工廠產(chǎn)出的因子可構(gòu)建較出色的中證1000指增策略。僅基于前期報(bào)告《GPT因子工廠:多智能體與因子挖掘》(20240220)產(chǎn)出的量?jī)r(jià)因子可構(gòu)建出年化超額收益率達(dá)18.50%的中證1000指增策略,基于本文產(chǎn)出的高頻因子可構(gòu)建出年化超額收益率達(dá)31.32%的中證1000指增策略,二者加權(quán)合成后中證1000指增策略年化超額為30.72%。

本文仍有多項(xiàng)未盡之處:(1)本研究挖掘的高頻因子僅限于分鐘K線,尚未嘗試更高頻量?jī)r(jià)數(shù)據(jù)的因子挖掘;(2)本研究?jī)H涉及較低頻的財(cái)報(bào)基本面因子挖掘,未來(lái)可嘗試將量?jī)r(jià)與基本面指標(biāo)融合、以及使用例如一致預(yù)期數(shù)據(jù),構(gòu)建更為高頻的基本面因子;(3)本文并未將基本面因子融入指增策略構(gòu)建中,未來(lái)可嘗試向策略中融入多維信息,以提升指增策略穩(wěn)定性。

參考文獻(xiàn)

Wang, S., Yuan, H., Zhou, L., Ni, L. M., Shum, H. Y., & Guo, J.(2023). Alpha-gpt: Human-ai interactive alpha mining for quantitativeinvestment.arXiv preprint arXiv:2308.00016.

Yuan, H., Wang, S., & Guo, J. (2024). Alpha-GPT 2.0:Human-in-the-Loop AI for Quantitative Investment.arXiv preprintarXiv:2402.09746.

Zhang, W., Zhao, L., Xia, H., Sun, S., Sun, J., Qin, M., ... & An,B. (2024). FinAgent: A Multimodal Foundation Agent for Financial Trading:Tool-Augmented, Diversified, and Generalist.arXiv preprintarXiv:2402.18485.

Zhao, H., Liu, Z., Wu, Z., Li, Y., Yang, T., Shu, P., ... & Liu, T.(2024). Revolutionizing finance with llms: An overview of applications andinsights.arXiv preprint arXiv:2401.11641.

風(fēng)險(xiǎn)提示:

GPT挖掘因子是對(duì)歷史的總結(jié),具有失效風(fēng)險(xiǎn)。GPT挖掘因子可解釋性受限,使用需謹(jǐn)慎。大模型訓(xùn)練集廣泛,可能存在過(guò)擬合風(fēng)險(xiǎn)。

(轉(zhuǎn)自:華泰證券金融工程)