首页    资产配置    【利得研究 · FOF策略】基于多因子模型的ETF择时策略初探

【利得研究 · FOF策略】基于多因子模型的ETF择时策略初探

创建时间:2023-05-31
浏览量:0

原文章发布时间:2023年5月12日

◆     投资摘要    
 
  • 本文基于多因子模型构建利得多因子轮动ETF策略,目标是通过被动行业指数ETF轮动策略跑赢基准主动偏股混合型基金指数(885001.WI)。近4年回测期间,组合年化超额收益6%。利得多因子轮动ETF年化收益率17%,同期基准年化收益率11%。组合月度择时,近4年回测区间,共发出50次择时信号,策略轮动涉及98个主题行业类ETF跟踪指数。策略择时有效率58%,平均择时得分5.46(10分制),能提供有效择时信号。
 
  • 利得多因子轮动ETF组合构建大致分为6步,策略关键是多因子矩阵和算法优选。第一,主题行业型ETF跟踪指数筛选。同一跟踪指数往往有多只ETF产品跟踪,市场表现差异不大,因此我们基于跟踪指数对ETF产品进行划分。第二,跟踪指数多因子打分矩阵构建。从景气度、资金流、拥挤度、技术分析这4个维度共24个指标出发构建多因子打分模型,刻画跟踪指数的相对表现。第三,跟踪指数业绩表现分组。根据下月涨跌幅对跟踪指数表现分组,比如组数为2时,涨跌幅排名前50%的为第一组,后50%的为第二组,依次类推。第四,机器学习分类算法优选。以多因子打分矩阵为输入,指数分组标签为输出,通过决策树、随机森林等经典分类算法训练,比较各种算法的表现。第五,指数表现分组预测。以T-1和T-2月的因子矩阵和对应分组标签作为训练集,完成模型训练,然后以当月的因子矩阵作为输入,预测下月的表现分组。第六,行业轮动模型构建与回测。每月根据分类模型预测结果等权配置,构建组合并回测。
 
 
 
 
  • 基于特定数据集测算后发现,XGBoost表现最优。选用XGBoost作为最终的分类模型,将标的资产按照T+1期涨跌幅分类为2组,分别标记为0和1(标记为0的组别表现优于标记为1的组别)。我们选用2019、2020年的数据对决策树等5种机器学习分类算法进行优选。测试时,将T-1、T-2期的数据作为训练集,T期数据作为测试集,计算测试集上的预测准确率,最后将各期的测试集预测准确率求均值,得到特定算法下的平均预测准确率,按分组数从2到10依次完成上述操作。结果显示,随着分类组数的增加,分类算法的准确性也逐渐降低,分类为2组的情况下分类器准确率高于50%,比较有效。横向比较发现,不管分类组数是2还是10,XGBoost表现都相对更优。
  • 利得多因子轮动ETF相较基于凯利模型的行业轮动ETF表现更优。3月我们曾初步探索了ETF策略构建,基于凯利公式建立了利得行业轮动ETF(详见《20230316【利得策略】基于凯利公式构建行业轮动ETF策略初探》)。利得行业轮动ETF主要优势是能以更低的风险跟踪偏股混合型基金指数,最大回撤比基准小8个百分点,但较难获得明显的超额收益。相比之下,利得多因子轮动ETF能获得更高的超额收益,回测期间持续跑赢基准和行业轮动ETF。
  • 利得多因子轮动ETF最新配置为信息技术与硬件(56%),通讯业务(22%)和工业(22%)。利得多因子轮动ETF最近一次调仓发生在2023年4月底,持仓ETF共9只,等权配置。工业2只ETF分别跟踪创科技、中证军工;通讯板块2只ETF分别跟踪动漫游戏、中证传媒。信息技术与硬件板块共5只ETF,分别跟踪智能制造、物联网、新兴科技100、云计算、中证数据。 

◆       正文       

 

 
 
一、组合构建思路
 
1.1 ETF市场综述
 
 

ETF产品因为交易费用低、操作便捷、规则透明等优点,成为市场上越来越重要的投资工具。截至2023年4月13日,全市场ETF产品782只,合计规模1.64亿元。其中,80%为股票型ETF。股票型ETF近年规模扩张迅速,以主题指数型和规模指数型为主,占比合计达68%,而行业指数型和主题指数型ETF合计占比55%,可配标的丰富。随着ETF产品规模增加、种类不断丰富,基于ETF构建轮动组合也有更强的吸引力。和主动基金相比,ETF风格上更加稳定,不易漂移,利于紧密跟踪股票市场的主题行业热点。本文以主题型、行业型基金为例,基于多因子模型,探索ETF组合相较偏股混合型主动基金的优势。

图1:全市场ETF产品结构

资料来源:Wind,利得研究院,数据截至2023年4月13日

图2:股票型ETF数量及规模

资料来源:Wind,利得研究院,数据截至2023年4月13日

 

1.2 利得多因子轮动ETF构建思路
 
 

利得多因子轮动ETF构建大致分为6步,策略关键是多因子矩阵和算法优选。第一,主题行业型ETF跟踪指数筛选。同一跟踪指数往往有多只ETF产品跟踪,市场表现差异不大,因此我们基于跟踪指数对ETF产品进行划分。第二,跟踪指数多因子打分矩阵构建。从景气度、资金流、拥挤度、技术分析这4个维度共24个指标出发构建多因子打分模型,刻画跟踪指数的相对表现。第三,跟踪指数业绩表现分组。根据下月涨跌幅对跟踪指数表现分组,比如组数为2时,涨跌幅排名前50%的为第一组,后50%的为第二组,依次类推。第四,机器学习分类算法优选。以多因子打分矩阵为输入,指数分组标签为输出,通过决策树、随机森林等经典分类算法训练,比较各种算法的表现。第五,指数表现分组预测。以T-1和T-2月的因子矩阵和对应分组标签作为训练集,完成模型训练,然后以当月的因子矩阵作为输入,预测下月的表现分组。第六,行业轮动模型构建与回测。每月根据分类模型预测结果等权配置,构建组合并回测。

图3:利得多因子轮动ETF组合(以下简称组合)

资料来源利得研究院

 

 
 
二、多因子矩阵和算法优选
 
2.1 多因子矩阵和分组标签
 
 

各行业ETF跟踪指数分布不均,信息技术与硬件、工业和医疗行业最多。跟踪单个指数的ETF基金不唯一,比如跟踪证券公司指数的ETF基金有12只。本文中,我们以所有行业、主题型基金的跟踪指数为样本,并不区分行业型和主题型ETF基金。

图4:各行业ETF跟踪指数分布

资料来源:Wind,利得研究院,行业参考长江,数据截至2023年4月13日

图5:跟踪部分指数的ETF在5只以上

资料来源:Wind,利得研究院,行业参考长江,数据截至2023年4月13日

多因子打分矩阵采用4维度评估,排序打分的方式。多因子打分矩阵关键取决于2点:一是指标选取,二是打分方式。对于问题一,我们选用4维度刻画指数表现的方法,分别从景气度、资金流、拥挤度、技术分析维度找了相关指标,计算指标环比、同比变化情况。由于数据源差异,指标更新频率不同,财报的盈利指标仅季报才有,因此遇到非报告期只能延用前期数据,其余指标基本支持每月更新。对于问题二,不同指数的各指标数据差异巨大,绝对值不具有可比性,我们选择排序的方案,从相对优势考虑。

指数分组标签采用先排序后分组。首先根据下月涨跌幅对指数降序排列,然后按照组数要求均匀划分。以2组为例,前50%为第一组,认为是“好”指数;后50%为第二组,认为是“坏”指数。

图6:多因子评估体系

资料来源利得研究院

图7:因子打分矩阵示例

资料来源Wind,利得研究院

图8:指数分组示例

资料来源Wind,利得研究院

 

2.2 分类算法优选
 
 

机器学习分类算法是一种监督学习算法,它可以将数据集分为多个类别,从而帮助我们了解数据集的不同类别的分布规律和特征。它通过学习训练数据集中的样本特征,来建立分类模型,从而对未知的数据进行分类。经典机器学习算法包括逻辑回归、支持向量机、决策树、随机森林和XGBoost,均可用于二分类和多分类问题。其中,随机森林和XGBoost是集成算法,训练多个分类器共同决策,有效解决了过拟合问题,提高了预测准确性。我们以表格形式展示各类算法的原理及优缺点,在此不赘述。

图9:经典机器学习分类算法介绍

资料来源利得研究院

面对多种可供选择的算法,一般需要在特定数据集上进行算法优选。测试结果显示相同数据集下,XGBoost总是表现更优,当选策略分类算法。组数为2时,算法预测准确率高于50%,将指数按照T+1期涨跌幅分类为2组,分别标记为0和1(标记为0的组别表现优于标记为1的组别)。具体而言,我们选用2019、2020年的数据对上述5中分类算法进行训练,测试环境为python3.8,基于sklearn库实现。测试时,将T-1、T-2期的数据作为训练集,T期数据作为测试集,计算测试集上的预测准确率,最后将各期的测试集预测准确率求均值,得到特定算法下的平均预测准确率。考虑将ETF指数按照T+1期涨跌幅从高到低均匀分为2-10组,依次用各个算法进行训练。

结果显示,随着分类组数的增加,分类算法的准确性也逐渐降低,由于随机判断的概率是50%,因此有效分类器的预测准确率需高于50%,这样仅分类为2组的情况下有满足条件的分类器。横向比较,XGBoost在5类算法中表现最佳,可见同等分类条件下,XGBoost算法最优。在分类为3-10组的情形下,XGBoost的准确率仍大多高于其他算法,由此可见,XGBoost算法表现稳定好于其他4类算法。因此,我们选用XGBoost作为最终的分类模型,将指数按照T+1期涨跌幅分类为2组,分别标记为0和1(标记为0的组别表现优于标记为1的组别)。

图10:不同分组情况下,5类分类算法的测试集的预测准确率

资料来源:Wind,利得研院,统计区间:2019年01月31日至2020年12月31日

 

2.3 最优配置权重
 
 

上节我们已经得到了最优分组数和最优分类算法。本节我们按照最优算法在全部数据集上计算各期的最优配置指数和对应权重。作为一个以跑赢偏股混合型基金指数为目标的组合,强调获取相对收益,我们把这个目标落实到每一期的配置上,具体做法是:1、根据上2期的数据训练一个预测的XGBoost模型,预测下月的指数表现分类标签,多头组合为分类标签是0的,空头组合为分类标签是1的;2、计算每个指数过去一年相较基准的超额收益和最大回撤,按照从优到次排序;3、入选多头为2类,一类是超额收益排序在前5名的;一类是超额收益和最大回撤平均排序在前5名的;入选空头指数为2类,一类是超额收益排序在后5名的;一类是超额收益和最大回撤平均排序在后5名的。最终权重在所有入选指数之间等权配置。

图11:多头及空头组合入选标准

资料来源:Wind,利得研究院,指数指的是基准偏股混合型基金指数(885001.WI)

策略月度择时,近4年回测区间,共发出50次择时信号,策略轮动涉及的指数共98个,每一期配置指数在10个左右,策略能抓住部分趋势和波段行情。从指数出现频次看,新能源电池、新能源车相关的ETF跟踪指数频繁被纳入配置,而2019年四季度至2021年底是新能源概念走强的阶段。以出现频次最高的新能电池指数为例,上涨阶段频繁出现持有该指数信号,能抓住对应指数的部分上涨行情,当调整告一段落,又出现持仓信号,抓住了最后一波上涨波段行情。策略在行情顶部位置易出现判断失误,导致错过最佳卖出时点,但由于调仓频率较高,因此也能较快调整。

图12:各期ETF指数配置轮动

资料来源:Wind,利得研究院

图13:回测期间入选配置频次较高的ETF跟踪指数

资料来源:Wind,利得研究院,持仓信号表示该期配置了该指数,空仓信号代表该期不持有该指数,其余未标记时点代表未持有该指数

图14:新能电池指数择时信号示例

资料来源:Wind,利得研究院,持仓信号表示该期配置了该指数,空仓信号代表该期不持有该指数,其余未标记时点代表未持有该指数

为了对策略的择时效果整体进行量化,我们定义择时得分指标,计算方法如下:

其中,为第t期择时得分,为第t期第i个行业的配置权重,为第t+1期第i个行业在n个行业中的涨跌幅排序得分(换算为10分制,得分越高,行业表现越好)。择时得分越高,代表策略当期择时效果越好,10分制下,定义超过5分即为有效择时。

择时有效率58%,平均择时得分5.46,策略能提供有效信号。按照各期的ETF指数所属行业可以统计得到各期的行业配置权重,从柱状图可见,策略有明显的行业轮动信号。参考各期的择时得分,在50个择时信号中,29个择时信号得分在5分以上,占比58%,平均择时得分5.46,策略能提供有效信号。

图15:各期配置及择时得分

资料来源:Wind,利得研究院

 

 
 
三、组合回测
 
3.1 指数组合回测
 
 

组合年化跑赢基准6个百分点,最大回撤略高于基准。按照上述各期最优配置权重,多头组合明显优于空头组合。2019年以来近4年回测区间,多头组合年化收益16.5%,较基准(万得偏股混合型基金指数)跑赢6个百分点。风险角度看,多头组合最大回撤和年化波动率略高于基准,但夏普比率也高于基准。单位风险带来的超额收益更高。

图16:组合回测净值曲线

资料来源:Wind,利得研究院,统计区间2019年4月30日至2023年5月10日

 

3.2 ETF基金组合回测
 
 

根据指数多头组合构建利得多因子轮动ETF组合,近4年回测期间跑赢基准6个百分点。我们根据多头组合的配置权重落地到ETF基金构建利得多因子轮动ETF组合,由于配置时点可能存在尚无跟踪ETF产品的情况,因此我们做了一些调整。2019年3月待配置的指数中证农业、大农业等指数相关跟踪产品均为2020年以后成立,无法配置,因此我们的ETF组合从2019年4月底成立。后续随着ETF产品的不断丰富,此类问题也逐渐消失。最终回测结果显示,利得多因子轮动ETF年化收益率17%,同期基准年化收益率11%,组合跑赢基准6个百分点。风险角度看,组合最大回撤、年化波动率高于基准,但夏普比率也高于基准,单位风险带来的超额收益更高。

图17:利得多因子轮动ETF组合净值

资料来源:Wind,利得研究院,统计区间2019年4月1日至2023年5月11日

 

3.3 基于多因子的ETF策略优于凯利模型
 
 

利得多因子轮动ETF相较基于凯利模型的行业轮动ETF表现更优。3月我们曾初步探索了ETF策略构建,基于凯利公式建立了利得行业轮动ETF(详见《20230316【利得策略】基于凯利公式构建行业轮动ETF策略初探》)。利得行业轮动ETF主要优势是能以更低的风险跟踪偏股混合型基金指数,最大回撤比基准小8个百分点,但较难获得明显的超额收益。相比之下,利得多因子轮动ETF能获得更高的超额收益,持续跑赢基准和行业轮动ETF。

图18:利得多因子轮动ETF和基于凯利模型的轮动策略收益率

资料来源:Wind,利得究院,回测区间:2019年12月31日(利得行业轮动FOF成立日)至2023年5月

 

 
 
四、组合最新持仓明细
 

利得多因子轮动ETF最新配置为信息技术与硬件(56%),通讯业务(22%)和工业(22%)。利得多因子轮动ETF最近一次调仓发生在2023年4月底,持仓ETF共9只,等权配置。工业2只ETF分别跟踪创科技、中证军工;通讯板块2只ETF分别跟踪动漫游戏、中证传媒。信息技术与硬件板块共5只ETF,分别跟踪智能制造、物联网、新兴科技100、云计算、中证数据。

图19:利得多因子轮动ETF最新持仓明细

资料来源:Wind,利得究院

 

 

 

 

 

法律声明

 

风险提示

投资有风险。基金的过往业绩并不预示其未来表现。基金管理人管理的其他基金的业绩并不构成基金业绩表现的保证。相关数据仅供参考,不构成投资建议。投资人请详阅基金合同等法律文件,了解产品风险收益特征,根据自身资产状况、风险承受能力审慎决策,独立承担投资风险。

 

重要声明

阁下/贵方接受、阅读或使用本文件即表明阁下/贵方已事先及无条件接受以下“重要声明”所载之条款和条件:

本文件系为利得基金备制,本文件中的信息仅作参考之用,不构成任何具有法律约束力之产品投资要约或要约邀请,并且不可用于对投资的评估。

本文件所载信息仅为初步提示,利得基金从未表述或保证本文件中的信息的完整性和准确性,接受或使用者亦不得对其完整性和准确性提出要求。即使本文件所有信息系已尽最大的谨慎提供、选择和校验,利得基金对于信息的完整性以及内容的正确性亦不承担任何责任。

本资料仅为宣传用品,本机构及工作人员不存在直接或间接主动推介相关产品的行为,不构成投资建议。

 

保密条款

本文件中的信息均为保密信息,未经利得基金书面事先同意,不得为任何其它目的,整体或部分地使用、复制或传播本文本中所含信息。

未经事先书面许可,本文件不可被复制或分发,本文件内容亦不可向任何第三者披露,仅供特定范围内的资深专业投资人士使用,不得用作它途。一旦接收或阅读本文件,阁下/贵方应被视为已经接受此项保密条款。

 

 

 

 

利得研究院