引言
大语言模型(LLM)的革命性进展源于两个建模见解:1. 使用Transformer模型解决捕捉词语的上下文关系这一高维问题;2. 通过提高模型复杂度提高样本外表现。已有金融文献主要关注小参数规模的“资产自预测(own-asset prediction)”模型,即对于资产的预测依赖于该资产的条件变量,而忽略了上下文(截面)信息,未能利用更全面的资产信息来描述每个资产的风险和回报。本文提出人工智能定价模型(AIPM),主要贡献如下:贡献1(架构设计):在SDF中引入Transformer架构,充分利用了上述两大建模见解;贡献2(模型解释):在资产定价背景下,对Transformer的作用进行直观刻画;为了说明AIPM的价值,本文进一步研究了AIPM在美国股票市场上的实证表现,通过评估组合样本外评估指标分析Transformer带来的资产信息共享、非线性以及模型复杂度对定价效率的影响。
线性Transformer
本节介绍线性Transformer,该模型可通过闭式解进行估计,借助此模型可以以直观方式剖析Transformer的功能。
文章假设在时刻存在个风险资产,其超额收益表示为向量,每个资产对应一个维特征向量,使用表示在时刻由所有股票特征堆叠形成的矩阵,其中的条件变量构成时刻的信息集。AIPM的条件SDF形式为:
其中向量函数将条件信息映射到SDF中各个风险资产的条件权重,表示条件均值-方差最优投资组合。上述模型过去采用单位矩阵或通过神经网络使得所有资产共享相同的网络架构和模型参数,但每个资产的投资组合权重最终仍然仅取决于其自身的特征,而静态无法适应资产数量随时间变化的情况,同时忽视特征矩阵所包含的股票间相似性的信息。本文所构建的动态通过衡量资产在特征空间中的条件相似性来实现信息共享:通过学习参数,可以学习哪些条件特征代表了最有价值的跨资产预测路径。特殊地,如果的行进行了方差标准化,且是单位矩阵,那么中第元素表示资产对在特征上的相关性。权重为关于的线性函数,是一个的矩阵,表示所有资产特征之间的三向交互,并最多包含个不同的线性参数。已有文献利用中的维特征集合来构建特征驱动的投资组合(因子),其收益由向量表示:近年来关于因子择时的文献已经记录了异常因子收益的时间序列可预测性的稳健证据,可以通过动态组合因子来利用因子预期收益的时间变化提升绩效,其中一个例子是因子动量策略,该策略通过根据因子最近的平均收益来按比例组合因子构建投资组合。提供了另一种视角,通过的每个元素来对中的每个因子进行择时,训练后的系数向量联合优化了所有因子择时策略组合。通常Transformer具有多个注意力头,类似地本文将头线性Transformer定义为:多头注意力机制可视为个单头模型的集成,允许存在多种跨资产可预测性的路径,增加注意力头的数量会提高模型的参数化程度,从而增强其灵活性。基于SDF与均值-方差有效投资组合之间的等价性构建目标函数如下:其中,是参数为的SDF权重函数,是带收缩参数的收缩惩罚项。该目标函数既可以被视为一个最大化夏普比率的投资组合优化问题,也可以等价地理解为最小化定价误差问题。若线性Transformer惩罚项为L2范数,则优化目标为:对于一个头模型,其独立参数数量为,其中每个具有个参数,而每个具有个参数。回归参数的维度为,如果足够大,使得,参数数目达到,则称为饱和模型,是线性Transformer在维条件变量下能够达到的最大参数化;如果较小,使得,那么的元素之间存在参数约束,估计量需要进行修改。线性Transformer提供了一个窗口来理解注意力机制在AIPM中的作用,本节将加入非线性结构构建一个深度非线性Transformer。
非线性权重函数采用层Transformer架构,每层块由两个子层组成。对输入矩阵进行计算。和是维的参数矩阵。为softmax函数,作用于注意力矩阵,将每一行转换为一个概率分布,选择性地将注意力集中在相对较少的相关资产上,同时忽略其余的资产。在softmax操作后,进行残差连接以稳定优化过程:其中,参数矩阵的维度为,的维度为,的维度为,的维度为,且为相应维度的全1向量。因此,输出维度与输入相同,即。在前馈网络之后,同样加入一个残差连接:一个完整的Transformer块由这两个子层组合构成:
得到组合Transformer的递归定义,初始化:每个非初始Transformer块()的输入是前一个块的输出:递归最终将这些特征映射到具有参数向量的条件SDF组合权重:研究数据(条件数据集)来自开源数据集JKP(https://jkpfactors.com/),覆盖1963年至2022年间美国股票的月度数据,样本池涵盖NYSE、AMEX和NASDAQ的股票(筛选标准为CRSP代码10–12)。为保证样本期内的缺失值比例低于30%,将原始数据集中153个特征缩减至132个特征,对每个特征进行截面排序标准化映射到的区间上,并用截面中位数0填充缺失值。2.样本外Hansen和Jagannathan(1997)距离HJD(所有测试资产上的定价误差平方的均值,权重矩阵固定为测试资产的样本外逆协方差矩阵);报告估计值及其统计量推断模型之间差异的统计显著性(其中收益均使用15%波动率调整缩放)。
采用60个月滚动训练窗口对所有模型进行训练。对于线性Transformer模型,在的网格上选择惩罚项参数,采用留一法交叉验证优化目标函数,模型的复杂度(参数数量与训练观测值的比值)超过35000。对于非线性组合Transformer模型,对自注意力矩阵、、的进行随机初始化使其服从正态分布;前馈网络第一层权重参数初始化为,第二层权重参数初始化为,偏置项均初始化为0,最终输出层权重初始化为。采用Adam算法最小化目标函数进行训练,为降低随机初始化权重的影响, 使用不同的随机数种子重复训练10次取平均。
表1A报告了1968年至2022年整个样本期间各资产定价模型的表现,图2展示了所有模型的SDF样本外累计收益,2002年后模型收益趋于平稳,因此,表1B进一步报告了2002年后的样本外模型表现。BSV模型保持了标准低维基准模型的线性结构,但将条件信息集维度扩展至132个特征,在表现上相较于HXZ模型有显著提升,这表明了构建高维模型的价值。DKKM采用了与BSV相同的条件信息集,但利用非线性模型提取信息,DKKM相对于BSV产生了较大且显著的,在夏普比率和定价误差上均有提升,这表明了非线性的价值。线性注意力允许跨资产信息共享,相比于BSV模型有显著提升,表明了跨资产信息共享的价值,但DKKM相对于线性注意力仍然具有显著的,同时线性注意力模型与BSV和DKKM的相关性高达90%,表明其未能有效挖掘跨资产信息共享的优势。MLP具有与Transformer相似的非线性结构和深度,但不允许跨资产信息共享,MLP相较于DKKM具有显著的,表明深度非线性结构对于个股预测至关重要。Transformer通过深度跨资产信息共享显著地提升了资产定价能力,样本外夏普比率提升至4.57(相比MLP的4.31),定价误差降至0.09(相比于MLP的0.13)。为了更系统地评估SDF模型的相对表现,本文估计各模型的事后均值-方差组合,并在使用15%SDF样本方差调整和无做空约束下计算最优权重,在完整样本中,Transformer在最优投资组合中占比最高(60%)。 Kelly等(2023)的主成分投资组合(Principal Portfolios)提供了一种严谨的方法来理解跨资产信息共享以及交易策略中的跨资产预测。 其中为对称分量,代表资产自预测,为反对称分量,代表跨资产预测。表3通过这种对称性分解评估了线性注意力模型的表现。 对称策略和反对称策略表现相似,对称策略略胜一筹,这与一般观点一致,对称依赖关系更稳健。但对称部分和反对称部分的样本外回报相关性仅为32%,这表明线性注意力模型的高回报不仅来源于个股预测,还得益于强大的跨资产预测效应。考虑到所有机器学习模型在研究中的夏普比率都非常高,这表明这些模型的优异表现很可能主要来自股票池中相对流动性较低的股票。本文根据市值将股票划分为不同子集,并对每个子集分别重新估计模型(根据分位数80、50、20划分为4组)。
全市场与微盘股票市场的表现高度相似——这表明,在整个股票市场中训练的模型,主要受到微盘股可预测性的影响,但Transformer在大盘和超大盘股票市场中依然表现突出。在基于注意力机制的资产定价模型中,复杂度主要体现在多个注意力头的使用(尤其是线性注意力模型)以及多个Transformer块的堆叠。图5展示了线性注意力模型在不同注意力头数量下的表现。当注意力头数量从1逐步增加到最大可能值时,模型的样本外表现持续提升,并在约20个注意力头后趋于平稳(对应的参数规模已超过训练观测数的5,000倍)。类似地,图6展示了投资组合Transformer模型在不同深度(即Transformer块数量)下的表现。模型的样本外表现随着Transformer块的增加持续改善,最佳效果出现在10层Transformer块。虽然更深的模型可能带来额外的收益,但深度Transformer的计算成本较高。
本文提出了一种新的资产定价模型,该模型在SDF中引入了Transformer。这一结构通过跨资产信息共享和非线性充分利用条件定价信息。本文还开发了一种线性Transformer,作为简化替代品,从中得出了Transformer资产定价机制的直观分解。本文发现,相较于以往的机器学习模型,AIPM在定价误差上有了大幅度的降低,并剖析了这些提升的来源。
作者:陈庆泽
【免责声明】本文信息仅用于投资者教育之目的,不构成对投资者的任何投资建议,投资者不应当以该等信息取代其独立判断或仅根据该等信息作出决策。本文信息力求准确可靠,但对这些信息的准确性或完整性不作保证,亦不对因使用该等信息而引发或可能引发的损失承担任何责任。