近年来,高频数据逐渐成为量化策略中一类重要的Alpha 来源。除了用传统的基于人工逻辑的方式构建高频因子外,深度学习也是一种高效、可行的高频因子构建方法。然而,我们在日常的路演交流中发现,初涉深度学习的投资者往往对深度学习高频因子的特征工程(如,特征的构建、处理、归因和筛选)存在各种各样的研究需求。因此,本文旨在通过多方面的对比测试,为广大投资者在特征工程层面提供一定的参考。
深度学习高频因子的特征构建。本文使用“原始数据-分钟级基础指标-目标频率衍生指标”的方式生成高频特征。即,基于原始数据生成一系列分钟级的基础指标,这类指标旨在捕捉原始数据中的基本信息。因此计算往往不会过于复杂,它们将作为后续特征计算的输入数据。得到基础指标序列后,本文先确定算子,再通过不断变换输入的基础指标序列生成特征。其中,算子既可以由简单的四则混合运算或统计计算衍化得到,也可以从人工逻辑因子研发经验中归纳总结。
深度学习高频因子的特征处理。具体包括,分布调整、极值处理和标准化。基于波动率、成交金额、成交笔数和买卖单数生成的特征,通常具有较为明显的偏度。
因此,分布调整是特征处理的第一步。特征中的极值也会影响模型的训练效果,因此,我们采用和常规的因子极值处理类似的方法,即,N 倍标准差截断。和低频数据类似,高频数据同样量纲差异巨大。因此,为减轻这个问题对模型训练带来的影响,标准化也是很有必要的。
相关报告
积分充值
30积分
6.00元
90积分
18.00元
150+8积分
30.00元
340+20积分
68.00元
640+50积分
128.00元
990+70积分
198.00元
1640+140积分
328.00元
微信支付
余额支付
积分充值
应付金额:
0 元
请登录,再发表你的看法
登录/注册