在上一篇文章中,我们讨论了子图指标选择的逻辑思路和实践环节的注意事项,并在文章末尾留下了两个互动问题。 本文将沿用上一节的思路,尝试讨论和解决所选指标的相关性如何判断,以及遇到相关性相关的指标时如何处理的问题,并在此基础上提供子图中指标选择的具体步骤和标准。
我们打算设计一个同大鑫子图指标系统,作用是**管理的量化提示,核心计算公式是**=2*胜率-1,目前的进展是从数理统计的角度解决“胜率”的定量问题。
之前,我们将指标的相关性定义为公式(或逻辑)在指标的最低水平是否相同,因为公式是指标胜率的关键因素,或者说是影响预期回报的概率。 这是根据直觉常识给出的简单定义,目的是使其更容易理解。
让我们以 KDJ 指标为例。 在同大新**界面,按CTRL+S快捷键,我们调出“程序交易评估系统”,选择KDJ交易,然后下一步,所有设置均由系统默认使用,在品种中选择中国平安(随机选择),然后开始评估。 系统显示胜率为7143%。
如果您在“设置报告”页面上,请单击“优化参数”,勾选弹出对话框中的所有框,然后单击“开始评估”。 该操作意味着根据相同的条件逐个回测KDJ参数组合,总共有360个组合。 其效果相当于将 360 个高度相关的指标放在一起。 此时,总胜率降低到4412%,大幅下降。
通过上面的简单对比,可以直观地感受到高相关指标组对最终结果的影响。 但是,通大鑫的基础指标很多,成百上千,变形无数,如果一个一个的去人工判断,效率低,就会有很大的误差。
那么如何科学判断指标的相似性呢? 在这里,让我们换个角度思考。 将这些指标视为量化交易中的因素(实际上,它们被称为技术指标因素)。 成交量和价格交易中有一个多因素策略,已经是一个成熟的策略,里面有多因素相关处理。
下面**是多因子策略中挖掘因子的过程,如果将因子换成技术指标,是否和我们选择子图表指标的逻辑思路相同。
具体解释一下:
1.选择有效n个因子:
在量化中,评价**良率有效性的评价方法是IC和IR值,松动滤波条件为IC 002,ir>0.3。哪里:
1)IC是信息系数,代表因子***返回的能力。IC的计算方法是计算再平衡周期开始时所有**的排名与再平衡周期结束时的收益排名之间的线性相关系数(correlation)。 IC越大,选股能力越强。
2)IR是信息比率,它代表了因子在历史上表现的稳定性。IR = IC 平均值 IC 的波动性。 不同历史时期的因素表现可能会有很大差异,有时表现很好,有时表现很差,表现在IC上,即IC的波动性非常大。 假设均值IC为常数,IC的波动性越小,因子性能越稳定,IR越大。
2、因素相关性分析:
计算因子IC序列的Spearman相关系数。 具体的计算原理和过程太学术了,有兴趣的可以上网搜索一下。 一般来说,与同一类别的相关性更强; 不同类别之间的相关性较弱。
现在,让我们回到文章开头的两个问题。 通过上述介绍,在定量多因素策略中给出了科学的解决方案。 计算过程复杂,需要使用python,但不能直接在通大信中实现。
那么就有两种解决方案了,一种是编写自己的python程序,搭建一个指标评估框架,然后把所有可访问的指标都扔进去,让系统运行,最后输出一个结果。 这个太复杂了,门槛很高,效益科学,准确率高。 二是简化条件,降低要求和精度,以满足同大鑫环境的要求。
对于初始版本,重点是框架,所以我选择了第二个选项,简化条件和要求,在同大信中,我们用胜率代替IC,用夏普比率代替IR。 在实际操作中,给出了选择子图表指标的具体步骤和标准:
基于同大新系统自带的指标树,每个指标都用历史5年的数据进行回测,并保留回测报告;
在回测结果中,选择胜率为50%的指标;
在回测结果中,选择夏普比率(= alpha yield beta yield ) 1;
筛选后的剩余指标按照评分公式从大到小排序=胜率*权重1+夏普比*权重2;
根据同大鑫系统的自动索引树框架,根据筛选索引树的自动索引树框架建立新的索引树;
在新的指标树中,仅保留同一类别中的指标,并在步骤 4 中得分最高,其余指标将从新指标树中删除。
重新筛选后保留的指标是为子图选择的指标。
对网络上其他基本指标的变体重复上述步骤,以更新和迭代子图指标。
上述步骤介绍了指标选择和迭代更新的具体操作步骤和标准。 初始权重 1 和权重 2 可以设置为 05、可以灵活调整,胜率和夏普比,更要注意哪个权重,只要权重1+权重2=1即可。
在下一节中,我们将按照上述步骤和标准来筛选同大新的基本指标,看看它的效果如何。 因为指标多,会比较费时,我们边做边分享后续结果。
end】