数据清洗

数据清洗

在BARRA模型中,可以根据每个股票的因子原始值特征计算出其因子载荷Χ,再回归计算出最终因子收益f。由于各种原因,因子原始值可能差别非常大,也有可能存在缺失的情况,这就要求我们进行相应的数据处理。一般来说,数据清洗是构造多因子模型的核心步骤,往往占工作量的一半左右。数据清洗包括奇异数据的处理(去极值)、数据标准化、补足因子的缺失数据。

图示

图7-5 风险模型优化后的多因子选股模型

去极值和数据标准化处理一般采用标准差法,即对某个因子k应用下列公式:

图示

图示为因子原始值,μt为市值加权平均,σt为标准差。通过这个公式,把在时间截面上的股票原始因子值(例如EP、市值等),变换成无量纲的标准因子载荷值。由于个股的原始因子值可能差距很大,例如有的股票市值有上千亿,有的股票市值只有10亿,这样算出的无量纲因子差距也可能很大。为了把标准化的因子值进一步缩小到可以接受的区间里,采用以下方法把标准化的因子值缩小到(-3.5,3.5)的区间里,同时保证标准化的因子载荷值尽可能少重复,也就是说保持原始因子值的排序。

Xn,t≥3:

图示

其中Xmax,t为该因子在t时刻,截面最大值。

Xn,t≤-3(https://www.daowen.com)

图示

其中Xmin,t为该因子在t时刻,截面最小值。

数据缺失是比较常见的问题。当构成因子的描述变量数据只有部分缺失时,解决方案有三种:一是利用其余未缺失的因子来继续构建因子,例如可以假设其缺失期的因子载荷值与上期一样;二是使用其所在行业或风格的平均值来替代其因子值;三是对其他未缺失的部分因子值进行回归,从回归系数中补回缺失的因子值。当某只股票的因子指标全部缺失时,一般在改期计算中忽略该股票,或使用行业平均值代替。

为了使分析更全面、有效,还要进行数据分析。因为很多因子未必能够作为真正的因子值使用,数据分析就是对因子进行稳定性检验。自回归系数(自相关系数)是一个比较有效的检验方法,对因子k的自回归检验做法是:

图示

其中图示是回归权重。

这种自回归系数实际是在看因子载荷是否稳定,从而确定统计方面是否稳健。一般来说,自回归系数在0.8以上的因子为稳定的因子,小于0.8的因子不太稳定。

下一步是要看每个因子的统计显著性和因子的共线性。显著性一般使用t检验的方式。共线性决定了因子之间的相关性,强共线性会削弱统计的有效性。因篇幅所限,在此不再赘述。