消费者保护数据
在这一小节中,我们介绍一个基于消费者保护的另类数据案例。消费者保护涉及公司的社会责任,因此这类数据可以归于ESG数据。
在2008年金融危机之后美国成立了消费者金融保护局(US Consumer Financial Protection Bureau/CFPB),旨在强化对提供信用卡和抵押贷款业务的金融机构监管。CFPB创建了一个每天更新的消费者投诉数据库,后者给消费者就零售金融业务的投诉提供了平台。这个数据库的数据可以免费提供,但是要应用到股票量化投资的场景还需要进行预处理。
和很多政府数据源一样,这个数据集的格式随着时间的推移发生了变化,而且其中的数据也没有和股票代码联结。就此ExtractAlpha使用了一种自创的模糊名称匹配算法,其中考虑了公司名称拼写错误、诸如“Inc.”和“Corp.”这样的缩写、公司名称的变化以及公司名称中单词唯一性等问题,由此就将CFPB数据集中的公司名称匹配到一个主公司名称数据集上,而后者可以和类似CUSIP这样的通用证券代码相联结。
这个数据库中包含100家左右的金融上市公司,而每年得到的投诉案件大约有4.8万宗。这个数据集是从2011年开始的,其中包括投诉的日期、投诉涉及的特定产品、投诉内容、公司是否及时回应以及回应是否存在争议等问题。
基于这个数据集我们可以提出这样的想法:投诉较多的公司会面临更大的商业风险,因为它们可能被客户所抛弃,也可能会面临严厉的监管行动。如果这些风险消息被投资者所了解,那么这些公司的股价就会波动剧烈。
一个简单的分析就是在特定时段内把公司股价表现和投诉的次数联系起来。然而,规模越大的金融机构往往也会面临更多的投诉,因此我们可以用金融机构的市值规模来调整投诉数量,然后改变排序,从而让得分高的股票是经过市值调整后投诉数量较少的公司。
现在使用基于投诉数量的得分对股票进行排序,并且使用五分位数来构造投资组合。表1.25给出了五分位股票池中相对常见风险因子的平均敞口,其中一分位表示投诉最少的公司股票,而五分位则表示投诉最多的公司股票。从中可以看出,抱怨最多的公司股价波动更剧烈,杆杆率更高,同时红利收益率也更低。
表1.25 五分位股票池的常见风险因子平均敞口
接下来我们就需要讨论投诉是否解释了除了标准风险因子以外的风险。就此而言,我们可以采用两种方式来理解股票风险,一种是使用股票收益率的标准差也就是波动率来表示风险,另外一种方式就是日股票收益率在截面上相对于行业和常见的风险因子进行回归,然后把回归后得到的残差看作是剩余收益(residualized return),或者是通常所说的股票的特异收益(idiosyncratic return)。剩余收益波动率可以帮我们理解投诉数据中是否包含了常见风险因子以外的风险。图1.24描绘了根据投诉数量划分的五分位股票池的波动率和剩余收益波动率。它表明即使在控制常见的风险因素之后,经过市值调整的抱怨数量较少的股票也会表现出较低的剩余收益波动率,而且这种效应表现的比波动率上的效应更具有一致性。
图1.24 基于投诉的五分位股票池的波动率和剩余收益波动率
资料来源:Jha(2019a)。