电邮收据数据
对于以消费者为终端客户的公司而言,消费者交易数据就是分析这些公司营收变化进而生成交易信号的重要信息源。Eagle Alpha的一个合作伙伴收集整理电子邮件的收据数据,这些数据可以跟踪80%左右的线上交易数据,同时这些数据覆盖了超过5,000家的零售商,而且还可以在53个产品类别上提供物品和存货单位(stock keeping unit/SKU)级别的交易数据。[25]这个数据集只覆盖美国的公司,涉及超过600家的商户,数据是实时收集的,滞后7天发布。数据集本身并没有做实体识别,从而无法和股票代码相关联,所以在使用这个数据集的时候需要在分析之前做实体确认的技术性处理。
摩根大通和Eagle Alpha一起合作研发了这个另类数据用例,并且同时收录在前者的研究报告Kolanovic/Krishnamachari(2017)和后者的另类数据用例白皮书Eagle Alpha(2018)中。这个案例所分析的电邮数据从2013年开始,其中包括一个固定的客户集合,以及物品的消费总金额、订单总数和买家总数。这个案例所用到的数据集涉及97家公司,其中61家上市公司以及36家非上市公司。在61家上市公司中,有31家是标普500指数的成分股公司。出于流动性方面的考虑,下面的投资含义分析就针对这31家标普成分股公司展开。
考虑到各家公司在消费支出金额上的差异,分析师首先将支出金额标准化为相对分数,比如百分比变化,亦或是对平均支出数据进行标准化。同时消费数据中还存在着时节因素,比如根据西方人的消费习惯,在周末的消费支出比较少,同时在11月份消费支出就会比较高。图1.14就反映了这个数据集中体现的时节效应。
图1.14 平均销售额的周时节效应和月时节效应
资料来源:Kolanovic/Krishnamachari(2017)。
这个案例研究了消费金额、订单量和买家数量三个指标,订单量和买家数量之间具有很高的相关系数(高达99%),但是消费金额和后两个指标之间的相关性则比较弱(大约25%)。
Kolanovic/Krishnamachari(2017)针对每个公司把每日的消费支出、订单量和买家数量整合为一个周得分,然后计算了每周得分的百分比变化。接着对变化率进行缩尾处理,从而保留5%~95%分位数之间的数据。在经过这些处理步骤后,他们基于变化率的水平值和经过标准化处理后得到的z分来生成交易信号。[26]具体来说,在进行截面排序之后,做多数值最高的6只股票,同时做空数值最低的6只股票,然后每周对这个多空组合进行一次调仓,即每周做一次投资组合再平衡。表1.9给出了各种不同交易信号形成的多空组合夏普比率。
表1.9 各种不同多空组合的夏普比率
图1.15给出了各种不同交易信号的投资绩效,左图给出的是基于水平值从支出金额、订单量和买家数量这三个数据集中得到的累计收益,而右图给出的是基于4周z分从三个数据集中得到的累计收益。表1.9和图1.15表明,基于4周z分从支出金额生成的交易信号可以在夏普比率上达到1.13,而投资组合的年化回报率则可以高达16.2%。
图1.15 基于电邮数据的交易信号绩效
资料来源:Kolanovic/Krishnamachari(2017)。