电邮收据数据
现在我们介绍基于电邮收据的另类数据用例。首先是两个Eagle Alpha(2018)介绍的用例,[8]然后介绍两个基于Quandl电邮收据数据集的用例。Eagle Alpha(2018)的两个用例使用的数据集都来自于和Eagle Alpha签有合伙协议的数据服务商。后者收集了来自200万活跃买家的匿名购物数据,涉及美国25个行业超过600家的公司。这个数据集并没有做实体映射,也就是没有对应到股票代码上。它的数据服务是从2013年开始,同时滞后7天以周的频率发布。
数据服务商将多种不同形式的非结构化电子邮件数据转换为结构化并且可以分析的消费者交易数据集。这个数据集的细粒程度很高,因为它包括了物品以及存货单位(SKU)级别的交易数据。这些数据分成53个产品类别。
1.预判盈余公告日股价变动方向
在第一个用例中,Eagle Alpha的数据分析团队讨论了从2017年7月以来根据电邮收据发布的10份公司季度预测报告,如表2.4所示。在每个报告中,Eagle Alpha都构建了基于电邮收据数据的个股预测模型,然后发布报告表明Eagle Alpha的预测相对于市场预期是过高、过低还是一致的。在这十份报告中,我们可以看到有八份报告从事后结果来看是正确的,而报告C和D事后被证明判断错误了。而且最后一列的股价波动数值表明电邮数据中包含可以带来超额收益的信号。
表2.4 电邮数据回测结果
2.预测支付公司的卖家数量
美国纽交所上市公司Square是一家支付服务商,它允许用户通过手机在Square设备上刷卡或者手动输入的方式使用信用卡。这家公司开发的移动应用可以在iOS和Android系统的手机和平板电脑上使用,目前在美国、加拿大、澳大利亚和日本等国家提供服务。
2017年5月Square公司举办了一个分析师会议,其间详细介绍了公司增长战略:一方面是争取扩大市场份额,获取更大的商户也就是卖家使用Square的设备;其次是稳定住现有的商家。
年度总支付量(gross payment volume/GPV)这个指标高于12.5万美元的用户就是大型卖家。2017年第二季度,Square公司报告的营收要比预期更高。调整后的收入年度同比增长从第一季度的39%增加到第二季度的41%。
Eagle Alpha的数据分析报告使用电邮收据的数据说明了Square公司服务的卖家数量以及卖家销售金额变化的历史趋势。与之相比,Square公司并没有在自己的公司财报中披露这些和卖家相关的指标。对电邮收据的数据分析表明,自2016年第一季度以来,卖家数量的同比增长率一直在下跌,这就导致Square公司在此期间收入同比增长率放缓,如图2.9所示。然而在第2017年第二季度,使用Square平台的卖家数量从一季度的15%增加到17%,图2.10的卖家指数(Seller Index)也说明了这一点:卖家数量从2016年全年平均的325上升到396。
图2.9 公司收入、卖家数量和单位卖家销售金额年度增长率
资料来源:Eagle Alpha(2018)。
图2.10 卖家指数
资料来源:Eagle Alpha(2018)。
电邮收据的数据说明卖家的平均年度销售金额在2016年按照同比是下降的。但是2016年第四季度卖家平均支出金额的变化率转跌为升,由此就改善了2017上半年的收入增长率。卖家数量的增长以及每个卖家销售金额的增加都表明公司的增长战略发挥了功效,而这对于公司长期的基本面而言就是一个积极信号。2017年11月8日Square发布了第三季度的业绩优异,并且把全年的收入从9.25亿~9.35亿美元调升至9.63亿~9.66亿美元。
3.预测公司季度销售额
这个用例引自De Rossi et al.(2019),其中使用了Quandl的电邮收据数据。[9]这个数据集存在着数据回填的现象,也就是当某个新用户在某个时点新加入时,他过往电邮收件箱中的电子账单也会纳入到数据集中。为了解决这个问题,De Rossi等人就抛掉了那些回填的电子收据数据。
这个案例要分析的问题就是基于Quandl的电邮收据数据来预测亚马逊公司的季度销售额。在Quandl的这个另类数据集中,亚马逊公司是观测值最多的公司。同时亚马逊也是一家复杂的公司,需要结合基本面和定量的方法对它进行分析。
亚马逊公司每个季度会按照类型和地区公布季度销售额。图2.11A报告了两大类业务的销售额占比,也就是电子商业和其他业务的销售额,在其他业务中很重要的一块是亚马逊云科技(Amazon Web Services/AWS)。该图表明,尽管云服务这一块发展很快,但是从电子商务中得到的销售额依然占据了公司销售额很大的一部分。[10]而图2.11B则表明,来自北美地区的客户销售额占据了销售总额一半以上,而北美地区的客户可以认为主要是来自美国的客户。
图2.11 亚马逊季度销售额的分解
资料来源:De Rossi et al.(2019)。
但是,我们不能认为就预测亚马逊季度销售额来说,只需要关注来自美国的电子商务销售额就可以了。首先,Quandl的电邮数据样本可能存在着选择偏误(selection bias),因为无法确定Quandl的客户样本表征了美国人口分布情况。其次,尽管没有通过电商平台入账的销售额和美国以外的销售额占比都比较小,但是这些业务的增长率可能会很不一样,由此让季度销售额的预测产生偏差。就此De Rossi et al.(2019)计算了北美、北美以外的地区以及AWS业务销售额在第一到第四季度同比增长率在总销售额增长率中的贡献度,如图2.12所示。其中的每一张图,条形图的总高度表示亚马逊公司在相应季度的销售额同比增长率,而每个板块的贡献度则等于它们各自销售额的相对权重和季度增长率的乘积。图2.12表明,AWS业务对于亚马逊公司销售额的总体增长率贡献依然较小,特别是在第一和第四季度,但是对于第二季度和第三季度的预测则变得越来越重要。北美和世界其他地区电商销售额对总体增长率的贡献很大,而且在多数情况下前者的贡献比重更大。图2.13表明,专注于Quandl收集的美国电邮收据数据不会引发很大的偏误,但是忽略AWS业务的销售增长在未来进行预测时可能就变得越来越不可靠了。
图2.12 亚马逊销售额不同季度同比增长率
资料来源:De Rossi et al.(2019)。
为了预测亚马逊公司的季度销售额,De Rossi et al.(2019)使用了Quandl的电邮收据数据以及公司管理层预测数据。[11]图2.13表明的是预测的时间线。第t季度的真实销售额是在t+1季中公布,同时管理层在t+1的季中公布针对该季度的财务预测。而电邮收据数据是每周更新一次,这样电邮收据数据记录的第t季度交易信息在每个季度后的几天内就可以得到了,因此我们就可以在每个季度结束以后很快生成对于当季的预测。此外,因为每周数据更新一次,所以随着新数据的出现,我们就可以在每个季中的时点生成即时预测。
图2.13 季度销售额预测的时间线
资料来源:De Rossi et al.(2019)。
就管理层预测和电邮数据而言,前者会给出收入预测值的范围,进而可以计算最近季度收入的增长率范围;后者则记录了在季度之间用户样本的交易量信息,进而得到季间增长率。我们可以把后一个增长率和前者的增长率范围进行比较,进而预判销售额的增长率是接近管理层预测范围的上限还是下限。如果电邮收据记录的增长率在管理层预测范围之外,那么可以简单地设定销售额增长率是预测范围的上限或下限。
De Rossi et al.(2019)通过贝叶斯统计的方法把上述两种数据结合在一起,进而形成对销售增长率的预测。举例来说,在2016年第三季度,管理层预测亚马逊的销售额介于310亿美元到335亿美元之间,这样相比于第二季度的304亿美元而言,季间增长率就是介于2%和10.2%之间。如果Quandl得到的电邮收据记录显示亚马逊用户在第三季度比第二季度多花了3.6%,那么就可以使用3.6%作为增长率的估计值。当然3.6%相对靠近2%的管理层预测下限。而如果Quandl的数据显示的增长率达到了12.5%,那么可以认为亚马逊的销售增长率很可能处于管理层预测范围的上限,这个时候可以使用10.2%作为增长率的估计值。通过这个简单的例子可以看出,管理层预测数据是先验信息,而电邮收据的信息则体现了对于先验信息的贝叶斯调整,进而形成销售增长率的后验分布。图2.14就描述了这个信念更新的机制。图中表明先验分布仅仅使用了管理层预测的增长率范围,比如介于2%和10.2%之间,而电邮收据数据则表明销售增长率分布的众数是3.6%。
图2.14 亚马逊销售额增长率预测的贝叶斯分析
资料来源:De Rossi et al.(2019)。
为了比较从管理层预测数据和电邮收据数据中得到的销售增长率,De Rossi et al.(2019)还使用了从I/B/E/S得到的分析师平均估计值,后者可以代表市场共识。这个数据可以在每个季末的一周之后得到。在这个时间点上,Quandl已经把上一季度客户交易的数据处理完毕,并且添加到数据集中。因此这个时候我们可以同时得到电邮收据和分析师预估代表的市场共识这两种预测。表2.5对比了几种方法的预测绩效。从中可以看出,就平均绝对误差(mean absolute error/MAE)这个指标来看,基于电邮收据的预测要好于市场共识的预测,但是从均方根误差(root mean square error/RMSE)来看,市场共识的预测绩效会更好。De Rossi等人就指出这是由于样本早期时段上少数异常值导致的。第三列给出的是命中率(hit rate)指标,它表示在样本时段上电邮收据数据可以改进市场共识的次数。结果表明,在2/3的时段上电邮收据数据可以做到这一点。最后一行把在市场共识以及电邮数据和管理层预测这两个方法得到的结果取简单平均,结果表明平均绝对误差和均方根误差会进一步下跌,同时命中率提升到3/4的水平。
表2.5 销售增长率预测绩效