金属信号

金属信号

这个小节我们将介绍RS Metrics公司开发的金属信号(MetalSignals)在金属期货中的应用,[25]相关内容取材于RS Metrics(2018c,e)发布的白皮书。

通过卫星对全球主要金属生产地区在室外的仓储信息,RS Metrics就可以发现其中出现显著变化的时期,由此就对全球金属期货的方向性交易提供1~3个月的领先信号。[26]RS Metrics(2018c)探讨了其金属信号对于芝商所铜期货价格的预测含义,其中应用了k-近邻(k-nearest neighbors/kNN)和反向移动平均交叉(reversed moving average crossover/RMAC)这两种方法。下面介绍金属信号对这两种方法的应用。

kNN是一种有监督的分类学习算法,它通过对训练集中的一组特征数据和不同分类的目标变量数据进行学习,然后在特征变量已知的情况下预测未知点的分类标签。未知的分类标签将通过未知数据点和已知分类标签的k个相邻点之间的距离来确定。在拟合kNN算法的时候需要选取两个关键数值:训练样本的规模n以及近邻点的个数k。在当前的应用中,RS Metrics令n=N×80%,其中N表示可用数据点的总数,k取可以最大化命中率的正奇数,之所以取奇数是为了避免正负两个分类标签之间存在着关联。它的具体流程是:

①获得全球铜冶炼厂和储存地点以外地点平均铜储存量的每月估计值。

②使用卡尔曼平滑方法对每个序列进行插补,以弥补缺失值。

③通过加权平均的方式对每个地点的序列进行汇总。

④将每个汇总序列转换为年环比变化率,从而消除季节性影响。

⑤运行kNN算法,预测芝商所铜期货价格和库存的方向性变化:

(a)对特征变量进行规范化处理以消除度量单位产生的影响;

(b)获得用于分类的价格和数量信号;

(c)使用最新的完整数据集得到最佳的预测模型;

(d)使用当前数据从最佳模型中预测未知信号。

随着每月不断增加更多的观测地点和更多的金属观测数据,这样RS Metrics每个月都会对用于预测的kNN模型进行调整。为了选择更好的kNN模型进行月度预测,RS Metricshi用了如下的流程:

① 令k的初始值为,如果k0是偶数,那么就取下一个奇数,这里n为训练集的规模。

②定义奇数集合范围以检验最佳的k∈{3,5,...,k0,...,k0+5}。

③对于k和特征变量的所有组合:

(a)使用规模为n的移动窗口来拟合kNN模型;

(b)基于拟合模型预测第n+1个信号;

(c)移动窗口并重复步骤(b),直至预测价格最后已知的方向性变化;

(d)计算命中率;

(e)选取能够最大化命中率的k值,也就是kbest

图4.6描述了使用kNN方法领先1个月、2个月和3个月预测芝商所铜期货价格的方向性变动。根据历史数据来看,三个不同领先时段的方向性预测准确率都超过了75%,其中领先3个月的预测命中率达到了81%。

图4.6 铜期货价格方向性变动预测的命中率和错失率:kNN方法

资料来源:RS Metrics(2018c)。

RS Metrics(2018e)把上述分析应用到铝和锌这两种金属上,同时还报告了领先1个月和领先3个月在存货方向预测的命中率错失率,如图4.7所示。

图4.7 价格和库存方向性变动预测的命中率和错失率:kNN方法

资料来源:RS Metrics(2018e)。

就反向移动均线交叉(RMAC)这种方法而言,RS Metrics(2018c)考虑两个移动均线系列,其中一个滚动周期较短,另外一个滚动周期较长。当在股票交易中应用移动均线交叉方法的时候,通常如果价格短线(也就是短期移动均线)升至长线(长期移动均线)上方,那么就意味着一个正面或者看涨的信号。RS Metrics把这个思想应用到铜期货价格的方向性预测上:此时长线和短线是冶炼厂外铜库存的长期和短期移动均线,并且注意到反向移动均线交叉的信号价值。也就是说当库存短线升至长线上方的时候是铜期货负面方向变动的信号。具体而言,生成反向移动均线交叉信号的流程是:

①获取全球每周冶炼厂外储存的平均估计值;

②基于卡尔曼平滑方法插补缺失值;

③获取每月金属库存总量估计的短期和长期移动均线;

④计算短期和长期移动均线这两个序列之间的差异,如果短期均线减去长期均线小于0,则标为价格正向变动,而如果差值大于0,则标为价格负向变动。

经过对历史数据进行回测之后,RS Metrics发现3周均线和14周均线一起可以在提前1个月的价格方向性预测中达到65%的命中率;6周均线和8周均线一起可以在提前2个月的价格方向性预测中达到68%的命中率;最后2周均线和22周均线一起可以在提前3个月的价格方向性预测中达到72%的命中率。图4.8描述了这些均线组合的变动情况。其中的1表示短期移动均线,而2表示长期移动均线。

图4.8 基于室外铜库存的短期和长期移动均线

资料来源:RS Metrics(2018c)。

需要注意的是,在这个小节讨论的未来价格(也包括未来库存)的方向性变动预测中,使用到的数据只有RS Metrics金属信号中的各种指标。因此为了得到更好的预测,我们可以使用其他反映金属供需的信息源。


[1] 关于这些指标可以参考第一章中“财经新闻”案例的讨论。

[2] 在涉及股票的研究中,瑞文分析师们的一系列白皮书Hafez/Koefeed(2017a,b)、Hafez/Guerrero-Colón(2016)以及Hafez/Lautizi(2016)中都对事件关联性指标做出了限定。

[3] Donobo(2000)提出了维度诅咒的问题。

[4] 在之前针对股票的研究中,Hafez/Koefeed(2017a,b)使用了OLS技术分析了瑞文的事件情绪评分和股票收益率之间的关系。

[5] 注意这里使用的是交易天数,而非日历天数,因此m=21大体上等于一个月实现波动率。同时作者并没有对参数m进行优化。

[6] 因此这个能源期货组合不是一个我们常见的多空组合。

[7] 为了计算每年的特征变量相对重要性,首先在每个年度计算节点不纯度(node impurities)减少的总量。然后根据这个数量对特征重要性指标重新调整比例,以便给不同事件类型在每个样本外年份确定相对重要性。

[8] 2021年9月8日,来自法国的大宗商品数据服务公司Kpler并购了总部位于纽约的Clipper Data,有关并购案的介绍可以参考www.kpler.com/blog/press-release-kpleracquires-clipperdata。

[9] 我们在《另类数据:理论与实践》一书第七章第二小节中介绍了卫星图像数据。

[10] 有关GLAM项目的详细介绍可以参考Becker-Reshef et al.(2010)。

[11] Summer/Mueller(1989)最先使用事件研究的方法分析了1961到1982年间美国农业部报告对玉米和大豆期货价格的影响,其中表明市场认为官方报告中的信息是新颖和可靠的,因为报告发布后几天的价格变化率会明显高于其他时期。Isengildina-Massa et al.(2008)通过分析期货收益的方差变动得到了同样的结果。其他的一些研究,包括Garcia et al.(1997)、Irwin et al.(2001)和McKenzie(2008)也都得出了商品市场会受到WASDE报告影响的结论。

[12] 关于云层对NDVI指数的影响可以参考Whitcraft et al.(2015)。

[13] 早先的研究,包括Irwin et al.(2001)和Isengildina-Massa et al.(2008)使用的是最近合约的期货价格。

[14] 裁剪平均值或截断平均值是统计学上用来衡量集中趋势的一种方法,类似于平均数和中位数。它是舍弃掉概率分布或样本中最高及最低的一些资料后再计算出的平均值,并且最高和最低两端通常会舍弃掉一样多的资料。许多体育运动的评分方法都会使用裁剪平均值,一组裁判分别给出分数,然后去除掉最高和最低的评分后,计算剩余评分的平均值作为实际得分。因此这个均值也可以称为奥林匹克均值(Olympic mean)。

[15] 堪萨斯州的特殊情况在于,其他州的主要农作物类型是玉米和大豆,而堪萨斯州是冬小麦的主产区,因此在评估NDVI指标时,小麦的NDVI会和玉米的NDVI序列产生冲突。

[16] Isengildina-Massa et al.(2008)也发现9月份报告对市场的影响较低,但是仍然具有统计意义。

[17] 如果周一、周二或周三碰上节假日,那么这一周的报告将延迟到周四或者周五上午11:00发布。

[18] 与之类似,为了衡量中国的石油进口,我们只需要估计马六甲海峡附近的油轮流量就可以了,因为那里是从中东到中国航线的枢纽。而如果了解充电电池产业,那么我们可能只需要监测刚果民主共和国的钴就可以了。

[19] PADD是二战期间由美国国防区石油管理局(Petroleum Administration for War)创建的,用于帮助组织石油产品燃料的分配,包括汽油和柴油燃料。今天这些区域仍然用于数据收集目的。

[20] 路易斯安那离岸油港对海运原油很重要,米德兰是二叠纪盆地的储量中心,目前是世界上最大的产油区之一,帕托卡是几条供应中西部炼油厂的管道交汇点。这10个地点的准确位置是:俄克拉荷马州的库欣,伊利诺伊州的帕托卡,路易斯安那州的Clovelly和Saint James,得克萨斯州的休斯顿、米德兰、Wink、Beaumont-Nederland、Corpus Christi以及Wichita Falls。

[21] 这个数据源的线上地址是:www.ncdc.noaa.gov/isd。早先Hirshleifer/Shumway(2003)有关云量对投资者心理影响的分析也使用了这个数据库。

[22] 从周四到下周二定义晴朗周和多云周的逻辑是:EIA收集数据的时间是周五上午7:00的库存,这样周四的库存数据应该就和EIA公布的数据差异不大,所以选择周四为云量度量的起始时点。另一方面,像Orbital Insight这样的公司通常是在周三上午提供周二的库存估计,这样就让周二成为EIA公告发布前最后的库存估计日期。

[23] 需要注意的是,这个方程右侧自变量和和前两个方程的定义略微不同,它们还是反映晴朗和多云气象的哑变量,只不过现在不是针对周四到下周二这个时段来定义的,而是以每日云量来定义的。

[24] 以这个时段为基准是因为美国政府允许卫星公司向非政府客户销售高分辨率(小于0.5米)的卫星图像。受到这个政策以及卫星技术的发展的影响,2014—2018年之间活跃卫星的年平均增长率分别是199%,但是在1994—1998年、1999—2003年、2004—2008年以及2009—2013年这几个五年时段中,活跃卫星的年平均增长率则只有32%、31%、24%和48%。

[25] 我们在《另类数据:理论与实践》这本书的第七章介绍了这个数据集。

[26] 在铜、铝和锌这几个金属期货品种上,全球交易主要集中在伦敦金属交易所(LME)、芝加哥商品交易所(CME)和上海期货交易所(SHFE)。