NDVI
卫星遥感技术形成的图像数据在大宗商品分析中扮演了重要的作用,[9]Piette(2019)讨论了这类数据在玉米期货市场上的应用。他用到的数据源是美国国家航空航天局(NASA)发射的Terra和Aqua卫星上通过中分辨率成像光谱辐射仪(MODIS)得到的NDVI指数。这个数据集是由美国国家航空航天局(NASA)、美国农业部海外服务局(Foreign Agriculture Service/FAS)和马里兰大学共同发起的全球农业检测项目(Global Agriculture Monitoring Project/GLAM)提供的。[10]在这个小节中我们将介绍这个案例。
在农产品期货市场上,美国农业部(US Department of Agriculture/USDA)每个月发布的《世界农业供需估计报告》(World Agricultural Supple and Demand Estimates/WASDE report),以及美国国家农业统计局(National Agricultural Statistics Services/NASS)在某些特定月份发布的《农作物产出报告》(Crop Production report)是影响美国以及全球农产品市场最重要的公共信息源。有很多文献研究了这些政府报告对大宗商品市场的影响,较早时期研究的结果表明,商品市场的确会受到这些报告的影响。[11]近些年来,伴随着另类数据兴起带来的信息来源的扩大,从直观上看美国农业部报告对大宗市场的影响会降低。但是,Ying et al.(2017)和Karali et al.(2019)的分析都表明,农业部报告对市场的影响并没有减少。还有一些研究表明这些官方报告的价值可能在上升。比如Milacek/Brorsen(2017)表明基于WASED报告的预测模型有助于交易的收益;而Abbott et al.(2016)则表明WASDE报告中涉及玉米的信息价值有3.01亿美元,其中玉米产量预测的价值约为1.88亿美元。
Piette分析了三个数据集。第一组数据是从MODIS上得到的NDVI指数。MODIS的数据从2000年2月以来对外开放使用。这个数据的地理分辨率是250米,而时间分辨率是16天。这样每隔16天就可以得到这个时段上的平均图像。之所以取16天间隔是因为NDVI是一种辐射指数,因而从卫星上进行估计时就会受到云层等天气条件的影响。[12]每年这些卫星图像的发布是以固定的速率进行的,表4.4说明了这一点。第二组数据是玉米期货价格。就此Piette使用了每年12月到期的玉米期货合约。这是因为从农业保险公司的风控角度来看,12月合约最为重要,因为农作物的保险是以每年新作物的收获期价格为基准的。而对于美国玉米而言,新作物的收获期对应的是12月份合约。[13]第三组是玉米产量估计数据。从直觉上看,早期对农作物产量的估计对于生长季节的农产品期货市场来说是关键数据。根据耕种面积,我们可以对农作物下一个收割季的产量进行早期预测。如果其他影响因素不变,那么农作物产量预测的变化就应该影响到期货价格。确切地说,如果在玉米的生长季节中预估玉米收获季节的产量会上升,在未来供给增加的预期下期货价格就会下跌。这样农产品的早期产量估计(或者说产量预测)就是影响期货价格的基本面因素。在这方面,作者使用了美国官方公布的针对10个州的产量估计值。这些州是伊利诺伊州、印第安纳州、爱荷华州、堪萨斯州、密歇根州、明尼苏达州、内布拉斯加州、俄亥俄州、南达科他州和威斯康星州。这些州出产的玉米占全美的80%以上。考虑到农产品的生长时节,Piette具体使用了官方在2000年到2016年8月、9月和10月报告中公布的上述10个州的玉米产量估计值,以及在随后一年1月份在玉米收获以后发布的最终产量估计值。
表4.4 NDVI图像周期和相应的日历日期
Piette的分析是沿着两条主线进行的。第一条主线分析了美国农业部的报告中产量估计对玉米期货价格的影响;第二条主线则分析了基于NDVI指数形成的产量预测和期货价格之间的关系。考虑到本书针对的是另类数据,所以下面的介绍将以第二条主线为主。
沿用Lehecka(2014)采用的事件研究方法,Piette以在8月、9月和10月官方发布的报告为事件分析了12月到期的玉米期货合约价格变动,同时事件窗口期是报告发布的前后5天。考虑到2013年之前,报告的公布时间是上午8点半,而在2013年之后公布时间改为下午12点,也就是半夜时分,这样玉米期货的收益率就被定义为:
其中和
分别表示第N年的12月期货合约在第i个发布月份(i=8,9,10)交易日t的开盘价和收盘价,其中t=0对应事件研究的原点,也就是报告发布日。
图4.2给出了8月、9月和10月公告日前后的平均绝对收益率。从中可以看到,在WASDE报告之后的交易日中,8月和10月期货的平均绝对收益率比较高,而B图中的9月份报告结果并不明显。因此从直觉上,我们可以认为8月和10月的报告包含了玉米市场的新信息,因此期货市场会做出反应,但是9月报告的影响比较小。接着Piette针对期货收益报告发布日(t=0)的方差和在事件窗口期(从t=-5到t=5)的方差进行了F检验,从中进一步支持了前面的结论。
图4.2 公告日前后的平均绝对收益率:2000—2016年
资料来源:Piette(2019)。
接下来Pietter分别以官方8月、9月和10月报告中产出估计的变化以及基于NDVI预测的产出变化为信息指标,分析了期货价格对这些指标的反应。就官方公布的数据,Pietter构建了如下的信息指标:
其中
上式中,Yk,i,N表示早期的玉米产量估计值,下标k表示不同的州,包含前面提到的美国10个州;i表示官方报告的月份,也就是8月、9月和10月,而N表示样本年份。Yk,N表示政府针对州k在第N年的最终产量估计值,它是在后一年的1月份发布的。上式表明,在9月和10月的市场,新信息是两次报告期产量预测值的对数差;而对于8月而言,因为在这个月份NASS将针对本年度首次发布产出预测,因此它就等于本月的产量预测和前五年最终产量估计值的截断平均值之间的对数差。[14]
为了构建基于NDVI指数的产量预测模型,Piette首先定义Vk,P,N表示州k第N年第P个时段上的NDVI平均值,其中时段是根据表4.4中的日历周期进行定义的。这样基于NDVI的时间序列就可以针对时段9(5月9日到5月24日)到时段17(9月14日到9月29日)之间的所有时段定义如下两个指标:
·作物生长季的NDVI总值;
·以递推方式形成的时段NDVI峰值;
在上述两个式子中P∈{9,...,17}。由此Piette就针对样本中的每个州建立了基于NDVI的产量预测回归模型:
Yk,N=βk,P,0 +βk,P,1×N +βk,P,2×Mk,P,N +βk,P,3×(Gk,P,N - Mk,P,N)+εk,P,N
其中Yk,N表示州k在第N年的最终产量估计值。针对这个回归,作者针对每个州估计了时段P∈{13,15,17}的回归系数,结果如表4.5所示。从中可以看出,除了堪萨斯州以外,针对第17个时段(9月底)的模型在所有州的调整R2都超过0.80。同时除了堪萨斯州和威斯康星州以外,其他州的调整R2会随着作物生长季节而增加。以明尼苏达州为例,在7月底(第13个时段)模型的拟合优度是0.54,而到了8月底增加到0.77,最终在9月底达到了0.85。[15]
表4.5 2000—2016年玉米产量最终估算值与NDVI时间序列的回归结果
续表
根据表4.5的结果,我们就可以得到基于NDVI的产量早期估计值:
在这个预测方法中需要注意两点。首先,它没有把NASS的早期产量估计值纳入预测模型中,而是只使用了官方公布的最终产量估计值,这样做的目的是避免引入NASS的早期产量估计而带来过拟合的问题;其次,分析的时段分别在7月27日、8月28日和9月29日结束,因此就是在8月、9月和10月报告发布之前,这样就只能使用当时已知的NDVI数据来预测。图4.3报告了基于NDVI得到的产量估计变化率和NASS报告的产量估计变化率两者散点图,从中可以看出这两个变量是高度正向相关的:相关系数和秩相关系数分别为0.68和0.35,这两个数值在0.1%水平上都是显著的。这个结果充分说明基于NDVI形成的产量预测对于官方公布的产量预测有明显的指导意义。
图4.3 玉米产量估计变化率:NASS对比NDVI
资料来源:Piette(2019)。
和前面的方法相似,现在基于NDVI带来的产量预测变化来构建市场参与者可以获取的信息:
有了Xk,i,N以及这两个反映产量估计变化率的指标,Piette最后分析了玉米期货市场对它们的反应:
考虑到上述回归中并不能捕捉市场反应和政府报告之间的非线性关系,所以Piette还估计了r0,i,N、Xk,i,N、之间以及Kendall的秩相关系数。表4.6报告了统计分析结果。从中可以看出,期货价格不仅会对官方报告中的早期产量估计变化做出反应,而且这种反应和经济直觉方向一致,也就是β1的估计系数都是负数,这意味着做出产出预测的减少(增加)会导致商品期货价格的上升(下降)。当然我们可以看到这种关系的显著性在各个月份之间存在着差异。正如图4.2所示,这种效应在9月报告上不像8月和10月报告那么显著。[16]而B组的结果则表明,当考虑这三份报告时,
的估计值是负数,因此符合经济直觉,但是就9月的产量估计变化而言,不仅它和期货收益率之间没有显著的统计关系,而且符号还是正的。我们再次看到9月的例外情况。同时就Kendall的秩相关系数而言,8月和10月的产量预测变化和期货收益率相关性显著为负,而9月的数据相关性则不明显。但是和线性模型预期不一致的是,当综合考虑所有三个月的情况是,秩相关系数在统计上并不显著。
表4.6 早期玉米产量估计变化和玉米期货收益率之间的关系
虽然Piette针对卫星图像数据在农产品期货市场上的应用并没有得到一致性的结论,但是这种应用的前景还是很有希望的。就Piette的预测模型而言,还有可以改进的地方。首先一种简单的方法就是把天气数据或者是其他的植被指数纳入分析,比如说增强植被指数(enhanced vegetation index/EVI)。还有就是延长历史数据的时长,虽然MODIS数据只能从2000年以来获取,但是像AVHRR这样的数据源历史就更长。另外前面分析的NDVI形成的产量预测和官方报告的产量估计之间的相关性表明,这种分析可以应用到大宗商品市场的交易中。当然在实施交易之前需要通过回测的方式进行绩效评估。就此而言,我们需要关注的是样本外结果,这样为了避免过拟合而仅仅使用NDVI数据来预测官方在年后公布的最终产量数据这种方法就不是很合理了。这个时候更好的预测目标不是官方最终公布的产量估计,而是使用官方的早期产量估计Yk,i,N。