尾声

尾声

一段有趣而奇妙的另类数据之旅结束了。但是从更长远的时间维度来看,本书以及《另类数据:理论和实践》并不是故事的结尾,而应该是另一段旅程的开始,因为它带来的想法创新和风险挑战看起来是一样多的。展望未来,我们应该如何看待和面对另类数据呢?

另类数据,本质上还是数据。正如在《另类数据:理论与实践》一书中所说,我们现在赋予某些数据“另类”这个标签,是相对当前投资者经常或者习惯使用的数据来讲的,随着时代的演进,特别是算力和算法的突破,现在认为是“另类”的数据,将来可能就会脱去这个标签,就被简单地称之为“数据”。

从学术意义上,我认为数据的价值应该在于改变了我们对这个世界运行机制的理解。而另类数据作为数据,也需要满足这个要求。就此而言,我们有必要回顾一下数据是如何形成、塑造和改变人们对资本市场的理解,也就是数据驱动的投资思想史。[1]

学术界通过数据来分析资本市场,可以追溯到Alfred Cowles(1933)。[2]Cowles是《计量经济学》这本全球经济学顶刊的创办人之一,他在这本期刊的第一卷上发表了题为《股市预测者能够预测吗?》的文章。在这篇文章中,Cowles搜集了金融机构推荐的股票、保险公司的股票交易记录、《华尔街日报》中的社论以及金融机构的投资通讯等四类“股市预测者”,通过那个时代能够理解的数据分析工具,对文章标题的问题给了简单明了的回答:“这是值得怀疑的”。十年之后,Cowles(1944)在《计量经济学》发表的一项新的研究,其中使用了15年内将近7000个预测数据。[3]结果再次表明“没有任何证据能证实,(人们)能够成功预测股市的未来走势”。时间来到二战之后,伦敦经济学院的统计学教授Maurice Kendall(1953)在《皇家统计学会杂志》这本历史最悠久的统计学杂志上发表了《经济的时间序列分析》,在这篇文章中,Kendall研究了股票市场和商品期货市场的价格数据,结果表明资产价格“序列的数字就好像是在‘漫游’”。[4]Cowles-Kendall的分析构成了资产价格随机游走假说的最初证据。按照古典经济学思想,价格是由供需决定的,在此基础上通过蛛网模型刻画的价格动态变化就会有着明确的变化模式。显然Cowles-Kendall的数据分析结果并没有支持这种价格有规律变动的假说。

1960年,来自芝加哥大学的两位学者James Lorie和Lawrence Fisher在美林证券的支持下,创立了证券价格研究中心(CRSP)。它与其说是研究中心,不如说是一个历史股价的数据库。一开始它显然是那个时代的“另类”数据集,这并不妨碍它后来成长为全球金融市场数据研究中最常使用的数据库。CRSP的出现激发了更多学者开始关注金融市场的价格,很快金融市场的研究摒弃了古典经济学的价格理论,从经济学的边缘走到了经济学的中心舞台。不久之后的1964年,麻省理工学院的教授Paul Cootner把相关文章汇编成册,由此就产生了当时影响深远的第一本金融实证分析论文集:《股票价格的随机特征》。[5]在应用CRSP数据库方面,芝加哥大学教授、2013年诺贝尔经济学奖得主Eugene Fama绝对是关键性的人物。面对随机游走的实证证据,作为博士刚毕业不久的年轻人,Fama在1965年的《商业杂志》(Journal of Business)上发表了《股市价格行为》的论文。这篇近70多页的长文,一方面应用各种当时的统计技术分析价格,另一方面也对资产价格的随机特征给出了直觉性的经济解释:影响资产价格的关键是投资者的预期,而影响预期的则是信息,因为信息是以不可预见的方式到达市场,所以价格就是随机变动的。这一简单而又深刻的论述把预期、信息这些关键概念引入资产价格分析中,打破了古典经济学围绕供需论述价格形成机制的思想梏桎。[6]几年之后,Fama(1970)就把1965年文章的思想总结为“一个价格始终‘充分反映’可得信息的市场被称为是‘有效的’”。这样,金融经济学领域中经典的“有效市场假说”就问世了。[7]后来这个思想超出了金融学的范畴,延伸到社会科学的其他领域。

在有效市场假说形成的过程中,除了针对资产价格自身时间序列分析得到的随机波动特征之外,另外一个重要脉线就是所谓的事件研究(event study),也就是分析特定公司事件对股价的影响。显然,事件研究需要使用能够反映公司基本面的财报数据,以及各种公司公告的资料。在这方面最为重要的数据库就是标准普尔这家金融服务商提供的Compustat。事件研究的起点是芝加哥大学的Ray Ball和西澳大学的Phillip Brown在1968年做的研究,他们应用Compustat数据库,分析了公司盈余对股价的影响,结果表明当公司发布正向盈余时,股价就会迅速做出正向反应,反之亦然。[8]这个发现进一步支持了资本市场是信息有效市场的假说。我们知道会计传统上只是讲授记账和查账的知识,在当时信息经济学崛起的大背景下,Ball-Brown的研究让会计转变成为一门研究财务信息是如何影响资本市场的学问。[9]

有效市场假说的重点是资产价格的动态变化,那么资产价格在截面上的差异如何理解呢?20世纪60年代,诺奖得主William Sharpe和另外几位学者创立的资本资产定价模型(CAPM)为其奠定了理论基础。CAPM模型把资产预期收益率表示为市场风险溢价这个因子的线性函数,因为只有一个因子,所以这个模型也被称为单因子模型。进入到70年代后,诺奖得主Robert Merton以及另外一位金融研究大家Stephen Ross分别从均衡和套利这两个核心思想出发,创立了时跨资本资产定价模型(ICAPM)和套利定价理论(APT),这两个模型都把资产预期收益率表示为多个因子的函数,因此也被称为多因子模型。[10]这些因子模型在数据中的表现如何呢?在这方面,我们再次看到Fama的贡献。1973年,Fama和芝加哥大学的另外一位学者Jamnes MacBeth通过应用CRSP数据,在实证分析中得到了支持CAPM模型的证据。与此同时,这篇论文创立了以他们名字首字母命名的FM回归,后来也成为资产定价实证分析的经典方法。[11]

20世纪70年代,金融学界建立起以有效市场假说和资本资产定价模型这两个支柱为核心的标准范式,并且认为这个范式是牢不可破的。但是很快,一些学者开始使用更新的数据以及更新的统计方法来讲述不同的故事:他们发现了背离前述经典范式的异常现象,简称“异象”(anomalies)。异象研究首先挑战了CAPM模型,其中的代表性研究是来自加拿大马克马斯特大学Sanjoy Basu和美国西北大学的Rolf Banz。Basu(1977)发现了市盈率这个指标和股票平均收益率存在着CAPM模型不能解释的负向关系,后来学者也发现了其他一些市场价格和会计指标的比率也有类似效应,它们被统称为价值效应;[12]而Ban(1981)则发现以股票市值度量的公司规模要比股票贝塔更能解释收益率的截面差异,由此就产生了“规模效应”[13]另一方面,就资产价格的时间序列来说,其随机游走的性质也受到挑战,这方面研究的代表人物是华人学者、麻省理工学院教授罗闻全(Andrew Lo),他和当时在沃顿商学院的合作者Craig MacKinlay合作发表了一系列的文章,用全新的统计方法研究股票价格的时间序列,所有这些研究后来汇集成册,书名直指他们的核心结论:《非随机游走降临华尔街》。[14]

从20世纪80年代开始,整个资本市场的实证研究卷入经典范式和异象之间的争论之中,就此产生了三大不同的学术流派。第一大流派可以看作是经典范式的“忠诚者”,这一流派的基本思想就是市场是完美的,市场中的参与者也是完美的,我们在数据中发现的各种“异象”只是各种数据挖掘的结果,因此存在着各种偏差,比如幸存者偏差、选择偏差等。第二大流派是经典范式的“革新者”,这一派的学者坚守新古典经济学的基本原则,认为市场参与者是理性的,市场以及我们分析市场的方法中存在着问题,比如实证分析中没有考虑到各种交易成本导致的市场摩擦,以及Roll批评等。[15]最后一派的学者可以看作是经典范式的“异教徒”,他们一方面认为市场是不完美的,但同时更进一步,他们背弃经济学传统的个人理性原则:借鉴心理学中发现的各种心理偏误,他们把资本市场的异象和个人非理性行为联系起来,由此就产生了行为金融(behavioral finance)这个学派。这场大争论涉及诸多金融顶尖学者,其中光谱两端的代表人物,经典范式的支持者Eugene Fama和异教徒Robert Shiller,以及广义矩这种资产价格实证分析方法的发明人Lars Hansen,一起因为“在资产价格实证分析中的贡献”而分享了2013年诺贝尔经济学奖。另外一位行为金融的代表人物,同样来自芝加哥大学的教授Richard Thaler,也因为包括行为金融在内的行为经济学贡献,而独享2017年诺贝尔经济学奖。

作为有效市场假说的提出者和坚定支持者,Fama和他后期研究的主要合作者,来自达特茅斯学院的Kenneth French,从1992年开始用一系列的文章,提出了基于数据驱动并且可以融入规模效应和价值效应的三因子模型,用以解释当时市场中发现的各种异象。[16]需要指出的是,Fama(1991)在《有效资本市场:第Ⅱ集》中曾把多因子模型看作是一个“事后从数据中寻找能够描述平均收益率截面变量的许可证”。[17]就此而言,Fama看起来对使用多因子模型来刻画资本市场持谨慎保守的态度;但是面对来自数据的持续挑战,他自己很快就修正了一些立场,转而使用多因子模型赋予的“钓鱼许可证”去寻找可以解释各种截面异象的因子以及因子模型了。在更新的一篇文章中,Fama-French(2015)在三因子模型基础上加入了盈利因子和投资因子,从而把解释收益率截面的因子模型扩展到五因子模型。[18]对于这场从20世纪80年代开始持续至今的大辩论,感兴趣的读者可以参阅瑞典皇家科学院撰写的诺奖科学背景以及三位诺奖得主的颁奖演说。[19]

在这场大辩论中,有一个另类数据特别有意义,这就是行为金融学者Terrance Odean使用的散户投资者(retail investor)交易账户数据,后来这个数据集也被称为Odean数据集。这个数据集是由一个未署名的全美证券经纪商提供的,通过这个数据集,Odean和合作者进行了一系列微观层面上散户投资者实际交易行为的研究,这些研究在总体意义上表明,散户投资者会持有相对集中的投资组合,他们交易很活跃,投机性很强,而这些行为会让他们的投资绩效不佳。另外,作为一个整体,散户投资者会表现出系统性而非随机性的交易行为。有关这些研究的综述,读者可以参考Odean和Brad Barber在2013年《金融经济学手册第二卷》上发表的综述文章。[20]

进入新世纪第二个十年,大数据、人工智能和机器学习、云计算和量子计算等新兴科技带来的数据、算法和算力全方位的突破,极大地影响和改变了我们人类社会,当然也包括金融市场的研究与实践。面对技术突破,金融、财务和会计学的学术研究,不断发现新的针对资产价格——特别是股票价格——的预测变量。来自芝加哥大学的John Cochrane,在其2010年美国金融学会主席演讲中,把不断增加的收益率截面预测指标,称为“因子动物园”(factor zoo)。[21]

金融大数据产生的“因子动物园”给资产定价的实证研究带来了极大的挑战。首先,随着因子动物园的扩充,一个显而易见的统计挑战就是,在回归方程中右侧变量的个数在快速接近观测值(亦即观测时段)的个数,这样传统的低维统计分析就难以适用,我们需要使用更为复杂的高维或者大维统计分析方法(high/large dimensional statistics)。其次,针对相同或者相近的数据集进行多个不同因子的检验,会带来虚假的统计显著性,进而造成所谓的p值操纵(p-hacking)和多重检验(multiple testing)的问题。在这方面,杜克大学Campbell Havery教授在2016年美国金融学会的主席演讲上做了有力的说明,同时他还和华人学者刘岩撰写了一系列文章探讨这类资产定价实证研究中的问题。[22]第三,学者们实证研究中发现的预测变量和收益率之间的关系都是在事后从已观测数据中得到的,因此这就存在着前瞻性偏差(look-ahead bias):站在事前,这些预测变量的预测效力以及它们和目标变量之间的关系并不必然是已知的,对于现实世界的投资者而言更是如此,这就是伦敦经济学院的Ian Martin和芝加哥大学的Stefan Nagel两位学者提出的投资者学习(investor learning)问题,相关文章已经刊发在今年的《金融经济学杂志》上。[23]大数据时代产生了众多可能存在的预测指标,在它们形成的高维环境中,多重检验和投资者学习的挑战会变得更加严重。其核心问题就是:资产定价的异象研究可能存在着“复制危机”(replication crises)。一方面,当使用略微不同的数据集或者数据分析方法时,“异象”是无法复制的,按照三位在美华人金融学者侯恪惟,薛辰和张橹(Hou et al.2020)的说法:“大多数异象按照当前可接受的标准而言无法成立”。[24]另一方面,这些异象在真正的样本外可能是不存在的,用Harvey et al.(2016)的说法就是,“大多数金融经济学中声称的研究发现很可能是错误的”[25]除了上面这些问题以外,来自法国和瑞士的三位金融学者Dessaint、Foucault和Frésard(DFF,2022)提出了另类数据存在着时长效应(horizon effect)的问题。[26]本书第二章《股票主观投资》中讨论了各种预测公司盈余这类财务指标的另类数据,考虑到这些另类数据主要涉及短期信息,所以DFF就把它们称为短期导向数据(short-term oriented data)。现在的问题是:这类数据可以改进财务预测吗?通过使用卖方分析师的预测数据,DFF发现,随着另类数据逐渐进入投资世界,分析师们针对短期(短于1年)财务指标的预测质量提升了,但是针对长期(长于1年)财务指标的预测质量则是下降了,并且两者产生的净效应是模糊的。因为资产价格是短期和长期现金流折现的总和,这样另类数据的价值也就存疑了。

在面对由另类数据带来的高维环境中,应该如何应对上述学术研究的挑战呢?学术界当前给出的答案是使用各种机器学习模型加以应对。芝加哥大学的华人学者顾诗颢、修大成以及AQR基金的Bryan Kelly在他们2020年刊发的经典文章中,指出资产定价的机器学习方法可以用来描述:“(a)用于统计预测的各种高维模型集合,(b)用于模型选择和缓解过拟合的“正则化”方法,以及(c)在大量可能存在的模型设定中有效的搜索算法”[27]近几年来,应用正则化、决策树、集成方法、深度学习和各种不同主成分分析的机器学习研究层出不穷。耶鲁大学的Stefano Giglio以及Kelly和修大成在2022年发表了一篇综述论文,其中总结了当前资产定价中机器学习方法的研究现状,同时指出了未来的主要研究方向。[28]不过,上述机器学习的方法并不能很好地解决前面提及的多重检验和投资者学习。考虑到这一点,Nagel教授在近期《高维世界评估市场有效性》的报告中提出使用实证贝叶斯方法(empirical Bayes method)来应对这两个难题。[29]简单地说,就是通过金融数据来形成相关的先验信念,进而分析资产定价的可预测性问题,比如,Chinco et al.(2021)根据已观测数据来确定某个预测指标是异象的先验概率分布,他们把这个概率称为异象基率(anomaly base rate)。[30]此外,实证贝叶斯方法还可以用来处理Giannone et al.(2021)提出的稀疏性幻觉(illusion of sparsity)的问题。[31]所谓稀疏性,就是指在当前主流的资产定价多因子模型中,通常只存在少数几个(通常3到5个)定价因子。但是在高维环境下,稀疏性假设就不合理了,Bryzgalova et al.(2022)采用贝叶斯方法支持了容许数十个因子的模型。[32]最后,Jensen et al.(2022)在最近一篇引发学界热议的论文中,通过贝叶斯方法否定了“复制危机”的存在。[33]从实际应用的角度来看,考虑到另类数据当下和将来带来的大量潜在的预测指标,贝叶斯统计方法在高维环境的资产定价分析中会更有裨益。

从投资实务的角度来看,赚钱是第一要务,因此构造可以获利的投资组合是最终目的。在包括回归、决策树以及神经网络这些主流的有监督学习方法中,我们首先要估计收益率截面。更为直接的方法是使用强化学习(reinforcement learning)这种具有无监督特点的学习机制,它可以处理投资决策和市场之间的交互关系,从而在不需要考虑资产定价的情况下给投资组合进行建模。这种方法从原理上看很适合于另类数据带来的高维场景。强化学习在金融中的讨论尚处于起步阶段。金融科技领域内的著名华人学者,康纳尔大学教授丛林、清华大学教授汤珂以及另外两位来自北航的学者(Cong et al.2022)有关“阿尔法组合”的分析在这方面做了开创性的分析。[34]

上面这些主要从象牙塔产生的由数据驱动的投资思想,无论是从随机游走到有效市场,从异象到行为金融,从三因子模型到因子动物园,从回归分析到机器学习,都深刻地影响和改变了我们对金融市场运行机制以及收益和风险之间权衡的理解。这些投资思想,催生了指数基金、市场中性、聪明贝塔、因子投资、基本面量化等投资理念,让金融市场成为社会大众关注的焦点,让金融研究成为社会科学中的显学。显然,我们也应该期待今天的另类数据,能够像今天的“数据”在过往历史中那样,发现前所未见的新规律,从而帮助我们在实务中形成新的投资理念,同时做出更好的投资决策。

※※※ ※※※ ※※※ ※※※ ※※※ ※※※ ※※※

我们在《另类数据:理论与实践》的第三章中讨论了另类数据的类型。那里的分类方法主要的依据是数据本身的特性。因为另类数据的基本用途就是预测我们在投资世界中真正关心的变量,所以现在基于用途笔者把另类数据简单地分为以下四类:

(a)宏观经济实时预测(nowcasting)指标;

(b)企业未来盈余(或现金流)的预测指标;

(c)收益率的(截面)预测指标。

(d)刻画市场/投资者情绪(sentiment)或者关注度(attention)的指标;

接下来笔者将结合投资思想对这些不同另类数据在资产管理行业中的应用给出一些想法和建议。

首先是宏观经济的实时预测指标。宏观经济指标往往对利率和汇率这样的宏观资产具有重要的影响。我们知道诸如GDP、通货膨胀以及就业这样的宏观经济指标具有低频和滞后的特征。如果另类数据能够实现实时预测,也就是相对高频地报告和刻画已经发生的经济活动,那么这些数据就能成为重要宏观经济指标的指代变量(proxy variable)。要验证指代变量的关联性(relevance)比较简单,我们只需要把另类数据形成的指标和宏观经济变量两者的时间序列进行分析,只要两者之间的相关系数抑或回归中的拟合优度达到一定的水平,我们就可以接受它们的有用性。考虑到另类数据的历史往往比较短暂,所以这样的分析需要定期进行,以观测另类数据对相关宏观经济指标的实时预测效果。这方面经典的另类数据就是SpaceKnow公司通过遥感卫星数据形成的SMI指数,这个指数可以很好地拟合中国采购经理人指数,从而更为及时地报告中国宏观经济活动的变化。更为有效的一种验证这类数据关联性的方法来自于Mukherjee et al.(2021)采用的随机控制方法,就是类似经典的因果推断(causal inference)统计方法,设计两种不同的市场环境,然后讨论另类数据对金融市场变量的影响。[35]我们已经在本书的第四章大宗商品有关石油库存的案例中看到了这种方法。当然需要指出的是,并非所有此类另类数据都能构造出类似的随机控制环境,因此要采用这类方法的条件比较苛刻。

其次,我们来看能够预测企业未来盈余情况的另类数据。本书第二章股票主观投资中的另类数据大体上属于这一类的另类数据。这类数据一方面可以用来做实时预测,也就是提前预知已经发生但是滞后发布的财务信息,另一方面也可以用来做未来预测,也就是预测尚未发生的财务绩效;相对而言,当前应用比较多的场景是做实时预测。这类数据和金融资产的关联性比较容易建立,但是应用这类数据存在着一些问题。首先,如同前面DFF(2022)所说,这类数据往往具有短期特性,这样如果投资者过于关注它们,就会降低收集事关公司长期经营绩效的信息。其次,这类数据通常覆盖的公司和资产种类比较有限,因此只能应用到特定行业或者特定公司。最后,这类数据往往具有遗存数据的特征。[36]遗存数据往往是其他商业活动的副产品,要把它们变成有投资含义的数据,一方面要满足数据使用的安全和合规性要求,另外还需要做仔细的数据预处理。

现在我们讨论第三类的另类数据,这也是我们当前在以股票为主的公司证券中讨论最多的一类另类数据,同时也是市场关注热度最高的。本书第一章股票量化投资中讲述的另类数据案例多属于此类。这类数据通常能够覆盖较多的公司资产,从而可以用来当作潜在的股票收益率截面的预测指标。当前提供这一类另类数据的服务商在介绍数据的投资价值时,基本上沿用了Fama-French(1993)的组合排序法,也就是通过另类数据形成的指标对个股进行排序,然后讨论由此形成的多空组合在夏普比率等指标上的绩效。这种方法也是金融学术文献有关“异象”讨论的经典方法。这类另类数据的优点是它覆盖的公司范围广,否则我们就无法构造多空组合收益率。Cochrane在十几年前讲述的因子动物园还仅仅涉及在传统数据中挖掘“异象”,现在另类数据的发展会极大地扩展“因子动物园”的规模。我们已经看到,这些通过另类数据形成的新异象,或者业界常说的“因子”,将不可避免地陷入高维环境中的多重检验、投资者学习等问题中,这样它们在现实投资的真正“样本外”世界中能否展现出可预测性,进而复制出样本内得到的绩效,都是令人存疑的。此外,按照学术规范,任何异象都需要参照某个因子定价模型进行定义。如果作为基准的因子模型不是一个“好”模型,那么这些异象获得的收益可能就不是阿尔法,而是承担了某些风险才得到的收益率,可是当前我们对实证意义上的“好”模型并没有共识。最后,和其他另类数据一样,这些数据的历史也都比较短暂,即使按照学术规范根据历史数据做“伪样本外”(pseudo-OOS)分析,能够使用的样本点也非常有限。不过好消息是,我们可以使用当前兴起的实证贝叶斯方法来讨论它们在资产管理中的价值。

接下来我们来看能够刻画投资者情绪或者关注度的另类数据。大体上,我们可以进一步把这类数据细分为两类,第一类是针对个股层面的数据,这些数据可以形成前述第三类中的收益率预测指标,这里就不赘述了。另外一类是可以刻画市场总体层面的数据,比如Obaid-Pukthuanthong在今年《金融经济学杂志》刊发的论文中使用的新闻照片数据。[37]这类数据经常可以用来判断市场总体的价格、成交量以及波动率等市场指标的变动趋势,因此往往用于构建市场择时策略。不过在这种应用场景中,有两点需要注意。第一,预测指标和市场变量之间是领先滞后关系而非同步关系。其次,在对策略进行检验时,不能通过简单的回测方法来验证策略的有效性,需要建立更为严谨的回测框架。在这方面,López de Prado(2018)影响深远专著《金融机器学习》对此进行了精彩的分析。[38]

※※※ ※※※ ※※※ ※※※ ※※※ ※※※ ※※※

金融投资和交易是世俗世界中让人最为着迷的活动之一,它既会给人以贪婪,也会让人恐惧。从古至今,投资者都一直在创新,不断寻找新方式来获得信息优势。这样的例子比比皆是,不胜枚举。

按照哈佛大学教授同时也是创新研究大师Clayton Christensen的说法,另类数据可以看作是“破坏性创新”。每年数据总量都在以指数方式增长,每年产生的数据增量在人类历史全部可用数据中占据了绝大部分。因此无论在中国还是在其他地方,以赚取阿尔法为目标的私募基金(国外通称“对冲基金”)行业,以及更广泛的资产管理机构,都是新型数据应用的探险者和领航者。

对于资产管理机构来说,在思考是否使用以及如何使用另类数据的时候,我认为应该考虑下面四个关键词:基础设施、价值创造、监管合规以及专业化协作。从基础设施的角度来看,资管机构需要配置适当的设备、软硬件和人员,有足够的财务资源能够获得另类数据,对其进行分析,进而提取以及验证另类数据中的洞见。从现实操作的角度看,因为“另类”的属性,所以资管机构需要使用和传统数据不同的应用方式。我们在《另类数据:理论与实践》中的第五章对此做了详细的说明,它可以作为一个工作手册帮助建设基础设施。当前,在另类数据的冲击下,产生投资思想的环境正在发生变化,要想从另类数据中获取价值,就需要有充足的投入,而且可能需要考虑对现有的投资流程和团队构成进行改造。

无论是资产管理还是其他的任何商业活动,决策者都需要考虑投入的成本所得到的投资回报率(ROI)。只有证明为另类数据付出的成本是物有所值,资管机构才会考虑部署另类数据。本书第一章中讲述了量化投资和主观投资的区别。就量化投资而言,我们可以使用绩效归因的方法评估采用另类数据的投资策略获得的阿尔法,然后扣除采购、清洗和分析另类数据中投入的成本,从而量化另类数据带来的绩效。此时,我们可以考虑使用扣减成本的阿尔法是否超过某个预设的临界值作为部署另类数据的决策依据。而对于主观投资而言,要评估ROI就要了解另类数据可能带来的机会以及如何有效使用它们,这些议题往往要仰赖资管经理的经验和主观判断。就现状而言,考虑到使用另类数据缺乏相对标准化的最佳实践,所以投资回报率的确定看起来需要在不同程度上把定量和定性方法结合起来。

在大数据时代,如何合规和安全地使用数据成为重中之重。就另类数据在资管行业的应用来说,需要重点关注两方面的问题。首先,另类数据是否涉及未公开的重大信息。按照我国《证券法》第七十五条的规定,对公司证券的市场价格有重大影响的尚未公开的信息,为内幕信息。其次,我国在去年分别通过了《数据安全法》《个人信息保护法》,从而对数据安全合规的流通设定了司法底线。当前,针对另类数据并没有统一的监管体系,同时业界也不存在一套标准的合规检验流程。对于某些另类数据而言,比如我们在本书看到的手机定位、出租车出行、商务飞行等方面的数据,都有可能涉及非公开重大信息和个人隐私的问题。因此对于资管机构而言,在引入另类数据的时候,需要设置法律和合规团队来应对这些法律要求。这里需要指出的是,为了应对数据流通中带来的挑战和风险,一种可行的技术解决方法就是隐私计算(privacy preserving computing),从而实现数据可信和安全地流通。当前隐私计算技术已经应用在银行业的智能风控和智能营销等领域,北京金融科技产业联盟在今年发表了《隐私计算技术金融应用研究报告》,对这方面的计算和金融业的应用现状做了很好地整理。就资管行业而言,隐私计算的讨论还很少。笔者唯一看到的是IBM公司新加坡研究团队的Yu et al.(2022)撰写的论文。[39]我们知道,当前另类数据很大的来源是遗存数据,也就是各种组织在日常商业活动中留下的数据痕迹。单纯地通过采购获得数据包或者明文数据API接口的方式已经不大适应当前的法律环境,通过隐私计算实现遗存数据的价值应是未来唯一的可行之路。

前面基础设施所涉及的主要是物理层面上的生产要素,现在我们讨论人的要素。资管行业就像是战场,各个资管机构在这个场域中奋斗拼争,达尔文主义是这个行业中生存下来的不二法门。资管行业作为技术密集型行业,天然就具有某种垄断的特点。像许多其他类似的行业一样,一个有着专业化分工团队以及标准化作业流程的资管机构才能行稳致远。一个合格的军队,需要有将军、参谋、工匠、监军和士兵等众多的角色。对于一个资管机构,特别是依赖量化策略的资管机构,需要有策略师、分析师、工程师、风控经理和交易员等角色,显然这些成员所需要的技术并不完全相同。而另类数据的引进必然会深化这些角色的技术差异。只是仰赖少数明星经理的资管机构在当下这个时代是很难做大和做强的。另类数据作为资管机构生存和发展的利器,要挖掘和发挥它们带来的竞争优势,资管机构就需要不同角色之间良好的专业分工和团队协作。不仅要让整个团队在思想上达成共识,同时也要让另类数据融入到整个投研和交易过程,从而获得所谓的运营阿尔法。

※※※ ※※※ ※※※ ※※※ ※※※ ※※※ ※※※

当前,我们进入到一个高度不确定的世界经济时代,各种经济危机、环境危机和地缘政治冲突层出不穷。回顾数据驱动的投资思想史,在这个时代,只有拥抱另类数据,迎接另类数据带来的风险和挑战,我们才能在细微之处把握住社会和经济发展的脉搏,才能在青萍之末感受风的力度。另类数据这个名词出现的历史并不很长,但是它背后蕴含的核心思想却并不新颖,而是自古有之。这个核心思想就是,我们需要在不断出现的另类数据中用适应时代的方法挖掘出新的投资见解,在不断演化的金融市场中能够长时间地获取收益,从而在投资管理的激烈竞争中生存下来。

新时代的另类数据在中国启航了。本书和《另类数据:理论与实践》只是一个引子,让读者可以了解当下我们到达了哪里。展望未来,我们期待和读者们一起深入探究,把另类数据的研究和实操不断推向新的高度。期待和大家在瞬息万变的世界中共同迎风破浪,扬帆远航。

王闻

于华润小径湾,2022年10月


[1] 本文有关早期投资思想史的介绍参考了Peter Bernstein在1992年出版的名著《资本思想》。参见 Bernstein,P.,1992,Capital Ideas:The Improbable Origins of Modern Wall Street. John Wiley and Sons。

[2] 参见Cowles,A.,1933,Can stock market forecasters forecast?,Econometrica1,309-324。

[3] 参见Cowles,A.,1944,Stock market forecasting.Econometrica 12,206-214。

[4] 参见Kendall,M.,1953,The analysis of economic time-series.Part I:Prices.Journal of the Royal Statistical Society116,11-34。

[5] 参见Cootner,P.,1964,The Random Character of Stock Prices.MIT Press。据笔者所知,这本“上古”时代的论文集在国内只有国家图书馆有收藏。另外,这本论文集的首篇文章是金融经济学的开山之作,即法国学者Louis Bachelier在1900年写作的《投机理论》。这篇文章长期以来并没有引起重视。直到20世纪60年代这篇文章才被著名经济学家Paul Samuelson发现,同时在当时刚刚兴起的金融市场研究中引发了广泛的兴趣。

[6] 参见Fama,E.,1965,The behavior of stock market prices. Journal of Business,34-105。

[7] 参见Fama,E.,1970,Efficient capital markets:A review of theory and empirical work.Journal of Finance 25,383-417。

[8] 参见Ball,R.,and P.Brown,1968,An empirical evaluation of accounting income numbers. Journal of Accounting Research 6,159-178。

[9] 事件研究的另一个开创性研究是著名的Fama et al.(FFJR,1969)。这篇文章分析了股票分拆(stock split)对股价的影响,不过他们使用的是CRSP数据。关于这篇文章,参见Fama,E.,L.Fisher,M.Jensen,and R.Roll,1969,The adjustment of stock prices to new information.International Economic Review 10,1-21。

[10] 参见Merton,R.,1973,An intertemporal capital asset pricing model.Econometrica 41,867-887;以及Ross,S.,1976,The arbitrage theory of capital asset pricing.Journal of Economic Theory 13,341-360。

[11] 参见Fama,E.,and J.MacBeth,1973,Risk,return,and equilibrium.Journal of Political Economy 81,607-636。另外,几位新古典金融学的大牛Fischer Black,Michael Jensen和Myron Scholes,在1972年也做了针对CAPM模型的实证分析,他们同样得到了正向的结论,关于这篇文章,参见Black,F.,et al.,1972,The capital asset pricing model:Some empirical tests.In M.Jensen(ed.)Studies in the Theory of Capital Markets.Praeger Publishers。

[12] 参见Basu,S.,1977,Investment performance of common stocks in relation to their priceearnings ratios:A test of the efficient market hypothesis.Journal of Finance 32,663-682。

[13] 参见Banz,R.,1981,The relationship between return and market value of common stocks. Journal of Financial Economics9,3-18。

[14] 参见Lo,A.,and C.MacKinlay,1999,A Non-Random Walk down Wall Street.Princeton University Press。

[15] 加州洛杉矶大学的著名金融学者Richard Roll在1977年指出,CAPM模型中要求的市场组合在现实中并不存在,因此基于CAPM的实证分析结果就存在着问题。这个观点后来被称为Roll批评。这篇文章参见Roll,R.,1977,A critique of the asset pricing theory’s tests.Part I:On past and potential testability of the theory.Journal of Financial Economics4,129-176。

[16] 两篇形成三因子模型的原始文章是:Fama,E.,and K.French,1992,The cross-section of expected stock returns.Journal of Finance47,427-465;以及Fama,E.,and K.French,1993,Common risk factors in the returns on stocks and bonds.Journal of Financial Economics33,3-56。

[17] 参见Fama,E.,1991,Efficient capital markets:II.Journal of Finance46,1575-1617。

[18] 参见Fama,E.,and K.French,2015,A five-factor asset pricing model.Journal of Financial Economics116,1-22。

[19] 三位诺奖得主的颁奖演说词发表在后一年的《美国经济评论》上。其中Fama和Shiller的文章索引是:
Fama,E.,2014,Two pillars of asset pricing.American Economic Review104,1467-1485;
Shiller,R.,2014,Speculative asset prices.American Economic Review104,1486-1517。
瑞典皇家科学院撰写的科学背景报告网页地址是https://www.nobelprize.org/uploads/2013/10/advanced-economicsciences2013.pdf。另外,Cochrane和Moskowitz在2017年按照不同的分类整理了Fama的重要论文,同时还在各个部分做了精彩的讲解,对这些论文感兴趣的读者可以直接参阅论文集:
Cochrane,J.,and T.Moskowitz(eds.),2017,The Fama Portfolio:Selected Papers of Eugene Fama.University of Chicago Press。

[20] 参见Barber,B.,and T.Odean,2013,The behavior of individual investors.In G.Constantinides,M.Harris,and R.Stulz(eds.)Handbook of the Economics of Finance(Vol.2).Elsevier BV。

[21] 参见Cochrane,J.,2011,Presidential address:Discount rates.Journal of Finance66,1047-1108。

[22] 参见Havery,C.,2017,Presidential address:The scientific outlook in financial economics. Journal of Finance72,1399-1440。

[23] 参见Martin,I.,and S.Nagel,2022,Market efficiency in the age of big data.Journal of Financial Economics145,154-177。

[24] 参见Hou,K.,C.Xue,and L.Zhang,2020,Replicating anomalies.Review of Financial Studies33,2019-2133。

[25] 参见Harvey,C.,Y.Liu,and H.Zhu,2016,...and the cross-section of expected returns. Review of Financial Studies29,5-68。

[26] Dessaint,O.,T.Foucault,and L.Frésard,2022,Does alternative data improve forecasting? The horizon effect.Swiss Finance Institute Research Paper Series N.20-106。

[27] 参见Gu,S.,B.Kelly,and D.Xiu,2020,Empirical asset pricing via machine learning. Review of Financial Studies33,2223-2273。

[28] 参见Giglio,S.,B.Kelly,and D.Xiu,2022,Factor models,machine learning and asset pricing.Forthcoming in Annual Review of Financial Economics

[29] 参见Nagel,S.,2022,Evaluating market efficiency in a high-dimensional world.Speech on Hong Kong Conference for Fintech,AI and Big Data Business

[30] 参见Chinco,A.,A.Neuhierl,and M.Weber,2021,Estimating the anomaly base rate. Journal of Financial Economics140,101-126。

[31] 参见Giannone,D.,M.Lenza,and G.Primiceri,2021,Economic predictions with big data:The illusion of sparsity.Econometrica89,2409-2437。

[32] 参见Bryzgalova,S.,J.Huang,and C.Julliard,2022,Bayesian solutions for the factor zoo:We just ran two quadrillion models.Working paper。

[33] 参见Jensen,T.,B.Kelly,and L.Pedersen,2022,Is there a replication crisis in finance? Working paper。

[34] 参见Cong,L.,K.Tang,J.Wang,and Y.Zhang,2022,Alphaportfolio:Direct construction through deep reinforcement learning and interpretable AI.Working paper。

[35] 参见Obaid,K.,and K.Pukthuanthong,2022,A picture is worth a thousand words:Measuring investor sentiment by combining machine learning and photos from news.Journal of Financial Economics144,273-397。

[36] 有关遗存数据(data exhaust)的介绍,可以参考我们在《另类数据:理论与实践》第二章的讨论。

[37] 参见Obaid,K.,and K.Pukthuanthong,2022,A picture is worth a thousand words:Measuring investor sentiment by combining machine learning and photos from news.Journal of Financial Economics 144,273-397。

[38] 参见López De Prado,M.,2018,Advances in Financial Machine Learning. John Wiley & Sons。

[39] 参见Yu,P.,L.Wynter,and S.Lim,2022,Federated reinforcement learning for portfolio management.In H.Ludwig and N.Baracaldo(eds.)Federated Learning:A Comprehensive Overview of Methods and Applications.Spinger。