大数据与量化选股的结合
目前,大数据和机器学习的方法开始盛行,虽然并不是主流的量化手段,但笔者觉得有必要向大家简单介绍一下。
“大数据”的概念起源于2010年左右。就数据量的多少而言,其实量化研究人员频繁使用的海量数据库(100GB以上)已经算得上大数据。
大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格、肯尼斯·库克耶写的《大数据时代》中,大数据指不用随机分析法(抽样调查),而采用所有数据进行分析处理。大数据的5V特点是:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
在量化投资界逐渐普及的大数据,其重点在于数据的来源不仅是传统的金融数据库。对国内的公募基金而言,常用数据来源是Wind、同花顺、聚源等,有些大型基金会用Bloomberg、Capital IQ,但它们提供的股价、基本面数据等同质性很强,差别是在分析师预期数据等方面。在研究过程中,如果数据同质化非常强,再加上大家都趋同的因子设置,那么结果可想而知了。
所以量化研究人员开始寻求非传统的一些数据,他们广泛与众多企业接触,发现很多数据是有作用的。例如某支付平台,每日都有数亿条支付信息,以数据库的形式存储。如果把收款的商家对应到上市公司,就能够从电子平台的支付信息得知该上市公司的销售情况。在很多情况下,一家公司在一定渠道的收款量占比是较固定的,这样就可以提前推测公司的收入情况。行业也是如此,可以通过一些渠道,获知行业的景气程度,有时候会有惊人的精确性。如图7-8所示,我们利用某电子平台的地产交易数据,制作了地产交易的景气指数。再利用相关统计机构公布的30个大中城市商品房成交面积、地产成交金额,根据商品房价格的变化,制作了相应指数。结果发现该电子平台的数据有非常好的预测效果。
图7-8 某电子平台的地产交易情况
证券市场也有一些非常有价值的数据。例如投资者经常有追涨杀跌的行为,所以过分受关注的股票往往在风潮过后会跌,形成一种“反转”效应,如图7-9所示。这种投资者的行为数据,就是在财务数据、价格数据之外,非常有价值的一种信息。
图7-9 某行为数据的因子效果
资料来源:Wind
传统的数据都是可以以典型的SQL形式记录在数据库的。但有些数据不太规范,例如声音、颜色等,因为研究困难,以前研究人员常常忽略了这种数据。目前,由于一些程序包得以创新,大家越来越重视这种数据。例如,从卫星云图上传来商业区人群密度的颜色图片,可以进一步规范化,变成指数,为我们提供一个地区商业活动的有价值的信息。更复杂的算法,可以在不规范数据与不规范数据之间迭代计算,从而得到很多有趣的信息。
在大数据的利用方式上,除了本章介绍的因子选股方法之外,还有自下而上法和机器学习法。
自下而上法是一种数据科学和主动投资相结合的投资方法。例如研究某A股上市公司,想验证和预测它的收入,可以通过“爬虫”的方法,从占其30%收入来源的电商渠道获取订单信息,从而提前预知其销售的好坏。此外,针对某海外上市的互联网公司,也可以通过运营商去搜集其真实的访问时长和数量,从而验证其在App Store的下载量以及公布的ARPU值是否和真实情况一致。这种和传统基本面不一样的数据科学在华尔街越来越风靡,很多传统基本面基金开始配备数据研究人员来研究。
今后,更有希望成为潮流的是机器学习法。
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。该学科专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合,而不是演绎。
用机器学习来处理数据,一般的工作有归纳和预测。归纳就是根据数据来总结一般的规律。预测是人工智能的一个突出特点,这种预测和前文提到的多因子模型的线性化、数学化的预测机理完全不同。机器学习是一种“硬学习”,通过一定算法来进行推测,其中往往并没有太多的数学理论。自2016年以来,海内外市场已经有一些打着“人工智能”旗号的基金出现。大浪淘沙,确实有一些基金的核心算法是基于机器学习的。这种机器学习会把传统的价格数据、基本面数据当作验算的基础,自己迭代给出买卖的信号。断定“人工智能”基金的业绩未来一定好于传统的主动投资基金或者量化基金还言时过早,但至少表明在投资策略上已有新变化。