推特推文
在讨论文本资料对于股票市场的影响时,作为全球领先社交媒体的推特(twitter)是绕不开的话题。特别是美国前任总统特朗普,和他的推特治国一样,其推文(tweet)对股市的影响也成为当时金融市场的一大特色。彭博社财经记者Ponczek/Hajric(2018)总结了特朗普总统任期内前两年的财经推文对股市的影响,并且总结在图1.1中。而来自北欧和东欧的学者Gjerstad et al.(2021)在新近发表的一篇文章中研究了特朗普总统推文对全球金融市场的影响。总结来说,在特朗普发布推特之后,无论其内容如何,市场不确定性增强,交易量增加,同时美国股市会下跌。当采用LDA的主题模型方法进行分析时,特朗普总统的大多数推文不会影响金融市场,但是当出现和贸易战相关的推文时,股市价格就会下跌。不仅如此,贸易战的推文还会影响到其他金融市场,比如中国股市对于这些推文的反应就是负面的,但是黄金价格的反应则是正面的。
图1.1 特朗普总统的财经推文
资料来源:Ponczek/Hajric (2018)。
1.iSentium
现在讨论推文影响股市的用例,它改编自摩根大通分析师Kolanovic/Krishnamachari(2017)的研究报告,其中使用了文本分析公司iSentium的数据。[4]iSentium是一家位于美国迈阿密的文本分析公司,它提供的一个数据服务就是,基于推特的推文提供日方向指标(Daily Directional Indicator/DDI),这是一个实时的情绪指标,它可以帮助投资者判断推文对于市场的影响。DDI指标的构建方式如下:
(1)根据推文数量和实现波动率指标从标普500指数中选择最具代表性的100只股票;
(2)根据一种自然语言处理算法对推文赋予一个情绪分数(sentiment score);
(3)通过合并推文分数,这样就在每个交易日的上午8点半到下午4点半之间的每分钟生成一个情绪指标,然后对过往10天的情绪通过指数加权移动平均算法生成当天的情绪指标;
(4)根据过往两天情绪得分使用线性回归来预测标普500指数的回报率,其中参数值通过卡尔曼滤波方法来获得。
摩根大通公司根据iSentium的DDI指标构建了JPUSISEN指数,后者反映了在标普500指数成分股上持有多头或空头得到的投资业绩。通过对JPUSISEN指数从2013年1月到2017年1月的历史回测,就可以得到13.7%的年化收益率以及1.40的信息比率;而在同一个时段内,投资标普500指数只能得到12.1%的年化收益率以及0.95的信息比率。表1.1总结了这些投资绩效,其中iSentium多空策略表示在看涨信号出现时买入,同时在看跌信号出现时做空;纯多头策略(longonly)表示只是在看涨信号出现时买入,同时在看跌信号出现时不做空;而纯空头策略(short-only)则表示只是在看跌信号出现时卖出。
表1.1 iSentium指数和标普500指数投资绩效
续表
此外,表1.2表明情绪信号和经典的股票风险溢价之间的相关关系,结果表明它和这些风险指标的相关性都很低,这就表明当把基于社交媒体这种另类数据集产生的交易信号纳入考量的时候,它可以成为投资组合的风险溢价来源。
表1.2 iSentium情绪信号和经典的股票风险溢价之间的相关系数矩阵
2.快乐指数
推特这样的社交媒体不仅可以衡量人们的情绪,而且也可以衡量人们的幸福和快乐感。长久以来,经济学家就希望找到一个指标来度量人们的快乐程度。早在1880年,经济学家弗朗西斯·埃奇沃斯(Francis Edgeworth)就使用快乐计(hedonometer)来描述一个“理想的完美工具,一个可以不断记录个人所经历快乐高度的心理物理机器”。近些年来,美国佛蒙特大学(University of Vermont)的学者Peter Dodds和Chris Danforth以及其他学者通过一系列的研究针对各种不同文本开发了快乐指数(hedonometer index),这些文本包括国情咨文、歌曲歌词、线上的推文以及博客等。[5]这些学者把他们创建的指标称为“道琼斯幸福指数”。就方法论而言,他们构建了一个包含大约5000个常用词的语料库,同时这些词有一个快乐分数(happiness score),后者是从亚马逊公司运营的Amazon Mechanical Turk(MTurk)得到的。[6]MTurk本质上是一个面向大众的众包平台,也就是通过众人的努力来完成任务的平台。[7]快乐分数的刻度从1到9,图1.2给出了快乐计数据库中一些最快乐和最悲伤的词语。像“大笑”(laughter)这样的词语会有很高的快乐分数,而像“战争”(war)这样的词语则就只有很低的幸福分数。当然,人们对于有些词语的相对快乐分数会有不同的看法。
图1.2 快乐计语料库中最快乐和最悲伤的词
资料来源:Denev/Amen(2020)。
就推特的推文来说,这些学者每天会随机抽取10%左右的推文,然后根据语料库的快乐分数给推文中的词语打分,然后由此估计社会整体的快乐程度。显然这种方法存在着选择性偏误的问题,因为它只能衡量那些用英文发表推文的人群快乐程度。但是它的好处就是可以很快地更新数据,所以就有较低的延迟性。图1.3显示了从2021年初到11月初的快乐指数,其中的最低点出现在1月6日特朗普总统支持者在国会大厦制造的骚乱。与之相比,在复活节、母亲节和万圣节等节假日前后的快乐指数则比较高。
图1.3 2021年前11个月的快乐指数
资料来源:https://hedonometer.org/timeseries/en_all/?from=2021-01-01&to=2021-11-01。
快乐指数能否和金融市场挂钩呢?从直觉上看,人们的幸福感会和消费者信心程度有关,因此前者可以成为投资者风险情绪的指标。为了验证这一点,Denev/Amen(2020)就在快乐指数基础上创建了快乐情绪指数(Happiness Sentiment Index/HSI)。在开发这个指数的过程中,Denev/Amen首先排除了周末时点,因为这些时点上不会有金融市场交易。其次,他们还排除了快乐指数发生大幅跳跃(变动幅度大于0.05)的日期。最后,他们还排除了所有美国的假日,因为这些日期的快乐指数通常较高。在排除掉这些时点之后,Denev/Amen使用了1个月简单移动平均(simple moving average/SMA)的技术来平滑指数。然后使用2个月滚动窗口进行百分位排序,由此就把指标标准化在0和1之间。图1.4刻画了快乐情绪指数和标普500指数期货最近合约的月收益率,其中左侧纵坐标轴刻画了指数期货收益率,而右侧纵坐标轴刻画了快乐情绪指数。从中可以看出两者之间存在着一定的关系。如果用快乐情绪指数相对标普500指数进行回归,样本时段是2009年2月到2019年7月,那么贝塔系数的t-统计量等于7.7,这对应的p值就是2.13×10[8],因此标普500指数和快乐情绪指数之间就存在着统计显著关系。这个统计结论可以让投资者尝试使用快乐情绪指数作为股票市场交易的信号。当然为了让交易更有效率,在实务中需要把快乐情绪指数和其他的市场情绪指标结合起来,进而生成更有效的交易信号。
图1.4 股指期货收益率和快乐情绪指数
1:标普500指数期货收益率 2:快乐情绪指数资料来源:Denev/Amen(2020)。
3.FOMC
FOMC是美国联邦储备委员会下属的联邦公开市场委员会(Federal Open Market Committee)的英文简称,它负责美国常规货币政策中最为重要的部分,就是进行公开市场操作。每年FOMC会召开八次会议,这些会议的决策会受到包括股票市场在内所有市场参与者的关注,而且众多研究表明FOMC会显著影响资产价格。[9]在下一章中我们会看到FOMC影响债市和汇市的用例。
Azar/Lo(2016)基于推特的推文分析了FOMC开会前后的股市收益率。他们首先在FOMC开会之前对推文进行过滤,从而把包含FOMC、联储会以及样本时段上联储会主席Bernarke和Yellen的推文筛选出来。接下来使用由De Smedt/Daelemans(2012)开发的Python软件包Pattern计算过滤后的每条推文的情绪,[10]这些情绪分数介于-1到+1之间。这种算法依赖于SentiWordnet数据库,后者可以对每个词给出正面或负面的分数,同时它还考虑了形容词和副词对分数产生的放大和缩减效应。因此,对于“不好”这个词而言,它就表达了负面的情绪。然后Azar/Lo根据发布推文的推特账户跟随者(followers)的数量对推文进行加权,以此衡量推文所覆盖的人群数量。这样针对每个交易日t,作者就可以得到一个加权平均的情绪分数。
在得出每个交易日的情绪得分之后,Azar/Lo(2016)分析了下面的股市收益率回归:
其中的因变量Rt表示t日美国股票市场CRSP价值加权指数超出当日无风险率的超额收益率。[11]各个自变量的定义是:
(1)DFt表示FOMC在t日闭会的哑变量,如果FOMC在t日闭会则取值为1,否则为0。
(2)TPt-1表示t-1日的推文情绪分数,其中发推的时点是从t-2日下午4点到t-1日下午4点,需要注意的是,这个变量可以在t-1日市场收盘前获取,因此可以在t-1日收盘前确定在t日的头寸。作者把它标准化为一个均值为0、方差为1的变量。
(3)DTPt-1=DFt×TPt-1,表示在FOMC开会期间的推文加权平均极性。
(4)RPi,t=(HMLt,SMBt,UMBt),分别表示价值因子、规模因子和动量因子在t日的风险溢价。
(5)VIXt表示在t日由芝加哥期权交易所(CBOE)发布的波动率指数。
(6)Rt-1表示在t-1日的市场超额收益率。
表1.3给出了四种包含不同自变量情况下的回归系数,从中可以看出,当不考虑Fama/French(1993)的价值因子和规模因子、Carhart(1997)的动量因子以及波动率指标时,推文情绪和FOMC会议就会对市场收益率产生影响。但是如果考虑了上述因子收益率以及波动率指标之后,除了在FOMC开会时,否则推文情绪对于市场收益率的影响就微不足道了。
表1.3 股市收益率回归
为了分析推文情绪的投资价值,Azar/Lo(2016)就模拟了一个基于凯利标准(Kelly Criterion)的交易策略。[12]假定现在投资一种风险资产和一种无风险资产,同时根据今天对明天风险资产收益率的预测来每天调整仓位。为简单起见,假定在t日的无风险率是Rf,t,同时风险资产的收益率服从均值为μt、方差为的正态分布。在t日的财富是wt,把其中ft的比率投入到风险资产上,这样风险资产的总投资就是ft·wt。假定投资者具有对数效用函数,那么最优投资策略就是:
这个投资策略可以最大化上述两资产组合的几何增长率期望值。如果ft<0,那么就做空风险资产;而如果ft>1,则需要做空无风险资产。假设金融市场对于杠杆率或者做空比率存在某个界限L,那么就有-L≤ft≤L。因此现在的两资产组合的最优策略就是:
为了计算投资组合权重,我们需要一个模型能够生成对于收益率均值和方差的预测(和
)。下面使用线性模型进行预测:
Rt=α+βXt+εt
其中Rt表示市场指数超出无风险率Rf,t的收益率,Xt表示在t日之前观察到的信号向量,这样就有:
为了量化推特情绪的投资价值,Azar/Lo就考虑了下面四种不同信号向量Xt:
(1)模型1:Xt是一个空向量,所以线性模型就是Rt=α+εt
(2)模型2:Xt=(DFt)
(3)模型3:Xt=(DFt,TPt-1)
(4)模型4:Xt=(DFt,DTPt-1)
模型1可以看作是一个基准模型,其中市场收益率的分布不会在FOMC公告日前后发生变化;模型2增加了一个哑变量来解释收益率分布的变化;模型3同时包含了模型2中的哑变量和t-1日的推特情绪指标;模型4是模型3的一个变种,其中考虑了推特情绪和FOMC会议哑变量的交互作用。
针对不同的模型进行回归就可以得到对应的和
估计值,由此确定每日持有的风险资产权重
。上述这些模型可以帮助衡量推文的信息含量。如果第三个模型产生的盈利最高,这就意味着有关美联储的推文总是会影响市场,即使是在那些FOMC不做任何决定的时期。如果第四个模型最赚钱,那就意味着那些FOMC不做决定的日子里推文更像是噪声,而只有在FOMC公告之前不久的推文才具有投资含义。
图1.5给出了基于上述四种模型得到的投资策略在样本外的模拟绩效。这里所谓的样本外的含义,就是为了避免前瞻性偏误(lookahead bias),[13]在预测某年的收益率时仅仅使用在当年之前的推文和市场数据。图1.5从左至右给出了杠杆率分别等于1、2和4的情形。从中我们可以看到,在采用更高的杠杆率(等于2或者4)的情况下,使用社交媒体信息的模型产生的投资收益要好于仅仅使用市场收益以及FOMC会议哑变量的模型。表1.4给出了通过样本外回归估计得到的不同投资组合绩效。从表1.4中可以看出,当杠杆率设定为2或者4时,基于推特信息的策略就具有更好的绩效,因为前者的收益率以及信息比率要高于仅仅投资于市场指数或者是使用FOMC会议信息的策略。此外,模型4的投资绩效要好于模型3的绩效,换句话说,当我们仅仅使用FOMC开会时的推特而不是每天使用推特,那么投资绩效会更好。这个结论表明,当出现重大经济新闻事件的时候,社交媒体的信息价值会更高。
图1.5 四种策略在不同杠杆率的财富变动
资料来源:Azar/Lo(2016)。
表1.4 四种策略的投资绩效(%)
需要指出的是,Azar/Lo(2016)分析所覆盖的时段是一个股市不断上涨并且利率水平很低的时期,因此在股市下跌以及利率高企的市场环境下,这样的策略是否有效就值得进一步研究了。另外两位作者分析的样本时段中FOMC会议数量比较少,这样类似的分析可以应用到其他重要经济体的央行,比如欧洲央行、日本央行以及中国的人民银行,探讨社交媒体的信息是否会影响到股市和债市。