飞道的博客

熵简技术谈 | 金融情绪分析真的有用吗?一起来看金融情绪分析的研究进展及应用实践

282人阅读  评论(0)

导读:随着近十年来自然语言处理技术以及互联网社交媒体的发展,基于市场情绪提取的金融分析作为一项主要的技术手段,已经被广泛的研究并应用到多种实际的投资辅助决策系统中。

在这篇文章中,熵简科技的NLP团队将会对金融情绪分析这个重要的应用方向进行全面的介绍,重点对金融情绪分析的发展历程及其有效性、主要技术手段和最新的应用案例进行详细的论述和讨论。

作者信息:文本出自熵简科技 NLP 算法团队,团队利用迁移学习、少样本学习、无监督学习等深度学习领域最新的思想和技术,为熵简科技各大业务线提供底层 AI 技术支持和可落地的解决方案,包括前沿算法的领域内落地以及持续部署的后台支持等。

一、金融情绪分析的发展历程

在这一部分,我们先简单回顾一下基于市场情绪的金融分析技术在整个发展阶段的演进历程。早在上世纪八十年代,金融从业者就已经开始尝试运用技术手段进行股市预测,这一阶段主要通过计量经济学的手段进行各类模式或趋势的挖掘。

到了九十年代,人们开始尝试引入自然语言处理技术进行股票预测,但受限于技术的朴素、简单,效果甚微,并没有引起太多的重视。在这一时期,进行股票预测的指导理论主要以金融学的随机游走理论和有效市场假说为主,这一假说倾向于认为投资者是理性的,所有的信息都可以即刻反应在股价中,因此市场情绪对于股市的预测价值很低。

但与此同时,也有一部分行为金融学的观点认为,至少从两个方面来看,有效市场假说存在事实上的问题:

第一,交易中不可避免存在非理性交易者,这部分交易者会给价格带来额外的风险,使得理性交易者也不敢全力投入;

第二,在某些极端情绪下,专业套利者可能由于某些限制原因,例如资本限制等,而无法有效地纠正股票价格。这些因素都可能导致股票的实际价格与基本价值不一样,造成套利行为无法消除投资者情绪引入的价格漂移,因而市场情绪指标可能具有一定的预测性。

在这些研究的基础上,随后的十年里,也就是本世纪的头十年中,越来越多的研究开始投入到市场情绪与股市关系的研究中。在这一时期,常用的方式是将新闻与股价信息结合起来进行股价预测,在技术手段上多采用独热码编码的词袋模型结合支持向量机(SVM)。

同时,一些机构通过提供金融指数或者经济学指数来间接的推断投资者市场情绪。例如,美国个人投资者协会(the American Association of Individual Investors)会进行每周一次的线下调查,了解人们对于加下来六个月的股票看跌还是看涨的态度,从而形成 AAII 情绪指数。类似的还包括 BW月度指数、UMSC 指数 和 II 指数等,许多研究也表明这类基于线下调查的情绪指数对于股市具有一定的预测作用。

从 2010 年前后开始,随着社交媒体的广泛使用,如全球月活超过20亿的 facebook、月活3亿的 twitter 以及国内月活5亿的微博等等,人们通过各种数据挖掘技术发现,社交媒体上的海量数据可以用于多种业务场景,比如商品销售预测、管理品牌声誉、识别罪犯。自然,人们也进一步有充分理由认为,社交媒体中传达出的市场情绪或投资者情绪,可以在一定程度上对股票进行预测。

与此同时,随着神经网络技术的复苏,NLP技术也在近十年得到了很大的发展。在2013年,以 Word2Vec 为代表的的词嵌入技术将 NLP 带入了深度学习1.0 时代,再到 2018年,以 BERT 为代表的深度预训练语言模型将 NLP 带入了深度学习 2.0 时代。

在社交媒体和NLP技术的红利下,基于市场情绪的金融分析技术在近十年也得到了更加广泛和深入的研究和应用。我们希望通过本文,对于金融场景下的市场情绪分析,能够一定程度上回答以下的三个问题:

市场情绪分析真的有用吗?

从社交媒体中提取市场情绪的常用技术手段有哪些?最新效果如何?

近年来,市场情绪分析在金融分析中有哪些应用案例?

在案例分析部分,我们将集中分享和讨论最近三年的应用案例,将最新和最有启发意义的成果呈现给大家。

二、金融情绪分析的主要技术手段

本小节主要讨论从文本中提取市场情绪的两类主要方法,即基于字典的情绪提取和基于机器学习的情绪提取。并在最后部分给出,针对 twitter 这类社交短文本的情绪提取任务,当今研究的最新水准。

2.1 基于字典的情绪提取

基于字典的情绪提取方法本质上是词袋模型,将文本视为词的集合,而不考虑词的序列关系。典型的方案如下图所示:

从图中可以看出来,这类方法有两个关键点,分别是情感词列表和词的加权方式:

(1) 情感词列表

在金融分析这个场景中,情感词列表经历了两个阶段的演进。在第一阶段,一般直接采用通用场景下的情感词列表。在英文环境中,典型的词表如 GI 词表,该词表由社会学家 Philip Stone 等人在上世纪60年代构建。在中文环境中,清华、大连理工等高校开源了通用场景下的中文情感词汇表,并对情感进行了多个维度的划分。感兴趣的读者可自行查找相关的文献,此处不再详述。

但是,通用情感词列表的缺陷性也很明显,很多在通用领域下的普通词在金融场景下可能是情感极性词,比如英文中的“bull stock”。反过来也有类似的情况。这本质上是由于两种场景下所关注的情绪状态存在一定的差异,金融场景主要关注的是投资者对于标的未来预期是乐观还是悲观,也即是“看涨”还是“看跌”。

在这种情况下,情感词表逐渐过渡到第二阶段,即通过人工整理或自动提取的方式构建起金融领域专门的情感词表。在英文环境中,典型的词表包括 Henry Word 词表以及 Loughran & McDonald Word 词表。而在中文环境中,我们目前还没有了解到有相关的开源项目或者报道。

(2) 词的加权方式

有了词表之后,接下来就需要确定词表中的每个词对于文本情绪的权重大小。大致可以分为三类方法:

等比于单词频次:这种方法认为每个情绪词同等重要,因此出现次数越多的情绪词,其权重也等比例提高;

类似 TF-IDF 思想:如果一个情绪词在当前文本中出现的频次越高,同时在其他文本中出现的频次越少,那么这个词的权重也就越高。这种方法与 TF-IDF 的思想如出一撤,但我们认为没有理由假设,在其他文档中出现频率高的情绪词在当前文本中就不重要。

基于历史语料库训练得到:一词一权重,具体的权重大小可通过历史语料来训练得到。很多研究表明,这种方式在实际中效果最好。

2.2 基于机器学习的情绪提取

基于机器学习的情绪提取是一类典型的自然语言处理任务,即文本分类。整体流程大致可以分为四步:

文本预处理:剔除文本中的噪声、大小写归一、半角全角归一等等,以方便后续处理;

分词:以中文为例一般有三种分词方式,按照词进行文本分割、按照字进行分割、按照连续N个字进行切割。后面两种方式可以在一定程度上解决 OOV 的问题;

编码:文本经分词之后仍然以符号的形式存在,这无法参与到数值运算,因此还需要进一步做编码。常见编码方式也大致有三种,分别是独热码、TF-IDF 编码以及词嵌入(word embedding);

分类:不同算法的选择对应着不同的文本模型。一般而言,采用逻辑回归、SVM等传统机器学习算法时,我们多是将文本视为词袋模型。而采用 CNN、LSTM 等神经网络模型时,则可以将文本作为序列输入到模型中。

在深度学习时代,随着各类模型的特征提取能力日趋强大,基于机器学习的情绪提取技术的难点更多集中在数据集的构造和模型的鲁棒性上。

2.3 两类方法的对比

通常来说,对于自然语言处理任务,在文本特征提取上可以粗略划分为三个层次,分别是表层特征、句法层特征和语义层特征。表层特征的代表任务就是单词探测,即探测单词是否在文本中出现以及重要程度。而句法特征和语义特征则涉及到更深次的文本理解,比如句法树分析、指代分析等等。

显然,基于字典的情绪提取方法只能捕捉到表层特征,因此这类方法在提取文本情绪时颗粒度较粗、精度有限,对于多重否定或者远距离关联之类的问题无法很好处理。但这类方法的优势也很明显,相对于深度学习的方法,这类方法非常直观、具有很好的可解释性,也非常易于金融分析师使用。在金融分析中,可解释性很多时候具有重要意义。

相对而言,得益于深度学习的发展,基于机器学习的情绪提取可以很好地同时捕捉这三类特征,从而实现更细颗粒度和更高精度的情绪捕捉。按照心理学上的模型,人类的情绪分为8个大维度和24个细颗粒维度,包括诸如警惕、喜悦、憎恨、悲痛、恐惧、惊奇、烦恼等等。虽然目前基于机器学习的方法还无法实现如此高颗粒度的情绪提取,但随着技术的进一步发展,未来几年是有希望实现至少超过10种以上不同维度的情绪提取。进而,我们可以将更细颗粒度的情绪用于金融分析中,实现更精准和更复杂的投资辅助分析和决策。

当然,这类方法也存在至少两方面的问题。第一,可解释性差,导致一定程度上的鲁棒性差;第二,模型训练和评估成本较高。需要专业的金融分析师参与进行海量语料的标注。这两类问题也正是当下深度学习所面临的问题,熵简科技的NLP团队也正在探索相关的解决方案,例如自监督学习、半监督学习、可解释性评估都是有希望的研究方向。

2.4 Twitter 情绪提取的最新水准

前面提到,大数据时代的社交媒体是我们提取及时、前瞻的市场情绪最主要来源,因此我们有必要对当前最新技术的性能表现进行了解。发表于 2018年8月的文章 The State-of-the-Art in Twitter Sentiment Analysis: A Review and Benchmark Evaluation 对于 Twitter 情感提取问题的各类技术进行了详细的评估。

研究团队评估了来自学术界和工业界各类主流模型和方法共 28种,采用了五个评估数据集,涉及的主题主要为产品用户体验、科技公司的新闻事件、服务质量讨论等等。虽然这五个数据集并没有直接涉及到金融市场相关的情绪提取,但这一研究成果也足以让我们了解当前 Twitter 类短文本情感提取的最新技术水准。这里列举两个我们认为重要的发现:

(1) 各技术整体表现不佳

其中,最左边一列为所采用的模型或工具,最右侧的五列分别代表着五个数据集下的评估结果。

上表表明,当前的 Twitter 情绪提取技术的整体表现不佳,整个系统在全部数据集上的平均准确率只能达到 61%,各类模型在不同数据集上也具有较大的差异表现,即使最好的模型也只能达到 70% 左右的准确率。

(2) 错误分析

研究团队对于结果进行分析之后发现,主要的错误大致来自以下几个情况:

对于讽刺、复杂修辞类的推文很难正确处理;

营销等广告类的推文常常被识别为积极情绪;

样本外的情绪表达或者词典外的情感词很难处理;

带有混合情绪的文本也存在困难;

整体而言,由于社交媒体的推文数量庞大、类型丰富、领域极广,因此如何打造一个高精度、高鲁棒性的情绪提取算法是一件很有挑战的工作。而只有做好了这一点,才能在接下来真正意义上辅助金融分析。

三、金融情绪分析的应用案例

本小节将重点讨论市场情绪分析在最近三年的最新研究及应用成果,共包括5个应用案例。这些案例以 twitter 和新闻这两类数据源为主,包括了机器学习、混合字典、因果分析等多种技术方法,并在股票市场预测以及资产投资组合等具体任务上进行应用和分析。 3.1 案例一:2017, The impact of microblogging data for stock market prediction: using Twitter to predict returns, volatility, trading volume and survey sentiment indices

这项研究发布于2017年,相对于以外研究,研究人员提出了一套更为全面、可靠的评估方法,用来验证 twitter 的情绪信息是否能够对于股市具有预测作用,并帮助投资组合带来额外收益。

相对于2017年之前的研究,这项研究的突出贡献在于以下三点:

第一,显著地扩大了研究中的数据规模和时间跨度。实验中采用了 3100万条 twitter 推文,时间上跨越了2012年至2015,涵盖 3800 家在美国上市的公司;

第二,在 twitter 原始文本情绪的基础上提出了两大类情绪指数的统计方式,其中第二类指数在 twitter 情绪基础上,还融合了多种第三方线下的调查类情绪指数;

第三,运用四种不同的回归模型以及数十种不同输入组合,构建了几十种不同预测模型,对包括 SP500、NDQ在内多种股市指数、交易量、多种投资组合收益进行了详细的分析研究。

3.1.1 系统框架

上图所示为整套研究框架,共包括推文数据集、基于字典的情绪提取、情绪统计指标、预测模型构建和分析、DM检验。各部分的具体功能及实现方式如下:

**(1) 推文数据集上文已经提到,共包含3100万条 twitter 推文,可通过 Twitter 官网 API 获取。

(2) 基于字典的情绪提取**

本研究中采用了基于金融词典的方法进行推文情绪的提取,该词典可从开源项目获取:https://github.com/nunomroliveira/stock_market_lexicon这个字典包含了7000多个 Unigram 和 13000 个 Bigram,以及相应的正负向情感分数。这一字典基于2016年提出的一种快速算法,通过统计美国一个股市类微博 StockTwits 上的大量标记消息而得到。
(3) 情绪统计指标

在推文情绪的基础上,研究人员构建了两大类指标:

第一类指标仅由 twitter 情绪得到统计指标,共包含五项日度的情感指标,分别是 BullR、BearR、BI、VA和AG,分别反应着看涨情绪、看跌情绪以及情绪的波导情况等等;

第二类指标多数据源融合指标,研究通过卡尔曼滤波算法,将 twitter 情绪以及前面提到的 AAII、II、UMSC 等线下调查类情绪指数融合而成一个新的情绪指标。这是由于不同来源的情绪指数一般带有一些异质性的信息,因而融合之后的新情绪指标更具代表性和鲁棒性。

(4) 预测模型构建和分析

研究中,采用了四类回归模型作为预测模型,分别是线性回归、三层感知机、SVM 和 随机森林,其中线性回归模型作为基线模型。对于股价收益预测任务,模型的输出是 t 时刻的收益,而模型的输入则有7种不同组合,大致可分为三大类情况,即仅包含股市历史数据,包含情绪指标序列,包含推文的发布数量序列。函数如下所示:

其中,R代表收益,S代表情绪,N代表推文数量。

(5) DM检验

采用 Diebold-Mariano 检验对各个预测模型的结果与基线模型的结果进行对比,进而验证两类情绪指标是否可以对特定的预测目标如收益、交易量等,具有显著的预测作用。

3.1.2 重要发现

通过上述的分析,该研究有以下几个方面的重要发现:

(1) 在回报预测上,twitter 情绪指标对于 SP500, DJIA, MOM, SMB and RMRF 这几类指数具有明显预测作用,尤其对于 SP500 具有 p值<5% 的显著性,其中又以 SVM 模型的预测效果最好。而对于 HML, NDQ 和 RSL 这三类指数,twitter 情绪指标相对于基线模型并没有显著的预测优势;

(2) 对比两类情绪指标可以发现,融合了线下调查类情绪信息的第二类情绪指标在DJIA, MOM, RMRF 和 SP500 这四类股票指数上,具有更好的预测效果;

(3) 在不同市值规模的标的上进行研究可以发现,twitter 情绪指标对于市值较小的投资组合具有更加显著的预测性。其中,在市值规模后 20% 投资组合上,基于 twitter 情绪指标的最佳预测模型可以实现 p 值 <1% 的显著性。这或许表明,小市值公司更容易受到市场情绪的影响。

(4) 对不同行业的标的研究可以发现,twitter 情绪指标在能源和高新技术这两个行业都能实现显著性预测,其中 p 值 < 5%;

整体而言, 这项研究全面而可靠地证明了 twitter 情绪对于股市具有一定的预测作用,尤其在特定的标的上如部分行业、小市值公司等具有更为显著的预测作用。

四、结语

在本期的分享中,通过回顾金融情绪分析的三阶段发展历程我们发现,随着对于金融现象认识的逐步深刻、自然语言处理技术以及互联网社交媒体的发展,基于市场情绪提取的金融分析作为一项主要的技术手段,已经被广泛的研究并应用到多种实际的投资辅助决策中。

接下来,我们重点对金融情绪分析的两类主要技术方法以及最新水准进行了详细介绍。我们发现,由于社交媒体的推文数量庞大、类型丰富、领域极广,因此打造一个高精度、高鲁棒性的情绪提取算法依然是接下来需要重点突破的技术方向。

在应用案例部分,我们重点讨论市场情绪分析在最近三年的最新研究及应用成果,本期主要分享了2017年的一项成果,其余的四项案例将在下期进行分享,欢迎持续关注。

参考文献

[1] Xing, Frank Z., Erik Cambria, and Roy E. Welsch. “Natural language based financial forecasting: a survey.” Artificial Intelligence Review 50.1 (2018): 49-73.
[2] Ruan, Yefeng, Arjan Durresi, and Lina Alfantoukh. “Using Twitter trust network for stock market analysis.” Knowledge-Based Systems 145 (2018): 207-218.
[3] Zimbra, David, et al. “The state-of-the-art in Twitter sentiment analysis: A review and benchmark evaluation.” ACM Transactions on Management Information Systems (TMIS) 9.2 (2018): 1-29.
[4] Oliveira, Nuno, Paulo Cortez, and Nelson Areal. “The impact of microblogging data for stock market prediction: Using Twitter to predict returns, volatility, trading volume and survey sentiment indices.” Expert Systems with Applications 73 (2017): 125-144.
[5] Li, Qing, et al. “The effect of news and public mood on stock movements.” Information Sciences 278 (2014): 826-840.
[6] Kearney, Colm, and Sha Liu. “Textual sentiment in finance: A survey of methods and models.” International Review of Financial Analysis 33 (2014): 171-185.
[7] Zhang, Xi, et al. “Improving stock market prediction via heterogeneous information fusion.” Knowledge-Based Systems 143 (2018): 236-247.
[8] Li, Jiahong, Hui Bu, and Junjie Wu. “Sentiment-aware stock market prediction: A deep learning method.” 2017 international conference on service systems and service management. IEEE, 2017.
[9] Kelly, Stephen, and Khurshid Ahmad. “Estimating the impact of domain-specific news sentiment on financial assets.” Knowledge-Based Systems 150 (2018): 116-126.
[10] Nakov, Preslav, et al. “SemEval-2016 task 4: Sentiment analysis in Twitter.” arXiv preprint arXiv:1912.01973 (2019).
[11] Xing, Frank Z., Erik Cambria, and Roy E. Welsch. “Intelligent asset allocation via market sentiment views.” ieee ComputatioNal iNtelligeNCe magaziNe 13.4 (2018): 25-34.
[12] Weng, Bin, et al. “Predicting short-term stock prices using ensemble methods and online data sources.” Expert Systems with Applications 112 (2018): 258-273.


转载:https://blog.csdn.net/shangjiankeji/article/details/111560144
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场