当前位置:主页 > 管理论文 > 信息管理论文 >

互联网财经新闻对股市影响的定量分析

发布时间:2017-10-24 04:19

  本文关键词:互联网财经新闻对股市影响的定量分析


  更多相关文章: 文本挖掘 支持向量机 互联网新闻 股市波动 多元线性回归


【摘要】:影响股市波动的因素很多,有市场行情、通货膨胀、交易策略、公司本身等等因素。实际上,所有与财经相关的信息都会影响证券市场股价的波动。这些信息、最终可以归结为定量信息和定性信息。定量信息是指可以直接获得的实际观测数据,即技术指标,例如红利股价比、账面市值比、利润等。而定性信息、是指不能直接用数据精确描述的因素,例如商业环境、文化程度、技术优势、战争、自然灾害、政府经济政策变动等等,互联网财经新闻中就包含了大量的这种定性信息。 新闻对股市有影响,这已经是学术界和实业界公认的事实。互联网财经新闻作为信息时代公众获取财经信息的主要渠道,其与股市波动之间必然有着某种关联,但其对上市公司的报道将是如何影响证券市场股票的价格波动,即:新闻报道对股市的影响第几天最为显著?新闻报道对股市影响的持续时间是多长?中国股票市场分为沪深两市,那么互联财经网新闻对沪深两市股票产生的影响强度、影响周期是否一致?如果不同,那么分别又体现在哪些方面。这一系列问题的解决,对于监管者进行股市制度改革、投资者投资策略选择、承销商承销方案制订等都具有重要的参考意义。 然而目前为止,计算机科学领域学者对新闻与股市波动之间关系的研究,仅局限于预测新闻对股价的影响,并未系统分析两者之间的种种关联。然而,影响股价波动的因素很多,这使得用新闻预测股价的准确度较低,从而实用价值一直不高。计算机领域学者之所以并未系统分析新闻与股市之间关系,是因为此问题的解决需要借助计量经济学的分析方法。目前,经济学领域学者对新闻与股市的研究,由于技术的局限性,仅是简单地分析新闻标题、新闻数量等与股市波动之间的关系,并未挖掘新闻文本信息,而新闻文本中通常包含大量有价值的软信息。造成这种现状的原因是挖掘新闻文本中包含的信息需要计算机领域的文本挖掘技术。总之,各领域都存在技术局限性,使得系统地分析新闻文本信息与股市波动之间关系这项研究还处于知识空白。 基于此,本篇文章跨计算机科学与经济学两学科,利用文本挖掘技术中的支持向量回归模型和计量经济学中多元回归分析方法,将新闻内容量化为造成股市波动的一个影响因子,首次从宏观层面上,系统地分析互联网新闻文本信息对中国股市的影响。本文采用如下技术方案来研究新闻对股市的影响: (1)采用文本挖掘技术,量化定性新闻这种无结构的文本信息对股市的影响,量化结果作为定性新闻对股市影响的一个因子。此阶段涉及的文本挖掘技术有向量空间模型、TFIDF加权方法、特征降维、中文分词、支持向量回归等等。如何选择最优方法,提高量化结果的准确性,这是此阶段需要解决的问题,也本篇文章的关键点。本文根据股市特性,建立股市特有的特征词库来进行文本向量化,从而将无结构的文本信息转换为结构化的向量形式。在向量化过程中,本文采用TFIDF来进行特征加权,采用同义词词库进行特征降维,从而得到最终的新闻文本向量。然后采用支持向量回归来建立新闻文本向量与股票收益率之间的回归模型,用此模型来量化新闻对股市的影响,量化结果作为定性新闻影响股市的因子。 (2)将定性新闻对股市影响的因子与定量的影响股市的主要技术指标相结合,采用计量经济学的多元线性回归模型,依据各种假设检验来分析新闻是如何影响股市,影响的显著性等问题。具体而言,本文将量化后的新闻对股市影响的因子作为多元回归模型的解释变量之一,将股票累计异常收益率作为被解释变量,采用统计检验方法来检验多元回归模型的拟合优度、方程显著性和新闻等因子的显著性问题,从而具体分析新闻因子与股市波动之间的关系。 通过实验,我们发现:沪深两市上市公司的新闻报道后都会影响该上市公司的股票的波动,但对深市上市公司股票的影响要强于沪市股票,而且,沪市上市公司的新闻影响力度和持续时间均小于深市上市公司。同时,我们发现,新闻报道后沪市上市公司的收益明显受到公司规模的影响,经分析可得,对于规模越大的公司,新闻报道对其股票产生的影响越不明显,对于规模越小的公司,新闻报道对其产生的影响越大,且持续时间越长。 本文的创新之处可以从以下方面加以详述。 (1)本文从研究方法上来讲,创新之处在于:融合计算机领域的文本挖掘技术与经济学领域的计量方法,跨学科角度解决新闻与股市波动之间的关系问题。财经新闻内容中包含大量影响股市的信息,本文采用计算机领域中的文本挖掘技术来量化这些信息对股市的影响,并将量化结果作为影响股市收益率的一个指标因子,融合影响股市的几个主要技术指标,采用计量经济学中多元线性回归分析的各种假设检验方法,来分析新闻如何影响股市,影响持续时间以及影响强度等问题。 (2)本文从研究角度来讲,创新之处在于:目前大部分研究还主要集中在用新闻预测股价方面。本文利用文本挖掘技术和计量经济学方法,将新闻内容量化为影响股市波动的一个因子,系统分析互联网财经新闻对中国股市的影响。同时,中国股市分为沪深两市,但目前为止,很少有研究将沪深两市进行对比分析。本文致力于研究互联网财经新闻对沪市和深市股票产生的影响强度、影响周期是否一致等问题。 (3)本文从技术方面来讲,创新之处在于:针对股市特性,本文建立了股市专有的特征词以及同义词词库。在对新闻文本进行中文分词时,将股市特征词库加入分词字典,增加分词准确性。在用文本挖掘技术进行新闻文本向量化时,本文采用的方法是基于特征词库的向量化方法,同时根据同义词词库对文本向量化结果进行特征降维,从而得到一个较为合理的向量化结果。 本文的内容结构安排如下:第一部分介绍论文的研究背景、研究意义以及研究方法;第二部分对本文涉及的相关技术进行介绍,本文涉及两个领域的相关知识,故此部分按领域分别进行介绍;第三部分介绍实验过程所需数据的准备工作,本实验所需数据分为两大块,即新闻数据和股票交易日数据,故此部分分别介绍两块数据的获取以及预处理工作;第四部分介绍实验步骤以及实验结果;第五部分对整篇论文做总结以及展望。
【关键词】:文本挖掘 支持向量机 互联网新闻 股市波动 多元线性回归
【学位授予单位】:西南财经大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:F49;F832.51;F224
【目录】:
  • 摘要4-7
  • Abstract7-12
  • 1. 引言12-24
  • 1.1 研究背景12-16
  • 1.2 研究目的及意义16-18
  • 1.2.1 研究目的17
  • 1.2.2 研究意义17-18
  • 1.3 研究方法18-21
  • 1.3.1 文本挖掘技术19
  • 1.3.2 计量经济学19-20
  • 1.3.3 CAPM模型20-21
  • 1.4 研究内容21-22
  • 1.5 本文主要贡献22-24
  • 2. 相关知识24-35
  • 2.1 文本挖掘技术24-28
  • 2.1.1 向量空间模型25-26
  • 2.1.2 特征权重计算26
  • 2.1.3 特征选择26-27
  • 2.1.4 中文分词27-28
  • 2.2 支持向量机28-30
  • 2.3 经济学30-32
  • 2.3.1 计量经济学31
  • 2.3.2 CAPM模型31-32
  • 2.4 网页抓爬器及新闻内容提取32-34
  • 2.5 本章小结34-35
  • 3. 数据准备35-39
  • 3.1 新闻数据获取以及预处理35-37
  • 3.2 股市交易日数据37-38
  • 3.3 本章小结38-39
  • 4. 实验设计与分析39-51
  • 4.1 量化新闻指标39-41
  • 4.2 计量分析方法41-42
  • 4.3 评测指标42-43
  • 4.4 实验环境以及实验步骤43-44
  • 4.5 实验结果分析44-49
  • 4.5.1 上海市场新闻对股市影响的定量分析44-46
  • 4.5.2 深圳市场新闻对股市影响的定量分析46-48
  • 4.5.3 沪深两市新闻对股市影响的对比分析48-49
  • 4.6 本章小结49-51
  • 5. 总结与展望51-54
  • 5.1 研究工作总结51-52
  • 5.2 未来的研究内容展望52-54
  • 参考文献54-57
  • 后记57-58
  • 致谢58-60
  • 在读期间科研成果目录60

【参考文献】

中国期刊全文数据库 前6条

1 赵静梅;何欣;吴风云;;中国股市谣言研究:传谣、辟谣及其对股价的冲击[J];管理世界;2010年11期

2 何诚颖;中国股市市盈率分布特征及国际比较研究[J];经济研究;2003年09期

3 杨继东;;媒体影响了投资者行为吗?——基于文献的一个思考[J];金融研究;2007年11期

4 饶育蕾;王攀;;媒体关注度对新股表现的影响——来自中国股票市场的证据[J];财务与金融;2010年03期

5 徐筱凤,李寿喜;中国企业市盈率:理论分析与经验证据[J];世界经济文汇;2005年Z1期

6 赵伟;梁循;;互联网金融信息量与收益率波动关联研究[J];计算机技术与发展;2009年12期



本文编号:1086999

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/1086999.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户57499***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com