基于文本挖掘的量化投资策略影响因素分析

发布时间:2021-12-23 17:32
  股市是个动态的经济环境,投资者在股市中博弈的结果往往取决于对信息的掌握数量和解读质量。随着互联网的发展及计算机技术的进步,数据的获取和经验的积累更加便捷,投资策略逐渐从定性研究拓展到定量分析。基于此,量化投资研究得到广泛关注,不断发展壮大。相比传统的定性投资方式,量化投资具备快速有效、客观理性、收益与风险平衡以及个股与组合平衡的优势。作为数据挖掘的一个重要分支,文本挖掘是指在大规模文本集合中发现隐含的、以往未知的、潜在有用的模式的过程。近些年,很多研究也将基于语言学、金融学、计算机技术等方面的文本挖掘技术作为量化投资研究的一个重要手段,如从文本数据中构造情绪指数,分析其对股市的影响等。本文主要是通过Python爬取新闻、研报、论坛文章数据,然后通过基于类的隐马尔可夫中文算法对中文文本进行分词、TF-IDF算法对文本进行向量化、层次聚类算法对文档进行聚类、LDA算法和基于邻接熵的关键词提取算法对文档主题进行识别抽取和基于词典对文章进行情感分析,最后基于行为金融的前提和量化投资的策略理念,构造关注度因子、情感因子、关注度与情感交互因子,分析这些因子与概念板涨跌幅之间相关关系。通过研究,我们... 

【文章来源】:苏州大学江苏省 211工程院校

【文章页数】:46 页

【学位级别】:硕士

【部分图文】:

基于文本挖掘的量化投资策略影响因素分析


图3-1基于层次隐马尔可夫模型的汉语词法分析框架[16]??10??

模型图,模型,主题,文档


cation,简记LDA)算法是一种典型的主??题模型(TopicModel)算法,其对海量的文本数据进行探索,对词组聚类,提取出??一系列文档中隐含的主题,属于非监督学习方法。LDA泛化能力强,其将文档??集合中每篇文档的主题以概率分布的形式给出,得到它们的主题分布后,便可以??根据主题分布进行主题聚类或文本分类%1。根据LDA算法思想,一篇文档的生??成是由以下流程生成:??P?)—*{??J?—I?K1???????Q???0?Z?y??N???M??图3-2?LDA模型??#表示词分布,0表示主题分布,《是主题分布0的先验分布的参数,/?是词分??布#的先验分布的参数,N表示文档的词语总数,M表示文档的总数,K表示主??题总数。Z表示文档的主题集合,W表示文档中的所有词语集合。LDA生成文??档步骤如下:??Stepl:第/篇文档D,?的主题分布&是从参数为a的Dirichlet先验分布中采样??得到的Multinomia丨分布,即0;先验分布服从D丨r(a),??=<P(Z1|D;)P(ZJD,)?>,?(3.7)??从主题分布仏抽取主题z。??Step2:第A个主题的词分布外是从参数为/?的Dirichlet先验分布中采样得??13??

财经,首页,频道,数据库


第四章研究方法和结论?基于文本挖掘的量化投资策略影响因素分析??些链接中爬取文章数据。其中,若有些文章链接无法打开或只含图片,则保存文??章的摘要部分。图4-2为新华网爬取首页。??C?<0?不安金.??'?????????mil?Wfm?羊。.-V’?.?tif;??■巧Ji雜轵櫓踢w?±頭:??房地产六大热词,你读懂多少??W.ff?.;5??牛?rS3?中设M:??|i?I'i-f-?*?/A^:-?上>5指教??薇?^?s:>a.->f?.?[s?^\?^?HH?4??匇????..?.城'..V?_?1!.勞:秘.房W代,矣:M?>?适、???齡I概猶t?_、嫩饮??Adcbt*?^:^J-?Piayff??她经济:跔买者正变为创业者和公益人??4^J?1?球:?rn?f?4??^?rVf-l?;;-;'?*,;:.??Kr?.?_?土工輿tt鲁^m6^4 ̄4F?C??;*3BiJhl??图4-2新华社财经频道首页爬虫??通过Python的request包获取的是网页的源码数据,然后通过BeautifulSoup??库从源码标签中提取所需文本数据,最后保存到数据库中,共计109631条文本??数据。图4-3为数据存储在MySQL数据库,其中数据库的表格设计如表4-1。??表4-1数据库MySQL字段说明??字段??说明??Id?int(ll)?NOT?NULL?文档?ID??Publishtime?varchar(50)?NULL?发布时间??Title?varchar(200)?NULL?文章标题??Target?varchar(200)?NUL

【参考文献】:
期刊论文
[1]基于情感词典扩展技术的网络舆情倾向性分析[J]. 杨超,冯时,王大玲,杨楠,于戈.  小型微型计算机系统. 2010(04)
[2]基于凝聚式层次聚类算法的标签聚类研究[J]. 曹高辉,焦玉英,成全.  现代图书情报技术. 2008(04)
[3]文本挖掘研究进展[J]. 谌志群,张国煊.  模式识别与人工智能. 2005(01)
[4]基于层叠隐马模型的汉语词法分析[J]. 刘群,张华平,俞鸿魁,程学旗.  计算机研究与发展. 2004(08)
[5]网页多词元快速聚类算法[J]. 李振星,徐泽平,唐卫清,唐荣锡.  计算机工程. 2003(02)
[6]基于N-最短路径方法的中文词语粗分模型[J]. 张华平,刘群.  中文信息学报. 2002(05)
[7]我国金融发展与经济增长关系的格兰杰检验和特征分析[J]. 曹啸,吴军.  财贸经济. 2002(05)
[8]基于市场效率的中国股市波动和发展阶段划分[J]. 马向前,任若恩.  经济科学. 2002(01)

博士论文
[1]投资者情绪的统计测评及其应用研究[D]. 崔亮.西南财经大学 2013

硕士论文
[1]投资者情绪对股票市场的影响研究[D]. 申浩男.山西财经大学 2018
[2]互联网财经新闻对股票影响的实证分析[D]. 杨娟.西南财经大学 2012



本文编号:3548890

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3548890.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2bcbe***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com