当前位置:主页 > 经济论文 > 股票论文 >

基于股吧文本的主题挖掘及其股票投资应用

发布时间:2020-04-29 05:32
【摘要】:随着互联网的高速发展,投资者越来越倾向于在网络上通过各种股吧论坛来表达自己对市场的观点,同时获取自己所关注的股市信息,而这些信息会潜移默化地影响着投资者的投资决策。因此,本文从大数据文本挖掘的角度出发,从网络爬取的股吧文本数据中挖掘股票市场的热门主题,再应用到股票投资上。对股吧文本进行主题挖掘首先要选取合适的主题挖掘算法,目前股市上很少采取LDA模型进行主题挖掘,但LDA模型的应用广泛,优势突出,本文选用LDA模型。为了对比LDA模型的效果,本文将其与传统的文本聚类算法做对比,挖掘2018年2月份股吧财经评论吧热帖文本的主题,发现LDA的主题挖掘效果更好、模型拓展性能更强等。主题挖掘方法在股票投资领域中的应用很少,所以本文在挖掘股吧文本热点主题的基础上,提出构建主题投资策略。基于主题数据,构建主题热度因子,综合考虑主题行业热度和主题概念热度两个方面,来描述主题和其个股的关系。构造出主题热度因子后,对其做单因子检验证明其有效性,将其作为主要因子和其他常用类因子构建多因子库,构建多因子量化选股模型。相比于传统的排序打分法,本文把选股模型看成二分类问题,选用逻辑回归模型。逻辑回归易求最优解、直接对分类可能性进行建模,预测结果是近似类别的概率,且概率结果可以作为配资权重。本文使用逻辑回归模型构建多因子选股策略,通过对2016年4月至2017年9月期间的沪深300成分股股池进行回测,策略的年化收益率达到21.1%,净值曲线后期表现远超基准。再剔除主题因子,同样构建逻辑回归多因子选股模型,对比添加主题因子前后的策略效果:随机多次抽样时段构建策略,获得两组样本数据,对两组样本的夏普比率和年化收益率的提高进行显著性检验,夏普比率和年化收益率对应的P值均接近0,说明年化收益率和夏普比率有显著的提升效果,主题因子对策略有显著的改善效果,充分验证了主题挖掘方法的效果。本文的研究成果有利于完善我国关于股市热点主题挖掘的理论研究,充实股市选股中基于主题投资选股的方法和技巧,而且可以为我国股市的投资者提供选股策略上的具体建议。
【图文】:

流程图,文本挖掘,流程图,网络爬虫


图 2-1 文本挖掘流程图1 获取文本的相关技术文本挖掘流程第一步,即获取文本数据,本文的文本数据来源于网络,要获取文本数据,直接爬取数据的方法获得的信息更为全面,所以本文采用网络爬虫技过 Python 爬虫来获取网络文本数据。网络爬虫[32],顾名思义,是一种网络爬取数手段,也即数据采集程序。按照一定的规则,,网络爬虫程序或脚本可以自动地抓络信息。1.1 网络爬虫简介网络爬虫(Web crawler)可以爬取网页中展示出来的信息,包括文字信息和超信息等,它可以进入超链接信息链接到的其他网页进行新一轮的爬虫,这就像一络蜘蛛在网络中漫游,所以它也译为网络蜘蛛,它可以自动采集它所能访问到的网页,自动抓取网页信息。网络爬虫广泛应用于谷歌、百度等互联网搜索引擎系

主题,挖掘算法,潜在语义,文本聚类


图 2-2 主题挖掘一般流程图掘的算法主题挖掘算法主题挖掘算法最早追溯到文本聚类算法:非结构化的文r Space Model)向量空间模型映射到向量空间中的一个点,紧接k均值聚类算法等实现文本聚类,最终聚为同一类的文本就认为聚类算法很成熟且简单易实现。只能划分类别,且 1个文本只能归属于 1个主题(类别);不能释性,人们不易理解。性代数的主题挖掘算法在语义分析是一种基于线性代数基础的主题挖掘新方法,由 De潜在语义分析意在挖掘文档的潜在语义结构,通过 SVD(Si
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F832.51

【参考文献】

相关期刊论文 前5条

1 李保华;;选对主题 成就风格[J];大众理财顾问;2012年02期

2 王蕊;;拨开主题投资的迷雾[J];大众理财顾问;2011年09期

3 王明旭;刘俊;王晓李;;主题制胜 成就价值——主题投资策略方法论及应用[J];资本市场;2010年10期

4 李雪;孔凡航;尹奇;;主题投资策略中羊群行为的实证研究[J];北京工商大学学报(社会科学版);2008年01期

5 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期

相关重要报纸文章 前1条

1 雷泽;;主题投资:投资新概念[N];证券时报;2004年

相关硕士学位论文 前7条

1 王凯;基于集成学习的量化选股策略研究[D];华南理工大学;2017年

2 李保国;基于聚类与LDA的新闻评论主题挖掘研究[D];武汉纺织大学;2016年

3 王晶;基于社交媒体的热点主题挖掘及主题演化分析[D];西南大学;2016年

4 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

5 张建新;基于主题投资的股票市场选股策略研究[D];云南大学;2015年

6 史辰烨;社交网络博客主题挖掘与应用[D];上海交通大学;2014年

7 刘晨;A股市场弱式有效性下的主题投资研究[D];天津财经大学;2013年



本文编号:2644271

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/2644271.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户865b7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com