当前位置:主页 > 管理论文 > 信息管理论文 >

基于文本挖掘的文本情绪分类

发布时间:2017-07-27 03:22

  本文关键词:基于文本挖掘的文本情绪分类


  更多相关文章: 文本分类 文本特征 不平衡分类数据 降维 交叉验证 非参数假设检验


【摘要】:随着信息技术的进步,人们生活中出现了大量的、甚至海量的数据,其中蕴含着大量的价值,这就是“大数据”。金融行业与互联网技术的迅速发展产生的大量的互联网上的与金融相关的一种金融大数据:互联网中储存的金融文本数据。通过对这些类型的数据进行分析,提取其中的价值,是大势所趋。对于文本数据进行分析,文本挖掘技术是行之有效的方法。文本挖掘包括文本数据收集、文本信息提取、文本数据建模等多方面的研究内容,本文基于文本挖掘中的文本分类方法对一组实际中常出现的“股吧”评论、帖子文本数据进行情绪分类。对于“股吧”文本数据的分析,本文使用从非结构化数据向结构化数据转化而进行建模的思路,首先说明如何得到一组与"股吧"信息一一对应的文本特征数据,并基于此数据进行分类建模。对于文本特征数据的建模,本文基于“数据驱动”的建模方式,即从“股吧”文本数据进行特征提取之后的文本特征数据集出发,通过交叉验证,寻找合适的分类模型进行建模,并提出了基于交叉验证结果的非参数统计的检验方法,科学的对这些模型的泛化能力进行评价,并从中选择合适的、泛化能力稳健的模型对文本特征数据进行分类,从而完成对“股吧”文本数据进行分类。其中,本文提出了一种基于两分类模型的多重多折的交叉研究结果,使用适用于成对数据检验的非参数检验方法检验两模型建模效果的差异,提出了稳健的两模型泛化能力的比较方法。这也是本文的创新之处。本文在第一章的引言部分五节内容说明研究背景、研究问题、研究内容以及研究意义;其次,本文提出建模思路以及介绍、说明研究过程中使用的分类模型理论、降维理论、不平衡分类数据建模理论、多重多折的交叉验证理论以及非参数假设检验理论;再次,本文通过对一组实际的“股吧”文本特征数据进行建模分析,并得出结论;最后,说明本文的研究结论与不足之处,以及展望了今后的研究方向。
【关键词】:文本分类 文本特征 不平衡分类数据 降维 交叉验证 非参数假设检验
【学位授予单位】:云南财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;F49
【目录】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第一章 引言8-22
  • 第一节 研究背景8-13
  • 一、对“大数据”的讨论8-9
  • 二、金融大数据与互联网大数据的介绍9-10
  • 三、一种存在于互联网的金融大数据:股吧文本数据10-11
  • 四、文本挖掘11-13
  • 第二节 提出问题13-17
  • 一、研究对象13-14
  • 二、相关金融理论与实际应用14-15
  • 三、研究目的15
  • 四、研究思路15-17
  • 第三节 本文研究内容及研究意义17-18
  • 一、研究内容17-18
  • 二、研究意义18
  • 第四节 国内外研究现状18-22
  • 一、文本挖掘与文本分类18-19
  • 二、分类模型19
  • 三、不平衡分类理论19-20
  • 四、降维理论20
  • 五、交叉验证20
  • 六、非参数假设检验20-22
  • 第二章 理论及方法介绍22-37
  • 第一节 建模思路分析22-28
  • 一、文本数据的收集22-23
  • 二、文本特征数据提取23-25
  • 三、提出建模思路25-28
  • 第二节 相关方法介绍28-37
  • 一、分类模型28-31
  • 二、降维方法31-32
  • 三、不平衡数据32-33
  • 四、交叉验证33-34
  • 五、非参数假设检验34-37
  • 第三章 数据分析及建模37-44
  • 第一节 数据收集37-38
  • 第二节 数据集探索性分析38-39
  • 第三节 模型建立39-44
  • 一、建立分类树模型40-41
  • 二、降维41-42
  • 三、不平衡分类问题的考虑42
  • 四、随机森林与SVD降维分类树的比较42-43
  • 五、检验随机森林模型有效性43-44
  • 第四章 结论44-46
  • 参考文献46-50
  • 附录A50-51
  • 附录B51-56
  • 致谢56-57
  • 在读期间研究成果57

【相似文献】

中国期刊全文数据库 前10条

1 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期

2 邢鸿飞;;文本挖掘口角升温[J];世界科学;2013年05期

3 蒋良孝,蔡之华;文本挖掘及其应用[J];现代计算机(专业版);2003年02期

4 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期

6 黄维金;顾益军;;刑侦档案文本挖掘系统平台中的文本精炼初探[J];中国人民公安大学学报(自然科学版);2006年02期

7 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期

8 韩春;田大钢;;对股票市场信息的文本挖掘[J];中国高新技术企业;2008年23期

9 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期

10 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期

中国重要会议论文全文数据库 前10条

1 陈林;王晓华;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年

2 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

3 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年

4 高飞;荆继武;向继;;文本挖掘系统的可视化方法研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

6 钱程扬;龙毅;徐震;孙昊;;基于Web文本挖掘的地理位置信息重建技术[A];中国地理学会2007年学术年会论文摘要集[C];2007年

7 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

8 邱晓蕾;张聪超;;基于SVD和部分聚集分类的文本挖掘算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

9 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

10 陈宇;王强;;聚类算法在Web文本挖掘中的应用研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年

中国重要报纸全文数据库 前4条

1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年

2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年

3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年

4 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年

中国博士学位论文全文数据库 前10条

1 曹奇敏;网络信息文本挖掘若干问题研究[D];北京理工大学;2015年

2 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年

3 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年

4 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年

5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

7 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年

8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

9 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年

10 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年

中国硕士学位论文全文数据库 前10条

1 张馨允;基于Spark的Web文本挖掘系统的研究与实现[D];吉林大学;2016年

2 王钊;基于Hadoop的文本挖掘研究与应用[D];广东工业大学;2016年

3 黄建澍;面向人大代表议案处理的文本挖掘系统的设计与实现[D];中国科学院大学(工程管理与信息技术学院);2016年

4 徐奇钊;基于文本挖掘的文本情绪分类[D];云南财经大学;2016年

5 邹运怀;基于文本挖掘的道岔故障分类研究[D];北京交通大学;2016年

6 王萍;基于Web文本挖掘的电子商务专业人才市场需求研究[D];重庆工商大学;2016年

7 盛华;聚类分析在文本挖掘中的应用与研究[D];江南大学;2016年

8 刘超;业界专家的媒体发言对公司股价影响的分析[D];上海师范大学;2016年

9 吴亚宇;基于文本挖掘的年报情感与上市公司业绩的关系研究[D];中国地质大学(北京);2016年

10 高希瑞;基于文本挖掘的企业危机预警研究[D];华东师范大学;2011年



本文编号:579630

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/sjfx/579630.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户35d0c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com