海量短文本的主题挖掘及其可视化
本文关键词:海量短文本的主题挖掘及其可视化,,由笔耕文化传播整理发布。
【摘要】:随着移动互联网的迅速发展,互联网已经成为人们重要的思想交流平台,从MSN到腾讯QQ,从Twitter到微博,各式各样的网络平台正悄然改变世界,例如信息的传播方式、市场营销方式等。与此同时,社交网络中产生的短文本信息呈爆炸式增长,其中包含了大量不可估量的商业价值和社会价值,如何挖掘出隐藏在海量文本消息中的有用信息已经成为人们的迫切需求。然而,短文本消息的独特特征使得传统方法很难对其进行建模,语义特征的稀疏性使模型往往得不到很好的效果。受深度学习在自然语言处理领域的应用启发,本文采用深度学习方法来对短文本消息进行主题挖掘。本文首先分析中文短文本消息和微博消息的特点,其次研究深度学习在文本挖掘上的应用,并在此基础上提出一种基于长短时记忆模型(Long Short Term Memory, LSTM)的方法来对短文本消息进行处理,相对于大多数传统基于词袋模型的文本挖掘方法,它的主要不同之处在于LSTM考虑了整个句子的结构信息,而不是简单的字或词的出现频率。此外,本文试探性地使用深度学习的方法进行中文短文本主题挖掘,并提出一种基于中文汉字笔画的字向量映射方法,在一定程度上解决了中文汉字的输入问题。通过分析研究中文汉字的造字方法以及读音规则,可以将其映射为一个32维的向量,从而作为深度神经网络的输入。LSTM属于反馈神经网络的一种,它可以很好的处理序列数据,而文本数据恰好是一种具有空间顺序的序列数据。从而,借助于LSTM对序列数据处理的优点,文本的语义信息能够在一定程度上被提取出来。最后,采用新浪微博消息作为测试数据,实验表明本文提出的基于笔画嵌入的LSTM-RNN在主题挖掘任务上是有效可行的。实验过程中,将经典的基于短文本消息的主题模型作为对照,从而验证了该方法的准确性。
【关键词】:主题建模 深度学习 字嵌入 LSTM 文本挖掘
【学位授予单位】:西南石油大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-13
- 1.1 研究背景及意义7-8
- 1.2 国内外研究现状8-11
- 1.3 本课题研究工作11-12
- 1.4 本文结构安排12-13
- 第二章 相关理论与技术13-27
- 2.1 短文本与微博13-15
- 2.1.1 短文本13-14
- 2.1.2 微博14-15
- 2.2 主题挖掘常见算法15-27
- 2.2.1 传统文本主题挖掘方法15-17
- 2.2.2 主题模型17-22
- 2.2.3 深度学习22-27
- 第三章 中文汉字字嵌入模型27-32
- 3.1 One-Hot字嵌入27
- 3.2 基于汉字笔画的字嵌入27-32
- 3.2.1 中文汉字特点27-29
- 3.2.2 字嵌入模型29-32
- 第四章 基于笔画字嵌入的LSTM短文本主题挖掘32-39
- 4.1 基于传统反馈神经网络32-33
- 4.2 基于长短时记忆模型33-35
- 4.3 参数训练35-37
- 4.4 基于LSTM的主题挖掘37-39
- 4.4.1 关键字提取37
- 4.4.2 短文本消息主题挖掘37-39
- 第五章 实验结果分析及其可视化39-48
- 5.1 数据获取与预处理39
- 5.2 基础数据分析及可视化39-43
- 5.3 主题演化实验结果分析及可视化43-46
- 5.3.1 实验数据43-44
- 5.3.2 关键字提取可视化分析44-45
- 5.3.3 主题演化与关键字可视化分析45-46
- 5.4 语义提取结果分析46-48
- 第六章 总结与展望48-50
- 6.1 本文工作总结48-49
- 6.2 未来工作展望49-50
- 参考文献50-54
- 致谢54
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
2 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
3 杨名阳;基于空间文本数据的k近邻连接研究[D];上海交通大学;2015年
4 李天彩;短文本信息流的会话抽取与分析技术研究[D];解放军信息工程大学;2015年
5 陈亮宇;面向微博文本的事件抽取[D];东南大学;2015年
6 许慧芳;基于全覆盖粒计算模型的文本表示和特征提取研究[D];太原理工大学;2016年
7 王炜;面向网络舆情的文本语义倾向性分类算法研究[D];河北工程大学;2016年
8 任倚天;基于支持向量机的海量文本分类并行化技术研究[D];北京理工大学;2016年
9 光顺利;基于Spark的文本分类的研究[D];长春工业大学;2016年
10 张高祥;基于SVM的文本信息过滤算法研究[D];吉林大学;2016年
本文关键词:海量短文本的主题挖掘及其可视化,由笔耕文化传播整理发布。
本文编号:305801
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/305801.html