在线新闻文本的读者情绪预测方法研究
本文关键词:在线新闻文本的读者情绪预测方法研究
更多相关文章: 情感分析 读者情绪预测 在线新闻 多标签分类 LDA主题模型
【摘要】:随着互联网的快速发展与Web 2.0时代的到来,在线新闻作为主要的网络信息载体,已经成为人们获取新闻资讯的主要渠道。其内容与形式也不断创新,允许用户通过情绪投票直接抒发自己对新闻事件的情绪。了解用户对新闻事件的态度和情绪变化,可以辅助在线新闻服务商理解用户偏好,同时有助于实现网络舆情分析和监控。因此,如何准确地对用户的情绪进行预测,具有重要的理论意义和应用价值。本文分析并总结了读者情绪预测在国内外的研究现状,结合目前机器学习领域高度关注的LDA主题模型及多标签分类技术,对新闻文本引发的读者情绪自动判别和预测进行了深入研究,主要工作包括:第一,首次提出将读者情绪预测作为多标签分类问题。由于现有读者情绪预测方法大多将读者情绪预测作为单标签分类任务,这与人类直觉及对读者情绪进行大规模统计结果不符。本文在对读者情绪投票数据进行详细统计分析的基础上,验证了使用多标签分类方法解决读者情绪预测问题的正确性。第二,提出一种读者情绪自动标注方法。本文设计了一种读者情绪多标签标注算法,该算法创新性地利用读者情绪投票数据,采用基于阈值的方法,实现了读者情绪的自动标注。避免了传统手工标注方法工作量大、标注结果不准确等问题。第三,提出一种多标签监督的情绪-主题模型。在深入分析LDA主题模型的基础上,增加一层隐含的读者情绪,并利用读者情绪反馈信息对模型进行监督。与传统模型相比,该模型能够更加有效地利用文本语义信息,取得了更加准确的情绪预测结果。本文在真实的新浪社会新闻数据集上进行了大量的对比实验,结合多标签分类常用评测指标,对实验结果进行评测。实验结果表明较已有的读者情绪预测方法,本文提出的多标签监督的情绪-主题模型能够更准确地预测读者情绪。
【关键词】:情感分析 读者情绪预测 在线新闻 多标签分类 LDA主题模型
【学位授予单位】:南开大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 第一章 绪论10-17
- 第一节 研究目的与意义10-11
- 第二节 研究现状和主要研究工作11-15
- 1.2.1 情绪分析研究现状11-14
- 1.2.2 主要研究工作14-15
- 第三节 论文组织结构15-17
- 第二章 相关技术研究17-25
- 第一节 多标签分类技术17-21
- 2.1.1 问题转化法17-20
- 2.1.2 算法适应法20-21
- 第二节 主题模型技术21-23
- 2.2.1 LDA主题模型21-22
- 2.2.2 Labeled LDA主题模型22-23
- 第三节 本章小结23-25
- 第三章 在线新闻读者情绪预测设计方案25-38
- 第一节 总体实现路线25-26
- 第二节 数据采集26-29
- 3.2.1 网络爬虫26-27
- 3.2.2 新浪新闻网站结构分析27-28
- 3.2.3 新浪新闻爬虫设计28-29
- 第三节 多标签读者情绪语料库构建29-33
- 3.3.1 数据预处理30-31
- 3.3.2 读者情绪数据统计分析31-32
- 3.3.3 读者情绪多标签处理方法32-33
- 第四节 文本表示模型设计33-35
- 第五节 多标签监督的情绪-主题模型设计35-37
- 第六节 本章小结37-38
- 第四章 多标签监督的情绪-主题模型实现38-53
- 第一节 问题描述38-39
- 第二节 多标签监督的情绪-主题模型39-45
- 4.2.1 读者情绪预测模型分析39-43
- 4.2.2 多标签监督的情绪-主题模型构建43-45
- 第三节 参数估计45-52
- 4.3.1 EM算法45-47
- 4.3.2 Gibbs采样47-48
- 4.3.3 ML-sETM模型参数估计48-51
- 4.3.4 ML-sETM模型预测51-52
- 第四节 本章小结52-53
- 第五章 实验结果及分析53-62
- 第一节 实验环境53
- 第二节 实验数据53-55
- 第三节 评测方法55-56
- 第四节 实验设计及结果分析56-61
- 5.4.1 ML-sETM模型性能比较56-58
- 5.4.2 ML-sETM模型参数的影响58-61
- 第五节 本章小结61-62
- 第六章 总结与展望62-64
- 第一节 总结62-63
- 第二节 展望63-64
- 参考文献64-68
- 致谢68-69
- 个人简历及在学期间研究成果69
【相似文献】
中国期刊全文数据库 前10条
1 林茜卡;傅秀芬;滕少华;李云;;协同标签系统的应用研究[J];暨南大学学报(自然科学与医学版);2009年01期
2 吴超;周波;;基于复杂网络的社会化标签分析[J];浙江大学学报(工学版);2010年11期
3 吴金成;曹娇;赵文栋;张磊;;标签集中式发布订阅机制性能分析[J];指挥控制与仿真;2010年06期
4 李晓燕;陈刚;寿黎但;董金祥;;一种面向协作标签系统的图片检索聚类方法[J];中国图象图形学报;2010年11期
5 袁柳;张龙波;;基于概率主题模型的标签预测[J];计算机科学;2011年07期
6 张斌;张引;高克宁;郭朋伟;孙达明;;融合关系与内容分析的社会标签推荐[J];软件学报;2012年03期
7 王永刚;严寒冰;许俊峰;胡建斌;陈钟;;垃圾标签的抵御方法研究[J];计算机研究与发展;2013年10期
8 汪祥;贾焰;周斌;陈儒华;韩毅;;基于交互关系的微博用户标签预测[J];计算机工程与科学;2013年10期
9 顾亦然;陈敏;;一种三部图网络中标签时间加权的推荐方法[J];计算机科学;2012年08期
10 赵亚楠;董晶;董佳梁;;基于社会化标注的博客标签推荐方法[J];计算机工程与设计;2012年12期
中国重要会议论文全文数据库 前6条
1 朱广飞;董超;王衡;汪国平;;照片标签的智能化管理[A];第四届和谐人机环境联合学术会议论文集[C];2008年
2 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 梅放;林鸿飞;;基于社会化标签的移动音乐检索[A];第五届全国信息检索学术会议论文集[C];2009年
4 李静;林鸿飞;;基于用户情感标签的音乐检索算法[A];第六届全国信息检索学术会议论文集[C];2010年
5 骆雄武;万小军;杨建武;吴於茜;;基于后缀树的Web检索结果聚类标签生成方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 王波;唐常杰;段磊;尹佳;左R,
本文编号:660332
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/660332.html