面向隐式微博主题挖掘系统的设计与实现
本文关键词:面向隐式微博主题挖掘系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网的迅速发展,电商平台逐渐成为大众购买商品的主要渠道,企业官方微博是服务于电商平台的便于企业发布对外消息、用户讨论评价产品的一种新型方式。随着公司网络营销影响力的增加,与公司相关的微博文本数量日益增多,其中隐含着许多与公司密切相关的话题。挖掘得到其中有价值的信息可以实时监控与公司相关的舆论动向,支持公司管理层决策。微博主题检测技术是研究如何对大量的微博数据信息进行管理分类,这己经成为当前微博研究中最热门的方向之一。主要工作内容如下:(1)微博中包含大量的无法分析其主题归属的微博。如果一味抛弃将会大大影响整体主题的输出,遗漏掉很多微博作者关心的话题。因此本文在目前已存在的微博主题模型基础上,着重分析微博的结构和微博间的关系并结合概率主题模型设计和提出了基于微博转发评论关系和自身上下文关系的面向隐式微博的主题模型CGRMB-LDA模型。该模型利用微博间评论关系、转发关系和上下文关系扩展隐式微博来达到明确隐式微博的主题归属的目的,最后采用吉布斯采样的方法求解模型得到微博-主题和主题-词汇的概率分布。(2)本文还探讨如何快速便捷地利用微博开放平台的API接口实现获取微博间的评论转发关系来分析处理隐式微博。另外,本文还针对隐式微博的特点经过数据预处理、网络符号替换和情感词扩充使得最后主题模型的输出更加准确并带有一些情感色彩。
【关键词】:微博 主题挖掘 CGRMB-LDA模型 隐式微博
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 绪论11-19
- 1.1 研究背景11
- 1.2 微博及隐式微博11-14
- 1.2.1 微博11-13
- 1.2.2 隐式微博13-14
- 1.3 微博主题挖掘的研究现状14-16
- 1.3.1 利用聚类方法挖掘微博主题14-15
- 1.3.2 利用概率主题模型的方法挖掘微博主题15-16
- 1.4 隐式微博主题挖掘的主要研究内容及难点16-17
- 1.4.1 隐式微博主题挖掘的主要研究内容16
- 1.4.2 隐式微博挖掘的难点16-17
- 1.5 结构安排17-18
- 1.6 本章小结18-19
- 第二章 主题模型在微博数据上的应用19-30
- 2.1 主题模型19-21
- 2.1.1 主题模型的输入19-20
- 2.1.2 主题模型中的基本假设20
- 2.1.3 主题模型的表示20-21
- 2.1.4 新样本的推断21
- 2.2 主题模型的参数估计21-22
- 2.2.1 EM算法21-22
- 2.2.2 Gibbs采样22
- 2.3 面向隐式微博的主题模型22-28
- 2.3.1 概率主题模型的由来23
- 2.3.2 LDA主题模型23-24
- 2.3.3 面向微博的派生主题模型24-27
- 2.3.4 考虑隐式微博的主题模型27-28
- 2.4 各主题模型在微博文本建模上的方法比较28-29
- 2.5 本章小结29-30
- 第三章 面向隐式微博主题挖掘系统算法设计30-39
- 3.1 相关定义30
- 3.2 隐式微博显式化方式探究30-32
- 3.3 微博生成模型CGRMB-LDA模型32-37
- 3.3.1 LDA主题模型中的建模算法32-33
- 3.3.2 CGRMB-LDA模型微博主题生成过程33-37
- 3.4 评价指标37-38
- 3.4.1 人工评价Score37
- 3.4.2 模型困惑度37-38
- 3.5 本章小结38-39
- 第四章 系统实现39-51
- 4.1 系统总框架39-40
- 4.2 获取微博原始数据40-44
- 4.2.1 微博开放平台API40-41
- 4.2.2 OAuth用户身份认证41
- 4.2.3 微博API数据获取流程41-44
- 4.3 隐式微博分词44-46
- 4.3.1 中文文本分词44-45
- 4.3.2 隐式微博的扩充分词45-46
- 4.4 隐式微博数据预处理46-47
- 4.4.1 隐式微博停用词去除46
- 4.4.2 隐式微博缩写词和网络符号替换46-47
- 4.4.3 隐式微博情感词扩充47
- 4.5 使用CGRMB-LDA模型得到微博-主题-词汇概率分布47-50
- 4.5.1 得到CGRMB-LDA主题模型的输入47-48
- 4.5.2 得到CGRMB-LDA主题模型的输出48-49
- 4.5.3 CGRMB-LDA主题模型对新样本中主题的预测49-50
- 4.6 本章小结50-51
- 第五章 实验与结论51-60
- 5.1 实验结果51-55
- 5.1.1 初始化分词和数据预处理51-52
- 5.1.2 隐式微博数据处理52
- 5.1.3 CGRMB-LDA模型主题输出52-55
- 5.2 结果分析55-57
- 5.3 CGRMB-LDA模型参数调整分析57-59
- 5.3.1 隐式微博在评论转发层级上扩充参数的影响57-58
- 5.3.2 隐式微博在时间间隔参数上扩充参数的影响58-59
- 5.4 本章小结59-60
- 第六章 总结与展望60-61
- 参考文献61-66
- 附录1 攻读硕士学位期间发表的学术论文66-67
- 致谢67
【相似文献】
中国期刊全文数据库 前10条
1 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
6 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期
中国重要会议论文全文数据库 前7条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国硕士学位论文全文数据库 前10条
1 薛耀兵;科技文献中的主题发现与趋势预测[D];哈尔滨工业大学;2013年
2 陈浩;自定义主题信息抽取的研究与应用[D];大连理工大学;2008年
3 郭程;面向多样性检索的子主题挖掘技术的研究[D];沈阳航空航天大学;2014年
4 吴彦文;主题信息合理性、语境意义偏向性对汉语句子歧义消解的实验研究[D];陕西师范大学;2002年
5 戴兴虎;基于主题的学术网络构建[D];浙江大学;2013年
6 吴晓娜;基于特征、先验和约束的主题建模算法[D];苏州大学;2014年
7 邸亮;基于主题模型的个性化信息推荐[D];北京工业大学;2014年
8 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
9 陈千;主题网络爬虫关键技术的研究与应用[D];北京理工大学;2015年
10 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
本文关键词:面向隐式微博主题挖掘系统的设计与实现,,由笔耕文化传播整理发布。
本文编号:347955
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/347955.html