基于主题模型的企业微博推荐方法研究与实现
本文关键词:基于主题模型的企业微博推荐方法研究与实现,由笔耕文化传播整理发布。
【摘要】:随着PC互联网和移动互联网开始融入人们的生活,人们在网上的活动变得越来越频繁,微博作为一种新兴的社交平台的出现,满足了人们信息获取、日常交流等目的。企业微博作为一种特殊的微博群体,可以帮助企业更加方便地进行产品营销、客户沟通以及行业信息动态把握,从而可以从中挖掘出更多的商机,促进企业发展。然而由于微博平台信息过载的问题,对于某些企业微博用户来讲,关注用户数过多导致很多行业相关的微博消息被其他消息所掩盖,未关注到的行业相关的企业微博用户发布的有潜在价值的消息难以获得,如何从包含大量无关信息的微博集合中找出行业相关的微博,从而进行行业情况的分析,这对于企业的发展有着至关重要的作用。传统的文本挖掘方法多采用向量空间模型的方式进行,而向量空间模型的方法存在自身的缺陷,就是只能根据文字表面的意义进行分析,无法挖掘文本潜在的深层次的含义,导致了很多有用信息的丢失,而近年来才出现的主题模型在文本挖掘方面的能力已经通过实践得到了证明,相对于传统的文本挖掘方法,基于主题模型的文本挖掘对于发现文本潜在的主题特征有很好的效果。对于企业微博文本来说,使用主题模型进行建模可以很好地挖掘出企业微博用户的行业兴趣或者对不同的行业微博消息进行区分,这可以帮助企业更好更快地获取到所需要的行业相关的商业信息,从而进行决策。本文基于主题模型来对企业微博用户进行行业主题建模,同时使用向量空间模型进行行业特征选择,从而建立企业微博用户的行业向量,并在以上基础上实现企业微博用户以及企业微博消息的推荐,本文研究的工作体现在以下两个方面:1.本文通过BIG DATA爬虫开放平台获取了新浪企业微博消息作为实验数据,并且使用了LDA模型和作者主题模型ATM实现企业微博用户主题维度的行业兴趣建模,实验证明对于企业微博进行主题建模是可行的,其中作者主题模型ATM的建模效果要优于LDA模型的建模效果,这是因为LDA模型对于短文本的主题建模效果不理想,而ATM模型中将微博消息以用户为单位整合后在一定程度上消除了文本长度过短的缺点。2.在使用主题模型对各个企业微博用户进行主题建模之后,接着对各类行业的微博进行行业特征选择,并使用向量空间模型得出每个企业微博用户的行业兴趣向量,然后将主题模型得到的主题相似度计算结果和向量空间模型得到的行业兴趣向量相似度计算结果进行线性合并,从而将最终得出的行业相关性计算结果来作为企业微博用户和消息推荐的依据,实验结果表明本文提出的推荐方法在企业微博用户以及企业微博消息推荐上都有不错的效果。
【关键词】:主题模型 企业微博 LDA 微博推荐 ATM
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-5
- Abstract5-9
- 第一章 绪论9-16
- 1.1 课题背景及其意义9-10
- 1.2 国内外研究现状10-13
- 1.3 本文主要工作13-14
- 1.4 本文组织结构14-15
- 1.5 本章小结15-16
- 第二章 相关技术概述16-29
- 2.1 传统文本挖掘方法16-18
- 2.1.1 TFIDF16-17
- 2.1.2 余弦相似度17
- 2.1.3 JS散度17-18
- 2.2 主题模型18-25
- 2.2.1 LSI主题模型20-21
- 2.2.2 PLSI主题模型21-22
- 2.2.3 LDA主题模型22-23
- 2.2.4 ATM主题模型23-25
- 2.3 微博推荐算法概述25-28
- 2.3.1 基于内容的推荐25
- 2.3.2 基于协同过滤的推荐25-27
- 2.3.3 混合技术推荐27-28
- 2.4 本章小结28-29
- 第三章 企业微博用户兴趣建模29-39
- 3.1 基于主题模型的企业微博用户行业兴趣建模29-30
- 3.1.1 基于标准LDA的企业微博用户行业兴趣建模29-30
- 3.1.2 基于ATM的企业微博用户行业兴趣建模30
- 3.2 模型性能测试实验设计与结果分析30-36
- 3.2.1 数据集30-32
- 3.2.2 数据预处理32-34
- 3.2.3 评价方法34
- 3.2.4 实验结果分析34-36
- 3.3 向量空间模型中企业微博用户行业兴趣建模36-38
- 3.3.1 企业微博行业特征选择36-37
- 3.3.2 向量空间模型中企业微博用户建模37-38
- 3.4 本章小结38-39
- 第四章 针对企业微博用户的个性化信息推荐39-60
- 4.1 企业微博用户推荐39-47
- 4.1.1 企业微博用户相似度计算39-40
- 4.1.2 评价方法40-41
- 4.1.3 企业微博用户推荐方法41-44
- 4.1.4 企业微博用户推荐实验44-47
- 4.2 企业微博消息推荐47-58
- 4.2.1 微博消息和微博用户的相似度计算48-49
- 4.2.2 评价方法49-50
- 4.2.3 企业微博消息推荐方法50-53
- 4.2.4 企业微博消息推荐实验53-58
- 4.3 本章小结58-60
- 第五章 总结和展望60-62
- 5.1 总结60-61
- 5.2 展望61-62
- 参考文献62-66
- 附录A 图索引66-67
- Appendix A Figure Index67-68
- 附录B 表索引68-69
- Appendix B Table Index69-70
- 致谢70
【相似文献】
中国期刊全文数据库 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期
中国重要会议论文全文数据库 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前4条
1 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
2 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
2 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
3 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
4 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
5 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
6 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
7 韩琳;基于贝叶斯主题爬虫的研究与实现[D];北京工业大学;2015年
8 黎楠;面向专利的主题挖掘技术研究及应用[D];北京工业大学;2015年
9 刘学江;超大规模社交网络中基于结构与主题的社团挖掘[D];电子科技大学;2015年
10 黄文强;安卓技术信息的主题爬虫技术研究与实现[D];东南大学;2015年
本文关键词:基于主题模型的企业微博推荐方法研究与实现,,由笔耕文化传播整理发布。
本文编号:258677
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/258677.html