基于微博的用户兴趣分析及预测
发布时间:2021-02-08 15:55
微博,作为一种新兴的信息分享与传播方式,在最近几年尤为流行。庞大的微博用户数以及丰富的内容,使微博不仅成为了用户获取信息的手段,而且也是一个高效的广告平台。在海量的微博信息中,用户需要大量时间和精力找到感兴趣的信息,信息推荐服务应运而生。用户兴趣挖掘是实现广告精准投放和信息推荐服务的核心技术。本文在调研了国内外大量相关研究文献后,提出基于用户的微博数据分析,提炼用户兴趣,并进一步预测用户最近的兴趣变化。其步骤为:首先,对于给定用户,采集用户微博数据集,并对其使用事先构建好的过滤器进行处理。其次,先在外部知识库上构建主题模型,然后应用该主题模型对用户微博内容进行分析。再次,用户的兴趣表达为用时间权重组合的主题概率。最后,通过用户关注好友的微博数据,用最大熵模型进行分析,挖掘出用户将来一段时间的兴趣,从而达到预测的目的。本方法具有以下优点:第一,考虑到微博文本内容较短的特点,提出结合外部知识库对主题模型进行训练,以实现微博内容的语义扩充。第二,提出对用户兴趣的表示,通过对每个主题加上一个时间权重,体现时间因素对兴趣变化的影响。第三,提出对用户兴趣预测的方法。理论分析和实验对比证明了本方法的...
【文章来源】:南京邮电大学江苏省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 研究内容与创新点
1.4 论文组织
第二章 相关知识及概念
2.1 微博
2.2 支持向量机
2.3 主题模型
2.4 最大熵模型
2.5 本章小结
第三章 数据采集及处理
3.1 微博数据采集
3.1.1 使用新浪API采集数据
3.1.2 使用爬虫程序采集数据
3.1.3 微博内容处理
3.2 噪音微博过滤
3.2.1 噪音微博过滤器的构建
3.2.2 噪音微博过滤器的使用
3.3 本章小结
第四章 基于微博的用户兴趣分析
4.1 概述
4.2 主题模型的构建
4.3 用户兴趣分析
4.4 本章小结
第五章 基于微博的用户兴趣预测
5.1 概述
5.2 兴趣预测模型的构建
5.3 用户兴趣预测
5.4 本章小结
第六章 系统实现与实验分析
6.1 系统实现
6.1.1 系统开发工具
6.1.2 系统框架
6.1.3 系统实现
6.2 实验分析
6.3 本章小结
第七章 总结与展望
7.1 总结
7.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
【参考文献】:
期刊论文
[1]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋. 计算机学报. 2013(08)
[2]基于用户聚类的异构社交网络推荐算法[J]. 陈克寒,韩盼盼,吴健. 计算机学报. 2013(02)
[3]基于国内开放平台的Oauth认证框架研究[J]. 刘镝,张智江,张尼. 信息通信技术. 2011(06)
[4]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
[5]基于LDA模型的主题分析[J]. 石晶,范猛,李万龙. 自动化学报. 2009(12)
[6]高性能网络爬虫:研究综述[J]. 周德懋,李舟军. 计算机科学. 2009(08)
[7]基于Labeled-LDA模型的文本分类新算法[J]. 李文波,孙乐,张大鲲. 计算机学报. 2008(04)
[8]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕. 软件学报. 2006(09)
本文编号:3024169
【文章来源】:南京邮电大学江苏省
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究的背景和意义
1.2 国内外研究现状
1.3 研究内容与创新点
1.4 论文组织
第二章 相关知识及概念
2.1 微博
2.2 支持向量机
2.3 主题模型
2.4 最大熵模型
2.5 本章小结
第三章 数据采集及处理
3.1 微博数据采集
3.1.1 使用新浪API采集数据
3.1.2 使用爬虫程序采集数据
3.1.3 微博内容处理
3.2 噪音微博过滤
3.2.1 噪音微博过滤器的构建
3.2.2 噪音微博过滤器的使用
3.3 本章小结
第四章 基于微博的用户兴趣分析
4.1 概述
4.2 主题模型的构建
4.3 用户兴趣分析
4.4 本章小结
第五章 基于微博的用户兴趣预测
5.1 概述
5.2 兴趣预测模型的构建
5.3 用户兴趣预测
5.4 本章小结
第六章 系统实现与实验分析
6.1 系统实现
6.1.1 系统开发工具
6.1.2 系统框架
6.1.3 系统实现
6.2 实验分析
6.3 本章小结
第七章 总结与展望
7.1 总结
7.2 展望
参考文献
附录1 攻读硕士学位期间撰写的论文
致谢
【参考文献】:
期刊论文
[1]一种基于情感符号的在线突发事件检测方法[J]. 张鲁民,贾焰,周斌,赵金辉,洪锋. 计算机学报. 2013(08)
[2]基于用户聚类的异构社交网络推荐算法[J]. 陈克寒,韩盼盼,吴健. 计算机学报. 2013(02)
[3]基于国内开放平台的Oauth认证框架研究[J]. 刘镝,张智江,张尼. 信息通信技术. 2011(06)
[4]基于MB-LDA模型的微博主题挖掘[J]. 张晨逸,孙建伶,丁轶群. 计算机研究与发展. 2011(10)
[5]基于LDA模型的主题分析[J]. 石晶,范猛,李万龙. 自动化学报. 2009(12)
[6]高性能网络爬虫:研究综述[J]. 周德懋,李舟军. 计算机科学. 2009(08)
[7]基于Labeled-LDA模型的文本分类新算法[J]. 李文波,孙乐,张大鲲. 计算机学报. 2008(04)
[8]基于机器学习的文本分类技术研究进展[J]. 苏金树,张博锋,徐昕. 软件学报. 2006(09)
本文编号:3024169
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3024169.html