面向微博的数据采集和分析系统的设计与实现
发布时间:2021-11-21 18:50
随着社交网络的兴起,微博已成为了人们相互交流最重要的场所之一。在微博中,人人都可以发出自己的声音,也可以听到别人的声音,因此形成了巨大的信息量和信息碎片化的特点。本文针对微博的这些特点,设计并实现了面向微博的数据采集和分析系统。主要工作是在获取微博数据的基础上,仿真并分析微博的网络结构,确定微博用户的权威性并完成了热门微博和热门词汇的挖掘。具体而言,本文主要完成了以下工作:Ⅰ.研究了目前网络爬虫的设计和应用技术,在此基础上,设计并实现了一种可根据数据种类的不同,创建多种爬虫的数据采集系统,研究人员可使用此系统,按需求抓取不同种类的微博数据用于研究。此外,在爬行过程中,一方面使用多线程技术大幅提高爬虫的效率,另一方面,创造了多AppKey复用机制,突破了新浪对API调用频率的限制,保证了爬虫可以连续不间断的工作。实践表明,此系统连续爬取3天即可抓取300万个微博用户关系;Ⅱ.深入分析了微博网络中的用户关系网络的特点,并结合传统的网络节点评价算法,提出了“相对权威度”和“用户活力”两个新的概念,并使用这两个概念完成了对微博用户的重要性评价。实验表明,新算法的评价效果比传统算法提高了20%以...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景和意义
1.2 研究内容
1.3 系统总体架构
1.4 组织结构
第二章 国内外相关技术及研究现状
2.1 网络信息采集技术
2.1.1 基于整个万维网的信息抓取
2.1.2 基于主题的信息爬取
2.1.3 增量式信息爬取
2.1.4 分布式网络爬虫
2.2 网页节点的评价方法
2.2.1 PageRank算法
2.2.2 HITS算法
2.2.3 DistanceRank算法
2.2.4 无用链接的检测技术
2.3 针对微博的信息挖掘研究
2.3.1 微博短文本挖掘
2.3.2 情感倾向性分析
2.3.3 话题趋势检测
2.4 本章小结
第三章 微博数据的分类爬取及存储
3.1 微博应用的创建
3.2 OAuth授权机制
3.3 爬虫的设计和调度
3.4 微博数据获取
3.4.1 用户信息获取
3.4.2 用户标签获取
3.4.3 用户关系获取
3.4.4 微博内容获取
3.4.5 微博评论获取
3.5 数据库设计
3.6 本章小结
第四章 基于相对权威度和用户活力的微博用户权威度评价算法(UAEA)
4.1 评价算法综述
4.2 基于相对权威度的UA值分配
4.2.1 算法描述
4.2.2 算法效率
4.3 基于用户活力的UA值分配
4.3.1 算法描述
4.3.2 算法效率
4.4 UAEA评价算法
4.5 算法测试
4.5.1 基于相对权威度的评价算法测试
4.5.2 UAEA评价算法测试
4.6 UAEA算法的不足
4.7 本章小结
第五章 微博热点内容发现
5.1 引言
5.2 热门微博的发现
5.2.1 单条评论的热度评价
5.2.2 单条微博的热度评价
5.3 热门词汇的提取
5.3.1 去停用词
5.3.2 分词
5.3.3 热门词汇的提取
5.4 本章小结
第六章 总结与展望
6.1 主要工作及创新点
6.2 未来研究方向
参考文献
致谢
作者攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[2]Twitter中近似重复消息的判定方法研究[J]. 曹鹏,李静远,满彤,刘悦,程学旗. 中文信息学报. 2011(01)
[3]话题发现与追踪技术研究[J]. 张晓艳,王挺. 计算机科学与探索. 2009(04)
[4]一种基于本体的PageRank算法的改进策略[J]. 姚文琳,刘文. 计算机工程. 2009(06)
[5]对线程池模式的分析及其实现[J]. 陈勇,申海燕,宋之毅. 现代电子技术. 2005(16)
[6]专业搜索引擎的实现与研究——中文分词算法[J]. 王坚,赵恒永. 电子科学技术评论. 2005(03)
[7]中文文本挖掘中最长频繁序列的发现算法[J]. 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭. 中央民族大学学报(自然科学版). 2004(01)
[8]话题识别与跟踪研究[J]. 李保利,俞士汶. 计算机工程与应用. 2003(17)
博士论文
[1]短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所) 2008
本文编号:3510046
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景和意义
1.2 研究内容
1.3 系统总体架构
1.4 组织结构
第二章 国内外相关技术及研究现状
2.1 网络信息采集技术
2.1.1 基于整个万维网的信息抓取
2.1.2 基于主题的信息爬取
2.1.3 增量式信息爬取
2.1.4 分布式网络爬虫
2.2 网页节点的评价方法
2.2.1 PageRank算法
2.2.2 HITS算法
2.2.3 DistanceRank算法
2.2.4 无用链接的检测技术
2.3 针对微博的信息挖掘研究
2.3.1 微博短文本挖掘
2.3.2 情感倾向性分析
2.3.3 话题趋势检测
2.4 本章小结
第三章 微博数据的分类爬取及存储
3.1 微博应用的创建
3.2 OAuth授权机制
3.3 爬虫的设计和调度
3.4 微博数据获取
3.4.1 用户信息获取
3.4.2 用户标签获取
3.4.3 用户关系获取
3.4.4 微博内容获取
3.4.5 微博评论获取
3.5 数据库设计
3.6 本章小结
第四章 基于相对权威度和用户活力的微博用户权威度评价算法(UAEA)
4.1 评价算法综述
4.2 基于相对权威度的UA值分配
4.2.1 算法描述
4.2.2 算法效率
4.3 基于用户活力的UA值分配
4.3.1 算法描述
4.3.2 算法效率
4.4 UAEA评价算法
4.5 算法测试
4.5.1 基于相对权威度的评价算法测试
4.5.2 UAEA评价算法测试
4.6 UAEA算法的不足
4.7 本章小结
第五章 微博热点内容发现
5.1 引言
5.2 热门微博的发现
5.2.1 单条评论的热度评价
5.2.2 单条微博的热度评价
5.3 热门词汇的提取
5.3.1 去停用词
5.3.2 分词
5.3.3 热门词汇的提取
5.4 本章小结
第六章 总结与展望
6.1 主要工作及创新点
6.2 未来研究方向
参考文献
致谢
作者攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
[2]Twitter中近似重复消息的判定方法研究[J]. 曹鹏,李静远,满彤,刘悦,程学旗. 中文信息学报. 2011(01)
[3]话题发现与追踪技术研究[J]. 张晓艳,王挺. 计算机科学与探索. 2009(04)
[4]一种基于本体的PageRank算法的改进策略[J]. 姚文琳,刘文. 计算机工程. 2009(06)
[5]对线程池模式的分析及其实现[J]. 陈勇,申海燕,宋之毅. 现代电子技术. 2005(16)
[6]专业搜索引擎的实现与研究——中文分词算法[J]. 王坚,赵恒永. 电子科学技术评论. 2005(03)
[7]中文文本挖掘中最长频繁序列的发现算法[J]. 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭. 中央民族大学学报(自然科学版). 2004(01)
[8]话题识别与跟踪研究[J]. 李保利,俞士汶. 计算机工程与应用. 2003(17)
博士论文
[1]短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所) 2008
本文编号:3510046
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3510046.html
最近更新
教材专著