【摘要】:微博客的出现形成了一种新的媒介现象,使得人们对当下的政治、经济、体育、娱乐等方面的消息有了更及时、更深刻的了解。四面八方的言论更对受众的思想行为产生了巨大的导向作用,其中受大V用户的影响最为明显,这里的大V用户所指的是具有很高影响力的用户,该类用户所发起的讨论和话题极具影响力在社会上,甚至可以这么说,这些大V用户极大程度上的引领并制造了当下社会的热门话题。因此,对微博用户影响力的探究是个值得深入的研究方向。本文将分析用户影响力评估标准指出传统的用户影响力Page Rank算法在计算微博用户影响力中的不足,并提出了一个新的影响力WB-UR算法。互联网的高速发展让世界进入了大数据时代,“大数据”一词在各行各业的领域中都是被讨论的话题,而本文研究所需要的数据来源于新浪微博中海量用户数据,从而进行微博用户影响力的研究。本文将使用便捷、高效的Hadoop分布式计算平台进行数据处理和算法实现的。本文首先对Hadoop平台及其相关技术理论进行了详细介绍,如:HDFS、Map Reduce、HBase。接着讲述了目前评估微博用户影响力的Page Rank算法背景应用和算法原理,然后本文通过详细分析微博网络的用户和行为特性,发现只考虑了追随者数量这个因素的Page Rank算法在微博用户影响力的评估中存在着很大的缺陷,Page Rank算法在用户分配影响力值的过程中是以粉丝的关注数进行均分,却忽略了用户之间的行为,如:转发、评论、点赞,这三个因素对用户的影响力有着不同大小的作用,因此僵尸粉的存在使得Page Rank算法难以有效、合理的对用户影响力进行排名。本文则以微博用户关注、转发、点赞、评论这四个主要行为因素在用户之间影响力分配过程中的所占权重作为切入点,提出了一种基于Page Rank算法改进的算法—WB-UR(Wei Bo-User Rank)算法。本文是使用Hadoop平台实现WB-UR算法,在HBase中设计了两张数据表,存放的是本文算法所涉及到的数据。接着使用Sqoop工具将数据导入HBase设计好的表中以便于高效提出实现算法所需数据。最后,本文在搭建成功的Hadoop平台上分别实现Page Rank算法和WB-UR算法,接着分别对Page Rank算法和WB-UR算法的实验结果进行对比分析后,验证了WB-UR算法相对于Page Rank算法的用户影响力排名更加符合实际情况,优化后的WB-UR算法在用户影响力的评估上比Page Rank算法有着更全面、有效、可靠性高的优点。
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【参考文献】
相关期刊论文 前10条
1 王姣;徐海霞;;搜索引擎工作原理再探究[J];电脑知识与技术;2016年25期
2 郭强;;基于Hadoop分布式文件系统的模型分析[J];电脑知识与技术;2016年17期
3 于金良;朱志祥;梁小江;;一种基于Sqoop的数据交换系统[J];物联网技术;2016年03期
4 刘亚尚;陈波;朱汉;于泠;;微博僵尸粉演化特征实证研究[J];情报探索;2015年12期
5 张亚莉;鲁梦华;徐yN飞;;基于文本分析的微博博文影响力实证研究[J];现代情报;2015年02期
6 李春艳;姚君兰;;基于Hadoop的实验平台构建[J];数字技术与应用;2014年10期
7 王立峰;;HBase数据库中大对象存储方案的研究[J];电脑知识与技术;2014年23期
8 任仁;;Hadoop在大数据处理中的应用优势分析[J];电子技术与软件工程;2014年15期
9 卢慧锋;赵文涛;孙志峰;游超;;社会化网络服务中OAuth2.0的应用研究与实现[J];计算机应用;2014年S1期
10 龚建华;;JSON格式数据在Web开发中的应用[J];办公自动化;2013年20期
相关博士学位论文 前1条
1 任薇;基于微博的社会网络特征研究[D];西南大学;2014年
相关硕士学位论文 前5条
1 陈智;集群计算效率约束下的HADOOP鲁棒性优化研究[D];辽宁大学;2014年
2 邰建华;Hadoop平台下的海量数据存储技术研究[D];东北石油大学;2012年
3 杨爱民;并行广度优先搜索算法研究[D];西安电子科技大学;2012年
4 郑博文;基于Hadoop的分布式网络爬虫技术[D];哈尔滨工业大学;2011年
5 李宽;基于HDFS的分布式Namenode节点模型的研究[D];华南理工大学;2011年
,
本文编号:
2545878
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2545878.html