当前位置:主页 > 管理论文 > 移动网络论文 >

微博爬虫的相关技术研究

发布时间:2021-08-02 16:14
  社交媒体作为web2.0时代的标志,提供了以用户为中心的各种交流模式和途径。用户在社交媒体上发表和传播消息,关注自己感兴趣的人物。社交媒体中一般拥有数以亿计的人物节点,他们之间通过关注和粉丝关系连成了巨大的社会网络,消息通过这张巨大的社会网络传播。大部分社交媒体提供API以便获取社交媒体数据进行相关研究,但是由于API的相关限制造成数据获取困难,直接造成研究无法进行。所以对于社交媒体爬虫的相关技术研究具有重大意义。本文主要以国内微博媒体为研究对象,主要针对新浪微博,研究微博爬虫的相关技术。本文研究的技术包括:爬行策略研究与实现、微博数据获取研究与实现、微博数据去重设计等。本文工作如下:首先分析微博爬虫的主要问题。在该部分本文介绍了基于Hadoop的分布式框架技术、基于hbase的分布式数据存储技术以及微博数据的获取方式、去重策略和存储策略,提出一种基于Hadoop的微博爬虫框架,以UID和MID为主键的分布式No-SQL设计思路,获取微博数据的两种主要方式的相关背景和主要流程,比较多种微博数据去重策略。其次研究面向微博主题数据和个人数据获取技术。在该部分重点介绍了基于新浪元搜索和主题相... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

微博爬虫的相关技术研究


hbase的架构图

对应关系,索引结构


哈尔滨工业大学工学硕士学位论文10图2-2 特殊表与 region 之间的对应关系在 hbase 中表不支持索引结构,例如查询博文数据时需要查找某人发布的所有博文,此时由于没有索引结构,查询效率非常,常用的处理方法为设计冗余表以满足基于 hbase 数据库的分析技术。在 hbase 中有些设计原则,hbase 尽量避免采用单调递增这样的 Key,这样会造成一直插入最后一个 region,造成数据库长时间进行分裂操作,导致数据库性能的降低;每个表列簇尽量只有一个;列簇名和列名尽量简短;灵活利用 hbase 的 Key 有序进行设计。hbase 的数据导入导出方式主要包括 java Native API,hbased 自带的命令和bulk-load 方式

示意图,页面,个人,示意图


图 2-7 PC 端与移动端的个人基本信息页面的对比示意图人微博数据时,从图中可以得出的结论与获取个人基本图 2-8 PC 端与移动端的单条博文数据页面的对比示意图析:上述实验可以看出使用移动端页面的方式将减轻原带宽占用,可以稍微提升获取速度。但是由于长时间使易被封 IP。base 以及 Mysql 存储微博数据,已累积相关微博爬虫获实验室数据的存储情况如表 2-6 所示:

【参考文献】:
期刊论文
[1]新浪微博数据挖掘方案[J]. 廉捷,周欣,曹伟,刘云.  清华大学学报(自然科学版). 2011(10)
[2]主题爬行策略与算法研究综述[J]. 张立杰.  图书情报工作. 2011(18)
[3]Ajax站点数据采集研究综述[J]. 夏天.  现代图书情报技术. 2010(03)

硕士论文
[1]面向电子商务网站的增量爬虫设计与实现[D]. 杨颂.湖南大学 2010



本文编号:3317875

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3317875.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b3864***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com