微博爬虫的相关技术研究

发布时间：2021-08-02 16:14

　　社交媒体作为web2.0时代的标志，提供了以用户为中心的各种交流模式和途径。用户在社交媒体上发表和传播消息，关注自己感兴趣的人物。社交媒体中一般拥有数以亿计的人物节点，他们之间通过关注和粉丝关系连成了巨大的社会网络，消息通过这张巨大的社会网络传播。大部分社交媒体提供API以便获取社交媒体数据进行相关研究，但是由于API的相关限制造成数据获取困难，直接造成研究无法进行。所以对于社交媒体爬虫的相关技术研究具有重大意义。本文主要以国内微博媒体为研究对象，主要针对新浪微博，研究微博爬虫的相关技术。本文研究的技术包括：爬行策略研究与实现、微博数据获取研究与实现、微博数据去重设计等。本文工作如下：首先分析微博爬虫的主要问题。在该部分本文介绍了基于Hadoop的分布式框架技术、基于hbase的分布式数据存储技术以及微博数据的获取方式、去重策略和存储策略，提出一种基于Hadoop的微博爬虫框架，以UID和MID为主键的分布式No-SQL设计思路，获取微博数据的两种主要方式的相关背景和主要流程，比较多种微博数据去重策略。其次研究面向微博主题数据和个人数据获取技术。在该部分重点介绍了基于新浪元搜索和主题相...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：55 页

【学位级别】：硕士

【部分图文】：

微博爬虫的相关技术研究

hbase的架构图

对应关系,索引结构

哈尔滨工业大学工学硕士学位论文10图2-2 特殊表与 region 之间的对应关系在 hbase 中表不支持索引结构，例如查询博文数据时需要查找某人发布的所有博文，此时由于没有索引结构，查询效率非常，常用的处理方法为设计冗余表以满足基于 hbase 数据库的分析技术。在 hbase 中有些设计原则，hbase 尽量避免采用单调递增这样的 Key，这样会造成一直插入最后一个 region，造成数据库长时间进行分裂操作，导致数据库性能的降低；每个表列簇尽量只有一个；列簇名和列名尽量简短；灵活利用 hbase 的 Key 有序进行设计。hbase 的数据导入导出方式主要包括 java Native API，hbased 自带的命令和bulk-load 方式

示意图,页面,个人,示意图

图 2-7 PC 端与移动端的个人基本信息页面的对比示意图人微博数据时，从图中可以得出的结论与获取个人基本图 2-8 PC 端与移动端的单条博文数据页面的对比示意图析：上述实验可以看出使用移动端页面的方式将减轻原带宽占用，可以稍微提升获取速度。但是由于长时间使易被封 IP。base 以及 Mysql 存储微博数据，已累积相关微博爬虫获实验室数据的存储情况如表 2-6 所示：

【参考文献】：
期刊论文
[1]新浪微博数据挖掘方案[J]. 廉捷,周欣,曹伟,刘云.  清华大学学报(自然科学版). 2011(10)
[2]主题爬行策略与算法研究综述[J]. 张立杰.  图书情报工作. 2011(18)
[3]Ajax站点数据采集研究综述[J]. 夏天.  现代图书情报技术. 2010(03)

硕士论文
[1]面向电子商务网站的增量爬虫设计与实现[D]. 杨颂.湖南大学 2010

本文编号：3317875

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3317875.html

上一篇：基于SDN的电力数据中心网络架构研究
下一篇：金融科技高速发展下的信息安全——以广东省工商银行为例

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|