海量网络媒体信息采集及处理平台设计实现
发布时间:2021-02-08 03:18
互联网的蓬勃发展,使得网络媒体中蕴含着海量的信息。社交网络作为一种特殊的网络,其中充斥着大量的人类活动的数据信息,具有很高的研究价值。但是,网络媒体信息通常具有分散的特点,导致网络媒体中的信息难以被直接利用。因此,对网络媒体信息进行数据采集,是进行网络媒体数据分析及数据挖掘的先决条件。海量网络媒体信息采集是指通过网络爬虫或数据API接口提取等技术手段,达到获取网络中感兴趣的数据的目的。不同于一般的网络媒体信息采集,对社交网络进行信息采集首先需要对社交网络账号进行登录,因此确保社交账号保持正常的状态是社交网络数据采集的前提。现有的针对社交网络数据采集的研究中很少有关于账号模拟的功能设计,无法确保账号保持正常的状态,因此难以保证网络媒体数据的稳定获取。另一反面,现有的网络媒体数据采集大多基于单节点的设计实现,难以满足海量的数据需求。针对上述问题,本文以Twitter为数据采集对象,设计实现了海量网络媒体信息采集及处理平台,该系统在模拟社交网络账号登录的基础上,实现了社交媒体网络信息的稳定采集,主要工作概括为如下两方面:(1)针对社交网络账号模拟问题,在提出基于Twitter平台的社交网络账...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
推特API问题实例针对上述问题,本文系统采用通过模拟浏览器的方式获取Twitter数据,及对
电子科技大学硕士学位论文14务分配到相应的任务队列中,然后各个执行节点中的Workers分别取任务执行。在本文设计实现的系统中,服务器端主要是对社交网络账号模拟子系统与网络媒体信息爬取子系统的后端实现。(1)账号模拟社交网络账号模拟是社交网络数据采集的前提,只有拥有大量状态正常的社交账号才能访问社交网站信息页面,解析目标页面元素。如果服务器端接收到了账号模拟的任务,则系统自动调用账号模拟的程序。具体内容及流程详见第三章。(2)信息采集信息采集的后端实现是在接收到客户端发送来的采集任务后,由系统任务通过分配策略自动将采集任务分发到各个采集队列中。其中,每一台采集计算机节点中监听一个任务队列,各个采集节点自动从对应的任务队列中取任务执行。数据采集的实现将于第四章进行详细说明。2.3.2客户端为了便于用户对于账号模拟及数据采集的控制,同时实时了解任务执行情况,本文系统设计实现了整体系统的客户端。客户端的功能设计覆盖了社交网络账号模拟子系统及网络媒体信息爬取子系统的任务启停控制及执行情况的显示等。客户端中的页面使用了Bootstrap[36,37]框架进行构建,Bootstrap是目前比较常见的前端框架之一,具有简洁灵活的特点,应用此框架能够让前端页面开发更加快捷。图2-7本文系统主界面本文系统中,客户端主要包括主页面、数据采集功能页面及账号模拟功能页面三个部分。其中,系统的主页面如图2-7所示,为系统启动后用户进行访问的首页。该页面主要用于实现用户对于“账号模拟”及“数据采集”具体功能的选择,用户可通过点击相应的图标进入具体的子系统控制页面。数据采集部分与第四章“网络媒体信息爬取子系统”相对应,系统用户通过输
榭龌虺鱿值母怕氏灾?嵘?!叭嘶?橹ぁ蔽?诘锹脊?讨校?缑娴?鼋换ゴ?口,必须按照页面指定的要求操作才能够访问Twitter系统页面。不难发现,如果一台设备短时间内登录大量Twitter账号,会被检测为疑似机器人账号。3.2.3行为异常Twitter中,用户可以向推特管理者举报其它账号为异常账号,如图3-1所示。推特管理者在审核举报信息后,会对违反推特规则的账号采取一系列的措施以限制其行为。推特规则禁止发布包括暴力、恐怖、性等内容的推文,一些研究通过对推文文本进行特征提取并运用机器学习等方法进行异常账号检测。图3-1Twitter异常举报示例
【参考文献】:
期刊论文
[1]基于微博API的分布式抓取技术[J]. 陈舜华,王晓彤,郝志峰,蔡瑞初,肖晓军,卢宇. 电信科学. 2013(08)
[2]基于Web的网络爬虫的设计与实现[J]. 徐远超,刘江华,刘丽珍,关永. 微计算机信息. 2007(21)
[3]聚焦爬虫技术研究综述[J]. 周立柱,林玲. 计算机应用. 2005(09)
[4]基于瓶颈分析的优先权调度算法研究[J]. 李黎,成晔,袁守华. 计算机集成制造系统. 2005(02)
[5]基于并行组合模拟退火的全局优化算法[J]. 孙小平,张双虎. 西安理工大学学报. 2004(04)
硕士论文
[1]社交机器人检测技术研究及实现[D]. 王雅晗.北京邮电大学 2019
[2]基于行为分析的社交网络异常账号的检测[D]. 刘琛.北京交通大学 2017
[3]基于网络爬虫的网站信息采集技术研究[D]. 孙骏雄.大连海事大学 2014
本文编号:3023286
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
推特API问题实例针对上述问题,本文系统采用通过模拟浏览器的方式获取Twitter数据,及对
电子科技大学硕士学位论文14务分配到相应的任务队列中,然后各个执行节点中的Workers分别取任务执行。在本文设计实现的系统中,服务器端主要是对社交网络账号模拟子系统与网络媒体信息爬取子系统的后端实现。(1)账号模拟社交网络账号模拟是社交网络数据采集的前提,只有拥有大量状态正常的社交账号才能访问社交网站信息页面,解析目标页面元素。如果服务器端接收到了账号模拟的任务,则系统自动调用账号模拟的程序。具体内容及流程详见第三章。(2)信息采集信息采集的后端实现是在接收到客户端发送来的采集任务后,由系统任务通过分配策略自动将采集任务分发到各个采集队列中。其中,每一台采集计算机节点中监听一个任务队列,各个采集节点自动从对应的任务队列中取任务执行。数据采集的实现将于第四章进行详细说明。2.3.2客户端为了便于用户对于账号模拟及数据采集的控制,同时实时了解任务执行情况,本文系统设计实现了整体系统的客户端。客户端的功能设计覆盖了社交网络账号模拟子系统及网络媒体信息爬取子系统的任务启停控制及执行情况的显示等。客户端中的页面使用了Bootstrap[36,37]框架进行构建,Bootstrap是目前比较常见的前端框架之一,具有简洁灵活的特点,应用此框架能够让前端页面开发更加快捷。图2-7本文系统主界面本文系统中,客户端主要包括主页面、数据采集功能页面及账号模拟功能页面三个部分。其中,系统的主页面如图2-7所示,为系统启动后用户进行访问的首页。该页面主要用于实现用户对于“账号模拟”及“数据采集”具体功能的选择,用户可通过点击相应的图标进入具体的子系统控制页面。数据采集部分与第四章“网络媒体信息爬取子系统”相对应,系统用户通过输
榭龌虺鱿值母怕氏灾?嵘?!叭嘶?橹ぁ蔽?诘锹脊?讨校?缑娴?鼋换ゴ?口,必须按照页面指定的要求操作才能够访问Twitter系统页面。不难发现,如果一台设备短时间内登录大量Twitter账号,会被检测为疑似机器人账号。3.2.3行为异常Twitter中,用户可以向推特管理者举报其它账号为异常账号,如图3-1所示。推特管理者在审核举报信息后,会对违反推特规则的账号采取一系列的措施以限制其行为。推特规则禁止发布包括暴力、恐怖、性等内容的推文,一些研究通过对推文文本进行特征提取并运用机器学习等方法进行异常账号检测。图3-1Twitter异常举报示例
【参考文献】:
期刊论文
[1]基于微博API的分布式抓取技术[J]. 陈舜华,王晓彤,郝志峰,蔡瑞初,肖晓军,卢宇. 电信科学. 2013(08)
[2]基于Web的网络爬虫的设计与实现[J]. 徐远超,刘江华,刘丽珍,关永. 微计算机信息. 2007(21)
[3]聚焦爬虫技术研究综述[J]. 周立柱,林玲. 计算机应用. 2005(09)
[4]基于瓶颈分析的优先权调度算法研究[J]. 李黎,成晔,袁守华. 计算机集成制造系统. 2005(02)
[5]基于并行组合模拟退火的全局优化算法[J]. 孙小平,张双虎. 西安理工大学学报. 2004(04)
硕士论文
[1]社交机器人检测技术研究及实现[D]. 王雅晗.北京邮电大学 2019
[2]基于行为分析的社交网络异常账号的检测[D]. 刘琛.北京交通大学 2017
[3]基于网络爬虫的网站信息采集技术研究[D]. 孙骏雄.大连海事大学 2014
本文编号:3023286
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3023286.html
最近更新
教材专著