当前位置:主页 > 管理论文 > 移动网络论文 >

基于Spark的社交网络数据分析平台

发布时间:2021-06-12 04:06
  随着当今互联网技术与大数据技术的日新月异发展和应用,人们更愿意把日常生活搬到网络上来,人们之间的沟通交流也更多的依赖互联网。微博、推特等社交应用不断涌现并成为当今人们生活中不可缺失的一部分。人与人之间通过社交应用作为媒介来进行交流,从而产生社交网络,社交网络在一定程度上使得移动互联网的应用领域越来越广泛。当今互联网行业飞速发展,社交网络中的万千用户随时随地都会产生大量的用户数据,海量的用户数据经过一定处理和挖掘之后会在社会生活的方方面面有深远意义。互联网技术的发展为社交网络和大数据的发展奠定了基础,海量数据的背后,隐藏着巨大的商业价值。由于社交网络与人们的社交生活息息相关,且客观地反映了人们社交圈子的状态和特征,因此分析和挖掘社交网络有一定的现实意义。本文基于某个流行的社交网络设计并实现了一套包括数据获取、数据存储、数据计算与分析和数据可视化功能的数据分析平台。本文提出的数据分析平台按照功能可以大体分为四个部分:数据爬取,使用分布式架构实现了高效爬取社交网络数据的爬虫系统,该功能为平台上层的数据计算与分析模块提供了可用的数据基础;数据存储,能够为使用者管理其创建的数据集,数据集可包含本... 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

基于Spark的社交网络数据分析平台


图2-1系统用例图??

流程图,自动登录,流程图,账号


通过Appium以及Fiddler工具的结合使用可以实现多个账号的自动登录并??保存Cookie信息的功能,可以通过自动化的脚本来产生一个Cookie池,以供??分布式的爬取程序进行调度。图3-1描述了整个自动化登录功能的实现流程,??部分Fiddler?Script核心代码和自动化脚本核心代码如卜^所不。??static?function?OnBeforeRequest(oSession:?Session)?{??if?(isNeedCapture(oSession.fullUrl))??{??var?fs_obj,?file;??fs?一?obj?=?new?ActiveXObject(nScripting.FileSystemObject");??//文件保存路径,可自定义??file?=?fs_obj.OpenTextFile(nD:\\Sessions’',true);??file.writeLine("?Authorization:"?+?oSession.oRequest["AuthorizationM]);??file.close();??}//end?if??//拒绝注销Authorization的请求??if(oSession.fullUrl.Contains("auth?http_method_override=DELETEM)){??oSession.Request.FailSession(404,?"Rejected",?"can?not?login?out!");??j?????Appium?自动登录? ̄?,??账号、密码?????■:?服务器??安卓AP

过程数据


去重策略对千万级的数据量支持较好,框架支持利用布隆迪过滤器(海量集合??数据的单机过滤方案)来进行去重。同时,Scrapy框架提供的parse解析函??数处理流程肯定是绝大部分爬虫作业的固有模式,可以通过编写写Middleware??来实现下载中间件,甚至有很多现成的中间件己经满足大部分的个性化爬取需??求。??Scrapy框架主要包含引擎、调度器、下载器、爬虫、项目管道以及中间件??等组件,其中引擎用来管理整个数据流的处理以及其他各个组件之间的协调和??数据通信。调度器负责接受引擎发过来的爬取请求,将其加入到自己维护的队??列中,当引擎调度待爬取的请求时调度器根据优先级返回队列中的元素,调度??器主要维护请求队列,根据调度策略返回当前需要被处理的请求,同时负责去??除重复的网址。下载器负责下载URL对应的资源,然后将下载到的响应数据发??送给引擎。爬虫组件负责完成具体的爬取逻辑,规定如何提取出下一个连接和??需要的数据信息。图3-2描绘了?Scrapy框架各个组件之间的调度。??

【参考文献】:
期刊论文
[1]浅析Bloom Filter[J]. 任红云.  科技资讯. 2013(10)
[2]微博社交网络社区发现方法研究[J]. 范超然,黄曙光,李永成.  微型机与应用. 2012(23)
[3]Flex技术与Django开发框架的整合研究[J]. 高峰,杨连贺.  计算机与数字工程. 2010(01)

硕士论文
[1]基于ZooKeeper的分布式同步框架设计与实现[D]. 黄毅斐.浙江大学 2012



本文编号:3225917

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3225917.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4f9c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com