基于大规模数据的企业地址识别系统
【学位单位】:厦门大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:F272;TP311.13
【部分图文】:
图2.1邋Scrapy架构流程图逡逑7.邋Downloader邋Middlewares:用来扩展下载功能;逡逑整体流程如图2.1所示,图片中绿色的箭头就是数据流向。从起始访问的URL逡逑开始,Scheduler会把URL通过engine传递给Downloader,并完成下载,1、载完逡逑之后的结果会返回给Spider进行分析。如果需要进_-步抓取链接,比如存在链接逡逑信息的“下一页”等,会将其回传到Scheduler。否则就将其保存起来,送到Item逡逑Pipeline组件,对数据根据业务需求进行分析、计算、储存等处理。逡逑2.2.2邋日志收集系统Flume邋NG逡逑Flume邋NG是Cloudera开发的lmdoop生态组件之一,是一个工具/服务/数据逡逑采集机制,用于收集汇总并将大W流数据从各种来源汇总并传输到集中式数据存储逡逑区。从网络服务器收集日志文件中存在的日志数据并将其聚合在Kafka中进行分逡逑析,这是F]ume的一个常见使用案例。逡逑-11邋-逡逑
Flume作为日志收集系统,集高度可靠,分布式、可配置于一身。它主要用于将逡逑来自各种流数据(日志数据)传输到Spark、Kafka等系统,并可以将数据存储到多逡逑种集中式存储中。Flume的基本体系结构如图2.2所示。Flume内部的传输数据基本逡逑单位是事件Event。它主要数据结构为一个字节数组。该字节数组将从源头传输到目逡逑标,并附带可选标题。一个完整的Event由headers、body、event三部分组成[23]。逡逑Ageirt是Flume中的独立守护进程。它从客户端或其他代理接收数据(事件)逡逑并将其转发到其下一个目标(接收器或代理)。Flume邋Agent包含三个主要组件,即逡逑源、通道和接收器。Source是数据来源组件,它负责从数据源头接受信息流,发送逡逑到数据通道进行后续数据传输。Apache邋Flume对多种数据源都友好支持,不同的逡逑数据源有不同的指定数据生成器事件。Chanel是一个类似于消息服务器,是一个缓逡逑存组件。它是源和汇之间的传输通道,可以是文件系统,也可以是内存或者.]DBC逡逑等通道。Sink则是将数据存储到Kafka、HDFS等集中式存储中。它消费来自通道逡逑的数据(事件)并将其传送到目的地。逡逑2.2.3消息队列Kafka逡逑大数据时代的到来也伴随着两个主要挑战。第一个挑战是如何收集大量数据,逡逑I逡逑I逦-邋12-
图2.3邋Kafka
【参考文献】
相关期刊论文 前10条
1 庄海东;张鸿恩;;基于规则的中文地址匹配系统[J];福建电脑;2013年09期
2 黄聪;李格人;罗楚;;大数据时代下爬虫技术的兴起[J];计算机光盘软件与应用;2013年17期
3 李文杰;周剑华;;分布式应用层中间件的设计[J];微型机与应用;2011年05期
4 麦范金;李东普;岳晓光;;基于双向匹配法和特征选择算法的中文分词技术研究[J];昆明理工大学学报(自然科学版);2011年01期
5 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
6 郭会;宋关福;马柳青;王少华;;地理编码系统设计与实现[J];计算机工程;2009年01期
7 胡青;徐建华;王志海;;GIS数据库中地址自动匹配方法研究[J];测绘与空间地理信息;2008年06期
8 丁振国;张卓;黎靖;;基于Hash结构的逆向最大匹配分词算法的改进[J];计算机工程与设计;2008年12期
9 张素智;刘放美;;基于矩阵约束法的中文分词研究[J];计算机工程;2007年15期
10 章意锋;吴健平;程怡;曾春润;;ArcGIS中地理编码方法的改进[J];测绘与空间地理信息;2007年03期
相关会议论文 前1条
1 张铁燕;翁敬农;黄坚;;城市地理编码方法的探索与实践[A];中国地理信息系统协会第九届年会论文集[C];2005年
相关硕士学位论文 前3条
1 盛雅东;基于Google Map的地理位置查询系统[D];北京邮电大学;2012年
2 谭侃侃;基于规则的中文地址分词与匹配方法[D];山东科技大学;2011年
3 于滨;面向经济普查项目需求的模糊中文地址匹配方法研究[D];中南大学;2010年
本文编号:2816568
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/2816568.html