当前位置:主页 > 经济论文 > 企业经济论文 >

基于大规模数据的企业地址识别系统

发布时间:2020-09-11 10:38
   改革开放以来,中国大力发展经济,加上近年的商事制度改革,国内中小企业的创业成本大大降低。之前企业注册、变更需要在国家工商总办处理,现在简化为在企业所在的相关行政单位即可办理。2017年的一季度全国的企业登记数量为125.5万户,平均日登记数为1.4万户。在同年3月底,全国各类注册企业达到8935.7万户。面对增涨如此迅猛的企业数量,其合法性和规范性却难以得到保障,需要相关部门实时进行监管。工商局等相关部门持有大量的企业注册信息,其中企业地址是最关键的信息之一。通过对比企业工商注册地址是否为日常真实运营地址,是最有效的方案之一。地址是与人们日常生活息息相关的一种地理位置信息描述,但是由于历史、区域、风俗等因素,很多地址信息无法进行直接的对比处理。通过地址匹配技术能有效的完成地址信息描述和对比。本文详细描述分库分表、大数据处理、自然语言处理技术,并对中文地址特征进行归纳分析。根据已有公司名称,通过大数据爬虫从网络上获取公司可能运营地址,并与原有工商注册地址通过分库分表存入数据存储保存。面对千万级的企业信息,通过Flume、Kafka、Spark Streaming搭建的大数据实时流计算系统,对原有地址和爬虫地址做一个匹配处理。匹配模块由基于词典匹配的行政区划,和基于NPL词向量匹配的非行政区划两部分组成。整个系统搭建对各个功能模块进行解耦,便于系统迭代和管理。并最终通过在企业黄页网站爬取的大量企业信息作为数据集,进行系统稳定性、高效性、匹配准确性的实验,并给出结果分析。
【学位单位】:厦门大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:F272;TP311.13
【部分图文】:

功能图,下载,架构,流程图


图2.1邋Scrapy架构流程图逡逑7.邋Downloader邋Middlewares:用来扩展下载功能;逡逑整体流程如图2.1所示,图片中绿色的箭头就是数据流向。从起始访问的URL逡逑开始,Scheduler会把URL通过engine传递给Downloader,并完成下载,1、载完逡逑之后的结果会返回给Spider进行分析。如果需要进_-步抓取链接,比如存在链接逡逑信息的“下一页”等,会将其回传到Scheduler。否则就将其保存起来,送到Item逡逑Pipeline组件,对数据根据业务需求进行分析、计算、储存等处理。逡逑2.2.2邋日志收集系统Flume邋NG逡逑Flume邋NG是Cloudera开发的lmdoop生态组件之一,是一个工具/服务/数据逡逑采集机制,用于收集汇总并将大W流数据从各种来源汇总并传输到集中式数据存储逡逑区。从网络服务器收集日志文件中存在的日志数据并将其聚合在Kafka中进行分逡逑析,这是F]ume的一个常见使用案例。逡逑-11邋-逡逑

收集系统,日志,可配置,结构图


Flume作为日志收集系统,集高度可靠,分布式、可配置于一身。它主要用于将逡逑来自各种流数据(日志数据)传输到Spark、Kafka等系统,并可以将数据存储到多逡逑种集中式存储中。Flume的基本体系结构如图2.2所示。Flume内部的传输数据基本逡逑单位是事件Event。它主要数据结构为一个字节数组。该字节数组将从源头传输到目逡逑标,并附带可选标题。一个完整的Event由headers、body、event三部分组成[23]。逡逑Ageirt是Flume中的独立守护进程。它从客户端或其他代理接收数据(事件)逡逑并将其转发到其下一个目标(接收器或代理)。Flume邋Agent包含三个主要组件,即逡逑源、通道和接收器。Source是数据来源组件,它负责从数据源头接受信息流,发送逡逑到数据通道进行后续数据传输。Apache邋Flume对多种数据源都友好支持,不同的逡逑数据源有不同的指定数据生成器事件。Chanel是一个类似于消息服务器,是一个缓逡逑存组件。它是源和汇之间的传输通道,可以是文件系统,也可以是内存或者.]DBC逡逑等通道。Sink则是将数据存储到Kafka、HDFS等集中式存储中。它消费来自通道逡逑的数据(事件)并将其传送到目的地。逡逑2.2.3消息队列Kafka逡逑大数据时代的到来也伴随着两个主要挑战。第一个挑战是如何收集大量数据,逡逑I逡逑I逦-邋12-

基于大规模数据的企业地址识别系统


图2.3邋Kafka

【参考文献】

相关期刊论文 前10条

1 庄海东;张鸿恩;;基于规则的中文地址匹配系统[J];福建电脑;2013年09期

2 黄聪;李格人;罗楚;;大数据时代下爬虫技术的兴起[J];计算机光盘软件与应用;2013年17期

3 李文杰;周剑华;;分布式应用层中间件的设计[J];微型机与应用;2011年05期

4 麦范金;李东普;岳晓光;;基于双向匹配法和特征选择算法的中文分词技术研究[J];昆明理工大学学报(自然科学版);2011年01期

5 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期

6 郭会;宋关福;马柳青;王少华;;地理编码系统设计与实现[J];计算机工程;2009年01期

7 胡青;徐建华;王志海;;GIS数据库中地址自动匹配方法研究[J];测绘与空间地理信息;2008年06期

8 丁振国;张卓;黎靖;;基于Hash结构的逆向最大匹配分词算法的改进[J];计算机工程与设计;2008年12期

9 张素智;刘放美;;基于矩阵约束法的中文分词研究[J];计算机工程;2007年15期

10 章意锋;吴健平;程怡;曾春润;;ArcGIS中地理编码方法的改进[J];测绘与空间地理信息;2007年03期

相关会议论文 前1条

1 张铁燕;翁敬农;黄坚;;城市地理编码方法的探索与实践[A];中国地理信息系统协会第九届年会论文集[C];2005年

相关硕士学位论文 前3条

1 盛雅东;基于Google Map的地理位置查询系统[D];北京邮电大学;2012年

2 谭侃侃;基于规则的中文地址分词与匹配方法[D];山东科技大学;2011年

3 于滨;面向经济普查项目需求的模糊中文地址匹配方法研究[D];中南大学;2010年



本文编号:2816568

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/xmjj/2816568.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d6558***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com