基于大规模数据的企业地址识别系统

发布时间：2020-09-11 10:38

　　改革开放以来,中国大力发展经济,加上近年的商事制度改革,国内中小企业的创业成本大大降低。之前企业注册、变更需要在国家工商总办处理,现在简化为在企业所在的相关行政单位即可办理。2017年的一季度全国的企业登记数量为125.5万户,平均日登记数为1.4万户。在同年3月底,全国各类注册企业达到8935.7万户。面对增涨如此迅猛的企业数量,其合法性和规范性却难以得到保障,需要相关部门实时进行监管。工商局等相关部门持有大量的企业注册信息,其中企业地址是最关键的信息之一。通过对比企业工商注册地址是否为日常真实运营地址,是最有效的方案之一。地址是与人们日常生活息息相关的一种地理位置信息描述,但是由于历史、区域、风俗等因素,很多地址信息无法进行直接的对比处理。通过地址匹配技术能有效的完成地址信息描述和对比。本文详细描述分库分表、大数据处理、自然语言处理技术,并对中文地址特征进行归纳分析。根据已有公司名称,通过大数据爬虫从网络上获取公司可能运营地址,并与原有工商注册地址通过分库分表存入数据存储保存。面对千万级的企业信息,通过Flume、Kafka、Spark Streaming搭建的大数据实时流计算系统,对原有地址和爬虫地址做一个匹配处理。匹配模块由基于词典匹配的行政区划,和基于NPL词向量匹配的非行政区划两部分组成。整个系统搭建对各个功能模块进行解耦,便于系统迭代和管理。并最终通过在企业黄页网站爬取的大量企业信息作为数据集,进行系统稳定性、高效性、匹配准确性的实验,并给出结果分析。
【学位单位】：厦门大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：F272;TP311.13
【部分图文】：

功能图,下载,架构,流程图

图２．１邋Ｓｃｒａｐｙ架构流程图逡逑７．邋Ｄｏｗｎｌｏａｄｅｒ邋Ｍｉｄｄｌｅｗａｒｅｓ：用来扩展下载功能；逡逑整体流程如图２．１所示，图片中绿色的箭头就是数据流向。从起始访问的ＵＲＬ逡逑开始，Ｓｃｈｅｄｕｌｅｒ会把ＵＲＬ通过ｅｎｇｉｎｅ传递给Ｄｏｗｎｌｏａｄｅｒ，并完成下载，１、载完逡逑之后的结果会返回给Ｓｐｉｄｅｒ进行分析。如果需要进＿－步抓取链接，比如存在链接逡逑信息的“下一页”等，会将其回传到Ｓｃｈｅｄｕｌｅｒ。否则就将其保存起来，送到Ｉｔｅｍ逡逑Ｐｉｐｅｌｉｎｅ组件，对数据根据业务需求进行分析、计算、储存等处理。逡逑２．２．２邋日志收集系统Ｆｌｕｍｅ邋ＮＧ逡逑Ｆｌｕｍｅ邋ＮＧ是Ｃｌｏｕｄｅｒａ开发的ｌｍｄｏｏｐ生态组件之一，是一个工具／服务／数据逡逑采集机制，用于收集汇总并将大Ｗ流数据从各种来源汇总并传输到集中式数据存储逡逑区。从网络服务器收集日志文件中存在的日志数据并将其聚合在Ｋａｆｋａ中进行分逡逑析，这是Ｆ］ｕｍｅ的一个常见使用案例。逡逑－１１邋－逡逑

收集系统,日志,可配置,结构图

Ｆｌｕｍｅ作为日志收集系统，集高度可靠，分布式、可配置于一身。它主要用于将逡逑来自各种流数据（日志数据）传输到Ｓｐａｒｋ、Ｋａｆｋａ等系统，并可以将数据存储到多逡逑种集中式存储中。Ｆｌｕｍｅ的基本体系结构如图２．２所示。Ｆｌｕｍｅ内部的传输数据基本逡逑单位是事件Ｅｖｅｎｔ。它主要数据结构为一个字节数组。该字节数组将从源头传输到目逡逑标，并附带可选标题。一个完整的Ｅｖｅｎｔ由ｈｅａｄｅｒｓ、ｂｏｄｙ、ｅｖｅｎｔ三部分组成［２３］。逡逑Ａｇｅｉｒｔ是Ｆｌｕｍｅ中的独立守护进程。它从客户端或其他代理接收数据（事件）逡逑并将其转发到其下一个目标（接收器或代理）。Ｆｌｕｍｅ邋Ａｇｅｎｔ包含三个主要组件，即逡逑源、通道和接收器。Ｓｏｕｒｃｅ是数据来源组件，它负责从数据源头接受信息流，发送逡逑到数据通道进行后续数据传输。Ａｐａｃｈｅ邋Ｆｌｕｍｅ对多种数据源都友好支持，不同的逡逑数据源有不同的指定数据生成器事件。Ｃｈａｎｅｌ是一个类似于消息服务器，是一个缓逡逑存组件。它是源和汇之间的传输通道，可以是文件系统，也可以是内存或者．］ＤＢＣ逡逑等通道。Ｓｉｎｋ则是将数据存储到Ｋａｆｋａ、ＨＤＦＳ等集中式存储中。它消费来自通道逡逑的数据（事件）并将其传送到目的地。逡逑２．２．３消息队列Ｋａｆｋａ逡逑大数据时代的到来也伴随着两个主要挑战。第一个挑战是如何收集大量数据，逡逑Ｉ逡逑Ｉ逦－邋１２－

基于大规模数据的企业地址识别系统

图２．３邋Ｋａｆｋａ

【参考文献】