高并发异构数据预处理系统的设计与实现
本文选题:大数据 切入点:异构数据 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文
【摘要】:如今是一个数据的时代,随着大数据技术的发展,越来越多的行业需要使用这些新技术重新挖掘曾经积累的数据的价值,使其发挥出更大的作用,更好的为用户和企业服务。而这些数据大都是不完整、不一致的脏数据,无法直接进行数据挖掘,或者挖掘结果差强人意,故需要对数据进行预处理。本人有幸参与了某专利检索分析平台项目的开发,负责该平台中的底层异构数据预处理系统的设计与实现工作。本文从系统的项目背景及意义、国内外发展现状、系统需求分析、系统技术架构、系统功能结构、数据详细设计、系统详细设计与实现以及测试等方面对本系统进行了详细阐述。本系统为该平台提供专利数据预处理与存储服务。由于专利数据具有文件数量巨大且散碎、数据格式多样、数据语言多样、数据来源不一致等特点,而且需要在短时间内将专利数据加载入库,故而本文设计了索引数据的概念,将专利数据进行了封装,并基于Quartz框架设计并实现了多任务并行方式加载专利数据入库的功能,同时采用了五种不同的数据库满足数据存储功能。这五种数据库分别为检索数据库Hybase存储需要检索的数据;NoSq1数据库MongoDB存储供前台展示的半结构化数据;分布式文件系统存储海量的非结构化数据;缓存数据库Redis存储需要缓存的业务数据;关系型数据库MySQL存储数据流转过程中的控制、运维数据。并且这五种数据库均采用分布式方式进行部署,同时采用主从、双机热备、ZooKeeper等方式保证数据库的高可用性。本系统共有五个模块,分别是数据加载与更新模块、数据质检模块、数据修复模块、数据监控模块以及任务编排工具模块。其中数据加载与更新模块是重中之重,在加载数据入库时,将一个索引数据文件作为一个批次,采用批次的方式对数据进行分批加载入库;同时利用索引数据文件对专利数据文件的封装,从而可以使用多任务并行方式处理数据入库;并且将数据加载入库分为多个阶段进行,每个阶段都可以对数据进行校验、回滚。数据质检模块和数据监控模块协同工作,可以及时发现错误数据。数据修复模块负责对数据进行修复。任务编排工具模块负责自动拷贝索引数据文件。本系统已经交付使用并如期上线,而且已将积累的专利数据全部加载入库,提供用户使用。目前系统运行情况良好,同时为了提高该产品的竞争力,公司也在积极推广,相信会有更多的用户使用本产品。
[Abstract]:Today is an era of data. With the development of big data's technology, more and more industries need to use these new technologies to rediscover the value of the accumulated data and make it play a greater role. Better service for users and enterprises. And most of this data is incomplete, inconsistent, dirty data, can not be directly data mining, or the results of mining poor, Therefore, it is necessary to preprocess the data. I am fortunate to participate in the development of a patent retrieval and analysis platform project, responsible for the design and implementation of the underlying heterogeneous data preprocessing system in the platform. Development status at home and abroad, system demand analysis, system technical architecture, system function structure, data design, The detailed design and implementation of the system and the testing of the system are described in detail. The system provides the patent data preprocessing and storage services for the platform. Because of the large number of patent data and scattered files, the data format is diverse. It is necessary to load patent data into database in a short time, so the concept of index data is designed and the patent data is encapsulated. And based on the Quartz framework, the function of loading patent data into database in multi-task parallel mode is designed and implemented. At the same time, five different databases are used to satisfy the function of data storage. The five databases are used to store the data needed to be retrieved by the retrieval database Hybase / NoSq1 database MongoDB to store the semi-structured data displayed by the front desk. Distributed file system stores massive unstructured data; cache database Redis stores business data that needs to be cached; relational database MySQL stores data flow control in the process, Operation and maintenance of data. And these five databases are distributed deployment, while using master and slave, dual-computer hot standby ZooKeeper and other ways to ensure the high availability of the database. This system has five modules, data loading and updating module, Data quality check module, data repair module, data monitoring module and task orchestration tool module. The data loading and updating module is the most important. When loading data into the database, an index data file is regarded as a batch. The batch data is loaded into the database in batches, and the patent data file is encapsulated by the index data file, so that the multi-task parallel processing can be used to process the data into the database. And the data loading into the database is divided into several stages, each stage can check the data, roll back, data quality check module and data monitoring module work together, The data repair module is responsible for repairing the data. The task arrangement tool module is responsible for automatically copying the index data file. The system has been put into use and started on schedule. At present, the system is running well, and in order to improve the competitiveness of the product, the company is also actively promoting, I believe more users will use this product.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13
【相似文献】
相关期刊论文 前10条
1 赵琳;黄玉文;;异构数据交换的理论研究[J];科技信息;2010年21期
2 张琦,吴敏,黎干;基于XML Web Service的分布式异构数据透明转换机制[J];电脑与信息技术;2004年04期
3 刘扬,赵文吉,宫辉力;关于异构数据连接的研究[J];首都师范大学学报(自然科学版);2005年01期
4 邹晓玉;;一种异构数据的解决方案[J];台声.新视角;2006年01期
5 尹国标;楼勇亮;;异构数据如何“手拉手”[J];信息系统工程;2008年01期
6 刁兴春;严浩;丁鲲;;异构数据转换关键技术的实现[J];计算机工程;2008年17期
7 梁艳;胡先智;;异构数据转换系统设计与实现[J];信息与电脑(理论版);2011年08期
8 詹国华;何炎雯;李志华;;智能健康管理多源异构数据融合体系与方法[J];计算机应用与软件;2012年09期
9 唐钰;陈浩;叶柏龙;;基于逆向清理的实时异构数据整合模型研究[J];计算机工程;2012年23期
10 梁合功;;异构数据迁移系统设计与实现[J];科技致富向导;2013年23期
相关会议论文 前6条
1 姚燕;李湘;郭萍;郑波;;基于中间件的异构数据检索服务[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
2 伍尚杰;陈立定;曾明;;基于XML异构数据的组态软件[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
3 李刚;高春阳;崔明;;高校异构数据整合平台建设研究[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
4 江涛;刘东波;刘巍;;基于XML的异构数据集成中间件研究[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
5 周翔;翁剑成;荣建;;基于MDA的异构交通数据管理平台的研究与开发[A];2007第三届中国智能交通年会论文集[C];2007年
6 陈亚洲;齐从谦;甘屹;;基于Web的CAM异构数据转换和传输的研究[A];制造业与未来中国——2002年中国机械工程学会年会论文集[C];2002年
相关重要报纸文章 前2条
1 汪蔚;跨平台异构数据对接是选型根本[N];中国计算机报;2004年
2 西岸;Network Appliance发布新异构数据保护方案[N];通信产业报;2003年
相关博士学位论文 前4条
1 吴红星;面向多业态集团企业多源异构数据的协同系统集成方法研究[D];合肥工业大学;2015年
2 欧明栋;面向大规模异构数据的哈希表征学习研究[D];清华大学;2016年
3 于宝琴;成套电器企业异构数据整合及其物流系统的研究[D];天津大学;2006年
4 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
相关硕士学位论文 前10条
1 高姣姣;MUSER异构数据采集及融合技术研究[D];昆明理工大学;2015年
2 高湛;基于混支持度和粗糙集的异构数据融合研究[D];燕山大学;2015年
3 郑文明;基于XML的异构数据交换在汽车零部件产业价值链协同云服务平台的研究与应用[D];西南交通大学;2015年
4 陈毅飞;基于多源异构数据的杨凌水肥信息管理系统研究[D];西北农林科技大学;2015年
5 荆志;海量异构数据定制平台的设计与实现[D];河北师范大学;2013年
6 朱峰;基于JSON的互联网异构数据整合的应用研究[D];南京邮电大学;2016年
7 李瀚晨;基于“用户—景点”关系建模的景点推荐技术的研究[D];北京工业大学;2016年
8 徐凯;智慧高速海量异构数据处理关键技术研究[D];重庆交通大学;2016年
9 徐若涛;舰船维护中异构数据融合系统的设计与实现[D];华中科技大学;2016年
10 孙靖怡;基于异构数据的复杂关联比对方法的研究与应用[D];沈阳理工大学;2008年
,本文编号:1637466
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1637466.html