基于HADOOP集群的数据采集和清洗
本文关键词: 海量数据 Hadoop hive 数据采集 数据清洗 出处:《软件工程》2016年11期 论文类型:期刊论文
【摘要】:互联网的到来,使计算机行业蓬勃发展,各公司的业务数据也都到达P级别的数据量。本文结合Hadoop框架的中Hive和Hbase,对各个模块进行了详细的描述,重点分析了集群搭建步骤,及如何对集群的数据进行采集和清洗,并通过建立表来存储分析结果。
[Abstract]:With the advent of the Internet, the computer industry is booming, and the business data of all companies have reached P-level data. This paper describes each module in detail with the combination of Hive and Hbase in the Hadoop framework, and analyzes the steps of building the cluster. And how to collect and clean the data of the cluster and store the analysis results by building tables.
【作者单位】: 71320部队;河南工程学院计算机学院;
【分类号】:TP311.13;TP274.2
【参考文献】
相关期刊论文 前3条
1 熊伟;李兵;陈军;周华昱;;一种基于预测控制的SaaS系统自适应方法[J];计算机学报;2016年02期
2 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
3 郑启龙;房明;汪胜;王向前;吴晓伟;王昊;;基于MapReduce模型的并行科学计算[J];微电子学与计算机;2009年08期
相关硕士学位论文 前1条
1 曾金梁;分布式日志分析系统的设计与实现[D];北京邮电大学;2014年
【共引文献】
相关期刊论文 前10条
1 刘晨;焦合军;;基于HADOOP集群的数据采集和清洗[J];软件工程;2016年11期
2 邵天会;;基于云平台MapReduce的Apriori算法研究[J];电子技术与软件工程;2016年20期
3 王玉平;郝杨杨;黄有方;;基于MapReduce的CLOPE并行聚类算法[J];广西大学学报(自然科学版);2016年05期
4 胡锐;;基于Hadoop的高校档案管理存储系统研究[J];无线互联科技;2016年18期
5 许丽卿;;基于数据挖掘的高校教学质量评估系统研究[J];信息技术与信息化;2016年08期
6 金鑫;刘彬彬;;基于MapReduce的位置服务优化应用[J];信息化研究;2016年04期
7 于金良;朱志祥;梁小江;;一种基于Sqoop的数据交换系统[J];物联网技术;2016年03期
8 刘斌;闫佳;陈兴;;浅谈大数据下的Hadoop分布式架构[J];电脑知识与技术;2016年01期
9 齐火箭;徐海宾;王嘉宏;杨红欣;;基于宽带电力线通信的大数据分析在用电领域的应用[J];电气应用;2015年21期
10 李素若;;基于MapReduce分布式连接算法优化技术研究[J];铜陵学院学报;2015年05期
相关硕士学位论文 前1条
1 阮厦城;分布式环境下通用日志系统的设计与实现[D];哈尔滨工业大学;2015年
【二级参考文献】
相关期刊论文 前2条
1 程苗;陈华平;;基于Hadoop的Web日志挖掘[J];计算机工程;2011年11期
2 郑启龙;王昊;吴晓伟;房明;;HPMR:多核集群上的高性能计算支撑平台[J];微电子学与计算机;2008年09期
相关硕士学位论文 前1条
1 张少杰;数据业务运营支撑系统(DBOSS)的设计与实现[D];北京邮电大学;2006年
【相似文献】
相关期刊论文 前10条
1 ;《数据采集与处理》已成立第五届编委会[J];数据采集与处理;2000年03期
2 ;数据采集与处理2005年(第20卷1一4期)总目次[J];数据采集与处理;2005年04期
3 ;降低数据采集的成本[J];电子测量技术;2005年01期
4 谷波;;数据采集积极性不高[J];施工企业管理;2012年04期
5 ;致谢[J];数据采集与处理;2012年06期
6 ;数据采集与处理2012年(第27卷1~6期)总目次[J];数据采集与处理;2012年06期
7 王丽;;通信计费数据采集网络的模式探讨[J];科技传播;2013年09期
8 ;《数据采集与处理》1987年总目录[J];数据采集与处理;1987年03期
9 ;《数据采集与处理》1988年总目录[J];数据采集与处理;1988年03期
10 ;1995年《中国电子科技文摘》收录1994年《数据采集与处理》文摘情况[J];数据采集与处理;1996年02期
相关会议论文 前10条
1 陈福;周树杰;林小竹;杨跃翔;;应用嵌入式系统进行数据采集的研究[A];2004全国测控、计量与仪器仪表学术年会论文集(下册)[C];2004年
2 王艳萍;李道武;章志明;李可;陈亚微;高俊雄;单保慈;魏龙;;用于小动物PET的数据采集和符合系统[A];第九届全国正电子谱学会议论文集[C];2005年
3 陈青;;侦听模式在数据采集中的应用[A];中国计量协会冶金分会2007年会论文集[C];2007年
4 蔡尹楚;王立校;;多种新型数据采集方式在化工企业能源数据采集中的组合应用[A];中国计量协会冶金分会2014年会暨能源计量与绿色冶金论坛论文集[C];2014年
5 周威;陈五一;;切削数据采集研究[A];大型飞机关键技术高层论坛暨中国航空学会2007年学术年会论文集[C];2007年
6 王磊;马婉丽;姚成虎;;U盘功能在数据采集仪器中的应用和设计[A];第二届全国信息获取与处理学术会议论文集[C];2004年
7 王泽保;;智能化数据采集记录仪[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年
8 迟晓珠;王劲松;;三维加速度数据采集及通讯系统[A];2000全国力学量传感器及测试、计量学术交流会论文集[C];2000年
9 孙嘉兴;刘艳侠;;数据采集中微弱信号处理[A];中国仪器仪表学会第三届青年学术会议论文集(下)[C];2001年
10 华泽玺;王长林;肖鹏;;改善传统通信模式提高数据采集的实时性[A];四川省通信学会2004年通信技术论文集(一)[C];2004年
相关重要报纸文章 前10条
1 浙江省杭州市桐庐县烟草专卖局(分公司) 张韬;客户经理数据采集“小贴士”[N];东方烟草报;2011年
2 佟伟;做好数据采集 强化税收征管[N];长白山日报;2005年
3 葛学忠;我州旅游数据采集任务如期完成[N];民族日报;2008年
4 记者 温跃邋朱锋 通讯员 姜春;人行威海中心支行创新贷款数据采集流程见实效[N];金融时报;2008年
5 刘亚迅 特约记者 方立华;数据采集表评判训练短长[N];解放军报;2010年
6 胡涛;源头数据采集单轨运行[N];中国石化报;2010年
7 王显锋;兰西国税局力争数据采集“开门红”[N];黑龙江经济报;2005年
8 孙红伟 特约记者 程永亮;34个数据采集组嵌入演练场[N];解放军报;2012年
9 张黎明 马敬辉;让胡路国税局做好动态数据采集准备工作[N];黑龙江经济报;2005年
10 张黎明 马敬辉;让胡路国税局动态数据采集进展顺利[N];黑龙江经济报;2005年
相关博士学位论文 前6条
1 邵苏杰;面向智能配用电网数据懫集的流量调度机制[D];北京邮电大学;2015年
2 马英杰;基于3GS的核勘查数据采集及处理系统研究[D];成都理工大学;2010年
3 齐林;面向可追溯的物联网数据采集与建模方法研究[D];中国农业大学;2014年
4 刘传波;列车纵向冲动的机理研究及检测仪器的开发[D];武汉理工大学;2009年
5 牛田野;特殊等离子体环境物理信息获取与处理的研究[D];中国科学技术大学;2008年
6 李忠龙;基于现有传感器的桥梁无线检测技术的研究[D];哈尔滨工业大学;2008年
相关硕士学位论文 前10条
1 胡延凯;公共建筑能耗数据懫集与信息处理一体化集成技术研究[D];山东建筑大学;2015年
2 张丽萍;雷电三维电场数据采集与分析[D];南京信息工程大学;2015年
3 张元;物流运输跟踪数据采集与可视化监控的研究与实现[D];西南交通大学;2015年
4 吴涛;基于宽带卫星的海洋海事信息数据懫集装置研发[D];集美大学;2015年
5 梁佩;实时数据采集系统方案设计与实现[D];西南交通大学;2015年
6 李晓红;基于SOA架构的中职教育数据采集与KPI决策支持系统的构建[D];复旦大学;2013年
7 徐硕硕;基于LabVIEW的燃气能源瞬态数据采集与处理[D];北华航天工业学院;2015年
8 隋玉涛;惠民县民生信息数据采集与分析系统的设计与实现[D];山东大学;2015年
9 李彬雅;基于智能手机的泊车位判寻系统设计[D];福建师范大学;2015年
10 王政;4通道数据采集中频接收机的设计和实现[D];哈尔滨工业大学;2015年
,本文编号:1517190
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1517190.html