【摘要】:随着互联网技术不断快速深入发展,许多大型企业、机构及政府部门持续获得了各种海量Web日志数据,而Web日志中记录了用户的行为及具体的消费情况,对网站的建设及特定商品的推广并提供精确的服务具有非常重要的指导意义。当今对Web日志分析的要求是持续变化和增加的,同时在分析Web日志时也要求具有一定的快捷性和准确性,然而如何预处理海量日志,如何存储海量数据,如何获取有效的信息成为学术界和商业界重点研究的内容。现今,人们的生活离不开网络,而生活中的各种需求基本上都是通过访问网站来实现,因此各个企业为了获得用户的显性需求和隐性需求,深入挖掘用户的网络行为习惯已形成一门重点关注的学科。因为访问网站的用户越来越多,所产生的数据也迅速增长,如何预处理和存储海量数据,并从中获取有效的数据成为了另一个挑战。根据人们的研究成果,目前基于Hadoop的相关技术是解决大数据问题最适合的方法和工具。原始Web日志中的数据是不一致的、缺陷的、含有大量脏数据和噪声,假如不通过数据采集和预处理过程对其进行过滤和筛选,会使数据分析阶段的工作量增大,甚至可能造成错误的结果。所以,在对数据进行分析之前应先对Web日志实行采集和预处理操作。每天电信系统都会产生海量的Web日志数据,单节点数据处理和传统的关系型数据库已不能满足其需求,对于怎样存储海量电信数据成为必要的研究课题。Web日志的挖掘需要通过算法来实现,因此算法的选取和设计也是关键之处。本文对基于电信系统的Web日志进行研究,其内容主要包含以下几点:1)Web日志的采集预处理Web日志采集和预处理是Web日志挖掘的前提条件,其作用是为后续数据分析提供准确的日志文件。而原有的Web日志中存在大量噪声和不一致的信息,因此对其进行采集和预处理操作是很有必要的。然而,随着用户访问数量的急剧增长,大量高并发的数据给Web预处理操作带来了巨大的挑战。本文提出了一种基于MapReduce的Web日志预处理机制,能更好的提高日志数据采集预处理阶段的效率,并最大限度的利用计算机硬件资源,从而降低不必要的资源浪费。2)Web日志的数据存储由于电信用户和网站的访问量在不断增加,Web日志也在每日剧增,传统的数据存储技术存在成本高、运行繁杂、扩展性极低等诸多不足。本文将采用HDFS和Hbase的组合来实现,并充分利用Hadoop集群的分布式存储优势。3)电信系统日志挖掘及聚类算法的改进数据挖掘作为大数据技术的核心问题之一,面临着计算复杂度高和计算能力不足等问题,本系统中应用了一种基于Hadoop的分布式改进聚类算法即CFK-means聚类算法。本算法是对K-means聚类算法的一种改进,本文通过实验结果阐明该聚类算法具有良好的可移植性和准确性。本文通过搭建一个模拟电信系统日志分析大数据平台,验证MapReduce并行化在Web日志采集和预处理阶段的高效性,HDFS和Hbase组合在数据存储中的高扩展性,通过多次对比实验结果分析,验证本文中CFK-means聚类算法的准确性和快捷性。本文通过对电信系统的日志分析,挖掘出用户的行为信息,通过分析用户访问网站的行为特点,帮助电信运营商制定合理的套餐和推荐信息。
[Abstract]:......
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:F626;TP311.13
【参考文献】
相关期刊论文 前10条
1 周润物;李智勇;陈少淼;陈京;李仁发;;面向大数据处理的并行优化抽样聚类K-means算法[J];计算机应用;2016年02期
2 吴韶鸿;;信息通信领先厂商多管齐下发展大数据[J];世界电信;2014年Z1期
3 毛严奇;彭沛夫;;基于MapReduce的Web日志挖掘预处理[J];计算机与现代化;2013年09期
4 周峰;李龙澍;;结合蚁群聚类算法的模糊C均值聚类[J];计算机技术与发展;2012年07期
5 李建江;崔健;王聃;严林;黄义双;;MapReduce并行编程模型研究综述[J];电子学报;2011年11期
6 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
7 仝雪姣;孟凡荣;王志晓;;对k-means初始聚类中心的优化[J];计算机工程与设计;2011年08期
8 李乔;郑啸;;云计算研究现状综述[J];计算机科学;2011年04期
9 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期
10 吴海燕;朱靖君;程志锐;戚丽;;Web日志集中管理系统的研究与实现[J];实验技术与管理;2008年07期
相关硕士学位论文 前6条
1 宋园园;基于Hadoop的Web日志存储及预处理优化研究[D];河北工程大学;2016年
2 周海靖;日志大数据分析平台技术研究[D];山东大学;2015年
3 娄乾;用电计量装置在线监测与诊断系统的研究与开发[D];华北电力大学;2015年
4 肖俊良;基于云计算的WEB日志分析系统的设计与实现[D];电子科技大学;2014年
5 李荣荣;基于Hadoop平台的日志分析系统[D];复旦大学;2013年
6 孙寅林;基于分布式计算平台的海量日志分析系统的设计与实现[D];西安电子科技大学;2012年
,
本文编号:
2414534
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/2414534.html