基于Hadoop的PCF系统的设计与实现
本文关键词:基于Hadoop的PCF系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网兴盛,依托于互联网的电子商务也开始蓬勃发展。每天大量的买家和卖家在电子商务平台上交易,产生大量的数据,这些大数据是电子商务平台的宝贵资源。而Hadoop等技术的普及,使得大数据分析走向了大众化。依托于Hadoop的大数据分析可以快速有效地处理大量的数据,为后续的数据挖掘提供良好的基础。eBay公司原有的数据处理大部分都在昂贵的Teradata上进行,随着数据量的不断增加,Teradata资源已经十分紧张,在这种情况下,将一些时效性不是很强的数据分析存储到相对廉价的Hadoop上十分必要。因此,我们开发了基于管道过滤器模式买家数据处理系统,命名为Page Click Funnel,使用HDFS非结构化分布式存储系统,MapReduce和基于MapReduce的Cascading进行数据计算处理。论文描述了PCF系统的需求分析,买家用户在商城上的页面点击行为等数据,对企业产品的分析和决策有很重要的影响。对此类数据的分析有助于帮助公司改进搜索结果展示顺序,合理安排广告页面的数量和位置,同时也帮助公司对卖家进行分析。目前公司的买家数据按照时间顺序存储,用户在网站上对页面的点击跳转类的操作,会被记录到数据仓库当中,细粒度的数据在数据仓库中按照Session分组(从单个用户打开第一个商城相关网页开始,一直到所有商城相关页面全部关闭或者连续半小时以上没有在商城上进行任何操作会形成一个session),每组中按照页面被打开的时间顺序存储。在移动端,可以基本认为页面被打开的时间顺序就是用户依次打开这些页面的顺序,但是在PC端,时间顺序不能体现用户真正的页面点击行为,故而时间顺序存储的数据不适合分析用户的点击行为。系统尝试使用新的存储顺序来提高分析的速度,将数据按照逻辑顺序进行存储,使得数据分析人员不再需要自己编写方法处理数据,可以直接使用系统提供的数据分析用户点击行为,减少出错率。论文重点阐述了PCF系统的设计与实现,系统如何重组数据仓库当中的数据,改变其存储顺序和结构,让其可以体现用户行为,并提取粗粒度信息展现在前台,提取细粒度的数据分析生成报表给用户进行进一步分析。因为Cascading、或者Hadoop技术主要是用于处理数据的,并且数据是单向流动的,所以使用管道过滤器模式进行系统架构设计系统,进行有效的大数据量的分析。原始数据源在系统中通过Filter和Join等一系列操作,最终变成系统分析所需要的非结构化的存储格式,为其后的统计分析提供了可以直接使用的数据。论文还介绍了PCF系统的主要使用人员,即数据分析人员,通过非结构化的存储和处理方式,以及按照买家用户的点击逻辑顺序进行数据排序,能够根据买家用户的每日的页面点击行为快速的计算出页面点击跳转率,从而让实时的数据分析成为可能,能够更好地为eBay的决策做出服务。系统提供两种不同的方式供数据分析人员使用,一种是简单而直观的页面可视化浏览,一种是使用到HDFS或者Hive的报表数据读取和分析,适合于数据分析人员的使用。
【关键词】:Maven管理 HDFS存储系统 Map Reduce技术 Cascading架构 非结构化数据
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52
【目录】:
- 摘要5-7
- Abstract7-13
- 第一章 绪论13-17
- 1.1 项目背景13
- 1.2 国内外相关技术研究现状13-15
- 1.3 本文的主要工作15
- 1.4 本文的组织结构15-17
- 第二章 相关技术综述17-31
- 2.1 Maven管理技术17-20
- 2.1.1 Maven与Ant的对比17-18
- 2.1.2 Maven的主要组件18-20
- 2.2 HDFS存储技术20-23
- 2.3 Map Reduce计算技术23-26
- 2.4 Cascading技术26-30
- 2.4.1 文件读写(Tap and Schemes)27-28
- 2.4.2 数据流(Pipe)28-29
- 2.4.3 数据处理(Operations)29-30
- 2.5 本章小结30-31
- 第三章 PCF系统分析与设计31-45
- 3.1 系统功能需求分析31-34
- 3.2 系统流程需求分析34-36
- 3.3 系统总体架构设计36-40
- 3.4 后台数据处理层的详细设计40-44
- 3.4.1 主要功能40-42
- 3.4.2 数据存储结构42-43
- 3.4.3 处理流程分析43-44
- 3.5 本章小结44-45
- 第四章 后台数据处理层的实现45-57
- 4.1 原始数据的过滤和处理45-46
- 4.2 数据源之间的Join连接46-47
- 4.3 页面跳转数据存储的实现47-50
- 4.4 其它自定义方法50-53
- 4.5 前台实现的结果展示53-54
- 4.6 后台报表生成和文件读取54-56
- 4.7 本章小结56-57
- 第五章 总结与展望57-59
- 5.1 本文总结57
- 5.2 进一步工作展望57-59
- 参考文献59-61
- 致谢61-63
【相似文献】
中国期刊全文数据库 前10条
1 曾妮丽;陈林;;制造企业数据分析的现状与对策[J];科技情报开发与经济;2008年33期
2 C·P·Chapman;B·R·Sotomayor;李伟;;用数控随机试验系统作脱机数据分析和处理[J];国外导弹技术;1979年09期
3 陈明;;大数据分析[J];计算机教育;2014年05期
4 严雪林;;中国企业应用数据分析大概情况和未来趋势[J];信息与电脑;2014年06期
5 严吕勇;;数据分析让借口变得苍白无力[J];信息与电脑;2004年12期
6 张安珍;一部具有创新性、系统性与实用性的力作——评《网络数据分析》[J];情报资料工作;2005年05期
7 胡新生;齐秀玉;;用模型开启数据分析的大门[J];中国市场;2007年Z4期
8 Joab Jackson;许翠苹;;关于大数据CIO须知[J];通讯世界;2012年11期
9 ;富基融通:助零售集团精准数据分析[J];信息与电脑;2010年01期
10 ;《驾驭大数据》出版传播数据分析真经[J];通讯世界;2013年04期
中国重要会议论文全文数据库 前10条
1 申敏;;数据分析的原则和一般方法[A];2010年云南电力技术论坛论文集(文摘部分)[C];2010年
2 刘刚;;小学生数据分析观念的培养[A];中华教育理论与实践科研论文成果选编(第五卷)[C];2013年
3 石勇;;在银行和金融数据分析中的评分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
4 吴一平;;基于数据分析的离校工作改进[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年
5 吕大青;;送变电施工企业中数据分析的运用[A];第二届浙江中西部科技论坛论文集(第一卷)[C];2005年
6 李小花;李姝;;大数据分析在指挥信息系统中的应用[A];2014第二届中国指挥控制大会论文集(下)[C];2014年
7 范丽伟;唐焕文;唐一源;;空间独立成分分析在fMRⅠ数据分析中的应用[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
8 张军;李婕;;中国国民休闲状态变化研究——基于网上数据分析[A];第十五届全国区域旅游学术开发研讨会暨度假旅游论坛论文册[C];2010年
9 徐小龙;王汝传;姜波;;一种新的基于P2P的电信海量数据分析业务模式[A];普适计算及其软件新技术——第三届长三角计算机科技论坛文集[C];2006年
10 邵东华;;高速公路的平面控制复测与数据分析[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年
中国重要报纸全文数据库 前10条
1 周桂生 汤建国;数据分析行业登陆湖南,带来巨大商机[N];中国企业报;2008年
2 朱文明 甫瀚公司咨询专家;数据分析提升决策智慧[N];中国审计报;2009年
3 ;国采中心空调协议供货数据分析[N];政府采购信息报;2010年
4 武虹 审计署驻沈阳特派办;以数据分析为统领开展数字化审计工作[N];中国审计报;2012年
5 本报记者 邹大斌;大数据分析走亲民路线[N];计算机世界;2013年
6 袁绍军;大数据分析 亟待具备的新能力[N];政府采购信息报;2013年
7 昆山工商局 刘连珠 朱纳新;基层工商分局登记数据分析科学性浅见[N];江苏经济报;2013年
8 记者 朱贤佳;大数据不能做什么[N];上海证券报;2014年
9 程兆锯;数据分析是投标生命[N];医药经济报;2014年
10 晓航;数据分析与网络营销[N];中国质量报;2010年
本文关键词:基于Hadoop的PCF系统的设计与实现,,由笔耕文化传播整理发布。
本文编号:371401
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/371401.html