电子商务海量数据的获
发布时间:2017-08-14 23:10
本文关键词:电子商务海量数据的获取、存储以及检索
更多相关文章: 电子商务 数据存储 海量数据 全文检索 实时数据查询 sphinx
【摘要】:随着互联网的快速发展,电子商务在人们的生活中占据着越来越重要的地位。在电子商务的整个环节中,数据处于最为核心的位置,处理好数据之间的关系,直接影响着电子商务商城的稳定性。 本课题基于电子商务商城的建设过程,研究并实现了一系列数据处理的方法。首先,为了获取商城需要展示的数据,需要从多种途径获取数据源,合理的安排好数据处理任务之间的关系,可以保证数据的稳定性以及时效性,课题经过实践完成了一套完整的数据任务分发机制以及数据运行状态的监控体系,在上百种任务并行运行的情况下,可以保证服务器的正常运行以及数据任务处理的稳定,从而保证了数据的有效性。 其次,在处理好数据获取任务的基础之上,需要针对海量的数据进行存储。海量数据的存储需要解决可扩展性的问题,即在不修改基础结构的前提下,快速的介入其他的商城的数据;同时需要处理好过期数据删除之后表空间利用的问题;最后存储系统需要容纳海量的数据,随着时间的延长,数据量急剧增加,数据存储系统需要具备海量的存储能力。基于以上问题,本课题通过两种存储方式的实践进行总结,完成了一套可扩展性的存储方案,在每天几十G数据进行更新的前提下,系统运行稳定并且拥有很好的普遍适用性。 最后,在解决了数据的获取以及数据的存储之后,数据的检索系统直接影响着用户的体验,检索系统的优劣直接影响着用户的选择。检索系统需要解决检索数据的有效性、准确性以及检索的效率。本课题通过sphinx检索引擎的研究,结合数据库共同实现平台的检索系统,可以为用户提供关键字以及属性的筛选,在海量数据存储的前提下,可以实现毫秒级数据的精确检索。 通过以上的数据获取、存储以及检索一系列的数据处理方案,构建了线上运行的产品:淘宝服务平台、dell在线销售计划以及百度网盟数据推广等项目。实践证明上述方法具有很强的可扩展性以及稳定性,较好地解决了海量数据的处理。
【关键词】:电子商务 数据存储 海量数据 全文检索 实时数据查询 sphinx
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP274
【目录】:
- 摘要4-6
- ABSTRACT6-14
- 第一章 绪论14-18
- 1.1 课题的来源与意义14
- 1.2 国内外研究现况综述14-15
- 1.3 课题主要研究内容15
- 1.4 本文的章节安排15-16
- 1.5 本章小结16-18
- 第二章 平台数据获取系统的设计研究18-32
- 2.1 平台数据获取方案18-20
- 2.1.1 API数据获取18-19
- 2.1.2 网页wget方式获取19-20
- 2.2 Gearman任务管理系统应用20-22
- 2.3 Mongodb数据库的应用实现22-23
- 2.4 平台数据处理分布式任务的实现23-26
- 2.4.1 平台数据的任务概况23
- 2.4.2 平台分布式任务的实现23-26
- 2.5 平台数据监控系统的实现26-29
- 2.5.1 监控系统的实现26-28
- 2.5.2 独立任务的处理28
- 2.5.3 依赖任务的处理28-29
- 2.5.4 出错任务的处理29
- 2.6 本章小结29-32
- 第三章 平台数据存储方案的研究32-42
- 3.1 数据存储简介32-33
- 3.2 数据库设计方式概要33-35
- 3.2.1 横向切分34
- 3.2.2 纵向切分34-35
- 3.3 系统数据存储的实现35-39
- 3.3.1 Hash函数的构造35-36
- 3.3.2 系统数据横向存储实现36-37
- 3.3.3 系统数据纵向存储实现37-39
- 3.3.4 系统数据存储总结39
- 3.4 本章小结39-42
- 第四章 平台数据检索的方法以及实现42-56
- 4.1 数据检索方案概要42-45
- 4.1.1 数据库检索42-43
- 4.1.2 第三方检索引擎43
- 4.1.3 平台检索方案43-45
- 4.2 平台检索系统的实现45-46
- 4.3 平台数据查询方式实现46-49
- 4.3.1 关键字查询匹配47-48
- 4.3.2 按照属性筛选48-49
- 4.4 平台可扩展性的研究49-50
- 4.4.1 数据存储可扩展性49-50
- 4.4.2 检索系统的扩展性50
- 4.5 平台的实现以及结果50-54
- 4.5.1 系统相关部分介绍51
- 4.5.2 系统实现界面51-53
- 4.5.3 系统优缺点53-54
- 4.6 本章小结54-56
- 第五章 实验结果分析56-62
- 5.1 系统检索效率分析56-58
- 5.2 系统稳定性分析58-59
- 5.3 本章小结59-62
- 第六章 结束语62-64
- 6.1 本文的主要工作62
- 6.2 进一步的工作62-64
- 参考文献64-68
- 致谢68-70
- 攻读学位期间发表的学术论文70-72
- 作者和导师简介72-73
- 硕士研究生学位论文答辩委员会决议书73-74
【参考文献】
中国期刊全文数据库 前2条
1 杨文清,黄宜华,张福炎;中文Web文档库全文检索技术研究与实现[J];中文信息学报;1999年04期
2 陈波;高秀娥;陈来杰;;基于等价变换的分布式查询优化方法研究[J];计算机工程与设计;2006年03期
,本文编号:675168
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/675168.html