电子商务的大规模事务数据高效处理关键问题研究

发布时间:2020-11-12 19:30
   随着互联网、移动互联、大数据等技术的飞速发展,以及我国“互联网+”战略的逐步实施,电子商务、移动社交已经成为人们生活的重要组成部分,也成为新技术创新应用的重要领域,研究电子商务关键技术具有重要的历史意义、现实意义和社会意义。电子商务网站具有海量用户、海量数据和复杂应用场景,围绕业务特点的技术创新不断涌现,云计算、大数据等技术率先在电子商务领域得到广泛的应用、改进和创新。在电子商务技术发展的当前阶段,如何应对海量用户、海量数据以及复杂应用场景带来的挑战,如何在系统部署、业务处理及数据挖掘分析中高效处理大规模数据依然是电子商务研究的重要问题。本文重点研究了电子商务大规模事务数据高效处理的关键问题,首先针对大规模数据处理中的高维数据问题,提出在预处理环节的两种数据降维方法;其次针对大规模数据处理中的任务部署及调度等热点问题,提出基于强化学习的两阶段任务部署方法;最后针对电子商务复杂查询应用带来的多数据中心数据传输问题,提出基于数据相关性的结构化数据分布方法。本文主要贡献如下:(1)归纳和总结了电子商务大规模事务数据高效处理方法,阐述了当前研究工作的主要背景、重要意义与研究重点。本文介绍了电子商务对国民生活的重要意义、发展趋势及依赖的关键技术,分析了大数据环境下大规模数据处理的主要框架和流程,以及大规模数据处理全流程中的若干重要问题,重点对电子商务技术领域数据处理关键问题的解决方法进行了详细介绍与分析。(2)针对电子商务高维数据的预处理进行了研究。电子商务数据处理往往面对大量高维、低密度的数据,传统分类方法往往受数据特点影响难以挖掘分析内部关系。针对此问题,提出对高维数据的两种预处理机制,对于无标签数据,针对传统方法对高维数据聚类导致的不准确等问题,提出主成分分析和聚类相结合的数据降维及分类方法,该方法建立主因子及关联因子模型,以关联因子系数构建网站相似度距离,通过改进DBSCAN聚类算法提升网站评估的合理性和可解释性。对于有标签数据的数据降维,针对传统方法处理效率不高且容易陷入局部优化困境,本文提出基于粗糙集的分布式粒子群方法,该方法巧妙结合粒子群方法和粗糙集理论,在多个粒子群同步寻找最优化特征子集,提高执行效率和搜索范围,同时针对特征子集的评价函数中加入随机因子,降低搜索的不确定性,实验证明该方法有效提升大规模数据的特征选择效率。(3)针对电子商务大规模数据处理的任务部署进行了研究。许多传统方法的局限性和异构环境下资源性能的变化,导致系统响应时间相对长、算法复杂度高、资源浪费等问题。针对此问题,本文提出了一种基于强化学习的大规模并行任务处理方法TOPE。该方法将整个网络看作一个多智能体系统,通过分布式多目标群智能实现虚拟节点映射,通过深度强化学习及马尔可夫决策过程实现虚拟链路映射,最终实现胖树拓扑结构中任务分配的两阶段优化工作。实验结果表明,TOPE能够兼顾负载均衡、带宽开销和能耗,有效地减少计算节点和链路的能量消耗。(4)针对电子商务大规模数据处理的数据分布进行了研究。云计算环境下数据分布在多个数据中心,海量用户随机的、类搜索方式的查询引起多数据中心之间数据频繁传输,查询处理效率难以满足应用需要。针对此问题,本文提出基于文件相关性的数据分布方法,将整个云环境看作互联网,将用户随机的、海量的查询行为看作互联网搜索,借鉴互联网搜索思想建立索引和文件间相关性、文件和文件间相关性,再利用针对矩阵相似度的BEA聚类算法对数据进行重分布。首先,根据云计算下查询应用的数据特点,将数据表映射为以统计数据为基础的数据特征向量模型,根据特征向量距离构建数据表相关性特征矩阵,将矩阵元素临近元素数值和作为键能值的方式进行聚类,最后通过BEA聚类方式对数据表相关性进行聚类,从而对数据在云环境中进行分配。实验表明,采取相关性分布策略,能够合理将相关数据分配到同一数据块,避免海量临时查询过程中尤其连接查询的数据传输,数据查询处理效率明显提高。
【学位单位】:吉林大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TP311.13;F724.6
【部分图文】:

社交,电子商务


随着电子商务平台的逐步完善,电子商务也随之迅速发展,尤其是亚马逊、阿里巴巴等大型电子商务平台的推广,这种以互联网为依托进行商品和服务交易的新兴经济活动,迅速普及全球,电子商务市场规模不断扩大。根据Statista的数据,中国是全球最大的电子商务市场,2018年收入6360.87亿美元,美国紧随其后,2018年市场收入达5045.82亿美元。2018年全球电子商务用户数量为2.585亿人,同比增长1.2%,普及率为78.8%,预计到2023年将达到80.4%。近年来,联合国也持续发布全球电子商务发展指数年度报告,以发展指数来反映全球及100多个国家的电子商务发展情况。发展指数主要包含四个指标:使用互联网的个人用户占比;金融机构提供商账户中15岁以上用户比重;每百万人安全互联网服务器数量;万国邮政可靠性分数。这些指标总体反映了电子商务的发展环境情况。2018年,全球电子商务发展指数为55,较上年增长1.9个百分点。

框架图,数据处理,框架,大数


计算机自诞生以来,首要问题就是解决计算和存储问题。现实需求和计算机处理能力不足的冲突是推进计算机技术不断发展的持续动力。大规模数据处理是个相对概念,即使是近年来兴起的大数据技术,对数据量的大小也没有明确的定义,其相对比较认可的模糊定义为:大数据(big data)是指利用常规软件工具无法捕捉、管理及处理的数据集合,是需要新处理模式才能具有更强的决策能力、洞察发现力以及流程优化能力的海量、高增长率以及多样化信息资产[28]。因此,我们将大规模数据处理不仅仅定义为大数据下的数据处理,事实上,在大数据技术没有兴起之前,在金融、科学等多个领域就已经有对大规模数据处理的框架,比如金融行业的批处理、高能物理的科学计算等等。我们将大规模数据处理抽象为图2.2所示:参照图2.2描述的框架,在存储层,大规模数据处理往往依赖于分布式文件系统,必须具备存储管理、容错处理、高可用、高扩展性等特点,主要包括GFS[29]、HDFS[30]、CEPH[31]以及中国电商阿里巴巴集团研发的TFS等等,为了满足大数据处理的要求,文件系统的设计除了传统的行存储外,还有面向列存储、混合存储等技术研究,以及为了减少冗余的纠删码技术、压缩技术等等。在文件存储方面,由于大数据的4V特点,其数据往往是多种形式,包括文本、图像、音频、视频等等,常见的存储方式有基于键值、列、文档、图等等,涌现了BigTable[32]、Dynamo[33]、HBase、MongoDB[34]、Neo4j等优秀的存储系统。

维数灾难,因子分析法


尽管DBSCAN算法可以对电子商务网站进行聚类和高维数据处理,但在处理密度不均匀的数据时会出现不准确、可解释性差等结果,主要原因是高维数据存在样本稀疏、计算距离难等“维数灾难”,同时高维数据的因子成分也不是同等重要,会影响到聚类效果。因此,可以使用因子分析法对高维数据降维,并且要考虑各因子成分的权重。Hannu Verkasalo等[68]研究人员运用因子分析法分析客户智能手机应用的使用数据,旨在找出影响客户使用移动应用的潜在因素。陈文成等[69]运用因子分析法研究区域经济发展不平衡。Taufiq Hasan等[70]采用因子分析法对声音进行分析验证。3.1.3 问题形式化
【参考文献】

相关期刊论文 前10条

1 王玢;吴雅婧;阳小龙;孙奇福;;关联性驱动的大数据处理任务调度方案[J];软件学报;2017年12期

2 宋杰;王智;李甜甜;于戈;;一种优化MapReduce系统能耗的数据布局算法[J];软件学报;2015年08期

3 王有为;王伟平;孟丹;;基于统计方法的Hive数据仓库查询优化实现[J];计算机研究与发展;2015年06期

4 丁有伟;秦小麟;刘亮;王涛春;;一种异构集群中能量高效的大数据处理算法[J];计算机研究与发展;2015年02期

5 尹宝才;王文通;王立春;;深度学习研究综述[J];北京工业大学学报;2015年01期

6 刘雅辉;张铁赢;靳小龙;程学旗;;大数据时代的个人隐私保护[J];计算机研究与发展;2015年01期

7 刘智慧;张泉灵;;大数据技术研究综述[J];浙江大学学报(工学版);2014年06期

8 周江;王伟平;孟丹;马灿;古晓艳;蒋杰;;面向大数据分析的分布式文件系统关键技术[J];计算机研究与发展;2014年02期

9 冯登国;张敏;李昊;;大数据安全与隐私保护[J];计算机学报;2014年01期

10 徐海啸;麻婧;吴旗;;DBSCAN算法在高性能计算中心用户分类的应用研究[J];吉林大学学报(信息科学版);2013年05期


相关博士学位论文 前4条

1 柯余洋;面向三类应用数据的智能分析与优化研究[D];中国科学技术大学;2016年

2 王占业;大数据处理若干关键技术研究[D];清华大学;2016年

3 张钧波;面向大数据的高效特征选择与学习算法研究[D];西南交通大学;2015年

4 郑思;大规模数据处理系统中MapReduce任务划分与调度关键技术研究[D];国防科学技术大学;2014年



本文编号:2881144

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2881144.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05281***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com