电子商务的大规模事务数据高效处理关键问题研究
【学位单位】:吉林大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:TP311.13;F724.6
【部分图文】:
随着电子商务平台的逐步完善,电子商务也随之迅速发展,尤其是亚马逊、阿里巴巴等大型电子商务平台的推广,这种以互联网为依托进行商品和服务交易的新兴经济活动,迅速普及全球,电子商务市场规模不断扩大。根据Statista的数据,中国是全球最大的电子商务市场,2018年收入6360.87亿美元,美国紧随其后,2018年市场收入达5045.82亿美元。2018年全球电子商务用户数量为2.585亿人,同比增长1.2%,普及率为78.8%,预计到2023年将达到80.4%。近年来,联合国也持续发布全球电子商务发展指数年度报告,以发展指数来反映全球及100多个国家的电子商务发展情况。发展指数主要包含四个指标:使用互联网的个人用户占比;金融机构提供商账户中15岁以上用户比重;每百万人安全互联网服务器数量;万国邮政可靠性分数。这些指标总体反映了电子商务的发展环境情况。2018年,全球电子商务发展指数为55,较上年增长1.9个百分点。
计算机自诞生以来,首要问题就是解决计算和存储问题。现实需求和计算机处理能力不足的冲突是推进计算机技术不断发展的持续动力。大规模数据处理是个相对概念,即使是近年来兴起的大数据技术,对数据量的大小也没有明确的定义,其相对比较认可的模糊定义为:大数据(big data)是指利用常规软件工具无法捕捉、管理及处理的数据集合,是需要新处理模式才能具有更强的决策能力、洞察发现力以及流程优化能力的海量、高增长率以及多样化信息资产[28]。因此,我们将大规模数据处理不仅仅定义为大数据下的数据处理,事实上,在大数据技术没有兴起之前,在金融、科学等多个领域就已经有对大规模数据处理的框架,比如金融行业的批处理、高能物理的科学计算等等。我们将大规模数据处理抽象为图2.2所示:参照图2.2描述的框架,在存储层,大规模数据处理往往依赖于分布式文件系统,必须具备存储管理、容错处理、高可用、高扩展性等特点,主要包括GFS[29]、HDFS[30]、CEPH[31]以及中国电商阿里巴巴集团研发的TFS等等,为了满足大数据处理的要求,文件系统的设计除了传统的行存储外,还有面向列存储、混合存储等技术研究,以及为了减少冗余的纠删码技术、压缩技术等等。在文件存储方面,由于大数据的4V特点,其数据往往是多种形式,包括文本、图像、音频、视频等等,常见的存储方式有基于键值、列、文档、图等等,涌现了BigTable[32]、Dynamo[33]、HBase、MongoDB[34]、Neo4j等优秀的存储系统。
尽管DBSCAN算法可以对电子商务网站进行聚类和高维数据处理,但在处理密度不均匀的数据时会出现不准确、可解释性差等结果,主要原因是高维数据存在样本稀疏、计算距离难等“维数灾难”,同时高维数据的因子成分也不是同等重要,会影响到聚类效果。因此,可以使用因子分析法对高维数据降维,并且要考虑各因子成分的权重。Hannu Verkasalo等[68]研究人员运用因子分析法分析客户智能手机应用的使用数据,旨在找出影响客户使用移动应用的潜在因素。陈文成等[69]运用因子分析法研究区域经济发展不平衡。Taufiq Hasan等[70]采用因子分析法对声音进行分析验证。3.1.3 问题形式化
【参考文献】
相关期刊论文 前10条
1 王玢;吴雅婧;阳小龙;孙奇福;;关联性驱动的大数据处理任务调度方案[J];软件学报;2017年12期
2 宋杰;王智;李甜甜;于戈;;一种优化MapReduce系统能耗的数据布局算法[J];软件学报;2015年08期
3 王有为;王伟平;孟丹;;基于统计方法的Hive数据仓库查询优化实现[J];计算机研究与发展;2015年06期
4 丁有伟;秦小麟;刘亮;王涛春;;一种异构集群中能量高效的大数据处理算法[J];计算机研究与发展;2015年02期
5 尹宝才;王文通;王立春;;深度学习研究综述[J];北京工业大学学报;2015年01期
6 刘雅辉;张铁赢;靳小龙;程学旗;;大数据时代的个人隐私保护[J];计算机研究与发展;2015年01期
7 刘智慧;张泉灵;;大数据技术研究综述[J];浙江大学学报(工学版);2014年06期
8 周江;王伟平;孟丹;马灿;古晓艳;蒋杰;;面向大数据分析的分布式文件系统关键技术[J];计算机研究与发展;2014年02期
9 冯登国;张敏;李昊;;大数据安全与隐私保护[J];计算机学报;2014年01期
10 徐海啸;麻婧;吴旗;;DBSCAN算法在高性能计算中心用户分类的应用研究[J];吉林大学学报(信息科学版);2013年05期
相关博士学位论文 前4条
1 柯余洋;面向三类应用数据的智能分析与优化研究[D];中国科学技术大学;2016年
2 王占业;大数据处理若干关键技术研究[D];清华大学;2016年
3 张钧波;面向大数据的高效特征选择与学习算法研究[D];西南交通大学;2015年
4 郑思;大规模数据处理系统中MapReduce任务划分与调度关键技术研究[D];国防科学技术大学;2014年
本文编号:2881144
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2881144.html