当前位置:主页 > 经济论文 > 国际贸易论文 >

基于数据挖掘的电子商务产品质量风险评估技术研究

发布时间:2017-04-05 06:10

  本文关键词:基于数据挖掘的电子商务产品质量风险评估技术研究,,由笔耕文化传播整理发布。


【摘要】:随着网络技术和信息技术的发展,互联网不可阻挡地进入了人们的生活,并且改变了人们的生活方式。但由于电子商务的虚拟性、跨地域性,消费者所购买的产品可能会存在质量风险。针对该问题,本文在前人的研究基础上,提出了基于电子商务平台的用户评论数据的风险评估模型,该模型可以准确地识别风险,评估风险等级,发布相应的预警信息,使得监管人员对风险做出快速的应对措施。如何客观的评估产品质量的风险,使得监管机构对其做出快速的反应是本文的研究重点。本文主要研究了以下几个方面:本文对电商产品数据通过R语言的数据处理技术对数据进行空值和异常值处理以及使用基于Spark并行化ansj的jar包对数据集进行中文的文本分词和去停用词处理,从而得到预处理后的训练数据。然后在随机森林的袋外数据的特征属性中加入噪声,并将计算所得到误差进行重要性排序,以此来进行电子商务产品质量风险评估的特征选择,并在Spark计算框架上实现。在电子商务产品质量的风险评估中,提出了一种基于Spark并行化的改进朴素贝叶斯算法来建立风险模型。朴素贝叶斯算法是假设特征之间相互独立,然而在实际中,它们之间是息息相关的,所以利用MinHash来计算特征属性与决策标签之间关联程度,对贝叶斯算法中的条件概率进行加权运算,并在Spark实现算法的并行化。本文通过构建基于Spark大规模集群进行了仿真实验。在UCI数据集上,验证了基于Spark并行化的改进贝叶斯算法相比于朴素贝叶斯算法及其串行算法在准确率、召回率以及时间上有更好的效果。当实验数据增加时,串行算法的执行效率低下,然而在Spark分布式环境中,其效率明显提高。所以基于Spark的并行化算法在大数据下具有更好的可扩展性和优越性。实验表明将模型应用在电子商务平台的用户评论数据时,模型能够准确地识别电子商务产品质量风险,然后做出风险预警。从而提出了一种新型的风险监管模式。
【关键词】:数据挖掘 朴素贝叶斯 随机森林 MinHash Spark
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;F713.36
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-15
  • 1.1 研究背景及意义9-10
  • 1.2 国内外研究现状10-13
  • 1.3 研究内容13
  • 1.4 论文组织结构13-15
  • 第2章 相关技术15-27
  • 2.1 数据挖掘概述15-20
  • 2.2 Spark分布式架构20-24
  • 2.2.1 Spark分布式架构概述20-21
  • 2.2.2 RDD概述21-23
  • 2.2.3 Spark生态系统23-24
  • 2.3 电子商务产品质量风险24-26
  • 2.4 本章小结26-27
  • 第3章 贝叶斯算法研究27-39
  • 3.1 贝叶斯分类概述27-29
  • 3.1.1 贝叶斯公式27
  • 3.1.2 贝叶斯分类的一般原理27-28
  • 3.1.3 贝叶斯分类过程28-29
  • 3.2 朴素贝叶斯算法29-32
  • 3.2.1 朴素贝叶斯算法概述29-30
  • 3.2.2 朴素贝叶斯分类原理30-32
  • 3.3 贝叶斯信念网络32-33
  • 3.3.1 贝叶斯信念网络概述32
  • 3.3.2 贝叶斯信念网络原理32-33
  • 3.4 并行化的朴素贝叶斯算法33-35
  • 3.5 基于MinHash相关性加权的朴素贝叶斯算法35-38
  • 3.5.1 MinHash原理35-36
  • 3.5.2 基于MinHash相关性的加权朴素贝叶斯36-37
  • 3.5.3 基于Spark的改进贝叶斯37-38
  • 3.6 本章小结38-39
  • 第4章 基于改进贝叶斯算法的电子商务产品质量风险评估39-54
  • 4.1 基于改进贝叶斯算法的风险评估分析39-40
  • 4.2 质量风险数据的预处理40-42
  • 4.2.1 用户评论数据分词40-41
  • 4.2.2 数据清洗41-42
  • 4.3 电子商务产品质量风险评估模型构建42-46
  • 4.3.1 电子商务产品质量风险等级分类42
  • 4.3.2 特征属性的离散化42-43
  • 4.3.3 基于随机森林的风险特征选择43-45
  • 4.3.4 建立质量风险评估模型45-46
  • 4.4 实验仿真及结果分析46-52
  • 4.4.1 测试平台-Spark集群环境46-48
  • 4.4.2 实验数据介绍48-49
  • 4.4.3 实验结果分析49-52
  • 4.5 本章小结52-54
  • 第5章 总结与展望54-56
  • 5.1 总结54-55
  • 5.2 展望55-56
  • 参考文献56-59
  • 致谢59-60
  • 攻读学位期间的研究成果60

【相似文献】

中国期刊全文数据库 前10条

1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期

中国重要会议论文全文数据库 前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

中国重要报纸全文数据库 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

中国博士学位论文全文数据库 前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年

4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年

6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年

7 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年

8 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年

9 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年

10 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年

中国硕士学位论文全文数据库 前10条

1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年

6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年

9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年

10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年


  本文关键词:基于数据挖掘的电子商务产品质量风险评估技术研究,由笔耕文化传播整理发布。



本文编号:286594

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/286594.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd48d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com