相似产品集在电子商务中的应用
发布时间:2017-10-26 20:12
本文关键词:相似产品集在电子商务中的应用
【摘要】:伴随着互联网的飞速发展,我们进入了一个信息海洋的时代。互联网上的信息以指数阶的速度增长,那么如何让在如此多的数据中提炼出用户感兴趣的数据成为了一个很有研究意义的问题。在目前的电子商务系统中,由于商品数量和用户数量都非常巨大,如何把商品推荐给合适的用户,如何挖掘用户的潜在购买需求,增加网站的流量和营业额,这些问题通过个性化推荐系统都能得到良好的解决,个性化推荐系统是用户和信息之间的纽带。 然而,在分析了当前电子商务系统中推荐模型所遇到的主要问题之后,发现电子商务在拥有海量的对象(商品和用户)的同时,用户行为数据却过于稀疏。由此主要造成了两个问题:一、推荐算法和推荐模型的可用性无法得到保障;二、出现了马太效应,导致了受益群体过于集中。 本文正是针对上述在电子商务中出现的问题基于文本挖掘和产品知识库,提出了一种商品聚类算法,即相似产品集算法。该算法运用文本挖掘和行为定向技术聚合相似产品。通过对全部产品的分析,构建介于产品和叶子类目之间的相似集合层。该相似集合层的粒度能根据业务需求做灵活的调整。在解决用户行为数据稀疏的同时,该算法还能为比价分析、价格指导以及重复产品的诊断提供一些实现方案。本文的主要内容有: 1)分析了当前电子商务环境下推荐系统所面临的用户行为数据稀疏的问题以及现阶段的一些解决方案。 2)针对以上问题提出了基于文本挖掘的相似产品集算法,该算法基于文本挖掘,通过对描述商品的词进行了若干处理之后(如单复数转换,去掉脏词等),利用频繁挖掘算法如Apriori,FP-Growth等算法进行相似产品的划分,聚合相似的产品,该算法能在一定程度上缓解用户行为数据的稀疏性。 3)对提出的相似产品集算法进行分析和实验,,得出实验数据。 4)针对比价分析,发布商品价格指导,和诊断重复商品的发布和分析商品的热门程度等问题,利用相似产品集算法给出了若干可行的方案,并通过实验得出结论。
【关键词】:数据稀疏性 相似产品 文本挖掘
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;F713.36
【目录】:
- 摘要5-6
- ABSTRACT6-8
- 目录8-10
- 第一章 绪论10-14
- 1.1 研究意义10-11
- 1.2 国内外研究现状11-13
- 1.3 本文的主要工作13
- 1.4 论文组织结构13-14
- 第二章 个性化推荐系统14-35
- 2.1 推荐系统简介14-15
- 2.2 推荐系统的工作组成15-16
- 2.3 推荐系统相关技术16-32
- 2.3.1 基于内容的推荐16-23
- 2.3.2 协同过滤推荐23-29
- 2.3.3 基于社交的推荐29-30
- 2.3.4 在推荐中利用上下文信息30-32
- 2.3.5 推荐系统的实时性32
- 2.4 推荐方法总结32-33
- 2.5 本章小结33-35
- 第三章 协同过滤推荐系统中的常见问题35-40
- 3.1 推荐系统的冷启动问题35-36
- 3.2 推荐系统的延伸性36-37
- 3.3 数据的稀疏性问题37-39
- 3.4 本章小结39-40
- 第四章 相似产品集40-49
- 4.1 相似产品集所依赖的技术42-47
- 4.1.1 产品信息分词43
- 4.1.2 频繁模式挖掘算法43-45
- 4.1.3 Apriori 算法45-47
- 4.1.4 Hadoop 分布式计算平台47
- 4.2 通过相似产品集来实现商品聚类的意义47-48
- 4.3 本章小结48-49
- 第五章 相似产品集的构造过程49-54
- 5.1 相似产品集的构造过程49-52
- 5.2 相似产品集的构造示例52-53
- 5.3 本章小结53-54
- 第六章 相似产品集的作用及相关实验54-68
- 6.1 商品信息数据来源54
- 6.2 原始数据处理过程54-57
- 6.3 基于相似产品集的搜索57-59
- 6.3.1 基于相似产品集搜索的实验58-59
- 6.4 价格分析59-61
- 6.5 商品热度分析61-62
- 6.6 重复商品诊断62-65
- 6.6.1 基于相似产品集的解决方案62
- 6.6.2 基于最长公共子序列的解决方案62-64
- 6.6.3 基于最小编辑距离的解决方案64-65
- 6.7 相似产品集解决数据稀疏性问题65-67
- 6.7.1 相似产品集解决数据稀疏问题的实验65-67
- 6.8 本章小结67-68
- 第七章 结论68-70
- 致谢70-71
- 参考文献71-75
- 附录75-85
【参考文献】
中国期刊全文数据库 前1条
1 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
本文编号:1100261
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1100261.html