数据挖掘在智能手机销售数据中的应用
发布时间:2021-04-25 23:13
手机作为目前人们使用最多的电子设备,一方面既承担着网络购物的终端作用,另一方面,本身也是消费人群最多的商品之一,现在社会几乎是人手一部。目前来看,手机还同时有逐渐取代传统钱包以及银行卡的趋势。每年都有大量的各式各样的手机通过线上渠道或者实体店被销售出去,然而不同的手机商品销量却是大不相同,这其中影响手机销量的因素有哪些呢?这是销售手机的商家十分关注的问题,也正是本文要研究的问题。本文首先简单介绍了网络爬虫,利用网络爬虫从某大型电商网站爬取所有在架销售手机的详细信息,包括各种参数配置信息以及销量,评论数等等,其次对数据进行清洗,提取各种字段用于后续建模分析。通过特征信息度以及Spearman相关系数对影响手机销量水平的因素进行了相关分析。为了预测一款特定手机商品的销量水平情况,根据数据的特点,文中分别利用决策树算法,Bagging算法,随机森林算法三种机器学习方法进行建模分析,并利用交叉验证以及网格搜索选取随机森林模型最优的超参数。最后对各种算法的结果进行比较发现,基于决策树的集成算法随机森林算法要优于其它两种算法。当选取合适的超参数后,随机森林算法的结果明显好于使用其默认参数的结果,并...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 选题背景
1.2 国内外研究现状
1.2.1 国内研究现状
1.2.2 国外研究现状
1.3 论文研究内容
第2章 网络爬虫介绍以及数据抓取
2.1 网络爬虫介绍以及论文数据来源
2.1.1 网络爬虫介绍
2.1.2 论文数据
2.2 本文中使用的三个网络爬虫
2.2.1 爬虫一号介绍
2.2.2 爬虫二号介绍
2.2.3 爬虫三号介绍
2.3 本章小结
第3章 数据清洗转换
3.1 数据质量检查以及修正
3.2 衍生特征构造
3.2.1 手机支持网络类型
3.2.2 评论比率
3.2.3 官方店铺
3.2.4 累计销售天数
3.3 分类变量编码
3.3.1 二水平分类变量编码
3.3.2 多水平分类变量编码
3.4 连续变量信息提取
3.5 本章小结
第4章 手机销量水平的影响因素分析及预测建模
4.1 手机销量水平的影响因素分析
4.1.1 手机月平均销量的分布情况
4.1.2 手机月平均销量的影响因素
4.2 预测建模的相关算法原理介绍
4.2.1 决策树算法原理介绍
4.2.2 工具箱sklearn中实现的决策树算法
4.2.3 集成算法原理介绍
4.2.4 评价标准
4.3 手机销量水平的预测建模
4.3.1 基于决策树构建预测模型
4.3.2 基于集成算法构建预测模型
4.4 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]基于随机森林回归算法的感应电机驱动控制[J]. 彭喜英,李博文. 电气传动. 2018(06)
[2]基于网络爬虫的京东电商平台数据分析[J]. 魏倩男,贺正楚,陈一鸣. 经济数学. 2018(01)
[3]基于Python的电商书籍数据爬虫研究[J]. 晋振杰,曹少中,项宏峰,王明道,李新佩. 北京印刷学院学报. 2018(03)
[4]基于Python的Web信息获取方法研究[J]. 魏冬梅,何忠秀,唐建梅. 软件导刊. 2018(01)
[5]基于指数平滑与回归分析的手机销量预测研究[J]. 孙威,代明君. 牡丹江师范学院学报(自然科学版). 2017(04)
[6]基于Selenium的Python网络爬虫的实现[J]. 花君林. 电脑编程技巧与维护. 2017(15)
[7]基于爬虫的低价折扣推荐系统设计与实现[J]. 郑志越. 信息与电脑(理论版). 2016(19)
[8]网络爬虫的设计与实现[J]. 董日壮,郭曙超. 电脑知识与技术. 2014(17)
[9]基于随机森林的特征选择算法[J]. 姚登举,杨静,詹晓娟. 吉林大学学报(工学版). 2014(01)
[10]基于品牌手机未来销量预测[J]. 陈红周,刘碧玉,李学全. 数学理论与应用. 2009(03)
硕士论文
[1]手机销量影响因素分析及预测研究[D]. 唐楚.湖南大学 2017
[2]iPhone在华销量影响因素研究[D]. 郑雅微.湖南大学 2017
[3]基于数据挖掘的销售预测研究[D]. 杜新武.山东轻工业学院 2011
本文编号:3160261
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:52 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 选题背景
1.2 国内外研究现状
1.2.1 国内研究现状
1.2.2 国外研究现状
1.3 论文研究内容
第2章 网络爬虫介绍以及数据抓取
2.1 网络爬虫介绍以及论文数据来源
2.1.1 网络爬虫介绍
2.1.2 论文数据
2.2 本文中使用的三个网络爬虫
2.2.1 爬虫一号介绍
2.2.2 爬虫二号介绍
2.2.3 爬虫三号介绍
2.3 本章小结
第3章 数据清洗转换
3.1 数据质量检查以及修正
3.2 衍生特征构造
3.2.1 手机支持网络类型
3.2.2 评论比率
3.2.3 官方店铺
3.2.4 累计销售天数
3.3 分类变量编码
3.3.1 二水平分类变量编码
3.3.2 多水平分类变量编码
3.4 连续变量信息提取
3.5 本章小结
第4章 手机销量水平的影响因素分析及预测建模
4.1 手机销量水平的影响因素分析
4.1.1 手机月平均销量的分布情况
4.1.2 手机月平均销量的影响因素
4.2 预测建模的相关算法原理介绍
4.2.1 决策树算法原理介绍
4.2.2 工具箱sklearn中实现的决策树算法
4.2.3 集成算法原理介绍
4.2.4 评价标准
4.3 手机销量水平的预测建模
4.3.1 基于决策树构建预测模型
4.3.2 基于集成算法构建预测模型
4.4 本章小结
结论
参考文献
致谢
【参考文献】:
期刊论文
[1]基于随机森林回归算法的感应电机驱动控制[J]. 彭喜英,李博文. 电气传动. 2018(06)
[2]基于网络爬虫的京东电商平台数据分析[J]. 魏倩男,贺正楚,陈一鸣. 经济数学. 2018(01)
[3]基于Python的电商书籍数据爬虫研究[J]. 晋振杰,曹少中,项宏峰,王明道,李新佩. 北京印刷学院学报. 2018(03)
[4]基于Python的Web信息获取方法研究[J]. 魏冬梅,何忠秀,唐建梅. 软件导刊. 2018(01)
[5]基于指数平滑与回归分析的手机销量预测研究[J]. 孙威,代明君. 牡丹江师范学院学报(自然科学版). 2017(04)
[6]基于Selenium的Python网络爬虫的实现[J]. 花君林. 电脑编程技巧与维护. 2017(15)
[7]基于爬虫的低价折扣推荐系统设计与实现[J]. 郑志越. 信息与电脑(理论版). 2016(19)
[8]网络爬虫的设计与实现[J]. 董日壮,郭曙超. 电脑知识与技术. 2014(17)
[9]基于随机森林的特征选择算法[J]. 姚登举,杨静,詹晓娟. 吉林大学学报(工学版). 2014(01)
[10]基于品牌手机未来销量预测[J]. 陈红周,刘碧玉,李学全. 数学理论与应用. 2009(03)
硕士论文
[1]手机销量影响因素分析及预测研究[D]. 唐楚.湖南大学 2017
[2]iPhone在华销量影响因素研究[D]. 郑雅微.湖南大学 2017
[3]基于数据挖掘的销售预测研究[D]. 杜新武.山东轻工业学院 2011
本文编号:3160261
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3160261.html