当前位置:主页 > 经济论文 > 电子商务论文 >

基于爬虫与数据挖掘的电商页面信息分析

发布时间:2020-07-26 22:31
【摘要】:随着互联网产业的迅猛发展,计算机相关技术的跳跃式演变以及行业规模的不断扩大创新.电子商务从最初的不被信任到现在动动手指就可购物,电商平台对老百姓生活产生的影响不言而喻.2017年“双十一”这天,淘宝网单日平台交易额突破了1682亿人民币,人民的日常生活早已离不开电子商务平台.在电商平台的网络交易中,消费者可以通过浏览商品网页获取商品的各类信息,以此决定是否购买,而这些信息又可以为市场和营销带来更好的转变机会.因此,本文将结合爬虫技术与相应的数据挖掘方法对电商的网页信息进行采集与探究性分析,期望构建一套从数据提取到数据挖掘的系统性研究方法,帮助店家及消费者更好的探究需求,并为丰富电子商务市场营销策划提供参考.从消费人群来看,80、90后年龄段的消费者占比近八成多,是电子商务消费的核心主导力量,而该阶段的消费者都要经历面试及就业,因此选用西装为研究对象很具有代表性.本文通过搭建web自动化爬虫框架获取了淘宝网西装商品全部共8000多家网店的网页信息,并通过对数据信息检查选择出最适合该类数据的数据挖掘方法.最终决定使用描述性分析与回归分析、文本聚类分析相结合的研究方法,探索其潜在的数据价值,从而为飞速发展的电商产业提供系统优质的数据挖掘技术支持.本文主要工作分为六个部分:第一部分:绪论,主要阐述研究的背景、综述、研究的内容与结构安排.第二部分:数据提取与存储的方法介绍,简单阐述了需要使用的工具及其优缺点,为数据爬取奠定基础.第三部分:网页信息的处理方法,分别讲述了有关商品销售量的多元回归分析模型及对网页信息采用的“无监督学习”文本聚类方法.第四部分:K-Means算法的展开,从数据预处理、向量空间模型(VSM)、IDFTF-算法、与引用惯性权重的K-Means评价等详细记录了算法的实现流程.第五部分:实证部分,从环境配置、数据获取与存储、描述性分析、回归分析、文本聚类各环节构建一套系统的数据探究方法,最大化探索数据价值以达到研究目的.第六部分:总结与展望.为电商网页信息的数据挖掘及市场发展提供参考性建议支持.
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F724.6;F274
【图文】:

流程图,系统性研究,流程图


兰州大学硕士学位论文 基于爬虫与数据挖掘的电商页面信息分析研究将分为四个部分,分别从数据的爬虫获取、数据库存储与提取、数据的简单描述性分析和数据探究性分析展开,建立一套系统的研究方法.研究结构如下图 1.4.

过程图,第三方,过程,源码


往往短短的几行命令便可以实现其他编程软件数行的作用.从爬虫的步骤来说明,前两步获取网页源码和解析源码都需要使用到python的第三方库,这里如图2.3.1所示.例如在获取数据方面,可以调用python的Requests库、urllib包;而解析数据则可以使用Xpath包或者BeautifulSoup4库;当进阶到工程式爬虫时,则可以接触 Python 的 Scrapy 框架,这是一款适用于满足各种爬虫需要并可以根据需求方便修改的第三方库.这里不做过多介绍.如需了解可参考文献[20].图 2.3

可视化界面


2.3.3 非关系型数据库 MongoDB随着海量数据的产生,传统的文本文件保存方式已经不能满足日常的需要,并不是只有企业才需要数据库,对于一名数据研究人员,或想要从事数据研究的业余爱好者,掌握一门数据库都是很明智的选择.相比与 SQL、Oracle 等大型数据库,MongoDB 是一个集开源、高性能、可分布式等多种优点于一身的文档型非关系数据库,非常适合于爬虫数据的存储.而Python 也有与之匹配的第三方库 pymongo 可以通过简单的命令存储数据.基于 Python 的相关安装:(1)首先需要安装 MongoDB 的数据库,可以选择性安装其可视化工具RoboMongo 便于查看数据.(2)安装用于操作 MongoDB 的 Python 的第三方库 pymongo.(3)推荐使用 Python 的编译器 Pycharm,界面简单同时编程时有各种辅助性提示方便操作,其拥有 MongoDB 的插件更是可以对 MongoDB 进行可视化操作.插件名为 Mongo Plugin.

【参考文献】

相关期刊论文 前10条

1 赵雅菲;;数据挖掘对电商平台的影响[J];现代营销(下旬刊);2017年06期

2 刘宇;郑成焕;;基于Scrapy的深层网络爬虫研究[J];软件;2017年07期

3 王宝义;;中国电子商务网络零售产业演进、竞争态势及发展趋势[J];中国流通经济;2017年04期

4 沈静;;浅析中文分词方法[J];漳州职业技术学院学报;2016年03期

5 毕晨磊;王露露;杨进;张莹;;从“双十一”网购盛宴看中国电商发展[J];商;2015年03期

6 成功;李小正;赵全军;;一种网络爬虫系统中URL去重方法的研究[J];中国新技术新产品;2014年12期

7 董日壮;郭曙超;;网络爬虫的设计与实现[J];电脑知识与技术;2014年17期

8 翟东海;鱼江;高飞;于磊;丁锋;;最大距离法选取初始簇中心的K-means文本聚类算法的研究[J];计算机应用研究;2014年03期

9 崔建明;刘建明;廖周宇;;基于SVM算法的文本分类技术研究[J];计算机仿真;2013年02期

10 陆雄文;褚荣伟;;国外电子商务发展的比较及启示[J];市场营销导刊;2005年04期

相关会议论文 前1条

1 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

相关硕士学位论文 前4条

1 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年

2 周海晨;基于爬虫与文本挖掘的“985”高校图书馆微信公众号的调研[D];安徽大学;2017年

3 范佳健;微博评论信息的聚类分析[D];安徽大学;2017年

4 张睿;基于k-means的中文文本聚类算法的研究与实现[D];西北大学;2009年



本文编号:2771383

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2771383.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2ee2d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com