基于爬虫与数据挖掘的电商页面信息分析
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F724.6;F274
【图文】:
兰州大学硕士学位论文 基于爬虫与数据挖掘的电商页面信息分析研究将分为四个部分,分别从数据的爬虫获取、数据库存储与提取、数据的简单描述性分析和数据探究性分析展开,建立一套系统的研究方法.研究结构如下图 1.4.
往往短短的几行命令便可以实现其他编程软件数行的作用.从爬虫的步骤来说明,前两步获取网页源码和解析源码都需要使用到python的第三方库,这里如图2.3.1所示.例如在获取数据方面,可以调用python的Requests库、urllib包;而解析数据则可以使用Xpath包或者BeautifulSoup4库;当进阶到工程式爬虫时,则可以接触 Python 的 Scrapy 框架,这是一款适用于满足各种爬虫需要并可以根据需求方便修改的第三方库.这里不做过多介绍.如需了解可参考文献[20].图 2.3
2.3.3 非关系型数据库 MongoDB随着海量数据的产生,传统的文本文件保存方式已经不能满足日常的需要,并不是只有企业才需要数据库,对于一名数据研究人员,或想要从事数据研究的业余爱好者,掌握一门数据库都是很明智的选择.相比与 SQL、Oracle 等大型数据库,MongoDB 是一个集开源、高性能、可分布式等多种优点于一身的文档型非关系数据库,非常适合于爬虫数据的存储.而Python 也有与之匹配的第三方库 pymongo 可以通过简单的命令存储数据.基于 Python 的相关安装:(1)首先需要安装 MongoDB 的数据库,可以选择性安装其可视化工具RoboMongo 便于查看数据.(2)安装用于操作 MongoDB 的 Python 的第三方库 pymongo.(3)推荐使用 Python 的编译器 Pycharm,界面简单同时编程时有各种辅助性提示方便操作,其拥有 MongoDB 的插件更是可以对 MongoDB 进行可视化操作.插件名为 Mongo Plugin.
【参考文献】
相关期刊论文 前10条
1 赵雅菲;;数据挖掘对电商平台的影响[J];现代营销(下旬刊);2017年06期
2 刘宇;郑成焕;;基于Scrapy的深层网络爬虫研究[J];软件;2017年07期
3 王宝义;;中国电子商务网络零售产业演进、竞争态势及发展趋势[J];中国流通经济;2017年04期
4 沈静;;浅析中文分词方法[J];漳州职业技术学院学报;2016年03期
5 毕晨磊;王露露;杨进;张莹;;从“双十一”网购盛宴看中国电商发展[J];商;2015年03期
6 成功;李小正;赵全军;;一种网络爬虫系统中URL去重方法的研究[J];中国新技术新产品;2014年12期
7 董日壮;郭曙超;;网络爬虫的设计与实现[J];电脑知识与技术;2014年17期
8 翟东海;鱼江;高飞;于磊;丁锋;;最大距离法选取初始簇中心的K-means文本聚类算法的研究[J];计算机应用研究;2014年03期
9 崔建明;刘建明;廖周宇;;基于SVM算法的文本分类技术研究[J];计算机仿真;2013年02期
10 陆雄文;褚荣伟;;国外电子商务发展的比较及启示[J];市场营销导刊;2005年04期
相关会议论文 前1条
1 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关硕士学位论文 前4条
1 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年
2 周海晨;基于爬虫与文本挖掘的“985”高校图书馆微信公众号的调研[D];安徽大学;2017年
3 范佳健;微博评论信息的聚类分析[D];安徽大学;2017年
4 张睿;基于k-means的中文文本聚类算法的研究与实现[D];西北大学;2009年
本文编号:2771383
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2771383.html