当前位置:主页 > 经济论文 > 国际贸易论文 >

基于业务插件化的电商大数据采集系统

发布时间:2020-10-17 07:48
   随着互联网技术的快速发展,电子商务也得到了长足发展,网络购物已经遍及到了全国各个地区,许多新兴的电商平台纷纷涌入,希望在这信息时代的市场分得一杯羹,因此吸引了越来越多的人加入到电商行业。电商产业是一种经济新业态,它的发展对于带动整个社会经济的发展有重要的作用。对于该产业比重较大的城市来说,去发现其背后的运作规律,从数据当中找到有效信息,做出合理的调整就变得十分必要。针对数据分析所需的大量电商数据,论文采用网络爬虫技术,提出了一种电商大数据采集系统,解决了数据的来源问题。论文首先介绍了电商大数据采集系统涉及到的各个关键技术,包括了网络爬虫的原理、字符串操作技术、URL去重技术、应对反爬虫的技术和数据库技术等。在此基础上对电商大数据采集系统进行了需求分析和可行性分析,设计了系统的总体框架和各功能模块。论文取得的主要成果如下:(1)针对爬行器访问Web服务器的过程,应用HTTP协议和IP管理池类来保证IP的有效性,使之不间断抓取网页。在页面解析方面,设计并实现了一种能够自动识别网页类型的解析器。针对不同的数据传输格式采用不同的数据解析机制,结合正则表达式完成对页面信息的抽取。针对传统数据采集系统可扩展性低的问题,提出了一种业务插件化的方法。对不同电商平台的爬虫业务编译成DLL文件,实现动态加载的插件化管理,即插即用。(2)针对实际的数据需求,提出了一种店铺分类方法。采用关键词分词技术,将商品标题中的商品类别提取出来,再结合商品交易额的权重,实现店铺所属类别的校正。论文最后对系统的功能进行了测试,结果显示该系统能够稳定运行,数据采集效率较高,能够达到预期的要求。
【学位单位】:浙江工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:F724.6;TP274.2
【部分图文】:

基于业务插件化的电商大数据采集系统


服务器运行状态图

基于业务插件化的电商大数据采集系统


系统运行日志该系统不仅能让用户通过运行日志来实时监测系统的运行状态,还增加了邮件警报功

基于业务插件化的电商大数据采集系统


电商交易信息采集结果
【参考文献】

相关期刊论文 前10条

1 周小红;周建伙;;MD5加密算法在注册及登录验证模块中的应用[J];工业控制计算机;2015年11期

2 唐永瑞;张达敏;;基于Ajax与MVC模式的信息系统的研究与设计[J];电子技术应用;2014年02期

3 曾灵华;;百度:全球最大中文搜索引擎是怎样炼成的[J];军事记者;2013年01期

4 胡军伟;秦奕青;张伟;;正则表达式在Web信息抽取中的应用[J];北京信息科技大学学报(自然科学版);2011年06期

5 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

6 刘国良;;基于INDY的无连接式网络通信的实现[J];洛阳理工学院学报(自然科学版);2010年01期

7 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期

8 刘兰;吴振新;;网络存储信息采集方式研究[J];图书馆杂志;2009年08期

9 门凤超;苗军民;;试论搜索引擎的现状与发展[J];现代情报;2008年02期

10 白光祖;吕俊生;;基于WebSPHINX的主题搜索引擎原理研究与结构设计[J];现代图书情报技术;2007年11期



本文编号:2844499

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2844499.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d99f4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com