当前位置:主页 > 经济论文 > 国际贸易论文 >

基于蚁群算法的分布式爬虫技术研究及应用

发布时间:2020-07-03 10:58
【摘要】:伴随着互联网技术的快速发展以及人们生活水平的不断提升,在线电子商务进入蓬勃发展的阶段,从而促使多种在线购物平台的出现。近年来随着以京东商城和天猫商城为代表的B2C购物模式的迅速发展,与日俱增的业务量和信息量给企业的发展和用户的选择带来了巨大的困扰。如何利用搜索引擎技术获取这些海量的数据?如何从海量消费数据中挖掘客户的真实需求?这些问题成为目前电商领域研究的热点和难点。因此,运用爬虫技术以及数据驱动模式精准挖掘客户的消费偏好,是B2C购物网站达成精准营销目的的重要保障。但随着互联网中信息量日益增多以及网络反爬虫技术革新,传统爬虫技术逐渐难以满足海量数据采集的需求,其局限性日益突出:一是传统爬虫无法完成海量商品数据采集的任务;二是传统爬虫缺乏“启发性”,很难绕过人机交互以及指纹验证等爬虫阻拦;三是传统爬虫采集速度慢,运行时间过长。这些问题严重影响了数据挖掘的研究,这时便产生了基于蚁群算法的分布式爬虫技术,它被作为解决传统爬虫缺乏“启发性”的一种潜在方案而投入研究使用。本文围绕电商平台网站,对数据采集和网络反爬虫进行了研究和探索。首先,介绍搜索引擎的基础理论、网络爬虫基本原理、蚁群算法理论、分布式爬虫技术、反爬虫技术和验证码识别技术,引出分布式爬虫模型;随后,对分布式爬虫模型中的Scrapy-Redis模型进行了研究;接着,对蚁群算法模型以及验证码识别模型进行了着重研究,提出了基于蚁群算法的分布式爬虫,并对蚁群算法指导分布式爬虫的相关理论进行了深入分析,从爬虫运行日志信息中挖掘出电商平台反爬虫的回调地址与特征,并将这些重要信息加以利用从而能“启发性”的指导传统爬虫;最后,利用Python实现基于蚁群算法的分布式爬虫采集系统,完成对电商数据的挖掘。通过对基于蚁群算法的分布式爬虫和传统爬虫两者不同点的研究,发现目前传统爬虫对电商网站中信息资源的整体分布是未知的,不能很好地预测爬行方向和解决爬虫陷阱。通过研究数据得出结论证明,基于蚁群算法的分布式爬虫技术能够更好地指导传统爬虫。
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F713.36;F274;TP18;TP311.13

【相似文献】

相关期刊论文 前10条

1 何准;潘华;;加强经管学科中算法分析与设计教学的建议[J];知识经济;2019年34期

2 杨彦红;;算法分析与设计(双语)课程实践教学模式探索[J];中国管理信息化;2017年19期

3 李绍静;许海洋;吕建波;;应用型人才培养中《算法分析与设计》课程教学方法研究[J];科技资讯;2017年04期

4 刘子旋;;中国古代算法的探究与模型建立[J];中华少年;2017年04期

5 曹千秋;;求离散点最小包围圆在算法初步教学中的案例分析[J];中华少年;2017年11期

6 郭亚玲;;算法初步的几个着力点[J];高中生学习(试题研究);2017年09期

7 杨波;肖自碧;;信息与计算科学专业“算法分析与设计”研究性教学探索[J];中国电力教育;2013年01期

8 郑大伟;董大南;;自回归谱估计的Marple算法及其在天文资料分析中的应用[J];天文学报;1987年04期

9 郑卓嘉,吴佑寿,李叔梁;计算机三维逼真图形显示的一种改进算法[J];计算机学报;1988年01期

10 廖先n\;赵先铭;张赤红;;分布式计算机系统容错互斥算法[J];计算机研究与发展;1988年07期

相关会议论文 前10条

1 唐乾玉;陈翰馥;;用扰动分析的优化算法的收敛性——PARMSR算法分析[A];1993年控制理论及其应用年会论文集[C];1993年

2 刘远新;邓飞其;罗艳辉;舒添慧;;ERP柔性平台下物流运输配送系统算法分析[A];第二十六届中国控制会议论文集[C];2007年

3 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年

4 王晓刚;王耀兴;;RIM算法分析及优化方案[A];2016山西省通信学会学术年会论文集[C];2016年

5 马兴;罗恒;鲁建壮;;ECC校验的算法分析与设计实现[A];第十八届计算机工程与工艺年会暨第四届微处理器技术论坛论文集[C];2014年

6 李海亮;赵转萍;;用于圆检测的Hough变换和改进算法分析[A];江苏省计量测试学会2005年论文集[C];2005年

7 董滨;赵庆卫;颜永红;;发音质量自动评估的现有算法分析[A];第八届全国人机语音通讯学术会议论文集[C];2005年

8 宋欣;王娟;张斌;叶世伟;;流形学习算法分析及在人脸数据库上的应用[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

9 刘博;;搜索竞价排名算法分析[A];中国通信学会第五届学术年会论文集[C];2008年

10 葛云生;;干涉型光纤传感器的正交解调算法分析[A];第三届全国虚拟仪器大会论文集[C];2008年

相关重要报纸文章 前3条

1 本报记者 李新玲;《算法帝国》预测机器可能统治世界[N];中国青年报;2014年

2 科文;VIXD算法分析Web异常[N];中国计算机报;2008年

3 本报记者 宋豪新 常碧罗;新算法让孩子更好学[N];人民日报;2019年

相关博士学位论文 前10条

1 苏敏;无条件稳定的LOD-FDTD算法研究[D];国防科学技术大学;2016年

2 吕翠翠;基于压缩感知的无线传感器网络数据采集算法研究[D];哈尔滨工业大学;2017年

3 康岚兰;粒子群优化算法若干改进策略及其机理分析[D];武汉大学;2017年

4 卢思超;食品冷链运输相关优化模型及算法研究[D];北京交通大学;2018年

5 候盈男;基于多组学数据的肿瘤信息挖掘算法研究[D];山东大学;2019年

6 付钰;面向物联网的RFID标签识别算法研究[D];吉林大学;2018年

7 谢刚;免疫思维进化算法及其工程应用[D];太原理工大学;2006年

8 于滨;城市公交系统模型与算法研究[D];大连理工大学;2006年

9 陈耿;面向中观审计的规则发现算法研究[D];东南大学;2005年

10 李宁;粒子群优化算法的理论分析与应用研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 王梓权;基于局部扩张的复杂网络社区发现算法研究[D];重庆邮电大学;2019年

2 刘委青;带无人机协助运输的包裹投递优化算法的研究及其实现[D];哈尔滨工业大学;2019年

3 许玲;改进的K-means算法研究与实现[D];安徽大学;2019年

4 黄宝莹;群组角色协同树形约束指派算法及其优化[D];广东工业大学;2019年

5 张蕾;基于指数退避的Gossip算法研究[D];南京邮电大学;2019年

6 兰小明;一种高效的复杂网络重叠社团挖掘算法[D];西安电子科技大学;2019年

7 胡世昌;Apriori算法的研究与改进[D];青岛大学;2019年

8 朱晓辉;基于分布式压缩感知及线性简化的轨迹压缩算法研究[D];上海交通大学;2017年

9 程璇;改进的FCM算法及其应用研究[D];山东科技大学;2018年

10 张冬冬;基于蚁群算法的分布式爬虫技术研究及应用[D];江苏科技大学;2019年



本文编号:2739570

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2739570.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0406f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com