当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网络爬虫的注塑信息研究与实现

发布时间:2020-09-15 17:44
   这些年来,随着互联网的发展,尤其是智能手机和各种物联网设备的加入,互联网中的数据量也迎来了爆发式的增长。如此巨量的信息一方面丰富和方便了人们的生活,但另一方面也增加了获取有效信息的难度。因此采用主题爬虫技术方便快捷地收集注塑行业的相关信息,从而实现对注塑行业发展的监控和预测,对于企业发展有着重要意义。本文来源于《大型注塑成型智能制造工厂》,设计和实现了能够定向抓取网络数据的主题爬虫系统。通过阅读大量的国内外文献资料,然后结合项目实际中遇到的问题,对主题爬虫以及技术框架有了一定的了解和认识,发现一些对于主题爬虫的研究中所存在的问题:1)目前还没有对于如何选取适当的初始种子的研究;2)主题爬虫的性能和召回率仍有提高空间,需要进一步研究。针对上面提出的几个问题,通过进一步的实践研究,本文给出了一些新的解决方法,并以此为基础,设计实现了主题爬虫系统。在论文后面,利用多个实验表明了本文改进算法的效果。本文的创新点有以下几个:(1)在介绍了初始种子的选取问题后,在HITS算法的基础上,提出了一种新的改进,以此来更方便高效的选取初始种子。在本文中,结合HITS算法定义的权威度和中心度,通过它们来描述链接之间的连接情况,并定义了一个能够计算候选种子好坏的公式,从而选取更好的初始种子,提高主题爬虫的效率。在论文最后也给出了系统的采集结果,证明了算法改进的效果。(2)主题爬虫通常采用概念背景图来作为爬行策略,针对这种策略的缺点,本文给出了一种改进方法——基于综合价值的概念背景图的爬行策略。针对概念背景图的构建过程,给出了一种改进方法。与此同时,将经常被忽略的父网页、链接上下文等因素纳入了综合考虑,定义了一种能够预测待访问链接价值的公式,以此来提前预测链接价值,剔除无关链接,加快爬虫运行速率。在最后,给出相关实验数据,表明了采用改进后的爬行策略的主题爬虫,无论是速度还是精准度都有很大提升。(3)结合前两点,设计实现完整的主题爬虫系统。本文介绍了系统中关键模块的设计实现方案,并设计了相应的数据库方案,利用Java中的爬虫框架WebMagic实现了爬虫系统。该爬虫系统具有一定的通用性,初始种子选取策略的改进减少了大量的人工时间,爬行策略的改进提高了系统的速度和准确度。在最后,给出系统运行结果也表明爬行效率有显著的提升。
【学位单位】:广东工业大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.3
【部分图文】:

系统结构图,网络爬虫,系统结构,网链


图 2-1 网络爬虫系统结构Figure 2-1 Web crawler system structure中,不同网页之间通过超链接联系在一起,如果把不同的网链接就是连接它们的线,那么整个互联网就可以看做一个十

系统结构图,主题,系统结构


主题爬虫系统结构

相关度,计算流程,准确率,广泛应用


图 2-3 相关度计算流程Figure 2-3 Flow chart of correlation calculation型量化了文档的相关度,能够根据值的大小快速比较方便,准确率高。因此得到了广泛应用。

【相似文献】

相关期刊论文 前10条

1 罗杰;;优化主题信息及材料收集与利用的探讨[J];山东教育;2016年Z2期

2 祁宁;吴齐;赵青;;面向主题信息服务的垂直搜索引擎应用研究[J];图书馆学研究;2008年09期

3 曾利沙;论旅游指南翻译的主题信息突出策略原则[J];上海翻译;2005年01期

4 丁国君;;小学主题信息教育的探索与实践[J];中小学电教;2002年09期

5 唐建;洪宇;刘梦眙;姚亮;姚建民;;融合图片主题信息的图片描述翻译[J];中文信息学报;2019年07期

6 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

7 吴筱媛,邓红素,顾宁;基于主题信息和相关信息发现的元数据描述方法[J];计算机工程;2002年02期

8 田丽;;情报分析中提取主题信息核心要素的模型及方法[J];计算机与现代化;2018年10期

9 梁田;;个性化科研主题信息环境构建技术方案实践[J];图书情报工作;2012年S2期

10 罗长寿;康丽;刘国靖;;基于遗传算法的主题信息搜索系统研究[J];现代情报;2009年03期

相关会议论文 前10条

1 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 黄俊;;公共图书馆主题图书馆建设实践与思考——以江西省为例[A];中国图书馆学会年会论文集(2015年卷)[C];2015年

3 李燕;李胜阳;许志辉;朱子建;李长松;;基于本体语义的流域决策主题信息组织研究[A];大数据时代的信息化建设——2015(第三届)中国水利信息化与数字水利技术论坛论文集[C];2015年

4 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

5 丁晓阳;王兰成;吴彬;;基于词频与改进余弦相似算法的主题挖掘及索引应用研究[A];2019年中国索引学会年会暨学术研讨会论文集[C];2019年

6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 刁宇峰;林鸿飞;;基于LDA模型的博客垃圾评论发现[A];第六届全国信息检索学术会议论文集[C];2010年

8 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

9 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

10 田少娟;魏慧楠;王镭;;基于LDA主题模型的评论热点挖掘与手机产品性能分析[A];2017年(第五届)全国大学生统计建模大赛获奖论文选[C];2017年

相关博士学位论文 前3条

1 潘智勇;基于结构化主题模型的图像分类方法研究[D];哈尔滨工业大学;2019年

2 梁晓贺;基于超网络分析的微博舆情主题发现研究[D];中国农业科学院;2019年

3 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年

相关硕士学位论文 前10条

1 王纯宇;融合主题预测的多轮对话回复生成[D];哈尔滨工业大学;2019年

2 杨力;基于网络爬虫的注塑信息研究与实现[D];广东工业大学;2019年

3 丁伟鹏;基于主题融合的情感分类算法研究[D];西安电子科技大学;2019年

4 冯晋田;基于主题模型的无监督方面级观点挖掘算法研究[D];华中科技大学;2019年

5 陈虹雨;融合知识的层次主题模型研究与应用[D];华中科技大学;2019年

6 韩进宾;面向应用商店的主题爬虫设计与实现[D];东南大学;2018年

7 高唱;中国安全生产报社主题信息服务应用示范研究[D];北京印刷学院;2019年

8 李梦颖;基于主题模型的学习方法研究及其在用户画像上的应用[D];北京交通大学;2019年

9 彭叶红;基于主题模型与变分自编码的情感对话生成技术研究[D];华中师范大学;2019年

10 蒋艺琪;基于情感分析和特征过滤的主题提取方法研究[D];华中科技大学;2019年



本文编号:2819273

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2819273.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户80eb3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com