当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向汽车领域采购线索发现的主题爬虫设计与实现

发布时间:2020-11-15 15:40
   随着互联网的不断发展,网络现已成为全球化的信息库。在当今工业化、信息化的时代,汽车领域的网络数据增长迅速,其中关于车辆采购的信息能够充分表明市场中对于汽车的具体需求。对于汽车采购线索的发现与研究,在汽车销售、研发等方面起着重要的作用。互联网中存在着大量汽车领域相关采购数据的信息资源,但是由于信息获取较为复杂,不能被共享,导致了大量资源的浪费。如何定向爬取汽车采购线索的数据,将信息资源进行整合,成为目前主要的研究方向。政府采购网站是一个获取汽车采购数据的重要来源,主题爬虫技术是获取网络数据信息的主要方法,也是本文的主要研究内容。主题爬虫的功能是根据预设的关键词和初始网络url地址,在web上爬取与主题相关的数据资源。为获取汽车领域内采购线索的信息,本文在进行充分研究后,设计并实现了面向汽车领域采购线索发现的主题爬虫系统,主要工作如下:首先对各省市政府采购网站进行网页结构分析,爬取网站公告中与车辆采购、汽车租赁相关的网页信息,获取网页间的链接关系并存入数据库。其次,对PageRank算法进行改进,使其更加适用于汽车领域内采购线索的发现。传统的PageRank算法只考虑到网页之间的链入链出关系,并没有考虑主题相关度,会出现“主题漂移”现象,以及算法没有考虑到网页发布时间而导致“偏重旧网页”等问题。本文针对以上不足,将传统PageRank算法与车辆采购主题相结合,提出了一种面向汽车领域采购线索的APC-PageRank算法。该算法通过判断文本与汽车采购主题的相关性计算得到文本的权重值。权重值向量作为APC-PageRank算法的一个参数进行迭代计算。此外,文本在网页文档中出现的位置不同,重要性也不相同,例如标题的重要程度会高于正文内容。因此,对词项出现的不同位置赋予不同权重,作为APC-PageRank算法的一个参数。由于采购网公告会显示发布时间,所以添加时间反馈因子,对新发布的网页做出一定的补偿,使新网页在一定程度上能够上浮。最终得出PR值,并根据得分进行网页排名,使排序的结果更加符合主题。最后,针对设计出的面向汽车领域采购线索发现的主题爬虫系统进行实现。实验结果表明改进后的算法在汽车领域内对于汽车采购线索的主题表示方面具有良好的效果,主题明确且链入链出度高的网页,能够获得更高的排名,网页排序的主题准确率有所提高。
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.092;TP391.1
【部分图文】:

面向汽车领域采购线索发现的主题爬虫设计与实现


通用爬虫架构

架构图,主题,架构,文本内容


主题爬虫与通用爬虫的区别在于主题爬虫需要对网页的文本内容做出判断,将用户搜索的关键词与文本内容做对比,如果判断相关,则进行爬取。主题爬虫架构如图 2.所示。

系统结构图,主题,系统结构图,网页


预处理模块负责将网页文本信息进行分词处理。网页分析模块主要判断网页是否与该主题相关。搜索调度模块负责设定 url 队列中的 url 出入栈操作,并确定优先级。主题爬虫的系统结构图如下 2-3 所示:
【相似文献】

相关期刊论文 前10条

1 罗杰;;优化主题信息及材料收集与利用的探讨[J];山东教育;2016年Z2期

2 祁宁;吴齐;赵青;;面向主题信息服务的垂直搜索引擎应用研究[J];图书馆学研究;2008年09期

3 曾利沙;论旅游指南翻译的主题信息突出策略原则[J];上海翻译;2005年01期

4 丁国君;;小学主题信息教育的探索与实践[J];中小学电教;2002年09期

5 唐建;洪宇;刘梦眙;姚亮;姚建民;;融合图片主题信息的图片描述翻译[J];中文信息学报;2019年07期

6 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期

7 吴筱媛,邓红素,顾宁;基于主题信息和相关信息发现的元数据描述方法[J];计算机工程;2002年02期

8 田丽;;情报分析中提取主题信息核心要素的模型及方法[J];计算机与现代化;2018年10期

9 梁田;;个性化科研主题信息环境构建技术方案实践[J];图书情报工作;2012年S2期

10 罗长寿;康丽;刘国靖;;基于遗传算法的主题信息搜索系统研究[J];现代情报;2009年03期


相关博士学位论文 前2条

1 梁晓贺;基于超网络分析的微博舆情主题发现研究[D];中国农业科学院;2019年

2 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年


相关硕士学位论文 前10条

1 靖思婷;面向汽车领域采购线索发现的主题爬虫设计与实现[D];吉林大学;2019年

2 姚海申;面向网络敏感信息的主题识别及其情感分析技术研究[D];中央民族大学;2019年

3 叶康;基于主题模型和注意力机制的短文本方面提取研究[D];南京大学;2019年

4 陈明;基于主题翻译模型的社区问答中问句检索技术研究[D];武汉理工大学;2018年

5 雷俐;基于主题的微博重叠社区发现研究[D];中南财经政法大学;2018年

6 董德鸣;面向主题搜索引擎的若干关键技术的研究[D];沈阳建筑大学;2016年

7 刘竹辰;基于层次主题模型的网络热点分析研究与实现[D];北京邮电大学;2019年

8 郭思琦;基于滑动事件窗口的图书馆资源恶意下载检测系统研究与实现[D];北京邮电大学;2019年

9 张秋楠;面向兴趣主题的新浪微博个性化推荐方法[D];河南大学;2018年

10 孙淑娴;基于矩阵分解的长尾主题挖掘算法的研究与实现[D];山东师范大学;2018年



本文编号:2884928

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2884928.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a0ca2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com