面向汽车领域采购线索发现的主题爬虫设计与实现
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.092;TP391.1
【部分图文】:
通用爬虫架构
主题爬虫与通用爬虫的区别在于主题爬虫需要对网页的文本内容做出判断,将用户搜索的关键词与文本内容做对比,如果判断相关,则进行爬取。主题爬虫架构如图 2.所示。
预处理模块负责将网页文本信息进行分词处理。网页分析模块主要判断网页是否与该主题相关。搜索调度模块负责设定 url 队列中的 url 出入栈操作,并确定优先级。主题爬虫的系统结构图如下 2-3 所示:
【相似文献】
相关期刊论文 前10条
1 罗杰;;优化主题信息及材料收集与利用的探讨[J];山东教育;2016年Z2期
2 祁宁;吴齐;赵青;;面向主题信息服务的垂直搜索引擎应用研究[J];图书馆学研究;2008年09期
3 曾利沙;论旅游指南翻译的主题信息突出策略原则[J];上海翻译;2005年01期
4 丁国君;;小学主题信息教育的探索与实践[J];中小学电教;2002年09期
5 唐建;洪宇;刘梦眙;姚亮;姚建民;;融合图片主题信息的图片描述翻译[J];中文信息学报;2019年07期
6 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
7 吴筱媛,邓红素,顾宁;基于主题信息和相关信息发现的元数据描述方法[J];计算机工程;2002年02期
8 田丽;;情报分析中提取主题信息核心要素的模型及方法[J];计算机与现代化;2018年10期
9 梁田;;个性化科研主题信息环境构建技术方案实践[J];图书情报工作;2012年S2期
10 罗长寿;康丽;刘国靖;;基于遗传算法的主题信息搜索系统研究[J];现代情报;2009年03期
相关博士学位论文 前2条
1 梁晓贺;基于超网络分析的微博舆情主题发现研究[D];中国农业科学院;2019年
2 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
相关硕士学位论文 前10条
1 靖思婷;面向汽车领域采购线索发现的主题爬虫设计与实现[D];吉林大学;2019年
2 姚海申;面向网络敏感信息的主题识别及其情感分析技术研究[D];中央民族大学;2019年
3 叶康;基于主题模型和注意力机制的短文本方面提取研究[D];南京大学;2019年
4 陈明;基于主题翻译模型的社区问答中问句检索技术研究[D];武汉理工大学;2018年
5 雷俐;基于主题的微博重叠社区发现研究[D];中南财经政法大学;2018年
6 董德鸣;面向主题搜索引擎的若干关键技术的研究[D];沈阳建筑大学;2016年
7 刘竹辰;基于层次主题模型的网络热点分析研究与实现[D];北京邮电大学;2019年
8 郭思琦;基于滑动事件窗口的图书馆资源恶意下载检测系统研究与实现[D];北京邮电大学;2019年
9 张秋楠;面向兴趣主题的新浪微博个性化推荐方法[D];河南大学;2018年
10 孙淑娴;基于矩阵分解的长尾主题挖掘算法的研究与实现[D];山东师范大学;2018年
本文编号:2884928
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2884928.html