当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种面向农业信息主题网络爬虫的设计

发布时间:2018-09-18 17:15
【摘要】:针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。
[Abstract]:In order to solve the problem that the general search engine returns too much information and the theme correlation is not strong when users are querying the agricultural information subject or related fields, a design scheme of the subject crawler for agricultural information is proposed in this paper. The crawling strategy, structure design, principle and implementation of this topic are discussed in detail. The preliminary experimental results show that the accuracy, total rate and success rate of the theme crawler based on the design scheme are obviously better than that of the common crawler when grabbing the agricultural information theme web page.
【作者单位】: 昆明理工大学现代农业工程学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前4条

1 常为领;孙瑞志;高万林;;基于ROBOT的农业信息搜索引擎设计[J];农业网络信息;2006年08期

2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

3 龙宇巍,王永成,许欢庆;定题搜索引擎Robot的设计与算法[J];计算机仿真;2004年04期

4 宋聚平,王永成,滕伟,许欢庆;搜索引擎中Robot搜索算法的优化[J];情报学报;2002年02期

【共引文献】

相关期刊论文 前10条

1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

3 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期

4 查志琴;;基于行模式的网页信息提取算法[J];常州工学院学报;2007年04期

5 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期

6 张戬慧;;专业智能搜索系统在动物医学领域中的应用[J];东北农业大学学报;2009年09期

7 刘德仿;王斌;;面向教学领域的智能搜索引擎的研究与开发[J];电化教育研究;2007年05期

8 高磊;徐东平;;启发式算法在搜索引擎的应用[J];电脑知识与技术(学术交流);2007年02期

9 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期

10 蒯晓童,王银娣;搜索引擎Robot技术的优化算法研究[J];地理空间信息;2004年04期

相关会议论文 前6条

1 杨卫明;;独立式搜索引擎原理及存在问题分析[A];2008年计算机应用技术交流会论文集[C];2008年

2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 丁军平;蔡皖东;;基于SVM主动学习算法的元信息获取研究[A];Proceedings of 2010 International Conference on Circuit and Signal Processing & 2010 Second IITA International Joint Conference on Artificial Intelligence(Volume 2)[C];2010年

5 ;The Model and Optimization of Search Engine Based on Hadoop[A];Proceedings of 2010 International Conference on Services Science, Management and Engineering(Volume 1)[C];2010年

6 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

相关博士学位论文 前8条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年

3 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年

4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

5 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年

6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

8 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

相关硕士学位论文 前10条

1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年

5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年

6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

7 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年

8 郝阳;基于语义分析的产品评论挖掘技术研究[D];天津大学;2010年

9 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年

10 区玉明;客户保持中两个问题的研究:对网站感兴趣用户的识别和网站质量评价[D];广西师范大学;2004年

【二级参考文献】

相关期刊论文 前1条

1 王桂云;基于Robot搜索引擎的自动检索技术[J];中国信息导报;2003年01期

【相似文献】

相关期刊论文 前10条

1 董志昕;浅谈农业信息搜索引擎的设计制作[J];计算机与农业;2002年08期

2 夏崇镨;康丽;;基于叙词表的主题爬虫技术研究[J];现代图书情报技术;2007年05期

3 陈晨;;基于主题爬虫的个性化搜索引擎技术研究[J];黑龙江科技信息;2010年31期

4 赵思佳;尹婷;;基于规则引擎的个性化主题网页爬虫的研究[J];计算机技术与发展;2011年03期

5 秦学勇;;基于互联网资源的学科Ontology构建研究[J];廊坊师范学院学报(自然科学版);2011年02期

6 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期

7 何毅;;建筑院校主题搜索引擎设计与实现[J];吉林建筑工程学院学报;2010年05期

8 刘国靖;康丽;罗长寿;;基于遗传算法的主题爬虫策略[J];计算机应用;2007年S2期

9 任辉;;基于关键词的生物主题爬虫设计[J];图书情报工作;2009年09期

10 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期

相关会议论文 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年

相关重要报纸文章 前10条

1 李一鑫;搜索排名的红与黑[N];财经时报;2007年

2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年

3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年

5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年

6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年

7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年

9 孙t;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年

10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年

相关博士学位论文 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

5 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

6 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年

相关硕士学位论文 前10条

1 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

2 温泉;基于聚焦相关度排序的搜索引擎研究与应用[D];东华大学;2010年

3 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

4 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年



本文编号:2248586

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2248586.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9576b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com