基于本体的苹果病虫害垂直搜索引擎研发
本文选题:苹果病虫害 + 领域本体 ; 参考:《西北农林科技大学》2017年硕士论文
【摘要】:随着互联网的迅速发展,网络信息的急剧膨胀给果农提供丰富病虫害信息资源的同时,又在有效使用方面面临新的挑战。针对现有搜索引擎查准率低、基于关键字的信息检索技术不能满足用户在语义上的需求,本文在领域本体的基础上展开对苹果病虫害垂直搜索引擎的相关研究。本文主要研究内容及结论如下:(1)苹果病虫害本体的构建。针对手工本体构建效率低,对领域专家依赖性太强等问题,采用基于文献的领域本体构建方法构建苹果病虫害本体。首先,本文对领域语料进行中文分词和数据清洗,通过相关性判断得到领域概念。然后,利用关联分析和聚类技术得到领域概念间的关联关系。最后,利用关系数据库对领域本体进行存储。该方法减少了对领域专家的依赖性,提高了领域本体构建的自动性。(2)苹果病虫害垂直搜索引擎的构建。针对苹果病虫害信息检索准确率低的问题,将领域本体引入垂直搜索引擎的构建中。首先,进行信息的采集和过滤。选取高质量的URL作为初始种子,用爬虫爬取相关页面并对页面进行分析,抽取出页面中的链接,并利用正则表达式对链接进行过滤,将过滤后的URL放入URL库;抽取网页正文进行主题相关性判断,将相关性高的网页存储在计算机中,按倒排索引策略动态建立索引。然后,实现信息的扩展查询和相关词的可视化推荐。最后对优化的主题爬虫、信息抽取性能和苹果病虫害垂直搜索引擎进行测试。实验表明,优化的爬虫速度提高了12.7倍。基于包装器的信息抽取的查准率保持在94.6%以上,F-指标性能在87.5%以上。本文研究的搜索引擎返回结果数目适当,相关度比较好,比普通搜索引擎高22%,比“农搜网”高5.2%。(3)原型系统的设计与实现。为了方便对信息检索平台的使用和管理,设计并实现了基于本体的苹果病虫害垂直搜索引擎原型系统,实现了领域本体的构建、网页的动态抓取、动态建立索引、扩展查询和相关词可视化推荐等功能。
[Abstract]:With the rapid development of the Internet, the rapid expansion of network information to fruit farmers to provide rich information resources, but also in the effective use of new challenges. In view of the low precision of the existing search engines and the fact that the keyword-based information retrieval technology can not meet the semantic needs of users, this paper studies the vertical search engine of apple diseases and insect pests on the basis of domain ontology. The main contents and conclusions of this paper are as follows: 1) the construction of apple pest and disease ontology. Aiming at the problems of low efficiency of manual ontology construction and too strong dependence on domain experts, a method of constructing apple pest and disease ontology based on literature was adopted. Firstly, the Chinese word segmentation and data cleaning of the domain corpus are carried out, and the domain concept is obtained by correlation judgment. Then, the correlation relationship between domain concepts is obtained by using association analysis and clustering techniques. Finally, domain ontology is stored by relational database. This method reduces the dependence on domain experts and improves the automatic construction of domain ontology. Aiming at the problem of low accuracy of apple pest information retrieval, domain ontology is introduced into vertical search engine. Firstly, the information is collected and filtered. The high quality URL is chosen as the initial seed, the crawler is used to crawl the relevant page and analyze the page, the link in the page is extracted, and the link is filtered by the regular expression, and the filtered URL is put into the URL library. The text of the web page is extracted to judge the relevance of the topic, and the pages with high correlation are stored in the computer, and the index is built dynamically according to the inverted index strategy. Then, the extended query of information and the visual recommendation of related words are implemented. Finally, the optimized subject crawler, information extraction performance and vertical search engine of apple pests and diseases were tested. The experimental results show that the optimized crawler speed is increased by 12.7 times. The precision rate of information extraction based on wrapper is above 94.6% and the performance of F- index is over 87.5%. The number of returned results of search engines studied in this paper is appropriate and the correlation degree is good. The design and implementation of the prototype system is 22% higher than that of ordinary search engines and 5.2% higher than that of "Nong Sou net". In order to facilitate the use and management of information retrieval platform, a prototype system of vertical search engine for apple diseases and insect pests based on ontology is designed and implemented. Extended query and related words visual recommendation and other functions.
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 肖冬梅;垂直搜索引擎研究[J];图书馆学研究;2003年02期
2 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
3 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
4 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
5 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
6 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
7 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
8 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
9 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
10 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期
相关会议论文 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
相关重要报纸文章 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
相关博士学位论文 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
相关硕士学位论文 前10条
1 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
2 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
3 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 柳力丽;旅游垂直搜索引擎的品牌传播研究[D];西南大学;2015年
5 钱永杰;面向网络文学的垂直搜索引擎的研究与实现[D];曲阜师范大学;2015年
6 袁凤云;垂直搜索引擎关键技术研究与实现[D];电子科技大学;2014年
7 任睿丽;面向旅游业的垂直搜索引擎的设计与实现[D];电子科技大学;2014年
8 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年
9 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年
10 杨小丹;面向教育资源c\索引擎的研究与实现[D];电子科技大学;2015年
,本文编号:1999108
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1999108.html