当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的农业垂直搜索引擎的研究

发布时间:2021-01-29 09:05
  目前,互联网技术发展迅速,网络信息资源迅速增加,搜索引擎为人们查询互联网信息提供了极大的便利。在我国,农村人口众多,农业又是基础产业,加快农业信息化的建设步伐有助于有效的解决“三农”问题,整合农业信息资源,使我国农业逐步走向信息农业。有效的解决农业用户在生产、生活中遇到的各种农业问题,可以促进农业信息化的发展,本文研究和开发了一个农业领域的搜索引擎。本文是基于开源软件Nutch进行开发的。Nutch是一个基于java语言的开源项目,是一个轻量级且运行稳定的搜索引擎,有着较高的查全率和查准率。不过,Nutch在网页解析方面和摘要提取方面存在不足,不能满足农业用户的搜索要求,本文对Nutch的这两个方面进行了改进,并实现了搜索词的查询扩展功能。论文的主要工作如下:(1)在网页抓取策略中,采用广度优先算法进行网页信息的抓取,通过对爬行层数进行限制,可以尽可能多的抓取农业网站的网页信息。(2)在网页解析技术中,采用STU-DOM树模型,利用HTML解析器将HTML转换为一棵具有语义属性的DOM树,通过对其进行结构的过滤和内容的剪枝,保留与主题相关的节点信息,实现网页主题信息的提取功能。(3)在... 

【文章来源】:河北农业大学河北省

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于Nutch的农业垂直搜索引擎的研究


查看索引Fig.4-2checktheindexmap

界面图,前台,界面,文档


图4-3前台搜索界面Fig.4-3 the search interface(3)搜索结果展示当农业W户输入检索内容后,以搜索玉米为例,系统会将检索内容提交给后台,进行搜索,并对搜索结果进行摘要的提取和査询的扩展,最后返回给农业用户的搜索结果包括三方面的内容:检索出的文档标题、文档URL、文档的摘要内容和用户的查询扩展词。

盐山,金丝小枣,农业,搜索引擎


图4-7 SDD搜索结果Fig.4-7 the SDD engine search results伴随着历史的进程,沧州市盐山县全县地势坦荡,农产品依赖于特定区域的气候、水质、土壤等,逐渐产生了许多优势农产品和特色农产品。全县面积73万亩,盛产小枣、玉米、谷子、高粱等,经济作物有苜蓿、设施蔬菜、金丝小枣、棉花、花生等,菜、枣、草、畜为农业四大支柱,金丝小枣种植面积已达35万亩,菜、枣、畜发展势迅猛。盐山县的种植养殖农户需要及时的农业信息、农业技术、农业资讯及国家政策等。本文针对盐山县的实际情况,通过对当地农业用户进行调查,对他们的生产、生活中遇到的实际问题进行了搜索,选择了 100个查询内容,使用不同的搜索引擎得到的搜索结果不同。对于每种搜索引擎,每次搜索都对前20篇文档进行统计,共得到2000个搜索结果,现对搜索结果进行对比分析,如下表:表4-1搜索结果比较Tab. 4-1 comparison of results of search对比项 农业用户对搜索 含有大量链接或 检索词与农业 ZTI 有无摘要情况搜索引拿结果满意的文档数 死链接的网站数 无关的文档数 查询扩展百度 584 1164 581 截取文本前部分 有

【参考文献】:
期刊论文
[1]基于本体的Web信息抽取研究综述[J]. 金燕.  图书馆学研究. 2012(16)
[2]基于农业信息化的垂直搜索引擎的分析与设计[J]. 彭攀峰,刘波.  农机化研究. 2012(05)
[3]实现Lucene接口的中文分词器的比较研究[J]. 黄翼彪.  科技信息. 2012(12)
[4]IK Analyzer 2012发布中文分词库[J].   硅谷. 2012(06)
[5]国外本体构建方法比较分析[J]. 尚新丽.  图书情报工作. 2012(04)
[6]基于领域本体知识库的语义查询扩展[J]. 杨清琳,李陶深,农健.  计算机工程与设计. 2011(11)
[7]基于Jena及其本体推理的研究[J]. 柴留祥,何丰.  计算机技术与发展. 2011(11)
[8]基于改进的正向最大匹配中文分词算法研究[J]. 王惠仙,龙华.  贵州大学学报(自然科学版). 2011(05)
[9]基于骨架法的企业本体构建方法改进[J]. 宋晓雯.  经济论坛. 2010(07)
[10]农业搜索引擎的发展现状及关键技术研究[J]. 彭玉容,杨捧,高媛.  安徽农业科学. 2010(20)

硕士论文
[1]开源中文分词器的比较研究[D]. 黄翼彪.郑州大学 2013
[2]基于自然语言理解的车辆行驶指令抽取[D]. 袁树明.北京邮电大学 2013
[3]基于HTML的Web信息抽取技术的研究与应用[D]. 于立艳.哈尔滨工程大学 2011
[4]基于信息抽取和语义相似度的多文档自动文摘技术研究[D]. 徐惠婷.东北大学 2010
[5]基于OWL的领域本体构建方法研究[D]. 孙维聪.哈尔滨工业大学 2009
[6]基于统计与语义分析的多文档自动摘要研究[D]. 宋宣辰.中国科学技术大学 2009
[7]基于包装器模型的信息抽取算法研究[D]. 李知颖.东北师范大学 2009
[8]查询扩展技术研究[D]. 姚小同.北京邮电大学 2009
[9]基于OWL描述的本体推理研究[D]. 龚资.吉林大学 2007
[10]面向特定领域的专业搜索引擎的架构与实现方法[D]. 胡晓博.哈尔滨工程大学 2007



本文编号:3006632

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3006632.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5549b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com