基于Nutch的农业垂直搜索引擎研究与实现
本文关键词:基于Nutch的农业垂直搜索引擎研究与实现,由笔耕文化传播整理发布。
《西北农林科技大学》 2014年
基于Nutch的农业垂直搜索引擎研究与实现
王晓琴
【摘要】:随着我国农业信息化进程推进,越来越多的农业用户希望能够快速且有效地找到自己所需要的农业信息。但通用搜索引擎返回结果存在数量庞大、专业性差、准确率低等问题,无法满足农业用户高效的查找农业信息的需求;同时现有的农业搜索引擎也处于发展前期阶段,技术不够成熟,存在低使用率、低时效性等不足之处,有待进一步改善。为了解决上述问题,本研究基于开源搜索引擎Nutch对农业垂直搜索引擎进行了有关研究。研究内容如下: (1)基于Nutch的农业垂直搜索引擎研究。为了提高农业用户检索农业信息的效率,本研究在了解并深入分析开源搜索引擎Nutch的工作原理基础上,对开源搜索引擎Nutch进行二次开发,实现农业垂直搜索引擎。首先,采用人工整理判定和元搜索相结合的策略获取初始URL种子列表;其次,采用基于词库的正向最大匹配分词算法的JE分词改进Nutch中文分词,使其支持中文分词;接着,采用网络爬虫技术进行信息采集,分析网页并用改进的基于关键字的向量空间模型主题判别方法结合农业领域本体进行信息过滤,过滤掉与农业不相关的网页,并将与农业相关的网页采用倒排索引技术建立索引;最后,采用PAGERANK排序算法、网页的农业相关度并结合农业领域本体改进Nutch原有的基于Lucene的网页排序算法。此外,,扩展Nutch辅助功能,用户查询时向用户提供基于农业领域本体的相关词推荐和基于访问量的关键词推荐,辅助用户查询需要的信息。 (2)系统管理平台设计与实现。为了方便对基于Nutch的农业垂直搜索引擎管理和使用以及农业领域本体库的管理,设计实现了C/S+B/S模式的系统管理平台,该平台提供基于Nutch的农业垂直搜索引擎的网络蜘蛛配置管理、农业领域本体库的管理、农业网址导航、用户检索接口等功能。最后,实验验证本文的搜索引擎系统管理平台具有较好的可行性、有效性。
【关键词】:
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前10条
1 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
2 张敏;;中文垂直搜索引擎研究与实现[J];福建电脑;2010年06期
3 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期
4 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
5 方东权;;如何在Internet上获取农业科学学术信息[J];华中农业大学学报(社会科学版);2005年Z1期
6 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
7 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期
8 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期
9 章成敏,章成志;国外农业搜索引擎评析[J];农业网络信息;2004年11期
10 樊景超;周国民;;基于Lucene的“农搜”并行索引技术研究[J];农业网络信息;2009年08期
【共引文献】
中国期刊全文数据库 前10条
1 兰富军;李春霆;高海忠;;农业主题垂直搜索引擎过滤技术研究[J];安徽农业科学;2010年09期
2 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
3 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
4 王琪;;我国内地学者体育科学国际合作网络的可视化研究[J];首都体育学院学报;2011年02期
5 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
6 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
7 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
8 赵京桥;;中国雅虎经营模式转型原因分析[J];财贸经济;2008年10期
9 李蓉;全朝晖;董亚苹;;旅游业在线搜索引擎评价体系的建立及分析[J];重庆邮电大学学报(社会科学版);2011年02期
10 张戬慧;;专业智能搜索系统在动物医学领域中的应用[J];东北农业大学学报;2009年09期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
5 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
6 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
5 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
6 刘晓英;知识关联及其应用研究[D];湘潭大学;2010年
7 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
8 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
9 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
10 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵洋;滕桂法;张玉新;何冬梅;;基于Internet的农业信息垂直搜索引擎的设计[J];河北农业大学学报;2009年06期
2 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期
3 易爱平;廖祝华;张惠;;基于Google的个性化搜索系统的设计与实现[J];电脑知识与技术(学术交流);2007年01期
4 高立敏;李俊;肖艳芹;;基于Web的网络信息挖掘技术研究[J];电脑知识与技术;2010年16期
5 张国印,陈先,皮鹏;基于词频统计的个性化信息过滤技术[J];哈尔滨工程大学学报;2003年01期
6 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
7 李海健;王晓丰;;Web信息抽取的现状及未来展望[J];廊坊师范学院学报(自然科学版);2009年03期
8 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期
9 林海霞;原福永;陈金森;刘俊峰;;一种改进的主题网络蜘蛛搜索算法[J];计算机工程与应用;2007年10期
10 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
中国硕士学位论文全文数据库 前8条
1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
2 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
3 苏晓珂;基于Nutch的主题爬虫研究与实现[D];昆明理工大学;2007年
4 李四达;全文索引引擎Lucene的研究及其手机中的应用实现[D];华北电力大学(北京);2007年
5 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
6 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年
7 罗德一;农业分类搜索引擎分类体系研究[D];南京农业大学;2007年
8 张蓓蓓;基于关联分析和聚类的领域本体构建方法及其应用研究[D];南京理工大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
2 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
3 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期
4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;[N];中国经营报;2006年
2 王艳;[N];中国旅游报;2000年
3 王靖;[N];人民日报海外版;2000年
4 杨国民;[N];经济日报;2007年
5 本报记者 王晓雁;[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
7 中新;[N];经理日报;2008年
8 源讯 编译;[N];计算机世界;2006年
9 赛迪网 方刚;[N];中国计算机报;2000年
10 ;[N];中国贸易报;2007年
中国博士学位论文全文数据库 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
2 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
3 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
4 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
5 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
6 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
7 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
8 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
9 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
10 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
本文关键词:基于Nutch的农业垂直搜索引擎研究与实现,由笔耕文化传播整理发布。
本文编号:186549
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/186549.html