当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式网络爬虫在农产品搜索系统中的应用与研究

发布时间:2017-11-11 23:30

  本文关键词:分布式网络爬虫在农产品搜索系统中的应用与研究


  更多相关文章: Nutch 分布式系统 网络爬虫 垂直搜索 农产品


【摘要】:在互联网信息规模快速增长的背景下,要想将互联网上各种各样的信息全部涵盖和收集显得不太现实,即使是谷歌、百度这样的搜索引擎公司也只能收集到不到20%的互联网信息[1]。通用搜索引擎在人们的生活中起着越来越关键的作用,但是随着人们需求的多元化,以及通用引擎自身局限性,通常精确的搜索需求得不到满足。网络商品信息繁多,各种农产品随着产地和时间的不同,价格变化大,而且农产品交易网站数量众多,如何快捷的得到自己感兴趣的网络农产品信息就是一个值得研究的问题了。由于网络信息量巨大,即使是农产品这样一个非常狭小的领域,也会涉及到海量的信息。建立一个比价系统首要的就是信息源的选取,在海量信息面前,单机爬虫显然是作用有限的。本文提出了将网络爬虫和分布式的系统进行结合,在多机集群的分布式系统中实现的网络爬虫,从而提高信息下载收集的效率。本文所构建的系统是在Nutch这个成熟的搜索引擎架构上进行功能化和特性化的改造,使系统可以针对农产品的信息建立索引,并提供搜索和查询功能。由于本文研究的是针对特定领域的商品信息,因此在对商品信息进行搜索和建立索引时,就会涉及到URL的过滤和主题相关性的判断问题。我们结合了HTMLParaser和正则表达式对URL进行过滤,在对网页的内容主题相关性判定时,借助于空间向量模型。在收集完相关网页信息后,在进行建立搜索和搜索服务提供时,都会涉及到分词操作,由于Nutch中原有的分词操作不能够较好的实现中文分词,我们选用了对中文分词支持比较好的IKAnalyzer来完成中文的分词。索引操作是对于收集到的信息进行一个预先的组织优化,使信息能够快速的被定位到。Nutch系统中采用的检索,由Lucene提供的全文检索系统,对网页信息进行索引建立,为高效搜索提供支持。最后将基于Nutch的面向农产品商品信息的分布式爬虫系统,进行部署进行实验验证,发现分布式的爬虫相对于普通爬虫还是存在着并行的优势。整个系统还能够很好的对网络中农产品建立索引并集成这些信息,为用户提供农业产品商品信息的检索服务和一定的排序比较功能,实现个性化搜索服务,从而对系统可用性进行了验证。
【学位授予单位】:南昌大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3

【相似文献】

中国期刊全文数据库 前9条

1 赵霞;;“一站通”打造江苏农产品信息服务品牌[J];农业网络信息;2007年11期

2 刘建峰;李媛红;;EAN体系在农产品质量安全追溯中的应用[J];中国自动识别技术;2006年02期

3 解菁;孙传恒;周超;李文勇;吴晓明;杨信廷;;基于GPS的农产品原产地定位与标识系统[J];农业机械学报;2013年03期

4 侯春生;夏宁;;RFID技术在中国农产品质量安全溯源体系中的应用研究[J];中国农学通报;2010年03期

5 张翔;耿晓琴;张云华;;农产品溯源系统的设计与实现[J];工业控制计算机;2014年06期

6 尚成国;曲磊;杜成杰;;基于IDEF建模的农产品信息系统信息流转模式[J];计算机系统应用;2012年05期

7 ;黑龙江地图169上化[J];每周电脑报;1999年36期

8 ;怎样上网查询农产品信息[J];今日农村;2002年04期

9 ;[J];;年期

中国重要会议论文全文数据库 前6条

1 肖静;刘建强;于海青;李敏;;信息化在农产品质量安全方面的应用[A];山东省农业资源与环境保护优秀论文集(2004—2006)[C];2007年

2 王元仲;刘莉;;无公害农产品信息管理系统研究与应用[A];全国耕地土壤污染监测与评价技术研讨会论文集[C];2006年

3 刘建钢;;湖南农产品物流的发展对策[A];推动新型工业化 促进湖南经济发展——2007年湖南科技论坛(下)[C];2007年

4 赵文颖;周修理;邓铭辉;;农产品质量与安全追溯系统的研究与应用[A];中国农业工程学会2011年学术年会论文集[C];2011年

5 王红民;胡海燕;;IT技术在农产品流通中的作用[A];依靠科技进步促进农业产业发展——“科技进步与农业产业发展论坛”文集[C];2003年

6 李爱青;;安徽生态农业的现状与加速推进农产品质量安全的对策[A];食品安全的理论与实践——安徽食品安全博士科技论坛论文集[C];2005年

中国重要报纸全文数据库 前10条

1 记者 王蕾 通讯员 刘家旺;上市农产品信息将可溯源[N];泉州晚报;2013年

2 记者罗昌爱;广西开办网上农产品洽谈会[N];人民日报;2003年

3 王卫英邋通讯员 叶利宏;省名品正牌农产品我市23个产品上榜[N];金华日报;2008年

4 崔璀邋通讯员 李旭丽;莲都3个农产品跻身浙江“名品正牌”[N];丽水日报;2008年

5 本报记者 汪名立;农产品信息系统不能成摆设[N];新农村商报;2010年

6 本报记者 汪名立;农产品信息系统须打破樊篱走出孤岛[N];新农村商报;2011年

7 河北农业大学 贾国银 赵宪军;农产品营销策略谈[N];河北科技报;2004年

8 首席记者 高淑华;农民轻点鼠标即可享用信息套餐[N];盘锦日报;2006年

9 刘恒 通讯员  苏政;重庆联通“过年卡”服务返乡民众[N];人民邮电;2007年

10 记者 张锐;乡村信息“一网打尽”[N];云南日报;2009年

中国硕士学位论文全文数据库 前5条

1 张志强;基于移动终端的农产品信息监测系统研究与实现[D];南京邮电大学;2016年

2 袁龙涛;分布式网络爬虫在农产品搜索系统中的应用与研究[D];南昌大学;2016年

3 王峰;农产品信息服务平台建设研究[D];新疆农业大学;2012年

4 袁艳如;西北地区农产品信息的社会化供给研究[D];兰州大学;2013年

5 吴振华;基于区位码和多重加密的农产品追溯编码的设计[D];河南农业大学;2012年



本文编号:1173377

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1173377.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户32f82***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com