当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式全网职位搜索引擎的研究与实现

发布时间:2017-06-25 14:03

  本文关键词:分布式全网职位搜索引擎的研究与实现,由笔耕文化传播整理发布。


【摘要】:传统招聘网站所查寻的信息仅限于站内搜索,而且每个招聘网站往往都会有重复的招聘信息,导致重复投递,对求职者和招聘者都造成了资源浪费。文中研究和分析了基于Lucene的分布式全文搜索引擎Solrcloud,设计了全网职位搜索引擎系统。该系统采用Bloom Filter进行数据及URL的去重,通过使用Zookeeper提供分布式同步服务,并通过多线程来实现网页并发抓取。通过对系统的测试表明,该系统具有良好的可靠性和应用性,并在大数据量的情况下保证了搜索的效率及准确性。
【作者单位】: 西南交通大学物理科学与技术学院;西南交通大学数学学院;
【关键词】Solrcloud 职位搜索 网络爬虫 分布式搜索引擎
【基金】:教育部新世纪优秀人才支持计划项目(NCET-10-0702)
【分类号】:TP391.3
【正文快照】: 0引言互联网的普及和发展给人们带来了大量的实时信息,满足了用户在信息时代对信息的需求。近年来,各招聘网站的迅速兴起,给求职者提供了一种在网上找工作的选择,通过招聘网站找工作,已经成为了非常重要的一种途径。但是各大招聘网站存在的招聘信息重复、刷新时间过快等问题往

【参考文献】

中国期刊全文数据库 前8条

1 傅巍玮;李仁发;刘钰峰;黄松立;;基于Solr的分布式实时搜索模型研究与实现[J];电信科学;2011年11期

2 冯祥;邱志超;;基于Solr的海量日志信息查询性能优化的研究[J];硅谷;2014年03期

3 李振龙;;Web信息检索的技术分析与发展策略研究[J];计算机科学;2006年04期

4 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期

5 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期

6 霍庆;刘培植;;使用Solr为大数据库搭建搜索引擎[J];软件;2011年06期

7 郑榕增;林世平;;基于Lucene的中文倒排索引技术的研究[J];计算机技术与发展;2010年03期

8 姚晓娜;祝忠明;;基于分面搜索引擎Solr的机构知识库访问统计[J];现代图书情报技术;2011年Z1期

【共引文献】

中国期刊全文数据库 前10条

1 马福晶;;基于网络信息检索技术的数据包捕获[J];重庆科技学院学报(自然科学版);2008年05期

2 张澎;王鲁达;唐日成;;电子商务中的数据挖掘[J];湘南学院学报;2009年02期

3 丁伟;谢彦峰;张忠林;;一种基于用户兴趣的搜索引擎输入信息处理方法[J];电脑与信息技术;2008年05期

4 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期

5 胡双双;秦杰;;搜索引擎技术及其发展趋势[J];福建电脑;2008年06期

6 许华;刘勇;;中文分词词典机制的研究[J];福建电脑;2010年03期

7 徐周昶;章美仁;;垂直搜索引擎系统的架构研究[J];福建电脑;2011年11期

8 吴建;;基于Lucene的校园网搜索引擎的设计与实现[J];湖南工程学院学报(自然科学版);2012年02期

9 彭轲;廖闻剑;;基于浏览器服务的网络爬虫[J];硅谷;2009年04期

10 綦科;谢冬青;;基于内容的短信分类系统的设计与实现[J];广州大学学报(自然科学版);2011年05期

中国重要会议论文全文数据库 前1条

1 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

中国博士学位论文全文数据库 前6条

1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

2 尹世群;Web文本分类关键技术研究[D];西南大学;2008年

3 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年

4 程明智;电子商务环境中信息快速加密及内容安全管理相关技术研究[D];北京邮电大学;2010年

5 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年

6 吴林静;基于语义场模型的学科资源聚类及应用研究[D];华中师范大学;2013年

中国硕士学位论文全文数据库 前10条

1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年

2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年

3 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年

4 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年

5 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年

6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年

7 刘飞荣;SOM算法的改进及其在中文文本聚类的应用[D];南昌大学;2010年

8 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年

9 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年

10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

【二级参考文献】

中国期刊全文数据库 前10条

1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期

2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期

3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

4 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期

5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

6 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期

7 彭波,李晓明;搜索引擎倒排文件的一种分块组织技术[J];电子学报;2005年02期

8 邓曙光,曾朝晖;汉语分词中一种逐词匹配算法的研究[J];湖南城市学院学报(自然科学版);2005年01期

9 李向阳,张亚非;一种Hash高速分词算法[J];解放军理工大学学报(自然科学版);2004年02期

10 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期


  本文关键词:分布式全网职位搜索引擎的研究与实现,,由笔耕文化传播整理发布。



本文编号:482333

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/482333.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1e67b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com