基于开源搜索引擎Nutch的研究与实现
本文关键词:基于开源搜索引擎Nutch的研究与实现
更多相关文章: Nutch搜索引擎 中文分词 Page Rank算法
【摘要】:Nutch是一个Java实现的开源搜索引擎。对开源搜索引擎Nutch存在的中文分词和页面排序问题进行分析,给出了改进方法。结合Paoding分词算法对Nutch中文分词器进行改进,利用Page Rank排序算法改进了Nutch评分机制。
【作者单位】: 华北电力大学控制与计算机工程学院;
【关键词】: Nutch搜索引擎 中文分词 Page Rank算法
【分类号】:TP391.3
【正文快照】: 1引言Nutch的分词器对中文检索词无法进行分词,需在Nutch中增加中文分词进行处理。对现有分析器进行性能比较,发现IK[1]在性能上对于词典的敏感度较高,但从分词效果、性能、效率来综合考虑,将采用Paoding分词器来分词。Nutch的网页排名算法是由Similarity类实现,采用Lucene的
【参考文献】
中国期刊全文数据库 前4条
1 义天鹏;陈启安;;基于Lucene的中文分析器分词性能比较研究[J];计算机工程;2012年22期
2 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期
3 朱潜;吴辰铌;朱志良;刘洪娟;;Hadoop云平台下Nutch中文分词的研究与实现[J];小型微型计算机系统;2013年12期
4 王贤明;;主题爬虫研究进展[J];现代计算机(专业版);2014年03期
【共引文献】
中国期刊全文数据库 前9条
1 李丽枝;陶振凯;;基于Lucene全文检索的设计与实现[J];计算机光盘软件与应用;2013年19期
2 王桐;王韵婷;;基于Lucene的自定义中文分词器的设计与实现[J];电脑知识与技术;2014年02期
3 王璐;于超;王博;王国春;林金花;李辉;;本体语义检索系统[J];长春工业大学学报(自然科学版);2013年06期
4 岳绍敏;李万龙;王璐;光顺利;;基于Lucene索引的数据库全文检索[J];吉林大学学报(理学版);2014年05期
5 周敬才;胡华平;岳虹;;基于Lucene全文检索系统的设计与实现[J];计算机工程与科学;2015年02期
6 王旭仁;郑秋辉;何发镁;李娜;王彦丽;;基于Tika和Lucene的桌面搜索引擎研究与实现[J];计算机工程与设计;2014年01期
7 王泽贤;;Lucene中文分析器在书目搜索应用中的比较研究[J];现代情报;2014年04期
8 李慧;胡辉;庄冬梅;;农产品供需对接系统中主题网络爬虫的设计与实现[J];现代计算机(专业版);2015年04期
9 吴新强;周娅;王如意;张敬伟;林煜明;;基于Lucene的XML文件相似度检索系统[J];计算机系统应用;2015年02期
中国重要会议论文全文数据库 前1条
1 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年
中国硕士学位论文全文数据库 前10条
1 陈车前;基于Nutch的并行搜索系统的优化设计[D];华南理工大学;2011年
2 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年
3 衣波;网络舆情信息的话题发现和追踪技术的研究与应用[D];广东工业大学;2013年
4 史仁仁;网络舆情话题识别与跟踪系统的研究与实现[D];电子科技大学;2013年
5 范晨熙;基于Hadoop的搜索引擎的研究与应用[D];浙江理工大学;2013年
6 田芳;微博热点话题发现技术研究[D];内蒙古科技大学;2013年
7 郑秋辉;基于垂直搜索引擎的文本挖掘系统研究与实现[D];首都师范大学;2014年
8 姚中原;基于双分词器的医疗类网站站内搜索研究与实现[D];郑州大学;2014年
9 纪晓阳;基于Nutch搜索引擎系统数据处理的中文分词技术的研究[D];成都理工大学;2014年
10 王振风;基于Lucene的分布式全文检索技术的研究与应用[D];东华大学;2015年
【二级参考文献】
中国期刊全文数据库 前10条
1 王东;陈笑蓉;;一种改进的高效分词词典机制[J];贵州大学学报(自然科学版);2007年04期
2 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期
3 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
4 赫建营;晏海华;金茂忠;刘超;;结合本体筛选和文本挖掘的垂直搜索引擎研究[J];计算机科学;2008年02期
5 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
6 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期
7 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
8 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
9 赵彦荣;王伟平;孟丹;张书彬;李均;;基于Hadoop的高效连接查询处理算法CHMJ[J];软件学报;2012年08期
10 闻玉彪;贾时银;邓世昆;李远方;;一种改进的最大匹配中文分词算法[J];计算机技术与发展;2011年10期
【相似文献】
中国期刊全文数据库 前10条
1 严春来;;基于Nutch的个性化搜索引擎的研究与探讨[J];电脑编程技巧与维护;2014年04期
2 夏天;;Nutch的插件机制分析[J];广西师范大学学报(自然科学版);2010年01期
3 李村合;吕克强;;Nutch搜索引擎的页面排序修改方法研究[J];计算机工程与设计;2009年06期
4 顾s,
本文编号:1061779
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1061779.html