一种基于Lucene的面向主题爬行搜索引擎的研究
本文关键词:一种基于Lucene的面向主题爬行搜索引擎的研究
【摘要】:本文简要介绍了主题搜索的基本概念以及Lucene的基本结构。研究了面向主题搜索引擎的实现和优化,提出了JE中文分词实现方法,主题索引系统的构建,完成了一个高性能的主题搜索引擎系统。
【作者单位】: 浙江工商职业技术学院;
【关键词】: Lucene 面向主题 中文分词 索引
【基金】:浙江工商职业技术学院科研基金项目:一种基于Lucene的面向主题爬行搜索引擎的研究
【分类号】:TP391.3
【正文快照】: 在当今的社会,通过互联网获取信息已逐渐成为人们日常获取信息的途径之一。与此同时,互联网的信息量也与日俱增,网上获取信息的难度也随之增加。搜索引擎的出现,为人们提供了获取信息的新途径,通常情况下,人们习惯用Google和百度等通用搜索引擎来帮助自己在网络中检索想要的
【参考文献】
中国期刊全文数据库 前3条
1 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期
2 潘涛;梁正友;;Nutch中网页排序效果的改进方法[J];计算机工程;2010年13期
3 刘亚姝;黄岳;;基于Lucene的MYSearch全文搜索引擎[J];微型机与应用;2010年18期
【共引文献】
中国期刊全文数据库 前5条
1 陶林;谌超;强保华;王勇;;基于Hadoop的Nutch网页排序算法研究与实现[J];桂林电子科技大学学报;2013年02期
2 范会联;李献礼;曾广朴;;基于改进遗传算法的聚焦爬虫设计[J];计算机工程与科学;2010年05期
3 王征;徐培文;;基于互联网用户心理挖掘的网站深翻系统[J];计算机科学;2012年11期
4 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
5 刘佐达;张久岭;陈茂科;李星;;一种面向BBS信息检索的主题网络爬虫算法[J];郑州大学学报(理学版);2010年02期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前9条
1 文军舰;基于Nutch的Web结构挖掘算法研究[D];天津财经大学;2011年
2 张立;文本搜索引擎的探究与设计[D];华南理工大学;2011年
3 张丽娟;基于Lucene的面向主题爬行搜索引擎的应用研究[D];安徽理工大学;2011年
4 李海波;基于MapReduce框架的分布式网络爬行器研究[D];哈尔滨工程大学;2011年
5 卜永忠;面向金融信息的主题爬虫研究与应用[D];哈尔滨工业大学;2008年
6 黄仲清;互联网主题信息定向采集研究[D];华东师范大学;2010年
7 李倩倩;基于个性化知识搜索的E-learning系统的研究[D];湖北工业大学;2012年
8 李伟;基于J2EE的网络舆情分析系统的设计与实现[D];南京大学;2012年
9 宋宇;深度web采集系统的设计与实现[D];电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前5条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 姚文琳;刘文;;一种基于本体的PageRank算法的改进策略[J];计算机工程;2009年06期
3 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
4 张校乾,金玉玲,侯丽波;一种基于Lucene检索引擎的全文数据库的研究与实现[J];现代图书情报技术;2005年02期
5 隋丽萍;徐承韬;李瑞芳;;一个中文全文检索系统的设计与实现[J];科技资讯;2007年18期
【相似文献】
中国期刊全文数据库 前10条
1 马志强;刘利民;苏依拉;马瑞明;;基于Lucene的站内搜索引擎研究[J];内蒙古工业大学学报(自然科学版);2009年01期
2 蓝永健;;基于Lucene的校园网垂直搜索引擎的设计与实现[J];广东教育学院学报;2009年03期
3 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
4 李瑞芳;杨娜;;主题搜索引擎的研究[J];微型机与应用;2009年19期
5 胡继钧;;基于Lucene全文检索引擎的研究与实现[J];科技创新导报;2010年20期
6 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
7 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期
8 索红光;孙鑫;;针对中文检索的Lucene改进策略[J];计算机应用与软件;2009年06期
9 向晖;郭一平;王亮;;基于Lucene的中文字典分词模块的设计与实现[J];现代图书情报技术;2006年08期
10 李颖;李志蜀;邓欢;;基于Lucene的中文分词方法设计与实现[J];四川大学学报(自然科学版);2008年05期
中国重要会议论文全文数据库 前10条
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年
8 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
9 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 刘青宝 邓苏 张维明 陈卫东 黄宏宾;海量信息组织与集成技术[N];计算机世界;2001年
3 西安交通大学 朱国昱;数据仓库与企业信息门户[N];计算机世界;2000年
4 刘丽华 周丹 金水高 胡凯;面向管理的HIS信息集成设计[N];计算机世界;2006年
5 ;把握电信数据仓库设计的关键环节[N];人民邮电;2006年
6 胡守毅;论数据仓库的技术应用[N];人民邮电;2002年
7 李晓钢;有效建立数据交换与共享机制[N];大众科技报;2006年
8 李莉 商瑶玲;大型空间地理信息数据库的解决方案[N];中国测绘报;2003年
9 张 涛 刘剑峰;适应跨越式发展需要构建检验检疫决策支持系统(下)[N];中国国门时报;2005年
10 ;建立企业级数据仓库实现银行管理决策科学化[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
2 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 杜先撰;基于Lucene全文索引系统设计与实现[D];南京大学;2011年
5 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
6 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
7 张伟;垂直搜索引擎设计与实现[D];西安电子科技大学;2008年
8 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
9 许雁鸣;博客资源的爬取与检索[D];山东大学;2008年
10 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年
,本文编号:1049951
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1049951.html