当前位置:主页 > 科技论文 > 信息工程论文 >

主题搜索引擎索引技术的研究与实现

发布时间:2016-07-29 10:10

  本文关键词:主题搜索引擎索引技术的研究与实现,由笔耕文化传播整理发布。


《重庆交通大学》 2011年

主题搜索引擎索引技术的研究与实现

唐华姣  

【摘要】:互联网作为信息的载体已经成为人们获取信息不可缺少的工具。互联网的发展给人类带来了巨大的便利,人们可以跨越时间和空间的距离来共享大量信息。但是,随着互联网的迅速发展,网络上的资源日新月异、内容丰富多彩,如何快速有效的找到用户有用的信息成为获取信息技术亟待解决的问题,这时为满足广大群众信息检索需求的通用搜索引擎便应运而生了。 通用搜索引擎的产生,极大的提高了人们检索信息的效率,因此,通用搜索引擎得到了广泛的应用。据CNNIC(中国互联网网络信息中心)第二十六次互联网调查显示,搜索以76.3%的绝对优势成为用户从互联网上获得信息的主要方式。在全球绝大多数的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务。但是随着信息多元化的增长,这些通用搜索引擎在检索某一学科或主题的信息时,无论是检索效率还是检索精度都无法满足人们的需要。这是因为:对于任何用户,只要用户输入的关键词相同,通用搜索引擎反馈的结果就相同,它没有考虑到用户兴趣和需求的差异。但对不同的用户,他们的兴趣和需求往往存在一定的差异。例如,牙医和陶瓷爱好者对于“陶瓷”一词的关注点就会不同。为了能够更加快速、准确、有效的检索某一学科或主题的信息,有必要开发针对特定领域的信息检索系统,即主题搜索引擎。 与通用搜索引擎不同,主题搜索引擎只采集web中的部分信息,并对网页进行主题相关度判断,只保存与主题相关的网页,同时还运用专业领域知识、相关度计算、机器学习等智能化策略,以弥补通用搜索引擎搜索结果数量大,相关度较低等缺陷,因此主题搜索引擎在查询的准确率和效率上较通用搜索引擎都有显著的提高。 索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度,因此对搜索引擎索引技术的研究是十分必要的。本文在深入了解搜索引擎相关索引技术的基础上,对开源源代码——Lucene进行剖析与实践,分析了Lucene的系统组织结构、基本数据类型、索引逻辑结构以及索引数据库的文件结构,深刻理解其索引机制、索引权重的控制、索引优化的方法。在此基础上,以计算机主题为例,利用Lucene提供的API接口,对Lucene源代码进行了如下几个方面的改进: ①改进索引词典文件结构。用户利用计算机主题搜索引擎进行查询时,其检索词大部分会是计算机专业词汇,如果像Lucene一样将整个索引词典文件导入内存,无疑会花费更多的检索响应时间,但如果将检索词按计算机专业词汇和非计算机专业词汇进行分类,分别放入两个索引词典文件中,并对它们进行分组排序,检索时只将存放计算机专业词汇的索引词典文件导入内存中,将会减少不必要的检索响应时间。 ②对待索引文档设置权值。由于Lucene面对的不是某一个学科或主题的信息,因此其文档得分机制缺乏针对性,从而没有对待索引文档设置权值。为了满足计算机主题检索的需要,有必要根据待索引文档的类型和检索的需求对待索引文档设置不同的权值,有效地提高计算机专业文档的权重,以提高检索计算机主题信息的精度。 ③改变索引方式。Lucene提供的默认的索引方式是通过单个索引器在磁盘上建立索引文件,这样会频繁的进行I/O操作,导致建立索引的效率下降。本文结合FSDirectory(文件系统路径)和RAMDirectory(内存中的一块区域)这两种目录的优点,设计了采用以内存为缓冲区建索引文件的分布式并行索引方法建立索引,以缩短索引的建立时间。 最后根据上述改进方法实现了计算机主题搜索引擎的索引器部分,并通过设计一个适合计算机主题检索的全文检索系统与Lucene全文检索系统进行对比试验,以验证本文所实现的索引器的可行性与有效性。实验结果表明:与Lucene相比,本文所实现的索引器无论是检索响应时间还是检索结果的精度都更适合计算机主题信息的检索,创建索引的效率也明显高于Lucene创建索引的效率。

【关键词】:
【学位授予单位】:重庆交通大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前2条

1 黄琛;;十大著名中文搜索引擎的特征及其比较[J];现代情报;2006年01期

2 韩升;刘广志;;全文检索系统的数据预处理研究[J];计算机技术与发展;2006年03期

中国硕士学位论文全文数据库 前2条

1 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年

2 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年

【共引文献】

中国期刊全文数据库 前10条

1 景虹;詹海生;;基于Web Services的个性化学习资源获取[J];中国远程教育;2006年08期

2 徐甜;田有贵;;数据挖掘在Web中的应用研究[J];福建电脑;2006年09期

3 李彦,贾爱军,占向辉,李翔龙;面向创新设计的多层次Web信息检索研究[J];工程设计学报;2005年03期

4 刘杰;谈个人数字图书馆[J];甘肃科技;2004年04期

5 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期

6 董民辉;;海洋类学科数字图书馆门户体系建设与实践初探[J];海洋信息;2006年01期

7 李孝明,曹万华;舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J];舰船电子工程;2005年03期

8 陈金阳,蒋建中,张良胜;FTP协议分析及其客户端程序实现[J];计算机工程与应用;2005年32期

9 潘静,饶若楠;基于Web数据挖掘的信息获取系统的研究及设计[J];计算机工程;2004年S1期

10 刘东飞;陈智贤;邓俊涛;余俊;;一种辅助翻译搜索引擎的研究与实现[J];计算机工程;2007年01期

中国重要会议论文全文数据库 前2条

1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

2 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;基于Web的民文信息检索中维、哈、柯文关键词的预处理[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

中国博士学位论文全文数据库 前5条

1 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年

2 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年

3 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年

4 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年

5 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年

中国硕士学位论文全文数据库 前10条

1 胡坚;基于本体的机械产品领域智能信息检索系统研究[D];浙江工业大学;2005年

2 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年

3 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年

4 肖燕华;基于特征分块的面向专业领域的网络信息搜索系统的研究与实现[D];东华大学;2004年

5 陈菡;基于Web的远程答疑系统的研究与开发[D];上海师范大学;2004年

6 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年

7 郑大庆;基于Multi-Agent Systems(MAS)的商务智能系统及其信息搜索引擎研究[D];广东工业大学;2004年

8 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年

9 吴福英;面向用户的信息过滤研究与实现[D];江西师范大学;2004年

10 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年

【二级参考文献】

中国期刊全文数据库 前10条

1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期

2 吴海鹰;如何用好《中国学术期刊(光盘版)》全文检索系统[J];大学图书情报学刊;1999年03期

3 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期

4 赵新民;全文检索在数字图书馆中的发展与应用[J];高校图书馆工作;2001年01期

5 王德峰;李东;;搜索引擎Google的体系结构及其核心技术研究[J];哈尔滨商业大学学报(自然科学版);2006年01期

6 雷鸣,刘建国,王建勇,陈葆珏;一种基于词典的搜索引擎系统动态更新模型[J];计算机研究与发展;2000年10期

7 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期

8 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期

9 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期

10 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期

中国硕士学位论文全文数据库 前10条

1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年

2 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年

3 刘雪芹;单汉字全文检索技术研究[D];河北工业大学;2005年

4 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年

5 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年

6 王坚;化工类专业搜索引擎中的中文分词设计[D];北京化工大学;2005年

7 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年

8 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年

9 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年

10 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年

【相似文献】

中国期刊全文数据库 前10条

1 王改香;;搜索引擎的体系结构与索引技术探析[J];长江大学学报(自然科学版);2011年03期

2 刘俊熙;搜索引擎关键技术在检索层面上的分析理解[J];图书馆学刊;2005年05期

3 刘俊熙;搜索引擎的搜索、索引和检索技术的关联分析[J];图书馆学研究;2005年09期

4 赵丽红;维尼拉·木沙江;;维、哈、柯多语种搜索引擎中改进索引创建的新方法的构思[J];现代计算机;2011年06期

5 赵鑫,武刚;搜索引擎的发展与展望[J];河北林果研究;2004年01期

6 徐舒;;浅谈搜索引擎的体系结构与索引技术[J];中国新技术新产品;2010年01期

7 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期

8 王锋;;一种基于DTD模式的XML索引技术研究[J];安徽科技学院学报;2010年01期

9 王圆;蔡增玉;王兴杰;;WEB搜索引擎关键技术研究[J];科技资讯;2008年23期

10 黄少林;王华;张玉红;蒋一峰;;基于Lucene的索引系统的设计与实现[J];现代情报;2009年07期

中国重要会议论文全文数据库 前10条

1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年

2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年

6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年

7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年

8 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年

9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年

10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年

中国重要报纸全文数据库 前10条

1 李一鑫;[N];财经时报;2007年

2 周文林;[N];经济参考报;2007年

3 惠正一;[N];第一财经日报;2005年

4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;[N];中国计算机报;2005年

5 陈珊;[N];人民邮电;2005年

6 赵法忠;[N];中国经营报;2005年

7 金朝力;[N];北京商报;2006年

8 本报记者  赵晓辉 孟昭丽;[N];中国证券报;2006年

9 孙琎;[N];第一财经日报;2006年

10 姜蕊;[N];中国高新技术产业导报;2006年

中国博士学位论文全文数据库 前10条

1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年

3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年

4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年

5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年

7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年

8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年

9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年

10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年

中国硕士学位论文全文数据库 前10条

1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年

2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年

3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年

4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年

5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年

6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年

7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年

8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年

9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年

10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年


  本文关键词:主题搜索引擎索引技术的研究与实现,,由笔耕文化传播整理发布。



本文编号:78171

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/78171.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户00576***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com