基于压缩后缀数组技术的搜索引擎
[Abstract]:At present, the core module of search engine (indexer) adopts inverted file structure, and the accuracy of phrase query is low. In this paper, suffix array technology is introduced to carry out full-text indexing. In order to overcome the shortcoming of large space in full-text index, the technique of compressed suffix array is studied, and the size of suffix array index is compressed to O (n) bit. The steps of applying compressed suffix array index and the core operation pseudo code are also given. The comparative experiments show that the phrase precision of the index based on compressed suffix array is improved by nearly 20% compared with the traditional inverted file index.
【作者单位】: 西安理工大学计算机学院 西安理工大学计算机学院 西安理工大学计算机学院 西安理工大学计算机学院
【基金】:陕西省自然科学基金资助项目(2005F07)
【分类号】:TP391.3
【共引文献】
相关期刊论文 前10条
1 景虹;詹海生;;基于Web Services的个性化学习资源获取[J];中国远程教育;2006年08期
2 徐甜;田有贵;;数据挖掘在Web中的应用研究[J];福建电脑;2006年09期
3 李彦,贾爱军,占向辉,李翔龙;面向创新设计的多层次Web信息检索研究[J];工程设计学报;2005年03期
4 刘杰;谈个人数字图书馆[J];甘肃科技;2004年04期
5 张强弓,喻国宝,廖湖声,隋树林;一种元搜索引擎的查询结果处理模型[J];华南理工大学学报(自然科学版);2004年S1期
6 董民辉;;海洋类学科数字图书馆门户体系建设与实践初探[J];海洋信息;2006年01期
7 陈金阳,蒋建中,张良胜;FTP协议分析及其客户端程序实现[J];计算机工程与应用;2005年32期
8 潘静,饶若楠;基于Web数据挖掘的信息获取系统的研究及设计[J];计算机工程;2004年S1期
9 刘东飞;陈智贤;邓俊涛;余俊;;一种辅助翻译搜索引擎的研究与实现[J];计算机工程;2007年01期
10 李富萍,曾建潮;基于多Agent的搜索引擎设计研究[J];计算机应用;2004年S2期
相关会议论文 前2条
1 王虎;王潜平;;对整词二分自动分词机制的改进[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;基于Web的民文信息检索中维、哈、柯文关键词的预处理[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
相关博士学位论文 前7条
1 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
2 南凯;面向关系型数据共享的数据网格中间件研究[D];中国科学院研究生院(计算技术研究所);2006年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
5 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
6 朱婕;网络环境下个体信息获取行为研究[D];吉林大学;2007年
7 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
相关硕士学位论文 前10条
1 肖燕华;基于特征分块的面向专业领域的网络信息搜索系统的研究与实现[D];东华大学;2004年
2 陈菡;基于Web的远程答疑系统的研究与开发[D];上海师范大学;2004年
3 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年
4 郑大庆;基于Multi-Agent Systems(MAS)的商务智能系统及其信息搜索引擎研究[D];广东工业大学;2004年
5 胡珍新;面向用户的查询扩展研究与实现[D];江西师范大学;2004年
6 吴福英;面向用户的信息过滤研究与实现[D];江西师范大学;2004年
7 万中英;基于投影寻踪中文网页自动分类[D];江西师范大学;2004年
8 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
9 罗然;网络媒体传播的局限性问题及规避研究[D];广西大学;2004年
10 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
【相似文献】
相关期刊论文 前10条
1 赵镇;沈滇明;王玉霞;刘月兰;;汉字多功能设备管理系统[J];实验技术与管理;1985年01期
2 赵丽红;维尼拉·木沙江;;维、哈、柯多语种搜索引擎中改进索引创建的新方法的构思[J];现代计算机;2011年06期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前10条
1 孙琦;牛军钰;;基于倒排文件的索引模型综述[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 张刚;孙健;丁国栋;米嘉;王斌;;海量数据的索引与检索系统[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
3 周水庚;孙敬宇;胡运发;;一种文档聚类新方法[A];第十六届全国数据库学术会议论文集[C];1999年
4 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
5 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 董祥千;左志宏;刘强国;;Lucene倒排索引文件的实现与优化[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
7 王洪俊;施水才;俞士汶;肖诗斌;;人民日报标注语料的索引方法研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 骆吉洲;李建中;高宏;;频率向量的一种压缩存储方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 张谊岩;张霞;;OpenBASE中BLOB型文本数据全文检索的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年
10 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
相关硕士学位论文 前10条
1 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
2 王齐;一种基于文本节点的XML文档索引和查询方法[D];山西大学;2005年
3 李帅;全文检索在“2008奥运多语言系统”中的应用研究与实现[D];北京工业大学;2009年
4 王远定;中文搜索引擎的快速检索方法研究[D];江南大学;2009年
5 李s,
本文编号:2155850
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2155850.html