一个基于Lucene的维文搜索引擎的设计与实现
本文关键词:一个基于Lucene的维文搜索引擎的设计与实现
【摘要】:目前针对维文搜索引擎的研究还比较少,本文在开源项目Lucene搜索引擎的基础上,通过对数据源、分词和停用词的设置构造了一个实验性的维文搜索引擎,并针对维文的特点改进了搜索方法。在手工构造的语料上的搜索实验表明,基于前缀匹配的搜索方法改进了维文搜索引擎的效果。
【作者单位】: 苏州大学自然语言处理实验室;苏州大学计算机科学与技术学院;
【关键词】: 搜索引擎 维文 分词 Lucene
【分类号】:TP391.3
【正文快照】: 1引言随着社会经济的发展,新疆的网络事业也得到了很大的发展,出现了很多具有民族特色的维文网站,大大丰富了网络上的维文文本信息,而目前的通用搜索引擎不能很好地适合维文的特点,因此如何进行维文文本搜索是目前迫切需要解决的问题[1][2]。目前网络上的维文文本存在着种类繁
【参考文献】
中国期刊全文数据库 前4条
1 古丽拉·阿东别克,米吉提·阿布力米提;维吾尔语词切分方法初探[J];中文信息学报;2004年06期
2 薛化建;董兴华;王磊;吐尔洪·吾司曼;蒋同海;;基于词缀库的非监督维吾尔语词切分方法[J];计算机工程与设计;2011年09期
3 艾赛提江·艾拜都拉;维文搜索引擎设计及实现[J];新疆教育学院学报;2004年04期
4 亚森·艾则孜;迪里夏提·买买提;如先故力·阿布都热西提;;基于Google Web API的单机版维文元搜索引擎技术研究[J];信息网络安全;2011年05期
【共引文献】
中国期刊全文数据库 前10条
1 陈鸽;王廷梅;赵玮;;一种新的维汉英混排文本显示模型的设计[J];硅谷;2012年16期
2 努尔麦麦提·尤鲁瓦斯;吾守尔·斯拉木;热依曼·吐尔逊;;维吾尔语大词汇语音识别系统识别单元研究[J];北京大学学报(自然科学版);2014年01期
3 魏长春;;资料搜集过程中搜索引擎合理化选择探讨[J];信息通信;2011年05期
4 古丽拉·阿东别克,艾尔肯·伊米尔;维吾尔文校对中常见错误分析[J];计算机工程与应用;2005年27期
5 赵永进;郭大庆;卢有飞;李英凡;;维文软件中排版关键技术的研究与实现[J];计算机工程与应用;2007年22期
6 苏建辉;程晶;蒋同海;;维、哈、柯文版Linux操作系统关键技术的设计实现[J];计算机科学;2008年10期
7 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎检索器的关键技术[J];计算机工程;2008年21期
8 薛化建;董兴华;周喜;吐尔洪·吾司曼;李晓;;基于子字单元的维吾尔语语音识别研究[J];计算机工程;2011年20期
9 张伟;任大明;许晓辉;赵凡;张岩;;维、哈、柯文显示及排版技术研究[J];计算机应用研究;2008年03期
10 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯多文种全文搜索引擎的设计与实现[J];计算机应用与软件;2009年06期
中国重要会议论文全文数据库 前9条
1 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 吐尔地·托合提;维尼拉·木沙江;米吉提·阿不里米提;;维吾尔文搜索引擎Web Server的实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 米吉提·阿不里米提;艾斯卡尔·艾木都拉;吐尔地·托合提;;维语词法分析器研究开发[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 李文;李淼;张建;陈雷;雪艳;;一种带权值参数的非监督式形态切分方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 倪耀群;许洪波;谭婧霞;唐慧丰;程学旗;孟丹;;基于优化维汉双语词典的多语言信息检索系统[A];第六届全国信息检索学术会议论文集[C];2010年
9 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 麦热哈巴·艾力;基于实例的维汉机器翻译若干关键问题研究[D];新疆大学;2014年
中国硕士学位论文全文数据库 前10条
1 热依玛依·买买提;维、哈、柯搜索引擎中基于文本的图像检索技术的研究[D];新疆大学;2011年
2 赵倩倩;维吾尔语信息检索[D];天津大学;2012年
3 陈丽珍;维文网络中不良文本信息检索、监控系统的研究[D];新疆大学;2006年
4 陈鹏;基于语料库的维吾尔语词干提取和词性标注[D];新疆大学;2006年
5 马欢;基于不定长拼接单元的维吾尔语文语转换系统的研究与实现[D];新疆大学;2006年
6 张冉;主题搜索引擎的研究与设计[D];新疆大学;2006年
7 蔡琴;基于HTK的维吾尔语连续数字语音识别研究[D];新疆大学;2007年
8 胡颜琪;维、汉多语种农村信息化系统研究与实现[D];新疆大学;2008年
9 王珍;维、哈、柯文搜索引擎中的自动分类技术研究[D];新疆大学;2010年
10 刘俊;基于windows7的维文多语种操作系统本地化的研究与实现[D];新疆大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 亚森·艾则孜;;基于Hook技术的维吾尔文直接输入法的设计与实现[J];电脑编程技巧与维护;2006年04期
2 亚森·艾则孜;;基于维文信息的计算机取证辅助工具研究[J];计算机安全;2008年03期
3 亚森·艾则孜;王斌君;;计算机取证中维文信息代码的分析方法研究[J];中国人民公安大学学报(自然科学版);2007年02期
4 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
5 古丽拉·阿东别克,米吉提·阿布力米提;维吾尔语词切分方法初探[J];中文信息学报;2004年06期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
7 阿孜古丽·夏力甫;;维吾尔语动词附加语素的复杂特征研究[J];中文信息学报;2008年03期
8 米热古丽·艾力;米吉提·阿不力米提;艾斯卡尔·艾木都拉;;基于词法分析的维吾尔语元音弱化算法研究[J];中文信息学报;2008年04期
9 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
10 阿布力米提.阿不都热依木;维吾尔文信息处理平台Open Type字体制作技术[J];计算机工程与设计;2005年11期
【相似文献】
中国期刊全文数据库 前10条
1 余川江;;基于Lucene的垂直搜索引擎的研究与实现[J];经营管理者;2014年11期
2 孔维亭;闫宏印;;基于Lucene的自动答疑系统的设计[J];电脑开发与应用;2012年04期
3 喻金平;谭鸣;夏小云;;基于Lucene技术的垂直搜索引擎的研究[J];软件导刊;2008年03期
4 陈忱;;Lucene排序算法的个性化改进[J];科技与企业;2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究与改进[J];武汉纺织大学学报;2013年06期
6 葛振国;李建;何林糠;吴军;;基于Lucene的Oracle数据库全文检索[J];信息技术;2010年03期
7 杨元峰;赵敏涯;廖黎莉;;基于Lucene的客服知识库系统结构设计[J];福建电脑;2012年01期
8 冯宇;;基于模糊层次分析法的Lucene网页排序算法研究[J];计算机与现代化;2011年01期
9 裴志松;;基于Lucene的毕业论文相似性检测[J];长春工程学院学报(自然科学版);2013年04期
10 陈艳春;李双平;;基于Lucene的企业级搜索引擎的设计与实现[J];现代图书情报技术;2007年08期
中国重要会议论文全文数据库 前2条
1 朱高平;乐嘉锦;;基于刻面分类和Lucene架构的Web服务发现技术的研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
中国硕士学位论文全文数据库 前10条
1 于雪丽;LUCENE中文分词在科研文档全文检索系统的应用研究[D];青岛大学;2011年
2 孙静;基于Lucene的手机查询软件的研究与实现[D];重庆大学;2014年
3 文义;基于LUCENE的群体个性化搜索引擎研究[D];武汉理工大学;2010年
4 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
5 花洁;基于Lucene的搜索引擎应用与研究[D];湖北工业大学;2009年
6 成锐;基于lucene面向主题的手机搜索引擎的研究与实现[D];电子科技大学;2012年
7 黄江平;基于Lucene的桌面搜索引擎的研究与应用[D];浙江理工大学;2012年
8 张正龙;基于LUCENE的主题搜索引擎研究与实现[D];重庆大学;2008年
9 杨光伟;基于Lucene的个性化搜索引擎的研究与实现[D];内蒙古大学;2009年
10 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
,本文编号:1012559
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1012559.html