基于XML的全文检索原型系统的设计与实现
[Abstract]:Aiming at the problems of low index speed, late updating and low retrieval efficiency in the search engine of the website of our country at present, this paper analyzes and studies the superior performance of Lucene and XML in establishing search engine, based on the deep analysis and research on the superior performance of such techniques as Lucene and XML in establishing the search engine. A full-text retrieval prototype system based on XML is constructed. Using XML as the general data interface and Lucene as the implementation platform, the system can achieve the purpose of fast and timely indexing and improving the retrieval efficiency.
【作者单位】: 华中师范大学信息管理系 华中师范大学信息管理系
【基金】:国家社会科学基金项目“基于中文XML文档的全文检索研究”(项目编号:04CTQ005)的阶段性研究成果之一
【分类号】:G354
【参考文献】
相关期刊论文 前5条
1 魏应彬,王娟;用JDOM处理XML文档[J];福建电脑;2004年10期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 何伟;薛素静;孔梦荣;杨正党;;基于Lucene的全文搜索引擎的设计与实现[J];情报杂志;2006年09期
4 周宁,谷宏群;基于Lucene/XML的全文检索机制研究[J];图书情报知识;2005年03期
5 张华;董慧;;利用JDOM解析XML文档及其在数据转换上的应用[J];现代图书情报技术;2005年11期
【共引文献】
相关期刊论文 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
3 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
4 傅鹂;孙坚;付春雷;;基于语义的音乐检索系统[J];重庆理工大学学报(自然科学版);2011年01期
5 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
6 曲维光;唐旭日;俞敬松;;超大规模语料库精加工技术研究[J];当代语言学;2009年02期
7 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
8 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
9 周珍娟;张字平;陆玲;;基于Lucene2.0的电子文献全文检索系统[J];电脑知识与技术(学术交流);2007年23期
10 鲁强;金伟祖;;基于FMM和CRFs双层分词模型的研究[J];电脑知识与技术;2008年28期
相关会议论文 前10条
1 陈岳阳;马学森;韩江洪;石雷;;基于JDOM实现XML数据备份的研究与实现?[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
5 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年
6 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
7 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
10 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
相关博士学位论文 前10条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
2 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
3 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
4 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
5 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
8 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
9 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
10 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
相关硕士学位论文 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
4 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
5 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
6 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
7 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
8 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
9 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
10 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
【二级参考文献】
相关期刊论文 前6条
1 鲍玉来;用JAVA+XML实现网站全文检索[J];高校图书馆工作;2003年06期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 葛慧;Java与XML实现数据抽取[J];计算机与现代化;2003年01期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
6 冯京桉;XML与网络环境下的全文检索[J];情报杂志;2003年10期
相关会议论文 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
相关期刊论文 前10条
1 郭一平;向晖;王亮;;基于Lucene的Ftp搜索引擎的设计[J];图书情报工作;2006年04期
2 孔伯煊;李祥;;基于Lucene\XML技术的Web搜索引擎设计与实现[J];航空计算技术;2006年04期
3 黄建岗;张爱华;;教务门户网自动问答系统的设计与实现[J];电脑知识与技术;2009年36期
4 买日旦·吾守尔;维尼拉·木沙江;;多文种多向电子词典软件系统关键技术研究[J];计算机应用与软件;2011年04期
5 李毅,杨善林,刘业政,顾铁军;基于XML的网络课件环境中搜索引擎的实现[J];武汉理工大学学报(信息与管理工程版);2003年03期
6 蔡小艳;寇应展;沈巍;郑伟;;汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现[J];军械工程学院学报;2008年05期
7 吴於茜;在平面设计软件中实现SVG格式文档输出[J];计算机工程与应用;2001年09期
8 张伟都,周海东,钟共鸣,张素伟;面向XML的数据管理系统[J];计算机工程与应用;2001年20期
9 李天庆,张毅,张冰,胡东成;基于XML的体育数据规格化存储技术研究[J];计算机工程与应用;2001年22期
10 张晓林;基于XML的信息组织与处理:1.XML技术体系[J];情报科学;2001年08期
相关会议论文 前10条
1 郭志懋;周傲英;;XML数据的在线过滤[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 何震瀛;李建中;王宏志;;XML数据的关系存储[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 丁峰;王煜;姚延涛;沈钧毅;;从XML模式到数据库模式[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 谈子敬;施伯乐;;XML导出数据库表的实现与应用[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 罗道峰;孟小峰;;一种面向XML文档的基于角色的扩展访问控制方法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 郑骏;王焱;钱卫宁;周傲英;;XML相似相关结构库的构造及其应用[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 吴刚;于亚新;王国仁;于戈;;并行XML文档数据分片技术研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
8 王静;孟小峰;王珊;;以目标节点为导向的XML路径查询处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
9 王鹏飞;洪晓光;;基于XML大文档的动态索引[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 肖冰;廖湖声;郑玉明;;数据集成系统中的XML延迟处理技术[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
相关重要报纸文章 前10条
1 秦林;《XML完全探索》[N];中华读书报;2001年
2 本报记者 李瀛寰;XML推了网络一把[N];中国计算机报;2000年
3 ;分化并不能阻止XML发展[N];中国计算机报;2000年
4 ;为XML标准定标准[N];中国计算机报;2001年
5 IDG电讯;Microsoft、IBM共同制定XML标准[N];计算机世界;2000年
6 北京邮电大学 张剑;XML与HTML的结合(上)[N];计算机世界;2001年
7 本报记者 陆 杰;XML丛林的新秀[N];中华读书报;2002年
8 侯青;国际电子商务XML/EDI特点及现状[N];国际商报;2001年
9 北京邮电大学 张剑;XML技术预览[N];计算机世界;2001年
10 北京邮电大学 张剑;XML与HTML的结合(下)[N];计算机世界;2001年
相关博士学位论文 前10条
1 沈洁;基于自动机的XML数据过滤研究[D];哈尔滨工程大学;2010年
2 叶晓峰;基于XML的冲压模具设计知识重用技术研究[D];华中科技大学;2010年
3 殷丽凤;不完全信息环境下XML数据库规范化问题的研究[D];哈尔滨理工大学;2009年
4 张晨静;XML关键字过滤技术[D];复旦大学;2011年
5 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
6 汪源;XML事务模型及并发控制研究[D];浙江大学;2006年
7 许建军;对结构化和半结构化数据的关键字搜索研究[D];复旦大学;2007年
8 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
9 陈廷斌;基于XML/Web服务的供应链信息集成技术与方法研究[D];大连理工大学;2005年
10 陈亚华;企业应用集成架构研究与实现[D];复旦大学;2005年
相关硕士学位论文 前10条
1 王忠义;基于XML的全文检索方法及原型系统实现研究[D];华中师范大学;2009年
2 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
3 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
4 高欣;基于Lucene的全文检索系统的研究与实现[D];天津师范大学;2010年
5 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
6 杜先撰;基于Lucene全文索引系统设计与实现[D];南京大学;2011年
7 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
8 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
9 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
10 岳莉;基于Lucene的全文检索系统的研究与应用[D];西安电子科技大学;2010年
,本文编号:2213874
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2213874.html