基于Lucene的中文分词方法设计与实现
本文选题:中文分词 切入点:搜索引擎 出处:《四川大学学报(自然科学版)》2008年05期
【摘要】:本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力.整个模块基于当前最流行的搜索引擎架构Lucene,实现了带有歧义消除功能的正向最大匹配算法.在系统评测方面,比较了该方法与现有方法的区别,对于如何构建一个高效的中文检索系统,提出了一种实现.
[Abstract]:This paper designs and implements a Chinese word segmentation module, the main purpose of which is to find a more effective Chinese word processing method. The whole module is based on the most popular search engine architecture Lucene. the forward maximum matching algorithm with ambiguity disambiguation is realized. The differences between this method and the existing methods are compared, and an implementation of how to construct an efficient Chinese retrieval system is proposed.
【作者单位】: 四川大学计算机学院;泸州医学院生物工程系;
【基金】:四川省重点科技项目(05GG021-003-2)
【分类号】:TP391.12
【参考文献】
相关期刊论文 前5条
1 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期
2 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
3 秦文,苑春法;基于决策树的汉语未登录词识别[J];中文信息学报;2004年01期
4 郭伟;陈蓉;周伟;熊伟;于中华;;基于延迟决策和斜率的新词识别方法[J];四川大学学报(自然科学版);2007年03期
5 王莉云;王华;陈刚;姚乃明;;基于Lucene的全文检索系统的设计与实现[J];计算机工程与设计;2007年24期
【共引文献】
相关期刊论文 前10条
1 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
2 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
3 徐光侠;封雷;涂演;李成;;基于Android和Google Maps的生活辅助系统的设计与实现[J];重庆邮电大学学报(自然科学版);2012年02期
4 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
5 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
6 汤国锋;徐振伟;张华熊;;基于Lucene的中文分词技术研究[J];电脑编程技巧与维护;2012年10期
7 康松林;施荣华;;基于信息元的教学资源组织系统的设计与实现[J];电脑与信息技术;2006年04期
8 王锐;张颖慧;陈丽;;一种基于配置策略的网络资源数据搜索方法[J];电信科学;2011年11期
9 叶敏;范金锋;;基于二叉排序树及中文分词的关键字过滤技术[J];电力信息化;2011年07期
10 杨元峰;赵敏涯;廖黎莉;;基于Lucene的客服知识库系统结构设计[J];福建电脑;2012年01期
相关会议论文 前5条
1 ;THE APPLICATION OF FULLl-TEXT INDEX WITH RULE LIBRATY IN INTEGRATED GEOGRAPHIC INFORMATION COLLECTION DATABASE ENGINE[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
2 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
3 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 王芳;万常选;;基于互信息的中文完整词自动识别模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
相关博士学位论文 前10条
1 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 夏天;研究性学习支持系统[D];华东师范大学;2007年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
7 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
8 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
9 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
10 刘林泉;水声综合测控系统关键技术研究[D];哈尔滨工程大学;2008年
相关硕士学位论文 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
3 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
4 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
5 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
9 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
10 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期
3 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
4 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
5 秦浩伟,步丰林;一个中文新词识别特征的研究[J];计算机工程;2004年S1期
6 秦文,苑春法;基于决策树的汉语未登录词识别[J];中文信息学报;2004年01期
7 韩维良;汉语自动分词系统中切分歧义与未登录词的处理策略[J];青海师范大学学报(自然科学版);2004年02期
8 周丽琴,杨季文,吕强;基于Web的字词频统计程序的设计与应用[J];苏州大学学报(自然科学);2002年01期
9 柯和平;基于全文检索和流媒体技术的素材库设计建设[J];计算机工程与设计;2004年09期
10 陈小荷;自动分词中未登录词问题的一揽子解决方案[J];语言文字应用;1999年03期
【相似文献】
相关期刊论文 前10条
1 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
2 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
3 胡继钧;;基于Lucene全文检索引擎的研究与实现[J];科技创新导报;2010年20期
4 向晖;郭一平;王亮;;基于Lucene的中文字典分词模块的设计与实现[J];现代图书情报技术;2006年08期
5 李颖;李志蜀;邓欢;;基于Lucene的中文分词方法设计与实现[J];四川大学学报(自然科学版);2008年05期
6 匡振国;倪宏;嵇智辉;刘磊;;一种基于Lucene的影片搜索引擎的研究和应用[J];计算机工程与应用;2008年29期
7 郑如滨;撒力;谢婷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];电脑知识与技术;2008年29期
8 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
9 励子闰;余青松;陈胜东;;基于全文检索引擎的信息检索技术的应用研究[J];计算机与数字工程;2008年09期
10 侯云;;构建基于Lucene的网站站内搜索[J];信息与电脑(理论版);2010年02期
相关会议论文 前10条
1 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
相关重要报纸文章 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 姜蕊;过半用户难辨百度雅虎[N];中国商报;2006年
3 李一鑫;搜索排名的红与黑[N];财经时报;2007年
4 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
5 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
6 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
7 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 本报记者 赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
相关硕士学位论文 前10条
1 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
4 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
5 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
6 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
7 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
10 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年
,本文编号:1655772
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1655772.html