当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的中文分词系统设计与实现

发布时间:2017-07-20 23:18

  本文关键词:基于Lucene的中文分词系统设计与实现


  更多相关文章: 中文分词 搜索引擎 检索词典 基于Lucene


【摘要】:随着信息技术的不断发展,中文分词的应用越来越广泛,例如搜索引擎、机器翻译等领域。论文介绍了对未识别部分采取检索词典的方法;对介词副词词典、姓氏词典和后缀词词典先检索,再处理介词、副词、姓名和后缀词等,处理完后再将剩余部分输出单字等。设计并实现了一个基于Lucene的中文分词系统,系统运行良好,能对待切分的文本进行相对正确、快速的切分,系统输出的结果基本符合预期的目标。
【作者单位】: 陕西邮电职业技术学院;
【关键词】中文分词 搜索引擎 检索词典 基于Lucene
【分类号】:TP391.1
【正文快照】: 0引言Lucene[1]是一个基于Java语言的全文信息检索框架,它提供了一个框架。Lucene提供了org.apache.Lucene.analysis包,这是它的语言分析器[2]。Analyzer是一个抽象类,它定义了对文本内容的切分词规则。切分后返回一个Token Stream,有一个重要的方法next(),即收到下一个词。通

【相似文献】

中国期刊全文数据库 前10条

1 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期

2 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期

3 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期

4 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期

5 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期

6 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期

7 许华;;中文分词系统设计之词典构造[J];科技创新导报;2010年20期

8 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期

9 莫建文;郑阳;首照宇;张顺岚;;改进的基于词典的中文分词方法[J];计算机工程与设计;2013年05期

10 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期

中国重要会议论文全文数据库 前10条

1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年

2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年

6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年

中国硕士学位论文全文数据库 前10条

1 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年

2 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年

3 许华婷;基于Active Learning的中文分词领域自适应方法的研究[D];北京交通大学;2015年

4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年

5 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年

6 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年

7 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年

8 代聪;基于英汉平行语料的中文分词研究与应用[D];大连理工大学;2012年

9 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年

10 王为磊;基于多目标优化的中文分词模型的研究[D];苏州大学;2008年



本文编号:570472

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/570472.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c45a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com