基于MMSEG算法的中文分词器的设计与实现
本文关键词:基于MMSEG算法的中文分词器的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网的不断发展和繁荣,信息也开始呈现爆炸式的发展,整个互联网的信息量体量越来越庞大,这么大数据量对互联网公司来说都是极大的挑战,不论是信息的存储还是信息的查询。对于搜索引擎来说,其核心技术就是分词器。对于中文搜索来说其核心技术就是中文分词器。中文分词与英文分词有很大的区别,这样在中文本身的特点。如果有效进行中文分词,提高分词正确率是亟待解决的重要问题。本文正是在这样的背景下提出了中文分词算法的研究,并给予算法进行中文分词器的实现。本文主要对MMSEG算法进行深入的研究,特别是它的复杂分词模式和歧义处理规则的分析。在此基础上结合Lucene搜索框架实现了中文分词器MMSEG Analyzer。本文主要的工作内容如下:首先对Lucene搜索框架进行了深入的分析,这里包括Lucene的体系结构和索引技术,通过对Lucene的深入分析,为中文分词器MMSEGAnalyzer的设计提供了方法论。对当前的中文分词算法进行了深入的分析,尤其对中文分词当前的主要难题歧义分词进行归类和分析。然后对MMSEG中文分词算法进行了详细的分析,这里主要从词典的实现方案、分词算法以及歧义消除规则。词典的实现方案目前主要有基于整词二分的词典构造、基于逐字二分的词典构造以及基于TRIE索引树的词典构造等。MMSEG算法目前的分词算法主要分为简单最大匹配算法和复杂最大匹配算法。最后对MMSEGAnalyzer中文分词器进行了详细的设计和实现。MMSEGAnalyzer中文分词器的实现也可分为四大块:词典管理模块、分词模块、分词歧义处理模块、Lucene接口管理模块。词典管理模块主要负责词典的存储、加载和解析,本文主要从词典加载、词典解析以及词典自动加载等三个方面展开了实现。分词歧义处理模块根据MMSEG算法的四大歧义处理规则实现的,这些过滤规则在复杂最大匹配分词模块中使用。Lucene接口管理模块主要提供了MMSEGAnalyzer中文分词器对Lucene的分词器的接入,实现了对Lucene的集成。本文基于MMSEG分词算法实现了MMSEGAnalyzer中文分词器。MMSEGAnalyzer中文分词器通过Lucene可以很好的实现中文分词应用场景,很大提高了中文分词的准确率。
【关键词】:MMSEG算法 词典 中文分词 分词器 lucene 分词算法
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP391.1
【目录】:
- 摘要5-6
- Abstract6-12
- 第1章 前言12-18
- 1.1 课题来源12
- 1.2 选题的目的与意义12-13
- 1.3 国内外发展现状13-16
- 1.4 研究内容16
- 1.5 论文组织结构16-18
- 第2章 相关技术研究18-29
- 2.1 Lucene18-22
- 2.1.1 Lucene的介绍18-19
- 2.1.2 Lucene系统结构19-20
- 2.1.3 Lucene索引技术20-22
- 2.2 中文分词技术22-26
- 2.2.1 中文分词算法22-25
- 2.2.2 分词歧义25-26
- 2.3 开发工具Eclipse26-27
- 2.4 本章小结27-29
- 第3章 MMSEG中文分词算法29-35
- 3.1 词典29-32
- 3.1.1 基于整词二分的分词词典机制29-30
- 3.1.2 基于逐字二分的分词词典机制30
- 3.1.3 基于TRIE索引树的分词词典机制30-32
- 3.2 分词算法32
- 3.3 歧义消除规则32-34
- 3.4 本章小结34-35
- 第4章 基于MMSEG算法的中文分词器设计35-43
- 4.1 MMSEGAnalyzer中文分词器的框架35-37
- 4.2 词典管理设计37-40
- 4.2.1 词典存储结构的设计37-39
- 4.2.2 词典加载功能设计39-40
- 4.3 分词算法的设计40-41
- 4.4 分词歧义处理设计41-42
- 4.5 本章小结42-43
- 第5章 基于MMSEG算法的中文分词器的实现43-64
- 5.1 词典机制实现43-49
- 5.1.1 词典的加载实现43-45
- 5.1.2 词典的类型识别和存储45-48
- 5.1.3 词典自动加载功能48-49
- 5.2 分词算法实现49-54
- 5.3 分词歧义处理实现54-57
- 5.4 Lucene接口实现57-60
- 5.5 MMSEGAnalyzer测试60-63
- 5.5.1 MMSEGAnalyzer功能测试60-61
- 5.5.2 分词性能测试61-63
- 5.6 本章小结63-64
- 结论64-66
- 参考文献66-70
- 致谢70
【相似文献】
中国期刊全文数据库 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
中国博士学位论文全文数据库 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
2 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
3 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
4 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
5 郑宗荣;基于实例的中文分词系统设计与实现[D];电子科技大学;2016年
6 张永邦;搜索引擎理论与技术研究[D];南京邮电大学;2016年
7 刘岩;基于MMSEG算法的中文分词器的设计与实现[D];湖南大学;2016年
8 何荣杰;基于Lucene的全文搜索引擎的研究与实现[D];江苏科技大学;2016年
9 曾庆妍;基于ALICE的研究生招生咨询智能聊天系统设计与实现[D];山东师范大学;2016年
10 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
本文关键词:基于MMSEG算法的中文分词器的设计与实现,,由笔耕文化传播整理发布。
本文编号:452618
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/452618.html