基于词语分类和排序的最大匹配中文分词技术

发布时间:2021-10-12 21:26
  随着科技的快速发展,自然语言处理技术已经广泛深入到每个人的工作、学习当中。中文分词技术作为自然语言处理的基础,广泛应用于各种自然语言处理领域,如智能问答系统、搜索引擎、文本检索、机器翻译、语音识别系统等。在大多数自然语言处理应用系统中,第一步都是中文分词过程,对文本切分的准确率和效率会直接影响到后续应用的效果,高效又准确的中文分词是各个应用系统的基础环节。只有更好的解决中文分词问题,才能更好的理解句子和文章层面的问题。所以成熟完善的中文分词技术是自然语言处理技术得到更广泛应用的重要前提和保障,对中文分词技术进行深入研究,具有重要的科学意义和实际应用价值。通过分析现有中文分词方法的研究现状,总结了各种分词方法的优缺点以及目前中文分词方法中存在的问题,为提升中文分词的准确性和效率,提出了基于词语分类和排序的最大匹配中文分词方法。首先,为提升分词效率,设计了新的分词词典结构,新的分词词典采用分组的思想,将首字相同、词长相同的词分为一组,并且每个组中的词进行排序。采用该词典进行分词,在每一次匹配过程中,只需要在对应的组中进行查找即可,这样大大缩小了搜索范围,可以在很大程度上提升搜索效率。其次,... 

【文章来源】:沈阳师范大学辽宁省

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

基于词语分类和排序的最大匹配中文分词技术


图5.1分词速度对比

最大匹配,词语,歧义,算法


基于词语分类和排序的最大匹配中文分词技术-41-图5.3基于词语分类排序的最大匹配算法实现图5.4机构名识别对于歧义的识别采用双向扫描法,即通过改进后的正向最大匹配和逆向最大匹配分别分词,如果分词结果不一致认为产生歧义切分,对于歧义字段的处理将建立的歧义处理规

最大匹配,歧义,扫描法,正向


基于词语分类和排序的最大匹配中文分词技术-41-图5.3基于词语分类排序的最大匹配算法实现图5.4机构名识别对于歧义的识别采用双向扫描法,即通过改进后的正向最大匹配和逆向最大匹配分别分词,如果分词结果不一致认为产生歧义切分,对于歧义字段的处理将建立的歧义处理规

【参考文献】:
期刊论文
[1]电商领域中有关物流评价中文分词的研究[J]. 钟静晨,祁云嵩.  计算机与数字工程. 2019(11)
[2]自然语言处理技术的重要性研究[J]. 王凌燕.  信息通信. 2019(11)
[3]采用Transformer-CRF的中文电子病历命名实体识别[J]. 李博,康晓东,张华丽,王亚鸽,陈亚媛,白放.  计算机工程与应用. 2020(05)
[4]基于词性标注与分词消歧的中文分词方法[J]. 熊健,翟紫姹.  广州大学学报(自然科学版). 2019(05)
[5]一种基于特征模板和CNN-BiLSTM-CRF的网络安全实体识别方法(英文)[J]. Ya QIN,Guo-wei SHEN,Wen-bo ZHAO,Yan-ping CHEN,Miao YU,Xin JIN.  Frontiers of Information Technology & Electronic Engineering. 2019(06)
[6]自动答疑系统中文分词模块的设计与实现[J]. 马新意,王剑辉.  信息技术与信息化. 2019(01)
[7]基于CRF和BI-LSTM的命名实体识别方法[J]. 柏兵,侯霞,石松.  北京信息科技大学学报(自然科学版). 2018(06)
[8]基于扩展规则与统计特征的未登录词识别[J]. 曾浩,詹恩奇,郑建彬,汪阳.  计算机应用研究. 2019(09)
[9]基于条件随机场的农业命名实体识别[J]. 张剑,吴青,羊昕旖,王彬聪,吴宣为,徐向英,吕强.  计算机与现代化. 2018(01)
[10]基于双字哈希结构的最大匹配算法机制改进[J]. 刘勇,魏光泽.  电子设计工程. 2017(16)

硕士论文
[1]基于深度学习的中文分词方法研究[D]. 史宇.南京邮电大学 2019
[2]Python知识自动问答系统的研究与实现[D]. 郝光兆.河北工程大学 2019
[3]基于知乎用户行为的理财产品推荐系统的设计与实现[D]. 刘畅.西北大学 2019
[4]基于深度学习的中文分词和关键词抽取模型研究[D]. 黄丹丹.北京邮电大学 2019
[5]基于条件随机场的中文分词技术的研究与实现[D]. 徐晓芳.南京邮电大学 2018
[6]基于语境信息的中文分词消歧研究[D]. 黄岭.桂林理工大学 2018
[7]基于规则与BP神经网络相结合的复句关系词切分消歧[D]. 熊焱.华中师范大学 2018
[8]基于统计和规则的中文地址分词系统设计与实现[D]. 袁向铎.东南大学 2018
[9]基于词典与统计结合的中文分词方法研究及全文检索系统设计[D]. 周世宇.华中师范大学 2017
[10]基于深度学习的中文分词模型应用研究[D]. 解宇涵.重庆大学 2017



本文编号:3433326

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3433326.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81b92***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com