基于门循环单元神经网络的中文分词法
本文选题:自然语言处理 + 中文分词 ; 参考:《厦门大学学报(自然科学版)》2017年02期
【摘要】:目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题.随着深度学习的研究和应用的兴起,研究者提出了将长短时记忆(long short-term memory,LSTM)神经网络应用于中文分词任务的方法,该方法可以自动学习特征,并有效建模长距离依赖信息,但是该模型较为复杂,存在模型训练和预测时间长的缺陷.针对该问题,提出了基于门循环单元(gated recurrent unit,GRU)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征、能有效建立长距离依赖信息的优点,具有与基于LSTM神经网络中文分词法相当的性能,并在速度上有显著提升.
[Abstract]:At present, the mainstream Chinese word segmentation method in academic circles is a traditional machine learning method based on character sequence tagging. With the development of the research and application of deep learning, researchers put forward a method of applying long short-term memory LSTM neural network to Chinese word segmentation tasks. This method can automatically learn features and effectively model long distance dependent information. However, the model is complex and has the defects of long training and prediction time. In order to solve this problem, a Chinese word segmentation method based on gate loop unit (gated recurrent unit GRU) neural network is proposed. This method inherits the advantages of LSTM model which can automatically learn features and can effectively establish long distance dependent information. It has the same performance as the Chinese word segmentation method based on LSTM neural network, and has a remarkable improvement in speed.
【作者单位】: 厦门大学软件学院;
【基金】:福建省自然科学基金(2013J01250)
【分类号】:TP391.1;TP183
【参考文献】
相关期刊论文 前3条
1 吴春颖;王士同;;基于二元语法的N-最大概率中文粗分模型[J];计算机应用;2007年12期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
3 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
【共引文献】
相关期刊论文 前10条
1 李雪莲;段鸿;许牧;;基于门循环单元神经网络的中文分词法[J];厦门大学学报(自然科学版);2017年02期
2 刘亮亮;曹存根;;中文“非多字词错误”自动校对方法研究[J];计算机科学;2016年10期
3 朱碧颖;赵爽;;基于市场情绪挖掘的PSM_Black_Litterman资产配置模型[J];时代金融;2016年18期
4 黄鹏;张姝;陈玉华;文斌;;一种基于无监督学习的交集型歧义处理改进方法[J];云南师范大学学报(自然科学版);2015年06期
5 付媛;朱礼军;韩红旗;;K最短路径算法与应用分析[J];情报工程;2015年01期
6 郭远;喻志浩;周莲英;;舆论智能干预中词法分析与匹配的研究与设计[J];数据通信;2014年05期
7 王松;吴亚东;李秋生;蒋宏宇;邹勇刚;;基于时空分析的微博演化可视化[J];西南科技大学学报;2014年03期
8 陶非凡;;基于层叠隐马模型的屏蔽关键词研究[J];计算机技术与发展;2014年11期
9 施恒利;刘亮亮;王石;符建辉;张再跃;曹存根;;汉字种子混淆集的构建方法研究[J];计算机科学;2014年08期
10 顾晓雪;章成志;;中文博客标签的聚类及可视化研究[J];情报理论与实践;2014年07期
【二级参考文献】
相关期刊论文 前10条
1 王峰;游志胜;曼丽春;高燕;汤丽萍;;Dijkstra及基于Dijkstra的前N条最短路径算法在智能交通系统中的应用[J];计算机应用研究;2006年09期
2 陈小荷;用基于词的二元模型消解交集型分词歧义[J];南京师大学报(社会科学版);2004年06期
3 万建成,杨春花;书面汉语的全切分分词算法模型[J];小型微型计算机系统;2003年07期
4 冯书晓,徐新,杨春梅;国内中文分词技术研究新进展[J];情报杂志;2002年11期
5 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
6 李家福,张亚非;基于EM算法的汉语自动分词方法[J];情报学报;2002年03期
7 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
8 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
9 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
10 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
【相似文献】
相关期刊论文 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
相关博士学位论文 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
相关硕士学位论文 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年
4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年
6 杨淦;基于条件随机场模型的中文分词系统研究与实现[D];重庆大学;2015年
7 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
8 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
9 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
10 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
,本文编号:2066452
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2066452.html