基于LSTM网络的序列标注中文分词法
本文关键词: 中文分词 LSTM 字嵌入 自然语言处理 出处:《计算机应用研究》2017年05期 论文类型:期刊论文
【摘要】:当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理中序列标注的任务。
[Abstract]:At present, the mainstream Chinese word segmentation method is the traditional machine learning method based on word tagging, but the traditional machine learning method needs to artificially configure and extract features from the Chinese text. There are some disadvantages such as high lexicon dimension and long time using CPU to train the model. An improved network model based on LSTM(long short-term memory is proposed. Tagging a set of different words and adding a pre-trained character embedding vector). Chinese word segmentation. In the Chinese word segmentation commonly used on the corpus, the experimental results show that. The method based on LSTM network model can get better performance than the traditional machine learning method. The better performance of word segmentation can be achieved by using six-word position tagging and adding pre-trained word embedding vector. Moreover, the training time of the deep neural network model can be greatly shortened by using GPU. The method of LSTM network model is also easy to popularize and be applied to other tasks of sequence tagging in natural language processing.
【作者单位】: 上海大学通信与信息工程学院;中国科学院上海高等研究院;中国科学院大学;
【基金】:国家自然科学基金资助项目(61471231) 中国科学院先导资助项目(XDA06010301)
【分类号】:TP391.1
【正文快照】: 大学,北京100049)0引言在基于中文的自然语言处理中,由于不像英文中词与词之间有固定的自然分界符,所以对中文进行分词通常是处理中文信息任务的基础;同时由于中文自身的复杂性,中文分词也一直是中文信息处理任务的难题。中文分词是进行词性标注、命名实体识别、关键词提取和
【相似文献】
相关期刊论文 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
相关博士学位论文 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
相关硕士学位论文 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年
4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年
6 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
7 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
8 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
9 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
10 郑宗荣;基于实例的中文分词系统设计与实现[D];电子科技大学;2016年
,本文编号:1490060
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1490060.html