当前位置:主页 > 科技论文 > 软件论文 >

基于双向长短时记忆模型的中文分词方法

发布时间:2018-06-02 16:29

  本文选题:深度学习 + 神经网络 ; 参考:《华南理工大学学报(自然科学版)》2017年03期


【摘要】:中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.
[Abstract]:Chinese word segmentation is one of the key basic technologies in Chinese Natural Language Processing. At present, the traditional word segmentation algorithm depends on the feature engineering, and the validity of the validation features needs a lot of work. The rise of the depth learning algorithm based on neural network makes the model automatic learning feature possible. The Chinese word segmentation is studied by the time memory (BLSTM) neural network model. First, we learn the semantic vector of the text from the large corpus, then apply the word vector to the BLSTM model to realize the segmentation, and the experiments are carried out on the data sets such as the simplified Chinese data set (PKU, MSRA, CTB) and the traditional Chinese data set (HKCity U). The experiment shows that it is not dependent on the data set of the simplified Chinese data set (PKU, MSRA, CTB) and the traditional Chinese data set. In the case of Feature Engineering, the Chinese word segmentation method based on BLSTM can still achieve good results.
【作者单位】: 北京邮电大学信息与通信工程学院;
【基金】:国家自然科学基金青年基金资助项目(61601042)~~
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期

2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期

3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期

4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期

5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期

6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期

7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期

8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期

9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期

10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期

相关会议论文 前10条

1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年

2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年

6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

9 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前4条

1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年

2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年

3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年

4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年

相关硕士学位论文 前10条

1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年

2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年

3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年

4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年

5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年

6 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年

7 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年

8 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年

9 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年

10 郑宗荣;基于实例的中文分词系统设计与实现[D];电子科技大学;2016年



本文编号:1969427

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1969427.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6d66f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com