双向循环网络中文分词模型
本文选题:分词 + 序列标注 ; 参考:《小型微型计算机系统》2017年03期
【摘要】:针对统计方法的中文分词模型主要依赖于特征工程,难以捕捉句子中长距离依赖关系等问题,提出一种双向循环网络中文分词模型.为能有效获取待分类字符的上下文特征,避免局部窗口大小的限制,使用长短时记忆网络(Long Short-Term M emory Neural Netw ork,LSTM)作为神经网络隐藏层,同时增加一层反向LSTM抽取字符的将来信息特征.提出一种语言模型预训练的网络权值初始化方法,该模型同时得到中文字符embeddings分布式向量特征.在标准分词数据集上测试表明该模型取得比以往统计标注方法更好的效果.通过对比实验结果发现深层神经网络能提取出不逊于人工总结的分词特征.
[Abstract]:Aiming at the problem that the Chinese word segmentation model of statistical method mainly depends on feature engineering and it is difficult to capture the middle and long distance dependency of sentences, a bidirectional cyclic network Chinese word segmentation model is proposed.In order to obtain the context features of the characters to be classified effectively and avoid the limitation of the local window size, the long and short time memory network long Short-Term M emory Neural Netw or LSTM) is used as the hidden layer of the neural network, and a layer of reverse LSTM is added to extract the future information features of the characters.A network weight initialization method for pre-training of language model is proposed. The model also obtains the embeddings distributed vector features of Chinese characters.The test on the standard word segmentation data set shows that the model is more effective than the previous statistical annotation methods.By comparing the experimental results, it is found that the deep neural network can extract the word segmentation features which are not inferior to the artificial summary.
【作者单位】: 湖北大学计算机与信息工程学院;
【基金】:国家自然科学基金项目(61202100)资助
【分类号】:TP391.1
【参考文献】
相关期刊论文 前2条
1 刘建伟;刘媛;罗雄麟;;玻尔兹曼机研究进展[J];计算机研究与发展;2014年01期
2 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
【共引文献】
相关期刊论文 前10条
1 胡婕;张俊驰;;双向循环网络中文分词模型[J];小型微型计算机系统;2017年03期
2 马世龙;乌尼日其其格;李小平;;大数据与深度学习综述[J];智能系统学报;2016年06期
3 袁成;张榆平;梁洲;张陈方;;受限玻尔兹曼机在装备保障方案评价中的应用[J];太赫兹科学与电子信息学报;2016年06期
4 徐浩煜;任智慧;施俊;周晗;;基于链式条件随机场的中文分词改进方法[J];计算机应用与软件;2016年12期
5 徐建忠;朱俊;赵瑞;张亮;李娇娇;;基于Web技术的航天文本分类系统研究与应用[J];军民两用技术与产品;2016年23期
6 韩俊波;;深度学习算法与应用探究[J];湖州师范学院学报;2016年10期
7 钱建生;邱春荣;李紫阳;吴响;;深度学习耦合粒子群优化SVM的瓦斯浓度预测[J];煤矿安全;2016年11期
8 昝红英;许鸿飞;张坤丽;穗志方;;网络用语词典的构建及问题分析[J];中文信息学报;2016年06期
9 楼小帆;吴军;马严;林昭文;;基于LDA模型的高校论坛热点提取系统[J];华中科技大学学报(自然科学版);2016年S1期
10 柴瑞敏;O@称称;;一种改进的深度置信网络及其在自然图像分类中的应用[J];计算机应用与软件;2016年09期
【二级参考文献】
相关期刊论文 前6条
1 杨莹;吴诚炜;胡苏;;基于受限玻尔兹曼机的中文文档分类[J];科技创新导报;2012年16期
2 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 孙茂松;谈谈汉语分词语料库的一致性问题[J];语言文字应用;1999年02期
5 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
6 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【相似文献】
相关期刊论文 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
相关博士学位论文 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
相关硕士学位论文 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年
4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年
6 杨淦;基于条件随机场模型的中文分词系统研究与实现[D];重庆大学;2015年
7 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
8 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
9 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
10 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
,本文编号:1757913
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1757913.html