基于CNN和LSTM混合模型的中文词性标注
本文选题:词性标注 + 卷积神经网络 ; 参考:《武汉大学学报(理学版)》2017年03期
【摘要】:中文词性标注具有重要的作用,它的准确性和标注速度直接影响到自然语言处理的后续任务.提出一种基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型进行中文词性标注.该模型采用三层结构,用词向量和CNN的滑动窗口特性产生词语表示特征,LSTM的时序性来产生词性标注的序列标签.分别在PFR《人民日报》语料库、CTB7.0和CoNLL09语料库上对该模型进行测试,在未加入任何人工特征的条件下,对词语进行词性标注,词性标注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
[Abstract]:Chinese part-of-speech tagging plays an important role, and its accuracy and tagging speed directly affect the follow-up tasks of natural language processing. A hybrid model based on CNN(convolutional neural Network and LSTM(long-short term memory is proposed for Chinese part of speech tagging. The model uses three-layer structure, word vector and sliding window characteristic of CNN to produce sequential label of part of speech tagging. The model was tested on PFR < People's Daily > corpus CTB7.0 and CoNLL09 corpus, respectively. Without any artificial features, the effect of part of speech tagging was better than that of HMM(hidden Markov model.
【作者单位】: 武汉理工大学计算机科学与技术学院;
【基金】:国家高技术研究发展计划(863)资助项目(2015AA015403)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 完么才让;安见才让;;藏语词性标注[J];信息与电脑(理论版);2013年08期
2 魏欧;孙玉芳;;汉语词性标注方法的研究[J];计算机科学;2000年07期
3 王素格,张永奎;基于搭配模式的汉语词性标注规则的获取方法[J];计算机工程与应用;2001年05期
4 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
5 刘健,郑家恒;基于实例的词性标注方法研究[J];山西气象;2001年02期
6 钱揖丽,郑家恒;汉语语料词性标注自动校对方法的研究[J];中文信息学报;2004年02期
7 张虎,郑家恒,刘江;语料库词性标注一致性检查方法研究[J];中文信息学报;2004年05期
8 吕琳,周世斌,刘玉树;一种高性能英文词性标注器的设计与实现[J];北京理工大学学报;2005年10期
9 牛洪梅;吐尔根;伊不拉音;;维吾尔语的词性标注校对初探[J];微型电脑应用;2006年12期
10 牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;现代维吾尔语的词性标注校对技术研究[J];伊犁师范学院学报(自然科学版);2007年01期
相关会议论文 前10条
1 姜尚仆;陈群秀;;基于规则和统计的日语分词和词性标注的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 温锁林;;汉语词性自动标注软件兼类词鉴别规则库的设计[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
7 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 袁彩霞;王小捷;;基于受限最大熵模型的汉语词性标注的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 张碧川;王小捷;徐文智;刘冬雪;;汉语儿童口语语料库的建立及语料初步统计分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 邢富坤;宋柔;罗智勇;;SSD模型及其在词性标注中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
相关博士学位论文 前1条
1 华却才让;基于树到串藏语机器翻译若干关键技术研究[D];陕西师范大学;2014年
相关硕士学位论文 前10条
1 刘慧敏;中文词性标注及未登录词词性预测研究[D];南京师范大学;2015年
2 刘海峰;基于web语科库的哈萨克语词法分析[D];中央民族大学;2015年
3 赵嘉亿;中文词性标注中异构数据问题研究[D];复旦大学;2014年
4 米尔阿迪力江·麦麦提;基于Morfessor的维吾尔语词干提取和词性标注的研究[D];新疆大学;2015年
5 努尔曙阿克·阿斯哈尔;哈萨克语词性标注软件的开发[D];新疆大学;2015年
6 韩霞;基于半监督隐马尔科夫的汉语词性标注研究[D];大连理工大学;2015年
7 洛桑嘎登;藏文自动分词与词性标注研究[D];中央民族大学;2016年
8 杨蓓;老挝语分词和词性标注方法研究[D];昆明理工大学;2016年
9 袁慧;辅助古诗词研究的唐诗语料库的构建[D];河北大学;2016年
10 朱雷;中文分词与词性标注的一体化学习及领域适应性技术研究[D];东北大学;2010年
,本文编号:1936180
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1936180.html