基于深度神经网络的中文命名实体识别
发布时间:2018-06-15 17:56
本文选题:命名实体识别 + 深度学习 ; 参考:《中文信息学报》2017年04期
【摘要】:由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。
[Abstract]:Due to the lack of clear boundary and case characteristics of Chinese words, the meanings of words are different under different words, so it is more difficult to identify named entities in Chinese than in English. Based on the characteristics of word vector, this paper proposes a word association method for the framework of in-depth learning, which unifies the word feature and word feature, which makes up for the deficiency of word feature segmentation error spread and dictionary sparsity. It also improves the context loss caused by the fixed window size. After adding part of speech information into word features, the performance of the system is further improved. The experimental results on the 1998 People's Daily corpus show that the method has achieved good results. In the task of place name, person name, and agency name recognition, the F1 value of the word and word combination method with part of speech features can reach 96.894.68.688.
【作者单位】: 中国科学院计算技术研究所;烟台中科网络技术研究所;
【基金】:国家重点基础研究发展计划(“973”计划)(2014CB340401) 国家自然基金(61232010,61433014,61425016,61472401,61203298) 中国科学院青年创新促进会优秀会员项目(20144310,2016102) 泰山学者工程专项经费(ts201511082)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
4 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
5 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
6 张向U,
本文编号:2022967
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2022967.html