基于深度学习的中文微博命名实体识别
发布时间:2017-10-31 19:07
本文关键词:基于深度学习的中文微博命名实体识别
更多相关文章: 微博 深度学习 自动编码器 卷积 命名实体识别
【摘要】:针对微博用语不规范、噪声多、更新快、缩略语多,且数据量大等相关特点,提出基于深度学习的方法进行微博命名实体的识别。首先利用大量的未标注的微博信息对自动编码器训练,获得抽象特征,随后将这些特征作为深度学习网络的输入,最后得出句子中每个字的类标。在进行自动编码器训练的过程中,使用卷积方法替代窗口移动方法,以获取句子中的长依赖信息。通过对新浪微博数据的实验结果表明,该深度学习方法能够提高微博中命名实体识别的F1值,说明了本文算法的有效性。
【作者单位】: 四川大学计算机学院;
【关键词】: 微博 深度学习 自动编码器 卷积 命名实体识别
【基金】:国家自然科学基金资助项目(61332066;81373239)
【分类号】:TP391.1
【正文快照】: 中文命名实体识别[1-3]是中文信息处理中一项重要的任务。随着移动互联网的发展,微博发展越来越快。据统计,截止到2013年3月,新浪的微博注册量已经突破了5亿[4]。如今的微博具有庞大的用户群体和影响力,而微博中的命名实体通常又可以指示微博的主要内容,识别微博中的命名实体
【相似文献】
中国期刊全文数据库 前10条
1 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
2 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
3 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
4 郑强;刘齐军;王正华;朱云平;;生物医学命名实体识别的研究与进展[J];计算机应用研究;2010年03期
5 张向U,
本文编号:1123358
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1123358.html