基于卷积神经网络的中文实体消歧研究
发布时间:2017-12-16 20:21
本文关键词:基于卷积神经网络的中文实体消歧研究
【摘要】:随着移动互联网的普及,微博、博客、贴吧、论坛、各大新闻网站和政府工作网站等极大的方便了人民的生活。这些平台上每时每刻都在产生着大量的数据,而这些数据蕴含着巨大的价值,但它们绝大部分都是以非结构化或半结构化的形式存在,导致这些数据中存在着大量的歧义现象,如何利用这些数据就对自然语言处理技术提出了更多的挑战。中文词义消歧和实体消歧,正是在这种环境下逐渐发展起来。目前主流的实体消歧算法底层模型多是基于词袋模型,而词袋模型固有的局限性,导致这些算法都不能够充分利用上下文的语义信息。本文针对词袋模型难以捕捉上下文语义信息的缺点,提出了一种基于卷积神经网络的中文实体消歧方法。本文的主要工作包括以下几个部分:(1)针对词袋模型难以对实体上下文信息进行语义描述的问题,设计了一种基于卷积神经网络的方法来获得实体上下文的语义信息,该方法将实体上下文中名词的词向量矩阵作为神经网络的输入,继而通过卷积运算,生成实体上下文的语义特征向量;(2)基于语义特征向量,在模型训练时,以最大化待消歧实体与真正目标实体的相似度和待消歧实体与任一随机选择的候选实体的相似度之差作为训练目标,调整模型的参数,在模型预测时,取相似度最大的知识库候选实体作为最终目标实体;(3)本文对第二届CIPS-SIGHAN中文处理国际会议(CLP-2012)第二个评测任务"中文人名消歧任务"提供的数据集进行了预处理,得到本文所用数据集并进行了实验。实验结果显示,本文提出的基于卷积神经网络的方法对中文实体消歧是可行的、有效的。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP183
【参考文献】
中国期刊全文数据库 前7条
1 阳怡林;周杰;李弼程;席耀一;;基于分步聚类的人名消歧算法[J];数据采集与处理;2016年01期
2 杨光;刘秉权;刘铭;;基于图方法的命名实体消歧[J];智能计算机与应用;2015年05期
3 谭咏梅;杨雪;;结合实体链接与实体聚类的命名实体消歧[J];北京邮电大学学报;2014年05期
4 杜婧君;陆蓓;谌志群;;基于中文维基百科的命名实体消歧方法[J];杭州电子科技大学学报;2012年06期
5 王英帅;李培峰;朱巧明;;一种基于LDA和上下文摘要的Web人名消歧方法[J];计算机应用与软件;2011年07期
6 杨欣欣;李培峰;朱巧明;王英帅;;一种基于改进的K-means算法的人名消歧系统的设计与实现[J];计算机与数字工程;2010年08期
7 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
,本文编号:1297340
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1297340.html