基于语义向量融合的中文命名实体识别

发布时间:2021-10-30 12:38
  随着信息技术的快速发展,人们生活中充斥着海量的文本数据,命名实体识别任务就是对这些数据中有意义的实体进行提取。它是自然语言处理中一个关键任务,是舆情监测、信息提取任务的基础,其效果的好坏对后续任务研究有着巨大的影响。本文中引入的命名实体识别任务是对文本中的人名,地名,机构名进行抽取。由于传统方法会导致代价大、泛化性差的结果,本文采用了基于语义向量融合的方法对中文实体进行识别。首先利用双向长短时记忆网络(BiLSTMs)进行建模,通过引入条件随机场(CRF)增加规则来提高模型识别效率构建BiLSTMs+CRF模型。以字为单位进行输入,解决了中文分词错误导致识别效果不好的问题。在模型中将经过预训练模型的词向量和字向量进行拼接,得到一组语义向量融合的新特征。然后构建了 CNN-BiLSTMs+CRF的模型,其中卷积神经网络(CNN)用来提取细粒度的特征。为了解决序列模型计算速度慢的缺点,将融合好语义的向量输入到构建的迭代膨胀卷积网络(ID-CNN)。该模型在没有增加参数的情况下使得覆盖的文本和提取的特征变得更多了。在BiLSTM、BiLSTM+CRF、BiLSTMs、BiLSTMs+CRF模... 

【文章来源】:云南大学云南省 211工程院校

【文章页数】:66 页

【学位级别】:硕士

【部分图文】:

基于语义向量融合的中文命名实体识别


图2.1前馈神经网络结构??

过程图,图像卷积,过程,卷积


卷积提取出特征图(Feature?Map)。池化层作用是对卷积后的特征进行降维,压??缩数据量,减小过拟合。其中最常用的是最大池化(Max?Pooling),即在每个区??域中找到最大值。图像的卷积过程如图2.2所示。??involution???max?pooling?v^c???V??nonlinearity?〇?\〇?...??;????.......????—??? ̄ ̄? ̄ ̄??convolution?pooling?layers?fully?ccsinected?layers?Nk?binary?clcesffication??图2.2图像卷积过程??对于CNN来说并不是所有的上下层神经元都互相连接,而是通过filter作为??中介。再通过池化层进一步提高网络的鲁棒性。??CNN不仅可以用于图像领域,在自然语言处理领域也取得不错的成果。在2014??年Yoon?Kim[44l首先将CNN用于文本分类问题,并且得到了很好的效果。让人们??看到CNN在自然语言处理方面的前景。相比于图像,文本处理则是一维卷积,卷??积过程是整行整行的进行,filter的大小就是卷积行数,有多少filter就有多少feature??map,也等于最后经过池化后的向量的维度。其卷积的原理如图2.3所示。??wait?|?T;?p?-、?|??for?:丨丨丨?—?????-?-?Z_p—]??*e?rp' ̄—-—lZtz??video???:?一?..

特征图,文本分类,卷积


卷积提取出特征图(Feature?Map)。池化层作用是对卷积后的特征进行降维,压??缩数据量,减小过拟合。其中最常用的是最大池化(Max?Pooling),即在每个区??域中找到最大值。图像的卷积过程如图2.2所示。??involution???max?pooling?v^c???V??nonlinearity?〇?\〇?...??;????.......????—??? ̄ ̄? ̄ ̄??convolution?pooling?layers?fully?ccsinected?layers?Nk?binary?clcesffication??图2.2图像卷积过程??对于CNN来说并不是所有的上下层神经元都互相连接,而是通过filter作为??中介。再通过池化层进一步提高网络的鲁棒性。??CNN不仅可以用于图像领域,在自然语言处理领域也取得不错的成果。在2014??年Yoon?Kim[44l首先将CNN用于文本分类问题,并且得到了很好的效果。让人们??看到CNN在自然语言处理方面的前景。相比于图像,文本处理则是一维卷积,卷??积过程是整行整行的进行,filter的大小就是卷积行数,有多少filter就有多少feature??map,也等于最后经过池化后的向量的维度。其卷积的原理如图2.3所示。??wait?|?T;?p?-、?|??for?:丨丨丨?—?????-?-?Z_p—]??*e?rp' ̄—-—lZtz??video???:?一?..

【参考文献】:
期刊论文
[1]基于深度信念网络的地质实体识别方法[J]. 张雪英,叶鹏,王曙,杜咪.  岩石学报. 2018(02)
[2]基于深度神经网络的命名实体识别方法研究[J]. GUL Khan Safi Qamas,尹继泽,潘丽敏,罗森林.  信息网络安全. 2017(10)
[3]基于BLSTM的命名实体识别方法[J]. 冯艳红,于红,孙庚,孙娟娟.  计算机科学. 2018(02)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)
[5]基于位置敏感Embedding的中文命名实体识别[J]. 鲁亚楠,孙锐,姬东鸿.  计算机应用研究. 2017(02)
[6]命名实体识别综述[J]. 陈基.  现代计算机(专业版). 2016(03)
[7]问答系统综述[J]. 李沛晏,朱露,吴多胜.  数字技术与应用. 2015(04)
[8]ICTCLAS中文词法分析的Delphi调用研究[J]. 郭晓云.  电脑编程技巧与维护. 2011(24)
[9]基于规则和概率统计相结合的中文命名实体识别研究[J]. 闫萍.  计算机与数字工程. 2011(09)
[10]科学知识图谱的发展历程[J]. 陈悦,刘则渊,陈劲,侯剑华.  科学学研究. 2008(03)

硕士论文
[1]基于词表示方法的生物医学命名实体识别[D]. 何红磊.大连理工大学 2015
[2]基于自主推理的中文命名实体识别方法研究[D]. 李波.西北大学 2012



本文编号:3466745

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3466745.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户32dbf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com