面向司法领域的命名实体识别研究
【学位授予单位】:云南财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;D926
【图文】:
CBOW 顾名思义是一个词袋模型,不考虑上下文各个词的词序信息,仅使用上下文 C 个连续词各自词向量的求和或求平均值向量,代替神经网络语言模型中将上文各词的向量拼接的方法。CBOW 模型对于训练样本( 1) i n ,… , i,的输入为:( )11jjcx en = ( 2 . 3 )在输入层中,各词的词向量存储于一个 e V维的实数矩阵中( V 为整个词汇表大小,e 为词向量的维度)。词 到其词向量e ( )的转化就是从该矩阵中取出一列。每个词在模型中都有两套词向量,其中e ( )为词 作为上下文时的表示,而 e ( )为词 作为目标词时的表示。图 2.2 CBOW 模型示意图
, ) =( | , , ~ )v w v wP Y X Y w v p Y X Yw v( 2 . 意的一个结点v成立,称条件概率分布 P ( Y | X )为条件随机场。式 2示在图 中与结点v 有边链接的所有节点w ,w v表示结有结点,, ,v u wY Y Y 分别为结点 v , u ,w的随机向量。)线性链条件随机场RF 的定义中没有要求 X 和 Y 有相同的结构。而实现应用下多会假相同的结构,即:1 2 1 2( , ,... ), ( , ,... )n nX = X X X Y =Y Y Y,在此情况下 CR性链条件随机场(Linear chain Conditional Random Fields,linear-CR:
长短期记忆网络[75](Long-Short Term Memory,LSTM)在 1997 年被提出,它是循环神经网络(RNN)的拓展,通过对循环神经网络的特殊设计来避免长期依赖问题和梯度消失问题,可以对有价值的历史信息进行长期记忆。LSTM 模型是由 时刻的输入词tX ,细胞状态tC(记忆单元,MemoryCell),临时细胞状态tC ,隐层状态th ,遗忘门tf (forget gate),输入门(input gate)ti ,输出门to (outputgate)组成。LSTM 的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态 ,如图 2.6。记忆单元与输入门、输出门、遗忘门相联结,进而控制和更新各个门单元的相关参数进行模型的学习和训练,即调整信息衰减、更新、去留的程度,使得存储单元能够有效的获得距离较远的历史信息。如图 2.5 所示:
【相似文献】
相关期刊论文 前10条
1 杨杭州;刘凯;颜志军;李军莲;孙海霞;;中文在线健康社区中的医疗命名实体识别方法研究[J];信息系统学报;2017年02期
2 刘浏;王东波;;命名实体识别研究综述[J];情报学报;2018年03期
3 朱颢东;杨立志;丁温雪;冯嘉美;;面向中文微博命名实体识别的对比研究[J];湖北民族学院学报(自然科学版);2017年01期
4 包敏娜;斯·劳格劳;;基于词典匹配的蒙古文命名实体识别研究[J];中央民族大学学报(哲学社会科学版);2017年03期
5 罗芳;熊前兴;肖敏;;基于本体的产品命名实体识别研究[J];武汉理工大学学报(信息与管理工程版);2011年06期
6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
7 彭春艳;张晖;包玲玉;陈昌平;;基于条件随机域的生物命名实体识别[J];计算机工程;2009年22期
8 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期
9 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期
10 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
相关会议论文 前10条
1 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 庞薇;徐波;;基于双语平行语料的分层次命名实体抽取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 朱佳晖;张文峰;刘卫平;张超;陈渊;;基于双向LSTM和CRF的军事命名实体识别和链接[A];第六届中国指挥控制大会论文集(上册)[C];2018年
相关博士学位论文 前10条
1 徐凯;面向医学命名实体识别的深度学习方法研究[D];广东工业大学;2019年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
7 何涛;互联网广告投递中的商品名称识别[D];武汉大学;2014年
8 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
10 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年
相关硕士学位论文 前10条
1 罗耀东;湿地实体识别与开放关系抽取的研究[D];北京交通大学;2019年
2 万玉婷;基于深度学习的检察办案辅助量刑规则挖掘[D];华北电力大学(北京);2019年
3 徐栋;基于文本的致病基因挖掘[D];上海交通大学;2016年
4 陈河宏;基于深度学习的在线医疗咨询文本命名实体识别[D];华南理工大学;2019年
5 邢新国;基于机器学习与链路预测的医疗问答检测与推荐系统[D];电子科技大学;2019年
6 张笑天;基于Lattice LSTM的医学文本中文命名实体识别研究与实现[D];电子科技大学;2019年
7 高翔;面向领域的实体识别与关系抽取设计与实现[D];电子科技大学;2019年
8 夏志超;基于神经网络的命名实体识别研究[D];桂林电子科技大学;2019年
9 张春燕;基于概率依赖关系的命名实体识别方法研究[D];北京交通大学;2019年
10 张琳t;面向微博文本的命名实体识别方法研究[D];北京交通大学;2019年
本文编号:2765434
本文链接:https://www.wllwen.com/falvlunwen/gongjianfalunwen/2765434.html