当前位置:主页 > 法律论文 > 司法论文 >

面向司法领域的命名实体识别研究

发布时间:2020-07-22 06:11
【摘要】:近年来,深度学习、自然语言处理等人工智能技术发展迅速,智慧法院建设受到国家、学术界和产业界的广泛关注。本文所研究的命名实体识别(NER)是自然语言处理的基础任务之一,在司法领域案例集上进行NER研究,对人工智能技术在电子证据收集、案例分析、法律文件阅读等智慧法院相关应用的实现方面具有促进作用。为此,进行面向司法领域文本的命名实体识别研究,完成了以下工作:(1)自然语言处理任务的基础是训练语料的构建,而目前并没有大规模的司法命名实体标注语料,为解决领域标注语料缺乏的问题,进行司法领域命名实体识别标注语料构建。利用互联网信息采集技术,从中国裁判文书网获取各级法院公开的刑事案件完整判决书,通过制定相应实体标注规范,最终标注1.2万余件判决书的事实描述文本,共计310.4万余字,采用O-S-B-I-E标注形式,标注实体21.2万余个,形成中文司法领域命名实体识别标注语料CJNER_Fact。(2)在刑事案件中是否携带、使用凶器,会影响刑罚裁量(简称量刑),甚至影响犯罪认定(又称定罪),凶器信息在司法及刑侦案件处理上至关重要。在实体类别上,针对司法领域设定四类实体,除了传统的人名、地名、机构名实体外,从司法领域应用场景中对刑事审判量刑的实际需求出发,首次提出“凶器”实体识别任务,拓展已有实体识别体系,将自然语言处理技术与行业知识深度融合。(3)为更好地解决司法领域命名实体识别问题,首先训练了三种类型的词向量:Word2Vec字向量,Word2Vec词向量及LDA模型主题向量。采用不同的词向量制定深度学习训练方案,进行Bi-LSTM+CRF模型、基于词向量与主题向量结合的Bi-LSTM-CRF模型(WL-Bi-LSTM-CRF),并提出基于字符与词切分组合下的LDA+层叠Bi-LSTM-CRF模型(WL-bi-BiLSTM-CRF)。本文使用自主开发的司法命名实体标注数据集CJNER_Fact,对不同的训练目标、不同的特征表示进行实验分析。实验结果表明,通过基于字符切分的BiLSTM-CRF模型、基于词切分的Bi-LSTM-CRF模型的训练,获得字符数较少的人名实体在基于字符级切分的模型中效果相对较好,字符数较多的机构名实体在基于单词级切分的模型效果相对较好的特点,应用于层叠模型WL-biBiLSTM-CRF的提出。WL-BiLSTM-CRF模型利用主题词向量的全局特性与词向量的语义特性,并经过Bi-LSTM对序列的学习,模型有效地将数据中数量较少的标签成功预测,可以提高模型准确率和召回率,解决样本标签的不均衡问题。WL-bi-Bi-LSTM-CRF层叠模型的司法领域实体识别,模型将识别分为两个层次,首先低层级模型基于字符级文本切分进行识别,识别出人名实体,并将识别的结果构成特征传入高层模型;在高层基于词切分进行建模,识别凶器、机构名、地名等。实验结果显示本模型对本文的“凶器”实体类别表现较好,且与文献对比“人名”、“机构名”类别优于当下司法领域文献数据结果。本文模型综合微平均F1-Micro值最高达89.86%,凶器识别F1值取得了90.76%的效果。
【学位授予单位】:云南财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;D926
【图文】:

示意图,模型,示意图,上下文


CBOW 顾名思义是一个词袋模型,不考虑上下文各个词的词序信息,仅使用上下文 C 个连续词各自词向量的求和或求平均值向量,代替神经网络语言模型中将上文各词的向量拼接的方法。CBOW 模型对于训练样本( 1) i n ,… , i,的输入为:( )11jjcx en = ( 2 . 3 )在输入层中,各词的词向量存储于一个 e V维的实数矩阵中( V 为整个词汇表大小,e 为词向量的维度)。词 到其词向量e ( )的转化就是从该矩阵中取出一列。每个词在模型中都有两套词向量,其中e ( )为词 作为上下文时的表示,而 e ( )为词 作为目标词时的表示。图 2.2 CBOW 模型示意图

随机场,线性链,条件,结点


, ) =( | , , ~ )v w v wP Y X Y w v p Y X Yw v( 2 . 意的一个结点v成立,称条件概率分布 P ( Y | X )为条件随机场。式 2示在图 中与结点v 有边链接的所有节点w ,w v表示结有结点,, ,v u wY Y Y 分别为结点 v , u ,w的随机向量。)线性链条件随机场RF 的定义中没有要求 X 和 Y 有相同的结构。而实现应用下多会假相同的结构,即:1 2 1 2( , ,... ), ( , ,... )n nX = X X X Y =Y Y Y,在此情况下 CR性链条件随机场(Linear chain Conditional Random Fields,linear-CR:

模型图,模型,循环神经网络,输出门


长短期记忆网络[75](Long-Short Term Memory,LSTM)在 1997 年被提出,它是循环神经网络(RNN)的拓展,通过对循环神经网络的特殊设计来避免长期依赖问题和梯度消失问题,可以对有价值的历史信息进行长期记忆。LSTM 模型是由 时刻的输入词tX ,细胞状态tC(记忆单元,MemoryCell),临时细胞状态tC ,隐层状态th ,遗忘门tf (forget gate),输入门(input gate)ti ,输出门to (outputgate)组成。LSTM 的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态 ,如图 2.6。记忆单元与输入门、输出门、遗忘门相联结,进而控制和更新各个门单元的相关参数进行模型的学习和训练,即调整信息衰减、更新、去留的程度,使得存储单元能够有效的获得距离较远的历史信息。如图 2.5 所示:

【相似文献】

相关期刊论文 前10条

1 杨杭州;刘凯;颜志军;李军莲;孙海霞;;中文在线健康社区中的医疗命名实体识别方法研究[J];信息系统学报;2017年02期

2 刘浏;王东波;;命名实体识别研究综述[J];情报学报;2018年03期

3 朱颢东;杨立志;丁温雪;冯嘉美;;面向中文微博命名实体识别的对比研究[J];湖北民族学院学报(自然科学版);2017年01期

4 包敏娜;斯·劳格劳;;基于词典匹配的蒙古文命名实体识别研究[J];中央民族大学学报(哲学社会科学版);2017年03期

5 罗芳;熊前兴;肖敏;;基于本体的产品命名实体识别研究[J];武汉理工大学学报(信息与管理工程版);2011年06期

6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期

7 彭春艳;张晖;包玲玉;陈昌平;;基于条件随机域的生物命名实体识别[J];计算机工程;2009年22期

8 曲晓棠;沈晓红;;基于最大熵模型的中文命名实体识别研究[J];科技信息(学术研究);2008年30期

9 向晓雯,史晓东,曾华琳;一个统计与规则相结合的中文命名实体识别系统[J];计算机应用;2005年10期

10 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期

相关会议论文 前10条

1 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年

2 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年

3 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

7 庞薇;徐波;;基于双语平行语料的分层次命名实体抽取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 史树敏;王志强;周浪;冯冲;黄河燕;;基于条件随机域的中文命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年

9 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年

10 朱佳晖;张文峰;刘卫平;张超;陈渊;;基于双向LSTM和CRF的军事命名实体识别和链接[A];第六届中国指挥控制大会论文集(上册)[C];2018年

相关博士学位论文 前10条

1 徐凯;面向医学命名实体识别的深度学习方法研究[D];广东工业大学;2019年

2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年

3 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年

4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

5 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年

6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年

7 何涛;互联网广告投递中的商品名称识别[D];武汉大学;2014年

8 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年

9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年

10 袁锋;中医医案文本挖掘的若干关键技术研究[D];山东师范大学;2016年

相关硕士学位论文 前10条

1 罗耀东;湿地实体识别与开放关系抽取的研究[D];北京交通大学;2019年

2 万玉婷;基于深度学习的检察办案辅助量刑规则挖掘[D];华北电力大学(北京);2019年

3 徐栋;基于文本的致病基因挖掘[D];上海交通大学;2016年

4 陈河宏;基于深度学习的在线医疗咨询文本命名实体识别[D];华南理工大学;2019年

5 邢新国;基于机器学习与链路预测的医疗问答检测与推荐系统[D];电子科技大学;2019年

6 张笑天;基于Lattice LSTM的医学文本中文命名实体识别研究与实现[D];电子科技大学;2019年

7 高翔;面向领域的实体识别与关系抽取设计与实现[D];电子科技大学;2019年

8 夏志超;基于神经网络的命名实体识别研究[D];桂林电子科技大学;2019年

9 张春燕;基于概率依赖关系的命名实体识别方法研究[D];北京交通大学;2019年

10 张琳t;面向微博文本的命名实体识别方法研究[D];北京交通大学;2019年



本文编号:2765434

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/gongjianfalunwen/2765434.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58478***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com