法律文书中的要素识别方法研究
发布时间:2021-08-07 17:50
近些年来,随着自然语言处理技术的不断发展,以及面向裁判文书的司法大数据不断公开,如何将人工智能技术应用于司法领域,以提高司法人员在案件处理环节的效率逐渐成为法律智能的研究热点。法律文书中包含丰富的案情要素信息,通过对法律文书要素的抽取,可以更快速、便捷地辅助法官获取所需信息,提高法官办案效率。本文针对法律文书要素识别方法开展研究,主要研究工作如下:(1)法律文书基本要素识别。法律文书基本要素是指法律文书共有的案件基本信息,例如,案号、证据名、证实内容等,可在法律文书中直接抽取。本文依据证据名和证实内容字符长度较长,且两种基本要素间关联性强的特点,提出了基于JCWA-DLSTM的法律文书基本要素识别方法。利用预训练的字级语言模型获取包含字符上下文的词表示,以减小分词错误带来的影响。同时,利用自注意力机制,捕获词级间的依赖关系,建立基本要素件的关联性,实现法律文书基本要素的识别。本文所提出的方法与基线方法的实验结果表明,JCWA-DLSTM方法的F1值达到了91.70%,明显优于基线方法。所提出的方法有助于法律文书基本要素识别。(2)法律文书核心要素识别。核心要素是指法律文书中的重要事实描...
【文章来源】:山西大学山西省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
放缩点积注意力机制(,,)()
法律文书中的要素识别方法研究14数。2.3.2比较实验设置为了验证本章方法的有效性,设置了以下八个基准实验:(1)B-LSTM-CRF由于双向LSTM可以有效地利用前向和后向的信息,同时CRF考虑在句子级进行解码,Huang[17]等人提出一种B-LSTM-CRF的命名实体识别模型。该模型首先将句子中的每个词向量化表示,然后输入到双向LSTM中,得到每个词隐层表示,该表示包含当前词的上下文信息,最后将得到的隐层表示输入到CRF层,在句子级联合解码得到标签序列。(2)CNN-LSTM-CRFB-LSTM-CRF方法依赖词嵌入的质量,同时存在未登录词问题,Ma[11]等人在B-LSTM-CRF方法上进行改进,在2016年提出一种基于CNN-LSTM-CRF的端到端命名实体识别模型。由于CNN可以有效地抽取单词的形态信息(如单词的前缀和后缀),该模型首先采用CNN得到字符级词表示,具体结构如图2.4所示。然后将得到的词表示和训练好的词嵌入向量联合输入到双向LSTM,之后的操作与B-LSTM-CRF方法一致。图2.4CNN抽取字符级词表示(3)LSTM-LSTM-CRF该方法与CNN-LSTM-CRF方法类似,仅仅将字符级的CNN替换成了LSTM,其他的保持不变。(4)Lattice-LSTM
法律文书中的要素识别方法研究32(1)Labor数据集的Macro-F1值整体低于Divorce数据集的Macro-F1值,主要原因是Labor数据集的稀有标签样本数量明显少于Divorce数据集的稀有标签样本数量,学习到的特定标签的特征不如Divorce数据集丰富,从而导致稀有标签不能被有效识别。(2)Labor数据集的Hammingloss值整体低于Divorce数据集的Hammingloss值,主要原因是Hammingloss反映的是平均不正确预测率,而Labor数据集的稀有标签样本数量明显少于Divorce数据集的稀有标签样本数量,少量稀有标签的预测错误对Hammingloss影响不大。表3.5不同方法在Loan数据集上的实验结果模型Hammingloss(-)Macro-F1(+)Micro-F1(+)SGM0.0209040.4283.36SGM+GE0.0179941.6685.24MU4MLC0.0183241.0984.95Seq2set0.1723541.9885.23LSAN0.0163548.5985.19HIAN(our)0.0153356.7785.99不同方法在Loan数据集上的实验结果如表3.5所示,与在前两个数据集上的实验结果相似,本章提出的HIAN方法在三个指标上也优于其他的基线方法,说明本章提出的方法对法律文书要素识别是有效的。3.4.2词注意力可视化为了说明词注意力交互的有效性,在三个数据集分别选取一个样本,并将其词注意力进行了可视化,如图3.2、图3.3和图3.4所示。图3.2(a)Divorce数据集文本与标签词注意力图
【参考文献】:
期刊论文
[1]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[2]基于句法路径的情感评价单元识别[J]. 赵妍妍,秦兵,车万翔,刘挺. 软件学报. 2011(05)
[3]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶. 计算机工程与应用. 2003(10)
硕士论文
[1]基于法律的知识图谱构建[D]. 邹爱玲.电子科技大学 2019
[2]司法文书法律要素提取方法的研究与实现[D]. 王林木.东南大学 2018
[3]面向法律文书的中文命名实体识别方法研究[D]. 王礼敏.苏州大学 2018
[4]面向中文法律文本的命名实体识别研究[D]. 谢云.南京师范大学 2018
[5]基于隐式马尔科夫模型的法律命名实体识别模型的设计与应用[D]. 周晓辉.华南理工大学 2017
本文编号:3328254
【文章来源】:山西大学山西省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
放缩点积注意力机制(,,)()
法律文书中的要素识别方法研究14数。2.3.2比较实验设置为了验证本章方法的有效性,设置了以下八个基准实验:(1)B-LSTM-CRF由于双向LSTM可以有效地利用前向和后向的信息,同时CRF考虑在句子级进行解码,Huang[17]等人提出一种B-LSTM-CRF的命名实体识别模型。该模型首先将句子中的每个词向量化表示,然后输入到双向LSTM中,得到每个词隐层表示,该表示包含当前词的上下文信息,最后将得到的隐层表示输入到CRF层,在句子级联合解码得到标签序列。(2)CNN-LSTM-CRFB-LSTM-CRF方法依赖词嵌入的质量,同时存在未登录词问题,Ma[11]等人在B-LSTM-CRF方法上进行改进,在2016年提出一种基于CNN-LSTM-CRF的端到端命名实体识别模型。由于CNN可以有效地抽取单词的形态信息(如单词的前缀和后缀),该模型首先采用CNN得到字符级词表示,具体结构如图2.4所示。然后将得到的词表示和训练好的词嵌入向量联合输入到双向LSTM,之后的操作与B-LSTM-CRF方法一致。图2.4CNN抽取字符级词表示(3)LSTM-LSTM-CRF该方法与CNN-LSTM-CRF方法类似,仅仅将字符级的CNN替换成了LSTM,其他的保持不变。(4)Lattice-LSTM
法律文书中的要素识别方法研究32(1)Labor数据集的Macro-F1值整体低于Divorce数据集的Macro-F1值,主要原因是Labor数据集的稀有标签样本数量明显少于Divorce数据集的稀有标签样本数量,学习到的特定标签的特征不如Divorce数据集丰富,从而导致稀有标签不能被有效识别。(2)Labor数据集的Hammingloss值整体低于Divorce数据集的Hammingloss值,主要原因是Hammingloss反映的是平均不正确预测率,而Labor数据集的稀有标签样本数量明显少于Divorce数据集的稀有标签样本数量,少量稀有标签的预测错误对Hammingloss影响不大。表3.5不同方法在Loan数据集上的实验结果模型Hammingloss(-)Macro-F1(+)Micro-F1(+)SGM0.0209040.4283.36SGM+GE0.0179941.6685.24MU4MLC0.0183241.0984.95Seq2set0.1723541.9885.23LSAN0.0163548.5985.19HIAN(our)0.0153356.7785.99不同方法在Loan数据集上的实验结果如表3.5所示,与在前两个数据集上的实验结果相似,本章提出的HIAN方法在三个指标上也优于其他的基线方法,说明本章提出的方法对法律文书要素识别是有效的。3.4.2词注意力可视化为了说明词注意力交互的有效性,在三个数据集分别选取一个样本,并将其词注意力进行了可视化,如图3.2、图3.3和图3.4所示。图3.2(a)Divorce数据集文本与标签词注意力图
【参考文献】:
期刊论文
[1]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[2]基于句法路径的情感评价单元识别[J]. 赵妍妍,秦兵,车万翔,刘挺. 软件学报. 2011(05)
[3]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶. 计算机工程与应用. 2003(10)
硕士论文
[1]基于法律的知识图谱构建[D]. 邹爱玲.电子科技大学 2019
[2]司法文书法律要素提取方法的研究与实现[D]. 王林木.东南大学 2018
[3]面向法律文书的中文命名实体识别方法研究[D]. 王礼敏.苏州大学 2018
[4]面向中文法律文本的命名实体识别研究[D]. 谢云.南京师范大学 2018
[5]基于隐式马尔科夫模型的法律命名实体识别模型的设计与应用[D]. 周晓辉.华南理工大学 2017
本文编号:3328254
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3328254.html
最近更新
教材专著