司法文书法律要素提取方法的研究与实现

发布时间：2020-04-20 00:53

【摘要】：对司法领域而言,从海量的司法案件中获取更多信息成为大数据时代迫切需求之一,然而将文本形式的司法文书结构化是后续进行高效处理、深入分析的前提。由于司法文书种类繁多,每类文书中需要提取的关键信息并不相同,难以构建统一的结构化方法去应对所有类别文书的关键信息提取问题,很大程度上需要根据不同的案件构造不同的解决方案。为此,本文选取专业性较强内容较为复杂的医患纠纷文书进行研究,探讨如何从无结构的医患纠纷文书中高效地提炼出的结构化的信息,以高效且系统地描述了医患纠纷的主体内容,为医患纠纷案件后续研究奠定了基础。当前在医患纠纷文书中提取哪些关键信息,缺少统一的要素体系,应用方案较为杂乱。为此,本文首先提出了一种医患纠纷案件的关键信息模板,用于构建总体的结构化信息体系,将组成关键信息模板的短语、词条定义为医患纠纷案件法律要素,并按其概念层次、表达功能以及分布特征的不同将法律要素分为基本要素、特征要素、核心要素三类,把医患纠纷案件文书结构化的问题转化为各类法律要素提取的问题,在此基础上分别依据要素特征的不同提出了对应的提取方法。(1)针对案件信息模板中基本要素的提取,构建了迭代式规则生成工具。基本要素在文中具有位置、数量相对固定的特征,使用规则提取最为直接,但现有规则提取方式具有需大量人工介入、规则与代码耦合度高、召回率低等问题。对此,本文构建的迭代式规则生成工具利用自然描述语言与规则表达式的映射大幅减少了人工介入的需求,并使用规则可配置的方式降低了规则与代码的耦合度,同时,通过用户反馈迭代的方式对规则进行矫正,提升了提取的召回率。迭代式规则生成工具涵盖了一套系统的规则提取信息方案,对规则生成、规则矫正和规则应用等步骤制定了完整的协作方式,有效地解决了基本要素提取问题。(2)针对案件信息模板中特征要素提取,提出了加入锚点词特征的线性标注算法。特征要素与基本要素相比,具有位置与描述方式不固定的特点,使用规则提取的方式很难解决问题,采用基于监督学习的线性标注算法则是目前可行的解决途径。为此,本文采用以条件随机场模型为基础,且加入锚点词特征的方案来解决特征要素提取问题。选择条件随机场算法构建线性标注模型,是由于其模型结构具有与文书结构一致的线性结构,且相比隐马尔科夫和随机语法等模型,条件随机场可随机构建特征,与锚点词特征可以更加有效的结合,适合特征要素提取的场景。算法在构建条件随机场模型的基础上,加入了医患纠纷案件的锚点词特征,可突出了医患纠纷案件中特征要素的上下文特征,加强了条件随机场的特征关联性,使得医患纠纷案件中的特征因子与线性标注模型实现有机结合,提高了特征要素提取的准确率与召回率。(3)针对法律要素模板中核心要素的提取,提出了语义特征分类模型与线性标注模型结合的方法。与特征要素不同,医患纠纷文书中核心要素不仅具有位置与描述方式不固定的特点,其之间还蕴含很强语义信息,故不仅规则匹配的方式无法适应,且线性标注算法难以学习到要素之间的语义特征,无法保证核心要素提取的召回率。为此,本文提出了语义特征分类模型与线性标注模型结合的方法,将核心要素之间的语义特征融入到要素提取的过程中。首先,为语句中词条构建表达语义特征的词向量,以词向量矩阵作为学习语料构建语句二分类模型,将与核心要素有关的语句筛选出;而后构建线性标注模型,通过监督学习的方式学习核心要素特征,将核心要素提取出。通过在提出的语句二分类模型基础上使用线性标注模型,可有效解决单纯使用线性标注模型进行提取无法识别核心要素语义特征的问题,提高了要素提取的召回率。基于上述研究成果,对现有的两万多份医患纠纷案例进行要素提取的对比实验。其中,迭代式规则生成工具解决了单纯使用规则提取方式诸多弊端,与使用未迭代校正的规则提取方式相比,在准确率上提高了30%,召回率提高了20%;对于特征要素提取问题,相比于未融入锚点词特征的线性标注算法,本文采用的融入锚点词特征的方式将准确率与召回率皆提高了20%;对核心要素的提取问题,与未考虑语义的特征的监督学习算法相比,本文提出的语义分类算法与线性标注算法结合的方法将召回率提高了30%,准确率提高了10%。
【图文】：

序列,随机场模型,条件,随机场

图2.1条件随机场模型图

模型结构,单词,训练集

word2Vec模型结构图
【学位授予单位】：东南大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：D918.92

【参考文献】