格式合同风险预估及其关键技术研究
发布时间:2021-08-05 13:44
随着人工智能的发展,重复劳动可以交由机器自动完成。在法律文件自动解析和阅读领域,研究对于合同文件的内容解析和简单审核,可以减轻人工审核合同负担。本文以住房租赁合同为例,进行合同条款完整性检测。在此过程中,主要完成工作可以概括为3点:(1)收集合同模板数据训练多类分类模型。针对卷积神经网络方法使用全词表,训练参数多的问题,对TF-IDF算法进行改进,提取类别关键词初始化嵌入层,减少其训练参数。实验结果表明,经过优化后的卷积神经网络,在合同模板数据集上,训练参数更少,分类性能较原来方法略有提升,且优于传统分类方法。(2)使用半监督方法将合同模板中文本段进行条款类型标注。基于数据互连接和回译来增强文本段数据,使用预训练的BERT(Bidirectional Encoder Representations from Transformers)完成半监督学习中的模型训练工作,经过迭代筛选,完成住房租赁合同的条款数据集构建。(3)使用条款数据集训练条款识别模型,用于检测合同中已有条款,从而推导缺失条款。针对基于神经网络的模型中,多标签分类模型常忽视标签相关性的问题,使用GCN(Graph Conv...
【文章来源】:西南科技大学四川省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
GCN半监督学习节点分类网络[47]
4合同条款识别方法研究与设计25型构建标签的隐式相关关系。4.3.1基于GCN的标签相关性建模CNN结构能够对于排列整齐的矩阵结构数据提取特征,但是对于拓扑结构数据,由于每个顶点相邻节点数目不一致,无法使用同一尺寸卷积核进行运算。GCN网络解决了这个问题。GCN网络发展到第四代时,可以多层叠加,如图4-2所示是Kipf[47]使用2层GCN网络进行半监督学习节点分类。图4-2GCN半监督学习节点分类网络[47]图中网络传播关系可以由以下公式表示:(0)(1)Y=f(X,A)=softmax(ARelu(AXW)W)(4-4)X为输入矩阵;1122AD(AI)D=+且()iiijjD=A+I;W(0),W(1)表示GCN网络待训练的权重,上标用于区别不同层中,待训练的权重不同;I是单位矩阵,用于增加节点与其自身的联系;相关系数矩阵A,则是提前构建好的包含节点关系的邻接矩阵。在ML-GCN中,针对相关系数矩阵,采用计算标签对的条件概率进行构建,标签对的条件概率如图4-3所示。图4-3标签之间的条件概率图4-3中仅仅展示了2个标签互相影响的概率,即在bop标签出现的情况下,earn标签出现概率为0.2;反之,在earn标签出现的情况下,bop标签出现的概率是0.6。标签之间的先验概率通过统计计算,这种统计计算的结果更贴近现实。标签与其他标签的条件概率呈现长尾分布,为了避免部分关系是噪声,采用阈值
5格式合同风险预估模型设计与分析35模型训练中,先使用互连接增强的数据微调BERT,然后在最终模型训练中使用微调后的BERT模型进行再训练。4)分类识别模块本部分模块由全连接层构成,采用Sigmoid作为激活函数,输出各标签的预测概率。同时在半监督训练中,将预测标签的预测概率均值作为置信度,参与置信度排序。在半监督训练时由于只需要考虑精确分类,给无标签数据标注标签,因此并未通过其他方法设定各个标签的分类阈值,而是通过设定高阈值来进行筛眩通过设定阈值对标签进行定性时发现,经由Sigmoid激活方法得到的模型输出结果,即使将阈值设为0.99,也存在将部分数据判错类别的情况,在最大值为1的情况下,区分度较低。考虑到Sigmoid函数特性,因此决定延迟Sigmoid函数到达界限值的情况,期望能够获得更为广泛的取值区间,从而使得能够设定不同阈值时,能够对数据有所区分。新的Sigmoid函数如下:1()1axSigmoidxe=+(5-1)其中a决定新Sigmoid函数的曲线变化情况。具体如图5-4所示。图5-4Sigmoid函数曲线由图中我们可以发现,当a取值由1减小为0.5时,兴奋边界大致由[-5,5]扩展为[-10,10]。更广阔的兴奋边界可以增加阈值的区分度。5.2.3实现过程整体风险预估流程实现主要分为合同分类实现以及条款识别实现,针对这2部分实现过程,进行阐述。1)合同分类实现
【参考文献】:
期刊论文
[1]基于TF-IDF的卷积神经网络新闻文本分类优化[J]. 张波,黄晓芳. 西南科技大学学报. 2020(01)
[2]利用拼音特征的深度学习文本分类模型[J]. 赵博轩,房宁,赵群飞,张朋柱. 高技术通讯. 2017(07)
[3]随机森林模型在分类与回归分析中的应用[J]. 李欣海. 应用昆虫学报. 2013(04)
[4]数据挖掘中的新方法——支持向量机[J]. 罗娜. 软件导刊. 2008(10)
本文编号:3323856
【文章来源】:西南科技大学四川省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
GCN半监督学习节点分类网络[47]
4合同条款识别方法研究与设计25型构建标签的隐式相关关系。4.3.1基于GCN的标签相关性建模CNN结构能够对于排列整齐的矩阵结构数据提取特征,但是对于拓扑结构数据,由于每个顶点相邻节点数目不一致,无法使用同一尺寸卷积核进行运算。GCN网络解决了这个问题。GCN网络发展到第四代时,可以多层叠加,如图4-2所示是Kipf[47]使用2层GCN网络进行半监督学习节点分类。图4-2GCN半监督学习节点分类网络[47]图中网络传播关系可以由以下公式表示:(0)(1)Y=f(X,A)=softmax(ARelu(AXW)W)(4-4)X为输入矩阵;1122AD(AI)D=+且()iiijjD=A+I;W(0),W(1)表示GCN网络待训练的权重,上标用于区别不同层中,待训练的权重不同;I是单位矩阵,用于增加节点与其自身的联系;相关系数矩阵A,则是提前构建好的包含节点关系的邻接矩阵。在ML-GCN中,针对相关系数矩阵,采用计算标签对的条件概率进行构建,标签对的条件概率如图4-3所示。图4-3标签之间的条件概率图4-3中仅仅展示了2个标签互相影响的概率,即在bop标签出现的情况下,earn标签出现概率为0.2;反之,在earn标签出现的情况下,bop标签出现的概率是0.6。标签之间的先验概率通过统计计算,这种统计计算的结果更贴近现实。标签与其他标签的条件概率呈现长尾分布,为了避免部分关系是噪声,采用阈值
5格式合同风险预估模型设计与分析35模型训练中,先使用互连接增强的数据微调BERT,然后在最终模型训练中使用微调后的BERT模型进行再训练。4)分类识别模块本部分模块由全连接层构成,采用Sigmoid作为激活函数,输出各标签的预测概率。同时在半监督训练中,将预测标签的预测概率均值作为置信度,参与置信度排序。在半监督训练时由于只需要考虑精确分类,给无标签数据标注标签,因此并未通过其他方法设定各个标签的分类阈值,而是通过设定高阈值来进行筛眩通过设定阈值对标签进行定性时发现,经由Sigmoid激活方法得到的模型输出结果,即使将阈值设为0.99,也存在将部分数据判错类别的情况,在最大值为1的情况下,区分度较低。考虑到Sigmoid函数特性,因此决定延迟Sigmoid函数到达界限值的情况,期望能够获得更为广泛的取值区间,从而使得能够设定不同阈值时,能够对数据有所区分。新的Sigmoid函数如下:1()1axSigmoidxe=+(5-1)其中a决定新Sigmoid函数的曲线变化情况。具体如图5-4所示。图5-4Sigmoid函数曲线由图中我们可以发现,当a取值由1减小为0.5时,兴奋边界大致由[-5,5]扩展为[-10,10]。更广阔的兴奋边界可以增加阈值的区分度。5.2.3实现过程整体风险预估流程实现主要分为合同分类实现以及条款识别实现,针对这2部分实现过程,进行阐述。1)合同分类实现
【参考文献】:
期刊论文
[1]基于TF-IDF的卷积神经网络新闻文本分类优化[J]. 张波,黄晓芳. 西南科技大学学报. 2020(01)
[2]利用拼音特征的深度学习文本分类模型[J]. 赵博轩,房宁,赵群飞,张朋柱. 高技术通讯. 2017(07)
[3]随机森林模型在分类与回归分析中的应用[J]. 李欣海. 应用昆虫学报. 2013(04)
[4]数据挖掘中的新方法——支持向量机[J]. 罗娜. 软件导刊. 2008(10)
本文编号:3323856
本文链接:https://www.wllwen.com/falvlunwen/minfalunwen/3323856.html