面向司法大数据的法条预测与相似案例匹配研究
发布时间:2021-08-02 17:17
近年来,智慧司法领域中针对法律裁判文书的分析和挖掘已成为计算法律学的热点研究问题。法条预测与相似案例匹配是智慧司法中的两个重要任务,法条预测通过分析案件的事实描述部分自动预测涉案法条,相似案例匹配通过对比文书相似度从候选案件中选出最相似案件。法条预测与相似案例匹配能够协助法官审理案件,同时也能帮助普通民众理解案件。目前,智慧司法方面的研究主要集中在判决罪名预测,专门针对法条预测与相似案例匹配的研究较少。面向司法大数据的法条预测与相似案例匹配研究是利用深度神经网络模型实现法条预测和相似案例匹配,提升智能司法服务水平。论文的主要工作为:(1)在法条预测任务中,首先构建了卷积神经网络法条预测模型与注意力双向LSTM法条预测模型,在实验中对比了不同输入层与Embedding层的卷积神经网络法条预测效果,然后通过对错误样例分析后定义了法条预测的易混淆问题,针对该问题,提出了基于分层学习的易混淆法条预测模型,该模型由两层学习框架组成,以卷积神经网络为特征提取器,单独训练易混淆法条模型。(2)在相似案例匹配任务中,构建了基于注意力卷积神经网络的相似案例匹配模型,模型包含两个卷积池化层,并在卷积层中加...
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
卷积操作卷积神经网络中每个卷积核的权重参数是固定,在提取特征中仅关注一个特征,
第二章相关研究基础11个特征集合,例如在图像处理中,卷积核可以提取图像的边缘、轮廓、色彩等特征信息,将每个卷积核提取的信息连接起来组成整幅图片的特征。卷积层的局部连接与参数共享机制可以减少训练模型的参数量,有效减少模型的训练时间。2014年YoonKim将卷积神经网络用于自然语言处理任务中,提出了基于卷积神经网络的文本分类模型,模型结构如图2.2所示。基于卷积神经网络的文本分类模型结构简单,主要包含输入层、卷积层,池化层,全连接层、Softmax层、输出层图2.2基于卷积神经网络的文本分类模型图输入层的文本采用词向量表示,训练过程中可以根据需要设定为静态与非静态两种模式,最终每个词被编码为固定维度向量,整个文本序列表示为词向量矩阵,如下表示:1:12...nnxxxx(2.1)其中,是向量连接符。ix表示第i个词的词向量,则i:ijx表示1,,...,iiijxxx共j+1个词的词向量。卷积核用于提取文本中的局部特征信息,将滤波器w以h个词大小的窗口在词向量矩阵上进行卷积,生成特征局部特征ci:1()iiihcfbwx(2.2)其中,b表示卷积核偏置值,f表示激活函数。将卷积核用于句子{1:2:11:,,...,hhnhnxxx}中,产生整篇文本的特征向量集121[,,,]nhcccc(2.3)在特征集向量采用最大池化操作,向量c=max{c}表示向量中的最大值,即文本中最重要特征。将最大池化向量输入到全连接层与softmax层中,在输出层得到每个类别标签的概率分布。基于卷积神经网络的文本分类模型通过随机Dropout来防止过拟合,Dropout的计算公式如下yw(zr)b(2.4)
第二章相关研究基础12其中,z表示由m个卷积核组成的特征集,表示按元素逐个相乘操作,r表示掩模向量。该模型采用交叉熵作为损失函数,计算公式如下所示1log()CiiiLyy(2.5)其中,iy是真实标签,iy是预测标签概率,C是分类的数据量。2.2.2循环神经网络循环神经网络(RecurrentNeuralNetwork,RNN)也是深度学习中的代表性算法之一,其代表网络有双向循环神经网络[31]与长短期记忆神经网络[32]。循环神经网络的研究主要用于处理序列数据,例如语音、文本等数据。简单循环神经网络模型如图2.3所示。图2.3简单循环神经网络模型在简单循环神经网络中,多个神经元连接在串一起构成整个网络,每个时刻神经元的隐藏状态除了受输入数据x的影响,还受上一时刻隐藏层s的影响,依次将隐藏状态输入下一层神经元,循环计算得到每个时刻的输出,多个神经元采用相同的激活函数和参数W,U。在每个神经元输出的计算过程如下公式所示。其中f和g表示激活函数,U、W、V表示训练参数,将输入xt乘以参数U再加上一时刻隐层st-1乘以参数W的值得到该时刻的隐层输出st,st经过激活函数g后输出ot,将st经过参数W输入到下一次循环中,循环组成神经网络的正向传播。(tt-1)tttsfUx+Wso=g(Vs)(2.6)在构建多层循环神经网络时,通过将底层网络的输出作为高层网络的输入后便可以得到多层的循环神经网络,而且高层之间也可以进行参数值的传递。基于循环神经网络的文本分类模型所采用交叉熵作为损失函数。
【参考文献】:
硕士论文
[1]法律文本相似性问题的研究[D]. 刘彤.东南大学 2018
[2]基于文档相似度的法律文书推荐系统[D]. 吴朋洋.华北电力大学(北京) 2018
本文编号:3317963
【文章来源】:山西大学山西省
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
卷积操作卷积神经网络中每个卷积核的权重参数是固定,在提取特征中仅关注一个特征,
第二章相关研究基础11个特征集合,例如在图像处理中,卷积核可以提取图像的边缘、轮廓、色彩等特征信息,将每个卷积核提取的信息连接起来组成整幅图片的特征。卷积层的局部连接与参数共享机制可以减少训练模型的参数量,有效减少模型的训练时间。2014年YoonKim将卷积神经网络用于自然语言处理任务中,提出了基于卷积神经网络的文本分类模型,模型结构如图2.2所示。基于卷积神经网络的文本分类模型结构简单,主要包含输入层、卷积层,池化层,全连接层、Softmax层、输出层图2.2基于卷积神经网络的文本分类模型图输入层的文本采用词向量表示,训练过程中可以根据需要设定为静态与非静态两种模式,最终每个词被编码为固定维度向量,整个文本序列表示为词向量矩阵,如下表示:1:12...nnxxxx(2.1)其中,是向量连接符。ix表示第i个词的词向量,则i:ijx表示1,,...,iiijxxx共j+1个词的词向量。卷积核用于提取文本中的局部特征信息,将滤波器w以h个词大小的窗口在词向量矩阵上进行卷积,生成特征局部特征ci:1()iiihcfbwx(2.2)其中,b表示卷积核偏置值,f表示激活函数。将卷积核用于句子{1:2:11:,,...,hhnhnxxx}中,产生整篇文本的特征向量集121[,,,]nhcccc(2.3)在特征集向量采用最大池化操作,向量c=max{c}表示向量中的最大值,即文本中最重要特征。将最大池化向量输入到全连接层与softmax层中,在输出层得到每个类别标签的概率分布。基于卷积神经网络的文本分类模型通过随机Dropout来防止过拟合,Dropout的计算公式如下yw(zr)b(2.4)
第二章相关研究基础12其中,z表示由m个卷积核组成的特征集,表示按元素逐个相乘操作,r表示掩模向量。该模型采用交叉熵作为损失函数,计算公式如下所示1log()CiiiLyy(2.5)其中,iy是真实标签,iy是预测标签概率,C是分类的数据量。2.2.2循环神经网络循环神经网络(RecurrentNeuralNetwork,RNN)也是深度学习中的代表性算法之一,其代表网络有双向循环神经网络[31]与长短期记忆神经网络[32]。循环神经网络的研究主要用于处理序列数据,例如语音、文本等数据。简单循环神经网络模型如图2.3所示。图2.3简单循环神经网络模型在简单循环神经网络中,多个神经元连接在串一起构成整个网络,每个时刻神经元的隐藏状态除了受输入数据x的影响,还受上一时刻隐藏层s的影响,依次将隐藏状态输入下一层神经元,循环计算得到每个时刻的输出,多个神经元采用相同的激活函数和参数W,U。在每个神经元输出的计算过程如下公式所示。其中f和g表示激活函数,U、W、V表示训练参数,将输入xt乘以参数U再加上一时刻隐层st-1乘以参数W的值得到该时刻的隐层输出st,st经过激活函数g后输出ot,将st经过参数W输入到下一次循环中,循环组成神经网络的正向传播。(tt-1)tttsfUx+Wso=g(Vs)(2.6)在构建多层循环神经网络时,通过将底层网络的输出作为高层网络的输入后便可以得到多层的循环神经网络,而且高层之间也可以进行参数值的传递。基于循环神经网络的文本分类模型所采用交叉熵作为损失函数。
【参考文献】:
硕士论文
[1]法律文本相似性问题的研究[D]. 刘彤.东南大学 2018
[2]基于文档相似度的法律文书推荐系统[D]. 吴朋洋.华北电力大学(北京) 2018
本文编号:3317963
本文链接:https://www.wllwen.com/falvlunwen/gongjianfalunwen/3317963.html