NLP及其在法院智能审案系统中的应用研究
发布时间:2022-01-24 11:18
随着我国建设法制强国步伐的加快,法院面临的案件类别、涉案人员、判决结果等数据信息也日益增长。在法院对案件进行审理的过程中,为了避免相似案情不同判决结果等重大失误的发生,案件审理人员在对案件做出判决时,需要花费很多时间在阅读案件笔录和相关历史案件的分析上。这不仅造成了人力、物力的浪费,而且在这个过程中难免会出现一些误判、漏判的情况,就会给国家和人民造成一定的损失。基于人民法院遇到的这种问题,本文利用自然语言处理和深度学习的技术,根据法院对刑事案件案情的文字描述,智能地生成相应的判决结果,并将判决结果转化为法院的标准裁判文书。法院案件审理人员以此裁判文书作为参考,从而能够快速准确地对案件做出判决,给出公平公正的判决结果。裁判文书作为法院审判结果的最终依据,包含了案情描述和判决结果等内容。因此,本文首先利用爬虫技术,从国内某法院裁判文书网站获取己公布的近20余万条裁判文书。然后利用正则表达式等技术,对这些文档内的关键信息进行提取,建立JSON格式的语料库。再利用自然语言处理的相关知识,对语料进行分词、文本向量化等操作,将其输入到以深度学习为基础建立的神经网络,经过多轮次训练获得法院判决结果的...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:93 页
【学位级别】:硕士
【部分图文】:
图3-1裁判文书网页源码??
??解析,提取HTML源码中的数据。其中的Request库和BeautifiilSoup库都可以通??过python自带的pip工具进行安装。??当进入某法院网的司法公开栏目的裁判文书页面,我们首先可以通过鼠标选??择要获取裁判文书的案件类型,这里选择刑事案件,其次就可以根据法院的级别??从高级法院到中级法院再到基层法院,这样该页面呈现的就是该法院公布的所有??一审刑事裁判文书了,每一页共10个不同案件的裁判文书,每个裁判文书名称都??可以点击进入裁判文书的详情页面,具体查询选项如图3-2所示。??文书公开查洵??法院:fSi高篪?塞号:鑛AM?縫号??室由;擊入塞囱?罢件类別:?吻刑事?民事心行政?#执行??文书堯gh?#判决书?O裁走书?调解书?Gr决走书?〇支付令??图3-2根据法院等级和案件类型查询裁判文书??我们首先利用递归循环从裁判文书网的列表页面,获取每个裁判文书详情页??面的链接地址,然后利用Request库获取裁判文书详情页面的HTML源码。??Request库是一个优雅而简单的HTTP库,它通过伪装成浏览器的头部信息向目标??网站服务器发送请求,获取服务器返回的页面内容,主要是HTML源码。??然后使用BeautifUlSoup库对HTML源码进行解析。BeautifiilSoup库是一个灵??活又方便的网页解析Python库,处理效率很高,支持多种解析器,本文使用??htmlparser解析器。通过解析我们就可以获取网页的一个文档对象,根据文档对??象就可以读取标签内容了。??最后我们将解析出来的标签内容写入到一个文本文档文件中,这个文档的名??称以裁判文书的名称命名,包括了案件中
013〕佛三糊初字蓄311号孛念彬受賭塞一?刑事判决书,tort?2019/8/1?10:47?文本文档??圍(2013)键三法刑初字皆312号激齡受贿塞一宙刑義U戾书.fort?2019/8/1?10:47?文本文档??圖(2013〕键三法初字望33吗韦植山、罗日方、罗朝义三人^室一宙刑事判凌书.txt?2019/8/1?10:47?文本文档??圍(2.013)梯三衡K1初字窖345号刻健敲许勤索案一审刑事判■^书.txt?2019/8/1?10:47?文本文???<?>??图3-3通过网络获取的txt格式的裁判文书??3.1.3裁判文书语料库的建立??通过对这20万份的裁判文书进行研宄分析,我们基本掌握了法院判决文书的??格式和内容编排,接下来我们要对其中的每一份裁判文书进行处理,提取其中的??关键信息,完成法院裁判文书语料库的建立。在这过程主要完成关键信息的定义??和关键fe息提取的方法。??3.1.3.1关键信息的定义??关键信息的选择直接影响着我们模型的建立方式,是做分类还是做聚类都是??个问题。本文要实现从案件详情到判决结果的预测,那么这两类信息都是要从法??院的裁判文书中提取的。在法院的一审刑事判决书中,有一段文字会详细描述法??院认定的案件事实和情节,其次会有段文字,写明根据查证属实的事实、情节和??法律规定,论证被告人是否犯罪,犯什么罪[36],以及最终的刑期等内容,也就是??案件的判决结果。??因此,我们主要从裁判文书中提取两类信息。一类是法院认定的案件详情描??述,包括了案件的情节过程和犯罪事实。另一类是法院作出的判决结果,判决结??果又分为判处被告人的罪名、判处被告人的刑期以及依据的法
【参考文献】:
期刊论文
[1]基于GRU-Attention的中文文本分类[J]. 孙明敏. 现代信息科技. 2019(03)
[2]自然语言处理的发展历史与现状[J]. 宋一凡. 中国高新科技. 2019(03)
[3]基于Web的联机手写汉字识别仿真系统设计[J]. 曲丽娜. 吉林工程技术师范学院学报. 2018(10)
[4]基于集成学习的微博用户转发行为预测[J]. 张效尉,王伟,秦东霞. 河南师范大学学报(自然科学版). 2018(02)
[5]汉语的语素概念提取与语义构词分析[J]. 刘扬,林子,康司辰. 中文信息学报. 2018(02)
[6]基于微服务架构的日志监控系统的设计与实现[J]. 张振,刘俊艳. 软件. 2017(11)
[7]面向普通未登录词理解的二字词语义构词研究[J]. 吉志薇,冯敏萱. 中文信息学报. 2015(05)
[8]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[9]互联网不良信息治理的研究与探讨[J]. 刘东鑫,周斯宁,沈军. 广东通信技术. 2010(12)
[10]自然语言处理的历史与现状[J]. 冯志伟. 中国外语. 2008(01)
博士论文
[1]现代汉语词语称名生成过程研究[D]. 刘晓波.吉林大学 2019
硕士论文
[1]基于深度学习和词典定义的义原预测研究[D]. 张磊.战略支援部队信息工程大学 2019
[2]基于机器学习的内容处理与监控系统的设计与实现[D]. 李博文.北京交通大学 2019
[3]基于BPE和Transformer的汉语语音识别技术研究[D]. 栾效阳.哈尔滨工业大学 2019
[4]面向外骨骼机器人的智能康复信息系统的研究与实现[D]. 贾晓扬.电子科技大学 2019
[5]基于宽深度模型的广告点击率预估方法[D]. 林启迪.华南理工大学 2019
[6]基于深度学习的产品意见挖掘研究[D]. 王彦芳.辽宁师范大学 2019
[7]中文自动文摘关键技术研究与实现[D]. 张洪荣.哈尔滨工业大学 2018
[8]基于集成学习的蛋白质序列分类问题的研究[D]. 赵欣.电子科技大学 2018
[9]基于主题相关图的中文实体链接技术研究[D]. 陈依.国防科技大学 2017
[10]中文分词方法在农业搜索中的应用研究[D]. 周利军.四川农业大学 2015
本文编号:3606477
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:93 页
【学位级别】:硕士
【部分图文】:
图3-1裁判文书网页源码??
??解析,提取HTML源码中的数据。其中的Request库和BeautifiilSoup库都可以通??过python自带的pip工具进行安装。??当进入某法院网的司法公开栏目的裁判文书页面,我们首先可以通过鼠标选??择要获取裁判文书的案件类型,这里选择刑事案件,其次就可以根据法院的级别??从高级法院到中级法院再到基层法院,这样该页面呈现的就是该法院公布的所有??一审刑事裁判文书了,每一页共10个不同案件的裁判文书,每个裁判文书名称都??可以点击进入裁判文书的详情页面,具体查询选项如图3-2所示。??文书公开查洵??法院:fSi高篪?塞号:鑛AM?縫号??室由;擊入塞囱?罢件类別:?吻刑事?民事心行政?#执行??文书堯gh?#判决书?O裁走书?调解书?Gr决走书?〇支付令??图3-2根据法院等级和案件类型查询裁判文书??我们首先利用递归循环从裁判文书网的列表页面,获取每个裁判文书详情页??面的链接地址,然后利用Request库获取裁判文书详情页面的HTML源码。??Request库是一个优雅而简单的HTTP库,它通过伪装成浏览器的头部信息向目标??网站服务器发送请求,获取服务器返回的页面内容,主要是HTML源码。??然后使用BeautifUlSoup库对HTML源码进行解析。BeautifiilSoup库是一个灵??活又方便的网页解析Python库,处理效率很高,支持多种解析器,本文使用??htmlparser解析器。通过解析我们就可以获取网页的一个文档对象,根据文档对??象就可以读取标签内容了。??最后我们将解析出来的标签内容写入到一个文本文档文件中,这个文档的名??称以裁判文书的名称命名,包括了案件中
013〕佛三糊初字蓄311号孛念彬受賭塞一?刑事判决书,tort?2019/8/1?10:47?文本文档??圍(2013)键三法刑初字皆312号激齡受贿塞一宙刑義U戾书.fort?2019/8/1?10:47?文本文档??圖(2013〕键三法初字望33吗韦植山、罗日方、罗朝义三人^室一宙刑事判凌书.txt?2019/8/1?10:47?文本文档??圍(2.013)梯三衡K1初字窖345号刻健敲许勤索案一审刑事判■^书.txt?2019/8/1?10:47?文本文???<?>??图3-3通过网络获取的txt格式的裁判文书??3.1.3裁判文书语料库的建立??通过对这20万份的裁判文书进行研宄分析,我们基本掌握了法院判决文书的??格式和内容编排,接下来我们要对其中的每一份裁判文书进行处理,提取其中的??关键信息,完成法院裁判文书语料库的建立。在这过程主要完成关键信息的定义??和关键fe息提取的方法。??3.1.3.1关键信息的定义??关键信息的选择直接影响着我们模型的建立方式,是做分类还是做聚类都是??个问题。本文要实现从案件详情到判决结果的预测,那么这两类信息都是要从法??院的裁判文书中提取的。在法院的一审刑事判决书中,有一段文字会详细描述法??院认定的案件事实和情节,其次会有段文字,写明根据查证属实的事实、情节和??法律规定,论证被告人是否犯罪,犯什么罪[36],以及最终的刑期等内容,也就是??案件的判决结果。??因此,我们主要从裁判文书中提取两类信息。一类是法院认定的案件详情描??述,包括了案件的情节过程和犯罪事实。另一类是法院作出的判决结果,判决结??果又分为判处被告人的罪名、判处被告人的刑期以及依据的法
【参考文献】:
期刊论文
[1]基于GRU-Attention的中文文本分类[J]. 孙明敏. 现代信息科技. 2019(03)
[2]自然语言处理的发展历史与现状[J]. 宋一凡. 中国高新科技. 2019(03)
[3]基于Web的联机手写汉字识别仿真系统设计[J]. 曲丽娜. 吉林工程技术师范学院学报. 2018(10)
[4]基于集成学习的微博用户转发行为预测[J]. 张效尉,王伟,秦东霞. 河南师范大学学报(自然科学版). 2018(02)
[5]汉语的语素概念提取与语义构词分析[J]. 刘扬,林子,康司辰. 中文信息学报. 2018(02)
[6]基于微服务架构的日志监控系统的设计与实现[J]. 张振,刘俊艳. 软件. 2017(11)
[7]面向普通未登录词理解的二字词语义构词研究[J]. 吉志薇,冯敏萱. 中文信息学报. 2015(05)
[8]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)
[9]互联网不良信息治理的研究与探讨[J]. 刘东鑫,周斯宁,沈军. 广东通信技术. 2010(12)
[10]自然语言处理的历史与现状[J]. 冯志伟. 中国外语. 2008(01)
博士论文
[1]现代汉语词语称名生成过程研究[D]. 刘晓波.吉林大学 2019
硕士论文
[1]基于深度学习和词典定义的义原预测研究[D]. 张磊.战略支援部队信息工程大学 2019
[2]基于机器学习的内容处理与监控系统的设计与实现[D]. 李博文.北京交通大学 2019
[3]基于BPE和Transformer的汉语语音识别技术研究[D]. 栾效阳.哈尔滨工业大学 2019
[4]面向外骨骼机器人的智能康复信息系统的研究与实现[D]. 贾晓扬.电子科技大学 2019
[5]基于宽深度模型的广告点击率预估方法[D]. 林启迪.华南理工大学 2019
[6]基于深度学习的产品意见挖掘研究[D]. 王彦芳.辽宁师范大学 2019
[7]中文自动文摘关键技术研究与实现[D]. 张洪荣.哈尔滨工业大学 2018
[8]基于集成学习的蛋白质序列分类问题的研究[D]. 赵欣.电子科技大学 2018
[9]基于主题相关图的中文实体链接技术研究[D]. 陈依.国防科技大学 2017
[10]中文分词方法在农业搜索中的应用研究[D]. 周利军.四川农业大学 2015
本文编号:3606477
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3606477.html
最近更新
教材专著