当前位置:主页 > 科技论文 > 软件论文 >

基于GATE的司法案件信息抽取方法研究

发布时间:2019-05-03 18:00
【摘要】:随着我国司法数据公开的推进,越来越多的司法案件判决信息以网页的形式发布出来供公众查询使用。截止2015年3月,全国各级法院公开的案件判决信息已达700万份以上。如果在商业应用上利用这些公开的案件裁判文书信息,就需要对案件的各个核心字段进行结构化处理,这通常由人工操作来完成。面对如此庞大的案件信息数量,人工处理方式显然在效率上显得非常低下。如何运用信息技术简化这一过程便成为当下急待解决的问题。针对这一研究背景,本文提出了基于GATE的司法案件信息抽取方法研究,即采用基于JAPE规则的信息抽取技术,以GATE系统作为论文研究的技术基础和开发平台。论文首先针对与研究命题相关的国内外研究现状进行研究;接着对相关基础理论进行概述,包括GATE系统介绍、JAPE规则基本语法、执行原理和应用情况的介绍。然后,基于GATE系统提供的平台组件设计,重点研究了基于GATE的司法案件信息抽取方法,包括信息的预处理过程结束,各案件信息字段的JAPE规则抽取方法介绍,结果的组织输出等。最后,将论文所研究的信息抽取方法应用于实际批量的裁判文书数据,语料评测结果显示,该方法的抽取准确率可以达到94%以上,召回率可以达到86%以上,整体性能F值可以达到92%以上,证明该方法的科学性和有效性。
[Abstract]:With the promotion of judicial data disclosure in China, more and more judicial case decision information is published in the form of web pages for public inquiry. As of March 2015, the national courts at all levels of the case judgment information has reached more than 7 million. If we make use of the information of the public case adjudication documents in commercial applications, we need to deal with the core fields of the case structurally, which is usually accomplished by manual operation. In the face of such a large amount of case information, manual processing is obviously very inefficient. How to use information technology to simplify this process has become an urgent problem to be solved. In view of this research background, this paper proposes a method of judicial case information extraction based on GATE, that is, adopting information extraction technology based on JAPE rules and taking GATE system as the technical basis and development platform of this paper. Firstly, this paper studies the domestic and foreign research situation related to the research proposition, and then summarizes the related basic theories, including the introduction of GATE system, the basic grammar of JAPE rules, the principle of execution and the application. Then, based on the platform component design provided by GATE system, this paper focuses on the method of judicial case information extraction based on GATE, including the end of the pre-processing process of information, and the introduction of JAPE rule extraction method of each case information field. Organizational output of the result, etc. Finally, the information extraction method studied in this paper is applied to the actual batch of adjudication document data. The results of corpus evaluation show that the extraction accuracy and recall rate of this method can reach over 94% and 86% respectively, and the result of corpus evaluation shows that the extraction accuracy and recall rate of this method can reach 94% and 86% respectively. The overall performance F value can be more than 92%, which proves that the method is scientific and effective.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 邓箴;包宏;;改进的关键词抽取方法研究[J];计算机工程与设计;2009年20期

2 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期

3 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期

4 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期

5 杨建明;;关系抽取方法研究[J];电子技术;2009年04期

6 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期

7 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期

8 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期

9 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期

10 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期

相关会议论文 前10条

1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

相关重要报纸文章 前10条

1 张洞若;正确把握司法案件报道的度[N];甘肃日报;2001年

2 方工;科学施策,,让每一个司法案件都实现公正[N];检察日报;2013年

3 最高人民法院 周颖佳;在每一个司法案件中彰显公平正义[N];人民法院报;2013年

4 本报记者 林晔晗 本报通讯员 马远斌 雷江辉 熊春生;在每个司法案件中追求公正[N];人民法院报;2013年

5 法治报记者 胡蝶飞;让每一起司法案件都感受到公平正义[N];上海法治报;2013年

6 河南省开封市中级人民法院院长 詹玉锋;努力实现司法案件之公平正义[N];人民法院报;2013年

7 ;让群众在每个司法案件中感受公平正义[N];贵州日报;2014年

8 记者 陈菲 罗沙;让每个司法案件都体现公平正义[N];新华每日电讯;2014年

9 市第一中级人民法院党组书记 院长 刘金波;努力让人民群众在每一个司法案件中都能感受到公平正义[N];天津政法报;2013年

10 通讯员 李光华;广东先行探讨酒类刑事司法案件移送工作[N];华夏酒报;2011年

相关博士学位论文 前2条

1 刘胜宇;生物医学文本中药物信息抽取方法研究[D];哈尔滨工业大学;2016年

2 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 宋传宝;基于GATE的司法案件信息抽取方法研究[D];天津大学;2016年

2 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年

3 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年

4 洪军建;面向社会网络应用的人物关系抽取方法研究[D];西藏大学;2016年

5 梅莉莉;基于领域特殊性和统计语言知识的新词抽取方法[D];北京理工大学;2016年

6 陈亚东;面向数据稀疏问题的英文事件抽取研究[D];苏州大学;2016年

7 朱珠;基于双语的事件抽取方法研究[D];苏州大学;2016年

8 余伟;基于领域知识的Web信息抽取方法研究[D];安徽工程大学;2016年

9 陈茂榕;领域依赖的Web信息抽取系统设计与实现[D];东南大学;2016年

10 刘征;作者资讯中的有用文本信息抽取方法研究[D];东北师范大学;2016年



本文编号:2469126

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2469126.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f6dec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com