面向司法判决书案情的主题事件抽取研究

发布时间:2021-09-19 01:08
  在司法公开的背景下,互联网上发布了海量真实有效的司法判决书。司法判决书案情是对案件细节的描述,富含丰富的行业知识和专业智慧。然而,司法判决书的数量庞大,内容冗长、多样且非结构等特征,导致其数据价值密度低下,难以有效支持决策。司法判决书的结构化处理是后续分析的重要基础,面向司法判决书案情的主题事件抽取任务开展研究具有重要的理论价值和较好的应用前景。本文主要研究工作如下:(1)提出一种触发词与属性值对的联合抽取方法。该方法首先利用基于熵的特征排序构建触发词表。然后基于条件随机场,训练触发词识别模型,用于确定二元语义属性的取值;训练触发词、属性和属性值的联合标记模型,用于识别字符串属性及其取值。实验结果显示,与传统方法相比,所提出的方法能够抽取二元语义属性值对,并且对字符串属性值对的抽取准确率、召回率和F值均有提高,同时抽取所用平均时间明显降低。(2)由于训练条件随机场模型需要大量的标记语料,司法判决书的标记语料少且依赖人工标注。为了减少人工标注的工作,通过利用未标记语料,我们提出一种基于tri-training和CRF的元事件抽取方法。实验结果显示:该方法能够降低训练模型所需标记语料的数量... 

【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

面向司法判决书案情的主题事件抽取研究


司法判决书案情信息结构化处理系统框架图

界面图,系统运行,界面,司法判决


系统的主要操作流程如下:a. 当用户要对一篇司法判决书的案情主题进行内容抽取时,首先点击图中的“选择文件”按钮,选中并上传所需要处理的司法判决书(txt 格式),最多可上传10 个;b. 待文件上传后,点击“开始处理”按钮,对司法判决书案情部分的抽取结果就会显现在右边文本框中。表 5. 1 开发工具表Tab 5.1 Devlopment tools软件/工具包 版本 说明JDK 1.8 JDK 是 Java 的核心,包括 java 的基础类库和 java 工具Eclipse 4.6.3 一个集成开发环境mySql 5.6 一个关系型数据库管理系统ltp4j 3.3.2 ltp 工具的 java 实现包,可以用于文本的预处理

【参考文献】:
期刊论文
[1]基于分歧的半监督学习[J]. 周志华.  自动化学报. 2013(11)
[2]审判案例自动抽取与标注模型研究[J]. 佘贵清,张永安.  现代图书情报技术. 2013(06)
[3]事件抽取技术研究综述[J]. 高强,游宏梁.  情报理论与实践. 2013(04)
[4]基于依存分析的事件识别[J]. 付剑锋,刘宗田,付雪峰,周文,仲兆满.  计算机科学. 2009(11)
[5]中文事件抽取技术研究[J]. 赵妍妍,秦兵,车万翔,刘挺.  中文信息学报. 2008(01)

硕士论文
[1]基于主题的中文事件抽取技术研究及应用[D]. 吴刚.苏州大学 2009



本文编号:3400699

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3400699.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5484***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com