基于语音问答的相似案件检索方法与系统
发布时间:2021-01-28 14:19
裁判文书是司法实践中最重要的载体。但从裁判文书中我们经常可以看到对同一案件的不同判决,这严重影响到司法的公信力和公正性。因此,实现“类案类判”至关重要。虽然已经开发出一些类似的系统,但它们并不能很好地满足实际法律实践的需要,主要原因有三点:1)算法原因导致推送的类似案件不够精确和全面。2)推送的类似案件来源不明确,所属法院的层次不够清晰。3)地方各自为政,导致不同地区“类案”的判决有着显著的差异性。此外,他们的方法大多基于关键词匹配,无法根据自然语言描述的犯罪事实找到相似的案件,因而导致参考的相似案件不全,进而导致类案不类判的发生。因此,本文基于自然语言处理技术和文本相似度,采用多轮语音问答的方式,开发了一个基于盗窃罪的刑事案件类案检索系统。更具体地说,我们的系统采用了科大讯飞的在线语音识别和语音合成技术,准确识别用户的语音输入和高效转化系统的文本输出,以达到用户与系统能以高效便利的语音方式进行交互。然后利用自然语言处理技术对用户的输入文本进行相应的理解,并进行多轮的问答过程。同时,我们还提出了一种基于文本结构化和语义相似度的计算方法来检索最相似的案例。对一千个真实的法律判决文书进行实...
【文章来源】:广西师范大学广西壮族自治区
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
结巴分词功能图
广西师范大学硕士研究生学位论文7就有不同的中文分割方式。第四,法律文本中出现的如人名、地名以及法律界的专业术语,它们很难精准的预测,也难以全面的识别,也就很不利于分词的颗粒度[45],而分词的颗粒度大小对构成词语的文字数量不同,划分出的词语语义也就会有相应的改变,会在一定程度上影响着分词的效果。图2.2是法律文本分词的流程图。图2.2法律文本分词流程图通过图2.2我们可知,本文在对法律判决文书的分词处理主要流程如下:首先,我们对判决文书进行分句,以句子为输入,做文本清洗等预处理。同时,我们也添加了自定义的词库,以便能更好的对一些法律的专业术语进行分词,以此建立分词模型。然后,我们再通过结巴分词技术对文本进行分词处理,优先分离出自定义词库中的词,再分离出中文、英文和数字,对于中文使用加载动态规划的方法取得分词和相应的词性标注,而英文、数字和时间则做单独的处理并给予相应的标注。最后,将三种结果进行输出,得到最终的分词效果。2.2判决书的犯罪时间线抽取正则表达式最基本的三种功能是匹配、替换和提取[46]。本文主要用到匹配和替换两种功能。匹配功能用于把自定设置的匹配表达式与判决书的文本文件进行比较,然后根据比较结果,执行相应的程序。比如对时间的检测时的格式一般为“××年××月××日”,正则的匹配功能就可以对数据格式的合法性进行检测。而替换功能用于在文档中使用匹配模式来标识特定文字,然后将其删除或进行替换,如删除一些对提取信息有干扰的文本、
广西师范大学硕士研究生学位论文13第3章案件对话的理解与生成本章讨论我们的系统如何理解和分析人们在汉语口语中提出的问题,客服汉语口语问题多样化表达带来的挑战,确定问题的语义槽、语义组织方法和应答方法。3.1理解用户的回答和问题3.1.1基于用户的语音识别在对话界面,我们的系统允许用户根据需要输入文本。其输入有两种方式,一种是直接输入文本,一种是输入语音。在我们的对话框系统中,用户输入语音后,网页终端的输入框将智能显示已识别的语音文本信息,如果识别结果有小错误,用户可以编辑该文本信息并重新发送,可以大大减轻用户键入文本的负担。系统处理用户输入的文本的过程如图3.1所示。另一方面,语音合成技术被应用到我们的系统中,以语音应答用户并显示相应的中文文本,这可以使用户拥有良好的体验,并方便用户稍后查看和追溯对话。图3.1科大讯飞语音识别流程图中文语音处理技术的应用在中国已经成熟[52]。并且该技术在法律问答系统中的应用非常普遍,例如智能法律机器人小法[53]。因此,我们的系统还使用了IFLYTEK的语音合成和语音识别功能。科大讯飞的语音合成和语音识别支持Android、IOS、Web、Java、Windows、Linux等多个版本,由于我们做的是JavaWeb的网页版问答系统,所以我们调用的JavaSDK
【参考文献】:
期刊论文
[1]基于Attention+Bi-LSTM的公交出行意图和语义槽填充联合识别[J]. 陈婷婷,林民,李艳玲. 青海师范大学学报(自然科学版). 2019(04)
[2]语音识别技术的发展及应用[J]. 于晓明. 计算机时代. 2019(11)
[3]基于Python的中文结巴分词技术实现[J]. 曾小芹. 信息与电脑(理论版). 2019(18)
[4]文本相似度计算研究进展综述[J]. 王寒茹,张仰森. 北京信息科技大学学报(自然科学版). 2019(01)
[5]基于知识块摘要和词转移距离的高效司法文档分类[J]. 马建刚,张鹏,马应龙. 计算机应用. 2019(05)
[6]人工智能与法律结合的现状及发展趋势[J]. 黄俏娟,罗旭东. 计算机科学. 2018(12)
[7]基于改进孪生网络结构的相似法律案例检索研究[J]. 李兰君,周俊生,顾颜慧,曲维光. 北京大学学报(自然科学版). 2019(01)
[8]类案推送嵌入“智慧法院”办案场景的原理和路径[J]. 陈琨. 中国应用法学. 2018(04)
[9]人工智能时代的法律主体理论构造——以智能机器人为切入点[J]. 王勇. 理论导刊. 2018(02)
[10]问答中的问句意图识别和约束条件分析[J]. 孙鑫,王厚峰. 中文信息学报. 2017(06)
硕士论文
[1]基于字符串匹配的中英文混合分词技术研究[D]. 王茜.四川师范大学 2011
本文编号:3005143
【文章来源】:广西师范大学广西壮族自治区
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
结巴分词功能图
广西师范大学硕士研究生学位论文7就有不同的中文分割方式。第四,法律文本中出现的如人名、地名以及法律界的专业术语,它们很难精准的预测,也难以全面的识别,也就很不利于分词的颗粒度[45],而分词的颗粒度大小对构成词语的文字数量不同,划分出的词语语义也就会有相应的改变,会在一定程度上影响着分词的效果。图2.2是法律文本分词的流程图。图2.2法律文本分词流程图通过图2.2我们可知,本文在对法律判决文书的分词处理主要流程如下:首先,我们对判决文书进行分句,以句子为输入,做文本清洗等预处理。同时,我们也添加了自定义的词库,以便能更好的对一些法律的专业术语进行分词,以此建立分词模型。然后,我们再通过结巴分词技术对文本进行分词处理,优先分离出自定义词库中的词,再分离出中文、英文和数字,对于中文使用加载动态规划的方法取得分词和相应的词性标注,而英文、数字和时间则做单独的处理并给予相应的标注。最后,将三种结果进行输出,得到最终的分词效果。2.2判决书的犯罪时间线抽取正则表达式最基本的三种功能是匹配、替换和提取[46]。本文主要用到匹配和替换两种功能。匹配功能用于把自定设置的匹配表达式与判决书的文本文件进行比较,然后根据比较结果,执行相应的程序。比如对时间的检测时的格式一般为“××年××月××日”,正则的匹配功能就可以对数据格式的合法性进行检测。而替换功能用于在文档中使用匹配模式来标识特定文字,然后将其删除或进行替换,如删除一些对提取信息有干扰的文本、
广西师范大学硕士研究生学位论文13第3章案件对话的理解与生成本章讨论我们的系统如何理解和分析人们在汉语口语中提出的问题,客服汉语口语问题多样化表达带来的挑战,确定问题的语义槽、语义组织方法和应答方法。3.1理解用户的回答和问题3.1.1基于用户的语音识别在对话界面,我们的系统允许用户根据需要输入文本。其输入有两种方式,一种是直接输入文本,一种是输入语音。在我们的对话框系统中,用户输入语音后,网页终端的输入框将智能显示已识别的语音文本信息,如果识别结果有小错误,用户可以编辑该文本信息并重新发送,可以大大减轻用户键入文本的负担。系统处理用户输入的文本的过程如图3.1所示。另一方面,语音合成技术被应用到我们的系统中,以语音应答用户并显示相应的中文文本,这可以使用户拥有良好的体验,并方便用户稍后查看和追溯对话。图3.1科大讯飞语音识别流程图中文语音处理技术的应用在中国已经成熟[52]。并且该技术在法律问答系统中的应用非常普遍,例如智能法律机器人小法[53]。因此,我们的系统还使用了IFLYTEK的语音合成和语音识别功能。科大讯飞的语音合成和语音识别支持Android、IOS、Web、Java、Windows、Linux等多个版本,由于我们做的是JavaWeb的网页版问答系统,所以我们调用的JavaSDK
【参考文献】:
期刊论文
[1]基于Attention+Bi-LSTM的公交出行意图和语义槽填充联合识别[J]. 陈婷婷,林民,李艳玲. 青海师范大学学报(自然科学版). 2019(04)
[2]语音识别技术的发展及应用[J]. 于晓明. 计算机时代. 2019(11)
[3]基于Python的中文结巴分词技术实现[J]. 曾小芹. 信息与电脑(理论版). 2019(18)
[4]文本相似度计算研究进展综述[J]. 王寒茹,张仰森. 北京信息科技大学学报(自然科学版). 2019(01)
[5]基于知识块摘要和词转移距离的高效司法文档分类[J]. 马建刚,张鹏,马应龙. 计算机应用. 2019(05)
[6]人工智能与法律结合的现状及发展趋势[J]. 黄俏娟,罗旭东. 计算机科学. 2018(12)
[7]基于改进孪生网络结构的相似法律案例检索研究[J]. 李兰君,周俊生,顾颜慧,曲维光. 北京大学学报(自然科学版). 2019(01)
[8]类案推送嵌入“智慧法院”办案场景的原理和路径[J]. 陈琨. 中国应用法学. 2018(04)
[9]人工智能时代的法律主体理论构造——以智能机器人为切入点[J]. 王勇. 理论导刊. 2018(02)
[10]问答中的问句意图识别和约束条件分析[J]. 孙鑫,王厚峰. 中文信息学报. 2017(06)
硕士论文
[1]基于字符串匹配的中英文混合分词技术研究[D]. 王茜.四川师范大学 2011
本文编号:3005143
本文链接:https://www.wllwen.com/falvlunwen/susongfa/3005143.html