当前位置:主页 > 法律论文 > 法理论文 >

基于法律大数据的智能系统

发布时间:2021-02-18 08:10
  随着互联网规模的不断壮大,信息量正以前所未有的速度巨量增长着。在这个环境下,大数据应运而生。其法律数据呈现出数量大、速率快、多样化的特点。如何运用先进的方式对海量数据进行采集、处理以及分析显得尤为关键。提出了一套基于法律大数据的智能系统。该系统利用Scrapy网络爬虫采集判决文书和法律条目并使用正则和TF-IDF提取要素信息和文本关键字,实现多维度的文书分类检索功能,并结合Word2Vec与TF-IDF分析文章相似度,实现相关文书的内容推荐。 

【文章来源】:工业控制计算机. 2020,33(05)

【文章页数】:3 页

【部分图文】:

基于法律大数据的智能系统


系统总体设计图

模型图,模型,向量,文书


Word2Vec是Mikolov于2013年提出的语言模型,是目前自然语言处理领域的热点。它利用了词的上下文信息,使得语义信息更加丰富,现常用于文本相似度和文本聚类等领域。Word2Vec共有两种训练模型,分别是CBOW连续词袋模型和Skip-gram模型,两者互为镜像。CBOW是利用目标单词的前后词语来计算当前词出现的概率,Skip-gram则与之相反,是通过中心词来预测周围的词。由于Skip-gram能更好地处理低频词,准确率更高,所以本文采用Skip-gram作为训练模型。Word2Vec通过得到每个词的词向量,从而将词语间的关系简化为向量空间中向量的运算[2]。Mikolov在文献中指出词向量的学习不仅能学习到其语法特征,还能利用向量相加减的方式进行语义上面的计算[3]。根据这一原理,本文通过Word2Vec词向量运算得到文书之间相似度,实现相关文书的内容推荐。

页面,客户端,文书,详情


而对某一篇文书标题进行点击后,页面会跳转到文书详情页,查看文书具体内容。另外点击详情页面右上角的概要按钮可触发ToolBar导航栏,展示该文书关键信息,帮助法务工作人员更好地了解案件。如图3、图4所示。图4 文书详情页面

【参考文献】:
期刊论文
[1]基于Python语言的中文分词技术的研究[J]. 祝永志,荆静.  通信技术. 2019(07)
[2]基于Word2Vec的中文短文本分类问题研究[J]. 汪静,罗浪,王德强.  计算机系统应用. 2018(05)
[3]关于法律人工智能在中国运用前景的若干思考[J]. 左卫民.  清华法学. 2018(02)
[4]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春.  计算机科学. 2016(06)

硕士论文
[1]基于加权Word2vec的微博文本相似度计算方法研究[D]. 马思丹.西安电子科技大学 2019



本文编号:3039292

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/falilunwen/3039292.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6919e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com