当前位置:主页 > 法律论文 > 诉讼法论文 >

利用Doc2Vec及改进K-means聚类实现文本取证分析

发布时间:2021-09-01 05:25
  为了提升文本取证过程的智能化和便利性,提出一种基于Doc2Vec和改进K-means聚类算法的文本取证方法。首先提取并转化待取证计算机中的文本文件,利用深度神经网络模型Doc2Vec将文本内容映射为文本向量,进而利用改进的K-means聚类算法对文本向量进行划分,使目标证据文件与无关文件分离,最后通过文本间的相似度计算,按照相似程度输出目标证据文件。结果显示,改进的K-means算法可稳定划分文本且保证目标证据文件被检索;同时还可关联出部分未掌握线索的证据文件,为下一步检索提供方向,扩大取证检索的收获。该方法避免了传统取证软件基于字符匹配的不足,实现取证效率的提高与结果完整性的提升。 

【文章来源】:中国刑警学院学报. 2020,(04)

【文章页数】:7 页

【部分图文】:

利用Doc2Vec及改进K-means聚类实现文本取证分析


格式转换流程图

处理流程图,处理流程图,内容,文本文件


经文本文件格式转换,得到原始TXT文本文件集“Orig_txt”。为了便于分词及去停用词处理,现将原始TXT文本文件中的空格、空行去除,并将文本内容转化为一行显示,最终处理结果保存至文件夹“Result_txt”,流程如图2所示。2.3 分词及去停用词

流程图,流程图,文本,词汇


对文本进行向量化前,通过分词提取文本的所有词汇,经去停用词操作去除文本多余词汇,凸显有价值的文本信息。本文选用结巴分词,去停用词表则选择常用的1208中文停用词表“stop_words.txt”,流程如图3所示。3 基于Doc2Vec文本向量化

【参考文献】:
期刊论文
[1]基于密度峰值的改进K-Means文本聚类算法及其并行化[J]. 袁逸铭,刘宏志,李海生.  武汉大学学报(理学版). 2019(05)
[2]文本向量化表示方法的总结与分析[J]. 冀宇轩.  电子世界. 2018(22)
[3]SVD优化初始簇中心的K-means中文文本聚类算法[J]. 戴月明,王明慧,张明,王艳.  系统仿真学报. 2018(10)
[4]基于LDA改进的K-means算法在短文本聚类中的研究[J]. 冯靖,莫秀良,王春东.  天津理工大学学报. 2018(03)
[5]基于PV-DM模型的多文档摘要方法[J]. 刘欣,王波,毛二松.  计算机应用与软件. 2016(10)



本文编号:3376348

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/susongfa/3376348.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8c93***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com