基于分布式架构的海量文本快速相似度检测研究
发布时间:2021-12-09 14:27
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
【文章来源】:中国传媒大学学报(自然科学版). 2019,26(01)
【文章页数】:6 页
【文章目录】:
1 引言
2 关键技术
2.1 Elasticsearch
2.2 余弦相似度
2.3 TF-IDF
3 分布式海量文本快速相似度检测技术研究改进
4 实验验证
4.1 实验数据及工具
4.2 实验结果分析
5 结束语
【参考文献】:
期刊论文
[1]开源搜索引擎Elasticsearch和Solr对比和分析[J]. 魏涛,孟方园,袁平,殷锋. 现代计算机(专业版). 2018(06)
[2]一种基于ElasticSearch的推荐系统架构[J]. 郝胜男,赵领杰. 电脑知识与技术. 2017(36)
[3]基于语义指纹的海量文本快速相似检测算法研究[J]. 姜雪,万正景,梁燕,陶以政. 电脑知识与技术. 2016(36)
[4]基于ElasticSearch的海量AIS数据存储方法[J]. 郑义成,莫钦华,王海鸿. 指挥信息系统与技术. 2016(03)
[5]基于Simhash算法的重复数据删除技术的研究与改进[J]. 陈春玲,陈琳,熊晶,余瀚. 南京邮电大学学报(自然科学版). 2016(03)
[6]结合汉明距离及语义的文本相似度量方法研究[J]. 胡维华,鲍乾,李柯. 杭州电子科技大学学报(自然科学版). 2016(03)
[7]基于Simhash的海量相似文档快速搜索优化方法[J]. 张广庆,葛唯益,贺成龙. 指挥信息系统与技术. 2015(02)
[8]文本相似性在抄袭问题中的应用研究[J]. 丁智斌,霍豫宗,杜念. 华北科技学院学报. 2013(01)
硕士论文
[1]向量空间模型与语义理解相结合的论文相似度算法研究[D]. 严春梅.西南交通大学 2015
本文编号:3530797
【文章来源】:中国传媒大学学报(自然科学版). 2019,26(01)
【文章页数】:6 页
【文章目录】:
1 引言
2 关键技术
2.1 Elasticsearch
2.2 余弦相似度
2.3 TF-IDF
3 分布式海量文本快速相似度检测技术研究改进
4 实验验证
4.1 实验数据及工具
4.2 实验结果分析
5 结束语
【参考文献】:
期刊论文
[1]开源搜索引擎Elasticsearch和Solr对比和分析[J]. 魏涛,孟方园,袁平,殷锋. 现代计算机(专业版). 2018(06)
[2]一种基于ElasticSearch的推荐系统架构[J]. 郝胜男,赵领杰. 电脑知识与技术. 2017(36)
[3]基于语义指纹的海量文本快速相似检测算法研究[J]. 姜雪,万正景,梁燕,陶以政. 电脑知识与技术. 2016(36)
[4]基于ElasticSearch的海量AIS数据存储方法[J]. 郑义成,莫钦华,王海鸿. 指挥信息系统与技术. 2016(03)
[5]基于Simhash算法的重复数据删除技术的研究与改进[J]. 陈春玲,陈琳,熊晶,余瀚. 南京邮电大学学报(自然科学版). 2016(03)
[6]结合汉明距离及语义的文本相似度量方法研究[J]. 胡维华,鲍乾,李柯. 杭州电子科技大学学报(自然科学版). 2016(03)
[7]基于Simhash的海量相似文档快速搜索优化方法[J]. 张广庆,葛唯益,贺成龙. 指挥信息系统与技术. 2015(02)
[8]文本相似性在抄袭问题中的应用研究[J]. 丁智斌,霍豫宗,杜念. 华北科技学院学报. 2013(01)
硕士论文
[1]向量空间模型与语义理解相结合的论文相似度算法研究[D]. 严春梅.西南交通大学 2015
本文编号:3530797
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3530797.html