当前位置:主页 > 科技论文 > 软件论文 >

文本相似度计算方法研究综述

发布时间:2018-11-10 10:32
【摘要】:【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法可分为4类:基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中,基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心,未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。
[Abstract]:[objective] to analyze the method of text similarity calculation, To understand the development situation in this field. [literature scope] in CNKI and Web of Science respectively in the search style "title: text similarity OR title: vocabulary similarity OR title: semantic similarity" and "TI:'text similarity'or'semantic similarity" 'or'lexical similarity' and define the type of document to retrieve, Finally, 69 important documents were obtained. [methods] the text similarity calculation methods were systematically combed, the basic ideas and characteristics of the key methods were analyzed, and the future development direction was summarized. [results] A more comprehensive classification and description system was formed. Text similarity calculation methods can be divided into four categories: methods based on strings, methods based on corpus, methods based on world knowledge and other methods. Among them, methods based on neural network and world knowledge and similarity calculation for cross-domain text will become the development trend in this field. [limitations] only different methods themselves are the core of the discussion. The conclusion is helpful to grasp and understand the present situation and future trend of text similarity calculation methods.
【作者单位】: 中国科学院成都文献情报中心;中国科学院大学;
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 徐建民;张猛;吴树芳;;基于话题的事件相似度计算[J];计算机工程与设计;2014年04期

2 王钧;赵曰利;;浙大中药指纹图谱相似度计算软件在烟用香精香料色谱分析中的引入应用[J];现代仪器;2007年03期

3 单建芳;刘宗田;周文;;事件相似度计算[J];小型微型计算机系统;2010年04期

4 刘文剑;郭宁;金天国;;制造资源本体的相似度计算模型[J];计算机集成制造系统;2010年11期

5 邸书灵;刘晓飞;李欢;;基于分词的语句相似度计算的改进[J];石家庄铁道大学学报(自然科学版);2011年04期

6 秦学勇;张润梅;;两级相似度计算在主观题机器阅卷中的应用[J];计算机工程;2012年11期

7 田卫东;强继朋;;基于问句类型的问句相似度计算[J];计算机应用研究;2014年04期

8 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期

9 李伟;;中文语句相似度计算的方法初探[J];兰州工业高等专科学校学报;2009年04期

10 兰美辉;任友俊;徐坚;高炜;;k-部排序本体相似度计算[J];计算机应用;2012年04期

相关会议论文 前10条

1 刘磊;张桂平;蔡东风;季铎;;基于语义预测的双语术语相似度计算[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

3 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年

4 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5 郭文宏;范学峰;;基于语义词典和本体知识的概念相似度计算[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

6 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

7 关毅;王晓龙;王强;;论系统相似的度量[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

8 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年

9 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

10 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

相关博士学位论文 前4条

1 冯晓文;基于GPU的相似度计算关键技术研究[D];华中科技大学;2014年

2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年

3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年

4 任磊;推荐系统关键技术研究[D];华东师范大学;2012年

相关硕士学位论文 前10条

1 梁韬;中文微博新词与热点话题发现技术研究[D];湖南工业大学;2015年

2 汪建成;汉越双语新闻话题分析方法研究[D];昆明理工大学;2015年

3 唐海燕;基于全文的教育资源检索模型研究[D];四川师范大学;2015年

4 舒佳根;中文实体链接研究[D];苏州大学;2015年

5 孔行;基于主题推荐的辅助写作系统[D];哈尔滨工业大学;2015年

6 孙润志;基于语义理解的文本相似度计算研究与实现[D];中国科学院研究生院(沈阳计算技术研究所);2015年

7 刘敏;基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用[D];北京理工大学;2015年

8 康毅;面向客服的自动问答系统关键技术研究[D];东北大学;2014年

9 吴宇浩;南海档案数字化半自动校勘中的底本推荐探讨[D];南京大学;2015年

10 吐尔逊阿依·阿不来提;小学维吾尔语文教材中的单句相似度研究[D];新疆师范大学;2015年



本文编号:2322216

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2322216.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf12b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com