当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语义的文本相似度算法研究及应用

发布时间:2017-06-20 20:04

  本文关键词:基于语义的文本相似度算法研究及应用,由笔耕文化传播整理发布。


【摘要】:互联网时代的快速发展,科技日新月异的进步,越来越多的信息充斥在网络平台上,网络平台上的数据表现出级数增长的势头,文本在众多信息载体中无疑是互联网上主要的载体形式,导致对文本的挖掘研究逐渐成为计算机领域的热点。文本分词、文本词性标注和文本表示等相关的基础研究都是为了最终的文本相似度计算,而文本的相似度计算则是众多上层文本应用领域进行深度研究的基础,文本相似度算法的研究作为联系基础研究和上层应用的纽带,已经在自然语言处理、文本分类、文本聚类、问答系统、信息检索、搜索引擎等众多文本挖掘领域中崭露头角,得到了极其广泛的应用。 文本相似度算法是指采用一定的策略来比较两个文本之间的相似程度。目前文本相似度算法主要朝着两个方向发展:其一为基于向量空间模型的余弦相似度算法;其二为基于语义词典的语义相似度算法。这两种做法在计算文本之间相似度时都具有一定的意义,但是都缺乏对文本自身特性(文本篇幅和文本语言特征等)的深入分析,余弦向量法相对适用于大篇幅文本,然而该相似度算法中各个关键词的关联性却被全盘忽略;语义词典法受词典容量的制约难以较为准确地反映文本之间的相似度。 不同文本应用领域中文本的特性存在着一定的差异(文本篇幅存在长、短之分,文本语言也存在中、英文之分),本文从实际的文本应用出发,展开对不同篇幅、不同语言文本之间相似度计算的研究。针对大篇幅文本中关键词数目丰富而关键词存在多义性的特性,对文本进行语义单元划分,语义单元中关键词间语义相关性采用不同的策略(关键词共现频率投票因子和关键词词性权重等)获得;针对不同语言特性(中文和英文)的小篇幅文本,对文本以词性为标识进行词性向量的划分,针对不同语言特性的文本,关键词语义化权值的定义也采用不同策略。 本文主要研究长-长文本、短-短文本和短-长文本之间的相似度比较,并将长-长文本之间的相似度比较算法应用于文本分类领域,短-短文本相似度比较算法应用于FAQ系统领域,短-长文本相似度比较算法应用于搜索引擎领域,,实验表明,改进的语义相似度算法使得文本分类的准确率、句子相似度计算的准确率都有了较为明显的提高。
【关键词】:文本相似度算法 语义单元划分 词性空间定义 关键词语义权值定
【学位授予单位】:重庆理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-10
  • 1 绪论10-16
  • 1.1 本文的研究背景与意义10-11
  • 1.2 文本相似度算法发展概况11-13
  • 1.2.1 基于向量空间模型的余弦相似度算法11-12
  • 1.2.2 基于语义词典的语义相似度算法12
  • 1.2.3 其它文本相似度计算模型12-13
  • 1.2.4 存在的问题13
  • 1.3 本文的研究内容和章节安排13-16
  • 1.3.1 本文的研究内容14
  • 1.3.2 本文的章节安排14-16
  • 2 文本相似度算法相关技术概述16-26
  • 2.1 基于向量空间模型的余弦相似度算法16-20
  • 2.1.1 向量空间模型理论基础16-17
  • 2.1.2 文本数据预处理17
  • 2.1.3 关键词权值计算17-20
  • 2.1.4 余弦法度量文本之间相似度20
  • 2.2 基于语义词典的语义相似度算法20-24
  • 2.2.1 WordNet 简介20-21
  • 2.2.2 HowNet 简介21-23
  • 2.2.3 语义法度量文本之间相似度23-24
  • 2.3 本章小结24-26
  • 3 长-长文本语义相似度计算及文本分类应用研究26-40
  • 3.1 文本分类概述27
  • 3.2 非规则文本语义相似度计算27-31
  • 3.2.1 文本语义划分27-28
  • 3.2.2 关键词权值运算28
  • 3.2.3 句子间相似度运算28-29
  • 3.2.4 文本句子聚类29-30
  • 3.2.5 非规则文本相似度计算30-31
  • 3.3 规则文本语义相似度计算31-34
  • 3.3.1 深二元向量模型31
  • 3.3.2 段落语义相似度31-32
  • 3.3.3 段落结构相似度32-33
  • 3.3.4 游走概率33
  • 3.3.5 规则文本相似度计算33-34
  • 3.4 实验与分析34-38
  • 3.4.1 基于 Sogou 语料库的非规则文本语义相似度算法35-36
  • 3.4.2 基于 Reuters21578 语料库的规则文本语义相似度算法36-38
  • 3.5 本章小结38-40
  • 4 短-短文本语义相似度计算及 FAQ 系统应用研究40-56
  • 4.1 FAQ 系统概述41
  • 4.2 基于 WordNet 英文短文本语义相似度算法41-44
  • 4.2.1 英文文本预处理41-42
  • 4.2.2 文本词性空间构建42-43
  • 4.2.3 关键词词性空间相似度43-44
  • 4.2.4 英文文本相似度计算44
  • 4.3 基于 HowNet 中文短文本语义相似度算法44-48
  • 4.3.1 短文本词性切分45
  • 4.3.2 关键词权值计算45-46
  • 4.3.3 词性空间相似度计算46-47
  • 4.3.4 中文文本相似度计算47-48
  • 4.4 实验与分析48-54
  • 4.4.1 基于 MSRP 的英文短文本相似度算法48-51
  • 4.4.2 基于重庆理工大学院长信箱(FAQ 系统)的中文短文本相似度算法51-54
  • 4.5 本章小结54-56
  • 5 短-长文本语义相似度计算及搜索引擎系统应用研究56-62
  • 5.1 搜索引擎系统概述57-58
  • 5.1.1 查询请求和网页相似度的经典算法57
  • 5.1.2 页面排序算法57-58
  • 5.2 基于 WordNet 英文查询关键词相关性扩展58-59
  • 5.3 基于 HowNet 中文查询关键词相关性扩展59-60
  • 5.4 查询序列和网页相关性计算60
  • 5.5 本章小结60-62
  • 6 总结与展望62-64
  • 致谢64-66
  • 参考文献66-70
  • 个人简历、在学期间发表的学术论文及取得的研究成果70

【参考文献】

中国期刊全文数据库 前10条

1 王桐;王磊;吴吉义;徐贺;;WordNet中的综合概念语义相似度计算方法[J];北京邮电大学学报;2013年02期

2 张凌宇;马宗民;;一种模糊概念相似度的计算方法[J];东北大学学报(自然科学版);2013年09期

3 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期

4 程传鹏;吴志刚;;一种基于知网的句子相似度计算方法[J];计算机工程与科学;2012年02期

5 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期

6 裴颂文;吴百锋;;动态自适应特征权重的多类文本分类算法研究[J];计算机应用研究;2011年11期

7 郝文宁;冯波;陈刚;靳大尉;赵水宁;;基于领域本体的文档向量空间模型构建[J];计算机应用研究;2013年03期

8 廖志芳;邱丽霞;谢岳山;樊晓平;;一种频率增强的语句语义相似度计算[J];湖南大学学报(自然科学版);2013年02期

9 侯永帅;张耀允;王晓龙;陈清财;王宇亮;户保田;;中文问答系统中时间敏感问句的识别和检索[J];计算机研究与发展;2013年12期

10 蒋昌金;彭宏;马千里;林正春;王成;;受限领域中文问答系统问句分析研究[J];计算机工程与设计;2010年11期

中国博士学位论文全文数据库 前1条

1 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年


  本文关键词:基于语义的文本相似度算法研究及应用,由笔耕文化传播整理发布。



本文编号:466708

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/466708.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5922a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com