当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于word2vec的中文文本相似度研究与实现

发布时间:2017-03-25 19:05

  本文关键词:基于word2vec的中文文本相似度研究与实现,,由笔耕文化传播整理发布。


【摘要】:在如今网络得到普及的时代,特别是Web3.0的应用,越来越多的信息被编码成数字信息存储在网络上,包括各种论文和文献的存储。为了更好地对数据进行分类和查找,我们需要对不同的数据进行合理的存储和索引。为了对数据进行分类,我们需要对文本进行相似度比较。在众多的文本相似度判别方法中,最准确的方法是通过人工去对比两个文档之间的相似度,但是考虑到目前文本数量巨大,而且其增长速度随网络存储的应用呈现爆炸式增长,人工的检查方式已经变得不太现实。为此,开发一种在计算和识别速度上具有明显优势,并符合人为制定的相似标准,做到正确地、迅速到、健壮地判定文本相似度。文本相似度是许多应用的基础,如文本聚类、搜索引擎和论文查重的基础,所以文本相似度计算的准确性直接影响到这样应用的运行效果。如果能提高文本相似度的准确度,这样就能从互联网上搜索到更多更有用的信息,就可以把大量的文章更好地分门别类,使机器表现得更加接近人类的表达方式。为了能更接近这一目标,人们也在不断改进文本相似度计算的方法,希望能得到更加令人满意的结果。在过去,通用的文本相似度算法都是基于向量空间模型来展开,而且这种方法在应用之初表现效果不错,但是随着信息量的增长,这种方法的缺点也越来越明显。传统算法中有两大缺点。第一,无法识别意思相似或者相关的词语;第二,文本中词语的权重不合理,即文本中的核心关键词的重要程度与其他非关键词重要程度一样,而这是不合理的。所以如果能处理好着两大难题,文本相似度计算准确率也必将提高。本文将在传统算法的基础上对文本相似度算法进行改进。随着近几年不断的努力,许多研究人员也提出了许多改进的算法,其中不乏表现效果不俗的文章,在众多文章中,就有本文着重要提到的Word2vec。Word2vec的核心是词向量,即每个词语都有一个相对应向量,在计算两个词语的相似度时其实就是计算两个向量的余弦值。引入词向量后,可以识别两个字型不同但意思相似或相关的词语。而为了对文本中的词语重要程度分配不同的权值,本文引入了词频表,通过词频表就可以标记出一个文本中词语的权值,达到弱化非关键词语并且突出关键词语的效果。这样就能弥补传统相似度算法中的不足。
【关键词】:文本相似度 向量空间模型(VSM) 词向量 Word2vec 信息检索
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • ABSTRACT6-9
  • 缩略图对照表9-12
  • 第一章 绪论12-16
  • 1.1 文本相似度研究的背景与意义12-13
  • 1.2 文本相似度的发展现状13
  • 1.3 本文内容与章节安排13-16
  • 1.3.1 本文主要内容13-14
  • 1.3.2 本文章节安排14-16
  • 第二章 文本相似度计算理论16-34
  • 2.1 文本相似度基本概念16-17
  • 2.1.1 文本相似度含义16
  • 2.1.2 文本相似度计算方法分类16-17
  • 2.2 文本表示方法17-18
  • 2.2.1 字符表示法17
  • 2.2.2 词袋表示法17-18
  • 2.2.3 n-gram表示法18
  • 2.3 经典文本计算模型18-25
  • 2.3.1 经典布尔模型18-19
  • 2.3.2 扩展布尔模型19-22
  • 2.3.3 概率模型22-23
  • 2.3.4 向量空间模型23-24
  • 2.3.5 引入同义词的向量空间模型24-25
  • 2.4 WORD2VEC模型构建25-32
  • 2.4.1 词向量25-27
  • 2.4.2 前馈神经网络语言模型27
  • 2.4.3 循环神经网络语言模型27-28
  • 2.4.4 连续词袋模型28
  • 2.4.5 连续Skip-gram模型28-30
  • 2.4.6 分层softmax30
  • 2.4.7 负采样30-31
  • 2.4.8 高频词的再抽样31
  • 2.4.9 模型效果31-32
  • 2.5 本章小结32-34
  • 第三章 文本相似度算法设计与优化34-52
  • 3.1 文本相似度算法设计34-35
  • 3.2 传统文本相似度算法的关键步骤35-43
  • 3.2.1 文本分词35-40
  • 3.2.2 文本虚词过滤40-41
  • 3.2.3 获取文本特征向量41-42
  • 3.2.4 文本相似度计算42-43
  • 3.3 文本相似度算法优化43-50
  • 3.3.1 降低文本词频影响43-46
  • 3.3.2 文本相似度优化46-50
  • 3.4 本章小结50-52
  • 第四章 实验结果52-58
  • 4.1 实验结果与分析52-57
  • 4.2 结论57
  • 4.3 本章小结57-58
  • 第五章 总结与展望58-60
  • 5.1 工作总结58
  • 5.2 下一步工作展望58-60
  • 致谢60-62
  • 参考文献62-64
  • 作者简介64-65

【相似文献】

中国期刊全文数据库 前10条

1 郭帆;余敏;叶继华;;一种基于分类和相似度的报警聚合方法[J];计算机应用;2007年10期

2 许鹏远;党延忠;;基于元相似度的推荐算法[J];计算机应用研究;2011年10期

3 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期

4 杨云;朱学峰;;一种新的计算中药指纹图谱相似度方法与实现[J];计算机测量与控制;2007年10期

5 熊子奇;张晖;林茂松;;基于相似度的中文网页正文提取算法[J];西南科技大学学报;2010年01期

6 刘萍;陈烨;;词汇相似度研究进展综述[J];现代图书情报技术;2012年Z1期

7 孙瑶瑶;刘杰;;基于Embedded MATLAB函数模块的图像相似度的实现[J];计算机与数字工程;2010年02期

8 朱新懿;耿国华;;颅面重构中颅面相似度比较[J];计算机应用研究;2010年08期

9 厉晗;徐向民;尤芳敏;钱民;马东;;利用相似度分割特征集的混合核构造方法[J];科学技术与工程;2007年04期

10 邢长征;孙伟;;一种改进的基于句子相似度的检测算法[J];计算机系统应用;2010年02期

中国重要会议论文全文数据库 前4条

1 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

2 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

3 郭帆;叶继华;余敏;;分布式IDS报警聚合研究与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

4 何梅;刘亚军;陈耿;;词性划分和差额法在主观题阅卷中的应用[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

中国博士学位论文全文数据库 前2条

1 朱新懿;三维颅面相似度比较的研究[D];西北大学;2012年

2 吴迪;基于加权相似度的序列聚类算法研究[D];燕山大学;2014年

中国硕士学位论文全文数据库 前10条

1 严春梅;向量空间模型与语义理解相结合的论文相似度算法研究[D];西南交通大学;2015年

2 黄敏敏;高速公路交通应急救援预案智能匹配方法研究[D];东南大学;2015年

3

本文编号:267625


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/267625.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户06dd0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com