当前位置:主页 > 科技论文 > 软件论文 >

基于深度学习的文本相似度算法的研究与应用

发布时间:2021-03-25 19:45
  随着互联网行业和深度学习技术的快速发展,自然语言处理领域取得了前所未有的进展。自然语言推理在大数据的背景下取得了丰硕的成果,文本相似度分析是自然语言推理中一项基本而又关键的任务,并在很多自然语言处理任务中起着不可替代的作用,比如:信息检索、自动问答、机器翻译、自动摘要和智能客服。提高中文文本相似度计算准确性,可以基本解决很多自然语言处理领域中文本相关的问题,因此为了提高文本相似度算法的准确率,本文做了大量的相关工作和研究。本文主要研究基于深度学习的中文文本相似度算法,分别训练以词向量和字向量为输入的中文文本相似度模型,并分析不同粒度的输入对模型的影响。本文分析了传统的孪生LSTM模型的缺点,并对模型进行改进,在模型中引入双向LSTM,充分利用双向LSTM每个时间步的信息,达到捕获文本多维度语义信息的效果,并在模型中引入注意力机制,使句子编码所包含的语义信息更加丰富。为了解决一词多义的问题,更好的获取句子的语义编码,本文利用迁移学习技术,将Bert模型引入到文本相似度计算中,并在其基础上结合卷积神经网络来学习句子的深度文本表示,设计并实现了基于Bert的表征模型,并取得了非常好的效果。本... 

【文章来源】:重庆大学重庆市 211工程院校 985工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【部分图文】:

基于深度学习的文本相似度算法的研究与应用


浅层神经网络结构图

过程图,神经元,过程,神经网络


重庆大学硕士学位论文2文本相似度研究的相关理论技术72文本相似度研究的相关理论技术本文主要研究的是中文文本相似度问题,在分析研究文本相似度问题过程中涉及到了很多相关的理论知识,为了后续章节对这些理论知识的应用,本章节对其作一个简单的介绍。2.1循环神经网络相关理论循环神经网络是由一般的神经网络进化而来,所以在介绍循环神经网络之前先阐述一下神经网络的结构以及它的缺点。2.1.1神经网络神经网络分为浅层神经网络和深层神经网络。神经网络的结构与逻辑回归的结构类似,只不过神经网络多了一层隐藏层,典型的神经网络就是浅层神经网络,其结构如图2.1所示:图2.1浅层神经网络结构图Fig2.1Structurechartofshallowneuralnetwork从左到右分为三层,即输入层、隐藏层、输出层,每一层的输出数据作为下一层的输入数据,通过这样的结构输入数据最终通过计算映射到了输出层。图中每一个圆圈代表一个神经元,我们将一个神经元放大,其计算过程如图2.2所示:图2.2一个神经元的计算过程Fig2.2Thecomputationalprocessofaneuron

结构图,隐藏层,神经网络


重庆大学硕士学位论文2文本相似度研究的相关理论技术8其中z=wT+(2.1)a=σ(z)(2.2)在同一层如果有多个神经元则进行多次这样的计算,并共同将结果作为下一层的输入。而深层神经网络就是有多个隐藏层的神经网络,如图2.3所示是一个包含三个隐藏层的神经网络:图2.3包含三个隐藏层的深层神经网络Fig2.3Deepneuralnetworkwiththreehiddenlayers随着网络层数增加,整个网络所表达函数的非线性就越高,能够学到的信息就越多,但是参数也随之剧增,就能学习更多复杂的函数,完成复杂的任务。但是神经网络有两个明显的缺点,如图2.4是一个标准的神经网络结构:图2.4标准的神经网络结构图Fig2.4Standardneuralnetworkstructuraldiagram

【参考文献】:
期刊论文
[1]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋.  自动化学报. 2016(10)
[2]词语相似度算法研究综述[J]. 李慧.  现代情报. 2015(04)
[3]基于大规模语料库的汉语词义相似度计算方法[J]. 石静,吴云芳,邱立坤,吕学强.  中文信息学报. 2013(01)
[4]语义分析与词频统计相结合的中文文本相似度量方法研究[J]. 华秀丽,朱巧明,李培峰.  计算机应用研究. 2012(03)
[5]基于VSM的文本相似度计算的研究[J]. 郭庆琳,李艳梅,唐琦.  计算机应用研究. 2008(11)
[6]A new similarity computing method based on concept similarity in Chinese text processing[J]. PENG Jing1,2,YANG DongQing1,TANG ShiWei1,WANG TengJiao1 & GAO Jun1 1 School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China;2 Department of Science and Technology,Chengdu Municipal Public Security,Bureau,Chengdu 610017,China.  Science in China(Series F:Information Sciences). 2008(09)
[7]基于机器学习的自动文本分类模型研究[J]. 陈立孚,周宁,李丹.  现代图书情报技术. 2005(10)
[8]基于SVM和k-NN结合的汉语交集型歧义切分方法[J]. 李蓉,刘少辉,叶世伟,史忠植.  中文信息学报. 2001(06)



本文编号:3100219

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3100219.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户db9bc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com