基于深度学习的中文句子相似度计算研究

发布时间:2021-10-15 18:10
  随着互联网技术的不断发展,以及我国信息化建设的不断进步,中国网民数量与日俱增,互联网中也出现了大量中文短文本数据。而句子相似度计算作为自然语言处理中的基础任务,在信息检索、文本分类、机器翻译、智能客服问答系统等应用中都有着重要的作用,因此有着十分广阔的前景与研究价值。本文研究学习了中文句子相似度计算以及深度学习相关技术、网络模型,主要完成了以下工作:1、本文构造了丰富的中文句子数据集,并对这些中文数据都进行了大量的预处理工作,保留了部分停用词,进行了分词、词性标注、命名实体识别、依存句法分析、语义角色分析等处理。2、本文基于经典的神经网络模型,改进并提出了句子相似度模型用于中文句子相似度计算。模型将卷积神经网络与tensor layer结合,采用动态k-max池化技术,因此具有更好的特征提取能力,可以更有效的提取两个句子间的交互信息,从而提高了模型的性能。3、深度神经网络对于句子相似度计算任务是一种有效的方法,但往往需要大量的数据去训练来充分发挥模型的性能,而现有开源的中文已标注数据集比较少,且人工标注成本过高。为解决对此问题,本文基于句子相似度模型,设计并实现了深度辅助神经网络(DA... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:80 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状及发展趋势
    1.3 研究内容及贡献
    1.4 论文结构安排
第二章 中文句子相似度计算相关技术理论
    2.1 中文句子的特点
    2.2 词向量
        2.2.1 词向量表示方法
        2.2.2 神经网络语言模型
        2.2.3 word2vec
            2.2.3.1 CBOW模型
            2.2.3.2 Skip-gram模型
    2.3 中文分词技术
        2.3.1 中文分词算法
        2.3.2 中文分词工具
    2.4 本章小结
第三章 深度学习相关技术理论研究
    3.1 神经网络相关技术
        3.1.1 激活函数
            3.1.1.1 tanh函数
            3.1.1.2 sigmoid函数
            3.1.1.3 ReLU函数
        3.1.2 梯度下降算法
            3.1.2.1 梯度下降相关概念
            3.1.2.2 梯度下降法描述
            3.1.2.3 随机梯度下降法
        3.1.3 Dropout技术
    3.2 深度学习网络模型
        3.2.1 多层感知机
        3.2.2 卷积神经网络
        3.2.3 循环神经网络
    3.3 本章小结
第四章 深度辅助神经网络模型
    4.1 句子相似度模型
    4.2 双通道句子相似度模型
    4.3 基于GRU的多轮对话模型
        4.3.1 Skip-thoughts模型
        4.3.2 LSTM模型及其改进的GRU
        4.3.3 模型网络结构
            4.3.3.1 共享的句子表示层
            4.3.3.2 解码器层
    4.4 深度辅助神经网络模型结构
    4.5 模型参数优化与训练流程
        4.5.1 共享的句子表示层参数优化
        4.5.2 训练流程
    4.6 本章小结
第五章 实验评估
    5.1 实验环境及相关工具
    5.2 实验数据集
        5.2.1 相似度语料库
        5.2.2 多轮对话语料库
        5.2.3 数据集分组情况
        5.2.4 数据的预处理
    5.3 基线模型及评价指标
        5.3.1 基线模型
        5.3.2 评价指标
    5.4 实验结果展示与分析
        5.4.1 句子相似度模型实验结果与分析
        5.4.2 句子相似度模型与基线模型对比实验结果与分析
        5.4.3 DANN对共享参数的优化实验结果与分析
        5.4.4 DANN与句子相似度模型对比实验结果与分析
        5.4.5 DANN在不同大小数据集上的实验结果与分析
    5.5 本章小结
第六章 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献


【参考文献】:
期刊论文
[1]基于搜索引擎的词汇语义相似度计算方法[J]. 陈海燕.  计算机科学. 2015(01)
[2]基于搜索引擎的相似度研究与应用[J]. 刘胜久,李天瑞,贾真,景运革.  计算机科学. 2014(04)
[3]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍.  计算机科学. 2013(12)
[4]改进的基于《知网》的词汇语义相似度计算[J]. 朱征宇,孙俊华.  计算机应用. 2013(08)
[5]基于本体的语义相似度计算方法研究综述[J]. 孙海霞,钱庆,成颖.  现代图书情报技术. 2010(01)



本文编号:3438399

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3438399.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bfaad***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com