中文短文本语义相似度计算方法研究

发布时间：2023-08-17 18:59

　　中文短文本语义相似度计算方法研究是自然语言处理技术的基础。现有方法存在以下问题:在字词语义表征层面,中文字、词通常具有多个释义,而目前常用方法获取的字词向量不能蕴含字词的全部释义信息。在计算模型层面,已有相似度计算方法不能捕获文本中词汇之间的依赖关系和内部结构对文本语义的贡献;另外,认为字词向量表征唯一,不能根据语境选择不同的字词向量。本文针对以上问题,主要做了以下工作:(1)构建了汉字相关信息数据集和词汇相关信息数据集:①基于爬虫获取“现代汉语字典”中20902个汉字的读音、偏旁、五笔、五行、基本释义、详细释义等信息,其中3587个常用字的数据集包含23821条字义文本。②构建爬虫从“百度汉语”中获取56008个常用词语的基本释义48392条和例句32708条。为字词向量表征和词义消歧提供数据支持。(2)构建了字词义向量模型和字词向量模型。本文利用现代汉语字典中对字的语义描述信息来获得字向量。构建了基于全连接自编码器的字词义向量模型,将每条字义文本映射成256维字义向量。构建了基于全连接自编码器的字词向量模型对每个字的64个字义向量作进一步语义映射,得到每个字的256维字向量,为语义...

【文章页数】：67 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
1 引言
    1.1 研究背景
    1.2 国内外研究现状及发展趋势
        1.2.1 字词向量表征的研究现状
        1.2.2 中文短文本语义相似度计算的研究现状
    1.3 主要贡献
    1.4 论文结构安排
2 相关理论
    2.1 自编码器
    2.2 孪生神经网络
    2.3 ATTENTION机制
        2.3.1 attention机制的本质思想
        2.3.2 attention机制与编码器-解码器框架相结合
        2.3.3 self-attention机制
        2.3.4 多头attention机制
    2.4 本章小结
3 数据获取及预处理
    3.1 汉字相关数据的获取及预处理
    3.2 词汇相关数据的获取及预处理
    3.3 短文本数据的获取
    3.4 本章小结
4 字词向量模型
    4.1 字词义向量模型
        4.1.1 模型结构
        4.1.2 字词义向量模型实验及结果分析
    4.2 字词向量模型
        4.2.1 基于卷积神经网络的字词向量模型
        4.2.2 基于全连接神经网络的字词向量模型
        4.2.3 实验及结果分析
    4.3 本章小结
5 基于SELF-ATTENTION的中文短文本语义相似度计算模型
    5.1 模型架构
    5.2 评价指标
    5.3 实验及结果分析
        5.3.1 训练结果及分析
        5.3.2 传递性测试结果及分析
        5.3.3 替换性测试结果及分析
    5.4 本章小结
6 基于词义消歧的中文短文本语义相似度计算模型
    6.1 词义消歧模型架构
    6.2 短文本向量构建及相似度计算
    6.3 实验及结果分析
        6.3.1 词义消歧模型训练结果及分析
        6.3.2 文本语义相似度计算测试结果及分析
    6.4 本章小结
7 模型在支持主观题自动阅卷的考试系统中的应用
    7.1 系统需求获取与分析
        7.1.1 参与者
        7.1.2 用例图
        7.1.3 实体类类图
    7.2 系统的设计
        7.2.1 系统结构设计
        7.2.2 系统部署设计
        7.2.3 数据库表设计
        7.2.4 中文短文本语义相似度算法评估
        7.2.5 主观题自动阅卷功能设计
    7.3 系统的实现
        7.3.1 学员在线考试功能
        7.3.2 主观题自动阅卷功能
        7.3.3 学员查看个人成绩功能
    7.4 本章小结
8 总结与展望
致谢
参考文献
附录

本文编号：3842396

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3842396.html

上一篇：基于信息检索的方法级别软件缺陷定位研究
下一篇：基于改进BiGRU的类别不平衡文本分类算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|