面向汽车领域的命名实体识别研究

发布时间:2023-02-14 16:33
  随着互联网的飞速发展,结构化和非结构化的文本数据增长速度迅猛,如何从海量的文本数据中抽取有用信息已经成为当前的研究重点。命名实体识别是信息抽取的子任务之一,是从无规则的非结构化文本中抽取有用信息的底层技术,命名实体识别的效果直接影响很多自然语言处理领域的任务。现代社会汽车已经普及,从汽车文本数据中抽取命名实体信息也变得越来越重要。因此,面向汽车领域的命名实体识别研究具有重要的意义。近二十年来,以深度学习为首的人工智能再度成为时代的潮流。在自然语言处理领域,循环神经网络(Recurrent Neural Network,RNN)逐渐成为主流方法,尤其是门控循环单元(Gated Recurrent Unit,GRU)的提出,能够更好地捕捉时间序列中时间步距离较大的依赖关系,在自然语言处理领域得到了广泛应用。随着Attention机制在自然语言处理领域的成功运用,学术界已经将Attention机制与深度学习巧妙地融合在一起,从而让深度学习拥有了更加强大的特征抽取能力。本文首先重点介绍了命名实体识别的研究背景和重要意义,介绍了国外和国内命名实体识别的研究现状,并对中文命名实体识别过程中应用到的...

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 本文的主要工作
    1.4 本文组织结构
第2章 相关技术与方法概述
    2.1 词汇语义表示
        2.1.1 基于分布的表示方法
        2.1.2 基于神经网络的表示方法
    2.2 人工神经网络
    2.3 文本去重
    2.4 命名实体识别介绍
        2.4.1 中文命名实体识别概述
        2.4.2 汽车领域命名实体识别概述
    2.5 相关工具
        2.5.1 Py Torch
        2.5.2 scrapy
        2.5.3 YEDDA
    2.6 本章小结
第3章 基于BLattice GRU的命名实体识别
    3.1 深度神经网络
        3.1.1 循环神经网络
        3.1.2 特殊的循环神经网络
    3.2 Lattice LSTM概述
    3.3 构建基于BLattice GRU的命名实体识别模型
        3.3.1 模型结构
        3.3.2 BLattice GRU
        3.3.3 加入Dropout
    3.4 汽车领域命名实体标注数据集的构建
        3.4.1 汽车领域命名实体标注规范
        3.4.2 原始语料爬取
        3.4.3 数据预处理
        3.4.4 数据集标注
        3.4.5 构建数据集
        3.4.6 词典构建
    3.5 实验设计与结果分析
        3.5.1 实验环境
        3.5.2 评测指标
        3.5.3 不同参数下的实验
        3.5.4 与基线模型的对比实验
    3.6 本章小结
第4章 基于BLatticeGRU-Attention的命名实体识别
    4.1 Attention机制
        4.1.1 Attention机制概述
        4.1.2 Scaled Dot-Product Attention
    4.2 构建基于BLatticeGRU-Attention的命名实体识别模型
        4.2.1 模型结构
        4.2.2 Self-Attention子层
        4.2.3 Feed-Forward子层
        4.2.4 残差连接
        4.2.5 位置编码
    4.3 实验结果分析
        4.3.1 biword对结果的影响
        4.3.2 Transformer层数对结果的影响
        4.3.3 BLatticeGRU与BLatticeGRU-Attention模型的对比实验
    4.4 本章小结
第5章 基于BLatticeGRU-Attention-CRF的命名实体识别
    5.1 条件随机场
    5.2 维特比算法
    5.3 构建基于BLatticeGRU-Attention-CRF的命名实体识别模型
    5.4 实验设计与结果分析
        5.4.1 参数初始化
        5.4.2 优化算法
        5.4.3 预训练字向量对结果的影响
        5.4.4 Dropout对结果的影响
        5.4.5 不同模型的对比实验
    5.5 本章小结
第6章 总结与展望
    6.1 工作总结
    6.2 未来展望
参考文献
作者简介及在学期间所取得的科研成果
致谢



本文编号:3742622

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3742622.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e8113***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com