面向中文文本的命名实体识别算法研究

发布时间:2022-11-01 19:50
  命名实体识别是自然语言处理中一个重要的基础任务,旨在自动识别文本中具有特定意义的实体名词,通常包括人名、地名、机构名等。命名实体识别能够将非结构化的数据转为结构化数据,使计算机像人类一样对文本信息进行理解,在知识图谱、问答系统、搜索引擎等领域有着重要的应用价值。但在中文领域的命名实体识别中,由于汉语自身的特性,仍存在许多难题,主要包括:(1)汉语文本的词语之间没有边界,因此命名实体的识别效果严重依赖于分词的准确率。(2)中文命名实体缺少明显的词形变换特征,比如英文单词中的大小写、前后缀等。(3)多维度、跨领域的海量中文文本数据对命名实体识别的准确性提出了更大的挑战。(4)中文命名实体中存在大量缩写、中英文混用、实体互相嵌套等现象,导致命名实体的识别问题变得更加复杂。针对中文命名实体识别中的难点,本文对国内外命名实体识别技术的发展进行了大量调研。在对主流的统计学方法进行详细的分析之后,结合当前深度学习的技术特点与优势,指出利用深度学习与统计学方法构建混合模型来解决中文命名实体识别问题的改进方向。本文的研究内容主要包括如下两方面:(1)提出了基于多源嵌入与混合模型的中文命名实体识别方法。为... 

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 研究概况
        1.2.1 国外研究现状
        1.2.2 国内研究现状
        1.2.3 中文命名实体识别的研究难点
    1.3 本文研究内容
    1.4 本文组织结构
第2章 命名实体识别相关理论与方法
    2.1 隐马尔可夫模型
        2.1.1 模型简介
        2.1.2 形式化描述
    2.2 最大熵模型
        2.2.1 模型简介
        2.2.2 形式化描述
    2.3 条件随机场
        2.3.1 模型简介
        2.3.2 概率无向图模型
        2.3.3 形式化描述
    2.4 深度学习
        2.4.1 神经网络
        2.4.2 循环神经网络
        2.4.3 卷积神经网络
    2.5 本章小结
第3章 基于多源嵌入与混合模型的中文命名实体识别
    3.1 多源嵌入思想
        3.1.1 独热码
        3.1.2 Word2vec
        3.1.3 多源嵌入
    3.2 混合模型方法
        3.2.1 单一模型弊端
        3.2.2 混合模型定义
    3.3 基于多源嵌入与混合模型的中文命名实体识别
    3.4 实验设计
        3.4.1 数据集介绍
        3.4.2 评价指标
        3.4.3 相关参数设置
        3.4.4 实验结果与分析
    3.5 本章小结
第4章 引入字符增强及注意力机制的中文命名实体识别
    4.1 字符增强思想
        4.1.1 英文字符增强
        4.1.2 中文字符增强
        4.1.3 改进后的中文字符增强
    4.2 注意力机制
    4.3 引入字符增强及注意力机制的中文命名实体识别
    4.4 实验结果与分析
    4.5 本章小结
结论
参考文献
攻读硕士学位期间所发表的学术论文
致谢


【参考文献】:
期刊论文
[1]基于神经网络的片段级中文命名实体识别[J]. 王蕾,谢云,周俊生,顾彦慧,曲维光.  中文信息学报. 2018(03)
[2]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才.  通信学报. 2006(02)
[3]中文金融新闻中公司名的识别[J]. 王宁,葛瑞芳,苑春法,黄锦辉,李文捷.  中文信息学报. 2002(02)
[4]HMM连续语音识别中Viterbi算法的优化及应用[J]. 袁俊.  电子技术. 2001(02)
[5]基于分解与动态规划策略的汉语未登录词识别[J]. 吕雅娟,赵铁军,杨沐昀,于浩,李生.  中文信息学报. 2001(01)

硕士论文
[1]基于隐马尔可夫模型的自动化伴奏系统[D]. 蔡斯凡.贵州师范大学 2018
[2]基于深度学习的中文命名实体识别研究[D]. 王国昱.北京工业大学 2015
[3]基于规则的命名实体识别研究[D]. 周昆.合肥工业大学 2010



本文编号:3699993

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3699993.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4af9a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com