基于概率依赖关系的命名实体识别方法研究
发布时间:2022-07-09 18:54
在信息爆炸的大数据时代,如何从庞杂的数据中获取简单有效的信息显得日益重要。命名实体识别是在文本中定位和分类专有名词(例如人名、地名等)的手段。在中文领域,这类命名实体发挥着巨大的作用,因而将其更好的发现与提取是一项有意义的工作。文本数据具有上下文依赖关系,本文将数据作为随机变量的集合,挖掘随机变量中实体与其他信息的概率依赖关系。考虑到命名实体识别任务的特殊性,我们从依存句法分析和子序列分割入手,提出了对其算法的改进,本文主要工作如下:(1)提出了融合依存句法信息的神经网络结构以识别命名实体,通过单向信息的传递,得到与双向信息传递可以匹敌的效果。该方法考虑到将依存句法分析获得的句子中与物理位置无关的信息之间的语义关系作为特征以提高命名实体识别性能。提出将基于词语级别的依存句法分析转化为基于字符的依存句法信息,以获得更多的额外信息并减少错误的依存句法分析结果带来的影响。并引入树状长短期记忆神经网络,挖掘以依存句法分析表示的树状序列信息。(2)提出了神经网络与半马尔科夫条件随机场结合的命名实体识别方法,该方法将序列看成是一个个子序列的集合,并将子序列作为一个整体进行标记,解决了条件随机场中存...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 研究内容与工作
1.4 论文组织结构
2 相关背景知识
2.1 NER任务分析
2.2 输入表示
2.3 规则与词典结合的NER方法
2.4 统计机器学习方法
2.4.1 基本分类器实现NER任务
2.4.2 生成式模型
2.4.3 判别式模型
2.5 深度学习方法
2.5.1 神经网络NER的输入层
2.5.2 基于RNN及其变体的NER任务
2.5.3 基于CNN的NER任务
2.6 评价方式
2.6.1 PRF值
2.6.2 宏观F值与微观F值
2.7 本章小结
3 融入依存句法信息的Tree-LSTM命名实体识别方法
3.1 依存句法分析
3.1.1 依存句法介绍
3.1.2 基于字的依存句法分析定义
3.2 融入依存句法信息的网络结构
3.2.1 Tree-LSTM模型
3.2.2 融入依存句法信息的Tree-LSTM网络结构
3.3 命名实体识别系统
3.3.1 系统框架
3.3.2 文本数值化表示
3.4 实验结果与分析
3.4.1 标注格式
3.4.2 实验数据及处理
3.4.3 实验设置
3.4.4 实验结果与分析
3.5 本章小结
4 神经网络半马尔科夫条件随机场实现命名实体识别
4.1 问题分析
4.1.1 半马尔科夫性质
4.1.2 输入表示
4.2 神经网络半马尔科夫条件随机场模型
4.2.1 半马尔科夫条件随机场
4.2.2 神经网络半马尔科夫条件随机场模型算法
4.3 实验结果与分析
4.3.1 标注格式
4.3.2 实验数据分析
4.3.3 实验设置
4.3.4 实验结果与分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 未来展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
【参考文献】:
期刊论文
[1]汉英双语命名实体识别与对齐的交互式方法[J]. 陈钰枫,宗成庆,苏克毅. 计算机学报. 2011(09)
[2]《知网》在命名实体识别中的应用研究[J]. 郑逢强,林磊,刘秉权,孙承杰. 中文信息学报. 2008(05)
[3]融合多特征的最大熵汉语命名实体识别模型[J]. 张玥杰,徐智婷,薛向阳. 计算机研究与发展. 2008(06)
本文编号:3657641
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 研究内容与工作
1.4 论文组织结构
2 相关背景知识
2.1 NER任务分析
2.2 输入表示
2.3 规则与词典结合的NER方法
2.4 统计机器学习方法
2.4.1 基本分类器实现NER任务
2.4.2 生成式模型
2.4.3 判别式模型
2.5 深度学习方法
2.5.1 神经网络NER的输入层
2.5.2 基于RNN及其变体的NER任务
2.5.3 基于CNN的NER任务
2.6 评价方式
2.6.1 PRF值
2.6.2 宏观F值与微观F值
2.7 本章小结
3 融入依存句法信息的Tree-LSTM命名实体识别方法
3.1 依存句法分析
3.1.1 依存句法介绍
3.1.2 基于字的依存句法分析定义
3.2 融入依存句法信息的网络结构
3.2.1 Tree-LSTM模型
3.2.2 融入依存句法信息的Tree-LSTM网络结构
3.3 命名实体识别系统
3.3.1 系统框架
3.3.2 文本数值化表示
3.4 实验结果与分析
3.4.1 标注格式
3.4.2 实验数据及处理
3.4.3 实验设置
3.4.4 实验结果与分析
3.5 本章小结
4 神经网络半马尔科夫条件随机场实现命名实体识别
4.1 问题分析
4.1.1 半马尔科夫性质
4.1.2 输入表示
4.2 神经网络半马尔科夫条件随机场模型
4.2.1 半马尔科夫条件随机场
4.2.2 神经网络半马尔科夫条件随机场模型算法
4.3 实验结果与分析
4.3.1 标注格式
4.3.2 实验数据分析
4.3.3 实验设置
4.3.4 实验结果与分析
4.4 本章小结
5 总结与展望
5.1 总结
5.2 未来展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集
【参考文献】:
期刊论文
[1]汉英双语命名实体识别与对齐的交互式方法[J]. 陈钰枫,宗成庆,苏克毅. 计算机学报. 2011(09)
[2]《知网》在命名实体识别中的应用研究[J]. 郑逢强,林磊,刘秉权,孙承杰. 中文信息学报. 2008(05)
[3]融合多特征的最大熵汉语命名实体识别模型[J]. 张玥杰,徐智婷,薛向阳. 计算机研究与发展. 2008(06)
本文编号:3657641
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3657641.html
最近更新
教材专著