中文命名实体识别技术研究及检验检疫领域应用
发布时间:2021-02-23 04:40
随着经济的全球化发展和互联网的快速普及,大量的货物流动、疫情疾病的防控、食品及卫生安全等信息上传到互联网平台中,检验检疫部门需要通过这些信息来抽取关键内容,采取对应的行动。命名实体识别是信息抽取的重要组成部分,在检验检疫信息抽取领域,产品实体名称作为信息的主要对象,也是实际应用中命名实体识别的重点。中文产品实体自身无明显词语分界且结构复杂、包含范围广泛,这些特点都增加了识别产品实体的难度。因此,在检验检疫领域中如何快速准确地识别出中文产品实体,具有重要的研究意义和实际应用价值。针对中文命名实体识别技术,本文进行了以下几个方面的研究:提出了一个特定领域的中文命名实体识别的框架。该框架包含半自动化语料库构建和中文命名实体识别模型两大模块。半自动化的语料库构建基于互信息和左右熵的短语提取算法来进行无监督的短语识别,建立候选实体集。中文命名实体识别模型模块基于神经网络与条件随机场模型的框架进行实体识别。提出了基于词格长短时记忆网络结合条件随机场模型进行中文产品实体识别的方法。本文结合不同的神经网络和条件随机场组成混合模型,将IDCNN+CRF,BiLSTM + CRF和Lattice LSTM...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景
1.2 命名实体识别研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 中文产品命名实体识别任务
1.3.1 难点分析
1.3.2 主要工作
1.4 本文的组织结构
第2章 命名实体识别相关技术
2.1 命名实体识别概述
2.1.1 序列标注问题
2.1.2 命名实体识别的传统方法
2.1.3 命名实体识别技术的应用
2.2 基于概率图模型的实体识别方法
2.2.1 概率图模型
2.2.2 条件随机场模型
2.3 基于神经网络模型的实体识别方法
2.3.1 词嵌入
2.3.2 循环神经网络模型
2.3.3 长短时记忆网络
2.3.4 卷积神经网络模型
2.4 本章小结
第3章 特定领域的中文命名实体识别框架
3.1 半自动化的语料库构建
3.1.1 互信息和左右熵
3.1.2 基于互信息和左右熵的短语提取算法
3.2 中文命名实体识别模型
3.2.1 词格长短时记忆网络结合条件随机场模型
3.2.1.1 基于字向量的长短时记忆网络模型
3.2.1.2 基于词向量的长短时记忆网络模型
3.2.1.3 基于词格的长短时记忆网络模型
3.2.2 实验设计
3.3 本章小结
第4章 基于神经网络与条件随机场的实体识别模型
4.1 空洞卷积神经网络结合条件随机场模型
4.2 双向长短时记忆网络结合条件随机场模型
4.3 多模型对比实验
4.3.1 实验数据
4.3.2 实验环境
4.3.3 评价指标
4.3.4 多模型对比实验
4.4 本章小结
第5章 检验检疫领域的中文产品命名实体识别
5.1 项目背景
5.2 数据准备
5.2.1 数据预处理
5.2.2 语料标注
5.2.3 识别及标注机制
5.3 模型构建
5.3.1 模型整体结构
5.3.2 防止过拟合
5.3.3 参数设置
5.3.4 实验结果
5.4 对比实验
5.5 本章小结
第6章 总结与展望
6.1 全文总结
6.2 未来研究方向
参考文献
攻读硕士学位期间主要的研究成果
致谢
【参考文献】:
期刊论文
[1]信息抽取研究与发展综述[J]. 周玉新. 才智. 2016(27)
[2]概率图模型研究进展综述[J]. 张宏毅,王立威,陈瑜希. 软件学报. 2013(11)
[3]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平. 计算机应用研究. 2010(03)
[4]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
[5]中文机构名称的识别与分析[J]. 张小衡,王玲玲. 中文信息学报. 1997(04)
[6]中文姓名的自动辨识[J]. 孙茂松,黄昌宁,高海燕,方捷. 中文信息学报. 1995(02)
硕士论文
[1]基于条件随机场的中文命名实体识别研究[D]. 张佳宝.国防科学技术大学 2010
[2]规则与统计相结合的中文命名实体识别[D]. 乔永波.山东大学 2007
本文编号:3047033
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景
1.2 命名实体识别研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 中文产品命名实体识别任务
1.3.1 难点分析
1.3.2 主要工作
1.4 本文的组织结构
第2章 命名实体识别相关技术
2.1 命名实体识别概述
2.1.1 序列标注问题
2.1.2 命名实体识别的传统方法
2.1.3 命名实体识别技术的应用
2.2 基于概率图模型的实体识别方法
2.2.1 概率图模型
2.2.2 条件随机场模型
2.3 基于神经网络模型的实体识别方法
2.3.1 词嵌入
2.3.2 循环神经网络模型
2.3.3 长短时记忆网络
2.3.4 卷积神经网络模型
2.4 本章小结
第3章 特定领域的中文命名实体识别框架
3.1 半自动化的语料库构建
3.1.1 互信息和左右熵
3.1.2 基于互信息和左右熵的短语提取算法
3.2 中文命名实体识别模型
3.2.1 词格长短时记忆网络结合条件随机场模型
3.2.1.1 基于字向量的长短时记忆网络模型
3.2.1.2 基于词向量的长短时记忆网络模型
3.2.1.3 基于词格的长短时记忆网络模型
3.2.2 实验设计
3.3 本章小结
第4章 基于神经网络与条件随机场的实体识别模型
4.1 空洞卷积神经网络结合条件随机场模型
4.2 双向长短时记忆网络结合条件随机场模型
4.3 多模型对比实验
4.3.1 实验数据
4.3.2 实验环境
4.3.3 评价指标
4.3.4 多模型对比实验
4.4 本章小结
第5章 检验检疫领域的中文产品命名实体识别
5.1 项目背景
5.2 数据准备
5.2.1 数据预处理
5.2.2 语料标注
5.2.3 识别及标注机制
5.3 模型构建
5.3.1 模型整体结构
5.3.2 防止过拟合
5.3.3 参数设置
5.3.4 实验结果
5.4 对比实验
5.5 本章小结
第6章 总结与展望
6.1 全文总结
6.2 未来研究方向
参考文献
攻读硕士学位期间主要的研究成果
致谢
【参考文献】:
期刊论文
[1]信息抽取研究与发展综述[J]. 周玉新. 才智. 2016(27)
[2]概率图模型研究进展综述[J]. 张宏毅,王立威,陈瑜希. 软件学报. 2013(11)
[3]生物医学命名实体识别的研究与进展[J]. 郑强,刘齐军,王正华,朱云平. 计算机应用研究. 2010(03)
[4]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
[5]中文机构名称的识别与分析[J]. 张小衡,王玲玲. 中文信息学报. 1997(04)
[6]中文姓名的自动辨识[J]. 孙茂松,黄昌宁,高海燕,方捷. 中文信息学报. 1995(02)
硕士论文
[1]基于条件随机场的中文命名实体识别研究[D]. 张佳宝.国防科学技术大学 2010
[2]规则与统计相结合的中文命名实体识别[D]. 乔永波.山东大学 2007
本文编号:3047033
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3047033.html