基于深度学习的专业领域术语识别系统设计与实现
发布时间:2022-07-07 08:36
随着移动互联网技术与信息技术的高速发展,传统的纸质文献正在逐步被电子文献取代,这种进步在极大程度上减少了科研人员在获取文献资料时需要投入的时间与精力。专业领域术语识别是一项从特定专业领域的文本语料库中发现该领域专业词汇的任务,对电子文献的语义分析以及文本语料库的快速检索都具有重要意义。当前主流的专业领域术语识别过程主要依靠统计学和语言学的结合来完成术语的提取与识别过程,好的识别方法往往来源于几种简单的术语识别算法的结合。目前的术语识别技术主要依赖于传统的统计学方法,一些研究人员已经开始探究深度神经网络在术语识别过程中的应用,但尚未形成完整的可操作系统。因此,本文基于深度学习技术,设计并实现了一个可扩展、可灵活实施的专业领域术语识别系统。本文主要包括以下几方面工作:(1)基于N-gram模型对原始文本进行预处理,将完整的文章用特殊标识切分成细小的文字片段。(2)提出了一种基于注意力机制的双向长短期记忆神经网络模型提取文字片段中的术语,并引入条件随机场模型提升网络对长单词的识别准确率。(3)基于信息熵提出了一种术语可信度计算方法,提升系统对当前专业领域术语的识别准确率。(4)引入字向量模型...
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 项目背景
1.2 研究现状
1.3 主要工作
1.3.1 研究目标
1.3.2 研究内容
1.4 研究创新点与关键技术
1.5 论文结构
第二章 相关技术介绍
2.1 算法介绍
2.1.1 N-Gram模型介绍
2.1.2 信息熵与互信息
2.1.3 SVM分类算法介绍
2.2 相关神经网络模型
2.2.1 循环神经网络
2.2.2 条件随机场模型
2.2.3 注意力模型
2.3 词向量技术介绍
2.3.1 One-hot技术
2.3.2 Word2vec技术
2.4 中文专业领域术语特性
2.5 本章小结
第三章 专业领域术语识别系统总体设计
3.1 研究概况
3.1.1 应用场景
3.1.2 问题描述及原因分析
3.2 整体系统设计
3.2.1 文本初步切分模块
3.2.2 术语提取模块
3.2.3 术语可信度验证模块
3.2.4 术语分类模块
3.3 本章小结
第四章 专业领域术语识别系统的详细设计与实现
4.1 基于N-Gram模型的文本切分
4.1.1 基于N-Gram模型的文本切分方法
4.1.2 N-Gram模型的数据平滑
4.2 基于神经网络模型的术语提取
4.2.1 BLSTM模型
4.2.2 BLSTM-CRF
4.2.3 基于注意力的BLSTM-CRF模型
4.2.4 Att-BLSTM-CRF模型训练
4.3 基于互信息的术语可信度验证
4.3.1 术语可信度
4.3.2 术语可信度验证流程
4.4 基于字向量与SVM的术语分类
4.4.1 字向量训练模块
4.4.2 基于SVM的术语分类
4.4.3 术语特征抽取
4.5 本章小结
第五章 测试结果及分析
5.1 实验平台介绍
5.2 测试环境搭建
5.3 测试对比对象介绍
5.4 实验评价指标
5.5 测试结果及分析
5.6 本章小结
第六章 结束语
6.1 论文总结
6.2 下一步研究工作
参考文献
致谢
攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]利用URL-Key领域术语识别方法[J]. 吕书宁,董志安. 北京大学学报(自然科学版). 2018(02)
[2]改进最小二乘支持向量机电量预测算法[J]. 杨柳,吴延琳,张超,刘超,蒋勃,张鹏. 电网与清洁能源. 2017(03)
[3]科技项目查重系统构建研究[J]. 张新民,张爱霞,郑彦宁. 情报学报. 2016 (09)
[4]基于支持向量机的遥感图像分类研究综述[J]. 王振武,孙佳骏,于忠义,卜异亚. 计算机科学. 2016(09)
[5]基于支持向量机的分类辨识方法及应用[J]. 马相东,卢占庆,谭永彦,王秀英. 控制工程. 2016(05)
[6]基于粒子群算法的决策树SVM多分类方法研究[J]. 王道明,鲁昌华,蒋薇薇,肖明霞,李必然. 电子测量与仪器学报. 2015(04)
[7]SNOMED CT术语分类体系设定学科背景的探讨[J]. 郭玉峰,刘保延,尹爱宁. 世界科学技术-中医药现代化. 2007(04)
[8]领域术语自动抽取及其在文本分类中的应用[J]. 刘桃,刘秉权,徐志明,王晓龙. 电子学报. 2007(02)
[9]中文金融新闻中公司名的识别[J]. 王宁,葛瑞芳,苑春法,黄锦辉,李文捷. 中文信息学报. 2002(02)
本文编号:3656094
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 项目背景
1.2 研究现状
1.3 主要工作
1.3.1 研究目标
1.3.2 研究内容
1.4 研究创新点与关键技术
1.5 论文结构
第二章 相关技术介绍
2.1 算法介绍
2.1.1 N-Gram模型介绍
2.1.2 信息熵与互信息
2.1.3 SVM分类算法介绍
2.2 相关神经网络模型
2.2.1 循环神经网络
2.2.2 条件随机场模型
2.2.3 注意力模型
2.3 词向量技术介绍
2.3.1 One-hot技术
2.3.2 Word2vec技术
2.4 中文专业领域术语特性
2.5 本章小结
第三章 专业领域术语识别系统总体设计
3.1 研究概况
3.1.1 应用场景
3.1.2 问题描述及原因分析
3.2 整体系统设计
3.2.1 文本初步切分模块
3.2.2 术语提取模块
3.2.3 术语可信度验证模块
3.2.4 术语分类模块
3.3 本章小结
第四章 专业领域术语识别系统的详细设计与实现
4.1 基于N-Gram模型的文本切分
4.1.1 基于N-Gram模型的文本切分方法
4.1.2 N-Gram模型的数据平滑
4.2 基于神经网络模型的术语提取
4.2.1 BLSTM模型
4.2.2 BLSTM-CRF
4.2.3 基于注意力的BLSTM-CRF模型
4.2.4 Att-BLSTM-CRF模型训练
4.3 基于互信息的术语可信度验证
4.3.1 术语可信度
4.3.2 术语可信度验证流程
4.4 基于字向量与SVM的术语分类
4.4.1 字向量训练模块
4.4.2 基于SVM的术语分类
4.4.3 术语特征抽取
4.5 本章小结
第五章 测试结果及分析
5.1 实验平台介绍
5.2 测试环境搭建
5.3 测试对比对象介绍
5.4 实验评价指标
5.5 测试结果及分析
5.6 本章小结
第六章 结束语
6.1 论文总结
6.2 下一步研究工作
参考文献
致谢
攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]利用URL-Key领域术语识别方法[J]. 吕书宁,董志安. 北京大学学报(自然科学版). 2018(02)
[2]改进最小二乘支持向量机电量预测算法[J]. 杨柳,吴延琳,张超,刘超,蒋勃,张鹏. 电网与清洁能源. 2017(03)
[3]科技项目查重系统构建研究[J]. 张新民,张爱霞,郑彦宁. 情报学报. 2016 (09)
[4]基于支持向量机的遥感图像分类研究综述[J]. 王振武,孙佳骏,于忠义,卜异亚. 计算机科学. 2016(09)
[5]基于支持向量机的分类辨识方法及应用[J]. 马相东,卢占庆,谭永彦,王秀英. 控制工程. 2016(05)
[6]基于粒子群算法的决策树SVM多分类方法研究[J]. 王道明,鲁昌华,蒋薇薇,肖明霞,李必然. 电子测量与仪器学报. 2015(04)
[7]SNOMED CT术语分类体系设定学科背景的探讨[J]. 郭玉峰,刘保延,尹爱宁. 世界科学技术-中医药现代化. 2007(04)
[8]领域术语自动抽取及其在文本分类中的应用[J]. 刘桃,刘秉权,徐志明,王晓龙. 电子学报. 2007(02)
[9]中文金融新闻中公司名的识别[J]. 王宁,葛瑞芳,苑春法,黄锦辉,李文捷. 中文信息学报. 2002(02)
本文编号:3656094
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3656094.html