基于BiLSTM+CRF的渔业标准术语识别研究
发布时间:2021-11-20 15:25
渔业标准是渔业生产的重要指导性文件,渔业标准命名实体识别是构建渔业标准内容服务系统的基础工作,机器翻译、信息抽取、问答系统等相关工作都依赖渔业标准的命名实体识别任务。随着计算性能的发展,深度学习方法在图像文本领域取得的重大突破,使用深度学习方法称为研究自然语言处理任务的主流方法。随着渔业信息量的不断增长,和渔业领域的特殊性,没有领域的数据集和模型来实现渔业标准命名实体识别。因此,本文将结合渔业标准文本的特殊性,研究基于深度学习的渔业标准命名实体识别方法。具体工作如下:(1)渔业标准文本标注方法的研究。针对渔业标准中命名实体识别需要利用文本结构特征进行识别、而传统的BIO标注方法无法表达实体之间的结构信息这一问题,提出了E-BIO的标注方法,该方法通过增加文本标题标签使模型可以学习到实体的上下文结构信息。经实验证明了提出的E-BIO标注方式可以有效提升具有结构特征的渔业标准文本实体的识别精度。(2)融合注意力机制的BiLSTM+CRF渔业标准命名实体识别模型研究。针对渔业标准文本序列长度较长,存在序列语义稀释的问题,在BiLSTM+CRF模型中引入注意力机制,在特征提取阶段通过生成不断变...
【文章来源】:大连海洋大学辽宁省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
命名实体识别工作流程
6表2-1BIO标注Lab.2-1BIOannotation第一段标注代表含义BBegin表示实体开头字符IInside表示实体中间字符OOther其他第二段标注通常有使用英文简短的英文字符串来编码。在通用领域使用PER、LOC、ORG标注人名、地名、机构名,标注实例如下图:图2-3标注实例Fig.2-3Calloutexample2.3.2BIOES标注标签通常分为两部分,第一段标注表示词语的结构,第二段标注表示为词语的类型。通常使用BIOES五种标签标注命名实体识别语料库。表2-1BIOES标注Lab.2-1BIOESannotation第一段标注代表含义BBegin表示实体开头字符IInside表示实体中间字符EEnd表示实体结尾字符SSingle单字符实体OOther其他BIO与BIOES标注方法没有本质区别,都可以通过标签将实体字符串完整的标注出来。BIOES标注法将实体尾字符和单个字符的实体做了特殊区分,但是BIO标注法简化了标注手段,也可以完成实体标注,不会对实验结果产生影响。上述方法是对人名、地名、机构名等常规命名实体识别任务中普遍使用的标注方法,在特殊领域的命名实体识别任务中还需要领域命名实体的特点,有针对性的提出有效的语料标注方法。2.4中文分词分词是将句子序列以词语为基本单位进行切分的过程。在英文文本中,单词之间以空格作为天然分界符,人名、地名、机构名等专有名词有大写的区分,但是在中文文本中,字符之间没有空格等分界符。对于一个句子词语的切分是人根据自身知识和经验进行理解划分的。由于中文的特殊行文结构,中文分词是相较于英文自然语言处理的特殊
17第3章融合注意力机制的渔业标准命名实体识别技术本章节介绍渔业标准命名实体识别存在的问题,提出了E-BIO的标注方法,并设计了融合注意力机制的渔业标准命名实体识别模型。首先根据渔业标准的文本数据特点基于BIO标注提出了E-BIO标注法构建渔业标准语料库;根据渔业标准命名实体识别存在的问题设计了基于字向量融合注意力机制的BiLSTM+CRF的渔业标准命名实体识别模型。字粒度的向量避免了分词算法不准确造成的错误蔓延,BiLSTM编码器可以有效的提取实体特征,注意力机制的引入可以避免长序列前段语义稀释,CRF解码器可以考虑标签之间依赖性更合理的输出标注序列得到标注结果,并用试验验证了本章所提方法的有效性。3.1渔业领域命名实体识别标注3.1.1渔业标准命名实体定义渔业标准是指导渔业生产的规范性文件。渔业标准内容的分析需要关注标准与标准之间的引用关系和渔业标准指标的具体内容,渔业标准之间的引用关系是通过渔业标准号体现的,因此定义了渔业标准命名实体识别任务是识别标准文本中“渔业标准号”和“渔业标准指标”两类命名实体。渔业标准号:渔业标准号是渔业标准的唯一标识,由“字母段”和“数字段”两部分构成。通常出现在渔业标准“规范性引用文件”和标准指标描述部分,如“GB11607”、“GB/T5099.44-2003”“NY5288-2006”、“SC2056”、“SC/T3210-2001”等。如图3-1所示:图3-1渔业标准号实例Fig.3-1ExamplesofFisheryStandardNumber渔业标准指标:是渔业标准定义渔业生产中需要规范化操作的项目名称,如“育苗设施”、“原料处理与装笼”、“冻品外观检验”、“鱼片”、“黑膜”等。如图3-2所示:
【参考文献】:
期刊论文
[1]基于长短期记忆网络的抗癌肽的预测[J]. 方春,孙福振,李彩虹,宋莉. 山东理工大学学报(自然科学版). 2020(03)
[2]基于word2vec的专利文本自动分类研究[J]. 薛金成,姜迪,吴建德. 信息技术. 2020(02)
[3]基于统计方法从文本中抽取分词词典[J]. 黄超. 电脑知识与技术. 2020(04)
[4]一种针对中国移动客服文本的分词方法[J]. 钟建,高海洋. 现代信息科技. 2020(01)
[5]基于神经网络的中文分词技术研究[J]. 马学海. 科学技术创新. 2019(32)
[6]基于Python的中文结巴分词技术实现[J]. 曾小芹. 信息与电脑(理论版). 2019(18)
[7]序列标注模型中不同输入特征组合的集成学习与直推学习方法研究——以CCKS-2018电子病历命名实体识别任务为例[J]. 孙安,于英香,罗永刚,孙逊. 情报杂志. 2019(10)
[8]基于深度学习的图像风格化算法研究综述[J]. 黄海新,梁志旭,张东. 电子技术应用. 2019(07)
[9]基于双层注意力循环神经网络的方面级情感分析[J]. 曾锋,曾碧卿,韩旭丽,张敏,商齐. 中文信息学报. 2019(06)
[10]基于BiLSTM-CRF的商情实体识别模型[J]. 张应成,杨洋,蒋瑞,全兵,张利君,任晓雷. 计算机工程. 2019(05)
硕士论文
[1]面向司法领域的命名实体识别研究[D]. 林义孟.云南财经大学 2019
[2]基于加权Word2vec的微博文本相似度计算方法研究[D]. 马思丹.西安电子科技大学 2019
[3]基于支持向量机的并行文本分类方法研究[D]. 冯占芳.辽宁工业大学 2019
[4]基于分层标注的地理领域嵌套命名实体识别研究[D]. 余云秀.东南大学 2018
[5]基于文本挖掘的生物命名实体识别算法研究[D]. 高冰涛.西北农林科技大学 2018
[6]基于深度学习的中文命名实体识别研究[D]. 隋臣.浙江大学 2017
[7]基于LDA的文本分类研究及其应用[D]. 张金瑞.郑州大学 2016
[8]基于深度学习的中文命名实体识别研究[D]. 王国昱.北京工业大学 2015
[9]基于最大熵的客户反馈系统设计与实现[D]. 刘丙华.北京交通大学 2015
[10]分布式全文检索系统中索引管理及文件预处理研究[D]. 戴上静.中国科学技术大学 2015
本文编号:3507610
【文章来源】:大连海洋大学辽宁省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
命名实体识别工作流程
6表2-1BIO标注Lab.2-1BIOannotation第一段标注代表含义BBegin表示实体开头字符IInside表示实体中间字符OOther其他第二段标注通常有使用英文简短的英文字符串来编码。在通用领域使用PER、LOC、ORG标注人名、地名、机构名,标注实例如下图:图2-3标注实例Fig.2-3Calloutexample2.3.2BIOES标注标签通常分为两部分,第一段标注表示词语的结构,第二段标注表示为词语的类型。通常使用BIOES五种标签标注命名实体识别语料库。表2-1BIOES标注Lab.2-1BIOESannotation第一段标注代表含义BBegin表示实体开头字符IInside表示实体中间字符EEnd表示实体结尾字符SSingle单字符实体OOther其他BIO与BIOES标注方法没有本质区别,都可以通过标签将实体字符串完整的标注出来。BIOES标注法将实体尾字符和单个字符的实体做了特殊区分,但是BIO标注法简化了标注手段,也可以完成实体标注,不会对实验结果产生影响。上述方法是对人名、地名、机构名等常规命名实体识别任务中普遍使用的标注方法,在特殊领域的命名实体识别任务中还需要领域命名实体的特点,有针对性的提出有效的语料标注方法。2.4中文分词分词是将句子序列以词语为基本单位进行切分的过程。在英文文本中,单词之间以空格作为天然分界符,人名、地名、机构名等专有名词有大写的区分,但是在中文文本中,字符之间没有空格等分界符。对于一个句子词语的切分是人根据自身知识和经验进行理解划分的。由于中文的特殊行文结构,中文分词是相较于英文自然语言处理的特殊
17第3章融合注意力机制的渔业标准命名实体识别技术本章节介绍渔业标准命名实体识别存在的问题,提出了E-BIO的标注方法,并设计了融合注意力机制的渔业标准命名实体识别模型。首先根据渔业标准的文本数据特点基于BIO标注提出了E-BIO标注法构建渔业标准语料库;根据渔业标准命名实体识别存在的问题设计了基于字向量融合注意力机制的BiLSTM+CRF的渔业标准命名实体识别模型。字粒度的向量避免了分词算法不准确造成的错误蔓延,BiLSTM编码器可以有效的提取实体特征,注意力机制的引入可以避免长序列前段语义稀释,CRF解码器可以考虑标签之间依赖性更合理的输出标注序列得到标注结果,并用试验验证了本章所提方法的有效性。3.1渔业领域命名实体识别标注3.1.1渔业标准命名实体定义渔业标准是指导渔业生产的规范性文件。渔业标准内容的分析需要关注标准与标准之间的引用关系和渔业标准指标的具体内容,渔业标准之间的引用关系是通过渔业标准号体现的,因此定义了渔业标准命名实体识别任务是识别标准文本中“渔业标准号”和“渔业标准指标”两类命名实体。渔业标准号:渔业标准号是渔业标准的唯一标识,由“字母段”和“数字段”两部分构成。通常出现在渔业标准“规范性引用文件”和标准指标描述部分,如“GB11607”、“GB/T5099.44-2003”“NY5288-2006”、“SC2056”、“SC/T3210-2001”等。如图3-1所示:图3-1渔业标准号实例Fig.3-1ExamplesofFisheryStandardNumber渔业标准指标:是渔业标准定义渔业生产中需要规范化操作的项目名称,如“育苗设施”、“原料处理与装笼”、“冻品外观检验”、“鱼片”、“黑膜”等。如图3-2所示:
【参考文献】:
期刊论文
[1]基于长短期记忆网络的抗癌肽的预测[J]. 方春,孙福振,李彩虹,宋莉. 山东理工大学学报(自然科学版). 2020(03)
[2]基于word2vec的专利文本自动分类研究[J]. 薛金成,姜迪,吴建德. 信息技术. 2020(02)
[3]基于统计方法从文本中抽取分词词典[J]. 黄超. 电脑知识与技术. 2020(04)
[4]一种针对中国移动客服文本的分词方法[J]. 钟建,高海洋. 现代信息科技. 2020(01)
[5]基于神经网络的中文分词技术研究[J]. 马学海. 科学技术创新. 2019(32)
[6]基于Python的中文结巴分词技术实现[J]. 曾小芹. 信息与电脑(理论版). 2019(18)
[7]序列标注模型中不同输入特征组合的集成学习与直推学习方法研究——以CCKS-2018电子病历命名实体识别任务为例[J]. 孙安,于英香,罗永刚,孙逊. 情报杂志. 2019(10)
[8]基于深度学习的图像风格化算法研究综述[J]. 黄海新,梁志旭,张东. 电子技术应用. 2019(07)
[9]基于双层注意力循环神经网络的方面级情感分析[J]. 曾锋,曾碧卿,韩旭丽,张敏,商齐. 中文信息学报. 2019(06)
[10]基于BiLSTM-CRF的商情实体识别模型[J]. 张应成,杨洋,蒋瑞,全兵,张利君,任晓雷. 计算机工程. 2019(05)
硕士论文
[1]面向司法领域的命名实体识别研究[D]. 林义孟.云南财经大学 2019
[2]基于加权Word2vec的微博文本相似度计算方法研究[D]. 马思丹.西安电子科技大学 2019
[3]基于支持向量机的并行文本分类方法研究[D]. 冯占芳.辽宁工业大学 2019
[4]基于分层标注的地理领域嵌套命名实体识别研究[D]. 余云秀.东南大学 2018
[5]基于文本挖掘的生物命名实体识别算法研究[D]. 高冰涛.西北农林科技大学 2018
[6]基于深度学习的中文命名实体识别研究[D]. 隋臣.浙江大学 2017
[7]基于LDA的文本分类研究及其应用[D]. 张金瑞.郑州大学 2016
[8]基于深度学习的中文命名实体识别研究[D]. 王国昱.北京工业大学 2015
[9]基于最大熵的客户反馈系统设计与实现[D]. 刘丙华.北京交通大学 2015
[10]分布式全文检索系统中索引管理及文件预处理研究[D]. 戴上静.中国科学技术大学 2015
本文编号:3507610
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3507610.html
最近更新
教材专著