多神经网络协作的军事领域命名实体识别关键技术研究
发布时间:2021-10-31 20:48
社交媒体在当今人们的日常生活中扮演着重要的角色,从微博等大规模社交文本中获得的开源军事情报成为进行军事研判、军事动向预测等多种军事领域任务的重要信息来源。军事领域命名实体识别指从文本识别出军事领域相关的军事武器装备、军事设施等类别的实体,是进行军事情报生成、军事知识图谱构建等研究的基础性关键任务。针对社交文本中军事领域的实体识别研究,面临缺乏军事领域公开语料集和实体类别划分策略、实体边界不清晰、社交文本表达不规范、词的分布式表达不充分、实体识别模型单一、实体识别模型泛化能力弱等问题和挑战。本文面向中文军事领域中实体识别面临的问题和挑战,提出基于多神经网络协作的中文军事领域命名实体识别方法,主要的贡献如下:(1)制定了考虑实体模糊边界的实体标注策略和军事领域实体类别划分策略;提出基于仲裁方式的语料标注和语料质量增强方法,提高语料标注的准确性。构建了包含20,388个句子和15,317条微博,包含武器装备等八个实体类别的军事领域实体语料集MilitaryCorpus,解决了目前缺乏军事领域公开语料集的问题,为实体识别工作奠定了基础。(2)构建了基于BERT-BiLSTM-CRF的多神经网络...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
全文研究技术路线
华东师范大学硕士学位论文第一章绪论6图1-2全文研究内容本文的研究内容和贡献如下:1)针对目前研究中缺少面向互联网社交文本的军事领域命名实体语料集,缺少统一的军事领域命名实体分类策略和标注策略的问题,构建一个基于互联网开放数据的军事领域命名实体语料集MilitaryCorpus。该语料集涵盖微观军情、新浪军事、集结号三个微博帐户从2013年12月到2018年12月间的21,711条微博[78]。经过数据预处理和针对语料句子级别的划分,结合领域专家的专业意见以及军事领域相关文献的调研,建立了考虑实体模糊边界的实体标注策略,提出军事领域命名实体的分类策略,以此指导对原始语料集进行字级别的标注[78]。最终得到含有15,317条微博,共计20,388个句子,包含军事武器装备、军事组织与机构、军事设施、军衔或军职等八个类别的军事领域实体语料集MilitaryCorpus[78]。相较于公开的数据集,MilitaryCorpus语料集以互联网社交文本为原始数据,数据集的构建过程中提出面向军事领域的考虑实体模糊边界的实体标注策略和实体类别划分策略,为后续军事领域命名实体识别模型的建立奠定基矗2)不同于作战文书、军事想定文书等具有规范格式的文本,互联网社交文本具有口语化表达、简化表达等特点,文本具有不规范性,在含有大量的军
华东师范大学硕士学位论文第三章基于互联网开放数据的军事领域语料集构建21第三章基于互联网开放数据的军事领域语料集构建针对基于互联网社交文本的军事领域命名实体语料集缺乏的问题,本章介绍基于微博数据的军事领域命名实体语料集的构建工作,图3-1为技术路线。原始数据来自新浪微博中新浪军事、集结号、微观军情三个与军事相关的微博账号,通过解析微博页面,编写正则表达式进行数据采集。通过去除数据中噪声和句子级别划分的方式进行数据预处理,预处理后的数据放置于未标注数据池中,为语料集的构建与扩增奠定基矗从未标注数据池中抽选出部分数据由标注者依据本文提出的考虑实体模糊边界的军事领域实体标注策略进行实体标注。同时,为增强语料集的质量,本文提出基于仲裁方式的语料集质量增强方法,最终构建面向军事领域命名实体识别的语料集MilitaryCorpus[78]。图3-1MilitaryCorpus语料集构建技术路线
【参考文献】:
期刊论文
[1]多神经网络协作的军事领域命名实体识别[J]. 尹学振,赵慧,赵俊保,姚婉薇,黄泽林. 清华大学学报(自然科学版). 2020(08)
[2]开源情报在中国国家安全情报中的地位和作用分析[J]. 杨建英,余至诚. 情报杂志. 2019(10)
[3]结合主动学习的条件随机场模型用于法律术语的自动识别[J]. 黄菡,王宏宇,王晓光. 数据分析与知识发现. 2019(06)
[4]基于深度主动学习的信息安全领域命名实体识别研究[J]. 彭嘉毅,方勇,黄诚,刘亮,姜政伟. 四川大学学报(自然科学版). 2019(03)
[5]基于深度学习的作战文书命名实体识别[J]. 张晓海,操新文,高源. 指挥控制与仿真. 2019(04)
[6]基于深度学习的军事命名实体识别方法[J]. 王学锋,杨若鹏,朱巍. 装甲兵工程学院学报. 2018(04)
[7]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[8]基于深度神经网络的武器名称识别[J]. 游飞,张激,邱定,于铭华. 计算机系统应用. 2018(01)
[9]面向军事文本的命名实体识别[J]. 冯蕴天,张宏军,郝文宁. 计算机科学. 2015(07)
[10]主动学习与自学习的中文命名实体识别[J]. 钟志农,刘方驰,吴烨,伍江江. 国防科技大学学报. 2014(04)
本文编号:3468828
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:92 页
【学位级别】:硕士
【部分图文】:
全文研究技术路线
华东师范大学硕士学位论文第一章绪论6图1-2全文研究内容本文的研究内容和贡献如下:1)针对目前研究中缺少面向互联网社交文本的军事领域命名实体语料集,缺少统一的军事领域命名实体分类策略和标注策略的问题,构建一个基于互联网开放数据的军事领域命名实体语料集MilitaryCorpus。该语料集涵盖微观军情、新浪军事、集结号三个微博帐户从2013年12月到2018年12月间的21,711条微博[78]。经过数据预处理和针对语料句子级别的划分,结合领域专家的专业意见以及军事领域相关文献的调研,建立了考虑实体模糊边界的实体标注策略,提出军事领域命名实体的分类策略,以此指导对原始语料集进行字级别的标注[78]。最终得到含有15,317条微博,共计20,388个句子,包含军事武器装备、军事组织与机构、军事设施、军衔或军职等八个类别的军事领域实体语料集MilitaryCorpus[78]。相较于公开的数据集,MilitaryCorpus语料集以互联网社交文本为原始数据,数据集的构建过程中提出面向军事领域的考虑实体模糊边界的实体标注策略和实体类别划分策略,为后续军事领域命名实体识别模型的建立奠定基矗2)不同于作战文书、军事想定文书等具有规范格式的文本,互联网社交文本具有口语化表达、简化表达等特点,文本具有不规范性,在含有大量的军
华东师范大学硕士学位论文第三章基于互联网开放数据的军事领域语料集构建21第三章基于互联网开放数据的军事领域语料集构建针对基于互联网社交文本的军事领域命名实体语料集缺乏的问题,本章介绍基于微博数据的军事领域命名实体语料集的构建工作,图3-1为技术路线。原始数据来自新浪微博中新浪军事、集结号、微观军情三个与军事相关的微博账号,通过解析微博页面,编写正则表达式进行数据采集。通过去除数据中噪声和句子级别划分的方式进行数据预处理,预处理后的数据放置于未标注数据池中,为语料集的构建与扩增奠定基矗从未标注数据池中抽选出部分数据由标注者依据本文提出的考虑实体模糊边界的军事领域实体标注策略进行实体标注。同时,为增强语料集的质量,本文提出基于仲裁方式的语料集质量增强方法,最终构建面向军事领域命名实体识别的语料集MilitaryCorpus[78]。图3-1MilitaryCorpus语料集构建技术路线
【参考文献】:
期刊论文
[1]多神经网络协作的军事领域命名实体识别[J]. 尹学振,赵慧,赵俊保,姚婉薇,黄泽林. 清华大学学报(自然科学版). 2020(08)
[2]开源情报在中国国家安全情报中的地位和作用分析[J]. 杨建英,余至诚. 情报杂志. 2019(10)
[3]结合主动学习的条件随机场模型用于法律术语的自动识别[J]. 黄菡,王宏宇,王晓光. 数据分析与知识发现. 2019(06)
[4]基于深度主动学习的信息安全领域命名实体识别研究[J]. 彭嘉毅,方勇,黄诚,刘亮,姜政伟. 四川大学学报(自然科学版). 2019(03)
[5]基于深度学习的作战文书命名实体识别[J]. 张晓海,操新文,高源. 指挥控制与仿真. 2019(04)
[6]基于深度学习的军事命名实体识别方法[J]. 王学锋,杨若鹏,朱巍. 装甲兵工程学院学报. 2018(04)
[7]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯. 中文信息学报. 2018(01)
[8]基于深度神经网络的武器名称识别[J]. 游飞,张激,邱定,于铭华. 计算机系统应用. 2018(01)
[9]面向军事文本的命名实体识别[J]. 冯蕴天,张宏军,郝文宁. 计算机科学. 2015(07)
[10]主动学习与自学习的中文命名实体识别[J]. 钟志农,刘方驰,吴烨,伍江江. 国防科技大学学报. 2014(04)
本文编号:3468828
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3468828.html
最近更新
教材专著