当前位置:主页 > 科技论文 > 交通工程论文 >

公路桥梁定期检测领域命名实体识别语料库构建

发布时间:2021-11-06 15:23
  针对目前业界缺少适应我国公路桥梁检测领域文本特性的中文命名实体语料库的现状,构建一个较大规模并具有较高标注质量的公路桥梁定期检测命名实体语料库。在分析该类型文本的领域特性基础上,定义了由桥梁实体、结构实体、结构病害实体等六种目标命名实体类别及其标注规范,完成了1 245份真实桥梁检测报告和1 400余万字相关网页文本信息的数据准备和预处理工作,选取了其中150份作为标注语料并完成了多轮迭代标注,标注总字数超过32万字,各类型实体最终标注一致性最高达到98.5%,最低达到85.2%。选取了当前命名实体识别领域主流算法和通用领域预训练模型对标注语料进行初步实验,实验结果表明其识别效果有较大提升空间。该语料库的提出可为后续研究提供识别目标定义,并奠定数据和评测基础。 

【文章来源】:计算机应用. 2020,40(S1)北大核心CSCD

【文章页数】:6 页

【部分图文】:

公路桥梁定期检测领域命名实体识别语料库构建


公路桥梁定期检测报告数据分布情况统计

语料库,公路桥,构建过程,文本


在第四阶段中,两个标注小组以所有预处理后的150份文本为基础,并按第三阶段所完善后的标注规范正式开展标注。最后选取了30份文本让两个小组共同标注,并以此为基准,评测最终的语料标注一致性。3.4 标注语料库统计

【参考文献】:
期刊论文
[1]基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 单义栋,王衡军,黄河,闫倩.  计算机科学. 2019(S1)
[2]人工智能时代的土木工程[J]. 鲍跃全,李惠.  土木工程学报. 2019(05)
[3]基于多特征Bi-LSTM-CRF的影评人名识别研究[J]. 禤镇宇,蒋盛益,张礼明,包睿.  中文信息学报. 2019(03)
[4]基于维基百科的中文嵌套命名实体识别语料库自动构建[J]. 李雁群,何云琪,钱龙华,周国栋.  计算机工程. 2018(11)
[5]中文嵌套命名实体识别语料库的构建[J]. 李雁群,何云琪,钱龙华,周国栋.  中文信息学报. 2018(08)
[6]命名实体识别研究综述[J]. 刘浏,王东波.  情报学报. 2018(03)
[7]基于中文电子病历的心血管疾病风险因素标注体系及语料库构建[J]. 苏嘉,何彬,吴昊,杨锦锋,关毅,姜京池,王焕政,于秋滨.  自动化学报. 2019(02)
[8]公路桥梁检测及评价技术综述[J]. 贺拴海,赵祥模,马建,赵煜,宋焕生,宋宏勋,程磊,袁卓娅,黄福伟,张健,田斌,王路阳,戚秀真.  中国公路学报. 2017(11)
[9]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗.  中文信息学报. 2017(04)
[10]中文电子病历命名实体和实体关系语料库构建[J]. 杨锦锋,关毅,何彬,曲春燕,于秋滨,刘雅欣,赵永杰.  软件学报. 2016(11)



本文编号:3480071

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiaotonggongchenglunwen/3480071.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7e392***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com