面向数字人文的馆藏方志古籍地名自动识别模型构建
发布时间:2023-03-12 02:28
在数字人文背景下,以馆藏方志古籍为语料库,以摘抄自地方志的农业专题资料《方志物产》之山西分卷为例,在全文人工标注的基础上,构建基于条件随机场的古汉语地名自动识别模型,通过交叉验证方法测试模型的识别性能,用精确率P、召回率R和调和平均数F为测评指标,最佳的测试效果分别为98.16%、91.55%、94.57%。结果显示,条件随机场模型在基于人工标注的方志古籍语料上能够取得较好的识别效果,为深化图书馆馆藏古籍的整理利用提供借鉴。
【文章页数】:7 页
【文章目录】:
1 引言
2 语料库介绍及地名特征分析
2.1 语料库介绍
2.2 语料库数字化整理概况
2.3 语料库中地名分析
3 语料预处理及地名内外部特征分析
3.1 人工标注
3.2 标注集的生成
3.3 地名内外部特征分析
(1) 地名的内部特征分析
(2) 地名的外部特征分析
4 地名自动识别模型的构建与测评
4.1 模型构建
4.2 模型测评
5 结语
本文编号:3760748
【文章页数】:7 页
【文章目录】:
1 引言
2 语料库介绍及地名特征分析
2.1 语料库介绍
2.2 语料库数字化整理概况
2.3 语料库中地名分析
3 语料预处理及地名内外部特征分析
3.1 人工标注
3.2 标注集的生成
3.3 地名内外部特征分析
(1) 地名的内部特征分析
(2) 地名的外部特征分析
4 地名自动识别模型的构建与测评
4.1 模型构建
4.2 模型测评
5 结语
本文编号:3760748
本文链接:https://www.wllwen.com/shekelunwen/zgmzsz/3760748.html