基于LOF和波动阈值的古籍图像版面分析
发布时间:2024-12-31 22:22
我国历史悠久,珍贵的古籍藏书丰富,随着计算机技术的高速发展,利用计算机辅助古籍研究是必由之路。古籍图像版面结构复杂,对其进行有效、准确的分析是实现古籍汉字识别与检索的前提和基础,本文从以下两个方面对古籍图像展开研究。(1)古籍图像非正文成分提取针对古籍图像中存在印章、批注等非正文成分,影响版面分析准确性的问题,分别设计了基于自适应Canny算子的印章定位方法和基于Mask R-CNN的批注提取方法。对于印章,利用改进的自适应Canny算子提取古籍版面印章区域边缘轮廓信息,选择形状参数提取印章特征,实现古籍印章与其周围汉字的分离。对于批注,首先,使用Labelme图像标注工具对古籍图像批注数据集进行标注;其次,利用Mask R-CNN模型实例分割古籍批注图像,得到预测结果Mask图;然后,对比不同深度ResNet网络对Mask R-CNN识别效果、速率的影响,选取最优网络架构;最后,采用二分K-means算法对Mask图进行聚类,实现古籍批注成分的提取。(2)基于LOF和波动阈值的古籍图像版面分析方法针对古籍版面成分多样、古籍汉字结构复杂且风格多变的特点,提出了基于LOF(Local Ou...
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
本文编号:4021621
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
图3-1古籍图
第三章古籍图像非正文成分提取13第三章古籍图像非正文成分提取古籍文献具有许多不同于普通文献的特点,例如,除汉字、框线等固有成分外,还存在印章、阅读批注等,将这些后续加入的版面成分称为非正文成分,给古籍图像的版面分析与文本提取带来了诸多困难,因此,有必要对其针对性地进行研究。3.1....
图3-1古籍图
第三章古籍图像非正文成分提取13第三章古籍图像非正文成分提取古籍文献具有许多不同于普通文献的特点,例如,除汉字、框线等固有成分外,还存在印章、阅读批注等,将这些后续加入的版面成分称为非正文成分,给古籍图像的版面分析与文本提取带来了诸多困难,因此,有必要对其针对性地进行研究。3.1....
图3-2文渊阁《四库全
第三章古籍图像非正文成分提取13第三章古籍图像非正文成分提取古籍文献具有许多不同于普通文献的特点,例如,除汉字、框线等固有成分外,还存在印章、阅读批注等,将这些后续加入的版面成分称为非正文成分,给古籍图像的版面分析与文本提取带来了诸多困难,因此,有必要对其针对性地进行研究。3.1....
图3-3古籍印章边缘检测问题为了选取适用于古籍图像的最优边缘检测算法,本文以带有印章的古籍图像作为测
河北大学专业硕士学位论文14本文使用边缘检测算法提取印章轮廓特征信息,进一步实现印章和汉字的分离,为后续古籍图像版面分析的顺利进行奠定了基矗古籍样张图像边缘极为复杂、噪声较多,经典的边缘检测算子大多都对噪声较为敏感,适用于结构简单、噪声较少的图像。因此,处理古籍样张的效果极不理想....
本文编号:4021621
本文链接:https://www.wllwen.com/tushudanganlunwen/4021621.html