基于注意力机制的中文识别算法研究
发布时间:2021-03-25 07:50
文字作为人类最伟大的发明之一,不仅是人类语言的书面表达形式,更是一种精神、文化的传承。而图像作为一种重要的信息载体,不仅携带着色彩、纹理、结构等信息,通常还存在大量文字,其中文字往往包含更丰富的语义信息,能够对图像场景的理解提供重要线索。可以说文字在日常生活中随处可见,如何对图像中的文字进行识别和理解具有重要的研究意义,也有着广阔的实际应用场景。如手写票据识别、车牌识别、拍照翻译等应用,可以大大提高人类生产效率,给人们的生活带来帮助和便捷。尽管传统的文档文字识别技术已经非常成熟,但是由于手写风格的巨大差异和自然场景复杂的背景,准确地识别手写汉字以及自然场景图片中的文字仍然是非常有挑战性的任务。随着深度学习技术的快速发展,计算机视觉领域迎来重大突破。本文借助深度学习技术,结合中文的特性,展开对手写汉字字符和自然场景中文文本的识别研究,主要研究内容如下:(1)提出了一种基于多对比注意力机制的卷积神经网络来进行手写汉字字符识别。此方法对同一张输入图片学习多个注意力区域,并且在多个损失函数的监督下,使模型的注意力能够定位到字符有区分性的区域,同时让同类字符定位到的这些区域特征尽量相似以减小手写...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
印刷体汉字(左图)与手写体汉字(右图)示例
华 中 科 技 大 学 硕 士 学 位 论 文图 1.2 文档文字(左图)与自然场景文字(右图)示例如图1.2, 相比文档文字的背景简单、字体单一,自然场景文字具有高度的复杂性和不确定性,主要表现在以下几个方面:(1)自然场景文字背景复杂。场景文字可能出现在包含任何背景的图像中,包括但不限于网络截屏、路标、广告牌、玻璃,甚至悬在半空中的建筑物。尤其是一些干扰强、噪声大的背景,如发光的广告牌、透明的玻璃、以及包含类似文字的物体(如栅栏、草地等)的背景,使得区分文本与背景区域的难度大大增加。部分场景文字图片难点示例如图1.3所示。图 1.3 自然场景文字难点示例2
强、噪声大的背景,如发光的广告牌、透明的玻璃、以及包含类似文字的物体(如栅栏、草地等)的背景,使得区分文本与背景区域的难度大大增加。部分场景文字图片难点示例如图1.3所示。图 1.3 自然场景文字难点示例2
本文编号:3099337
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
印刷体汉字(左图)与手写体汉字(右图)示例
华 中 科 技 大 学 硕 士 学 位 论 文图 1.2 文档文字(左图)与自然场景文字(右图)示例如图1.2, 相比文档文字的背景简单、字体单一,自然场景文字具有高度的复杂性和不确定性,主要表现在以下几个方面:(1)自然场景文字背景复杂。场景文字可能出现在包含任何背景的图像中,包括但不限于网络截屏、路标、广告牌、玻璃,甚至悬在半空中的建筑物。尤其是一些干扰强、噪声大的背景,如发光的广告牌、透明的玻璃、以及包含类似文字的物体(如栅栏、草地等)的背景,使得区分文本与背景区域的难度大大增加。部分场景文字图片难点示例如图1.3所示。图 1.3 自然场景文字难点示例2
强、噪声大的背景,如发光的广告牌、透明的玻璃、以及包含类似文字的物体(如栅栏、草地等)的背景,使得区分文本与背景区域的难度大大增加。部分场景文字图片难点示例如图1.3所示。图 1.3 自然场景文字难点示例2
本文编号:3099337
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3099337.html
最近更新
教材专著