手写中文文本视觉信息与语言信息特征层融合的深度网络模型研究
发布时间:2021-04-27 16:11
手写中文文本识别是计算机视觉和模式识别领域的研究热点和难点之一,深度学习的兴起为手写中文文本识别提供了新的研究方法。大多数现有的基于深度学习的方法首先利用视觉信息训练识别模型,然后将识别模型的结果与语言模型相结合,即在决策层融合视觉信息与语言信息。本文从在特征层融合视觉信息与语言信息的角度出发,采用深度学习方法和强化学习方法构建深度网络模型,解决手写中文文本识别问题。旨在通过具有丰富语义信息的多模态联合表达,来提高模型的识别性能。本文的主要工作包括:(1)研究了基于注意力机制的编码解码模型在手写中文文本识别中的应用,将字符级别视觉信息与语言信息的特征层融合模块嵌入基于长短期记忆神经网络的解码模块,构建基于字符级别特征层融合的手写中文文本识别模型。具体地,由于视觉信息与语言信息之间存在着表达形式和语义层次的差异,为了对每个字符的多模态联合表达进行有效地学习,本文探索了三种字符级别视觉信息与语言信息的特征层融合方法,分别是基于向量加和、向量拼接和门机制的方法。实验结果表明了在特征层融合视觉信息与语言信息的有效性,验证了采用基于门机制的方法相比于其他两种方法能够取得更好的识别效果。(2)在字...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景与意义
1.2 相关研究工作
1.2.1 基于过分割的手写中文文本识别方法
1.2.2 基于无分割的手写中文文本识别方法
1.2.3 特征层融合方法
1.3 本文研究内容
1.4 本文组织结构
第二章 相关知识
2.1 手写中文文本识别
2.2 多模态信息融合
2.3 深度学习相关技术
2.3.1 词向量
2.3.2 卷积神经网络
2.3.3 长短期记忆神经网络
2.3.4 双向长短期记忆神经网络
2.3.5 基于注意力机制的编码解码模型
2.3.6 深度强化学习
2.4 手写中文图像数据集
2.4.1 手写中文单字图像数据集
2.4.2 手写中文文本行图像数据集
2.4.3 ICDAR2013竞赛数据集
2.5 系统评估指标
2.6 本章小结
第三章 基于字符级别特征层融合的手写中文文本识别
3.1 研究动机
3.2 基于字符级别特征层融合的手写中文文本识别模型
3.2.1 模型结构
3.2.2 图像编码模块
3.2.3 字符级别视觉信息与语言信息的特征层融合模块
3.2.4 基于字符级别特征层融合的LSTM解码模块
3.3 实验结果与分析
3.3.1 实验设置
3.3.2 三种字符级别视觉信息与语言信息的特征层融合方法的对比结果
3.3.3 与其他研究者提出的模型的对比结果
3.3.4 样例分析
3.3.5 注意力机制的可视化结果
3.4 本章小结
第四章 基于多级别特征层融合的手写中文文本识别
4.1 研究动机
4.2 基于多级别特征层融合的手写中文文本识别模型
4.2.1 模型结构
4.2.2 文本片段级别视觉信息与语言信息的特征层融合模块
4.2.3 基于多级别特征层融合的LSTM解码模块
4.3 实验结果与分析
4.3.1 实验设置
4.3.2 基准模型
4.3.3 与其他模型的对比实验结果
4.3.4 不同文本片段长度的对比实验结果
4.4 本章小结
第五章 基于深度强化学习的手写中文文本识别
5.1 研究动机
5.2 基于深度强化学习的手写中文文本识别模型
5.2.1 模型结构
5.2.2 强化学习过程
5.3 实验设置
5.4 实验结果与分析
5.5 本章小结
第六章 总结及展望
6.1 本文总结
6.2 未来工作
攻读学位期间发表的学术论文以及学术成果
参加国际竞赛获奖情况
参考文献
致谢
【参考文献】:
期刊论文
[1]深度学习在手写汉字识别中的应用综述[J]. 金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊. 自动化学报. 2016(08)
[2]基于CNN和随机弹性形变的相似手写汉字识别[J]. 高学,王有旺. 华南理工大学学报(自然科学版). 2014(01)
本文编号:3163768
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景与意义
1.2 相关研究工作
1.2.1 基于过分割的手写中文文本识别方法
1.2.2 基于无分割的手写中文文本识别方法
1.2.3 特征层融合方法
1.3 本文研究内容
1.4 本文组织结构
第二章 相关知识
2.1 手写中文文本识别
2.2 多模态信息融合
2.3 深度学习相关技术
2.3.1 词向量
2.3.2 卷积神经网络
2.3.3 长短期记忆神经网络
2.3.4 双向长短期记忆神经网络
2.3.5 基于注意力机制的编码解码模型
2.3.6 深度强化学习
2.4 手写中文图像数据集
2.4.1 手写中文单字图像数据集
2.4.2 手写中文文本行图像数据集
2.4.3 ICDAR2013竞赛数据集
2.5 系统评估指标
2.6 本章小结
第三章 基于字符级别特征层融合的手写中文文本识别
3.1 研究动机
3.2 基于字符级别特征层融合的手写中文文本识别模型
3.2.1 模型结构
3.2.2 图像编码模块
3.2.3 字符级别视觉信息与语言信息的特征层融合模块
3.2.4 基于字符级别特征层融合的LSTM解码模块
3.3 实验结果与分析
3.3.1 实验设置
3.3.2 三种字符级别视觉信息与语言信息的特征层融合方法的对比结果
3.3.3 与其他研究者提出的模型的对比结果
3.3.4 样例分析
3.3.5 注意力机制的可视化结果
3.4 本章小结
第四章 基于多级别特征层融合的手写中文文本识别
4.1 研究动机
4.2 基于多级别特征层融合的手写中文文本识别模型
4.2.1 模型结构
4.2.2 文本片段级别视觉信息与语言信息的特征层融合模块
4.2.3 基于多级别特征层融合的LSTM解码模块
4.3 实验结果与分析
4.3.1 实验设置
4.3.2 基准模型
4.3.3 与其他模型的对比实验结果
4.3.4 不同文本片段长度的对比实验结果
4.4 本章小结
第五章 基于深度强化学习的手写中文文本识别
5.1 研究动机
5.2 基于深度强化学习的手写中文文本识别模型
5.2.1 模型结构
5.2.2 强化学习过程
5.3 实验设置
5.4 实验结果与分析
5.5 本章小结
第六章 总结及展望
6.1 本文总结
6.2 未来工作
攻读学位期间发表的学术论文以及学术成果
参加国际竞赛获奖情况
参考文献
致谢
【参考文献】:
期刊论文
[1]深度学习在手写汉字识别中的应用综述[J]. 金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊. 自动化学报. 2016(08)
[2]基于CNN和随机弹性形变的相似手写汉字识别[J]. 高学,王有旺. 华南理工大学学报(自然科学版). 2014(01)
本文编号:3163768
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3163768.html
最近更新
教材专著