基于神经网络的自然场景中的字符识别算法的研究与实现
发布时间:2022-02-22 17:44
近年来,随着移动网络的普及和手机的大量使用,人们从自然场景获取和分享图片的方式越来越多,从海量的自然场景图片中识别出字符变得越来越重要,智慧城市、工业自动化等都需要实时的识别出场景字符。场景字符识别属于文本识别的范围。在传统的识别方法中,往往需要手动去设计特征,鉴于背景的多样化和随意性,这种传统的算法往往满足不了实际的需求。而深度学习技术的快速发展为自然场景中字符检测与识别带来了新的契机。相比于传统的识别方式,神经网络不但可以通过卷积自动提取图像特征,还可避免传统方式中手工设计特征带来的庞大的工作量,因此,使用神经网络进行自然场景字符识别已经成为当前的主要研究方向。当前的自然场景字符识别算法虽然已经取得了很大的进步,但是还存在以下问题:对小目标的检测的效果不好;很难区分粘连的文本;对于弯曲文本,检测和识别效果一直都不好。针对以上问题,本文做了以下几点创新性的改进工作,具体研究工作如下:1、针对小目标检测效果不好的问题,本文结合了基于像素分割的检测方法和形态学中的腐蚀和膨胀算法,通过腐蚀去除无关小目标,再进行膨胀对真正的小目标区域进行扩张,从而能有效的检测出小目标,在Total-Text...
【文章来源】:电子科技大学四川省211工程院校985工程院校教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 自然环境下字符识别技术的国内外研究历史与现状
1.2.1 基于候选框的文本检测
1.2.2 基于分割的文本检测
1.2.3 文本识别方法
1.3 本文的主要内容与创新
1.4 本论文的结构安排
第二章 相关理论和技术
2.1 卷积神经网络
2.1.1 卷积神经网络的基本原理
2.1.2 卷积神经网络的基本概念
2.1.3 优化器
2.1.4 网络的训练
2.1.5 卷积神经网络和传统神经网络
2.2 循环神经网络
2.2.1 RNN
2.2.2 LSTM
2.2.3 LSTM的内部原理
2.2.4 CTC
2.2.5 Attention机制
2.3 本章小结
第三章 文本检测算法的研究与实现
3.1 文本检测与识别的常用方案
3.2 通用的物体检测模型
3.2.1 SSD
3.2.2 Faster-RCNN
3.3 PSENet
3.3.1 整体流程
3.3.2 主干网络
3.3.3 渐进式尺度扩展算法
3.3.4 Label生成
3.3.5 损失函数
3.4 PSENet的改进
3.4.1 主干网络的改进
3.4.2 label生成的改进
3.4.3 Loss改进
3.5 实验
3.5.1 搭建实验环境
3.5.2 准备实验数据
3.5.3 定义评价指标
3.5.4 定义网络模型
3.5.5 模型的训练与测试
3.6 本章小结
第四章 文本识别算法的研究与实现
4.1 文本识别概述
4.2 典型的文本识别结构
4.2.1 CRNN+CTC
4.2.2 CNN+Seq2Seq+Attention
4.2.3 Transformer
4.3 文本识别模块的实现
4.3.1 识别架构的设计与实现
4.3.2 Encoder实现
4.3.3 Decoder实现
4.3.4 数据与预处理
4.3.5 Loss函数选择
4.3.6 训练过程设计
4.3.7 预测过程设计
4.3.8 文本识别效果展示
4.4 本章小结
第五章 全文总结与展望
5.1 全文总结
5.2 后续工作展望
致谢
参考文献
本文编号:3639935
【文章来源】:电子科技大学四川省211工程院校985工程院校教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究工作的背景与意义
1.2 自然环境下字符识别技术的国内外研究历史与现状
1.2.1 基于候选框的文本检测
1.2.2 基于分割的文本检测
1.2.3 文本识别方法
1.3 本文的主要内容与创新
1.4 本论文的结构安排
第二章 相关理论和技术
2.1 卷积神经网络
2.1.1 卷积神经网络的基本原理
2.1.2 卷积神经网络的基本概念
2.1.3 优化器
2.1.4 网络的训练
2.1.5 卷积神经网络和传统神经网络
2.2 循环神经网络
2.2.1 RNN
2.2.2 LSTM
2.2.3 LSTM的内部原理
2.2.4 CTC
2.2.5 Attention机制
2.3 本章小结
第三章 文本检测算法的研究与实现
3.1 文本检测与识别的常用方案
3.2 通用的物体检测模型
3.2.1 SSD
3.2.2 Faster-RCNN
3.3 PSENet
3.3.1 整体流程
3.3.2 主干网络
3.3.3 渐进式尺度扩展算法
3.3.4 Label生成
3.3.5 损失函数
3.4 PSENet的改进
3.4.1 主干网络的改进
3.4.2 label生成的改进
3.4.3 Loss改进
3.5 实验
3.5.1 搭建实验环境
3.5.2 准备实验数据
3.5.3 定义评价指标
3.5.4 定义网络模型
3.5.5 模型的训练与测试
3.6 本章小结
第四章 文本识别算法的研究与实现
4.1 文本识别概述
4.2 典型的文本识别结构
4.2.1 CRNN+CTC
4.2.2 CNN+Seq2Seq+Attention
4.2.3 Transformer
4.3 文本识别模块的实现
4.3.1 识别架构的设计与实现
4.3.2 Encoder实现
4.3.3 Decoder实现
4.3.4 数据与预处理
4.3.5 Loss函数选择
4.3.6 训练过程设计
4.3.7 预测过程设计
4.3.8 文本识别效果展示
4.4 本章小结
第五章 全文总结与展望
5.1 全文总结
5.2 后续工作展望
致谢
参考文献
本文编号:3639935
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3639935.html
最近更新
教材专著