基于BNN的自然场景英文识别的设计与验证
发布时间:2021-04-07 13:32
随着人工智能领域的迅速发展和移动摄像设备的普遍应用,自然场景图像成为了人们最常用的信息载体。自然场景文字作为图像信息传递过程中最重要的表现形式,它的识别受到了国内外越来越多的研究。然而,现有基于卷积神经网络(Convolutional Neural Network,CNN)的识别方法由于参数规模过大,不利于嵌入式应用场景下的硬件实现。本文基于二值卷积神经网络(Binarized Neural Network,BNN)的基本原理设计一种用于自然场景文字识别的二值卷积编解码网络。本文首先分析自然场景文字识别方法以及CNN算法原理,设计卷积编解码网络。接着,基于BNN算法原理,将卷积编解码网络中权重和特征图进行二值化处理,进一步设计二值卷积编解码网络,并对网络使用大小为32×128的自然场景英文单词灰度图进行训练和测试。最后,本文对二值卷积编解码网络向现场可编程门阵列(Field-Programmable Gate Array,FPGA)映射过程中的并行度、计算划分、卷积数据缓存等问题进行设计,并基于Xilinx公司的Virtex-7系列开发板VC707完成二值卷积编解码网络的FPGA设计,...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
自然场景文字处理系统
第四章 二值卷积编解码网络的 FPGA 设计与仿真模块功能仿真在适配器模块功能仿真中,首先将 32×128 大小的图像数据初始化在 Rom,然后由输入移位寄存器(fmap_in_shiftreg)输出。输入移位寄存器仿真波形如图 4-7 所示。输入移位寄存器每读入一个17bit 数据 data_in[16:0],就会输出一组相对应的 153bit 卷积数据 data_out[152:0],然后进入卷积核做卷积操作,输入移位寄存器功能正确。
输入移位寄存器功能正确。图 4-7 fmap_in_shiftreg 移位寄存器仿真波形卷积核卷积运算是本文设计算法中的核心运算,全精度卷积核的一次运算包括 9 次乘累加运算卷积得到输出特征图的一个像素点值。在全精度卷积核的仿真运算中,截取一次卷积操作,如图 48 所示。全精度卷积核的一次卷积操作输入图像 的 9 个像素点数据 fmap_in[152:0]为{153’h020_ba10_4e08_22c4_1742_0231_0226_82e8_4062_2029},卷积核权重参数 weight[152:0]为{153’h1fe_16fe_ee80_1cbf_9900_5ddf_f128_1628_0525_faad},卷积运算后得到输出 conv_out[37:0]为{38’h3f_fffe_2cf9}。每一次卷积的过程都需要 9 个像素点值和 9 个卷积核权重参数作为输入。当外部时钟变化时,将图像上的对应的像素点和卷积核进行卷积操作,输出信号也发生了变化,经测试得到的结果和输出一致,全精度卷积核功能验证正确。
【参考文献】:
硕士论文
[1]基于深度学习的自然场景文字识别[D]. 黄攀.浙江大学 2016
[2]面向自然场景的端对端英文文字识别研究[D]. 廖威敏.厦门大学 2014
本文编号:3123583
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
自然场景文字处理系统
第四章 二值卷积编解码网络的 FPGA 设计与仿真模块功能仿真在适配器模块功能仿真中,首先将 32×128 大小的图像数据初始化在 Rom,然后由输入移位寄存器(fmap_in_shiftreg)输出。输入移位寄存器仿真波形如图 4-7 所示。输入移位寄存器每读入一个17bit 数据 data_in[16:0],就会输出一组相对应的 153bit 卷积数据 data_out[152:0],然后进入卷积核做卷积操作,输入移位寄存器功能正确。
输入移位寄存器功能正确。图 4-7 fmap_in_shiftreg 移位寄存器仿真波形卷积核卷积运算是本文设计算法中的核心运算,全精度卷积核的一次运算包括 9 次乘累加运算卷积得到输出特征图的一个像素点值。在全精度卷积核的仿真运算中,截取一次卷积操作,如图 48 所示。全精度卷积核的一次卷积操作输入图像 的 9 个像素点数据 fmap_in[152:0]为{153’h020_ba10_4e08_22c4_1742_0231_0226_82e8_4062_2029},卷积核权重参数 weight[152:0]为{153’h1fe_16fe_ee80_1cbf_9900_5ddf_f128_1628_0525_faad},卷积运算后得到输出 conv_out[37:0]为{38’h3f_fffe_2cf9}。每一次卷积的过程都需要 9 个像素点值和 9 个卷积核权重参数作为输入。当外部时钟变化时,将图像上的对应的像素点和卷积核进行卷积操作,输出信号也发生了变化,经测试得到的结果和输出一致,全精度卷积核功能验证正确。
【参考文献】:
硕士论文
[1]基于深度学习的自然场景文字识别[D]. 黄攀.浙江大学 2016
[2]面向自然场景的端对端英文文字识别研究[D]. 廖威敏.厦门大学 2014
本文编号:3123583
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3123583.html