当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的视频文字检测技术

发布时间:2021-07-24 23:20
  随着互联网技术的飞速发展,计算机视觉内各个分支领域获得突破性进展,特别在图像检测,目标跟踪方向,结合卷积神经网络的图像特征提取能力,已经获得了优异的成绩,在文字识别提取方向,深度学习与传统图像分析的结合使用使得图像语义分析方向也有很大进展。本论文中设计了一套完整的视频文字识别的架构,结合图像文字检测技术,视频关键帧提取技术以及多语言文字识别技术,实现了视频内部自然场景及人工添加文本的提取与识别。其中,文字检测技术采用了YOLO与PixelLink相结合的方法,两者原理可以互补,对检测性能略有提升,另外,视频关键帧处理技术中使用了文字区域作为关注重点,结合聚类算法与像素点等逻辑对帧画面的重复信息进行压缩筛选。最终,利用卷积循环神经网络实现对中文,英文,数字等字符的识别功能。在分别验证完各个模块的功能以后,结合了三个模块,实现了视频内文字的识别功能。 

【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于深度学习的视频文字检测技术


图2.1卷积神经网络(CNN)样例图??

原理图,原理图


2.3文字定位算法YOLO??YOLO算法将目标检测问题理解为回归预测,避免了对图像进行一系列改动??生成中间图像。YOLO之前的大多数物体检测算法大多采用了分类器来进行物体??检测,YOLO而是采用卷积神经网络对整个图像的信息感知,直接预测目标的边??缘、并能够依照框内特征识别目标内容,从而实现端到端的目标检测,如图所示。??YOLO相比于之前的算法有许多优点,首先是检测速率非常快。之前的算法中,??分类器会选取图像中的不同尺寸不同位置作为备选区域,然后采用分类器去判定??其内部是否包含物体,YOLO的检测过程相比下较为简单,甚至可以实现实时物??体检测。YOLO采大大减少背景预测错误的产生,与其他方法所利用的滑动窗口??或区域策略不同的是,用整张图像的感知信息进行预测,而其他方法则缺少了对??整体画面的信息感知,例如Fast?R-CNN方法经常会将背景块检测为目标物体,??而YOLO方法中背景预测错误率大大降低。YOLO可以学习到目标的概括信息。??YOLO在某种程度上检测要比其他物体检测方法好,因为YOLO可以对物体信??息进行训练学习到高度泛化的特征,迁移性比其他方法强很多。??Inference??

原理图,原理图,官方,数据集


图2.?3?darknet-53的网络结构??采用YOLOv3目前可以直接采用官方网站所训练好的一系列模型,除了可以??采取这些训练好的模型进行微调迁移以外,一般情况下要训练自己的数据集,所??

【参考文献】:
期刊论文
[1]基于深度学习文字检测的复杂环境车牌定位方法[J]. 李海燕,常富蓉.  现代计算机(专业版). 2017(33)
[2]基于小波变换的视频流镜头切分及关键帧提取[J]. 吴绍根.  计算机与数字工程. 2016(09)
[3]基于目标变化的监控视频关键帧提取方法[J]. 周萍.  计算机与现代化. 2016(08)
[4]基于改进分块颜色特征和二次提取的关键帧提取算法[J]. 刘华咏,李涛.  计算机科学. 2015(12)
[5]基于关键帧多特征融合的视频拷贝检测[J]. 张兴忠,李皓,张三义.  太原理工大学学报. 2015(05)
[6]基于颜色聚类和多帧融合的视频文字识别方法[J]. 易剑,彭宇新,肖建国.  软件学报. 2011(12)
[7]基于梯度离散余弦变换的视频文字定位[J]. 颜俊华,李丹,周亚同.  计算机科学. 2011(09)
[8]基于文字穿越线和笔画连通性的视频文字提取方法[J]. 田破荒,彭天强,李弼程.  电子学报. 2009(01)
[9]一种基于直方图特征和AdaBoost的图像中的文字定位算法[J]. 李闯,丁晓青,吴佑寿.  中国图象图形学报. 2006(03)

博士论文
[1]故事视频的语义分析与提取[D]. 赵志诚.北京邮电大学 2008

硕士论文
[1]PixelLink:基于实例分割的自然场景文本检测算法[D]. 邓丹.浙江大学 2018
[2]视频摘要的算法研究[D]. 张亚洲.杭州电子科技大学 2017
[3]基于内容的视频检索关键技术的研究[D]. 白慧茹.太原理工大学 2017
[4]基于聚类的视频分类方法研究[D]. 查日盼.淮北师范大学 2017
[5]基于OpenCV手机拍照快递单文字识别的研究[D]. 马玲玉.哈尔滨商业大学 2016
[6]基于深度学习的自然场景文字识别[D]. 黄攀.浙江大学 2016
[7]视频检索中维吾尔文字幕关键帧提取研究[D]. 闫轲.新疆大学 2015
[8]基于深度学习的自然场景文本识别系统的设计与实现[D]. 马然.吉林大学 2015
[9]视频检索中基于多特征的关键帧提取算法研究[D]. 柳雪.中国矿业大学 2015
[10]复杂背景图像中的文字提取算法研究[D]. 汪波.长安大学 2014



本文编号:3301633

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3301633.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0790e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com