当前位置:主页 > 科技论文 > 自动化论文 >

基于端到端可训练神经网络的手写化学方程式识别

发布时间:2021-12-17 23:04
  随着互联网与人工智能的快速发展,教育信息化已经开始影响并改变传统教育方式,在线解答等人机交互的场景越来越普遍,手写识别问题成为了计算机视觉领域的一个研究方向。对于人类来说识别手写字符是一件很简单的事,但这对于计算机而言非常复杂。近年来,深度卷积神经网络的发展给计算机视觉领域带来了革命性的变化,卷积神经网络和循环神经网络的结合在基于图像的序列识别问题中取得了巨大的成功,推动了手写识别领域的进展。目前针对手写识别方面的研究主要集中在英文字符、数字和汉字上,并已在这些领域取得好成绩,然而这些识别只局限于一维空间上,由于复杂的二维空间结构和长度原因,手写化学公式的识别仍然是一项艰巨的任务。解决该问题,一方面可以促进手写化学方程式识别的发展,另一方面可以应用于在线解答,例如作为教学辅助手段快速批改作业,实现化学方程式快速录入计算机等等。本文针对离线手写化学方程式识别主要做了以下工作:(1)基于电子笔录入的数据样本采集,由于目前没有公开的手写化学方程式数据集,因此我们手动收集了一个新的数据集,包括6586个手写化学方程式样本。(2)提出了基于端到端神经网络的离线手写化学方程式识别的训练方法,采用C... 

【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于端到端可训练神经网络的手写化学方程式识别


图1.2信息数字化的主要途径??对手写识别的研宄开始于20世纪中叶,随着手写板硬件的出现,手写识别技??术成为了一个研宄方向

化学,符号,化学结构,识别系统


写识别在化学领域的研宄开始于上世纪八十年代末。目前针对该方面的研??宄,从数据来源来看,处理对象分为离线手写化学文档、联机手写化学文档及印??刷体化学文档三类。其中有关离线手写化学文档的研究是最少的。印刷体文档的??字形比较统一,格式相对规范,识别难度低了很多,目前己有较为成熟的方法。??而联机文档已知一些笔顺信息及时间上的信息,相对而言难度也较低。本文研宄??的内容为离线手写化学方程式识别。??化学常见的文本表达形式有四种,分别是化学元素,化学分子,化学结构式??和化学方程式,如图1.3。由于复杂的空间结构和上下文关系,化学方程式识别面??临着巨大挑战。近年来,这一领域受到了研究人员的关注,已出版的著作主要集??中在化学符号识别,化学结构式识别和化学方程式识别。??化学符号识别方面,文献提出了联机手写化学符号识别的不同方法。文??献[11]的解决方案基于隐马尔可夫模型(HMM),它每个符号构建HMM,并提取??11维局部特征。随后文献[1()]通过提出一个新的两阶段分类器来改进原始方法。第??一阶段是粗分类,第二阶段使用支持向量机(SVM)用于区分有机和非有机环符??号,然后采用HMM进行细粒度识别。文献[12]提出了一种用于联机手写化学符号??识别的支持向量机-弹性匹配(SVM-EM)方法。??化学元素? ̄|?|?化学式??H?C?Mg?Ca?FeO?NRj?IhO?C〇2??N?〇?Mn?Cu?Mn〇2?〇3?CH4?Na2S??(a)化学元素?(b)化学式??ch3??(S??HCl?+?Na2C03?=?NaCl?+?NaHC03?(c)??化学结构式?(d)化学方程式?

结构分布,化学方程式,字体,空间结构


碩士学位论文??MASTER'S?THESIS??不一,字符重叠的严重情况不一,笔划的相对位置也不一样。此外,输入中不可??避免地会出现断字和粘连字符;另一方面,基于电子手写笔的输入也受各种书写??风格的影响,以及由于各种人为原因而造成不可避免的随机噪声,这使得计算机??识别变得异常困难。图1.4说明了化学方程式2A1?+?3S么A12S3的五种不同书写样??式,这表明了这项任务的挑战。??ZAH35??图1.4五种不同字体书写的相同化学方程式??(2)结构复杂、长度不一??手写化学方程式识别的第二个困难在于化学方程式复杂的空间结构。它们具??有各种长度,例如方程式H_2S?+?2FeCl_3?—?S丨+?2FeCl_2?+?2HC1具有28个字符,??而方程式11_2?+?F_2?—?2HF仅具有11个字符(我们用字符表示下标)。此外,??由于化学方程式是二维空间结构分布,存在特殊的空间信息下标,也给识别也带??了相当的困难。??(3)符号数量多、相似符号多??表示化学物质的化学符号理论上来说不能穷举,即使将它们划分为独立的符??号,也有上百个之多。本文讨论的仅包括无机化学方程式,其中包括数字、英文??字符,以及形式多样的符号,比如加热符号“>、气体符号“t”以及沉淀符号等??等。识别模型需要正确辨识这些基本符号,才能满足在实际应用中的需要。化学??方程式识别是一个大规模的模式分类问题,可以说,大规模的符号数量是造成化??学方程式识别困难的主要原因之一。同时,在化学符号集合中存在大量的相似符??号组,如无机符号“a”、“(”、“r”、“v”,之间难以区分。这些相似符号的存??在,严重干扰了

【参考文献】:
期刊论文
[1]基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统[J]. 姚煜,RYAD Chellali.  计算机应用. 2018(09)
[2]生物特征识别技术综述[J]. 本刊编辑部.  安防科技. 2007(05)

博士论文
[1]联机手写化学公式处理关键问题研究[D]. 杨巨峰.南开大学 2009

硕士论文
[1]基于深度神经网络的图像边缘检测算法研究[D]. 覃禹舜.西南交通大学 2019
[2]基于深度学习的联机蒙古文手写识别系统研究[D]. 李敏.内蒙古大学 2019
[3]基于WPF的初中化学仿真实验工具的设计与开发[D]. 玄德.华中师范大学 2014
[4]基于神经网络的在线手写体Pitman速记的识别[D]. 邾铭.浙江大学 2003



本文编号:3541125

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3541125.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1eb05***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com