票据自动处理系统中若干关键技术研究
发布时间:2020-05-21 19:16
【摘要】: 随着我国经济的迅速发展以及全国票据交换系统的推广,使得金融票据凭证的使用量呈现了跨越式增长。现今我国的信息化已经进入全方位、多层次推进的新阶段,信息化也从对银行发展的“支持”阶段走向“支撑”阶段,由经济全球化带来的行业竞争不断加剧,国内金融业对票据自动化处理系统的需求也渐大,票据自动处理系统的市场前景十分广阔。 票据自动处理系统以实现自动的票据输入与复核为目标,覆盖了从前端信息录入到后端事后监督的主要部分:直接从票据凭证影像中提取要素数据(如凭证号,账号,日期,金额,磁码等),在后台进行OCR流水识别,自动建立凭证索引,以便于支票图像存档检索;与银行事后监督系统相结合,生成待监督数据文件,通过与流水识别取得的业务系统中临柜帐务数据进行核对,替代操作人员完成事后监督工作;配有印章验证系统后,自动将凭证图像中的客户印章与系统中预留的印鉴进行比较,完成印章的真伪识别,提升银行业务处理效率。 作为票据自动化处理过程中不可或缺的核心技术,票据OCR系统主要根据票据影像,来完成种类和主附件关系的判定,以及票据要素的自动提取以及识别,并将数据提供给后续的相关业务使用。在学科上票据OCR识别属于模式识别和人工智能的范畴,不仅对银行业有非常大的实用价值,而且容易在其他领域中得到转化应用,在国内外保险、海关、税务、教育、邮政、医务、政府行政管理等领域都有着广泛的应用前景。 票据自动处理系统实际应用的关键在于,确保票据各识别域识别结果的高可靠性。本文对票据自动处理系统的各个模块进行相应的分析,对票据自动识别中的若干关键技术进行了深入的研究,并给出了相应的实现方案。主要研究工作可归纳为以下三部分: (一)在版面分析中,首先根据票据中框线目标的特点,提出了一种有效的框线检测与提取算法;其次,基于框线提取,采用基于框线相关性的相似度模型来计算票据框线间的相似度,提出了由粗到细的多类别票据版面判定的方法。在真实数据集上的试验结果表明了该算法的有效性。 (二)预处理中,根据票据图像的特点1)通过综合字符笔画双边缘特征与背景抑制增强,来提取复杂背景下识别域子图中的字符目标;2)采用连通链结构来描述框线检测结果与字符目标提取结果融合后的框线区域,通过对交叠进行检测和标记,来判别字符与框线的交叠方式,并据此保留字符笔画去除框线干扰,还原待识别字串真实的面貌;3)结合轮廓分析与拓扑结构分析,来确定粘连数字串的分割策略,对无限制手写数字字符串进行有效的切分。最后采用视觉效果评判和基于字符识别的同类算法对比实验的评价方式,结果证实了提出的算法更为有效。 (三)在手写体数字字符识别中,分别从构建代表训练样本集和组合分类器与特征的角度出发,对手写体数字识别进行了研究,提出了基于AP与LDA的手写阿拉伯数字识别算法,及组合结构特征和统计特征的手写数字识别算法。所提算法在仿真数据集以及现实应用中都取得了比较好的效果。 本文最后简要介绍了票据自动识别子系统在银行票据后督系统和支票影像交换系统行内系统中的应用实例,均已在实际中得到应用,取得了良好的效果。
【图文】:
中表格框线等非文字信息,起到指导和规范人们阅读表格内容和填写的作用。同一种类票据,它的预打印信息的位置和内容是一致的。填写信息指的是票据在流通过程中,,用户或银行业务人员填写的信息,如金额、账号、日期、印章等。图1.2.1中是几种常见的票据文档示例,包括银行支票、商业发票、税单等(注:全文多处示例来自于.2.
瘾豁豁三姗群鲜翔矍 矍(c)匹配结果二图2实验在CpU为 peniium42.660,线检测到票据分类识别,平均用时为表2(d)匹配结果三本文算法匹配结果内存为IG的PC上进行,每一张票据图像从框 0.1615。票据图像分类结果分类结果粗检正确张数正确率/(%)细检正确张数正确率/(%)测试集测试集2模板框线框线检测框线检测 213205100.096.2 213186100.087.3 21141993从表2.5.1中可以看出,测试集1中的模板框线是一种理想情况,它直接使用了手工标定的框线信息进行匹配,有较高的分类正确率。而用框线检测算法提取票据框线的情况,与理想情况有一定的差距。此外,同种情况下测试集2的正确率要高于测试集1,这是由于测试集1中的票种较多,而部分票据图像框线检测结果较差,这直接影响了分类正确率;而测试集2中的票据种类相对集中,框线检测效果较好。经过分析发现,识别错误的多是版面复杂,短框线较多的票据。导致分类识别错误的原因主要有:1)印章图象的干扰导致的框线检测失败;2)不规则外框中部分关键短框线的误检漏检直接导致外框检测失败;3)部分票据存在撕毁现象等。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TH693
本文编号:2674776
【图文】:
中表格框线等非文字信息,起到指导和规范人们阅读表格内容和填写的作用。同一种类票据,它的预打印信息的位置和内容是一致的。填写信息指的是票据在流通过程中,,用户或银行业务人员填写的信息,如金额、账号、日期、印章等。图1.2.1中是几种常见的票据文档示例,包括银行支票、商业发票、税单等(注:全文多处示例来自于.2.
瘾豁豁三姗群鲜翔矍 矍(c)匹配结果二图2实验在CpU为 peniium42.660,线检测到票据分类识别,平均用时为表2(d)匹配结果三本文算法匹配结果内存为IG的PC上进行,每一张票据图像从框 0.1615。票据图像分类结果分类结果粗检正确张数正确率/(%)细检正确张数正确率/(%)测试集测试集2模板框线框线检测框线检测 213205100.096.2 213186100.087.3 21141993从表2.5.1中可以看出,测试集1中的模板框线是一种理想情况,它直接使用了手工标定的框线信息进行匹配,有较高的分类正确率。而用框线检测算法提取票据框线的情况,与理想情况有一定的差距。此外,同种情况下测试集2的正确率要高于测试集1,这是由于测试集1中的票种较多,而部分票据图像框线检测结果较差,这直接影响了分类正确率;而测试集2中的票据种类相对集中,框线检测效果较好。经过分析发现,识别错误的多是版面复杂,短框线较多的票据。导致分类识别错误的原因主要有:1)印章图象的干扰导致的框线检测失败;2)不规则外框中部分关键短框线的误检漏检直接导致外框检测失败;3)部分票据存在撕毁现象等。
【学位授予单位】:南京理工大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TH693
【引证文献】
相关博士学位论文 前1条
1 时愈;灰度不均匀的曲线形态检测方法及应用研究[D];华中科技大学;2014年
相关硕士学位论文 前10条
1 林强;基于OCR的支票识别系统的研究与实现[D];北京邮电大学;2010年
2 刘培根;银行票据手写数字串识别的预处理与分割[D];南京理工大学;2012年
3 潘宇;票据图像分类的技术研究[D];南京理工大学;2012年
4 陆军;银行支票中手写用途域字串识别[D];南京理工大学;2013年
5 郝梦琳;手写体数字识别方法的研究与实现[D];太原科技大学;2013年
6 汪磊;基于结构特征提取的选票分析系统的设计与研究[D];安徽大学;2013年
7 虞飞;机打普通商业发票识别系统研究[D];华南理工大学;2013年
8 孙忠礼;面向问卷自动识别系统的版面定义器的设计与实现[D];沈阳工业大学;2014年
9 袁善磊;问卷自动分析系统中手写符号的识别及可视化方法研究[D];沈阳工业大学;2014年
10 尤权锋;饮食业地方税收发票识别算法研究与实现[D];华南理工大学;2014年
本文编号:2674776
本文链接:https://www.wllwen.com/kejilunwen/jixiegongcheng/2674776.html