基于Android的智能信息采集功能研究与实现

发布时间:2024-02-19 08:57
  随着现代社会的发展和互联网技术的日渐成熟,我们的生活中充斥着越来越多的信息,它们由手机、电脑等智能设备所承载,以文字、图像等形式存在。在众多图像信息中,包含着一些比较重要的文字信息需要被提取,从而进一步被人们存储和使用。光学字符识别技术(OCR,Optical Character Recognition),对图像中文本区域进行提取,将文本与背景形成的亮、暗转化成黑、白的二维数字图像,通过对其特征提取和模板匹配,将文本图像自动输入成文本文档的过程。在通过光学字符识别之后的文本正确率不能保证100%,此时需要对提取后的文本进行语义级别的后处理操作。本文针对智能信息采集功能的文本后处理技术进行了深入的研究,针对现有的N-gram语言模型,结合文字与其前后相邻字组成词语的特点,提出一种双向N-gram模型,并根据OCR输出的特点,提出一种基于滑动窗口的自适应文本后处理方法,设计并实现了基于Android平台设计了智能信息采集功能系统。本文主要完成了以下几个部分的内容:(1)智能信息采集系统中运用到的关键技术,包括用于文本图像的文字信息提取的OCR技术,着重研究了文字信息提取后的文本后处理技术,...

【文章页数】:62 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景与选题意义
    1.2 相关技术国内外发展研究现状
        1.2.1 OCR技术
        1.2.2 文本后处理
    1.3 论文主要研究内容及组织结构
第二章 智能信息采集系统的关键技术研究
    2.1 OCR技术
        2.1.1 OCR引擎
        2.1.2 Tesseract-OCR引擎架构分析
        2.1.3 OCR识别常见错误分类
    2.2 文本后处理技术
        2.2.1 基于句法分析文本后处理技术
        2.2.2 基于语言模型的文本后处理技术
    2.3 语言模型概述
        2.3.1 基于规则的语言模型
        2.3.2 N-gram模型
    2.4 本章小结
第三章 基于双向N-gram模型和滑动窗口的文本后处理算法
    3.1 巡检系统中文本特点分析
    3.2 前后双向N-gram模型
    3.3 算法的设计方案
        3.3.1 算法的详细过程
        3.3.2 阈值v1的确定
        3.3.3 数据稀疏问题
    3.4 对比实验与分析
        3.4.1 算法的计算次数对比分析
        3.4.2 算法的检错率对比分析
        3.4.3 算法的纠错率对比分析
    3.5 本章小结
第四章 智能信息采集系统方案设计与实现
    4.1 需求分析与架构设计
    4.2 Android平台介绍及开发特点
    4.3 系统功能模块实现
        4.3.1 图像采集模块
        4.3.2 预处理模块
        4.3.3 信息提取模块
        4.3.4 文本后处理模块
    4.4 系统测试结果与分析
        4.4.1 系统测试环境
        4.4.2 系统模块测试
    4.5 本章小结
第五章 总结与展望
    5.1 文章总结
    5.2 工作展望
参考文献
致谢
攻读硕士学位期间取得成果



本文编号:3902437

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3902437.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cf7cf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com