当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Tesseract的医学化验单内容识别技术

发布时间:2023-04-26 21:02
  目的由于化验单内容可以真实地记录患者健康状态,因此将纸质的化验单转为医疗电子档案进行存储在进行保险理赔、转院、远程会诊、建立健康档案时都具有重要作用。但目前在临床上尚缺乏能识别化验单内容,把化验单直接转成医疗电子档案的工具,为此本文设计了一套完整的自动化医学化验单内容的光学字符识别(optical character recognition,OCR)方法。方法首先对化验单图像进行预处理,利用大津法对化验单图像进行二值化、用霍夫变换对图像进行抗扭斜和特征提取,然后使用Tesseract的集束搜索算法和K邻近算法对化验单内容进行识别,对字库进行训练,利用医学词典文件与模糊字文件来对识别内容进行纠错,并以此建立医学化验单OCR引擎。最后利用从上海某社区医院收集的302条化验单数据对OCR引擎的准确率进行了评估。结果经评估验证,本文方法的识别准确率为92. 72%,可基本满足临床需求。结论基于Tesseract建立的医学化验单OCR引擎可以免去手动输入化验单数据的麻烦,医生仅需拍照上传化验单照片,即可将化验单中的内容转成结构化医疗电子档案,极大提高了医生的工作效率,有助于数据的进一步利用。

【文章页数】:7 页

【文章目录】:
0 引言
1 方法
    1.1 化验单图像预处理
        1.1.1 化验单图像二值化
        1.1.2 化验单图像抗扭斜
        1.1.3 化验单图像特征提取
    1.2 医学化验单OCR技术
        1.2.1 页面版式分析
        1.2.2 字库训练步骤
    1.3 医学化验单OCR引擎开发
2 识别准确率的验证结果及分析
3 讨论与结论



本文编号:3802180

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3802180.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7d94a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com