面向队列研究的数据校验方法设计与实现
发布时间:2022-02-12 22:03
队列研究是国际公认的探讨常见重大疾病病因的有效方法,由于各种人为因素的影响和队列管理信息系统自身的问题,队列研究在数据采集的不同环节中会出现数据填写错误,填写遗漏,录入错误和录入遗漏等问题。传统的措施大多是针对某一环节进行人工校验,不能全面覆盖不同环节的数据问题,而且需要耗费较高的时间和人力成本。针对以上问题,本论文应用表单识别技术和电子病历(Electronic MedicalRecord,EMR)信息提取技术,开展了面向队列研究的自动化数据校验方法的设计与实现,具体的内容包括:1.调研和分析了表单识别的相关技术,设计了一种基于纸质病例报告表(CaseReport Form,CRF)的自动化数据校验方法。利用基于描述语言的方法为CRF构建描述模型完成表单结构的识别,利用机器学习的方法对CRF中的勾选标记和手写数字进行识别,应用识别结果对数据进行自动校验。针对具体队列研究中的录入数据进行校验,查准率、查全率和F1值分别为79.06%、89.04%和83.75%。2.调研和分析了电子病历的信息提取技术,设计了一种基于电子病历的自动化数据校验方法。根据队列研究的数据校验需求,利用基于规则的...
【文章来源】:浙江大学浙江省211工程院校985工程院校教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2.3?XML示例??通过对CRF的分析和抽象,本系统设计的CRF描述模型的结构如图2.4所示
??在实际应用中,将扫描图像与设计描述模型时采用的表单图像比较,可能会存在倾斜??和缩放的问题,如图2.5所示,此时根椐描述模型中的定位信息提取出来的单元格内容不??准确。为了准确定位待识别区域,需要通过计算得到倾斜缩放图像中的映射坐标。根据表??单边框四个角的坐标计算出图像的倾斜角度rotation和对角线长度diagonal,利用模型和??扫描图像的这两个属性可以计算出扫描图像相对于模型的倾斜角度和缩放比例,从而计算??出映射后的新坐标。??x??x??摸型?扫裙S繁??图2.5图像发生倾斜和缩放??2.2.4解析模块的设计??对描述模型进行解析本质上就是对XML文件进行解析,各种编程语言都有成熟的解??析XML文件的工具包或者AP[。Java作为一种被广泛使用的计算机编程语言,具有面向??对象、跨平台、多线程和高性能的特性,所以本模块拟采用Java语言进行实现。借助于??W3C组织官方实现的有关文档对象模型(Document?Object?Model,?DOM?)的类,如Document、??Element和NodeList等
包括读入扫描图像、图像预处理、解析描述模型以及具体的识别操作,并暴露接口??以供调用;二是FormTemplate类,用于保存描述模型的解析结果,并封装利用解析结果完??成进一步识别的方法。这两个类的UML图如图2.6和图2.7所示。??-shapeS?ize:?i??-processed?Res?ults;??AnayList<H?ashMap<Slring,?String???-groupsEnabled:?boolean??-template:?FormTemplate??-filledForm:?FormTemplate??-areas:?Array?Li.st<ForniArea>??-points:?AiTayList<FormPoint>??-getl?mages?(A?rray?List<Fi?Ie>)??-getl'emj3late?(File)??-analyzeFiles?(String)??图?2.6?FormProcessModel?类的?UML?图??^??,,?....?.??-lieldPoints:?AirayList<FonnPoint>??-fieldArcas:?ArrayList<FormArea>??-version:?String??-coniej*s:?HashMap<String
【参考文献】:
期刊论文
[1]面向半结构化电子病历的隐私数据发布系统设计[J]. 臧昊,吴响,俞啸,赵强. 自动化技术与应用. 2017(10)
[2]基于本体的电子病历后结构化模型关键技术[J]. 曾红武,彭丽. 中华医学图书情报杂志. 2017(08)
[3]非结构化电子病历关系抽取的机器学习[J]. 倪晓华. 中国数字医学. 2017(06)
[4]基于自然语言处理的中文产科电子病历研究[J]. 张坤丽,马鸿超,赵悦淑,昝红英,庄雷. 郑州大学学报(理学版). 2017(04)
[5]我国电子病历的应用现状[J]. 李新超,孟月莉,刘立煌,李静,饶克勤. 中华医学图书情报杂志. 2016(08)
[6]国内电子病历发展与应用现状分析[J]. 马锡坤,杨国斌,于京杰. 计算机应用与软件. 2015(01)
[7]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[8]基于规则库的电子病历信息抽取研究[J]. 苏韶生,杨勇,程敏婷,张淑娟. 中国数字医学. 2014(07)
[9]基于语义关系的高血压临床指南知识库构建[J]. 李博,李科,曾东,周焕来. 中国数字医学. 2013 (09)
[10]浅析我国电子病历的发展现状[J]. 李鹏,李昕. 中国病案. 2013(05)
博士论文
[1]非限制手写字符分割中相关技术与算法的研究[D]. 马瑞.南京理工大学 2007
[2]中文版面分析关键技术的研究[D]. 靳从.南京理工大学 2007
硕士论文
[1]面向中文电子病历的词性标注技术研究[D]. 赵芳芳.哈尔滨工业大学 2014
[2]非结构化病历文档结构化转换方法研究[D]. 李伟.河北工业大学 2013
[3]基于模型驱动的表格识别的研究[D]. 张慧.山东大学 2011
本文编号:3622462
【文章来源】:浙江大学浙江省211工程院校985工程院校教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
图2.3?XML示例??通过对CRF的分析和抽象,本系统设计的CRF描述模型的结构如图2.4所示
??在实际应用中,将扫描图像与设计描述模型时采用的表单图像比较,可能会存在倾斜??和缩放的问题,如图2.5所示,此时根椐描述模型中的定位信息提取出来的单元格内容不??准确。为了准确定位待识别区域,需要通过计算得到倾斜缩放图像中的映射坐标。根据表??单边框四个角的坐标计算出图像的倾斜角度rotation和对角线长度diagonal,利用模型和??扫描图像的这两个属性可以计算出扫描图像相对于模型的倾斜角度和缩放比例,从而计算??出映射后的新坐标。??x??x??摸型?扫裙S繁??图2.5图像发生倾斜和缩放??2.2.4解析模块的设计??对描述模型进行解析本质上就是对XML文件进行解析,各种编程语言都有成熟的解??析XML文件的工具包或者AP[。Java作为一种被广泛使用的计算机编程语言,具有面向??对象、跨平台、多线程和高性能的特性,所以本模块拟采用Java语言进行实现。借助于??W3C组织官方实现的有关文档对象模型(Document?Object?Model,?DOM?)的类,如Document、??Element和NodeList等
包括读入扫描图像、图像预处理、解析描述模型以及具体的识别操作,并暴露接口??以供调用;二是FormTemplate类,用于保存描述模型的解析结果,并封装利用解析结果完??成进一步识别的方法。这两个类的UML图如图2.6和图2.7所示。??-shapeS?ize:?i??-processed?Res?ults;??AnayList<H?ashMap<Slring,?String???-groupsEnabled:?boolean??-template:?FormTemplate??-filledForm:?FormTemplate??-areas:?Array?Li.st<ForniArea>??-points:?AiTayList<FormPoint>??-getl?mages?(A?rray?List<Fi?Ie>)??-getl'emj3late?(File)??-analyzeFiles?(String)??图?2.6?FormProcessModel?类的?UML?图??^??,,?....?.??-lieldPoints:?AirayList<FonnPoint>??-fieldArcas:?ArrayList<FormArea>??-version:?String??-coniej*s:?HashMap<String
【参考文献】:
期刊论文
[1]面向半结构化电子病历的隐私数据发布系统设计[J]. 臧昊,吴响,俞啸,赵强. 自动化技术与应用. 2017(10)
[2]基于本体的电子病历后结构化模型关键技术[J]. 曾红武,彭丽. 中华医学图书情报杂志. 2017(08)
[3]非结构化电子病历关系抽取的机器学习[J]. 倪晓华. 中国数字医学. 2017(06)
[4]基于自然语言处理的中文产科电子病历研究[J]. 张坤丽,马鸿超,赵悦淑,昝红英,庄雷. 郑州大学学报(理学版). 2017(04)
[5]我国电子病历的应用现状[J]. 李新超,孟月莉,刘立煌,李静,饶克勤. 中华医学图书情报杂志. 2016(08)
[6]国内电子病历发展与应用现状分析[J]. 马锡坤,杨国斌,于京杰. 计算机应用与软件. 2015(01)
[7]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏. 自动化学报. 2014(08)
[8]基于规则库的电子病历信息抽取研究[J]. 苏韶生,杨勇,程敏婷,张淑娟. 中国数字医学. 2014(07)
[9]基于语义关系的高血压临床指南知识库构建[J]. 李博,李科,曾东,周焕来. 中国数字医学. 2013 (09)
[10]浅析我国电子病历的发展现状[J]. 李鹏,李昕. 中国病案. 2013(05)
博士论文
[1]非限制手写字符分割中相关技术与算法的研究[D]. 马瑞.南京理工大学 2007
[2]中文版面分析关键技术的研究[D]. 靳从.南京理工大学 2007
硕士论文
[1]面向中文电子病历的词性标注技术研究[D]. 赵芳芳.哈尔滨工业大学 2014
[2]非结构化病历文档结构化转换方法研究[D]. 李伟.河北工业大学 2013
[3]基于模型驱动的表格识别的研究[D]. 张慧.山东大学 2011
本文编号:3622462
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3622462.html