基于语义的医疗实体名称识别算法与医疗语境识别算法
发布时间:2020-08-02 21:31
【摘要】:在中国医疗网站中存在海量的网络医疗文本数据,这些数据中存在大量的医学信息。但由于医疗文本数据量大、结构化程度低等原因,其中的关键信息难以获取。因此,医疗文本中的关键性数据的识别和提取工作具有重要意义。本文针对网络文本数据中的医学实体名称和实体之间关系,提出了基于词典和基于规则的两种医疗实体名称识别算法。针对网络文本中医疗语境的分类问题,设计了医疗语境识别算法。本文主要工作如下。1.网络文本数据和词典获取本文使用HtmlUnit和JSoup框架相结合的方式开发爬虫软件。从医疗网站中,按照科室分类的方法,获取各个科室内的咨询链接中的文本数据。从医疗网站中共获取120,171条网页数据。本文从ALEXA上选取的多个医学网站、国家食品药品监督局官网、疾病资源ICD-10收集的信息,建立专业领域词典,涉及疾病词典、症状词典、药物词典、手术词典、检查词典、食物词典。2.医疗实体名称识别算法本文利用自主开发的爬虫软件获取到的医疗实体名称组建词典,设计了基于词典的医疗实体名称识别算法,用于识别疾病、症状、药物、手术、检查、食物6类实体。此外,针对疾病实体,本文还提出了一种基于规则的疾病命名实体识别算法。该算法依据语义规律,获取疾病命名实体首部、中部、尾部的各部位特征词汇。在文本检索时,包含特征词汇且满足本文设计的三条规则之一,即为疾病命名实体。3.医疗语境识别算法基于本文设计的医疗实体名称识别算法,提出了基于文本语义的医疗语境识别算法,将医疗语境分为诊断语境、治疗语境、和康复语境。该算法通过判断文本中包含的实体名称类型和标志词,识别不同类型的医疗语境。根据大量实验数据分析,在识别过程中将诊断语境细分为医生诊断语境和患者诊断语境,将治疗语境细分为医生治疗语境和患者治疗语境,可以显著提高识别准确度。本文设计基于词典的实体名称识别算法,平均正确率为82.64%,平均召回率为67.25%,平均调和平均F值(F-measure)为72.54%。设计基于规则的疾病识别算法识别疾病名称,该算法正确率为60.42%,召回率为80.99%,调和平均值(F-measure)为69.21%。设计医疗语境分类识别算法,识别诊断语境、治疗语境、康复语境三类医疗语境,平均正确率为77.97%,平均召回率为68.54%,平均F值为72.95%。对比实验数据,本文提出的基于词典的实体识别算法和基于规则的疾病识别算法效果良好。对比传统医学实体名称识别算法,该算法具有可靠性,并在准确度上有一定的提升。医疗语境识别算法能在区分复杂医疗文本语境中有良好表现。
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;R319
【图文】:
医疗网站中科室及其二级科室结构示意图
医疗网站中咨询列表示意图
(c) 疾病结束标志词图 3-9 各部位疾病标志词条疾病名称识别规则,使用中的疾病实体。方法获取疾病实体名称出28 条,满足规则 2 的疾病。基于规则的疾病实体名称
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;R319
【图文】:
医疗网站中科室及其二级科室结构示意图
医疗网站中咨询列表示意图
(c) 疾病结束标志词图 3-9 各部位疾病标志词条疾病名称识别规则,使用中的疾病实体。方法获取疾病实体名称出28 条,满足规则 2 的疾病。基于规则的疾病实体名称
【参考文献】
相关期刊论文 前6条
1 夏光辉;李军莲;阮学平;;基于实体词典与机器学习的基因命名实体识别[J];医学信息学杂志;2015年12期
2 杨兰;于明;王婷艳;宁温馨;;计算机辅助ICD-10编码系统的应用[J];中国病案;2015年12期
3 杨锦锋;于秋滨;关毅;蒋志鹏;;电子病历命名实体识别和实体关系抽取研究综述[J];自动化学报;2014年08期
4 吴嘉伟;关毅;吕新波;;基于深度学习的电子病历中实体关系抽取[J];智能计算机与应用;2014年03期
5 叶枫;陈莺莺;周根贵;李昊e
本文编号:2779091
本文链接:https://www.wllwen.com/yixuelunwen/swyx/2779091.html