当前位置:主页 > 医学论文 > 医卫管理论文 >

Web文本中症状命名实体识别系统

发布时间:2025-01-04 05:34
  网络上存在着大量的、宝贵的临床医疗信息,仅专业医疗网站就几十个。但从网络上提取医学知识并结构化、建立医学知识图谱,进而实施医学诊断一直是WEB挖掘领域非常具有挑战的工作。在以往的研究中,很多学者通过命名实体识别技术从网页文本信息中识别疾病、症状、诱因、化验指标、治疗措施等相关术语,并建立起各类词语间的相互关系。由于症状实体的表述有很多俗语表示,至今还没有标准、完善的症状库。对症状实体的识别,也一直没有较好的途径。为解决这一问题,本文使用JAVA语言开发了一个基于症状实体构成规则的Web文本中症状实体识别系统。并针对症状实体识别过程中的具体问题设计了相应的策略:(1)识别、提取专业医疗网站中的结构化症状信息。策略1给出了通用网站中提取症状实体的流程。策略2给出了爬取过程中断点续传的功能途径,用于解决程序中断问题。系统运行结果表明,共获取症状实体18114个。(2)从症状列表中提取部位词和强症状词,为之后的部位词+强症状词组合成症状提供基础数据。根据大部分症状是由部位词+强症状词组合而成的特点,设计了策略3,从策略1、策略2中已获取的症状实体18114个中提取部位词。系统运行后,共获取部位词...

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

图2-1基本分词使用示例

图2-1基本分词使用示例

AnsjSeg分词工具有四种可供选择的调用方式,即基本分词-BaseAnalysis、精准分词-ToAnalysis、nlp分词-NlpAnalysis、面向索引的分词-IndexAnalysis。(1)基本分词基本分词是这四种模式中最简单快捷的一种模式,它所涉及的词汇量近....


图2-2精准分词使用示例

图2-2精准分词使用示例

图2-2精准分词使用示例(3)NLP分词NLP分词是在功能支持上最全面的一种模式,对比精准分词,它增加了机构名识别和新词发现的功能,可以识别出未登录的词。适用于以下几种情景:实体名抽取、整理未登录词、文本分析等。功能上较为齐全,只是在速度上较其他几种分词模式都要慢,仅4....


图2-3NLP分词使用示例

图2-3NLP分词使用示例

图2-2精准分词使用示例(3)NLP分词NLP分词是在功能支持上最全面的一种模式,对比精准分词,它增加了机构名识别和新词发现的功能,可以识别出未登录的词。适用于以下几种情景:实体名抽取、整理未登录词、文本分析等。功能上较为齐全,只是在速度上较其他几种分词模式都要慢,仅4....


图2-4面向索引的分词使用示例

图2-4面向索引的分词使用示例

第2章相关技术和资源东路/nr]。准确率准确率和召回本身是具有一定矛盾性的,AnsjSeg其中一个优点就是巧妙的避开了召回率和准确率之间的冲突。召回的过程是先通过精准分词模式获得分词后结果,再对其进行细分,很好的解决了这个问题。如表2-7,面向索引的分词方法有以下功....



本文编号:4022982

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/4022982.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4b45a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com