当前位置:主页 > 医学论文 > 医卫管理论文 >

虚拟健康社区中的命名实体识别方法研究

发布时间:2021-11-01 02:51
  虚拟健康社区已经成为当前非常流行的健康信息交流平台,人们可以从其他人那里获取有用的信息并和他们交流经验。然而,很多有价值的健康信息是隐藏在非结构化文档中,这些信息很难变成能够为医生和病人提供医学帮助的知识。现有的研究往往聚焦于电子病历中的文本信息提取和知识发现,而不考虑目前被人们广泛使用的虚拟健康社区。然而,虚拟健康社区已经成为一种新的健康信息交流手段,其中蕴涵了大量的健康知识,这些健康知识的提取和发现对辅助医疗决策具有重要意义。命名实体识别是文本中的信息提取和知识发现的重要环节,本论文针对虚拟健康社区,研究网络文本中的健康实体抽取方法,提出了一种新的命名实体和实体修饰识别方法。该方法引入了中文统一医学语言系统(CUMLS),并基于中文在线医疗网站构建了一个新的医学词典。在此基础上,该方法使用潜在狄利克雷概率模型(LDA)和基于规则的方法抽取文本中的特征,并应用BIEO方法进行特征标注,进而应用条件随机场(CRF)识别健康命名实体和它们的类型。此外,本文采用基于中文语义规则的方法对实体修饰进行了识别,主要针对否定修饰、时间修饰和检查实体的修饰,通过对中文表达的分析,提取相关修饰的规则,... 

【文章来源】:北京理工大学北京市 211工程院校 985工程院校

【文章页数】:58 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景
    1.2 研究目的和意义
    1.3 研究内容
    1.4 论文组织结构
第2章 研究现状
    2.1 基于词典和规则方法的命名实体识别
    2.2 基于机器学习方法的命名实体识别
        2.2.1 基于分类算法的机器学习
        2.2.2 基于序列标记的机器学习
    2.3 命名实体修饰识别
    2.4 研究述评
第3章 命名实体识别方法
    3.1 概述
    3.2 命名实体及词典
        3.2.1 命名实体类型
        3.2.2 受控词典
    3.3 分词及词性标记
    3.4 狄利克雷主题概率模型
        3.4.1 主题概率模型
        3.4.2 吉布斯采样
        3.4.3 最短编辑距离
    3.5 中文语义特征
    3.6 文本特征标记
    3.7 条件随机场模型
        3.7.1 序列标记
        3.7.2 条件随机场
        3.7.3 CRF++
    3.8 本章小结
第4章 实体修饰识别方法
    4.1 概述
    4.2 否定修饰的提取
    4.3 时间的修饰
        4.3.1 时间表达的划分
        4.3.2 时间修饰识别
    4.4 检查实体的修饰提取
    4.5 本章小结
第5章 实验过程与结果分析
    5.1 数据准备
    5.2 实体识别评价标准
    5.3 LDA参数选择
    5.4 实验结果
        5.4.1 不同特征选择的比较
        5.4.2 命名实体结果的比较
        5.4.3 显著性分析
        5.4.4 修饰识别结果
第6章 讨论与展望
    6.1 工作总结
    6.2 主要创新点
    6.3 未来展望
参考文献
攻读学位期间发表论文与研究成果清单
致谢


【参考文献】:
期刊论文
[1]中文一体化医学语言系统的构建与应用[J]. 李丹亚,胡铁军,李军莲,钱庆,诸文雁.  情报杂志. 2011(02)

硕士论文
[1]中文病历文本的时间信息提取研究[D]. 周小甲.浙江大学 2011



本文编号:3469378

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3469378.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f5159***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com