当前位置:主页 > 科技论文 > 软件论文 >

面向医疗数据的实体分析与自动编码技术研究与应用

发布时间:2021-08-08 15:21
  近年来,随着国内电子病历系统的普及,医疗文本的积累也越来越多。医疗文本中往往包含大量患者的重要诊疗信息,如疾病名称、症状、诊疗记录等。有效分析这些数据,对于病情分析、疾病预防等后续的相关工作具有重要作用。因此,对电子病历的挖掘和分析在数据处理领域越来越受关注。电子病历中的信息多以文本形式表示,而且在病历撰写时由于医生的个人习惯等原因,对于疾病名称、症状描述等术语使用并不统一,导致后续对接医疗费用支付系统、医学数据统计等工作时出现误差。因此将临床文本数据映射到标准的术语库,用编码表示文本具有重要意义。本文对医疗领域数据的实体分析和自动编码进行研究。主要工作如下:1)提出了一种基于Att-Bi-LSTM-CRF的临床文本实体识别方法。该方法将中文笔画n-gram信息词向量(cw2vec)与基于字符向量的双向长短期记忆(Bi-LSTM)网络结合使用,通过注意力机制决定哪些信息更重要,为了使预测标签更具合理性,采用条件随机场(CRF)实现标注。2)提出了一种基于卷积神经网络和K-means的短文本聚类方法。由于疾病文本数据的稀疏性,通过外部ICD-10术语库扩充短文本数据,采用word2vec... 

【文章来源】:河北科技大学河北省

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

面向医疗数据的实体分析与自动编码技术研究与应用


每条记录编码分布图

频率分布,频率分布,自动编码,对照表


34模型。本文选取编码被分配的疾病诊断描述大于平均数36的编码,共271个唯一的编码,72265个诊断描述,其中训练集数据包括58820个诊断,验证集包含4183个诊断,测试集包含9862个诊断。图5-3显示了前50个编码的数量分配。图5-2每条记录编码分布图图5-3ICD编码频率分布图5.2.2基于深度学习的疾病自动编码模型目前关于自动编码的研究,大多数都是在英文语料库上进行的,只有少数研究是基于中文医疗数据,针对中文医疗数据的自动编码,多采用传统的规则方法或相似度计算方法。基于规则的方法将医生临床诊断由编码员编码后写入对照表,然后逐渐生成常用诊断与编码的对照表,该方法依赖于人工,费时费力,编码员编码过程中也可能存在错误,且对照表之外的编码准确率低;为了避免人工编码,研究者

术语,示例,疾病


405.3.1数据集来源及预处理疾病编码的标准术语库是ICD,本章采用的数据是ICD-10术语库中的六位扩展码,数据可从网上下载,ICD-10是目前国内医院编码常用的术语库。原始数据存储在excel表中,数据包括主要编码、附加编码和对应的疾病名称,只有少数疾病有附加编码。为了后续实验使用数据,本文将数据通过程序转储成xml格式,转换后数据内容不变,标准诊断库示例如图5-5所示。图5-5标准术语库示例计算医生书写的临床诊断与标准ICD术语库中的疾病名称之间的相似度,需要先对数据进行分词,并生成字典和向量语料库。分词:首先对医疗数据进行分词,由于领域分词准确率较低,且分词结果会影响最终结果,为了提高分词的准确度,本分别构建了身体部位术语库、疾病程度和修饰词术语库和少见疾病相关名词术语库,各术语库的示例如表5-6所示。加载构建好的术语库。然后采用jieba分词对6位扩展码数据中的疾病名称和输入的医生书写的临床诊断描述分词,并将分词结果返回列表。表5-6术语库示例术语库身体部位疾病程度、修饰疾病样例手足口、拇指、壶腹部、腺样体、左、右、左侧、右侧、卵巢内、支气管等早期、急性、轻度、重度、中度、Ⅰ度、迟发型、完全性、坏死性、中央型等鞘膜、肺囊状腺样、臀先露、膈疝、斜疝、肺透明膜并膜样囊肿等生成字典和向量语料库:对术语库中疾病名称的分词结果列表建立词典,并将其分词列表转换为稀疏向量。同样对输入的医生诊断描述分词,之后转换成二元组向量。本文采用第三方工具包Gensim生成字典和向量语料库,首先为分词列表中的

【参考文献】:
期刊论文
[1]基于半监督聚类的网络嵌入方法[J]. 张静,李文斌,张志敏.  河北工业科技. 2019(04)
[2]结合词性信息的基于注意力机制的双向LSTM的中文文本分类[J]. 高成亮,徐华,高凯.  河北科技大学学报. 2018(05)
[3]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲.  Journal of Shanghai Jiaotong University(Science). 2018(03)
[4]基于多特征融合的中文电子病历命名实体识别[J]. 于楠,王普,翁壮,方丽英.  北京生物医学工程. 2018(03)
[5]一种结合上下文语义的短文本聚类算法[J]. 张群,王红军,王伦文.  计算机科学. 2016(S2)
[6]ICD-10智能辅助编码方法的探讨[J]. 杨华,汪凯,郑晓华.  中国病案. 2016(09)
[7]基于语义相似度计算的临床诊断自动编码算法研究[J]. 宁温馨,于明.  医学信息学杂志. 2016(02)
[8]基于文本分析的自动化疾病编码方法[J]. 鲍庆升,程绍银,蒋凡.  计算机系统应用. 2015(12)
[9]基于语义扩展的句子相似度算法[J]. 冶忠林,贾真,杨燕,尹红风.  山西大学学报(自然科学版). 2015(03)
[10]结合语义改进的K-means短文本聚类算法[J]. 邱云飞,赵彬,林明明,王伟.  计算机工程与应用. 2016(19)

硕士论文
[1]疾病分类系统的研究与应用[D]. 温赟.清华大学 2012



本文编号:3330200

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3330200.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bc81c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com