基于FAERS数据的共病关系挖掘与分析

发布时间：2020-07-21 08:24

【摘要】：随着电子病历的大规模使用,有大量研究基于电子病历所提供的数据做数据分析。数据研究表明在疾病中存在大量的而广泛的共病现象。共病的产生和研究对日后的对疾病产生的机理和对有共同点的疾病的预防和治疗有着重要作用。在本课题中,使用了更加丰富的数据源,更有优势的算法,旨在得到更为广泛或更为难以发现的共病对。本课题对美国食品和药品管理局药品不良反应报告系统(FAERS)所提供的病历数据实现挖掘和分析。在此基础上,对共病对做网络化,实现可视化。通过聚类研究,将其中一些疾病分类。通过前期的发掘,实现了对共病对的数据分析和预测。本课题从FAERS数据库中选择了2012年第4季度至2017年第1季度的所有数据做处理,选取了健康数据科学与信息学观测中心(Observational Health Data Sciences and Informatics,OHDSI)对数据进行了清洗。在数据处理方面,主要完成了数据的归一化,数据的提取、去重等工作。在经过数据的预处理之后,解决了FAERS数据库特有的数据不够清晰的问题。之前对于共病的研究有两个问题,第一是由于数据源的单一性,大多数研究者会针对一种单一的数据源做数据分析;第二是数据分析方法的缺点,前人大多使用统计方法,并且只针对一对数据。在本课题中,使用了FAERS数据库的资源,在数据的广度和复杂性上要强于之前的研究。在方法的选择中,使用关联规则算法+网络图+数据分析的模式,使得得出的结论更有说服力,并针对多重共病对,更加全面。实验结果表明,本课题中得到的网络图分析的结果对比已知的数据是成立的,在数据分析方面,得出了有效的结果。于此同时,通过实验研究,文章提出的网络实现了可视化的功效,对实际医疗有一定作用。课题具有实际意义。
【学位授予单位】：哈尔滨工程大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP311.13;R-05
【图文】：

字段,含义,适应症,文件

图 2.1 INDI 文件下面是 INDI 中主要字段代表的含义：INDI 文件主要字段含义1）PRIMARYID：识别某不良事件的唯一标志；2）INDI_PT：某不良事件中适应症的信息3）INDI_DRUG_SEQ：识别某药品的唯一标志；4）INDI_CONCEPT_ID：识别适用症的类别标识；由于在课题研究中，一般所用的是药物和不良反应的信息需要获取的患者使用药物的名称以及发生不良反应的名称，但在本文中我们注重的是疾病信息，所以我们主要关注的是 PRIMARYID 字段与的 PT 字段。于是课题针对 FAERS 数据进行预处理的第一步便是提取 2012 年 4 季度至今 FAERS 数据中 INDI 关键字段。2.1.2 MYSQL 数据库整理FDA 的 FAERS 是公开的而免费的，所以其中的数据非常繁杂。于是，因为其数据

词汇表,字段,文件,名称

人员可以节省大量数据前期处理所花费的时间，集中精力对数据进行深入分析SI 做的主要工作是提供了一种叫做(Observational Medical Outcomesership ,OMDP)的(Common Data Model,CMD)公共数据模型[44]。提供各种不同向 CMD 转化的机制，以及大量能够使研究人员在 CMD 下使用其数据的工具构统计收集的数据有着不同的编码系统，OMDP CMD 的 5.0.1 版本，能将不同统在信息损失最小的情况下的转化为标准词汇表，研究者们能够利用其进行可察性研究。由于 OMDP CMD 有以上的优点本课题选择 OMDP CMD 作为标准词汇表，我作为标准对 FAERS 中的药物名称以及疾病的名称进行规范化处理。CMDP CM数据可以在 OHDSI 官网上进行下载，其中包括 9 个 CSV 文件，分别是 CONCCEPT_ANCESTOR、CONCEPT_CLASS、CONCEPT_RELETIONSHIP、CEPT_SYNONYM、DOMAIN、DRUG_STRENGTH、RELATIONSHIP、ABULAR。本课题数据规范化过程中需要使用的是 CONCEPT 文件，CONCEPT 文件记录准名称，以及其编号。CONCEPT 文件文件大致内容如图 2.2 所示。

频繁模式,数据组合,数据存放,理论基础

图 2.3 Apriori 算法FP-growth 算法的理论基础是 Apriori 原理，首先将数据库中的数据存放在 FP-TREE中，之后通过频繁模式的挖掘得到数据组合。对比 Apriori 算法，FP-growth 算法舍弃了大量的扫描数据库的过程，只需要对数据库扫描 2 次，然而 Apriori 算法由于没有构建FP-TREE 的过程，于是在得到任何一个疑似的频繁项集过程中都需对要数据集进行扫描，因此，由于构建了 FP-TREE，FP-growth 算法是高效的。其中算法发现频繁项集的过程是：（1）构建 FP 树；（2）从 FP 树中挖掘频繁项集。FP 的发现过程就是一个循环里不断递归的操作。循环的是 headTable 中的各个元素项；递归，递归的是元素项的 CPB（条件模式基）构成的事务数据集形成的 FP-tree 中发现 FP。FP 代表了频繁模式，通过支持度来连接相似元素，相互连接的事物就是一条链表。对事务数据表中的每一个数据对应的数据项按照支持度正序排列后，将每个数据中的数据项按支持度降序依次排列到一棵以 NULL 为根节点的树中。

【相似文献】