数据驱动下的糖尿病并发症预测方法研究与系统构建
发布时间:2021-07-06 17:57
近年来随着健康医疗信息化的发展,我国在医疗信息化建设方面取得了较大的进步,科学研究、健康医疗服务和管理实践等使得信息化系统中积攒了大量的电子病历数据。对于大部分医院来说电子病历系统更多的是一种管理工具,医疗数据资源没有得到充分的利用。数据驱动下的挖掘方法在生物医学中的应用需求,将所有可用信息智能地转化为有价值的知识比以往任何时候都更加迫切。因此,对于电子病历系统中庞大数据的挖掘已然成为医疗信息研究中的大趋势。糖尿病为继心血管疾病、恶性肿瘤后的第三大威胁人类健康的慢性病。糖尿病易引起并发症,其中糖尿病肾病是糖尿病患者最重要的并发症之一,并发症具有早期不易发现,且并发后药物难以根治的特点,因此对并发症的预测成为研究热点。课题选取了某医院电子病历中与糖尿病并发肾病相关数据源进行本文研究。对糖尿病并发症的研究主要包含以下几个方面:(1)数据处理。由于操作不当、机器故障等造成的噪声、缺失值、异常值等数据质量问题,为了不影响实验预测的结果,研究中对数据进行了整合、清洗等一系列预处理操作。(2)糖尿病并发症预测模型构建。对预处理后的数据进行了多维分析,并结合算法的优缺点选择了随机森林算法(Rando...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
患者基本信息Figure2-1Patientbasicinformation
从图2-2 抽取出的患者检查检验信息存储形式是按列进行存储的。经过抽取得到的糖尿病数据包括病患基本信息 2435 条,检验检查信息210809 条。2.2.3 数据集成将不同来源的数据中涉及到同一患者的数据整合成起来,这样才能进行后续的工作具体数据整合的步骤如下 :(1)调研相关资料并与医院的医护人员确定患者做检查检验的情况,根据数据的特点和后续实验的需求制定数据整合的规则。(2)根据制定的规则设计程序将同一个患者的基本信息和检查检验信息整合为一条可用的数据样本。按照以上需求,通过与医院相关人员沟通,数据的整合规则为:1.取住院日期三日内离住院日期最近的一次检查为准。2.若住院日期三日内无数据则取门诊检查里离住院日期最近的一次检查。3.利用以上 1 和 2 的规则通过病案号这唯一标识将各部分数据进行整合。根据以上规则设计程序,将病人的基本信息与检查检验数据进行整合,整合后得到的数据包含病患的 65 项?
图 2-3 数据整合后的结果Figure 2-3 Results after data integration2.2.4 数据清洗将患者的基本信息和检查检验信息整合后的数据如图 2-3。通过上图我们发现数据存在可读性不强、部分体检化验数据缺失严重,部分数据存在异常值等问题。这其中包括医师水平问题和对计算机使用不熟练而造成数据的错误录入,以及电子病历保存过程中服务器运行较慢或受到外来攻击等造成的文件损坏或丢失问题[39]。因此要对数据进行预处理达到数据质量要求。具体处理内容如下:(1)清除无效特征、空值特征。通过对整合后的数据集分析,数据中存在作用相同的患者指标可删除,如病人的姓名与病人住院号,对于病人的姓名来说在医院的系统中可能存在相同数据,而病人的住院号是作为病人的唯一标识,所以删除病人的姓名,而保留病人住院号。在病人的基本信息中,还包括电话、职业等信息,这样的信息对于糖尿病预测来说属于无关特征,对于这样的特征本文直接删除。
【参考文献】:
期刊论文
[1]基于Logistic回归和多层神经网络的Ⅱ型糖尿病并发症预测[J]. 王洁,乔艺璇,彭岩,陈晓. 高技术通讯. 2019(05)
[2]全球糖尿病治疗药物研发及市场态势[J]. 李子艳,王春丽,高柳滨. 药学进展. 2018(09)
[3]基于集成学习的上市公司财务信息异常识别[J]. 王荣欣. 中国物价. 2018(07)
[4]一种融合多种信息的Web文档分类方法[J]. 段国仑,谢钧,郭蕾蕾,王晓莹. 信息技术与网络安全. 2018(06)
[5]2型糖尿病患者中性粒细胞/淋巴细胞比值与尿白蛋白/肌酐比值的相关性研究[J]. 田伊茗,陆强,尹福在,李涛,顾洪媛,王蕊,刘俊茹,王锐. 医学研究生学报. 2017(10)
[6]糖尿病慢性并发症社区管理现况与探索[J]. 李帅,任菁菁. 中华全科医师杂志. 2017 (08)
[7]基于特征频繁度的勒索软件检测方法研究[J]. 龚琪,曹金璇,芦天亮,李丁蓬. 计算机应用研究. 2018(08)
[8]基于miRNA-靶位点配对的序列特征研究[J]. 滕少华,夏飞迪,张巍,刘冬宁,王洋,邹小勇. 分析测试学报. 2017(05)
[9]基于改进网格搜索算法的随机森林参数优化[J]. 温博文,董文瀚,解武杰,马骏. 计算机工程与应用. 2018(10)
[10]红细胞分布宽度预测2型糖尿病患者对比剂肾病[J]. 刘晓刚,刘玉峰,顾晔,胡立群. 中国动脉硬化杂志. 2016(08)
硕士论文
[1]基于数据挖掘的陌生人社交APP用户流失预测模型研究[D]. 钟文鑫.首都经济贸易大学 2018
[2]一维声子晶体板的带隙优化研究[D]. 李杰.湖南大学 2018
[3]医疗数据挖掘可视化系统的研究与实现[D]. 吴春姗.北京邮电大学 2017
[4]随机森林算法的优化改进研究[D]. 马骊.暨南大学 2016
[5]北京工业大学3D打印中心信息发布及管理系统的设计与实现[D]. 叶珍.北京工业大学 2016
[6]求解函数优化问题的遗传算法设计研究[D]. 涂井先.广东工业大学 2012
本文编号:3268706
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
患者基本信息Figure2-1Patientbasicinformation
从图2-2 抽取出的患者检查检验信息存储形式是按列进行存储的。经过抽取得到的糖尿病数据包括病患基本信息 2435 条,检验检查信息210809 条。2.2.3 数据集成将不同来源的数据中涉及到同一患者的数据整合成起来,这样才能进行后续的工作具体数据整合的步骤如下 :(1)调研相关资料并与医院的医护人员确定患者做检查检验的情况,根据数据的特点和后续实验的需求制定数据整合的规则。(2)根据制定的规则设计程序将同一个患者的基本信息和检查检验信息整合为一条可用的数据样本。按照以上需求,通过与医院相关人员沟通,数据的整合规则为:1.取住院日期三日内离住院日期最近的一次检查为准。2.若住院日期三日内无数据则取门诊检查里离住院日期最近的一次检查。3.利用以上 1 和 2 的规则通过病案号这唯一标识将各部分数据进行整合。根据以上规则设计程序,将病人的基本信息与检查检验数据进行整合,整合后得到的数据包含病患的 65 项?
图 2-3 数据整合后的结果Figure 2-3 Results after data integration2.2.4 数据清洗将患者的基本信息和检查检验信息整合后的数据如图 2-3。通过上图我们发现数据存在可读性不强、部分体检化验数据缺失严重,部分数据存在异常值等问题。这其中包括医师水平问题和对计算机使用不熟练而造成数据的错误录入,以及电子病历保存过程中服务器运行较慢或受到外来攻击等造成的文件损坏或丢失问题[39]。因此要对数据进行预处理达到数据质量要求。具体处理内容如下:(1)清除无效特征、空值特征。通过对整合后的数据集分析,数据中存在作用相同的患者指标可删除,如病人的姓名与病人住院号,对于病人的姓名来说在医院的系统中可能存在相同数据,而病人的住院号是作为病人的唯一标识,所以删除病人的姓名,而保留病人住院号。在病人的基本信息中,还包括电话、职业等信息,这样的信息对于糖尿病预测来说属于无关特征,对于这样的特征本文直接删除。
【参考文献】:
期刊论文
[1]基于Logistic回归和多层神经网络的Ⅱ型糖尿病并发症预测[J]. 王洁,乔艺璇,彭岩,陈晓. 高技术通讯. 2019(05)
[2]全球糖尿病治疗药物研发及市场态势[J]. 李子艳,王春丽,高柳滨. 药学进展. 2018(09)
[3]基于集成学习的上市公司财务信息异常识别[J]. 王荣欣. 中国物价. 2018(07)
[4]一种融合多种信息的Web文档分类方法[J]. 段国仑,谢钧,郭蕾蕾,王晓莹. 信息技术与网络安全. 2018(06)
[5]2型糖尿病患者中性粒细胞/淋巴细胞比值与尿白蛋白/肌酐比值的相关性研究[J]. 田伊茗,陆强,尹福在,李涛,顾洪媛,王蕊,刘俊茹,王锐. 医学研究生学报. 2017(10)
[6]糖尿病慢性并发症社区管理现况与探索[J]. 李帅,任菁菁. 中华全科医师杂志. 2017 (08)
[7]基于特征频繁度的勒索软件检测方法研究[J]. 龚琪,曹金璇,芦天亮,李丁蓬. 计算机应用研究. 2018(08)
[8]基于miRNA-靶位点配对的序列特征研究[J]. 滕少华,夏飞迪,张巍,刘冬宁,王洋,邹小勇. 分析测试学报. 2017(05)
[9]基于改进网格搜索算法的随机森林参数优化[J]. 温博文,董文瀚,解武杰,马骏. 计算机工程与应用. 2018(10)
[10]红细胞分布宽度预测2型糖尿病患者对比剂肾病[J]. 刘晓刚,刘玉峰,顾晔,胡立群. 中国动脉硬化杂志. 2016(08)
硕士论文
[1]基于数据挖掘的陌生人社交APP用户流失预测模型研究[D]. 钟文鑫.首都经济贸易大学 2018
[2]一维声子晶体板的带隙优化研究[D]. 李杰.湖南大学 2018
[3]医疗数据挖掘可视化系统的研究与实现[D]. 吴春姗.北京邮电大学 2017
[4]随机森林算法的优化改进研究[D]. 马骊.暨南大学 2016
[5]北京工业大学3D打印中心信息发布及管理系统的设计与实现[D]. 叶珍.北京工业大学 2016
[6]求解函数优化问题的遗传算法设计研究[D]. 涂井先.广东工业大学 2012
本文编号:3268706
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3268706.html