基于机器学习算法的胰腺癌诊断模型研究
发布时间:2020-09-18 14:05
随着计算机网络科技的快速发展,从上世纪九十年代起,在医疗,健康和卫生领域中,存放着大量关于病人的病史、诊断、检验和治疗的临床信息。从海量的医疗数据中,数据挖掘技术可以抽取出疾病的趋势,并发掘出有价值的诊断规则。然后,利用机器学习的方法建立预测模型,再对这个模型进行测试训练,得到合适的算法模型,该算法模型能够快速准确地诊断、预测、监控,并帮助医生确定最佳诊疗方案。对于胰腺癌的诊断,我们主要经过五个阶段的检查:第一阶段:进行病史,危险因素和体格检查;第二阶段:血清肿瘤标志物的检查;第三阶段:在肿瘤标志物检查结果的基础上,决定是否进行影像学检查;第四阶段:进行病理学检查;第五阶段:临床分期。而病理学检查是唯一确诊胰腺癌的“黄金标准”。本文在了解计算机技术应用于胰腺癌诊断的研究现状后发现,现有的通过计算机手段或者机器学习手段来辅助胰腺癌诊断的模型,大多是在第三阶段影像学检查结果的基础上建立的,而将机器学习算法应用于以临床症状、危险因素为特征的第一阶段和以肿瘤标志物检查结果为特征的第二阶段的模型少之又少。现在,针对第二阶段肿瘤标志物的研究,大多采用酶联免疫吸附法(ELISA)或者电化学发光法等医学手段。因此本文提出了将机器学习算法应用于胰腺癌诊断的第一和第二阶段,主要利用机器学习中传统的分类算法,对长春市某医院2017年度胰腺癌患者的临床医疗数据和普外科非胰腺癌患者数据进行医学分析。首先对数据进行预处理和特征选择,然后对数据进行训练和测试,建立基于机器学习算法的胰腺癌早期辅助诊断模型,并对胰腺癌诊断模型的预诊性能进行分析,最后通过多数表决策略的模型融合方法对单分类器做了模型融合。通过以上过程建立的基于机器学习算法的胰腺癌诊断模型的分类结果,相较于采用酶联免疫吸附法和电化学发光法的检测结果,准确率和召回率上均有显著提升。本文还利用度量学习算法:大边界最近邻方法LMNN和邻近元素分析方法NCA,训练支持向量机的核函数,在此改进算法的基础上重新训练了胰腺癌诊断模型,提高了数据分类精确率,尤其是通过NCA方法改进的支持向量机模型,在精确率上达到了92%,召回率上达到了90%,平均性能上达到了90.1%,与传统的支持向量机建立的诊断模型相比,分别提高了10%,6%和9.9%。本文的研究是基于机器学习算法,通过胰腺癌的典型症状和高危因素结合血清肿瘤标志物检查结果,建立了胰腺癌诊断的预测模型,达到了早期胰腺癌预诊的目的;提高了胰腺恶性肿瘤高危人群的自我识别意识;辅助了医生通过临床非特异性症状表现预诊胰腺癌,降低了由于相似症状而带来的误诊率。
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R735.9;TP181
【部分图文】:
图 2.1 异常数据出现原因及处理方法(4)标准化:按一定规则缩放数据,使数据处于一个较小的区间内。其中最典型的就是 0-1 标准化和 Z 标准化。同时对于不同单位量纲的数据,我们要将它转化为无量纲的纯数值型数据。数据标准化方法见图 2.2。本文中,我们使用了 min-max 归一化方法,将特征 CA19-9、CEA、AFP的特征值缩放到 0 与 1 之间,这样在模型训练时,数据是具有可比性而且是更稳定的。对性别,腹痛,恶心,糖尿病等特征,我们通过类别数据标签化处理,当特征值为“是”时,我们将其标签化为“1”;当特征值为“否”时,我们将其标签化为“0”。(5)离散化:在一些分类算法中,对于某些特征,它是连续型的,这时我们就要将连续的属性进行离散化处理,方法有:等宽法、等频法和基于聚类分析的方法。数据离散化方法见图 2.3。
数据标准化方法
图 2.2 数据标准化方法准化Z-score 标准化向量归一化法线性比例变换法Decimal scaling 小数定标标准化平均均值指数转化法新数据=(原始数据-原始数据值)/原始数据标准差X”=x/(10*j)其中,j 是满条件的最小整数等距离分组
【学位单位】:吉林大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R735.9;TP181
【部分图文】:
图 2.1 异常数据出现原因及处理方法(4)标准化:按一定规则缩放数据,使数据处于一个较小的区间内。其中最典型的就是 0-1 标准化和 Z 标准化。同时对于不同单位量纲的数据,我们要将它转化为无量纲的纯数值型数据。数据标准化方法见图 2.2。本文中,我们使用了 min-max 归一化方法,将特征 CA19-9、CEA、AFP的特征值缩放到 0 与 1 之间,这样在模型训练时,数据是具有可比性而且是更稳定的。对性别,腹痛,恶心,糖尿病等特征,我们通过类别数据标签化处理,当特征值为“是”时,我们将其标签化为“1”;当特征值为“否”时,我们将其标签化为“0”。(5)离散化:在一些分类算法中,对于某些特征,它是连续型的,这时我们就要将连续的属性进行离散化处理,方法有:等宽法、等频法和基于聚类分析的方法。数据离散化方法见图 2.3。
数据标准化方法
图 2.2 数据标准化方法准化Z-score 标准化向量归一化法线性比例变换法Decimal scaling 小数定标标准化平均均值指数转化法新数据=(原始数据-原始数据值)/原始数据标准差X”=x/(10*j)其中,j 是满条件的最小整数等距离分组
【参考文献】
相关期刊论文 前10条
1 侯丽娜;刘东慧;刘美晓;陈志宏;;2型糖尿病与胰腺癌的关系[J];承德医学院学报;2014年06期
2 阴蒙蒙;马臣;刘曙正;全培良;张萌;陈万青;郑荣寿;张思维;孙喜斌;;吸烟与胰腺癌发生风险的病例对照研究[J];中国肿瘤;2014年03期
3 杨柯君;;全球癌症状况最新数据更新[J];上海医药;2014年02期
4 舒忠琴;沈伟生;于波;邓立春;奚蕾;张瑶;顾小伟;夏林云;;薏苡仁甘油三酯对三维适形放疗同步吉西他滨化疗治疗局部晚期胰腺癌患者耐受性的影响[J];现代肿瘤医学;2013年06期
5 刘建芸;赵宇航;张兆翔;王蕴红;袁雪梅;胡磊;董振江;;Spam Short Messages Detection via Mining Social Networks[J];Journal of Computer Science & Technology;2012年03期
6 倪泉兴;虞先o
本文编号:2821749
本文链接:https://www.wllwen.com/yixuelunwen/zlx/2821749.html