基于数据挖掘的前列腺癌相关数据的研究
本文关键词:基于数据挖掘的前列腺癌相关数据的研究,由笔耕文化传播整理发布。
【摘要】:前列腺癌是一种常见于男性泌尿生殖系统的恶性肿瘤,其发病率在西方欧美国家居所有男性肿瘤之首,死亡率仅次于肺癌,居第二位。与西方国家相比,我国前列腺癌的发病率明显偏低,但近年来由于受各种因素的影响而呈显著增长态势。前列腺癌原发灶多位于外周带,发病早期无特殊症状,临床确诊时多为晚期,致使患者长期预后不佳。前列腺癌的早期诊断是泌尿外科医生面临的一个重要课题。随着医疗行业信息化建设的不断发展,越来越多的前列腺癌临床数据被存储在医疗数据库中,如何发现这些数据背后隐藏的信息和规律,从而为前列腺癌的诊断、治疗乃至整个医学研究做出贡献,是目前亟待解决的问题。本研究尝试利用数据挖掘的方法和技术对前列腺癌临床数据进行分析,从中发现和总结了前列腺癌的临床特征和发展规律,并在此基础上构建了一个基于GA_BP神经网络的前列腺癌早期预测模型。为了简化指标结构,降低解决问题的复杂度,本研究先后采用属性选择技术(非参数检验和二变量相关)、主成分分析法对样本空间进行处理,成功将数据维度从9维降至4维;针对基本BP神经网络容易陷入局部极小点、收敛过程缓慢的缺陷,本研究分别采用遗传算法和LM算法对其进行优化,试验及仿真结果表明上述改进均可在一定程度上达到预期效果;最终,预测模型在训练集上的约登指数、灵敏度、特异度、正确率为0.7661、0.8661、0.9000、0.8903,在测试集上的约登指数、灵敏度、特异度、正确率为0.6853、0.8364、0.8489、0.8454,各项指标均处于较高水平。将预测模型与临床上常用的前列腺癌诊断指标tPSA、%fPSA、PSAD做比较,相应的ROC曲线下的面积分别为0.933、0.798、0.827、0.894,说明本文构建的预测模型具有更好的疾病区分能力,可以辅助临床医生对前列腺癌进行诊断和治疗,减少不必要的穿刺活检,具有重要的临床研究应用价值。
【关键词】:数据挖掘 前列腺癌 主成分分析 BP神经网络 遗传算法 ROC曲线
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R737.25;TP311.13
【目录】:
- 摘要5-6
- Abstract6-11
- 第1章 绪论11-19
- 1.1 研究背景和意义11-12
- 1.2 数据挖掘概述12-14
- 1.2.1 数据挖掘的定义12
- 1.2.2 数据挖掘的过程12-13
- 1.2.3 数据挖掘的功能13-14
- 1.3 前列腺癌概述14-17
- 1.3.1 前列腺癌的危险因素15
- 1.3.2 前列腺癌的诊断方法15-16
- 1.3.3 前列腺癌的治疗方法16-17
- 1.4 论文的组织结构17-19
- 第2章 相关理论与技术19-42
- 2.1 主成分分析19-22
- 2.1.1 主成分分析的基本原理19
- 2.1.2 主成分分析的数学模型19-20
- 2.1.3 主成分的贡献率20-21
- 2.1.4 主成分分析的算法步骤21-22
- 2.2 BP神经网络22-35
- 2.2.1 人工神经网络22-29
- 2.2.1.1 生物神经元和人工神经元23-28
- 2.2.1.2 人工神经网络的结构28
- 2.2.1.3 人工神经网络的学习28-29
- 2.2.2 BP神经网络29-35
- 2.2.2.1 BP神经网络的结构29
- 2.2.2.2 BP神经网络的算法原理29-33
- 2.2.2.3 BP神经网络的学习过程33-35
- 2.2.2.4 BP神经网络的特点35
- 2.3 遗传算法35-41
- 2.3.1 遗传算法的基本原理35-36
- 2.3.2 遗传算法的基本术语36
- 2.3.3 遗传算法的运算流程36-41
- 2.4 本章小结41-42
- 第3章 研究数据42-59
- 3.1 数据来源42
- 3.2 数据预处理42-48
- 3.3 研究对象的确定48
- 3.3.1 纳入标准48
- 3.3.2 排除标准48
- 3.3.3 分组48
- 3.4 数据初探48-56
- 3.4.1 数据的描述性统计48-49
- 3.4.2 患病情况与研究指标间的关系49-53
- 3.4.3 研究指标间的相关分析53-56
- 3.5 不平衡数据集的分类评价方法56-58
- 3.6 本章小结58-59
- 第4章 基于GA_BP神经网络的前列腺癌预测模型研究59-78
- 4.1 引言59-60
- 4.2 显著预测因子的筛选60-61
- 4.3 主成分分析61-62
- 4.4 预测模型的构建62-74
- 4.4.1 GA_BP算法62-63
- 4.4.2 设计思路63
- 4.4.3 具体实现63-74
- 4.4.3.1 数据归一化63-65
- 4.4.3.2 确定网络结构65-67
- 4.4.3.3 GA优化初始权值和阈值67-70
- 4.4.3.4 网络训练与预测70-74
- 4.5 预测模型的评价74-77
- 4.6 本章小结77-78
- 第5章 总结与展望78-81
- 参考文献81-86
- 攻读学位期间发表论文与研究成果清单86-87
- 致谢87
【相似文献】
中国期刊全文数据库 前10条
1 陈明;;医学数据挖掘综述[J];医学信息;2008年01期
2 黄秋燕;金京皓;沈岳龙;郑晖;;数据挖掘在医学信息中的应用[J];医学信息(上旬刊);2010年08期
3 孙哲丰;王迎利;;中国药品电子监管数据挖掘现状的分析与思考[J];中国医药导刊;2014年06期
4 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期
5 ;统计分析与数据挖掘的优秀工作平台[J];中国医院统计;2006年02期
6 徐刚;袁兆康;;数据挖掘及其在医学领域中的应用和展望[J];实用临床医学;2006年11期
7 黄艳玲;;数据挖掘在医学领域中的文献发展评价[J];现代医院;2007年01期
8 丁维;蒋永光;宋姚屏;吴孟旭;李昆;;数据挖掘及其在中医领域的应用研究[J];数理医药学杂志;2007年03期
9 王华;江启成;胡学钢;;数据挖掘在医学上的应用[J];安徽医药;2008年08期
10 马利;;基于数据挖掘的聚类分析和传统聚类分析的对比研究[J];数理医药学杂志;2008年05期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年
8 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年
9 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年
10 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
本文关键词:基于数据挖掘的前列腺癌相关数据的研究,由笔耕文化传播整理发布。
,本文编号:285204
本文链接:https://www.wllwen.com/yixuelunwen/mjlw/285204.html