当前位置:主页 > 医学论文 > 妇产科论文 >

一类数据挖掘算法及其在宫颈癌智能诊断中的应用

发布时间:2020-07-13 03:33
【摘要】:随着信息技术的发展,医疗方面产生了海量的医学数据,这些数据不仅体现在数量庞大、类型多样和更新迅速,还体现在数据本身潜在的、有待于挖掘的价值。挖掘这些潜在的信息,对医疗检查、肿瘤治疗及医疗资源分配等具有重要的意义。本文利用一类数据挖掘算法对宫颈癌临床数据进行了分析研究,从中挖掘宫颈癌的致病因素、检查方法及推荐的治疗手段等相关知识,从而建立相应分类决策模型。本文主要完成以下两方面的工作:1.根据UCI数据库Cervical Cancer(Risk Factors)数据集中委内瑞拉加拉加斯医院医疗数据的特点,依次对该数据进行预处理。首先,数据含有缺失值,本文采用直接删除法和常数插补法相结合的方式处理缺失值;然后,由于数据是不平衡的,本文采用上采样法对不平衡的数据进行处理;最后,数据中存在连续属性,本文以年龄为例采用等宽分箱法对连续属性离散化,并通过信息值来衡量离散后的效果。2.本文利用一类数据挖掘算法对宫颈癌临床数据的风险因素进行评估,间接地可以转为二分类问题,文中主要以决策树(DT)、随机森林(RF)和支持向量机(SVM)为主线,依次进行实验。首先,创建决策树分类模型,计算患病确诊率和未患病的确诊率;其次,对该模型进行了两次优化,优化(1):根据叶子节点含有的最小样本数进行优化(MSSOLN-DT),优化(2):对决策树进行剪枝优化(PO-DT),将决策树与两次优化的模型依次比较,结果显示:MSSOLN-DT的重带入误差最小为0.0550和10折交叉验证误差最小为0.1267,优化后的比经典的DT结构都简单;然后,本文采用线性核函数作为SVM的核函数,构造SVM模型,计算患病确诊率和未患病的确诊率;最后,本文构建了随机森林模型,文中对比分析了决策树、支持向量机和随机森林创建的模型,通过分析比较,发现随机森林构建的模型在宫颈癌的分类识别中拥有较好的效果,当检测方法为“Hinselmann”时,精确度最高为98.21%;当检测方法为“Schiller”时,虽然精确度是4种检测方法中最低的,但也达到了91.94%的效果。
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R737.33;TP311.13
【图文】:

框图,框图,宫颈癌,数据挖掘算法


第二章是宫颈癌的基本理论。首先介绍了宫颈癌的背景和致病因素;其次介绍了目前宫颈癌的检测方法;最后介绍了宫颈癌的治疗手段。第三章是数据挖掘算法的基本理论。一方面,阐述了数据挖掘算法的演变过程和主要方法,详细的介绍了预测模型法、数据分割法、关联分析法以及偏离分析法等,这里主要介绍了决策树、随机森林及支持向量机三种数据挖掘算法,为后期的仿真实验做铺垫。另一方面,讨论了导致缺失值的原因,针对不同的原因依次举例分析,归纳了缺失值的处理方法。第四章是仿真实验预处理。首先,介绍了分类问题处理流程;其次,对数据集给出详细的说明;然后,对数据进行预处理,包括:缺失值处理、不平衡数据处还有连续属性离散化等。第五章是仿真实验。首先基于第三章介绍的 DT 的理论框架,构建了经典 DT 模型,针对 UCI 数据库中宫颈癌实际的临床数据特征属性和实际数据潜在的性能,采用一类数据挖掘算法构造模型,包括:DT、RF 及 SVM,对宫颈癌的临床数据进行智能诊断,挖掘出宫颈癌与特征属性之间的关系,最后,将本文涉及到的这一类数据挖掘算法针对同样的宫颈癌数据,比较其泛化性能。

数据挖掘


第 3 章 数据挖掘基本理论与缺失值处理在处理大数据时,DM 需要一个综合性强、复杂度高且多方位优化的系统,DM技术以一个独立的身份存在于处理大数据的整个系统中,与其他的模块之间相辅相成、协调发展。总之,数据挖掘技术在大数据时代下的地位是无可比拟的[34]。数据挖掘是是一门汇聚多个学科的交叉性学科,将数学、统计学、人工智能、数据可视化和机器学习等多个领域的技术和相关专业知识相结合。DM 的主要方法如图 3.2 所示:

体系结构图,体系结构,支持向量机


'xTrainx 直观地看,对属性 a Attr而言, 表示不存在缺失值时的样本数据所占的比表示不存在缺失值样本数据中第k 类所占的比例,vr~则表示不存在缺失值时样本中在属性a上取值va 的样本所占的比例。其中 1~1~1||1 Vvviip ,r 。通过上述的公以将(3-2)式的信息增益变形为:Gain (T rain,a) Gain(Tain',a)(3-(3.10)可以将(3.16)式变型为:((')))~( ,)((') vVvvGain Traina EntTrainrEntTrain(3-2)支持向量机Corinna 和 Vapnik 等[39]于 1995 年首次共同提出了支持向量机(Support Veachine, SVM),这是一种分类算法[40],同时具备较强的分类和泛化能力,主要数据量小、非线性问题及函数拟合等机器学习问题。SVM 主要情况分为:线性、线性不可分还有非线性可分等[41]。支持向量机的体系结构图 3.3 所示:

【相似文献】

相关期刊论文 前10条

1 张珍;;云计算环境下的数据挖掘算法探究[J];网络安全技术与应用;2019年05期

2 刘小燕;;数据挖掘算法基于关联规则的分析和应用[J];课程教育研究;2017年11期

3 黄武锋;;一种基于神经网络的数据挖掘算法[J];电脑编程技巧与维护;2017年03期

4 张容;张勇;;基于数据挖掘算法的电子图书馆智能推荐技术研究[J];西南师范大学学报(自然科学版);2017年07期

5 赵慧;王晓燕;;基于云计算的海量数据挖掘算法[J];产业与科技论坛;2015年16期

6 曹安林;;基于数据挖掘算法的创客校园质量管理模型研究[J];现代职业教育;2017年10期

7 王晓艳;;数据挖掘算法的分析探讨[J];硅谷;2014年02期

8 黄取治;;动态云模型大规模数据挖掘算法[J];长春工业大学学报(自然科学版);2014年03期

9 张慧霞;;常用数据挖掘算法的分析对比[J];河南科技;2014年19期

10 李珩;武雪芳;;基于云计算的数据挖掘算法研究[J];无线互联科技;2013年12期

相关会议论文 前10条

1 任珂;牟冬梅;;四种典型数据挖掘算法在疾病防治中的研究现状分析[A];中华医学会第二十一次全国医学信息学术会议论文汇编[C];2015年

2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年

3 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年

4 贺炜;邢春晓;潘泉;;因果不完备条件下的数据挖掘算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

5 陈曦;曾凡锋;;数据挖掘算法在风险评估中的应用[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

6 陈正展;;基于决策树的隐私保护数据挖掘算法[A];第六届全国信号和智能信息处理与应用学术会议论文集[C];2012年

7 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

8 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

9 杨利军;勾学荣;;数据挖掘在移动客户流失预测中的研究和应用[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年

10 段成永;邱少明;卢刚;刘焱;;基于Map/Reduce模型的空情数据挖掘算法[A];2014第二届中国指挥控制大会论文集(上)[C];2014年

相关重要报纸文章 前4条

1 ;选择合适的数据挖掘算法[N];计算机世界;2007年

2 本报记者 吴玉征;Sybase加速“大数据”分析[N];计算机世界;2012年

3 本报记者 李建发;从IT到DT:能源大数据带来新价值[N];中国电力报;2016年

4 吴朱华;大数据从“小”做起[N];网络世界;2012年

相关博士学位论文 前10条

1 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年

2 吴珏;隐私保护的数据挖掘算法研究[D];西南石油大学;2012年

3 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年

4 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年

5 沈悦;基于导航通信多模应用的位置服务技术研究[D];中国科学技术大学;2012年

6 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

7 巩建光;面向电信领域的数据挖掘关键技术研究[D];哈尔滨工程大学;2012年

8 陈云开;基于粗糙集和聚类的数据挖掘算法及其在反洗钱中的应用研究[D];华中科技大学;2007年

9 鲁万;数据挖掘环境中隐私保护数据共享混合方法研究[D];大连海事大学;2013年

10 范广玲;基于数据挖掘的潜油电泵系统运行评价研究[D];东北石油大学;2015年

相关硕士学位论文 前10条

1 吕丹;一类数据挖掘算法及其在宫颈癌智能诊断中的应用[D];长春工业大学;2019年

2 郑江帆;基于GPU的数据挖掘算法并行化研究[D];浙江工业大学;2018年

3 许伟;基于遥感影像与C5.0数据挖掘算法的土壤制图研究[D];华中农业大学;2018年

4 卢媛媛;大数据平台下的数据挖掘算法设计与实现[D];中国石油大学(北京);2017年

5 郭闻博;某型预警机雷达情报分析的数据挖掘算法研究[D];武汉理工大学;2016年

6 郭娟娟;基于加权k近邻的离群数据挖掘算法及并行化[D];太原科技大学;2018年

7 耿美玲;基于关联规则的数据挖掘算法的研究[D];东北大学;2015年

8 李玉廷;基于两种数据挖掘算法的股骨颈预后评分分类[D];太原理工大学;2017年

9 杨利锋;基于低秩稀疏子空间的数据挖掘算法研究[D];广西师范大学;2017年

10 祁丹;基于分布式计算的数据挖掘算法研究与实现[D];北京邮电大学;2016年



本文编号:2752898

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/fuchankeerkelunwen/2752898.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4f5d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com