当前位置:主页 > 医学论文 > 肿瘤论文 >

基于分类监督学习算法的乳腺癌预测诊断研究

发布时间:2021-06-26 19:47
  乳腺癌具有较高的发病率和死亡率,严重威胁女性的身体健康。因其发病机理难以确定且病情隐匿,所以早期乳腺癌很难被发现,不易引起患者的重视。大量乳腺癌患者由于错过最佳治疗时机而导致病情加速恶化,甚至威胁生命。人工筛查肿瘤过程存在效率低以及主观性强的缺点,使得乳腺癌患者无法得到根治。近年来我国各个领域的数据量成指数规模扩大,而与日俱增的医疗数据也给医务工作人员带来压力和挑战。医疗数据与一般数据相比有着异构性、冗余性、隐私性等特点。医务人员需要投入大量的人力物力才能从类别差异极大的数据中获取有效信息进而诊断疾病。由于传统医疗诊断方法有一定的局限和不足,本文从分类监督学习算法入手,挖掘乳腺癌患者的相关数据并利用模型进行预测。本文的主要工作如下:(1)阐述了传统的乳腺癌诊断治疗方法,针对仅依靠临床经验和影像学诊断的缺陷,选择开放的UCI数据库作为数据来源,将决策树算法应用到乳腺癌临床医疗预测中,利用患者乳房硬块的细针抽吸数字影像数据进行肿瘤良恶性的预测。结合因子分析法从较多属性中选出影响较大的因子作为当前节点的测试属性,并自上而下递归建立模型,在此基础上对决策树进行最佳深度的探索,构建最佳决策树模型... 

【文章来源】:海南大学海南省 211工程院校

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

基于分类监督学习算法的乳腺癌预测诊断研究


数据挖掘的过程

时间序列,机器学习,人类


海南大学硕士学位论文9(2)聚类分析将同构性较高的数据区隔为不同的聚类,聚类间差异度越大越好,而聚类内数据相似度则越高越好,聚类的本质思想就是“物以类聚”[35]。在一大群的研究对象中一定会存在异质化现象,这有可能是同质化的群组所导致的结果,聚类就是要将不同的同质化的差异找出来。(3)偏差检测在数据库中往往都有一些不合常理的数据,这些极端特例会影响模型的整体效果,检测出偏差有利于改进模型[36]。例如,在1万例病例中,有5例属于其他病症引起的假阳性,偏差检测可以发现这些异常与变化,提前采取措施,更好地指导人们的行为。(4)关联规则分析关联规则挖掘算法主要是用来发现数据中特征属性间具有高度关联性的一种模式,用规则来表示。它指的是变量与变量之间在取值上表现出某种规律性,即某个事件的发生可以触发与之关联的其他事件发生。数据挖掘主要是寻找最小支持度阈值的频繁项和频繁项中的高置信度。(5)时间序列以时间为度量衡进行数据挖掘,将挖掘出的数据以图形形式进行展现,分析样本随时间变化的趋势。时间序列分析多用来进行预测,研究数据中因变量与自变量的关系,并对未来的发展趋势进行预测[37]。2.2机器学习算法2.2.1机器学习的分类与应用步骤机器学习理论的本质就是让计算机获得自主学习和研究能力的算法。从海量的数据中通过一定的模型和规则自动的分析出规律,并利用这些规律对未来的数据进行预测[38]。人类在发展历程中也总结出许多经验,并对这些经验进行归纳获得规律。机器学习中的训练与预测就是模拟人类归纳和推测的过程。学习过程如图2所示:图2机器学习与人类思考的对比Fig.2Machinelearningversushumanthinking

机器学习,应用领域,领域,问题


基于分类监督学习算法的乳腺癌预测诊断研究10人工智能实现的重要途经之一就是通过机器学习。在目前的实践过程中,大部分人工智能问题都是由机器学习的方法实现的。通过设计好的程序和算法自动进行学习并对模型进行改进。机器学习已经广泛应用于机器人、DNA序列检测、搜索引擎、医学诊断、金融等领域[39],如图3所示:图3机器学习应用领域Fig.3Machinelearningapplications机器学习包含四个方面:问题领域覆盖更广泛,能够给出更加准确精准的解答,使知识的表达更加精炼,可读性更好,以更小的代价获得答案。机器学习算法与数据挖掘技术的任务类型基本相同,可归纳为以下几点:(1)关联(association)。本质是在探索实体或属性之间的关联和潜在的规律。(2)侦察(detection)。侦察可以看作是异常检测,在一组对象中筛选,标记出非典型或是不正常的个体,并尝试解释这些异常。例如信用卡欺诈的检测,通过检测异常的购物消费鉴别,信用卡公司可以及时检测并进行冻结,保护客户。(3)分类(classification)。在这类任务中,计算机程序需要为新输入的数据指定类别,还有其他的分类问题例如不同类别的概率分布、对象识别和输入缺失分类。(4)预测(prediction)。通过对已有数据的分析和筛选,去掉噪声数据,确定影响最大的属性,并对未来的数据进行预测[40]。另外,机器学习还可以解决去噪、缺失值的填补、合成、转录、采样和机器翻译等任务。解决机器学习问题最困难的部分就是为当前的任务选取合适的模型算法,不同的模型更适合于不同类型的数据和不同的问题,如图4所示,为用户解决不同问题提供了宏观执导和推荐。

【参考文献】:
期刊论文
[1]基于大数据的精准医疗服务体系研究[J]. 范美玉,陈敏.  中国医院管理. 2016(01)
[2]超声检查和钼靶X线摄片对乳腺疾病的诊断价值[J]. 谷云芝,左莉莉,王文娟,甄萍,孙霞,尹长恒,宋德余,姜玉荣.  中国医药导报. 2015(19)
[3]基于大数据技术的临床数据中心与智能分析应用平台构建[J]. 李维,陈祁,张晨,沈韬.  医学信息学杂志. 2014(06)
[4]细针穿刺细胞学检查对乳腺肿块诊断价值的系统评价[J]. 于滢华,钟鉴宏.  中国癌症防治杂志. 2013(03)
[5]大数据在医疗个性化服务中的应用[J]. 许德泉,杨慧清.  中国卫生信息管理杂志. 2013(04)
[6]基于云计算的医疗大数据挖掘平台[J]. 高汉松,肖凌,许德玮,桑梓勤.  医学信息学杂志. 2013(05)
[7]人工智能辅助诊疗技术(手术机器人)临床应用调研报告[J]. 刘晓征,田晓晓.  中国医学装备. 2011(08)
[8]青年乳腺癌282例临床分析[J]. 刘胜春,吴凯南.  重庆医学. 2005(12)
[9]数据挖掘任务之二:预测[J]. 张阿兰,戴稳胜,谢邦昌.  中国统计. 2004(11)
[10]医学数据挖掘的技术、方法及应用[J]. 朱凌云,吴宝明.  生物医学工程学杂志. 2003(03)



本文编号:3251968

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/3251968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6e45c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com