基于多模态数据智能分析的非小细胞肺癌识别

发布时间：2021-01-09 23:19

　　2019年国家癌症中心发布的全国癌症统计数据表明肺癌的粗发病率和死亡率均居于恶性肿瘤的首位.非小细胞肺癌（Non-Small Cell Lung Cancer,NSCLC）是肺癌的主要类型.目前研究多集中于影像或者基因等单模态数据,综合利用多模态数据的研究相对较少.实际上,挖掘多模态数据之间的互补信息,一方面可以发现解释性较强的影像特征,另一方面可以从基因数据中选择与肿瘤发生、发展相关的基因,从而定性和定量分析NSCLC中不同亚型的生物标记物,提高肿瘤的识别精度.因此,结合临床实际需求,综合利用多模态数据,并对数据做深层特征分析和挖掘,即具有理论意义,也具有实际应用价值.基于此,本学位论文针对影像基因组学数据,基于人工智能机器学习方法进行深层特征分析,并对多模态进行关联分析,最终用于NSCLC智能识别.主要工作概括如下:1.构建了一种信息基因选择的统计量化指标.首先,针对当前常用指标受试者工作特征曲线和曲线下面积存在的问题,结合临床实际需求,从理论上构建了一种信息基因选择的统计指标-最大净收益（Maximum Net Benefit,MNB）,并分析了其可行性和可辨别性.在美国国立生物...

【文章来源】：河南大学河南省

【文章页数】：79 页

【学位级别】：硕士

【部分图文】：

构建加权基因共表达网络流程

曲线,指标,净收益,阈值

p1≤pt1nn(1 pt)p1= {x|(x, y) = D1∩ D2},其中 MNB ∈ [0,1).为了直观的反映 MNB 的构建过程，图3-1给出了 DCA 和 MNB 的直观比较. 图3-1(a)为 DCA 曲线. 图3-1(b)为在阈值范围 p1≤ pt< 1 内通过计算每一个阈值点所对应的净收益值，选择取得最大 NB 的点定义为基因的 MNB 值. 值得注意的是在寻找基因取得MNB 值时是在区间 [p1, 1) 上进行的，这也正是需要证明的一点. 在下一小节 MNB 的可行性分析中将给出为何将阈值概率 pt定义在区间 [p1, 1) 中求基因的最大净收益值.

分布情况,基因,取值,分布情况

基于多模态数据智能分析的非小细胞肺癌识别信息较大，难以区分肿瘤所对应的不同的类别.图3-2(b)是对每一个基因所对应的BW值进行排序，图中是按照从大到小的顺序进行排列.本章首先选择BW值较大的前200个基因作为候选基因.(a)(b)图3-2每一个基因的BW值.(a)基因所对应的BW取值分布情况;(b)对基因BW值排序的折线图.由于误诊和漏诊均会给患者带来较大的损害，因此在基因选择时，希望将临床结果考虑在内，选择能带来较大临床效益的信息基因.因此本文在BW筛选的200个基因的基础上，再计算这200个基因中每一个基因所对应的MNB值.图3-3(a)为计算BW筛选的200个基因所对应的MNB值.显然大部分基因的MNB值都分布在0-0.05这一块，因此这一部分基因难以区分肿瘤的类别.故本章应用MNB从200个基因中筛选10个候选24

【参考文献】：
期刊论文
[1]2015年中国恶性肿瘤流行情况分析[J]. 郑荣寿,孙可欣,张思维,曾红梅,邹小农,陈茹,顾秀瑛,魏文强,赫捷.  中华肿瘤杂志. 2019 (01)
[2]最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法[J]. 谢娟英,王明钊,胡秋锋.  陕西师范大学学报(自然科学版). 2017(01)
[3]ROC曲线中最佳工作点的选择[J]. 陈卫中,潘晓平,宋兴勃,倪宗瓒.  中国卫生统计. 2006(02)

本文编号：2967590

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2967590.html

上一篇：基于改进双树RRT算法的串联操作臂避障运动规划研究
下一篇：基于随机森林算法的儿童注意缺陷多动障碍检测和分类

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|