当前位置:主页 > 医学论文 > 肿瘤论文 >

基于DNA甲基化数据的原发灶不明恶性肿瘤溯源研究

发布时间:2020-11-16 10:37
   原发灶不明恶性肿瘤(Cancer of unknown primary,CUP)是指无法确定原发位置的转移性肿瘤。肿瘤的转移是指肿瘤细胞从原发位置通过侵入循环系统,转移到其他身体部位并继续生长的过程。找到CUP原发位置有助于确定更有效的治疗方案,对于改善患者的预后具有重要的意义。传统的检测手段包括临床、影响和病理检查等,仅能确定50%~80%患者的原发位置,剩余20%~50%的患者仍然无法确定原发灶,亟待更有效的手段出现。DNA甲基化是一种重要的基因修饰方式,甲基化水平具有组织特异性,有助于确定肿瘤的原发位置。机器学习算法可以从大量的甲基化数据中发现规律,依此对未知的样本进行分类,因此适用于甲基化肿瘤溯源问题。本研究通过对比和评估,选取合适的甲基化特征和机器学习模型构建了肿瘤溯源分类器。首先,本文收集了TCGA数据库中31种肿瘤的450K甲基化数据,进行数据过滤和特征筛选后,使用主成分分析、非负矩阵分解和奇异值分解三种方法进行了降维,然后使用8种机器学习模型(LASSO、神经网络、随机森林、支持向量机、线性判别、K近邻、决策树、朴素贝叶斯)分别构建了分类器并进行了评估。我们发现LASSO和神经网络的分类效果最好,在5折交叉验证中分别达到了96.77%和96.76%的精确度。我们使用来自GEO的10种癌症甲基化数据对前文训练的模型进行了评估,发现LASSO在独立测试集上取得了91.97%的精确度,验证了模型的效果。在此基础上,本研究对比了甲基化水平、基因表达水平(mRNA)、小RNA(miRNA)和长链非编码RNA(lncRNA)作为特征集建立LASSO分类器的精确度,发现甲基化水平训练的分类器效果最好。为了改进模型,筛选出分类能力最强的探针集合,提高训练效率,本文提出了一种新的探针排序方式——Maximum F-statistic Maximum Distance(MFMD),该方法将探针的F统计量和与其余探针的平均欧氏距离进行加权平均。根据MFMD排序的前5000个探针建立的LASSO精度达到了95.05%。基于前文构建的8种分类器,我们搭建了甲基化肿瘤溯源平台CUPtracer(http://cuptracer.i-sanger.com/)。CUPtracer基于web.py框架搭建,提供了常用甲基化分析软件结果的格式转换工具和邮件提醒服务。CUPtracer所有模型的参数均已进行优化,用户无需对参数进行设置。CUPtracer为没有编程基础的研究者提供了便捷的肿瘤溯源分析途径。总之,本研究使用甲基化数据构建了准确度较高的CUP肿瘤溯源分类器,并搭建了甲基化肿瘤溯源平台,为今后的CUP研究提供了思路和工具。
【学位单位】:华东师范大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:R73
【部分图文】:

探针,精确度,置信区间,分类器


图 2-1 top 5000 探针建立的分类器准确度95%置信区间表 2-12 探针数量与精确度探针数量 LASSO精确度 神经网络精确度700 90.22%±1.05% 90.38%±0.77%1000 92.19%±1.08% 90.84%±0.73%5000 96.05%±1.15% 94.75%±1.37%10000 96.20%±1.05% 94.21%±0.95%将基于 MFMD 方法排序的前 1000 个探针所在基因使用 DAVID6.8 进行GO 功能注释,表 2-13 列出了 Count 在 10 以上且 P 值小于 0.1 的部分 GOterm。其中多个基因已有文献表明与各种癌症相关。Cao 等人发现 LTBP1 基因与肝细胞癌的早期病变有关[19]。而 GDF5 参与了乳腺癌 MCF-7 细胞中 TGF 依赖性的血管再生过程,抑制 GDF5 的表达会引起该过程的紊乱[20]。JAG1 基因

上传,示例,格式,甲基化水平


溯源 web 服务器(CUPtracer)。式Ptracer 将格式规定为 5 列的 bed 文件,示例如图 3-1 所示。其chr”的染色体编号,第二列是起始位置,第三列是终止位置甲基化的 reads 数,第五列是测序深度。其中,HM450K 甲基是单个的 CpG 位点,因此第二列和第三列一般相差 1。第四列现缺失值,缺失值以“NA”表示,这些含有缺失值的行会在除。在后续的分析中,实际使用的是甲基化水平的 Beta 值,这种格式是因为并不是所有的甲基化水平分析软件都可以得到能得到甲基化 reads 数和测序深度,因此 CUPtracer 将在数据 Beta 值。

分析流程


图 3-2 CUPtracer 分析流程r 使用 web.py 框架,整个 web server 的架构如图 3-数据并选择模型,网页端 web 服务器向 controller 提的 job ID 返回到页面。Controller 在 mongo 数据库中上传文件的地址、选择的模型和任务提交时间,并,然后向 ToolAgent 发起计算任务。ToolAgent 分为其中 tool 负责在计算节点上调用 CUPtracer 计算程责将 tool 投递到计算集群上,并监控任务的运行状新投递一个任务,最多会重新投递三次,如果四次息。Controller 在 mongo 数据库中新建记录时,会得
【相似文献】

相关期刊论文 前10条

1 朝乐孟;李全福;;胆囊癌组织甲基化水平的研究[J];内蒙古医科大学学报;2013年02期

2 薛晶晶;陈松笔;;木薯不同发育期块根基因组DNA甲基化变化分析[J];生物技术通报;2018年05期

3 张志勇;李春宏;仇小强;农清清;何敏;覃健;蒋贵发;黄明立;;广西长寿地区人群白细胞DNA总体甲基化水平研究[J];中国老年学杂志;2009年12期

4 冯旭;;miR-34b/c甲基化与非小细胞肺癌患者预后的关系研究[J];系统医学;2017年23期

5 孙东旭;张崇华;郑玮峰;李征;张晓峰;;厨师人群基因组DNA总甲基化水平及影响因素分析[J];中国工业医学杂志;2016年03期

6 袁金玲;郭广平;岳晋军;吴晓丽;顾小平;;孝顺竹开花过程中DNA甲基化水平动态研究[J];西北植物学报;2012年01期

7 杨建环;邢超;胡小涵;;基因组甲基化异常与儿童原发性肾病综合征相关性研究[J];中国卫生检验杂志;2017年20期

8 董亚娟;程舟;李珊;周铜水;陈家宽;万树文;顾敏;张文驹;;HPLC法测定不同年龄人参DNA的甲基化水平[J];中草药;2007年09期

9 陈豪;张晶雅;胡雪姣;陆小军;王军;周燕虹;应斌武;周静;;甲基化芯片筛选结核感染相关基因及后续验证[J];四川大学学报(医学版);2018年05期

10 徐酩;吕京澴;孙玉洁;;乳腺癌MCF-7细胞Alu甲基化水平的MSRE-qPCR法检测[J];南京医科大学学报(自然科学版);2010年07期


相关博士学位论文 前8条

1 毛宇彬;转录因子Dermol、Twist在多种人类肿瘤中的功能分析与甲基化调控机制[D];厦门大学;2007年

2 苏改秀;儿童系统性红斑狼疮基因组甲基化水平及LINE-1序列甲基化水平的研究[D];北京协和医学院;2016年

3 赵国昌;永久性心房颤动的基因组DNA甲基化分析[D];首都医科大学;2017年

4 汪炳良;萝卜春化作用及其与DNA甲基化水平的关系[D];浙江大学;2004年

5 刘细玉;成人隐匿性自身免疫性糖尿病患者CD4+T淋巴细胞H3赖氨酸9甲基化水平改变的临床意义及其机制研究[D];浙江大学;2018年

6 贾敏;胰岛素对ER-α甲基化调控在动脉粥样硬化中的作用研究[D];第三军医大学;2017年

7 伍洲炜;常见诱发因素加重系统性红斑狼疮的机制研究[D];上海交通大学;2015年

8 黄焱磊;肛门直肠畸形肠壁内神经支配的相关研究[D];复旦大学;2008年


相关硕士学位论文 前10条

1 杨冰洁;PRMT5介导的甲基化与氧糖剥夺再灌注损伤的关系探讨[D];南华大学;2018年

2 罗彤;基于DNA甲基化数据的原发灶不明恶性肿瘤溯源研究[D];华东师范大学;2018年

3 李浩;胃癌风险相关差异甲基化—差异表达基因筛选及验证研究[D];中国医科大学;2018年

4 陈曦;性成熟前猪睾丸全基因组DNA甲基化的动态特征[D];四川农业大学;2017年

5 张琳;mGluR3 DNA甲基化介导产前应激子代大鼠抑郁样行为[D];西北大学;2018年

6 李佳;DKK3甲基化、ITIH5甲基化对肝细胞肝癌诊断价值的研究[D];山东大学;2018年

7 陈铮;MiR-615-5p对肝癌细胞转移调控作用机制的研究[D];天津医科大学;2013年

8 王斯靓;高压静电场处理甘草三年生植株DNA甲基化多态性分析[D];内蒙古大学;2018年

9 张亮;同型半胱氨酸在早年应激诱导的肠易激综合征中的作用及其甲基化机制[D];军事科学院;2018年

10 王艳华;焦炉逸散物致呼吸系统损伤与基因组DNA甲基化改变的生物标志物研究[D];中国疾病预防控制中心;2017年



本文编号:2886066

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/2886066.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户048e9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com