当前位置:主页 > 医学论文 > 肿瘤论文 >

泛癌中驱动突变模式挖掘方法研究

发布时间:2020-08-21 21:52
【摘要】:癌症是一种常见的拥有复杂致病机理的疾病之一。目前学术界和医学界对于癌症的治愈还没有有效的手段提出,但人们对于攻克癌症的热情和迫切从未减退。随着高通量基因组项目的开展以及对泛癌分析技术研究的不断深入,研究者们逐渐认清了体细胞突变对癌症形成的重要影响。氨基酸编码区的功能性体细胞突变在癌症致病过程中往往具有选择性表达的优势,这种选择性表达优势极有可能会引起细胞或者组织器官的癌变。然而,以往对体细胞突变的研究方法只停留在单个基因或单个氨基酸层面。事实上氨基酸序列上的体细胞突变事件是成簇地存在的,为了识别氨基酸序列上对癌症的形成具有促进作用的体细胞驱动突变类,本文提出了两种基于体细胞聚类的驱动突变模式挖掘方法,分别利用数据自适应核密度估计和热点突变识别的技术对氨基酸序列上的体细胞突变类进行探索。本文的主要工作包括以下两点:(1)提出了一种基于自适应核密度估计的驱动突变模式挖掘方法DMCM(Data-adaptive Mutation Clustering Method)。该方法改进了传统的依赖于固定核带宽的核密度估计模型,首先构造了一个数据自适应核带宽,从而形成自适应的核密度估计模型。然后利用该模型对泛癌体细胞突变数据进行突变密度估计,通过高斯分布模型确定突变类的边界,最后使用EM算法优化突变类的边界,得到最终体细胞突变类。试验结果表明,DMCM方法具有高鲁棒性,识别出的突变类是具有驱动意义的。(2)提出了 一种基于热点突变聚类的驱动突变模式挖掘方法HMCM(Hotspot Mutation Clustering Method)。该方法改进了传统热点突变研究方法只针对于单个氨基酸突变的不足,利用统计方法构造突变类得分,然后将突变热点从单个氨基酸位置向序列的两端扩展,并不断更新突变类得分,直到类得分收敛于最大值。通过对泛癌体细胞突变类型中错义突变和无义突变的分开识别,证明了HMCM方法具有识别和区分致癌驱动突变类和抑癌驱动突变类的能力。实验结果表明该方法是切实可行的。因此,DMCM和HMCM方法的提出,对于癌症致病机制的研究提供了新的方法和思路,对人类健康发展具有重要的意义。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13;R730.2
【图文】:

模拟图,核函数,核密度,识别方法


Triangular核以及Biweight核)对同一模拟数据进行核密度估计。结果表明,对于逡逑相同分布的数据,在保证核密度相同的情况下,不同核函数的选择对KDE结果的逡逑影响非常小,产生的估计偏差可以忽略。图3.1B在核函数相同(选择Gaussian核逡逑作为核函数)的情况下,选择了五种不同的核带宽取值(h=0.8,邋1,邋2,邋4,邋8)对逡逑同一模拟数据进行核密度估计。结果表明,对于相同分布的数据,在保证核函数逡逑相同的情况下,不同核带宽的选择对KDE结果的影响非常明显。因此,KDE结果逡逑对核带宽的选择非常敏感,核带宽的选择对于KDE的结果具有重要作用。逡逑A逦KDE邋with邋different邋kernels逦B逦KDE邋with邋different邋bandwidths逡逑S'逦1逦逦邋Gaussia'TI逦3 ̄逦1逦逦邋h=0.8""|逡逑I邋Mm,邋:邋UllteL;逡逑6邋*邋 ̄ ̄i逦i逦i逦i逦i逦i逦I逦i邋 ̄逦?逦 ̄i逦i逦i逦i逦i逦i逦i逦i邋 ̄逡逑5逦10逦15逦20逦25逦30逦35逦40逦5逦10逦15逦20逦25逦30逦35逦40逡逑X逦x逡逑图3.1不同核带宽和核函数的选择对KDE结果的模拟图逡逑传统基于KDE的驱动突变识别方法绝大多数都使用了固定核带宽的核密度估逡逑计模型。这类方法无法体现出数据的实时变化,可能导致估计结果的不精确。为逡逑了解决这一问题

曲线,细胞突,变数,柱形图


度函数模型(non-data-adaptive邋model),用来作为自适应核密度函数模型的对照模逡逑型。使用DMCM方法和non-data-adaptive方法分别对模拟的突变数据进行核密度估逡逑计,最终产生两条核密度曲线,实验结果如图3.3所示。逡逑由图3.3A和3.3B可以看出,DMCM方法生成的密度估计曲线与真实密度曲逡逑线之间的误差比非自适应核密度方法生成的密度估计曲线与真实密度曲线之间的逡逑误差更小。即DMCM方法通过自适应核带宽构造的自适应核密度函数模型的估计逡逑效果比非自适应核密度函数模型跟更好。图3.3C展示的核带宽明显地表明了,逡逑自适应核带宽随着数据样本特征的变化而变化,相比于固定核带宽,自适应核带逡逑宽更逼近真实数据样本特征空间。图3.3D则展示了两种方法生成的密度估计曲逡逑线与分别真实密度估计曲线之间的偏差。我们使用拟合优度评价指标对两种方法逡逑的拟合效果进行比较,经计算,DMCM方法的拟合优度值为0.00078,而非自适应逡逑21逡逑

对比图,核密度,自适应,与非


3.3.2.2突变类识别结果逡逑为了进一步验证DMCM方法的优越性,我们使用DMCM方法和非自适应核密逡逑度方法分别对模拟体细胞突变数据进行突变类的识别实验,实验结果如图3.4所逡逑不。逡逑图3.4A为模拟数据的真实分布情况,图3.4B和图3.4C分别是非自适应核密逡逑度方法和DMCM方法的突变类识别结果光谱图,由图可以看出,DMCM方法识别逡逑的突变区域界限更明显。图3.4D和图3.4E分别是非自适应核密度方法逡逑和DMCM方法识别的突变类结果,相比之后我们可以发现,DMCM方法更能检测逡逑到数据的特征,在突变类边界明显的情况下,能识别出更多的突变类。而一般情逡逑况下非自适应核密度方法识别的类长度都大于DMCM方法。这是由于非自适应核逡逑密度方法采用固定核带宽构造核密度估计函数模型的原因,导致核带宽在某些数逡逑据位点上过高或者过低地估计了数据本身所表达的特征,从而使得最终的密度估逡逑计结果与真实密度结果的误差较大。而DMCM方法克服了这一点,有效地估计数逡逑据的特征

【相似文献】

相关期刊论文 前10条

1 李安亚;王少妮;;对比模式挖掘研究进展[J];科研信息化技术与应用;2017年05期

2 魏芹双;;对比模式挖掘研究进展[J];网络安全技术与应用;2017年01期

3 李中元;边馥苓;;空间同位模式挖掘研究进展[J];地理空间信息;2013年06期

4 王琳;罗可;;基于频繁项集的条件模式挖掘[J];计算机工程与设计;2009年16期

5 张雪;陈未如;;面向生物信息的结构关系模式挖掘约束条件分析[J];科技咨询导报;2007年05期

6 周欢;王海涛;钟之阳;刘方鑫;;时空轨迹数据智能处理与模式挖掘技术研究[J];电信快报;2018年07期

7 史殿习;李寒;杨若松;莫晓峗;魏菁;;用户日常频繁行为模式挖掘[J];国防科技大学学报;2017年01期

8 邹蕾;;时间序列周期模式挖掘算法分析[J];中国管理信息化;2016年03期

9 陆瑶;;基于频繁特征模式挖掘的期货市场单边运行深度的预测[J];中国管理信息化;2015年17期

10 陆亿红;王子仁;黄燕;;适合稀少空间特征的同位模式挖掘算法[J];浙江工业大学学报;2007年04期

相关会议论文 前10条

1 缪裕青;尹东;;分布式存储结构的频繁闭合模式挖掘并行算法[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年

2 王淼;尚学群;谢华博;李战怀;;行常量差异共表达基因模式挖掘算法研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

3 陆叶;王丽珍;陈红梅;赵丽红;;基于可能世界的不确定空间co-location模式挖掘研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

4 吕静;陈未如;刘俊;Osei Adjei;;并发分支模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

5 刘玉葆;蔡嘉荣;印鉴;黄志兰;;基于最大访问模式挖掘的数据库异常行为检测[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

6 胡伟成;曹三省;李丹;;一种基于QPop增量时域分割升维的媒体内容应用模式挖掘改进算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

7 薛丹;李德敏;裴仁林;;移动计算中基于PrefixSpan算法的用户移动模式挖掘[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

8 王丽珍;陆叶;陈红梅;肖清;;基于前缀树结构的空间co-location模式挖掘算法研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

9 宋国杰;马帅;唐世渭;杨冬青;;基于模式挖掘的交通预测模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

10 夏庆;马元元;孙志挥;;路径遍历模式挖掘方法的改进[A];第十六届全国数据库学术会议论文集[C];1999年

相关重要报纸文章 前6条

1 东方通CEO 沈惠中;以PPP模式挖掘产业大数据金矿[N];中国电子报;2015年

2 记者 温婷 编辑 全泽源;上海文交所总裁张天:用创新模式挖掘“文化的北大荒”[N];上海证券报;2010年

3 本报记者 姜旭 实习记者 侯伟;“互联网+音乐”:创新模式挖掘商机[N];中国知识产权报;2015年

4 冉凤林 本报记者 曾小清;线上线下融合 O2O模式挖掘消费潜力[N];四川日报;2015年

5 本报记者 于萍;园林上市公司试水PPP模式挖掘千亿级市场[N];中国证券报;2015年

6 ;成功模式挖掘资源潜在价值[N];人民邮电;2006年

相关博士学位论文 前10条

1 杨晓飞;基于表观遗传数据的功能模式挖掘与分析[D];西安电子科技大学;2016年

2 钱烽;同位模式挖掘研究[D];浙江大学;2012年

3 Shafqat Ali Shad;移动用户轨迹与行为模式挖掘方法研究[D];中国科学技术大学;2013年

4 覃桂敏;复杂网络模式挖掘算法研究[D];西安电子科技大学;2012年

5 刘勇;图模式挖掘技术的研究[D];哈尔滨工业大学;2010年

6 朱丽达;基因调控网络的模式挖掘及其在药物筛选中的应用[D];武汉大学;2014年

7 张峻铭;基于轨迹数据的移动对象聚集模式挖掘方法研究[D];北京邮电大学;2016年

8 董晓莉;时间序列数据挖掘相似性度量和周期模式挖掘研究[D];天津大学;2007年

9 王乐;数据流模式挖掘算法及应用研究[D];大连理工大学;2013年

10 沙朝锋;基于信息论的数据挖掘算法[D];复旦大学;2008年

相关硕士学位论文 前10条

1 孙鸿艳;云环境下时空轨迹渐变移动簇模式挖掘算法研究[D];南京师范大学;2018年

2 吕梦瑶;基于知识图谱的需求模式挖掘方法的研究[D];哈尔滨工业大学;2018年

3 鲁润泽;基于子图同构和机器学习的设计模式挖掘方法研究[D];杭州电子科技大学;2018年

4 张萍;度量驱动的设计模式挖掘及基于模板的定制化重构[D];杭州电子科技大学;2018年

5 马佳丽;基于时空数据的频繁轨迹挖掘算法研究[D];西北大学;2018年

6 钱鑫;泛癌中驱动突变模式挖掘方法研究[D];湖南大学;2018年

7 刘畅;城市交通中聚集模式的挖掘方法研究[D];西南交通大学;2018年

8 于重生;基于时空规律的位置预测方法研究[D];山东大学;2018年

9 欧阳双;基于高效用模式挖掘的微博文本突发话题检测方法研究[D];武汉大学;2018年

10 陈京;移动云服务环境下的用户异常行为检测[D];河南科技大学;2017年



本文编号:2799900

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/2799900.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户07e6c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com