基于基因组数据的癌症亚型谱聚类方法研究
发布时间:2021-04-02 08:37
癌症是威胁人类生命的主要疾病之一,有效提高癌症检测机制在未来的癌症研究工作中具有非常重要的意义。随着高通量测序技术的诞生与发展,基因组数据为癌症的发现与治疗带来了新的机遇。但是基因组数据往往表现出高维、小样本和高噪声等特点,传统的聚类方法很难直接应用在癌症基因组数据的挖掘分析中。本文将在研究基因组数据的基础上,以基于图论的谱聚类算法为主要研究方向,建立一种基于图论的谱聚类算法模型,对现有谱聚类算法进行改进,本文主要开展了以下几个方面的研究工作:针对传统的谱聚类算法不能很好地描述空间中数据点之间的关系,提出一种密度相似性的谱聚类算法代替Gaussian核函数作为相似性度量的标准。当两数据点是邻接关系时,将Hsim度量方法作为欧氏距离的一个权重值,避免数据点自身的信息对数据点之间的相似度测量存在过大的影响;当两数据点不是邻接关系时,采用设计的密度相似性度量方法,减小高密度区域数据点之间的距离,放大低密度区域数据点之间的距离,更好地反映数据集的真实分布情况。针对大规模数据集中Laplacian矩阵的特征分解会造成过高的时间和空间上的复杂度问题,提出了一种改进的随机奇异值分解方法来计算样本子矩...
【文章来源】:兰州交通大学甘肃省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
基因芯片技术
兰州交通大学工程硕士学位论文-9-()2221=logloglog2AR+G=RG(2.3)222M=logRlogG=logRG(2.4)图的横坐标是平均表达量A,纵坐标是相对表达量M,得到所以数据点的MA图(MA-plot)。加权回归分析法的效果如图2.2所示,对于每一个基因表达信号点,绝对表达量减去该点的lowess加权函数所得到的残差为该基因的相对表达量,图中可以看出影响已被消除。计算方式如式2.5:()2MlogRGlowessA=(2.5)图2.2Lowess归一化测序得到的差异可能会造成表达量之间不具有可比性。例如,一份10Gb的测序数据中,一组数据中获得的有效数据为8Gb而一份被污染的样品测得的有效数据只有2Gb,可以看出第二种情况下获得的基因检测量远小于第一种。因为这些实际测量上的误差,为了使基因表达量之间具有可比性,标准化处理RNA-Seq测序得到的绝对reads。目前常见的RNA-Seq数据标准化处理方法有以下几种[23]:UpperQuartile(UQ)[24],Totalcount(TC),DESeq[25],Median(Med),Quantile(Q)[26,27],TrimmedMeanofM-values(TMM)inedgeRpackage[28],RPKM[29],FPKM[30]。(2)芯片间标准化当外部环境不一致时导致的差异可以采用芯片间标准化的方式。平均数标准化和中位数标准化是比较常见的芯片间标准化方法。平均数标准化减去芯片数据的平均数,而中位数标准化则是减去芯片数据的中位数。由此得到的基因表达量可以用于进行比较分析。图2.3是基因芯片数据进行中位数标准化前后的数据分布情况。
基于基因组数据的癌症亚型谱聚类方法研究-10-(1)BeforeNormalization(2)AfterNormalization图2.3中位数标准化前后对比2.4基因组数据聚类结果评价指标聚类分析是一种帮助发现数据对象间的关系的手段,常用于机器学习和数据挖掘中,特别是在生物信息学领域,聚类分析在大规模癌症基因组数据的处理与分析上起着重要的作用。聚类分析是一种无监督的学习手段,因其不同于一般的分类方法或是回归分析,对于无标签的数据集,没有可以很好描述距离结果的标准。所以实验后的分析方法也成为一难点问题。在癌症基因组数据集的亚型发现上,可以利用临床信息或是前人提出并辅以实验的信息作为聚类结果的评判标准。生存分析是最常见的统计检验方法。生存分析(Survivalanalysis)的应用十分广泛,常应用在疾病方面的生物统计学方法上,生存分析研究在不同因素下,生存时间的分布规律。将事件结果与时间相联系起来做的分析称作生存分析。生存分析可以用来观察基因是否有意义,并且可以通过生存分析对癌症患者进行信息跟踪,更好地帮助研究人员发现癌症的致病机理已经接受治疗后的反馈情况。(1)事件(Event)。在癌症基因组数据中,事件常代表患者的状态,复发或是死亡。(2)生存时间(Survivaltime)。生存时间一般指某个事件的开始到终止这个事件的时间长短,例如癌症研究中疾病确诊到治愈或是死亡的时间。(3)删失(Censoring)。样本生存资料常通过随访收集,一段时间后未能及时获取病人的信息称为数据的删失。通常代表非死亡原因引起的数据丢失,可能是时间终止而事件未发生。删失又分为左删失,右删失,期间删失三种情况。左删失(Leftcensored):只知道实际生存时间小于观察到的时间。右删失(Rightcensored):只知道实际生存时间大于观察到的时间。区间删失(
【参考文献】:
期刊论文
[1]基于数据库探讨细胞周期蛋白B1(CCNB1)表达对胃癌预后的影响[J]. 杨生辉,黄琰菁,邱纯,李向璐,李赛,孙达统,盛莉,陈邓林,邢雪花,王琳. 中国数字医学. 2020(01)
[2]SCNN1B基因在非小细胞肺癌中的表达及其临床意义[J]. 雷锐,刘艳. 临床肺科杂志. 2019(05)
[3]KIAA0101调控胃癌细胞周期的相关基因筛选[J]. 王直,党诚学,闫融,张昊,袁达伟,李康. 南方医科大学学报. 2018(10)
[4]自动确定聚类中心的密度峰值算法[J]. 王洋,张桂珠. 计算机工程与应用. 2018(08)
[5]面向药物发现和精准医疗的基因表达谱分析[J]. 刘阳,白卉,陶欢,何松,黄昕,伯晓晨,王升启. 生物化学与生物物理进展. 2016(10)
[6]中国癌症发病、死亡现状与趋势分析[J]. 曾倩,崔芳芳,宇传华,张干深. 中国卫生统计. 2016(02)
[7]基因表达谱微阵列网络数据库在肿瘤研究中的应用[J]. 刘曦,刘卓琦,罗达亚. 中国生物化学与分子生物学报. 2016(03)
[8]基因表达谱缺失数据填补估计方法的研究进展与探讨[J]. 伍亚舟,易东. 重庆医学. 2014(14)
[9]谱聚类算法综述[J]. 蔡晓妍,戴冠中,杨黎斌. 计算机科学. 2008(07)
博士论文
[1]大规模复杂数据的谱聚类研究[D]. 贾洪杰.中国矿业大学 2017
[2]CD164通过PTEN调控人脑胶质瘤生长和凋亡的研究[D]. 涂明.南方医科大学 2016
[3]基于基因芯片表达谱的癌症预后元分析方法研究[D]. 杨锡南.东南大学 2006
硕士论文
[1]肿瘤基因表达数据的特征选择方法研究[D]. 李晨阳.兰州交通大学 2018
[2]基于Nystr(?)m扩展的大规模谱聚类算法[D]. 尤全增.大连理工大学 2011
本文编号:3114958
【文章来源】:兰州交通大学甘肃省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
基因芯片技术
兰州交通大学工程硕士学位论文-9-()2221=logloglog2AR+G=RG(2.3)222M=logRlogG=logRG(2.4)图的横坐标是平均表达量A,纵坐标是相对表达量M,得到所以数据点的MA图(MA-plot)。加权回归分析法的效果如图2.2所示,对于每一个基因表达信号点,绝对表达量减去该点的lowess加权函数所得到的残差为该基因的相对表达量,图中可以看出影响已被消除。计算方式如式2.5:()2MlogRGlowessA=(2.5)图2.2Lowess归一化测序得到的差异可能会造成表达量之间不具有可比性。例如,一份10Gb的测序数据中,一组数据中获得的有效数据为8Gb而一份被污染的样品测得的有效数据只有2Gb,可以看出第二种情况下获得的基因检测量远小于第一种。因为这些实际测量上的误差,为了使基因表达量之间具有可比性,标准化处理RNA-Seq测序得到的绝对reads。目前常见的RNA-Seq数据标准化处理方法有以下几种[23]:UpperQuartile(UQ)[24],Totalcount(TC),DESeq[25],Median(Med),Quantile(Q)[26,27],TrimmedMeanofM-values(TMM)inedgeRpackage[28],RPKM[29],FPKM[30]。(2)芯片间标准化当外部环境不一致时导致的差异可以采用芯片间标准化的方式。平均数标准化和中位数标准化是比较常见的芯片间标准化方法。平均数标准化减去芯片数据的平均数,而中位数标准化则是减去芯片数据的中位数。由此得到的基因表达量可以用于进行比较分析。图2.3是基因芯片数据进行中位数标准化前后的数据分布情况。
基于基因组数据的癌症亚型谱聚类方法研究-10-(1)BeforeNormalization(2)AfterNormalization图2.3中位数标准化前后对比2.4基因组数据聚类结果评价指标聚类分析是一种帮助发现数据对象间的关系的手段,常用于机器学习和数据挖掘中,特别是在生物信息学领域,聚类分析在大规模癌症基因组数据的处理与分析上起着重要的作用。聚类分析是一种无监督的学习手段,因其不同于一般的分类方法或是回归分析,对于无标签的数据集,没有可以很好描述距离结果的标准。所以实验后的分析方法也成为一难点问题。在癌症基因组数据集的亚型发现上,可以利用临床信息或是前人提出并辅以实验的信息作为聚类结果的评判标准。生存分析是最常见的统计检验方法。生存分析(Survivalanalysis)的应用十分广泛,常应用在疾病方面的生物统计学方法上,生存分析研究在不同因素下,生存时间的分布规律。将事件结果与时间相联系起来做的分析称作生存分析。生存分析可以用来观察基因是否有意义,并且可以通过生存分析对癌症患者进行信息跟踪,更好地帮助研究人员发现癌症的致病机理已经接受治疗后的反馈情况。(1)事件(Event)。在癌症基因组数据中,事件常代表患者的状态,复发或是死亡。(2)生存时间(Survivaltime)。生存时间一般指某个事件的开始到终止这个事件的时间长短,例如癌症研究中疾病确诊到治愈或是死亡的时间。(3)删失(Censoring)。样本生存资料常通过随访收集,一段时间后未能及时获取病人的信息称为数据的删失。通常代表非死亡原因引起的数据丢失,可能是时间终止而事件未发生。删失又分为左删失,右删失,期间删失三种情况。左删失(Leftcensored):只知道实际生存时间小于观察到的时间。右删失(Rightcensored):只知道实际生存时间大于观察到的时间。区间删失(
【参考文献】:
期刊论文
[1]基于数据库探讨细胞周期蛋白B1(CCNB1)表达对胃癌预后的影响[J]. 杨生辉,黄琰菁,邱纯,李向璐,李赛,孙达统,盛莉,陈邓林,邢雪花,王琳. 中国数字医学. 2020(01)
[2]SCNN1B基因在非小细胞肺癌中的表达及其临床意义[J]. 雷锐,刘艳. 临床肺科杂志. 2019(05)
[3]KIAA0101调控胃癌细胞周期的相关基因筛选[J]. 王直,党诚学,闫融,张昊,袁达伟,李康. 南方医科大学学报. 2018(10)
[4]自动确定聚类中心的密度峰值算法[J]. 王洋,张桂珠. 计算机工程与应用. 2018(08)
[5]面向药物发现和精准医疗的基因表达谱分析[J]. 刘阳,白卉,陶欢,何松,黄昕,伯晓晨,王升启. 生物化学与生物物理进展. 2016(10)
[6]中国癌症发病、死亡现状与趋势分析[J]. 曾倩,崔芳芳,宇传华,张干深. 中国卫生统计. 2016(02)
[7]基因表达谱微阵列网络数据库在肿瘤研究中的应用[J]. 刘曦,刘卓琦,罗达亚. 中国生物化学与分子生物学报. 2016(03)
[8]基因表达谱缺失数据填补估计方法的研究进展与探讨[J]. 伍亚舟,易东. 重庆医学. 2014(14)
[9]谱聚类算法综述[J]. 蔡晓妍,戴冠中,杨黎斌. 计算机科学. 2008(07)
博士论文
[1]大规模复杂数据的谱聚类研究[D]. 贾洪杰.中国矿业大学 2017
[2]CD164通过PTEN调控人脑胶质瘤生长和凋亡的研究[D]. 涂明.南方医科大学 2016
[3]基于基因芯片表达谱的癌症预后元分析方法研究[D]. 杨锡南.东南大学 2006
硕士论文
[1]肿瘤基因表达数据的特征选择方法研究[D]. 李晨阳.兰州交通大学 2018
[2]基于Nystr(?)m扩展的大规模谱聚类算法[D]. 尤全增.大连理工大学 2011
本文编号:3114958
本文链接:https://www.wllwen.com/kejilunwen/yysx/3114958.html