乳腺癌相关基因的选择与预后分析
发布时间:2021-01-21 04:17
乳腺癌作为全球女性发病率最高的癌症给全球妇女的生活带来了严重的影响。目前,早期筛查依旧是控制乳腺癌发展最有效的手段。由于缺乏准确的生物标志物,乳腺癌的早期诊断依然十分困难。因此,有必要探索参与乳腺癌发生和发展的分子机制,以发现更多新的候选基因来改善早期诊断和治疗决策。本文通过对乳腺癌基因表达数据进行分析,找到乳腺癌的相关基因,并从中筛选出与预后显著相关的基因作为乳腺癌的生物标志物;其次将这些基因作为一个整体,构建预后模型;最后利用该模型对乳腺癌患者进行预后评估,以提高对乳腺癌的预测质量。本文的主要研究内容如下:(1)本文提出一种DO-UNIBIC相关基因选择方法。针对疾病本体分析无法找出乳腺癌的潜在相关基因,不能有效利用基因表达数据的问题,本文提出首先使用疾病本体分析从乳腺癌差异表达基因中筛选出乳腺癌的相关基因,然后利用UNIBIC算法从表达数据中基于最长公共子序列找出所有变化趋势一致的基因簇。经过实验证明,两种算法的结果中有交集的基因簇中存在着与乳腺癌相关以及潜在相关的基因,从而可以在乳腺癌的差异表达基因中筛选出更全面的乳腺癌相关基因作为预后分析的候选基因集。(2)本文构建一个八基因...
【文章来源】:河南大学河南省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
TCGA官网界面
第2章基因表达数据与预后分析9条件下基因的表达是如何受影响的[34]。基因表达数据在医学临床诊断、药物疗效判断、解释疾病发生机制等方面有重要的应用。基因表达矩阵是用来描述基因表达数据的矩阵如表2-1所示。行代表基因,列代表样本,其中表示基因i在样本j下的表达水平。构建基因表达矩阵的目的是要从中提取出潜在的生物学过程。表2-1基因表达矩阵样本1…样本j…样本m基因111…1…1………………基因i1……………………基因n1……为了消除样本取样时间的差异对分析带来的影响,本文从癌症基因组图谱(TCGA)数据库中挑选了110对同时检测癌区和癌旁正常组织的样本下载基因表达数据,这样就排除了个体癌组织与正常组织取样时间的差异[35]。TCGA通过样本名(Barcode)来区分正常组织样本和癌组织样本,样本名中第四个参数sample为01时代表的是癌组织样本,sample为11时代表的是正常组织样本,TCGA样本名的详细信息如图2-2所示。图2-2TCGA样本命名规则图2.4预后分析预后是指根据临床和非临床资料来推测在特定的时间内出现某一结果(如死亡、并发症、疾病复发或消退)的可能性或风险[36]。乳腺癌的预后在很多方面都很重要。首先,患者通过预后可以知道他们未来的疾病发展进程。其次,预后对乳腺癌的治疗至关重要。预后的结果越精确,患者就能得到更正确的治疗。比如预后很差的患者可以考虑积极治
乳腺癌相关基因的选择与预后分析14图3-1过滤前和过滤后基因表达数据分布图3.2差异表达分析由前文可知测序深度较大的样本会产生较高的读段计数,因此对于基因的差异表达分析,很少直接使用原始计数数据来考虑基因的表达。通常的做法是将原始读段计数数据进行归一化,来消除测序深度所导致的差异。归一化是将每个样本的表达量转换到同一量纲下,把表达量映射到特定的区间内,使得不同样本的表达量可以进行大小比较。经常使用的归一化方法有基于序列的CPM(Countspermillion)、log-CPM(Log2-countspermillion)、FPKM(Fragmentsperkilobaseoftranscriptpermillion),和基于转录本数目的RPKM(Readsperkilobaseoftranscriptpermillion)。CPM的计算公式见式(3-1)。RPKM的计算公式如下:610inRPKMLN=(3-2)其中,in是比对到基因i的读段数;L是基因的外显子长度之和除以1000,N为比对到基因组上的总读段数。FPKM和RPKM的计算方法非常相似,其中区别就在于FPKM应用于双端测序,RPKM应用于单端测序。在RNA-Seq中,测序建库时会把RNA打断成小片段(Fragment),在每个片段的两端加上接头引物进行测序。如果是单端测序,那
【参考文献】:
期刊论文
[1]具有预后价值的乳腺癌发病关键基因鉴别研究[J]. 徐久成,李成长. 河南师范大学学报(自然科学版). 2020(02)
[2]基于生物信息学分析的非小细胞肺癌诊断预后相关基因的筛选[J]. 杨燕霞,金莲,王欣,张洁,柳小平. 生命科学研究. 2020(02)
[3]常用肿瘤基因分析方法及基于TCGA数据库的分析应用[J]. 李鑫,李梦玮,张依楠,徐寒梅. 遗传. 2019(03)
[4]癌症TCGA数据库中乳腺癌预后数据的挖掘[J]. Mian Khizar Hayat,王铭裕,李硕磊. 生物学杂志. 2018(04)
[5]LASSO方法在Cox回归模型中的应用[J]. 闫丽娜,覃婷,王彤. 中国卫生统计. 2012(01)
[6]新一代高通量RNA测序数据的处理与分析[J]. 王曦,汪小我,王立坤,冯智星,张学工. 生物化学与生物物理进展. 2010(08)
博士论文
[1]基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建[D]. 史健翔.郑州大学 2018
硕士论文
[1]通过生物信息学分析鉴定乳腺癌相关的异常甲基化差异表达基因及其功能[D]. 易丽兰.南方医科大学 2019
[2]基于比例风险模型的生存分析研究[D]. 路文馨.华南理工大学 2019
[3]双聚类算法及其在基因表达数据分析中应用研究[D]. 杨烩婷.吉林大学 2019
[4]乳腺肿瘤异质性区域影像特征与全基因组表达模式以及预后的关联性研究[D]. 刘斌.杭州电子科技大学 2019
[5]基于基因共表达网络分析的三阴性乳腺癌预后相关基因与铂应答靶点关系的研究[D]. 黄鹏.中国医科大学 2018
[6]应用于基因表达数据的双聚类算法的研究[D]. 刘楠楠.燕山大学 2011
本文编号:2990442
【文章来源】:河南大学河南省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
TCGA官网界面
第2章基因表达数据与预后分析9条件下基因的表达是如何受影响的[34]。基因表达数据在医学临床诊断、药物疗效判断、解释疾病发生机制等方面有重要的应用。基因表达矩阵是用来描述基因表达数据的矩阵如表2-1所示。行代表基因,列代表样本,其中表示基因i在样本j下的表达水平。构建基因表达矩阵的目的是要从中提取出潜在的生物学过程。表2-1基因表达矩阵样本1…样本j…样本m基因111…1…1………………基因i1……………………基因n1……为了消除样本取样时间的差异对分析带来的影响,本文从癌症基因组图谱(TCGA)数据库中挑选了110对同时检测癌区和癌旁正常组织的样本下载基因表达数据,这样就排除了个体癌组织与正常组织取样时间的差异[35]。TCGA通过样本名(Barcode)来区分正常组织样本和癌组织样本,样本名中第四个参数sample为01时代表的是癌组织样本,sample为11时代表的是正常组织样本,TCGA样本名的详细信息如图2-2所示。图2-2TCGA样本命名规则图2.4预后分析预后是指根据临床和非临床资料来推测在特定的时间内出现某一结果(如死亡、并发症、疾病复发或消退)的可能性或风险[36]。乳腺癌的预后在很多方面都很重要。首先,患者通过预后可以知道他们未来的疾病发展进程。其次,预后对乳腺癌的治疗至关重要。预后的结果越精确,患者就能得到更正确的治疗。比如预后很差的患者可以考虑积极治
乳腺癌相关基因的选择与预后分析14图3-1过滤前和过滤后基因表达数据分布图3.2差异表达分析由前文可知测序深度较大的样本会产生较高的读段计数,因此对于基因的差异表达分析,很少直接使用原始计数数据来考虑基因的表达。通常的做法是将原始读段计数数据进行归一化,来消除测序深度所导致的差异。归一化是将每个样本的表达量转换到同一量纲下,把表达量映射到特定的区间内,使得不同样本的表达量可以进行大小比较。经常使用的归一化方法有基于序列的CPM(Countspermillion)、log-CPM(Log2-countspermillion)、FPKM(Fragmentsperkilobaseoftranscriptpermillion),和基于转录本数目的RPKM(Readsperkilobaseoftranscriptpermillion)。CPM的计算公式见式(3-1)。RPKM的计算公式如下:610inRPKMLN=(3-2)其中,in是比对到基因i的读段数;L是基因的外显子长度之和除以1000,N为比对到基因组上的总读段数。FPKM和RPKM的计算方法非常相似,其中区别就在于FPKM应用于双端测序,RPKM应用于单端测序。在RNA-Seq中,测序建库时会把RNA打断成小片段(Fragment),在每个片段的两端加上接头引物进行测序。如果是单端测序,那
【参考文献】:
期刊论文
[1]具有预后价值的乳腺癌发病关键基因鉴别研究[J]. 徐久成,李成长. 河南师范大学学报(自然科学版). 2020(02)
[2]基于生物信息学分析的非小细胞肺癌诊断预后相关基因的筛选[J]. 杨燕霞,金莲,王欣,张洁,柳小平. 生命科学研究. 2020(02)
[3]常用肿瘤基因分析方法及基于TCGA数据库的分析应用[J]. 李鑫,李梦玮,张依楠,徐寒梅. 遗传. 2019(03)
[4]癌症TCGA数据库中乳腺癌预后数据的挖掘[J]. Mian Khizar Hayat,王铭裕,李硕磊. 生物学杂志. 2018(04)
[5]LASSO方法在Cox回归模型中的应用[J]. 闫丽娜,覃婷,王彤. 中国卫生统计. 2012(01)
[6]新一代高通量RNA测序数据的处理与分析[J]. 王曦,汪小我,王立坤,冯智星,张学工. 生物化学与生物物理进展. 2010(08)
博士论文
[1]基于生物信息学的非小细胞肺癌肿瘤标志物筛选和预测模型构建[D]. 史健翔.郑州大学 2018
硕士论文
[1]通过生物信息学分析鉴定乳腺癌相关的异常甲基化差异表达基因及其功能[D]. 易丽兰.南方医科大学 2019
[2]基于比例风险模型的生存分析研究[D]. 路文馨.华南理工大学 2019
[3]双聚类算法及其在基因表达数据分析中应用研究[D]. 杨烩婷.吉林大学 2019
[4]乳腺肿瘤异质性区域影像特征与全基因组表达模式以及预后的关联性研究[D]. 刘斌.杭州电子科技大学 2019
[5]基于基因共表达网络分析的三阴性乳腺癌预后相关基因与铂应答靶点关系的研究[D]. 黄鹏.中国医科大学 2018
[6]应用于基因表达数据的双聚类算法的研究[D]. 刘楠楠.燕山大学 2011
本文编号:2990442
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2990442.html
最近更新
教材专著