基于多数据集的胰腺癌分类特征基因研究
发布时间:2021-07-27 15:15
二十一世纪以来,随着经济的发展,癌症患者以及其他疾病患者数量急剧增长,不断对我国的医疗水平提出了挑战。如同面对2019新型冠状病毒的袭击一般,我们需要不断地探索、不断地突破,才能使病例被诊断、被治疗。类似于这种无法通过观测表观症状诊断,或者病情还在初期的癌症或者疾病,可通过检测基因测序或基因表达数据提供诊断和治疗的依据。如今,基因芯片技术发展迅猛,公开的基因表达数据越来越多,如何通过这些基因表达数据探索出癌症或疾病诊断方向显得越来越重要。然而,目前癌症基因表达数据研究致力于在少量的样本数据的基础上来提出更佳的相关研究方法,忽略了样本的普遍性与独特性,研究结果说服力度不够。因此本文将研究四个胰腺癌基因表达数据集,并使用一个新的外部样本集检验实验结果。同时考虑到基因之间的相似性,采用了区别于目前许多硬聚类研究的软聚类方法---模糊聚类进行基因分类,寻找更加全面的胰腺癌分类特征基因。本文从GEO公开数据库下载了四个胰腺癌基因表达数据集。采用R语言的Limma包的经验贝叶斯方法分别对四个数据集进行差异表达分析,然后对四个差异分析结果取交集,将其作为后续研究的基础;采用中位数整合法,整合四个基因...
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
中位数整合法过程展示
西南大学应用统计硕士学位论文24图3-2sigmoid函数曲线当z趋于时,g(z)趋于1;当z趋于-时,g(z)趋于0。将线性模型预测函数结果代入Sigmoid函数得到逻辑回归预测函数,如下:xTTehXgX11)()((3.5)由此,根据设定阈值来确定分类结果。例如,阈值设定为0.5,则Xh5.0)(时,分为一类;Xh5.0)(时,分为另一类。(2)分类模型评估建立好模型之后,通过划分训练集与测试集进行模型验证评估。本文将采用留一交叉验证法进行验证。留一法是常见的k折交叉验证法的特例。k折交叉验证,首先将全部样本集X分成k个不相交的子集,假设样本集X中样本个数为m,那么每一个子集有km/个样本,相应的子集为}x,,x,{xk21;然后每次从划分好的子集中,抽出1个作为测试集,剩下k1个作为训练集;再运用分类算法训练训练集得到分类模型,将测试集放入分类模型,得到测试集分类预测结果;最后计算k次分类预测结果的平均值,即为该模型的真实分类预测性能。当k值取m时,即为留一交叉验证。顾名思义就是每次只抽出1个样本作测试集,其它剩余样本作训练集,如果有n个样本,则需要训练n次,测试n次。留一交叉验证计算较为繁琐,适用小样本,但该方法样本利用率较高。同时本文采用混淆矩阵的衍生指标准确率、特异度以及ROC曲线、AUC值进行评估分类模型识别效果。
西南大学应用统计硕士学位论文253.3实验结果3.3.1数据预处理下载的基因表达谱数据均是探针表达值,需要将探针翻译为对应的基因。针对不同探针对应相同基因的情况,取多个探针平均表达值作为该基因的表达值。首先将五个基因表达数据集均按此方法进行探针翻译。考虑到GSE16515数据集用作后期分类模型验证,因此接下来就只针对GSE28735数据集、GSE41368数据集、GSE15471数据集、GSE71989数据集四个数据集进行处理与研究。由于GSE41368数据集的观测值数值较大,先将其进行log2对数转换,再对四个数据集进行标准差标准化,并绘制箱线图。GSE28735数据集、GSE41368数据集、GSE15471数据集、GSE71989数据集标准化的箱线图分别如图3-3A、图3-3B、图3-3C、图3-3D所示。此时四个数据集样本表达量集中在-1到1之间,中位数集中在0附近。图3-3四个数据集标准化后箱线图
【参考文献】:
期刊论文
[1]胰腺癌诊断和预后关键生物标志物的筛选鉴定和综合分析[J]. 柳兴源,李菁媛,杨静. 肿瘤防治研究. 2020(01)
[2]胰腺癌诊治的研究进展[J]. 丁珏宁君,计凤鸣,王斌,白松. 医学理论与实践. 2019(23)
[3]胰腺癌早期诊断的最新关注点[J]. 孔祥耀,潘耀振. 世界最新医学信息文摘. 2019(98)
[4]胰腺癌综合治疗的进展与突破[J]. 毛铁波,崔玖洁,王理伟. 循证医学. 2019(05)
[5]一种加权K-均值基因聚类算法[J]. 姚登举,詹晓娟,张晓晶. 哈尔滨理工大学学报. 2017(02)
[6]决策树算法的研究综述[J]. 田欣. 现代营销(下旬刊). 2017(01)
[7]基因表达谱的肿瘤特征基因提取研究分析[J]. 尹蕾,王博. 西安文理学院学报(自然科学版). 2014(02)
[8]模糊聚类分析及其应用研究[J]. 李新社,姚俊平. 网络安全技术与应用. 2014(01)
[9]结合主成分与独立成分分析识别胃癌相关差异表达基因的方法研究[J]. 陈战雷,李博宇,李益,饶妮妮. 生物医学工程学杂志. 2013(05)
[10]基于BB-SIR方法的结肠癌特征基因提取[J]. 李杰,邓丽君,唐胜男. 世界科技研究与发展. 2011 (04)
博士论文
[1]胰腺导管腺癌中核蛋白AHNAK功能分析验证及胰腺星形细胞甲基化水平的检测[D]. 张志文.北京协和医学院 2019
[2]基于流行病学、临床症状、肿瘤标志和影像学特征的肺癌诊断模型的建立[D]. 倪然.郑州大学 2016
[3]癌相关高通量组学数据的标准化[D]. 王栋.电子科技大学 2011
[4]基因芯片数据统合分析方法的若干拓展[D]. 徐兆华.浙江大学 2010
硕士论文
[1]基于基因表达数据的癌症特征基因选择方法研究[D]. 李晓丹.北京工业大学 2016
[2]基因表达谱数据聚类分析的研究[D]. 周洋.西北农林科技大学 2014
[3]miRNA-200c在乳腺癌中的表达及其调控基因网络的筛选[D]. 王晟.南昌大学医学院 2013
[4]多平台基因芯片数据整合方法改进[D]. 张园.湖南大学 2013
[5]胃癌中miRNA-429的表达及其生物信息学的初步研究[D]. 张月馨.河北医科大学 2013
[6]基于统计分析法的肿瘤特征基因提取和分类研究[D]. 赵亚宁.西安建筑科技大学 2012
[7]基因表达数据的分析与处理[D]. 吴敏.西安理工大学 2009
本文编号:3306032
【文章来源】:西南大学重庆市 211工程院校 教育部直属院校
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
中位数整合法过程展示
西南大学应用统计硕士学位论文24图3-2sigmoid函数曲线当z趋于时,g(z)趋于1;当z趋于-时,g(z)趋于0。将线性模型预测函数结果代入Sigmoid函数得到逻辑回归预测函数,如下:xTTehXgX11)()((3.5)由此,根据设定阈值来确定分类结果。例如,阈值设定为0.5,则Xh5.0)(时,分为一类;Xh5.0)(时,分为另一类。(2)分类模型评估建立好模型之后,通过划分训练集与测试集进行模型验证评估。本文将采用留一交叉验证法进行验证。留一法是常见的k折交叉验证法的特例。k折交叉验证,首先将全部样本集X分成k个不相交的子集,假设样本集X中样本个数为m,那么每一个子集有km/个样本,相应的子集为}x,,x,{xk21;然后每次从划分好的子集中,抽出1个作为测试集,剩下k1个作为训练集;再运用分类算法训练训练集得到分类模型,将测试集放入分类模型,得到测试集分类预测结果;最后计算k次分类预测结果的平均值,即为该模型的真实分类预测性能。当k值取m时,即为留一交叉验证。顾名思义就是每次只抽出1个样本作测试集,其它剩余样本作训练集,如果有n个样本,则需要训练n次,测试n次。留一交叉验证计算较为繁琐,适用小样本,但该方法样本利用率较高。同时本文采用混淆矩阵的衍生指标准确率、特异度以及ROC曲线、AUC值进行评估分类模型识别效果。
西南大学应用统计硕士学位论文253.3实验结果3.3.1数据预处理下载的基因表达谱数据均是探针表达值,需要将探针翻译为对应的基因。针对不同探针对应相同基因的情况,取多个探针平均表达值作为该基因的表达值。首先将五个基因表达数据集均按此方法进行探针翻译。考虑到GSE16515数据集用作后期分类模型验证,因此接下来就只针对GSE28735数据集、GSE41368数据集、GSE15471数据集、GSE71989数据集四个数据集进行处理与研究。由于GSE41368数据集的观测值数值较大,先将其进行log2对数转换,再对四个数据集进行标准差标准化,并绘制箱线图。GSE28735数据集、GSE41368数据集、GSE15471数据集、GSE71989数据集标准化的箱线图分别如图3-3A、图3-3B、图3-3C、图3-3D所示。此时四个数据集样本表达量集中在-1到1之间,中位数集中在0附近。图3-3四个数据集标准化后箱线图
【参考文献】:
期刊论文
[1]胰腺癌诊断和预后关键生物标志物的筛选鉴定和综合分析[J]. 柳兴源,李菁媛,杨静. 肿瘤防治研究. 2020(01)
[2]胰腺癌诊治的研究进展[J]. 丁珏宁君,计凤鸣,王斌,白松. 医学理论与实践. 2019(23)
[3]胰腺癌早期诊断的最新关注点[J]. 孔祥耀,潘耀振. 世界最新医学信息文摘. 2019(98)
[4]胰腺癌综合治疗的进展与突破[J]. 毛铁波,崔玖洁,王理伟. 循证医学. 2019(05)
[5]一种加权K-均值基因聚类算法[J]. 姚登举,詹晓娟,张晓晶. 哈尔滨理工大学学报. 2017(02)
[6]决策树算法的研究综述[J]. 田欣. 现代营销(下旬刊). 2017(01)
[7]基因表达谱的肿瘤特征基因提取研究分析[J]. 尹蕾,王博. 西安文理学院学报(自然科学版). 2014(02)
[8]模糊聚类分析及其应用研究[J]. 李新社,姚俊平. 网络安全技术与应用. 2014(01)
[9]结合主成分与独立成分分析识别胃癌相关差异表达基因的方法研究[J]. 陈战雷,李博宇,李益,饶妮妮. 生物医学工程学杂志. 2013(05)
[10]基于BB-SIR方法的结肠癌特征基因提取[J]. 李杰,邓丽君,唐胜男. 世界科技研究与发展. 2011 (04)
博士论文
[1]胰腺导管腺癌中核蛋白AHNAK功能分析验证及胰腺星形细胞甲基化水平的检测[D]. 张志文.北京协和医学院 2019
[2]基于流行病学、临床症状、肿瘤标志和影像学特征的肺癌诊断模型的建立[D]. 倪然.郑州大学 2016
[3]癌相关高通量组学数据的标准化[D]. 王栋.电子科技大学 2011
[4]基因芯片数据统合分析方法的若干拓展[D]. 徐兆华.浙江大学 2010
硕士论文
[1]基于基因表达数据的癌症特征基因选择方法研究[D]. 李晓丹.北京工业大学 2016
[2]基因表达谱数据聚类分析的研究[D]. 周洋.西北农林科技大学 2014
[3]miRNA-200c在乳腺癌中的表达及其调控基因网络的筛选[D]. 王晟.南昌大学医学院 2013
[4]多平台基因芯片数据整合方法改进[D]. 张园.湖南大学 2013
[5]胃癌中miRNA-429的表达及其生物信息学的初步研究[D]. 张月馨.河北医科大学 2013
[6]基于统计分析法的肿瘤特征基因提取和分类研究[D]. 赵亚宁.西安建筑科技大学 2012
[7]基因表达数据的分析与处理[D]. 吴敏.西安理工大学 2009
本文编号:3306032
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3306032.html