单样本基因集分析方法的基准研究及其在呼吸疾病上的应用

发布时间:2021-11-19 05:04
  目的:使用常用的基因集富集分析方法处理分析存在异质性和样本/病患特异性的数据集时会给分析结果引入系统误差,因此近几年有许多研究人员设计开发了一系列用于识别单个或异质样本中通路活动等的单样本基因集分析方法。那么对于不熟悉单样本基因集分析方法的生物学家来说,如何从这些已有的备选方法中选择最合适的分析方法是一个重要问题。目前的各类研究中,缺乏对已有单样本基因集分析方法工具的评估和比较。因此本研究旨在基于基因集分析方法理论,对所选6种单样本基因集分析方法在灵敏度,特异度和精确度方面进行比较研究,为数据分析方法的选择提供新的思路。方法:在GEO数据库中检索筛选8个与呼吸疾病相关的数据集,作为基准评估研究中的“金标准”测试数据集,并且选定的疾病相关数据必须具有已知的生物学功能注释的基因集(信号通路),能够作为参考靶向通路(Target Pathway)。结合生物学研究结果,比较6种单样本基因集分析方法结果中的有统计学意义的基因集与已知的生物学研究证据(靶向通路)的符合程度,然后计算灵敏度,特异度和精确度,最后进行客观评价。为了使基准研究便于记录、利用和传阅,使用Jupyter Notebook记录... 

【文章来源】:广州医科大学广东省

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

单样本基因集分析方法的基准研究及其在呼吸疾病上的应用


GSA基本流程

方法,样本,标准数据


员开发了一系列特定的GSA软件或者工具,用于直接计算每个独立样本的通路统计量,用于比较那些处于不同状态的个体。这类方法统称为单样本基因集分析(ss-GSA)方法。常用的GSA方法侧重于识别正常人群和疾病人群之间的特定通路,而ss-GSA方法能够聚焦于个体样本,给出所有在给定通路上的统计量以便后续比较。ss-GSA方法包括PLAGE[21]、ZSCORE[22]、GSVA[23]、GRAPE[24]、Pathifier[25]和individPath[26]等,它们能够处理含有样本特异性的复杂数据集、组间或组内差异较大的小样本量数据集以及在异质样本中找到显著差异的问题。图2为常用GSA方法与ss-GSA方法和的比较。常用GSA习惯给统计结果划定一个阈值范围,所设定的阈值范围不同,结果也会不同。并且常用GSA获得的结果中不包含样本信息。而ss-GSA方法能够提供个性化或样本特异性分析,并且能够分别得到样本和通路的聚类结果。图2常用GSA方法(左)与ss-GSA方法(右)的比较综上所述,如何选择合适有效的ss-GSA方法是我们需要研究的问题。通常解决这种选择问题的方法是进行基准评估研究,用于比较不同的方法或者工具。基准是一项已知其质量或数量,能与其他事物进行比较的标准。换句话说,基准研究是衡量软件或方法性能的测试研究。这些测试结果用以比较某软件工具与其他软件工具的性能。比较基准时,结果统计值越高,或者计算速度越快,那么结果越显著。在一项基准研究中,标准数据集和靶向通路是最重要的组成部分。标准数据集必须具有已知的靶向通路,我们需要在这些标准数据集上测试所有ss-GSA方法,然后查看哪些方法可以匹配到更多的靶向通路。每种方法都应有

数据集,基因,探针,矩阵


广州医科大学硕士学位论文10每个数据集的处理,都使用了RMA[41]算法进行背景校正和归一化。然后通过芯片平台数据文件(GPL文件)将每个探针ID转化为相应的基因名。如果有多个探针同时定位到同一基因,采用此组探针的算术平均值作为该基因的表达值。在ss-GSA分析中需要用到的表达数据集矩阵(通常具有N个基因和n个样本)格式如图3所示。表2表达数据矩阵形式我们引入以下格式来存储准备好的8个数据集以便其他人获龋在R软件中,使用“列表”对象存储实验结果矩阵,其中行通常代表感兴趣的基因,列代表样本,这些数据是通过测序和微阵列实验产生的,值得注意的是,需要在第一行添加每个样本所处的疾病状态。该列表的格式如图3所示。图3数据集在R中的存储形式GeneNameSample1Sample2Sample3SamplenNormal010…Gene11.251.321.85…Gene24.560.523.68…Gene33.212.352.13…GeneN…………


本文编号:3504346

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3504346.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47276***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com