聚类演化的集群算法在多模态脑科学数据分析中的应用
发布时间:2022-01-07 09:07
融合遗传与神经影像因素对大脑进行联合探索是目前脑科研究领域的前沿问题,是众多国家投入大量资源进行争夺的科技制高点。检测基因数据和大脑静息态功能磁共振成像数据的相关性,是从遗传角度解释大脑的奥秘的有效方法。本研究通过构建脑区与基因的相关性作为样本多模态融合特征,并基于聚类演化随机集群技术设计数据分析模型,对阿尔茨海默症(Alzheimer’s Disease,AD)和帕金森症(Parkinson’s Disease,PD)的多模态数据进行融合分析。主要内容如下:(1)本研究提出了聚类演化随机集群技术。该技术创新性地将聚类演化策略与集成学习进行结合,提升了集成学习器在样本识别和特征筛选中的性能。具体地,该方法通过随机选择样本和样本属性构建初始随机集群,之后采用阈值过滤和层次聚类对集成学习器进行多级动态演化,并使用演化后的随机集群进行样本分类和特征提取。多级聚类演化和阈值过滤有效地保证了集成模型中基学习器的多样性和有效性。(2)使用聚类演化随机森林对阿尔茨海默症进行研究。本研究从ADNI数据库获取了40名正常人和38名AD患者的静息态功能磁共振成像数据和基因数据,并从中提取基因与脑区的相关性...
【文章来源】:湖南师范大学湖南省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
初始决策树数目为300时的层次聚类演化情况
聚类演化的集群算法在多模态脑科学数据分析中的应用27图3-3聚类演化次数与初始决策树数目之间的关系曲线3.3.2提取重要“脑区-基因对”获得了本研究所需的最终CERF后,对测试集进行测试的最高准确识别率接近90%,说明演化后的CERF能够有效地筛选出正常人和AD患者之间具有显著差异的特征,并利用这些特征进行分类。因此,对最终CERF的每个决策树选中的特征进行分析,可以找到对分类贡献较大的重要特征即重要“脑区-基因对”。具体过程如下,首先提取出最终CERF中每个决策树所选择的“脑区-基因对”,然后计算每个“脑区-基因对”的频数,频数越大意味着对分类的贡献率越高,该特征在正常人和病人之间常差异度也越大,因此本研究将前400个高频数“脑区-基因对”作为重要“脑区-基因对”。3.3.3提取最优“脑区-基因对”由于采用频数为标准选择重要“脑区-基因对”,使得其中可能包含一些对分类贡献较少的特征,因此对重要“脑区-基因对”继续进行筛选,找出区分能力最强的最优“脑区-基因对”。按照实验设置的步骤5将重要“脑区-基因对”划分成若干子集,再使用常规随机森林检测这些子集的分类性能,结果如图3-4所示。当使用重要“脑区-基因对”中频数最高的前290个“脑区-基因对”构建子集,再每次从子集中随机选择57个特征构建普通随机森林,此时随机森林的分类准确率达到最高值91.3%,因此我们将频数最高的前290个“脑区-基因对”作为最优“脑区-基因对”。另外,最优“脑区-基因对”中分类效果最为显著的40个融合特征如图3-5所示。
硕士学位论文28图3-4不同重要“脑区-基因对”子集的随机森林精度图3-5分类效果最为显著的40个“脑区-基因对”3.3.4疾病关联基因与异常脑区从上述实验结果来看,最优“脑区-基因对”对样本分类能力最好,也说明这些特征在病人与正常人之间存在巨大差异。根据实验设置,本研究分别统计最优“脑区-基因对”中脑区和基因的频数作为权重,权重较大的脑区和基因则为AD异常脑区
【参考文献】:
期刊论文
[1]淀粉样前体蛋白基因启动子区-2335C/T和+37C/G基因多态性与Alzheimer病的关系[J]. 童伟隆,高莉,赵桂琴. 临床精神医学杂志. 2019(02)
[2]基于脑连接网络的阿尔茨海默病临床变量值预测[J]. 路子祥,屠黎阳,祖辰,张道强. 智能系统学报. 2017(03)
本文编号:3574259
【文章来源】:湖南师范大学湖南省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
初始决策树数目为300时的层次聚类演化情况
聚类演化的集群算法在多模态脑科学数据分析中的应用27图3-3聚类演化次数与初始决策树数目之间的关系曲线3.3.2提取重要“脑区-基因对”获得了本研究所需的最终CERF后,对测试集进行测试的最高准确识别率接近90%,说明演化后的CERF能够有效地筛选出正常人和AD患者之间具有显著差异的特征,并利用这些特征进行分类。因此,对最终CERF的每个决策树选中的特征进行分析,可以找到对分类贡献较大的重要特征即重要“脑区-基因对”。具体过程如下,首先提取出最终CERF中每个决策树所选择的“脑区-基因对”,然后计算每个“脑区-基因对”的频数,频数越大意味着对分类的贡献率越高,该特征在正常人和病人之间常差异度也越大,因此本研究将前400个高频数“脑区-基因对”作为重要“脑区-基因对”。3.3.3提取最优“脑区-基因对”由于采用频数为标准选择重要“脑区-基因对”,使得其中可能包含一些对分类贡献较少的特征,因此对重要“脑区-基因对”继续进行筛选,找出区分能力最强的最优“脑区-基因对”。按照实验设置的步骤5将重要“脑区-基因对”划分成若干子集,再使用常规随机森林检测这些子集的分类性能,结果如图3-4所示。当使用重要“脑区-基因对”中频数最高的前290个“脑区-基因对”构建子集,再每次从子集中随机选择57个特征构建普通随机森林,此时随机森林的分类准确率达到最高值91.3%,因此我们将频数最高的前290个“脑区-基因对”作为最优“脑区-基因对”。另外,最优“脑区-基因对”中分类效果最为显著的40个融合特征如图3-5所示。
硕士学位论文28图3-4不同重要“脑区-基因对”子集的随机森林精度图3-5分类效果最为显著的40个“脑区-基因对”3.3.4疾病关联基因与异常脑区从上述实验结果来看,最优“脑区-基因对”对样本分类能力最好,也说明这些特征在病人与正常人之间存在巨大差异。根据实验设置,本研究分别统计最优“脑区-基因对”中脑区和基因的频数作为权重,权重较大的脑区和基因则为AD异常脑区
【参考文献】:
期刊论文
[1]淀粉样前体蛋白基因启动子区-2335C/T和+37C/G基因多态性与Alzheimer病的关系[J]. 童伟隆,高莉,赵桂琴. 临床精神医学杂志. 2019(02)
[2]基于脑连接网络的阿尔茨海默病临床变量值预测[J]. 路子祥,屠黎阳,祖辰,张道强. 智能系统学报. 2017(03)
本文编号:3574259
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3574259.html