利用隐马尔科夫模型探测复杂疾病临界点
发布时间:2020-07-22 19:11
【摘要】:探测复杂疾病临界点对疾病早期诊断至关重要,本文利用多个样本与单个样本分别提出了两种基于隐马尔科夫模型的挖掘复杂疾病临界点的算法,构建了两种综合不一致性指标,以挖掘健康期到疾病爆发之间的临界状态.为验证算法的有效性,将两种指标分别应用在仿真网络数据,肺部急性损伤数据、乳腺癌数据中,并在疾病恶化前,成功探测并及时发出预警信号,另外,两个实际数据集的结果均通过留一法、生存分析、KEGG功能得到验证.第一章,绪论.该章主要介绍论文的背景,论述了复杂疾病的复杂性与危害性,探讨了探索复杂疾病临界点的必要性.并且介绍了在过去的研究中几种探索复杂疾病临界点的方法或算法.第二章,预备知识.在该章中介绍了隐马尔科夫模型的几个重要步骤,临界点分岔理论与构造个体特异性网络的方法,以上皆是本文的算法基础.第三章,算法设计.在该章中叙述了两种挖掘复杂疾病临界点的算法的算法步骤,一种算法是结合了临界分岔理论,构建了一种基于多样本的指标;另一种算法结合了个体特异性网络的性质,构建了一种基于单样本的指标.两种指标均能够在疾病临界状态时发出预警信号.第四章,仿真实验.在该章中构建了一个具有9个节点的仿真网络,首先对临界点分岔理论、个体特异性网络的性质在仿真数据中进行验证,然后分别将两种指标应用在仿真网络数据上,均在系统参数→0时发出预警信号,成功挖掘出其临界状态.第五章,实际应用.在该章中我们将两种指标应用至小鼠肺部损伤数据与人类乳腺癌数据中,均得到一致的结论:小鼠暴露在光气后的第4小时到第8小时进入临界状态,而乳腺癌在状态IIB到IIIA期间进入临界状态.为验证结果,本文进行了留一法交叉检验,验证了结果的稳定性.另外,我们分析了在所探测的临界点中表达最具有显著差异基因:结合生存分析,发现ABCA10、ADAM33、BAI3等基因对乳腺癌有显著影响;结合功能分析,发现这些所在的通路与疾病有密切的联系.
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R-05;O211.62
【图文】:
图 3-1: 基于多样本的综合不一致性指标构建方法其中Δ , ( 1) = , ( 1) , ( 2) (3-1那么, 当Δ , ( 1) > 那么认为该边发生显著改变,PCC Thresh认为是正常状态下Δ 波动范围的最大值. 不妨记针对第i 个基因而言共有m 个相邻的基因, 其中有n 的边发生了显著改变, 那么改变边数比例 ( 1) /m . 并以所有基因改变边数比例作为观测序列, 即 1= ( 1( 1) , 2( 1) , . . . , ( 1)) (3-2步骤四:训练HMM模型利用t=1, 2, …, T-1的观测序列作为学习样本, 利用上文隐马尔科夫模型训练方法所述得到HMM 模型 1=( 1, 1, 1) .步骤五:计算不一致性指标
步骤三:训练HMM模型以T-1时刻以前实验样本所有的基因对作为训练样本, 即在T-1时刻时候以观测序列 1= { 1, 2,, ..., 1}训练模型, 并认为这些样本均处于W0状态, 利用隐马尔科夫模型的训练步骤(见本文2.2.2章节), 得到T-1时刻的隐马尔科夫模型 1( 1, 1, 1) .步骤四:计算不一致性指标对实验样本进行以下操作:用训练得到的 T 1, 计算实验组在T时刻观测序列为 的不一致性指标 case(T). 同理对对照样本进行步骤二到四,得到对照样本在T时刻各个样本的 control(T).步骤五:计算基于单样本的综合不一致性指标在该步中, 计算基于单样本的疾病指标 *( ): *( ) = case(T) control(T) (3-6以 *( )作为基于单样本的综合不一致性指标. 如果I*(T)发生急剧上升的话, 则认为T为临界点. 否则进入下一个时间点, 回到步骤二.
即Pc为该微分方程一个分岔点. 通过上文方程, 可以得到如图4-1的网络结构, 在该图中, 红色线代表正向调节作用, 例如随着节点1的浓度提高, 影响节点2的浓度同时升高.而绿色线代表反向调节作用, 例如节点1的浓度的提高, 那么会使节点3的浓度降低. 当两个节点之间不存在方向线时, 则说明该两点浓度并无直接的关系.4.2 多样本综合不一致性指标在仿真数据中的应用多样本综合不一致性指标是基于临界分岔理论的基础上所构建的
本文编号:2766234
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R-05;O211.62
【图文】:
图 3-1: 基于多样本的综合不一致性指标构建方法其中Δ , ( 1) = , ( 1) , ( 2) (3-1那么, 当Δ , ( 1) > 那么认为该边发生显著改变,PCC Thresh认为是正常状态下Δ 波动范围的最大值. 不妨记针对第i 个基因而言共有m 个相邻的基因, 其中有n 的边发生了显著改变, 那么改变边数比例 ( 1) /m . 并以所有基因改变边数比例作为观测序列, 即 1= ( 1( 1) , 2( 1) , . . . , ( 1)) (3-2步骤四:训练HMM模型利用t=1, 2, …, T-1的观测序列作为学习样本, 利用上文隐马尔科夫模型训练方法所述得到HMM 模型 1=( 1, 1, 1) .步骤五:计算不一致性指标
步骤三:训练HMM模型以T-1时刻以前实验样本所有的基因对作为训练样本, 即在T-1时刻时候以观测序列 1= { 1, 2,, ..., 1}训练模型, 并认为这些样本均处于W0状态, 利用隐马尔科夫模型的训练步骤(见本文2.2.2章节), 得到T-1时刻的隐马尔科夫模型 1( 1, 1, 1) .步骤四:计算不一致性指标对实验样本进行以下操作:用训练得到的 T 1, 计算实验组在T时刻观测序列为 的不一致性指标 case(T). 同理对对照样本进行步骤二到四,得到对照样本在T时刻各个样本的 control(T).步骤五:计算基于单样本的综合不一致性指标在该步中, 计算基于单样本的疾病指标 *( ): *( ) = case(T) control(T) (3-6以 *( )作为基于单样本的综合不一致性指标. 如果I*(T)发生急剧上升的话, 则认为T为临界点. 否则进入下一个时间点, 回到步骤二.
即Pc为该微分方程一个分岔点. 通过上文方程, 可以得到如图4-1的网络结构, 在该图中, 红色线代表正向调节作用, 例如随着节点1的浓度提高, 影响节点2的浓度同时升高.而绿色线代表反向调节作用, 例如节点1的浓度的提高, 那么会使节点3的浓度降低. 当两个节点之间不存在方向线时, 则说明该两点浓度并无直接的关系.4.2 多样本综合不一致性指标在仿真数据中的应用多样本综合不一致性指标是基于临界分岔理论的基础上所构建的
【参考文献】
相关期刊论文 前1条
1 王静;吴莺;余小燕;蒋双红;胡丽超;周红;;钙信号在PAR2激动剂促进SW620细胞增殖中的作用[J];江苏医药;2013年13期
本文编号:2766234
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2766234.html