基于序列深度学习的生物医学大数据分析研究
发布时间:2023-09-16 18:47
生物医学大数据中存在着许多类型的数据,包括序列数据。序列数据中有两类典型数据:一是生物信息领域的DNA序列数据,DNA上存在许多功能片段,基于序列信息预测功能片段对于理解基因的调控机制至关重要;二是医学信息领域的电子病历数据,电子病历记录了病人的疾病信息,对理解病患特征和患者预后至关重要。本文基于卷积神经网络、循环神经网络、词向量模型等深度学习的技术,对这两类序列数据进行了深入的研究。本文的主要研究内容和创新点为:1.针对用生物实验手段预测增强子的时间和金钱成本高的问题,提出了基于卷积神经网络的Deep Enhancer计算模型。该模型采用迁移学习策略进行训练,根据碱基序列信息进行增强子识别,相对传统k-mer方法取得了大约7%的预测性能提升。该模型能够自动学习捕捉到有效的模体特征,具有良好的可解释性,为大规模高精度的增强子识别提供了可靠的计算模型。2.为了在深度学习模型中融合有效的k-mer信息,首次提出了特征融合的卷积长短时记忆神经网络模型。该模型通过无监督学习训练k-mer的嵌入表示,通过监督学习训练卷积长短时记忆神经网络,在染色质开放性的预测问题中取得了分类性能的进一步提升。此...
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
abstract
主要符号对照表
第1章 引言
1.1 研究背景
1.1.1 生物医学大数据
1.1.2 理论研究价值
1.1.3 应用研究价值
1.2 研究现状
1.2.1 生物信息学中的研究现状
1.2.2 医学信息学中的研究现状
1.3 本文研究内容和贡献
1.4 本文各章节安排
1.5 本章小结
第2章 基于序列的深度学习相关理论
2.1 本章引言
2.2 卷积神经网络模型
2.3 循环神经网络模型
2.4 词向量模型
2.5 本章小结
第3章 基于卷积神经网络的增强子序列识别算法
3.1 本章引言
3.1.1 研究背景
3.1.2 研究动机
3.2 模型与方法
3.2.1 模型结构
3.2.2 卷积核与模体
3.3 实验结果
3.3.1 实验数据集
3.3.2 宽泛增强子的预测
3.3.3 细胞系特异增强子的预测
3.3.4 模体可视化
3.3.5 模型的时间效率
3.4 实验讨论
3.5 本章小结
第4章 特征融合的染色质开放性识别算法
4.1 本章引言
4.1.1 研究背景
4.1.2 研究动机
4.2 模型与方法
4.2.1 总体网络结构
4.2.2 k-mer嵌入
4.2.3 双向LSTM
4.3 实验结果
4.3.1 实验设定
4.3.2 模型评价
4.3.3 k-mer嵌入的可视化
4.3.4 k-mer嵌入的作用
4.3.5 卷积层的作用
4.3.6 双向LSTM层的作用
4.3.7 敏感性分析
4.4 本章小结
第5章 医学概念的嵌入表示学习及其应用
5.1 本章引言
5.1.1 研究背景
5.1.2 研究动机
5.2 模型与方法
5.2.1 基本模型
5.2.2 医学概念嵌入模型
5.2.3 多尺度卷积神经网络模型
5.3 实验结果
5.3.1 实验数据集
5.3.2 病人费用预测
5.3.3 嵌入表示的可视化
5.3.4 多尺度嵌入模型
5.4 本章小结
第6章 基于医疗保险记录的病人再入院预测
6.1 本章引言
6.1.1 研究背景
6.1.2 研究动机
6.2 基本模型与方法
6.2.1 传统方法
6.2.2 深度学习方法
6.3 实验结果
6.3.1 数据预处理
6.3.2 传统方法结果
6.3.3 深度学习结果
6.4 实验讨论
6.5 本章小结
第7章 总结与展望
7.1 本文总结
7.2 未来展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
本文编号:3846995
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
abstract
主要符号对照表
第1章 引言
1.1 研究背景
1.1.1 生物医学大数据
1.1.2 理论研究价值
1.1.3 应用研究价值
1.2 研究现状
1.2.1 生物信息学中的研究现状
1.2.2 医学信息学中的研究现状
1.3 本文研究内容和贡献
1.4 本文各章节安排
1.5 本章小结
第2章 基于序列的深度学习相关理论
2.1 本章引言
2.2 卷积神经网络模型
2.3 循环神经网络模型
2.4 词向量模型
2.5 本章小结
第3章 基于卷积神经网络的增强子序列识别算法
3.1 本章引言
3.1.1 研究背景
3.1.2 研究动机
3.2 模型与方法
3.2.1 模型结构
3.2.2 卷积核与模体
3.3 实验结果
3.3.1 实验数据集
3.3.2 宽泛增强子的预测
3.3.3 细胞系特异增强子的预测
3.3.4 模体可视化
3.3.5 模型的时间效率
3.4 实验讨论
3.5 本章小结
第4章 特征融合的染色质开放性识别算法
4.1 本章引言
4.1.1 研究背景
4.1.2 研究动机
4.2 模型与方法
4.2.1 总体网络结构
4.2.2 k-mer嵌入
4.2.3 双向LSTM
4.3 实验结果
4.3.1 实验设定
4.3.2 模型评价
4.3.3 k-mer嵌入的可视化
4.3.4 k-mer嵌入的作用
4.3.5 卷积层的作用
4.3.6 双向LSTM层的作用
4.3.7 敏感性分析
4.4 本章小结
第5章 医学概念的嵌入表示学习及其应用
5.1 本章引言
5.1.1 研究背景
5.1.2 研究动机
5.2 模型与方法
5.2.1 基本模型
5.2.2 医学概念嵌入模型
5.2.3 多尺度卷积神经网络模型
5.3 实验结果
5.3.1 实验数据集
5.3.2 病人费用预测
5.3.3 嵌入表示的可视化
5.3.4 多尺度嵌入模型
5.4 本章小结
第6章 基于医疗保险记录的病人再入院预测
6.1 本章引言
6.1.1 研究背景
6.1.2 研究动机
6.2 基本模型与方法
6.2.1 传统方法
6.2.2 深度学习方法
6.3 实验结果
6.3.1 数据预处理
6.3.2 传统方法结果
6.3.3 深度学习结果
6.4 实验讨论
6.5 本章小结
第7章 总结与展望
7.1 本文总结
7.2 未来展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
本文编号:3846995
本文链接:https://www.wllwen.com/shoufeilunwen/yxlbs/3846995.html