基于深度学习的蛋白质亚细胞定位预测算法研究
发布时间:2021-04-13 00:27
在细胞生物学的研究中,高内涵图像被用于细胞的基因遗传分析和由环境变化引起的基因突变分析。高内涵图像技术的出现,让生物学家有能力设计出研究不同基因突变间的关系和细胞生长周期形态的实验。虽然高内涵图像分析的实验方法给我们带来了很多的好处,但是处理大规模的高内涵图像数据对于我们来说仍然是一种挑战。高内涵图像包含非常丰富的信息和特征,如何提取出我们想要的信息是其中一个难题,比如蛋白质亚细胞定位。有一些研究团队仍然在用人眼识别高内涵图像中细胞的蛋白质亚细胞定位,也有一些团队开发出了基于传统机器学习的蛋白质亚细胞定位预测的算法。本文基于卷积神经网络的深度学习算法,提出一种对高内涵图片做蛋白质亚细胞定位预测的计算方法。本文设计了一个卷积神经网络模型,测试的时候用荧光蛋白标记过的酵母菌细胞作为数据集,在总共15类的分类标签任务下,展示了卷积神经网络方法和传统机器学习方法在相同数据集相同任务下的分类性能,并从特征分布,特征可视化和迁移学习的角度分析了卷积神经网络模型为什么能够获得这个性能。本文证明了在这个数据集的15类分类任务下,卷积神经网络模型能提取出图片的高维特征,分类性能要优于传统机器学习算法。然...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
细胞分割图(图引自文献[9])
图 2.1 cell profiler 细胞分割示意图(图引自文献[29])在获取数据集的时候,需要对高内涵显微图片做细胞分割得到单细胞图片,图 2.1 展示了如何在高内涵显微图片下找到并框出细胞,由图可以看到,显微图片只包含背景和细胞,处理的时候用 Otsu 算法[33]来做细胞分割。Otsu 算法也叫最大类间方差阈值分割算法,主要的想法是对于一张灰度图,找到一个像素值的阈值,将图片分割为前景和背景,得到前景就是我们分割出来的细胞图片。确定这个阈值需要遍历所有可能的阈值,然后计算前景和背景的类间方差,找到使类间方差最大的阈值。再根据这个阈值将原始图片分割为前景和背景。首先将输入图片转化为灰度图,像素值在 0~255 之间,然后选定一个阈值 t,根据这个阈值,我们可以求类内方差 = + ( ) (2.1) 和 分别表示经过阈值 t 分割后,两个类别的像素所占的比例,即 = ( ) (2.2)
图 2.3 logistic 函数图回归可以看成线性回归的一个延伸,回归算法可以做连续值的预测,离散值的预测,我们不直接用线性回归做预测,线性回归的取值范围为,我们加入 logistic 函数将线性回归的输出范围映射到[0, 1]之间,代表 2.3 展示了 logistic 函数。函数为g z = ,结合线性回归的表达式的表达式为h x =( )结果大于 0.5,结果为正样本,h(x)结果小于 0.5,结果为负样本。模型表达式后,我们要训练模型的参数,基于所有的训练样本,似然l w = + (1 )log (1 ( )) 数的时候用最大化似然概率的方法得到优化目标为max (l(w)) min (下降方法迭代参数,我们要求出目标函数对参数的导数
本文编号:3134266
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
细胞分割图(图引自文献[9])
图 2.1 cell profiler 细胞分割示意图(图引自文献[29])在获取数据集的时候,需要对高内涵显微图片做细胞分割得到单细胞图片,图 2.1 展示了如何在高内涵显微图片下找到并框出细胞,由图可以看到,显微图片只包含背景和细胞,处理的时候用 Otsu 算法[33]来做细胞分割。Otsu 算法也叫最大类间方差阈值分割算法,主要的想法是对于一张灰度图,找到一个像素值的阈值,将图片分割为前景和背景,得到前景就是我们分割出来的细胞图片。确定这个阈值需要遍历所有可能的阈值,然后计算前景和背景的类间方差,找到使类间方差最大的阈值。再根据这个阈值将原始图片分割为前景和背景。首先将输入图片转化为灰度图,像素值在 0~255 之间,然后选定一个阈值 t,根据这个阈值,我们可以求类内方差 = + ( ) (2.1) 和 分别表示经过阈值 t 分割后,两个类别的像素所占的比例,即 = ( ) (2.2)
图 2.3 logistic 函数图回归可以看成线性回归的一个延伸,回归算法可以做连续值的预测,离散值的预测,我们不直接用线性回归做预测,线性回归的取值范围为,我们加入 logistic 函数将线性回归的输出范围映射到[0, 1]之间,代表 2.3 展示了 logistic 函数。函数为g z = ,结合线性回归的表达式的表达式为h x =( )结果大于 0.5,结果为正样本,h(x)结果小于 0.5,结果为负样本。模型表达式后,我们要训练模型的参数,基于所有的训练样本,似然l w = + (1 )log (1 ( )) 数的时候用最大化似然概率的方法得到优化目标为max (l(w)) min (下降方法迭代参数,我们要求出目标函数对参数的导数
本文编号:3134266
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3134266.html
最近更新
教材专著