基于临床质谱数据的细菌分类研究
发布时间:2020-03-29 02:13
【摘要】:目前,由细菌而引发的感染性疾病越来越多,快速、准确的识别致病细菌,将对相关疾病的及时预防或治疗有着重要的现实意义。蛋白质组(Proteomics)是一切生命现象的物质支撑,对蛋白质组的研究,可以实现物种鉴定与疾病病理分析。质谱技术(Mass Spectrometry,MS)因可大量、并行、完整地检测蛋白质分子而成为蛋白质组学分析的重要手段。然而,在当前医学领域,要对所获质谱数据进行后续分析而达成细菌鉴定的目的,都必须使用某些额外的商用仪器自带软件(如CliProTools等)。重庆医科大学附属第一医院的医学检验中心(以下简称中心)经历一定时期的积累,已获取较大数量临床细菌样本的质谱数据,而前述的仪器配套软件在处理该类数据时功能有限且使用成本较高,所以中心期望与课题组合作,寻找适合的计算机领域数据分析方法对已获取的临床质谱数据进行充分挖掘,并最终能够实现细菌鉴别、辅助医疗决策。然而,质谱数据本身具有高维小样本(High-Dimensionality and Small Sample size,HDSS)的特点,为基于它的后续分析应用带来了挑战。而且已有研究未考虑到临床生物质谱数据的复杂特性,如因所用仪器误差和不同实验操作差异、以及仪器量程较小等问题而带来的影响。因此,在当前对临床复杂生物质谱数据的分析应用鲜有研究的情况下,亟待设计一个更加有效普适的质谱数据分析方法,实现基于临床质谱数据的微生物分类。为了完成以上目标,我们设计并实现了以下的一套针对临床质谱数据的细菌分类方法:首先预处理阶段,通过一种特殊的分滑窗(Bining-Sliding,BS)预处理方法处理质谱数据,在对齐杂乱数据的同时,尽可能的去除因质谱仪器所致的系统误差,使得后续分析更加顺利;然后在特征选择阶段,广义特征选择包含在度量空间和转换空间两种选择策略,本文将两方面策略结合:(1)首先将原始数据进行小波变换,并根据代表信号与代表噪声的小波系数模极大值(Wavelet Transform Modulus Maxima,WTMM)在各分解层级上具有不同的相关性传播规律,剔除临床质谱数据包含的大量噪声,提取隐含的质谱特征;(2)然后依据质谱数据的统计特性,设计一种基于t检验的种群初始化改进遗传算法用于封装式特征选择。在改进的遗传算法中,t检验统计量被用作初始化种群的先验信息,而分类性能指标直接作为遗传算法的适应度评价指标;在整套方法的最后,基于提取出的生物质谱特征训练支持向量机(Support Vector Machine,SVM)分类器,最终实现微生物的分类识别。本文针对中心提供的临床金黄色葡萄球菌(Staphylococcus Aureus,S.aureus)质谱数据进行实验,以区分耐甲氧西林金黄色葡萄球菌(Methicillin-Resistant S.aureus,MRSA)和敏感型菌(Methicillin-Sensitive S.aureus,MSSA)为目标。几组对比实验的多次交叉验证试验结果显示,新提出的方法将基于临床质谱数据的细菌分类准确率从0.63提升到了0.82,而且它的灵敏度和特异度比较平衡,均在0.8左右,都取得了一个较好的细菌鉴别效果。同时新设计方法的多次试验所得结果性能稳定,准确率标准差低至0.008。因此本文新设计的一套结合小波与遗传算法选择质谱特征的细菌分类方法可以针对临床质谱数据有效识别细菌。且本方法具有一定容错性和普适性,可以用于分析处理各种特性的质谱数据,揭示质谱所反映的类型差异,实现微生物识别或疾病诊断的辅助功能。
【图文】:
图 1-1 课题技术方案课题主要工作内容如下:其一、本研究采用一个分窗与滑窗结合的方法进行预处理。首先分窗策略,根谱仪的系统误差设定分窗窗宽,在消除所得质谱数据的系统误差的同时实现数与对齐;随后,因为直接分窗的离散方式过于生硬,本课题辅以滑窗策略,融来的主观误差,提升算法容错度。其二、本研究在特征选择阶段,结合广义特征选择的度量空间和转换空间两种,即将特征选择和特征提取两种方法结合使用:(1)根据临床金黄色葡萄球菌质谱数据的噪声特性和质谱数据本身的不稳定将质谱数据进行小波分解。通过将数据进行小波谱转换,计算小波系数模极利用信号和噪声的极值在各分解层级上具有不同的相关性传播规律,而去除噪出有效的蛋白质峰。
经飞行管道中电场的加速作用,形成离子束,最后飞进质磁场的作用使之发生相反的速度色散,,然后将它们分别进行聚谱图,最终分析确定各组分粒子的质量[26]。质谱仪对待测样本据即为质谱图。质谱图是将检测到的观测样本粒子,依据所小按顺序排列而成的图谱[57]。质谱法可以在一次分析试验中所有物质结构信息。将质谱法结合分离技术用于有机分子的鉴无疑义的绽放异彩。因为质谱法能快速而准确地测定生物大分高特异性和高灵敏度,因而是蛋白质组学分析的有效方法,且而得到广泛应用。实现质谱技术分析的仪器,是一类能分离有机化合物并进行物26]通过激光照射等方法使物质粒子离子化,再通过电场或磁场道到达质量分析器,然后将按离子到达的不同空间位置、不同进行分析,最终实现质荷比分离,并同时检测离子强度。质谱组成:样品导入系统、离子化系统、质量分析器、检测器和数
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R446.5;O657.63
本文编号:2605275
【图文】:
图 1-1 课题技术方案课题主要工作内容如下:其一、本研究采用一个分窗与滑窗结合的方法进行预处理。首先分窗策略,根谱仪的系统误差设定分窗窗宽,在消除所得质谱数据的系统误差的同时实现数与对齐;随后,因为直接分窗的离散方式过于生硬,本课题辅以滑窗策略,融来的主观误差,提升算法容错度。其二、本研究在特征选择阶段,结合广义特征选择的度量空间和转换空间两种,即将特征选择和特征提取两种方法结合使用:(1)根据临床金黄色葡萄球菌质谱数据的噪声特性和质谱数据本身的不稳定将质谱数据进行小波分解。通过将数据进行小波谱转换,计算小波系数模极利用信号和噪声的极值在各分解层级上具有不同的相关性传播规律,而去除噪出有效的蛋白质峰。
经飞行管道中电场的加速作用,形成离子束,最后飞进质磁场的作用使之发生相反的速度色散,,然后将它们分别进行聚谱图,最终分析确定各组分粒子的质量[26]。质谱仪对待测样本据即为质谱图。质谱图是将检测到的观测样本粒子,依据所小按顺序排列而成的图谱[57]。质谱法可以在一次分析试验中所有物质结构信息。将质谱法结合分离技术用于有机分子的鉴无疑义的绽放异彩。因为质谱法能快速而准确地测定生物大分高特异性和高灵敏度,因而是蛋白质组学分析的有效方法,且而得到广泛应用。实现质谱技术分析的仪器,是一类能分离有机化合物并进行物26]通过激光照射等方法使物质粒子离子化,再通过电场或磁场道到达质量分析器,然后将按离子到达的不同空间位置、不同进行分析,最终实现质荷比分离,并同时检测离子强度。质谱组成:样品导入系统、离子化系统、质量分析器、检测器和数
【学位授予单位】:西南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R446.5;O657.63
【参考文献】
相关期刊论文 前1条
1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
相关硕士学位论文 前1条
1 蒋惟;SELDI血清蛋白质谱肿瘤标志物挖掘方法研究[D];浙江大学;2010年
本文编号:2605275
本文链接:https://www.wllwen.com/linchuangyixuelunwen/2605275.html
最近更新
教材专著