多样性增量特征选择技术的应用
发布时间:2021-09-29 23:57
采用机器学习算法对基因组或蛋白质的靶序列或靶位点进行分类识别,是生物信息学的主要研究内容之一。随着所研究问题的复杂度的增加,在解决此类问题时,往往面临样本少而特征维数高的境况。高维特征在分类过程中存在着对样本的过拟合,进而导致结果的泛化能力降低以及精度反常的现象。因此,应用特征选择技术进行数据分析和特征优化越来越受到人们的关注。因为这些技术可以实现提取研究对象的基本特征和提高模型的识别精度。特征选择技术的核心是在保证识别精度损失最小的前提下,从特征集中筛选出一个最优的特征子集。特征子集中的特征应该具备两个基本特点,一是特征与类别间的相关性大,二是特征之间的冗余性小。在近几年机器学习领域中,特征选择技术成为了最为活跃的研究内容之一。我们组在研究蛋白质柔性位点识别问题时,提出一个新的特征选择技术,称为多样性增量特征选择技术(feature selection technique based on increment of diversity,FSID)。为了进一步检验和完善FSID方法,本文,我们应用FSID方法,分别研究了在基因组和蛋白质两个层面中,最为活跃的两个重要热点问题:基因组核小...
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
蛋白质磷酸化/去磷酸化机制简图
缩并为“B”,“SW”缩并为“C”,“SS”缩并为“D”。这样,一条由4种碱基(“A”,??“C”,“G”,“T”)组成的原长为N的DNA序列,被转换为由四种字母(“A”,“B”,??“C”,“D”)组成的长度为N/2的新序列。转换过程的示意简图见图5-1。??原序列;AAT?G?A?ATTGG?GATGGA?G?GTA...??ja??约化Iy列:wwwsssswswwwsssssssswwsswsssssww...??转换斤:列:abdccaddddadbdda?...??"/=1?ACDDBA?...??子序列:?k=3^?;=2?BCDAD?...??、,=3?DADDD?...??图5-1?DNA序列约化和转换示意图??Fig.?5-1?A?schematic?diagram?of?reduction?and?transformation?for?DNA?sequence??其后,按照指定的A:值(比如b3,见图5-1),将新序列抽取为t个子序列,??用于计算新序列的HI斤)值。这里需注意到,经过以上操作后,如果在新序列中发现??24??
本文编号:3414706
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
蛋白质磷酸化/去磷酸化机制简图
缩并为“B”,“SW”缩并为“C”,“SS”缩并为“D”。这样,一条由4种碱基(“A”,??“C”,“G”,“T”)组成的原长为N的DNA序列,被转换为由四种字母(“A”,“B”,??“C”,“D”)组成的长度为N/2的新序列。转换过程的示意简图见图5-1。??原序列;AAT?G?A?ATTGG?GATGGA?G?GTA...??ja??约化Iy列:wwwsssswswwwsssssssswwsswsssssww...??转换斤:列:abdccaddddadbdda?...??"/=1?ACDDBA?...??子序列:?k=3^?;=2?BCDAD?...??、,=3?DADDD?...??图5-1?DNA序列约化和转换示意图??Fig.?5-1?A?schematic?diagram?of?reduction?and?transformation?for?DNA?sequence??其后,按照指定的A:值(比如b3,见图5-1),将新序列抽取为t个子序列,??用于计算新序列的HI斤)值。这里需注意到,经过以上操作后,如果在新序列中发现??24??
本文编号:3414706
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3414706.html