肿瘤基因表达谱分类特征基因选取问题及分析方法研究
本文关键词:肿瘤基因表达谱分类特征基因选取问题及分析方法研究,由笔耕文化传播整理发布。
第29卷 第2期2006年2月
计 算 机 学 报
Vol.29No.2
Feb.2006
肿瘤基因表达谱分类特征基因选取问题及
分析方法研究
李颖新 李建更 阮晓钢
(北京工业大学电子信息与控制工程学院 北京 100022)
摘 要 对肿瘤分类特征基因选取问题的研究是发现肿瘤特异表达基因、研究肿瘤基因表达模式的重要手段.文中基于多类别肿瘤基因表达谱数据集,从研究肿瘤与正常组织的分类入手,对肿瘤分类特征基因选取问题进行分
析和研究.首先对基于Relief算法的特征选取策略加以改进生成候选特征集合;然后以支持向量机作为分类器对其分类性能进行检验以选取分类特征基因;最后结合分类模型,利用灵敏度分析方法进行特征基因的精确搜索以滤除冗余.基于该方法文中选出了52个具有良好分类性能的特征基因作为肿瘤的基因特征,并对其表达行为进行了简要分析.
关键词 肿瘤;基因表达;特征基因;组织分类;特征选取;支持向量机中图法分类号TP391
StudyofInformativeGeneSelectionforTissueClassificationBasedon
TumorGeneExpressionProfiles
LIYing-Xin LIJian-Geng RUANXiao-Gang
(SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing 100022)
Abstract Informativegeneselectionisofgreatimportanceintheanalysisofmicroarrayexpres-siondatabecauseofitshugedimensionalityandrelativelysmallsamples,andalsoprovidesasys-temicandpromisingwaytorevealthegeneexpressionpatternsoftumorswithlargescalegeneexpressionprofiles.Inthispaper,theauthorsanalyzetheMulti-Classtumorgeneexpression
profiledataset,whichcontains218tumorsamplesspanning14commontumortypes,aswellas90normaltissuesamples,tofindasmallsubsetofgenesfordistinguishingtumorfromnormaltissues.First,aRelief-basedfeatureselectionalgorithmisappliedtocreatecandidatefeature
subsetsandtheonewiththebestclassificationperformanceisselectedastheinformativegenesubsetforclassification.Then,asensitivityanalysismethodbasedontheclassifierofsupportvectormachinewithRBFkernelisemployedtoeliminatetheredundantgenes.Asaresult,52in-formativegenesareselectedasmarkersformakingdistinctionsbetweendifferenttumortissuesandtheirnormalcounterparts,andtheirexpressionsareanalyzedtoexplorethetumorgeneexpres-sionpatterns.Attheendofthispaper,severalmethodsforinformativegeneselectionarealsoana-lyzedandcomparedtovalidatethefeasibilityandeffectivenessofthemethodemployedinthiswork.Keywords tumor;geneexpression;informativegenes;tissueclassification;featureselection;supportvectormachine
收稿日期:2004-08-12;修改稿收到日期:2005-11-04.本课题得到国家自然科学基金(60234020)重点资助.李颖新,男,1972年生,博士研究生,主要研究方向为模式识别、机器学习和生物信息学.E-mail:lyxboy@sina.com.李建更,男,1965年生,博士,副教授,研究方向包括生物信息学和自动控制.阮晓钢,男,1958年生,教授,博士生导师,主要研究领域为控制理论、人工智能、生物信息学等.E-mail:adrxg@
2期李颖新等:肿瘤基因表达谱分类特征基因选取问题及分析方法研究325
析的多类别(multi-class)肿瘤基因表达谱数据集[3]
1 引 言
近年来肿瘤基因表达谱技术的出现,为肿瘤学
的研究提供了一种全新、系统的研究手段,并在肿瘤学的基础研究和临床应用等领域备受关注.如何对肿瘤基因表达谱进行有效分析,挖掘和发现其中蕴含的信息和知识,是当前生物信息学研究的重点课题[1,2].肿瘤基因表达谱数据的一个显著特点是样本维数过高,每个样本都记录了组织细胞中所有可测基因的表达水平,但实际上只有少数基因才真正同样本类别相关,包含了样本分类信息,这些基因被称为分类特征基因.分类特征基因选取问题是肿瘤基因表达谱分析的核心内容:它既是建立有效分类模型的关键,也是发现肿瘤分类与分型的基因标记物以及药物治疗潜在靶点的重要手段.目前人们对该问题已进行了一定程度上的探索
[3~9]
(下载网址:)共含308个样本,其中218个样本为肿瘤组织样本,涵盖了目前常见的14种不同组织类型的肿瘤;90个样本为对应组织的正常样本.每个样本都记录了组织细胞中16063个基因或表达标签序列(EST)的表达水平.
本文以此数据集为分析对象,分析的目标是要在所有16063个基因中找出能够对样本进行准确分类的一组基因作为样本的分类特征.如果在划分数据样本的时候,考虑训练集和测试集都包含所有不同类型的肿瘤组织及其对应的正常组织样本,那么,在训练集上提取出的分类特征所反映的就是整个“肿瘤组织”与“正常组织”在基因表达上的差异,即不同肿瘤组织作为一个“整体”在基因表达上区别于正常组织共同的基因特征.我们对数据集中每个基因的表达水平进行标准化(均值为0,方差为1)后将整个数据集划分为训练集Strn和测试集Stst两部分,如图1所示.每种类型的肿瘤与其对应的正常组织均按近似2∶1的比例分配在Strn和Stst中.
Tumor144Normal58训练集Strn
+
Tumor74Normal32测试集Stst
,然而,如何
在表达谱成千上万个基因中有效选出样本的分类特
征,一直是肿瘤基因表达谱分析中的难点所在,仍有待深入研究.
研究肿瘤基因表达谱分类特征基因选取问题的一个重要应用是从肿瘤与正常组织样本的基因表达谱数据出发,选取样本分类特征基因作为肿瘤的分子特征,它是从信息学角度出发寻找肿瘤相关基因、发现肿瘤基因表达特征的直接手段,具有重要的生物学意义.基于上述分析,本文以多类别肿瘤基因表达谱数据集作为具体的分析对象,研究了肿瘤基因表达谱分类特征基因选取问题,并给出了详细的实验结果.在分析方法上,本研究充分考虑了肿瘤基因表达谱数据自身的特点,改进了机器学习领域已有的基于Relief算法的特征选取策略,并采用支持向量机作为分类器,以特征基因集合的分类性能作为评价标准得到样本分类特征;然后结合支持向量机分类模型采用灵敏度分析的方法进行冗余去除.利用该方法本文得到了52个具有较好分类性能的特征基因作为肿瘤的基因特征,并对其表达行为进行了简要分析.在本文最后,我们将本文方法与已有的分类特征选取方法进行了分析比较以说明本文方法的有效性.
图1 数据样本集的划分
3 基于Relief算法的分类特征基因
搜索策略
从信息学的角度讲,每个基因就是样本的一个属性.如何衡量每个属性包含的样本分类信息,准确估计该属性对样本分类贡献程度的大小是有效选取分类特征的关键.Relief算法
[10,11]
作为一种属性重
要性排序的机器学习算法在特征选取领域得到了广泛应用.该算法的优点是计算复杂度较小,且在一定程度上考虑了属性间的相关性.其核心思想是以属性区分“相近”样本的能力作为评估属性重要性的标准,并据此给出属性的分类权重.Relief算法的具体描述[10~12]及在本文中的具体实现过程见算法1.
算法1. Relief算法(Strn,F).
//F为待分析的属性集合,Strn为训练样本集
1.SetweightsvectorWtozeros
//向量W中第i个元素对应于F的第i个[11]
2 问题描述
肿瘤基因表达谱是指利用DNA芯片所测定的
326
2.Fori=1tocard(Strn)
计 算 机 学 报2006年
随着噪声属性不断被剔除,属性集合F中具有较强分类能力的属性所占比例不断增加,其样本分类能力也将逐步提高.如果我们每去掉一个属性,都将剩余属性记录下来就可以通过检查这一系列属性集合的分类能力,找到具有最佳分类能力的一组属性集合作为分类特征集合.
-nearestHitmj)2
K
+
//card(Strn)为样本集Strn中的样本数
2.1choosei-thinstancesiinStrn
2.2FinditsnearestKHitsandnearestKMisses
//K≥1,K>1时为Relief-A算法
2.3Forj=1tocard(F)
K
Wj=Wj-Km=1
m=1
∑(s
ij
在算法实际运行过程中,我们每次去掉当前属
性集合F中属性总数的10%以加快算法的运行.同时随着F中属性数量的不断下降,被排除出去的属性数目将逐渐减少,这有利于在属性集合较小的情况下进行较为精确的搜索.为了提高Relief算法的可靠性,实际算法的实现我们采用了Relief-A算法
[11]
∑(s
ij
-nearMissmj)2
K
3.ReturnW//返回权值向量
Relief算法求取样本分类特征的方法是通过利用得到的属性分类权重,选取具有最大分类权重的一组属性作为样本的分类特征实现的.然而就肿瘤基因表达谱数据而言,上述特征选取策略必须加以改进.这是因为:Relief算法在训练集中搜索某一样本si近邻(nearestHit和nearestMiss)的过程是以两个样本间的距离为标准进行的.在距离计算过程中所有属性均参与计算,而在肿瘤基因表达谱中,仅有少数基因才同样本类别相关,绝大多数基因与样本类别并无关系,是分类无关基因,作为噪声属性(基因)存在.太多噪声属性参与到样本距离的计算过程中来就使得噪声信息淹没了有用信息,从而造成计算出来的基因的分类权重偏离真实值.因此,对样本分类特征的有效选取应当考虑到这些分类无关基因的影响并设法予以消除.
鉴于如上分析,本文在借鉴递归特征排除(Re-cursiveFeatureElimination,RFE)策略的基础上,提出了RFERelief算法以进行样本分类特征基因的选取:首先对当前属性集F中的所有属性,利用Relief算法进行属性分类权重的计算,然后去掉具有最小权重的那个属性后重新采用Relief算法计算剩余属性的分类权重,再排除这些属性中具有最小权重的属性,如此循环下去,就使得噪声属性的影响逐步减小.随着噪声属性影响的不断下降,对属性分类能力的评价也就越接近真实.该算法可简要描述如下.
算法2. RFERelief算法.
1.F={g1,g2,…,g16063}2.whileF≠
2.1W=Relief(F)//利用Relief算法计算当前属性集
合F中属性的分类权重向量W
2.2c=argminWF//找到具有最小权重属性的位置//[9]
,并取近邻数K=18.
4 分类特征集合的确定
利用RFERelief算法可以得到一系列属性集合Fn(n=1,2,…),我们可以通过检验它们的样本分类能力找出样本分类特征集合FG.样本分类特征
集合是指具有最小分类错误率,且所含属性最少的那个属性集合.为检验每个属性集合Fn的样本分类能力,本文以支持向量机作为分类器,以Fn中的属性作为分类特征,采用训练集Strn中的样本作为分类器的学习样本,对测试集Stst中的样本进行分类测试,分类错误数记为ClassificationError(Fn).
[13]
支持向量机(SupportVectorMachine,SVM)
是由Vapnik等人基于统计学习理论,采用结构风险最小化原理提出的一种机器学习算法,具有较强的泛化能力.若给定样本集为ST={(xi,yi)|xi∈Rd,yi∈{-1,+1},i=1,2,…,N},则SVM的判别函数为
sv
g(x)=sgn
i=1
yK(x,x)+b∑α
i
i
i
(1)
其中sv为支持向量的个数,K(x,xi)为核函数.
SVM核函数的具体形式对其分类性能具有较大影响.然而SVM参数选择问题,目前理论上尚未解决,只能通过反复实验的方法进行选取.通过实验本文选用了RBF核函数,其具体形式为
K(x,y)=e
-x-y
2/2σ2
(2)
其中σ=15,并选择SVM上界控制因子C=200.利用该SVM模型作为分类器,不同属性集合Fn对样
本的分类情况如图2所示.考虑到Fn的大小与n呈指数关系,图中横坐标采用了对数坐标形式.
2,
2期李颖新等:肿瘤基因表达谱分类特征基因选取问题及分析方法研究327
Fn中噪声属性所占比例不断减少,集合对样本的分类能力逐步提高,分类错误率不断下降.当属性集合中的基因数量下降到98时,即card(Fn)=98,其分类错误达到最小:对全部106个测试样本总的错分
数为3.进一步排除属性集合中的基因,分类错误率开始回升,这表明被排除的基因已非分类无关基因,而是包含样本分类信息的特征基因.基于上述分析,本文以这98个基因做为样本的分类特征基因.此时的属性集合即为分类特征集合,记为FG
.
决策面为
sv
O(x)=∑αiyiK(x,xi)+b
i=1
(3)
T
在此,本文分析了输入特征向量x=[x1,x2,…,x98]
中各个分量对决策函数的影响程度,并定义输入x中第j个分量xj对决策函数O(x)的灵敏度函数为
S(xj)=∑
x∈S
trn
xj
(4)
其中S(xj)为分量xj的灵敏度函数,Strn为训练样本
集,输入特征向量x的第j个分量xj对应于FG中第j个属性.将式(3)代入式(4),并将RBF核函数的具体形式(2)带入式(4)有 S(xj)=∑ xjx∈S
trn
=∑
x∈S
trn
xj xj
sv
svi=1svi=1
-iyie∑α
x-x
x-x
i
yK(x,x)+b∑α
i
i
i
2
=∑
x∈S
/2σ
2
+b
trn
=∑
图2 不同维数的属性集合对样本的分类能力
x∈S
trn
-iyieασi∑=1
sv
i
2/2σ2
(xij-xj)
=∑
x∈S
5 冗余基因的排除
肿瘤分类特征基因选取的目的在于从原始基因集合中选出一组最能反映样本类别特征的基因以准确地刻画出事物的分类模型,从而实现组织类型的有效分类,并揭示出肿瘤组织中异常表达的基因,最
终为基因功能的确定提供线索.从这个角度看,利用RFERelief算法得到的特征属性集合FG中所含的98个基因都在一定程度上包含了样本分类信息,可以作为样本的分类特征.然而该组基因仍可能含有冗余,冗余基因尽管也包含了样本分类信息,但其存在与否并不会影响到整个特征集合FG的样本分类能力,反而会增加计算的复杂度.排除冗余基因还可以进一步降低特征集合的维数,提高分类器的性能
[12]
trn
iyiK(x,xi)(xij-xj)2
∑ασi=1
svi=1
∑σx∈Strn
yK(x,x)(x∑α
i
i
i
ij
-xj)(5)
利用式(5),我们可以计算得到FG中每个分类特征影响决策函数的灵敏度.
分类特征的灵敏度可视为该分类特征影响决策的重要性指标,依据该指标可以通过依次去除对决策影响最小的分类特征,从而将剩余特征作为一个整体考察其对样本的分类能力.然而,每去除一个分类特征后,都将得到一个新的决策函数,这就导致必须依据新的决策函数重新计算剩余分类特征的灵敏度,然后依据得到的新的灵敏度的值进行下一个分类特征的排除,这使得该过程同RFEReleif算法一样,也是一个基于RFE的属性后向搜索过程[9].具体描述如下:
1.以集合FG中的属性作为分类特征训练SVM模型,并记录其对测试集的分类情况;
2.依据式(5),计算属性集合FG中各属性的灵敏度;3.令f为FG中具有最小灵敏度的属性,并从FG中去除该属性,即FG=FG-{f},若FG= ,则退出;否则继续执行步1.
,同时也可以使生物医学研究更具针对性.为有效去除FG中的冗余基因,本文采用了基于
SVM分类模型的灵敏度分析法.基于模型的灵敏度分析
[8,9]
是指针对某一特定的分类模型而言,分析
各个分类特征影响模型输出能力的大小,即分析模型输出对输入各分量的敏感程度.本文使用的分类模型为采用RBF核函数的SVM(见第4节).
,利用上述RFE过程,我们对本文第4节得到的特征属性集FG进行冗余属性的滤除,并记录了随着F,
328计 算 机 学 报2006年
的分类情况,如图3所示
.准差为3.4),总的分类正确率为91.8%.该结果表明所得分类特征集合FG中的基因对肿瘤和正常组织确实具有良好的分类能力,可以作为样本的特征基因.由此也可以反映出:尽管肿瘤存在着多种不同的类型及亚型,组织形态和病理表现各异,然而就基因表达而言确存在较大程度上的共性.
图4表示出了FG中基因分别在肿瘤与正常组织中的平均表达水平.在FG的这52个分类特征基因中,有43个基因在正常组织中呈现高(上调)表达,而在肿瘤组织中为低水平(下调)表达;其余9个基因在正常组织中呈现低水平表达,而在肿瘤组织中则为高表达.
图3 FG中属性减少时对测试样本集的分类情况
由图3知,当FG中基因的数量下降到52时,对测试集Stst中样本的分类错误数为3,仍能取得同FG含98个基因时同样的样本分类能力.这样,通过灵敏度分析,我们从原始特征基因集合中去除了46个冗余基因,剩余的52个基因就是我们所能得到的数量最少且分类能力最强的样本分类特征基因.
6 实验结果分析与讨论
6.1 特征基因分类能力的检验及肿瘤基因表达特
征的分析
属性集合FG中含有的52个分类特征基因对Stst中106个样本总的错分数为3,分类正确率可达97.2%.但考虑到本文对训练集和测试集的划分(如图1)是满足每种类型的肿瘤组织及其对应的正常组织均按近似2∶1的比例分配在训练集和测试集中的一种随机划分,存在着多种满足这一条件的划分方案,本文在测试集上取得的良好分类效果有可能是一种“偶然”现象,因此必须对这些基因的分类能力进行显著性检验,以防止“过学习”现象的发生.为此,我们基于样本抽样的思想,利用随机测试实验的方法对FG中基因的分类能力进行检验.具体做法如下:在保持训练集和测试集大小不变、不同类型的肿瘤与正常组织在训练集及测试集中均按近似2∶1分布的条件下,从总体样本中采用无重复抽样的方式随机抽取样本形成新的训练集ST,剩余样本作为测试集SI;以FG中基因作为样本的分类特征,利用ST训练RBF-SVM分类模型,对测试集SI进行样本识别并记录分类结果.上述过程称为一次随机测试实验.我们做了500次这样的随机测试实验,并对分
图4 分类特征基因在肿瘤组织与正常
组织中的差异表达情况
为检验这些基因在肿瘤与正常组织中的表达水平是否显著不同,我们以t统计量作为检验统计量,在给定显著性水平α=0.05的条件下对该问题进行
t-μn=t检验.检验的原问题为H0:μ0,备择假设为H1:μt-μn≠0,其中μt,μn分别为肿瘤和正常组织
中基因表达水平的均值.检验结果表明:所有这些分类特征基因在肿瘤和正常组织中的表达水平均有着显著不同.分类特征基因的这种表达行为不仅为样本分类提供了可靠信息,同时,通过与正常组织中基因表达行为的对比,还可以使人们更加直观地了解到肿瘤组织在基因表达上的特点,如图4所示.
在FG的52个分类特征基因中:(1)ATM(AtaxiaTelangiectasiaMutated)所编码蛋白属PI3/PI4激酶家族,是一种重要的细胞周期检查点激酶,它与ATR激酶是细胞对DNA损伤进行响应、维持基因组稳定性所必需的细胞周期检查点信号通路的主要调控者,该基因的突变与肿瘤的发生具有密切联系.除ATM外,其它一些与肿瘤相关的基因,如EEF1A1、CYR61、MSMB等以及一些在肿瘤组织
博泰典藏网btdcw.com包含总结汇报、农林牧渔、出国留学、IT计算机、外语学习、资格考试、自然科学、行业论文、经管营销、表格模板、医药卫生以及肿瘤基因表达谱分类特征基因选取问题及分析方法研究_图文等内容。
本文共2页12
本文关键词:肿瘤基因表达谱分类特征基因选取问题及分析方法研究,,由笔耕文化传播整理发布。
本文编号:233132
本文链接:https://www.wllwen.com/yixuelunwen/zlx/233132.html