当前位置:主页 > 科技论文 > 基因论文 >

融合自训练和低秩表示的基因表达数据癌症分类方法

发布时间:2020-04-08 14:52
【摘要】:在生物信息学领域中,由于许多疾病的病理不明,使用传统的诊断方式无法准确判断疾病类型,所以借助分子生物学数据和机器学习进行辅助的诊断方式近年来开始得到关注。癌症是一种基因疾病,有超过100种类型,通常由它们所处的组织或器官来命名。对于癌症的诊断和治疗而言,准确识别癌症类型是十分必要的。由于癌症组织和正常组织有着不同的基因表达,基因表达数据可以作为有效的特征源用于癌症分类。由于高通量测序技术的发展,获得全基因组的基因表达数据成为可能。然而,直接使用原始的基因表达谱进行准确的癌症分类仍然很有挑战性,因为基因表达数据有着极高的特征维度和较小的样本数,且存在着大量的噪声和冗余。(1)为了解决上述问题,我们提出了一种新的融合低秩表示和自训练的半监督分类方法(SSC-LRR),它可以利用基因表达数据进行癌症分类。低秩表示(Low Rank Representation,LRR)首先被用于从高维基因表达数据中提取有判别力的特征,然后一种改进的半监督自训练分类(Semi-supervised Self-training Classification,SSC)方法被用于进行癌症分类预测。为了评估SSC-LRR的分类效果,我们在两个不同类型的基准数据集上进行测试,并与四种当前情况下性能最好的方法进行比较。它在癌症分类预测中取得了 89.7%的总体准确率和0.920的泛化相关性,比其它方法中最好的一个分别高出18.9%和24.4%。总而言之,我们的研究展示了一种新的高灵敏度方法,可以从大规模基因表达数据中识别癌症类型。(2)此外,我们在矩阵低秩表示的基础上对数据进行可视化,并提出了一种关键基因选择方法对基因的鉴别能力进行排序,一些基因(RNF-114,HLA-DRB5,USP9Y,PTPN20)被该方法识别为可能的新癌症标志,以用于进一步的临床研究。(3)为了方便其他生物医学研究者的使用,我们基于Flask框架开发了一个网络平台用于提供在线的癌症类别预测服务。
【图文】:

层次聚类,肺腺癌,亚型,癌症


逦存在不同的组织,所以还要考虑癌细胞所在的细胞类型,主要包括:逡逑(carcinoma):癌症(cancer)是总称,其中起源于上皮细胞的类型被称rcinoma),多发于老年人,癌(carcinoma)中包括了大部分最常见的癌症,乳腺、胰腺、肺、前列腺和结肠上的癌症(cancer)都是癌(carcinoma);逡逑瘤:发生于结缔组织上的癌症(如脂肪、神经、骨骼和软骨),源于骨髓外胞;逡逑巴瘤和白血病:这两类癌症源于造血细胞,其中白血病是最常见的儿童癌症占30%,但还是远少于成人的淋巴瘤和白血病患者;逡逑生殖细胞肿瘤:源于多能细胞的癌症,大多出现于睾丸和卵巢;逡逑胚细胞瘤:源于未成熟的前体细胞或胚胎组织,在儿童中更为常见。逡逑,癌症的名称通常会包含其所在器官和组织,如肺腺癌(lung邋carcinoma)。肿瘤组织有着不同的病理学特征,通过组织类区别癌症帮助医生提供更为准案。但是这种分类方法仍然过于宽泛,导致同种类型的癌症实际上有着不同理。逡逑

数据集,参数,自训练,学习模型


逦融合自训练和低秩表示的基因表达数据癌症分类方法逡逑图3.1中的数据显示,所有方法的表现都略微依赖于M。从常识上来说,学习模型逡逑的效果会随着训练集中标注样本数量的提升而提升,大体上预测效果的趋势与我们的认逡逑知相符,尽管对于标签迁移算法有些小的波动。同时,不同方法间的相对效果也大体上逡逑一致,其中SSC-LRR在M邋>邋2时效果好于其它方法,说明了邋SSC-LRR的鲁棒性。但逡逑是,我们也发现在SSC-LRR在M邋=邋2时的预测准确率要略低于Semi-PNMF,可能的原逡逑因是当M过小时,,初始的训练样本过少,导致SSC-LRR的错误加深现象出现,尽管逡逑SSC-LRR己经通过设计来减少迭代训练过程中的错误加深。逡逑0.8邋1^邋SVM逦KS3RPCA+SVM逡逑mm邋Label邋Propagation邋[Z22邋SSC-LRR逦r-r^逦r//^逡逑S23邋Semi-PNMF逦—逦:’::逦pt邋:逡逑0邋6逦逦邋_邋..网H逦N邋衫.逡逑IXXI邋邋邋!^0<邋\//邋邋邋1邋aX,'--邋-A邋:..丨邋i邋X邋>^—逦逦1逦\逡逑Q邋'…_邋冒邋_#T——_媭邋_邋__逡逑目逦、必7逦自逦p^S--:-y0逦=逦^逦pv-:w>逡逑0-4逦国衫g.悔々:物.曰逡逑0.2逦|逦|影W╁义息葖p翁j;.逦_丨||:逦I逦|i邋i逦11逦lltllL逡逑Q邋Q邋逦逦Hill邋.邋?邋-逦r^dlllh>'v.】邋;—.邋-FH邋ll>:.K逦:邋Jllll邋!邋?,邋\逡逑1逦2逦3逦4逦5逦6逡逑M逡逑0.8i
【学位授予单位】:南京理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;R73-3

【相似文献】

相关期刊论文 前10条

1 王长本,刘兴晖,王伟灵,周新;基因表达数据的聚类分析[J];国外医学(临床生物化学与检验学分册);2004年04期

2 王修竹;刘自伟;齐阳;鲍竞;;基因表达数据的预处理方法[J];兵工自动化;2006年07期

3 孔薇;牟晓阳;;基于大脑不同区域的阿尔茨海默症基因表达数据分析[J];上海交通大学学报;2013年06期

4 马李冰;侯艳;李贞子;李康;;多步骤决策树方法在基因表达数据上的应用研究[J];中国卫生统计;2017年01期

5 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期

6 刘英;;蛋白质网络和基因表达数据与癌症转移的预测[J];国际药学研究杂志;2008年02期

7 顾明亮;为基因表达数据的发表制订标准[J];基础医学与临床;2002年04期

8 刘珑龙;周西龙;刘雪峰;;基于遗传算法和学习向量化网络的基因表达数据的阈值分析[J];中国海洋大学学报(自然科学版);2013年12期

9 孔薇;陶伟杰;牟晓阳;;基于非负矩阵分解的大脑不同区域基因表达数据分析[J];中国生物医学工程学报;2012年06期

10 赵洁茹;;浅谈模式识别中的支持向量机技术分析肿瘤基因表达数据[J];科技资讯;2011年33期

相关会议论文 前7条

1 刘会娟;侯艳;李康;;ARTIVA在时间序列基因表达数据网络构建中的应用[A];2017年中国卫生统计学学术年会论文集[C];2017年

2 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

3 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

4 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

5 冯晶;夏冉;曾勇华;刘娟;周怀北;;肿瘤基因表达数据库系统[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

6 梅桢;申琦;冶保献;;用于基因表达数据模式识别的KNN和SVM集成算法[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年

7 王章辉;赵宇海;王国仁;李源;;一种基于投影聚类的无监督表型区分算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

相关博士学位论文 前10条

1 姜涛;基因表达数据挖掘关键技术研究[D];西北工业大学;2016年

2 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年

3 张丽娟;微阵列基因表达数据分类问题中的属性选择技术研究[D];国防科学技术大学;2008年

4 黄德生;基因表达数据在肿瘤诊断、基因功能预测中的应用研究[D];中国医科大学;2009年

5 刘亚杰;基于智能优化算法的肿瘤微阵列基因表达数据分类研究[D];云南大学;2014年

6 王文俊;基因表达数据的相似性度量和特征提取研究[D];西安电子科技大学;2011年

7 毛志毅;基因表达数据基因筛选与近红外光谱微量成分模型优化方法研究[D];南开大学;2014年

8 杨博;基因调控网络构建及在癌症基因预测中的应用[D];西安电子科技大学;2014年

9 殷路;基因表达数据的双聚类分析与研究[D];电子科技大学;2017年

10 石金龙;基因表达及其转录调控机制的计算分析[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 刘鸿儒;面向基因表达数据快速聚类的算法研究[D];哈尔滨工业大学;2018年

2 刘圣辉;基于基因表达数据的新型特征提取算法研究[D];山东大学;2018年

3 夏春秋;融合自训练和低秩表示的基因表达数据癌症分类方法[D];南京理工大学;2018年

4 余显学;基于基因表达数据的癌症亚型发现双聚类方法研究[D];西南大学;2018年

5 张锦锋;基于脑网络组图谱的转录组分析软件开发与应用研究[D];电子科技大学;2018年

6 马春霞;非负矩阵分解及在基因表达数据分析中的应用研究[D];曲阜师范大学;2015年

7 张秋水;支持向量机在基因表达数据中的研究[D];厦门大学;2007年

8 任丛林;基于压缩感知算法的基因表达数据分类的研究[D];北京交通大学;2012年

9 高雪峰;膜计算在基因表达数据分析中的应用[D];西华大学;2015年

10 黄静;基于阿尔茨海默病的基因表达数据改进的聚类方法[D];四川师范大学;2016年



本文编号:2619484

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2619484.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa736***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com