基于压缩感知算法的基因表达数据分类的研究
本文关键词:基于基因表达数据的肿瘤分类算法研究,,由笔耕文化传播整理发布。
《北京交通大学》 2012年
基于压缩感知算法的基因表达数据分类的研究
任丛林
【摘要】:癌症的发生通常是由于细胞增长机制的失常而引起的,表现为细胞内某些基因突变或表达异常所致,进一步影响其他基因的表达,从而导致一些蛋白质分子的表达发生改变,因此产生了病理学上肿瘤的差异,形成了临床诊断中的不同的癌症类别。随着20世纪90年代启动的人类基因组计划(Human Genome Project)的顺利进行,DNA微阵列技术的迅速发展给癌症的临床辅助诊断和治疗带来了新的希望,它在实验中产生的基因表达数据可以使我们从基因水平对癌症病因进行分析和研究。但一次微阵列实验会同时产生数以万计的基因表达数据,对海量的基因表达数据进行分析和处理,从中提取有效的生物信息给人们的研究提出了新的挑战。基因表达谱数据分析是生物信息学领域研究的最重要内容之一,作为研究的一种重要的方法,正确的对不同病理分型的癌症进行分类,对癌症的临床诊断和治疗具有非常重要的意义。压缩感知理论的提出和发展,给高维的基因表达谱数据处理带来了新的启发:如果可以在某个空间基下对基因表达数据进行稀疏表示,在对数据分类时,特征选取不再是一个难点,大量的特征值将成为算法中可利用的优点。目前压缩感知算法已经成功的应用于人脸识别的研究,并且取得了很好的分类效果。基因表达数据同样具有小样本、高维性等特点,本文将采用压缩感知算法实现对基因表达数据的分类。 本文分析并实现了压缩感知算法(Compressed Sensing, CS)并将其应用于国际上通用的基因表达数据的分类。首先将基因表达数据通过K近邻算法对缺失值进行添补,将数据标准化;在此基础将数据分为训练数据集和测试数据集,使用训练数据集构造冗余字典,采用随机分布的规范行矢量高斯矩阵构造传感矩阵,对训练数据集和测试数据集进行感知,利用更加简单的I2范数优化问题来求最小I0范数解,在变换域中采用近邻法测试判断测试样本的所属类别。从而实现压缩感知算法对基因表达数据的分类。 经过反复实验,本文实现了对基因表达数据的分类,利用本文提出的压缩感知算法最终对三个国际上常用的基因表达数据集分类都得到了很好的分类效果,分类准确率达到了98.4%、99.3%、97%。而且压缩感知算法避免了特征提取问题,提高了分类的速度和准确率。
【关键词】:
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:R730.2;TP311.13
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前7条
1 吴凌华;张小川;;压缩感知的发展与应用[J];电讯技术;2011年01期
2 石光明;刘丹华;高大化;刘哲;林杰;王良君;;压缩感知理论及其研究进展[J];电子学报;2009年05期
3 杨荣根;任明武;杨静宇;;基于稀疏表示的人脸识别方法[J];计算机科学;2010年09期
4 戴琼海;付长军;季向阳;;压缩感知研究[J];计算机学报;2011年03期
5 李杰,唐降龙,王亚东,李霞;基因表达谱聚类/分类技术研究及展望[J];生物工程学报;2005年04期
6 周鹏;支持向量机在DNA微阵列数据分析中的应用研究[J];计算机工程与设计;2005年11期
7 孙继勇;基因表达谱的数据分析[J];国际病理科学与临床杂志;2005年05期
中国硕士学位论文全文数据库 前1条
1 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 顾以韧;李学伟;朱砺;梁艳;;表达谱基因芯片技术及其在动物基因组研究中的应用[J];安徽农业科学;2006年10期
3 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
4 刘影;徐文静;杜茜;杨信东;李启云;;芸苔链格孢菌与白菜互作基因表达谱芯片分析[J];北方园艺;2010年07期
5 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
6 许子君;杜秋;栾超;;Apriori改进算法在军队院校干部考核中的应用[J];兵工自动化;2012年03期
7 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
8 郑继刚;杨玲;杨春华;曾庆红;赵若男;;网络入侵分析关联规则挖掘系统设计[J];保山学院学报;2011年05期
9 于洪;谌强;;一种结合K-Means的层次化的搜索结果聚类方法[J];重庆邮电大学学报(自然科学版);2010年03期
10 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前10条
1 高建虎;陈杰;张履谦;;基于压缩感知和EMD的SAR海洋内波探测方法[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 王安娜;周小星;孙红英;杨鸿武;;基于压缩感知过程的语音增强新算法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 高畅;李海峰;马琳;;基于压缩感知理论的语音信号压缩与重构方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 周小星;王安娜;孙红英;杨鸿武;;基于压缩感知过程的语音增强[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
5 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
6 刘培强;谢青松;朱大铭;;用于基因表达谱数据聚类分析的贪心图划分算法研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
7 梁瑞宇;奚吉;张学武;;压缩感知理论在语音信号处理中的应用[A];2010’中国西部声学学术交流会论文集[C];2010年
8 曹晖;司刚全;张彦斌;贾立新;;基于聚类分析的模糊控制算法在制粉系统中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
9 曹晖;司刚全;张彦斌;贾立新;;基于模糊时序数据挖掘的火电厂制粉系统优化算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
10 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前10条
1 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
2 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
3 杨瑞明;基于压缩采样的比幅测向方法研究[D];电子科技大学;2010年
4 徐兆华;基因芯片数据统合分析方法的若干拓展[D];浙江大学;2010年
5 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
6 韩燕清;中药治疗多囊卵巢综合征文献数据库的建立及中药疗效的数据分析[D];北京中医药大学;2011年
7 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
8 周小平;高速移动MIMO OFDM系统快衰落信道估计方法[D];上海大学;2011年
9 邓海松;基于稀疏先验的计算机试验元建模方法研究[D];南京理工大学;2011年
10 彭佳扬;代谢网络中功能模块挖掘和进化分析研究[D];中南大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
2 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
3 琚长涛;一种带有聚类功能的边界检测算法的研究[D];郑州大学;2010年
4 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
5 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
6 侯宗仁;TD-SCDMA网络性能分析系统的设计与实现[D];大连理工大学;2010年
7 邢云;基于压缩感知理论的人脸识别方法研究[D];大连理工大学;2010年
8 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
9 李艳萍;基于自主学习的移动机器人质心偏移控制策略[D];大连理工大学;2010年
10 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 焦李成,谭山;图像的多尺度几何分析:回顾和展望[J];电子学报;2003年S1期
2 石光明;刘丹华;高大化;刘哲;林杰;王良君;;压缩感知理论及其研究进展[J];电子学报;2009年05期
3 李霞,饶绍奇,张田文,郭政,张庆普,K.L.Moser,E.J.Topol;应用DNA芯片数据挖掘复杂疾病相关基因的集成决策方法[J];中国科学(C辑:生命科学);2004年02期
4 周志华,李宁,杨育彬,陈世福;基于神经网络集成的肺癌早期诊断[J];计算机研究与发展;2002年10期
5 周志华,陈世福;神经网络集成[J];计算机学报;2002年01期
6 车录锋,周晓军,程耀东;基于多神经网络模糊积分集成的无损检测缺陷分类[J];机械科学与技术;2000年01期
7 张春梅;尹忠科;肖明霞;;基于冗余字典的信号超完备表示与稀疏分解[J];科学通报;2006年06期
8 姜远,周志华,谢琪,陈兆乾;神经网络集成在肺癌细胞识别中的应用[J];南京大学学报(自然科学版);2001年05期
9 张敏灵,周志华;基于神经网络的多示例回归算法[J];软件学报;2003年07期
10 刘丹华;石光明;周佳社;;一种冗余字典下的信号稀疏分解新方法[J];西安电子科技大学学报;2008年02期
【相似文献】
中国期刊全文数据库 前10条
1 周艳宏;张必成;曾朝阳;张文玲;范松青;李小玲;熊炜;曹利;李伟芳;李桂源;;利用GenMAPP筛查鼻咽癌差异表达基因[J];生物化学与生物物理进展;2005年12期
2 陈志宏;严壮志;刘书朋;;基于模糊自适应共振网络简化模型方法的乳腺肿瘤基因分类[J];上海大学学报(自然科学版);2006年04期
3 张玲;伍亚舟;陈军;易东;;小波-神经网络方法在基因表达数据分析中的应用研究[J];重庆医学;2010年17期
4 武振宇;李康;;支持向量机在基因表达数据分类中的应用研究[J];中国卫生统计;2007年01期
5 罗万春;易东;;胎儿小脑基因表达多尺度降噪的y~n曲线模型[J];计算机工程与应用;2011年07期
6 武晓岩;李康;;基因表达数据判别分析的随机森林方法[J];中国卫生统计;2006年06期
7 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期
8 伍亚舟;张玲;罗万春;易东;;基因表达数据的多尺度特征提取与分类研究[J];计算机工程与应用;2009年13期
9 徐源;彭斌;邓宇;田考聪;;基于小波去噪的基因表达数据聚类集成算法的研究[J];重庆医科大学学报;2010年05期
10 马猛;钮俊清;宁岩;郑浩然;王煦法;;聚类和关联规则挖掘在基因表达数据分析中的应用研究[J];北京生物医学工程;2008年04期
中国重要会议论文全文数据库 前10条
1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 徐旭东;郑欣;;基于Struts的基因表达数据分析软件的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
4 李鹏;阮晓钢;;一种预测多骨髓瘤的神经网络方法[A];第二十二届中国控制会议论文集(下)[C];2003年
5 杨波;卢学春;于力;朱宏丽;范辉;姚善谦;楼方定;;靶向上调ID4基因表达药物的生物信息学预测、分析和初步验证[A];第12届全国实验血液学会议论文摘要[C];2009年
6 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 王章辉;赵宇海;王国仁;李源;;一种基于投影聚类的无监督表型区分算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 梅桢;申琦;冶保献;;用于基因表达数据模式识别的KNN和SVM集成算法[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
9 张文广;李金泉;菊林花;赖双英;;应用Affymetrix基因芯片数据集开发基因表达的秩分析方法[A];遗传学进步与人口健康高峰论坛论文集[C];2007年
10 卢学春;杨波;于力;朱宏丽;范辉;姚善谦;楼方定;;靶向上调ID4基因表达药物及其抗白血病作用的生物信息学预测、分析和验证[A];中国科协海峡两岸学术研讨会——2008血液肿瘤论坛会议会编[C];2008年
中国重要报纸全文数据库 前1条
1 谭薇/编译;[N];第一财经日报;2008年
中国博士学位论文全文数据库 前10条
1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
2 陆慧娟;基于基因表达数据的肿瘤分类算法研究[D];中国矿业大学;2012年
3 孙璇;基于压缩感知的认知无线电频谱感知算法研究[D];北京邮电大学;2012年
4 程慧杰;基于模式识别方法的基因表达数据分析研究[D];哈尔滨工程大学;2012年
5 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
6 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
7 张国伟;认知无线电网络中频谱感知技术研究[D];山东大学;2011年
8 张红斌;信息系统内部威胁检测与感知方法[D];西安电子科技大学;2009年
9 李佳俊;认知无线电中协作频谱感知技术研究[D];北京交通大学;2012年
10 曹开田;认知无线电中合作频谱感知方法研究[D];南京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 任丛林;基于压缩感知算法的基因表达数据分类的研究[D];北京交通大学;2012年
2 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
3 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
4 陈佳妮;基因表达数据分析中IGA-FCM聚类算法研究与实现[D];东北林业大学;2010年
5 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
6 张礼;寻找差异基因的概率方法研究[D];南京航空航天大学;2010年
7 张彦琦;基因调控网络建立的数学模型研究[D];第三军医大学;2003年
8 张志国;基于生成树基因表达数据聚类方法分析[D];东北大学;2006年
9 沈小乔;基因表达数据分类算法及其应用研究[D];湖南大学;2005年
10 朱婵;聚类算法在基因表达数据分析中的应用研究[D];暨南大学;2005年
本文关键词:基于基因表达数据的肿瘤分类算法研究,由笔耕文化传播整理发布。
本文编号:184658
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/184658.html