基于数据挖掘的乳腺癌基因筛选与药物重定位方法研究
本文选题:数据挖掘 + 基因筛选 ; 参考:《华东师范大学》2016年硕士论文
【摘要】:乳腺癌疾病相关基因筛选与药物研发是生物医学研究领域的重要课题,有效筛选相关转移基因和预测现有药物的新用途对于该疾病的治疗具有重要的科学意义。然而,如何挖掘和利用疾病与药物相关的特征信息一直是目前该领域的难点。随着数据挖掘技术的发展,通过特征整合与数据模型算法的结合,为以上问题提供新的解决途径。本文利用数据挖掘的特征筛选算法及分类算法研究乳腺癌相关基因筛选问题和药物重定位问题。主要研究内容如下:1.提出了一种基于随机森林分类算法和病人基因特征信息的乳腺癌转移标志基因筛选方法PPIRF。该方法的特点在于不仅考虑到基因表达值在疾病分类预测问题中的重要性,而且把蛋白质-蛋白质相互作用信息作为先验知识融合到基因挑选过程。通过与其它方法进行对比,结果表明PPIRF筛选出的基因组合具有更好的预测能力和生物可解释性。2.提出了一种基于药物多类特征信息的重排序算法Ranking-based KNN用于乳腺癌等疾病的药物重定位。Ranking-based KNN方法的特点在于不仅融合了化学结构信息、靶标信息、副作用信息以及拓扑相关性信息多种药物特征,而且通过Ranking-SVM算法得到了待测药物的最可信近邻的排序以使用加权打分策略来预测该药物的新用途。实验结果表明该方法可以帮助寻找治疗乳腺癌等类疾病的药物新用途。3.开发了名为DREP的药物重定位可视化预测工具。该工具共包含了两种药物重定位方法:第一种是基于Ranking-based KNN算法的药物重定位;第二种是基于逻辑回归分类的药物重定位。该工具可以对KEGG数据库中1387种药物与1514种疾病的未知关系进行预测,并根据预测出的药物-疾病对分值数给出所查询药物可能治疗的疾病名称列表。DREP工具界面友好,操作简单,便于生物学研究人员的使用。
[Abstract]:Screening of genes associated with breast cancer and drug research and development are important topics in biomedical research. It is of great scientific significance to screen relevant transfer genes and predict new uses of existing drugs for the treatment of breast cancer.However, how to mine and utilize the characteristic information of disease related to drugs has been a difficult problem in this field.With the development of data mining technology, the combination of feature integration and data model algorithm provides a new way to solve the above problems.In this paper, the feature screening algorithm and classification algorithm based on data mining are used to study the selection of breast cancer related genes and drug relocation.The main research contents are as follows: 1.The feature of this method is not only to consider the importance of gene expression value in disease classification prediction, but also to fuse protein-protein interaction information into gene selection process as a priori knowledge.Compared with other methods, the results show that the gene combination selected by PPIRF has better predictive ability and biointerpretability. 2.In this paper, a reordering algorithm based on multi-class characteristic information of drugs, Ranking-based KNN, is proposed for drug relocating. Ranking-based KNN method for breast cancer and other diseases is characterized by the fusion of not only the chemical structure information, but also the target information.The side-effect information and topological correlation information are used to predict the new use of the drug. Furthermore, the Ranking-SVM algorithm is used to get the ranking of the most reliable neighbor of the drug to be tested and to use the weighted scoring strategy to predict the new use of the drug.The results show that this method can help to find new use of drugs to treat breast cancer and other diseases.A visual prediction tool called DREP for drug relocalization was developed.The tool includes two drug relocalization methods: one is drug relocalization based on Ranking-based KNN algorithm, the other is drug relocalization based on logical regression classification.The tool can predict the unknown relationship between 1387 drugs and 1514 diseases in KEGG database. According to the predicted drug-disease score, the list of disease names that can be treated by the drugs queried. The DREP tool has friendly interface and simple operation.Easy to use by biological researchers.
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R737.9
【相似文献】
相关期刊论文 前10条
1 陈明;;医学数据挖掘综述[J];医学信息;2008年01期
2 黄秋燕;金京皓;沈岳龙;郑晖;;数据挖掘在医学信息中的应用[J];医学信息(上旬刊);2010年08期
3 孙哲丰;王迎利;;中国药品电子监管数据挖掘现状的分析与思考[J];中国医药导刊;2014年06期
4 刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期
5 ;统计分析与数据挖掘的优秀工作平台[J];中国医院统计;2006年02期
6 徐刚;袁兆康;;数据挖掘及其在医学领域中的应用和展望[J];实用临床医学;2006年11期
7 黄艳玲;;数据挖掘在医学领域中的文献发展评价[J];现代医院;2007年01期
8 丁维;蒋永光;宋姚屏;吴孟旭;李昆;;数据挖掘及其在中医领域的应用研究[J];数理医药学杂志;2007年03期
9 王华;江启成;胡学钢;;数据挖掘在医学上的应用[J];安徽医药;2008年08期
10 马利;;基于数据挖掘的聚类分析和传统聚类分析的对比研究[J];数理医药学杂志;2008年05期
相关会议论文 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
相关重要报纸文章 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
相关博士学位论文 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 邬文帅;基于多目标决策的数据挖掘方法评估与应用[D];电子科技大学;2015年
6 谢邦彦;整合数据挖掘与TRIZ理论的质量管理方法研究[D];首都经济贸易大学;2010年
7 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年
8 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年
9 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年
10 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
相关硕士学位论文 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
,本文编号:1732998
本文链接:https://www.wllwen.com/yixuelunwen/zlx/1732998.html