当前位置:主页 > 医学论文 > 生物医学论文 >

基于TCGA和PubMed数据库的高维生物医学数据的数据挖掘和特征选择研究

发布时间:2018-10-04 23:06
【摘要】:随着生命科学领域技术的飞速发展,尤其是测序技术的发展,使得生物医学数据呈现出急剧膨胀的态势。生物医学数据不但数据量巨大,而且具有高维度的特点,特征数量远大于观测量(样本量)的情况非常普遍。因此,这些数据的出现不仅为研究人员带来了新的机遇,更带来了新的挑战。如何挖掘出海量数据的关系链成为了研究工作的重点所在。特征选择指的是从原始数据中选择出一个子集代表原始数据的特征,精心设计的特征选择方法使得这些特征能够用于后续的数据挖掘工作。毫不夸张地说,特征选择之于数据挖掘便如同黄沙取金,几乎任何一个完整的数据挖掘工作都避不开这个步骤。所以,本文以特征选择技术作为突破点,以两个重要生物医学问题作为载体,对高维生物医学数据相关的生物信息学研究方法进行了探索。通过本研究,我们将从多个层面提出不同的特征提取策略,并进一步研究这些策略在实际生物医学问题中的表征效果与预测能力。本文中发展的特征选择方法和结果能够为高维生物医学数据的处理与分析提供重要参考。特征选择主要出现在机器学习和统计学领域,指的是从大量变量中筛选出密切相关变量用于模型构建。特征选择有三个主要优势:简化模型使之更加易于理解、缩短模型训练时间以及通过减少过拟合来增加模型泛化能力。在实际的研究问题中,变量集合中的大部分变量相对研究问题是属于冗余信息,删除它们并不会导致信息量的丢失。所以,对于处理海量高维生物医学数据,特征选择便是不可缺少的一步。正如14世纪的哲学家Willian所提出的“奥卡姆剃刀”定律:如无必要,勿增实体。可以说,特征筛选,简化模型乃是海量数据处理的灵魂所在。因此,特征选择对于海量生物医学数据的处理是极为关键的一步,也是本文的出发点所在。目前来说,特征选择主要有两类方法,一类是利用数据本身的拓扑结构、统计学信号进行筛选,而另一类则是引入外部知识,例如一些特定领域的背景知识。本文使用TCGA (The Cancer Genome Atlas)数据库中的数据综合尝试了这两种方法,用于预测肿瘤预后表现的研究。首先,在利用数据本身拓扑结构方面,我们重点关注肝细胞癌的基因和微小RNA诊断标志物的筛选和发现。在一个网络中,度相对较高的节点称为“集线器(Hub)”,我们在结合生存分析技术并研究预后生存率相关分子的拓扑特性后发现,这些Hub节点中与肝癌预后生存相关的基因更为富集,表明复杂分子网络中的这些Hub节点更倾向作为判断肝癌预后表现的潜在特征,即分子标志物。其次,在引入领域内知识方面,我们重点关注多种肿瘤化疗干预后药物反应的预测。肿瘤化疗失败的主要原因常常是由于机体内发生肿瘤多药耐受(Multiple Drug Resistance, MDR)。耐药性是一个相对复杂的过程,通常是由于过度表达耐药基因编码的相关蛋白,通过能量依赖性洗脱泵的作用将化疗药物泵出胞外,从而减弱化疗药物在细胞内的聚集作用,导致了机体的耐药发生。为此,我们以基因突变为暴露因素,肿瘤耐药为暴露结果,利用相对风险率(Relative Risk, RR)和统计显著性P-value联合筛选,得到八种肿瘤的耐药相关的突变基因作为预后预测模型的特征集。利用该特征集,我们分别使用三种机器学习方法对八类肿瘤样本的耐药性进行预测,表现良好。尤其是在头颈鳞癌(Head and Neck Squamous Cell Carcinoma,HNSC)中 ROC 曲线下面积(Area Under the Curve,AUC)能够达到0.980,表明能够经过领域内知识进行特征筛选后的模型可以很好地区分药物干预以后发生耐药的患者和药物敏感的患者,为帮助患者选择合适的治疗方式提供重要参考。除药物干预之外,越来越多的研究表明,通过饮食干预也是调节人体健康的重要手段,因此,除研究肿瘤治疗预后之外,我们还尝试基于PubMed数据库的海量文本数据对潜在的对人体健康有益的碳水化合物(又称为益生元)进行预测。我们从PubMed数据库中下载15例已知益生元的所有研究文献,并对其进行特征抽取,用该特征集对待预测碳水化合物进行建模分析,计算出潜在的益生元名称列表,这个挖掘方法不仅能够为其他数据挖掘学者提供参考,预测出的潜在益生元亦可为研究益生元的学者们提供一个重要参考清单。随着生物医学领域大数据大幕的拉开,数据挖掘显得愈发重要。数据挖掘方法有助于从系统水平理解生命,是研究生命科学的重要方法,特征选择则是数据挖掘的灵魂。在此基础上,我们将在以后的研究中考虑整合文本数据、生物表达数据进行模拟和分析,为最终改善人类的健康做一些有意义的尝试。
[Abstract]:With the rapid development of technology in the field of life sciences, especially the development of sequencing technology, biomedical data exhibits a dramatic expansion. Biomedical data not only has huge data volume, but also has the characteristics of high dimension, and the feature quantity is much larger than that of observation volume (sample size). Therefore, the appearance of these data not only brings new opportunities to researchers, but also brings new challenges. How to excavate the relationship chain of mass data has become the focus of the research work. Feature selection means that a subset of the original data is selected to represent the features of the original data, and the well-designed feature selection method enables these features to be used for subsequent data mining operations. It's no exaggeration to say that feature selection is based on data mining as yellow sand takes gold, almost any complete data mining effort avoids this step. Therefore, using feature selection technique as carrier point, this paper explores the biological informatics research methods related to high-dimensional biomedical data using two important biomedical questions as vectors. Through this study, we will put forward different features and strategies from multiple levels, and further study the characterization and prediction ability of these strategies in practical biomedical questions. The feature selection methods and results developed in this paper can provide important references for the processing and analysis of high-dimensional biomedical data. Feature selection mainly occurs in the field of machine learning and statistics, referring to the selection of closely related variables from a large number of variables for model construction. Feature selection has three main advantages: simplified model makes it easier to understand, shorten model training time, and increase model generalization ability by reducing overfitting. In practical research, most of the variables in the variable set are redundant information, and they do not cause loss of information. Therefore, feature selection is an indispensable step for dealing with massive high-dimensional biomedical data. As the 14 th century philosopher Augustan put forward "Occam Razor" Law: If not necessary, do not increase the entity. It can be said that the characteristic screening, the simplified model is the soul of mass data processing. Therefore, feature selection is a key step for the processing of mass biomedical data, which is also the starting point of this paper. At present, feature selection mainly has two kinds of methods, one is to use the topological structure of the data itself, the statistical signal is screened, and the other is the introduction of external knowledge, such as background knowledge in some specific fields. In this paper, using the data in the Cancer Genome Atlas database, the two methods are used to predict the prognosis of the tumor. First, in terms of utilizing the topological structure of data itself, we focus on the screening and discovery of gene and small RNA diagnostic markers of hepatocellular carcinoma. in one network, a relatively high degree of node is referred to as Hub We have found that these Hub nodes in these Hub nodes are more enriched with genes associated with the prognosis of HCC, indicating that these Hub nodes in complex molecular networks are more likely to be a potential feature of determining the prognosis of HCC, in combination with survival analysis techniques and studying the topological properties of prognostic-based survival-related molecules. i.e. molecular markers. Secondly, in the field of knowledge, we focus on the prediction of drug response after multiple tumor chemotherapy interventions. The main cause of tumor chemotherapy failure is due to multiple drug resistance (MDR) in the body. Drug resistance is a relatively complex process, usually due to the overexpression of the associated protein encoded by the drug-resistant gene, the chemotherapeutic agent being pumped out of the cell by the action of the energy-dependent elution pump, thereby reducing the aggregation of chemotherapeutic agents within the cells, leading to the occurrence of drug resistance in the body. For this reason, we use the gene mutation as the exposure factor, the drug resistance of the tumor is the exposure result, the relative risk ratio (RR) and the statistical significance P-value are combined to screen, and the drug resistance-related mutation gene of eight tumors is obtained as the feature set of the prognosis prediction model. Using this feature set, we used three kinds of machine learning methods to predict the drug resistance of eight kinds of tumor samples. Especially in the head and neck squamous cell carcinoma (HNSC), the area under the ROC curve (AUC) can reach 0. 980, indicating that the model which can be characterized by the knowledge in the field can be used for drug-resistant patients and drug-sensitive patients after drug intervention. Important references are provided to help the patient choose the appropriate treatment modality. In addition to drug intervention, more and more studies have shown that dietary intervention is also an important means of regulating human health, and therefore, in addition to studying the prognosis of tumor therapy, We also try to predict potential health-beneficial carbohydrates, also known as prebiotics, based on mass text data from PubMed databases. We downloaded 15 known prebiotics from PubMed database and extracted features, modeled and analyzed the predicted carbohydrate by using the feature set, and calculated a list of potential prebiotics names. This mining method can not only provide references for other data mining scholars, but also provide an important reference list for scholars studying prebiotics. Data mining is becoming more and more important with the opening of large-scale data in the field of biomedicine. Data mining method helps to understand life from system level, is an important method to study life science, and feature selection is the soul of data mining. On this basis, we will consider the whole text data and the biological expression data in future research to make some meaningful attempts to improve the human health.
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;R318

【相似文献】

相关期刊论文 前10条

1 张葛祥;金炜东;胡来招;;满意特征选择及其应用[J];控制理论与应用;2006年01期

2 付涛;;基于特征选择的多示例学习算法研究[J];科技通报;2013年08期

3 杨打生,郭延芬;一种特征选择的信息论算法[J];内蒙古大学学报(自然科学版);2005年03期

4 张永;曹东侠;;一种高效的特征选择机制应用于入侵检测[J];甘肃科学学报;2011年03期

5 杨锦英;王碧泉;;K—W检验和熵法在单个特征选择中的应用[J];华北地震科学;1989年02期

6 刘代志,李夕海,张斌;基于序优化方法的特征选择研究[J];核电子学与探测技术;2004年06期

7 刘开第,薛俊锋,庞彦军;特征选择及其常用算法[J];河北建筑科技学院学报;2004年04期

8 喻军;孟晓玲;;一种基于层次分析的特征选择法[J];中国科技信息;2006年10期

9 南重汉;邹凌云;;基于分组重量编码和特征选择技术预测外膜蛋白[J];第三军医大学学报;2013年13期

10 苗玉杰;;差分进化在图像特征选择中的应用研究[J];科技通报;2013年08期

相关会议论文 前10条

1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

3 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

4 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

5 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

6 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

7 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

8 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

9 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

10 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年

2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年

3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年

7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年

8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年

9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年

10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年

相关博士学位论文 前10条

1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年

2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年

3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年

4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年

5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年

6 杨峻山;生物组学数据的集成特征选择研究[D];深圳大学;2017年

7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年

8 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年

9 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年

10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年

相关硕士学位论文 前10条

1 单光宇;基于TCGA和PubMed数据库的高维生物医学数据的数据挖掘和特征选择研究[D];中国人民解放军军事医学科学院;2017年

2 周瑞;基于支持向量机特征选择的移动通信网络问题分析[D];华南理工大学;2015年

3 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年

4 陈云风;基于聚类集成技术的高铁信号故障诊断研究[D];西南交通大学;2015年

5 张斌斌;网络股评的倾向性分析[D];中央民族大学;2015年

6 季金胜;高分辨率遥感影像典型地物目标的特征选择及其稳定性研究[D];上海交通大学;2015年

7 袁玉录;基于数据分类的网络通信行为建模方法研究[D];电子科技大学;2015年

8 王虎;基于试验设计的白酒谱图特征选择及支持向量机参数优化研究[D];南京财经大学;2015年

9 王维智;基于特征提取和特征选择的级联深度学习模型研究[D];哈尔滨工业大学;2015年

10 皮阳;基于声音的生物种群识别[D];电子科技大学;2015年



本文编号:2252235

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/2252235.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1fb85***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com