基于失衡数据挖掘的药物靶点预测方法研究
本文选题:药物靶点 + 数据挖掘 ; 参考:《哈尔滨理工大学》2017年硕士论文
【摘要】:药物靶点的发现和定位是新药研究成功的关键。进入后基因组时代,伴随着化学基因组以及药理学技术的飞速发展涌现出了数量庞大的潜在靶点和海量的生物活性数据。然而在药物靶点的研究中,到目前为止,被临床验证的药物靶点的数量还很少,迄今为止只有约500个药物靶点。究其原因,有一部分原因是因为随着冗余数据的积累,仅凭着简单的分析方法已经不能满足高通量大规模数据分析的需求,而传统的方法由于通量,准确度和费用的限制,实验手段的应用难以广泛开展。而作为一类快速、低成本的方法,应对大量的数据,基于数据挖掘技术的药物靶点预测方法正受到越来越多的重视。基于这个背景,本文探讨了基于失衡数据挖掘的药物靶点预测,以加快药物靶点发现过程,节约成本。从众多蛋白质中预测药物靶点是一个典型的数据失衡问题,在用分类器进行预测时准确率会出现不同程度下降,因此本文在数据层面上首先采用基于遗传算法改进的少数类样本合成过采样技术SMOTE(synthetic minority oversampling technique)算法先对数据进行预处理,增加少数类样本个数,平衡药物靶点和非药物靶点的数量比。在此基础上从算法层面使用引入集成学习的SVM分类器进行药物靶点的预测,相比单一的SVM分类器,该方法提高了预测模型的泛化性能。为了论证所提出方法的有效性,本文首先构建两组数据集,一个数据集由所有的人类蛋白质数据构成,另一个数据集由在药物靶点中占比较高的人类G蛋白偶联受体数据构成。对数据集中每一个蛋白质提取其相对应的一级结构、多肽特征及蛋白质的基本理化性质特征,作为训练分类器的特征空间并进行特征选择来降低分类器的学习负担。之后对数据进行预处理,并通过对模型参数的调整构建最优分类器。在实验构建与分析部分分别用SVM分类器和Adaboost-SVM分类器对数据集进行分类,并分析比较了两种分类器在数据预处理前后应用在两组数据集上的实验结果,两组分类结果相互验证,增加分类结果的可信度。实验的结果验证了本文提出的方法的有效性,同时表明本文所提出的方法可以有效对药物靶点进行预测,为药物研发工作者提供前期参考依据。
[Abstract]:The discovery and location of drug targets is the key to the success of new drug research. In the post-genome era, with the rapid development of chemical genome and pharmacological technology, a large number of potential targets and massive bioactivity data have emerged. However, in the research of drug targets, the number of drug targets verified by clinic is very few, so far, there are only about 500 drug targets. Part of the reason is that with the accumulation of redundant data, simple analytical methods can no longer meet the needs of high-throughput large-scale data analysis, while traditional methods are limited by flux, accuracy, and cost. The application of experimental means is difficult to carry out widely. As a kind of fast and low cost method, drug target prediction method based on data mining technology has been paid more and more attention to in response to a large amount of data. Based on this background, this paper discusses the drug target prediction based on unbalanced data mining in order to speed up the process of drug target discovery and save the cost. Predicting drug targets from a large number of proteins is a typical data imbalance, and the accuracy of prediction with classifiers tends to decline to varying degrees. Therefore, in this paper, firstly, the SMOTE(synthetic minority oversampling technique based on genetic algorithm (GA) is used to preprocess the data to increase the number of samples. Balance the number of drug and non-drug targets. On this basis, an integrated learning SVM classifier is used to predict drug targets from the algorithm level. Compared with a single SVM classifier, this method improves the generalization performance of the prediction model. To demonstrate the effectiveness of the proposed method, two sets of data sets are constructed, one is composed of all human protein data and the other is human G protein-coupled receptor data which account for a high proportion of drug targets. The primary structure, polypeptide features and basic physicochemical properties of proteins are extracted from each protein in the dataset, which can be used as the feature space of the training classifier and the feature selection to reduce the learning burden of the classifier. Then the data is preprocessed and the optimal classifier is constructed by adjusting the model parameters. In the part of experimental construction and analysis, SVM classifier and Adaboost-SVM classifier are used to classify the data sets, and the experimental results of the two classifiers before and after data preprocessing are analyzed and compared. Increase the reliability of the classification results. The experimental results verify the effectiveness of the proposed method, and show that the proposed method can effectively predict drug targets, and provide a preliminary reference for drug R & D workers.
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R91;TP311.13
【相似文献】
相关期刊论文 前10条
1 魏霞;;扫描新的分子结构及药物靶点[J];国外医学.药学分册;2005年06期
2 潘雄;;科学家锁定癌症治疗新型药物靶点[J];功能材料信息;2008年Z1期
3 张音;王松俊;刁天喜;楼铁柱;;药物靶点的发展前景及需要解决的关键问题[J];中国新药杂志;2009年19期
4 崔大明;;药物靶点筛选的研究[J];中国卫生产业;2013年14期
5 姚志剑,张志佒;肥胖相关基因与减肥药物靶点[J];中国慢性病预防与控制;2004年03期
6 王娟;李学军;;基于细胞信号动态网络的药物靶点发现[J];药学学报;2010年01期
7 黄锋;杜冠华;;新的药物靶点肝X受体[J];食品与药品;2009年05期
8 杜俊蓉;类异戊二烯通路与药物靶点[J];华西药学杂志;1999年04期
9 ;新药物靶点有望帮助改进放射疗效[J];中国医药生物技术;2010年05期
10 杨红芹;李学军;;化学蛋白质组学与药物靶点的发现[J];药学学报;2011年08期
相关会议论文 前7条
1 王学健;;一场关于药物靶点的纷争[A];新观点新学说学术沙龙文集23:新药发现——寻找维护人类健康的武器[C];2008年
2 杜冠华;;药物靶点的发现和确证研究[A];中国科协第二十三届新观点新学说学术沙龙论文集[C];2008年
3 杜冠华;;药物靶点研究现状[A];新观点新学说学术沙龙文集23:新药发现——寻找维护人类健康的武器[C];2008年
4 周文霞;;组合药物靶点研究[A];新观点新学说学术沙龙文集23:新药发现——寻找维护人类健康的武器[C];2008年
5 杜冠华;;抗AD药物靶点和药物发现研究进展[A];2009全国抗衰老与老年痴呆学术会议论文汇编[C];2009年
6 陈一岳;;药物靶点与新药开发——看制药工业药理的发展未来[A];中国药理学会第九届制药工业药理学术会议论文摘要汇编[C];2000年
7 刘扬中;;蛋白质内含子—结核杆菌的新药物靶点及其抑制作用[A];中华医学会结核病学分会2010年学术年会论文汇编[C];2010年
相关重要报纸文章 前10条
1 本报记者 闫松;药物靶点研究和新药研发亟待创新[N];大众科技报;2008年
2 木易;有多少药物靶点值得期待?[N];中国医药报;2007年
3 本报记者 洪天语;一个靶点成就一个产业[N];医药经济报;2006年
4 毛宇;美合成出普适性埃博拉药物靶点[N];科技日报;2014年
5 曹颖新;专家研讨药学发展前沿问题[N];学习时报;2008年
6 刘伯宁;基因组学研究推进新药研发[N];中国医药报;2011年
7 中科院上海生命科学院神经所 李帅;镇痛之痛[N];文汇报;2011年
8 本报记者 白毅;医园药苑竞争春(上)[N];中国医药报;2011年
9 马艳红;探索AD分子机制 全面开展“靶点”研究[N];中国医药报;2003年
10 本报记者 陈铮;新药研发困境催生新的研发特性[N];中国医药报;2011年
相关硕士学位论文 前6条
1 周进;人类激酶组蛋白质药物靶点的识别与系统图谱分析[D];重庆大学;2016年
2 蔡立葛;基于失衡数据挖掘的药物靶点预测方法研究[D];哈尔滨理工大学;2017年
3 赵丽;筛选必要基因预测的训练集及细菌致病菌药物靶点的识别[D];西北农林科技大学;2015年
4 韩绪军;HCV核酸检测方法建立及药物靶点变异分析[D];昆明理工大学;2009年
5 王春丽;利用SVM挖掘GPCR中潜在的药物靶点[D];重庆医科大学;2013年
6 陈廷威;基于公共数据库的药物靶点相互作用网络研究[D];山东大学;2012年
,本文编号:1820649
本文链接:https://www.wllwen.com/yixuelunwen/yiyaoxuelunwen/1820649.html