聚腺苷二磷酸核糖聚合酶-1抑制剂的构效关系研究
发布时间:2021-06-13 18:55
聚腺苷二磷酸核糖聚合酶-1[poly(ADP-ribose)polymerase,PARP-1]是PARP家族中承担功能最多且研究最多的亚型,被认为是癌症治疗的潜在靶点。PARP-1参与真核细胞中DNA修复和细胞死亡的调节,它是乳腺癌、卵巢癌和前列腺癌等疾病研究的重要靶点。本论文以PARP-1的抑制剂为研究对象,利用多种机器学习算法对PARP-1抑制剂进行高低活性分类研究、分子骨架聚类研究以及生物活性的定量构效关系研究。本研究的具体工作内容如下:(1)采用支持向量机(SVM)和随机森林(RF)算法构建了 PARP-1抑制剂的高低活性分类模型。本文首次建立了包含2416个PARP-1抑制剂的数据库,IC50值在0.21 nM到210000 nM左右。以50~500 nM为阈值来划分高低活性:即活性值小于或等于50 nM的化合物为高活性化合物,大于或等于500nM的为低活性化合物,在二者之间的化合物舍去,得到了包含1637个高低活性化合物的数据集。通过随机分层抽样的方式将1637个化合物划分为训练集和测试集,训练集的1227个化合物用于建立模型,而测试集中的410个化合物用于验证所建模型的...
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【部分图文】:
图1-1?PARP-1的生物结构示意图??.-uarmanrcture-
为不同的小类,目的是发现高活性PARP-1抑制剂的分子骨架。??2.1建立PARP-1抑制剂数据库??2.1.1数据收集??通过检索ChEMBlJ3'Reaxy、SciFinder[38]等数据库来下载相关文献,收集了?2675??个PARP-1抑制剂[4,28,29,32_34,37_134卩经过数据的清洗、去重,最终得到包含2416个化??合物的PARP-1抑制剂数据库,它们的生物活性IC5〇(半数抑制浓度)值在0.21?nM到??210000nM范围内,化合物的生物活性值分布如图2-1所示。由于数据来源于多篇文??献,所以测定IC5〇值的实验方法不尽相同,即使同一种实验方法,不同实验室测得的??数据也会有偏差,故在数据清洗时将针对一个化合物使用同一种实验方法测得的活性??值相差2个数量级的化合物删除。??4.0%?Fj? ̄??>,3.0%?n??s?1?州?r?n?n?n??12.0%?n?J?'?_mr?-j-r??l?r?-T?n ̄i??Um?-?-j-,??1.0%?[run-?_T?_?r??〇?〇%?Lr-—ni.?111111...U?I?I?1J...IJ?1,1?]J,lLjJi.,lmlJJJ,l,j-[川丨[1,1?IHI?klli?__—??10?10?10?10?10?10?10??Activity?Value?(ICs〇/nM)??图2-1所有化合物IC5〇值频率分布直方图??Fig.?2-1?The?frequency?distribution?histogram?of?IC50?values?of?all?compounds??11?
分高低活性,即活性值小于或等于50?nM的化合物为高活性化合物,标??记为‘1’;大于或等于500?nM的为低活性化合物,标记为‘0’,IC5〇在二者之间的??化合物不用于建模,此时的数据集由1637个化合物组成。??为了观察两个阈值划分的情况,计算了化合物的166个MACCS描述符[1351作为??输入特征向量,通过SONNIA程序的Kohonen自组织映射[136]?(Self-Organizing?Map,??SOM)将高维空间中的点映射到二维平面,并在降维之后进行无监督聚类,如图2-2??所示,绿色方格代表落在此坐标格中的化合物都是低活性,红色的代表化合物都是高??活性,黑色的代表此坐标格中高低活性化合物都有,白色区域表示没有化合物。从图??中可以看出,在两种阈值下高低活性化合物分布都没有出现特别集中的情况,且冲突??的格子较多,这应该是数据本身的原因。由于单个阈值没有办法确定阈值左右化合物??的高低活性,所以后续选择了以50?nM和500?nM为阈值来完成高低活性分类实验。??I?嗔—v?—Ji—?_??i?m-r::::: ̄■—i?/?"\r,??None?weaklyactive?highlyactive?confilict?None?weaklyactive?highlyactive?confilict??图2-2利用自组织神经网络算法聚类图:红色和绿色分别表示高活性和低活性,黑色表示既??有高活性又有低活性化合物(左)包含2178个化合物,阈值为lOOnM?;(右)包含1637??个化合物,阈值为50和500?nM??Fig.?2-2?Cluster?graph?with?self-organ
【参考文献】:
期刊论文
[1]自适应确定DBSCAN算法参数的算法研究[J]. 李文杰,闫世强,蒋莹,张松芝,王成良. 计算机工程与应用. 2019(05)
博士论文
[1]PARP抑制剂抗肿瘤机制和耐药机制研究[D]. 陈华东.中国科学院大学(中国科学院上海药物研究所) 2019
硕士论文
[1]非胰腺分泌型磷脂酶A2抑制剂的构效关系研究[D]. 张声德.北京化工大学 2019
本文编号:3228127
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:89 页
【学位级别】:硕士
【部分图文】:
图1-1?PARP-1的生物结构示意图??.-uarmanrcture-
为不同的小类,目的是发现高活性PARP-1抑制剂的分子骨架。??2.1建立PARP-1抑制剂数据库??2.1.1数据收集??通过检索ChEMBlJ3'Reaxy、SciFinder[38]等数据库来下载相关文献,收集了?2675??个PARP-1抑制剂[4,28,29,32_34,37_134卩经过数据的清洗、去重,最终得到包含2416个化??合物的PARP-1抑制剂数据库,它们的生物活性IC5〇(半数抑制浓度)值在0.21?nM到??210000nM范围内,化合物的生物活性值分布如图2-1所示。由于数据来源于多篇文??献,所以测定IC5〇值的实验方法不尽相同,即使同一种实验方法,不同实验室测得的??数据也会有偏差,故在数据清洗时将针对一个化合物使用同一种实验方法测得的活性??值相差2个数量级的化合物删除。??4.0%?Fj? ̄??>,3.0%?n??s?1?州?r?n?n?n??12.0%?n?J?'?_mr?-j-r??l?r?-T?n ̄i??Um?-?-j-,??1.0%?[run-?_T?_?r??〇?〇%?Lr-—ni.?111111...U?I?I?1J...IJ?1,1?]J,lLjJi.,lmlJJJ,l,j-[川丨[1,1?IHI?klli?__—??10?10?10?10?10?10?10??Activity?Value?(ICs〇/nM)??图2-1所有化合物IC5〇值频率分布直方图??Fig.?2-1?The?frequency?distribution?histogram?of?IC50?values?of?all?compounds??11?
分高低活性,即活性值小于或等于50?nM的化合物为高活性化合物,标??记为‘1’;大于或等于500?nM的为低活性化合物,标记为‘0’,IC5〇在二者之间的??化合物不用于建模,此时的数据集由1637个化合物组成。??为了观察两个阈值划分的情况,计算了化合物的166个MACCS描述符[1351作为??输入特征向量,通过SONNIA程序的Kohonen自组织映射[136]?(Self-Organizing?Map,??SOM)将高维空间中的点映射到二维平面,并在降维之后进行无监督聚类,如图2-2??所示,绿色方格代表落在此坐标格中的化合物都是低活性,红色的代表化合物都是高??活性,黑色的代表此坐标格中高低活性化合物都有,白色区域表示没有化合物。从图??中可以看出,在两种阈值下高低活性化合物分布都没有出现特别集中的情况,且冲突??的格子较多,这应该是数据本身的原因。由于单个阈值没有办法确定阈值左右化合物??的高低活性,所以后续选择了以50?nM和500?nM为阈值来完成高低活性分类实验。??I?嗔—v?—Ji—?_??i?m-r::::: ̄■—i?/?"\r,??None?weaklyactive?highlyactive?confilict?None?weaklyactive?highlyactive?confilict??图2-2利用自组织神经网络算法聚类图:红色和绿色分别表示高活性和低活性,黑色表示既??有高活性又有低活性化合物(左)包含2178个化合物,阈值为lOOnM?;(右)包含1637??个化合物,阈值为50和500?nM??Fig.?2-2?Cluster?graph?with?self-organ
【参考文献】:
期刊论文
[1]自适应确定DBSCAN算法参数的算法研究[J]. 李文杰,闫世强,蒋莹,张松芝,王成良. 计算机工程与应用. 2019(05)
博士论文
[1]PARP抑制剂抗肿瘤机制和耐药机制研究[D]. 陈华东.中国科学院大学(中国科学院上海药物研究所) 2019
硕士论文
[1]非胰腺分泌型磷脂酶A2抑制剂的构效关系研究[D]. 张声德.北京化工大学 2019
本文编号:3228127
本文链接:https://www.wllwen.com/projectlw/hxgylw/3228127.html
最近更新
教材专著