高维DNA甲基化数据的随机森林降维分析
本文关键词:高维DNA甲基化数据的随机森林降维分析
【摘要】:目的将随机森林算法用于类风湿性关节炎病例对照研究的高维甲基化数据的分析,并探讨应用效果。方法实例数据来自基因表达数据库(gene expression omnibus,GEO),检索号为GSE42861,包含354名病例、335名对照,本文选取类风湿性关节炎相关基因区域所在的第9号染色体,共纳入2 433个胞嘧啶-磷酸-鸟嘌呤双核苷酸(cytosine-phosphate-guanine pairs of nucleotides,CpGs)位点。利用随机森林计算变量的重要性评分并排序;对排序后的变量进行逐步随机森林过程,寻找最有可能与结果存在关联的变量子集;对降维后的变量子集进行逐步Logistic回归。结果逐步随机森林筛选出80个重要的CpG位点,Logistic回归模型中有13个位点具有统计学意义。纳入这些位点建立Logistic回归模型,该模型的预测正确率达88.29%。结论随机森林算法可以大大减少噪音变量,提高检验效能,适用于高维甲基化数据分析。
【作者单位】: 南京医科大学公共卫生学院生物统计学系;
【关键词】: 关节炎 类风湿 DNA甲基化 流行病学方法
【基金】:国家自然基金(81530088,81473070,81373102,61301251,81402764) 江苏省高校优势学科建设专项(2014年) 江苏省高等学校自然科学项目(12KJB310003) 江苏省青蓝工程资助项目(2014年)
【分类号】:R593.22
【正文快照】:
【参考文献】
中国期刊全文数据库 前1条
1 朱晶晶;赵杨;陆凤;胡志斌;陈峰;;高维肺癌病例-对照研究资料的随机森林降维分析[J];中华预防医学杂志;2012年09期
【共引文献】
中国期刊全文数据库 前1条
1 张秋伊;赵杨;魏永越;张汝阳;陈峰;;高维DNA甲基化数据的随机森林降维分析[J];中华疾病控制杂志;2016年06期
【相似文献】
中国期刊全文数据库 前10条
1 钱维;王超;吴骋;许金芳;叶小飞;杜文民;贺佳;;运用随机森林分析药品不良反应发生的影响因素[J];中国卫生统计;2013年02期
2 武晓岩;李康;;随机森林方法在基因表达数据分析中的应用及研究进展[J];中国卫生统计;2009年04期
3 李贞子;张涛;武晓岩;李康;;随机森林回归分析及在代谢调控关系研究中的应用[J];中国卫生统计;2012年02期
4 刘永春;宋弘;;基于随机森林的乳腺肿瘤诊断研究[J];电视技术;2014年15期
5 聂斌;王卓;杜建强;朱明峰;林剑鸣;艾国平;熊玲珠;;基于粗糙集和随机森林算法辅助糖尿病并发症分类研究[J];江西师范大学学报(自然科学版);2014年03期
6 武晓岩;李康;;基因表达数据判别分析的随机森林方法[J];中国卫生统计;2006年06期
7 武晓岩;闫晓光;李康;;基因表达数据的随机森林逐步判别分析方法[J];中国卫生统计;2007年02期
8 马广立;赵筱萍;程翼宇;;基于随机森林与Chemistry Development Kit描述符的P-gp底物识别[J];高等学校化学学报;2007年10期
9 苑婕;李晓杰;陈超;宋向岗;王淑美;;基于随机森林算法的川芎成分-靶点-疾病网络的预测研究[J];中国中药杂志;2014年12期
10 ;[J];;年期
中国重要会议论文全文数据库 前7条
1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
中国博士学位论文全文数据库 前4条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年
2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年
3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年
5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年
6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年
7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年
8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年
9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年
10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年
,本文编号:532656
本文链接:https://www.wllwen.com/yixuelunwen/nfm/532656.html