期刊简介

               本刊以发表各类传染病和非传染性慢性病防治研究成果为主要内容,是中国科技论文统计源期刊和中华预防医学会系列杂志优秀期刊。                

首页>中华疾病控制杂志
  • 杂志名称:中华疾病控制杂志
  • 主管单位:国家卫生和计划生育委员会
  • 主办单位:中华预防医学会 安徽医科大学
  • 国际刊号:1674-3679
  • 国内刊号:34-1304/R
  • 出版周期:月刊
期刊荣誉:中国科技论文统计源期刊期刊收录:上海图书馆馆藏, 万方收录(中), 北大核心期刊(中国人文社会科学核心期刊), 国家图书馆馆藏, 维普收录(中), 知网收录(中), CA 化学文摘(美), 统计源核心期刊(中国科技论文核心期刊), CSCD 中国科学引文数据库来源期刊(含扩展版)
中华疾病控制杂志2016年第06期

高维DNA甲基化数据的随机森林降维分析

张秋伊;赵杨;魏永越;张汝阳;陈峰

关键词:关节炎, 类风湿, DNA甲基化, 流行病学方法
摘要:目的 将随机森林算法用于类风湿性关节炎病例对照研究的高维甲基化数据的分析,并探讨应用效果.方法 实例数据来自基因表达数据库(gene expression omnibus,GEO),检索号为GSE42861,包含354名病例、335名对照,本文选取类风湿性关节炎相关基因区域所在的第9号染色体,共纳入2 433个胞嘧啶-磷酸-鸟嘌呤双核苷酸(cytosine-phosphate-guanine pairs of nucleotides,CpGs)位点.利用随机森林计算变量的重要性评分并排序;对排序后的变量进行逐步随机森林过程,寻找有可能与结果存在关联的变量子集;对降维后的变量子集进行逐步Logistic回归.结果 逐步随机森林筛选出80个重要的CpG位点,Logistic回归模型中有13个位点具有统计学意义.纳入这些位点建立Logistic回归模型,该模型的预测正确率达88.29%.结论 随机森林算法可以大大减少噪音变量,提高检验效能,适用于高维甲基化数据分析.