国家健康和营养检查调查 (NHANES)。是一项旨在评估美国**和儿童的健康和营养状况的研究计划。 这项调查的独特之处在于它结合了:采访跟体检。美国疾病控制与预防中心(CDC)负责向全国提供健康统计数据。
Nhanes访谈包括:人口社会经济饮食和健康相关问题检查部分包括:医疗牙科跟生理测量,以及由训练有素的医务人员进行的实验室测试。
近年来,在公共数据库中发表的论文数量逐年增加,NHANES数据库的数据质量较高,每年发表的论文数量甚至更高新型复合指标等等!
今天的复制文章为您带来了一篇关于NHANES数据库中合成指标的文章的复制品,包括所有这些指标** 它还随处理后的数据一起提供
1.复制品介绍
我们今天要介绍的复制文章发表在“.nutrition metabolism and cardiovascular diseasesif=3.9题为:“association of life’s essential 8 with all-cause and cardiovascular mortality among us adults: a prospective cohort study from thenhanes 2005-2014 ”研究**。
题目:美国成人生命与健康八要素与全因心血管死亡率之间的关系:NHANES 2005-2014 的前瞻性队列研究。
生命健康的八大要素
生命的八行(生命's essential 8),这是近年来NHANES数据库文章中使用最频繁的综合指标之一,包括:节食体力活动吸烟(尼古丁暴露)。睡个好觉bmi血脂血糖跟血压。这些指标中的每一个都有一种新的评分算法(0-100 分),可以在最后生成新的综合心血管健康评分(0-100 分)。
总分分别<50分、50-79分、80分,表明心血管健康穷中等跟更好
文章数据介绍
NHANES数据库研究涉及的变量如下表所示,本次复制中使用的变量也与文章中相同始终如一
医学**与统计分析"答"241 复制品"获取全部**和数据。
2. R语言再现
此复制品中包含的统计方法是:
基线差异分析绘制公里曲线COX回归多模型控制混杂趋势分析 p 趋势绘制非受限三次样条曲线 (RCS)。
数据导入和预处理
首先,我们导入了从NHANES数据库中提取的处理数据,转载的数据包括19,481名研究对象(原文n=23,110),样本量略有不同,因此请多注意统计方法的使用。
基线差异分析
使用此复制基线**tableone 软件包这里“myvars”汇总基线表所有变量,其中一些是分类变量,需要传递“catvars”具体说明,否则,分类数据也将作为定量数据呈现。
这里 tab2 和 tab3 显示了两种统计描述方式,tab2 没有指定分组变量,则只显示每个变量的数据分布,tab3 使用“strata=” 指定分组变量,在显示数据分布的基础上,增加了:分组数据之间的差异比较
另外“showAllLevels = true” 表示显示类别变量的所有类别因子的结果“nonnormal =”指定的定量数据将用作:偏态分布对于分析,如果所有定量数据都有偏斜,则可以简洁地使用“nonnormal = true”来代表。
最后,基线表结果输出保存在工作区,这里我们将另存为CSV 格式
CSV格式的结果显示如下:
绘制公里曲线
这是绘制公里曲线的地方生存套餐跟SurvMiner 软件包,如果需要单独完成LogRank 测试,survdiff 函数直接执行!
输出读取最后一行的 p<2e-16,规范书写应为 p<0001。
在这里使用SurtvFit 函数构建模型,ggsurvplot 函数负责图形的绘制和美化,有很多参数可以调整,这里旁边有标记的**,可以根据需要进行调整。
显示绘图结果
COX 返回
这里使用生存包进行回归模型建模,autoreg 包可以美化输出结果,生成更直观简洁的三行**样式,还可以自定义回归方法,其中"uni=true"指单变量结果的输出'threshold"可以定义过滤器变量进入多元回归的 p 阈值
最后,利用rrtable 软件包结果输出到 Word,结果的 Word 版本也保存在工作区中间。
以模型 3 为例,显示 R 输出结果:
趋势分析 p 趋势
有两种方法可以计算 P 趋势:
秩或定量自变量直接纳入回归分析,各组的中位数作为特殊值作为趋势分析的节点值。
这里更多推荐方法下面分别演示了以下两种方法:
方法一:秩或定量自变量直接纳入回归分析
这里as.numeric(cvh1)即将原来的分类变量CVH1转换成数值变量,直接纳入回归模型,其余**与普通COX回归一致。
结果:
与该方法相比,在回归分析之前多了一个步骤,即对每组数据的中位数进行选择和变换,以重复数据为例,CVH1变量有3类在组内使用中值变换成为特殊的三方数据。
由于使用了数据转换竖线字符 %>%。,所以需要加载DPLYR 软件包转换完成后,将按相同的方法执行回归分析,只是使用转换后的 CVH3 而不是原始的 CVH1。
以模型 3 为例,显示 R 输出结果:
与方法相比,计算结果也略有不同,但正负方向大体一致。
绘制 RCS 曲线
这里还有两种绘制 R 包的方法,即 plotrcs 包或 RMS 和 ggplot 包的组合。
plotrcs 软件包绘制RCS图像相对容易,参数设置也很容易理解,但其他细节有点让人不知所措。
生成的图像显示:
1.计算P值与HR值的非线性关系
2. 绘制 RCS 图像
ggplot2 包在绘制图像时更加灵活,例如通过添加辅助线"geom_hline"指导轨的纵轴位置"linetype=2"将线型定义为实心,以同样的方式,"geom_vline"指导轨的水平轴位置这里"xintercept"要查找 HR=1 对应的变量值,需要查询上一步计算的 HR 表。
生成的图像显示:
3. 风暴统计平台再现
风暴统计平台是一款基于r**的统计分析平台,具有快速、准确、简单的操作带您,并已实现多种统计分析方法的菜单式操作,这里通过文章的转载为大家全面展示。 (搜索“Storm Statistics”平台)。
基线差异分析
进入 Storm Stats 平台后,单击“风暴智能统计”。“混杂偏差的回归控制""控制混杂偏差的多模型方法",该模块可一站式解决基线差异分析COX 回归多模型构建
按照以下提示逐一操作,右侧会出现三线基线差异,操作起来非常方便
p 值计算与 R 结果一致,并且显示的统计数据比 R 中显示的统计数据多!
COX 返回
所谓多种模型控制混杂偏差,即通过构建 model1、model2、model3 等逐渐调整不同的混杂因素,并观察核心暴露的p值的变化。
目前,风暴统计平台最多可构建4个多因子模型"多种模型控制混杂偏差"模块中,选择回归模型,依次选择回归变量,右侧给出 model1 的结果分析。
后面model2和model3的构造,根据下面界面的提示依次选择,直接在右侧生成最终的多模型三行表,省去了自己绘制表格和填写数据的步骤结果HR值、95%CI值和P值与R语言一致
绘制公里曲线
需要风暴统计数据来绘制 km 曲线“风暴智能统计”。生存分析生存分析全套这里输入,导入数据后,在"生存曲线与生存时间"模块,依次选择变量,右侧生成km曲线。
这些步骤可以对图形进行微调,最后直接,**因显示问题导致的风险表字体挤压现象将在**的**中恢复正常!
趋势分析 p 趋势
趋势分析p趋势的计算需要提前完成数据的转换,如组内的中位数转换,然后利用平台进行回归分析CVH1 被量化为核心包含在分析中,可以获得 p 值,即 p 趋势。
绘制 RCS 曲线
要绘制 RCS 曲线,您需要输入不同的模块并单击它“风暴智能统计”。小白画出精美统计图表一键绘制RCS曲线
重新导入数据后,根据以下提示依次选择变量,即可获得RCS镜像!p 值结果与 R 中的结果完全相同这个模块适合所有人R 语言可用**完成分析后,还可以复制 R 语言进行验证,这也是受支持的**硬盘**
本文以上为完文转载,若对本次转载**或资料感兴趣,欢迎参看医学**与统计分析后台回复241 复制品获取全套r**和实用数据