ensembl数据库怎么找5UTR

转载

mob64ca13fa6a3c 2024-10-01 11:08:35

文章标签 ensembl数据库怎么找5UTR 1024程序员节数据序列号数据库 文章分类 机器学习人工智能

美国国家健康与营养调查（ NHANES, National Health and Nutrition Examination Survey）是一项基于人群的横断面调查，旨在收集有关美国家庭人口健康和营养的信息。

地址为：https://wwwn.cdc.gov/nchs/nhanes/Default.aspx

ensembl数据库怎么找5UTR_数据库

数据库有5个信息栏：DEMO：人口统计学DIET: 饮食EXAM: 检查 LAB: 实验室指标Q: 问卷调查

ensembl数据库怎么找5UTR_序列号_02

我以论文Zhang RH, Zhou JB, Cai YH, Shu LP, Simó R, Lecube A. Non-linear association between diabetes mellitus and pulmonary function: a population-based study. Respir Res. 2020 Nov 4;21(1):292.为参照（糖尿病与肺功能之间的非线性关联：一项基于人群的研究）为参照，

ensembl数据库怎么找5UTR_数据库_03

对数据进行下载，作者取的是2007-2012年的数据，我这里取的是2007-2008的数据。下载nhanes数据库有两种方法，1是直接从页面下载，2是通过R包nhanesA下载。页面下载为：

点击：Questionnaires, Datasets, and Related Documentation，再点击2007-2018

ensembl数据库怎么找5UTR_ensembl数据库怎么找5UTR_04

然后从右边选择需要的数据

ensembl数据库怎么找5UTR_数据库_05

根据文章Non-linear association between diabetes mellitus and pulmonary function: a population-based study. Respir Res. 2020 Nov 4;21(1):292.的基线资料表列出的数据

ensembl数据库怎么找5UTR_序列号_06

需要找到年龄、性别、种族、体重指数、血糖、FVC等相关指标，这是一个花时间的过程，需要慢慢找，先把人口统计数据下载下来看看，使用haven包的函数把数据打开

ensembl数据库怎么找5UTR_序列号_07

library(haven)
library(nhanesA)
library(tidyverse)
mydata <- read_xpt("e:/nhanes/DEMO_E.XPT")

ensembl数据库怎么找5UTR_数据_08

使用R包下载也是一样的，要记住数据的标识

ensembl数据库怎么找5UTR_序列号_09

mydata1<- nhanes(‘DEMO_E’)

ensembl数据库怎么找5UTR_ensembl数据库怎么找5UTR_10

ensembl数据库怎么找5UTR_序列号_11

对照变量说明提取需要的变量

ensembl数据库怎么找5UTR_序列号_12

我做演示，随便抽取一些

dat1 <- mydata %>% select(SEQN, # 序列号
                         RIAGENDR, # 性别
                         RIDAGEYR, # 年龄
                         RIDRETH3, # 种族
                         DMDMARTL, # 婚姻状况
                         WTINT2YR,WTMEC2YR, # 权重
                         SDMVPSU, # psu
                         SDMVSTRA) # strata

ensembl数据库怎么找5UTR_1024程序员节_13

还需要关键的血糖和肺功能的指标，血糖应该在化验室指标那里，这次我们使用nhanesA包来下载

先查看血糖文档编号：GLU_E

ensembl数据库怎么找5UTR_序列号_14

xuetang <- nhanes('GLU_E')

数据小的话还是很快的

ensembl数据库怎么找5UTR_1024程序员节_15

对数据进行提取，序列号都要提取，等下对数据进行合并用的

xuetang1 <- xuetang  %>% select(SEQN, # 序列号
                                LBDGLUSI, #血糖mmol表示
                                LBDINSI, #胰岛素( pmmol/L)
                                PHAFSTHR #餐后血糖
                                )

同理依次取糖化血红蛋白、肺功能数据

tanghuadb <- nhanes('GHB_E')
tanghuadb1<- tanghuadb %>% select(SEQN, # 序列号
                                  LBXGH #糖化血红蛋白
feihuoliang <- nhanes('SPXRAW_E ')
feihuoliang1<- feihuoliang %>% select(SEQN, # 序列号
                                      SPXNFEV1, #FEV1：第一秒用力呼气量
                                      SPXNFVC  #FVC：用力肺活量，ml（估计肺容量）
                                  )

处理好数据以后把数据合并就好了

hdata<-join_all(list(dat1, xuetang1,tanghuadb1,feihuoliang1), by = 'SEQN', type = 'full')

ensembl数据库怎么找5UTR_序列号_16

我们把它保存起来，今后的操作将在这个数据展开

write.csv(hdata,file = "1.csv",row.names = F)

ensembl数据库怎么找5UTR_序列号_17

参考文献：

nhanes数据库使用手册

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：gdb持续监控变量

下一篇：代码复用Java

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

ensembl数据库怎么找5UTR

ensembl数据库怎么找5UTR

51CTO博客