R语言gather函数中的冒号

转载

mob64ca13ffd0f1 2024-09-13 19:41:44

文章标签 R语言gather函数中的冒号 c语言gather用法数据读取数据加载 文章分类 R语言后端开发

1.Tidy data原则

当我们进行数据整理时，同样的数据，可以整理成不同的形式，在下面的例子中，我们可以把GeneId作为行，样品名称作为列，也可以颠倒过来，以样品名称为行，基因编号作为列：

R语言gather函数中的冒号_R语言gather函数中的冒号

当我们用R处理数据时，应该遵循Tidy data的原则：每一列：代表一个变量(vairable)

每一行：代表一次观测(observation)

在我们上面的例子中，基因的ID，样品名称以及基因的表达量都是变量，而每一个基因在每一个样品中的表达量可以成为一次观测。因此，按照Tidy data的原则，应该将上述图表中的数据整理成如下格式：

R语言gather函数中的冒号_数据_02

我们在正式对生物信息学数据进行统计分析之前，应该先把我们的数据格式转换为Tidy data格式，因为R语言中的大多数包都只支持Tidy data格式的数据。

2.使用Tidyr转换数据格式

(1)Tidyr的安装

在使用Tidy之前，首先要下载安装软件包：

1)修改下载源

依次点击Tools—Global Options—Packages—Change，选择一个国内的CRAN镜像：

R语言gather函数中的冒号_c语言gather用法_03

2)下载安装Tidyr

点击Tools—Install Packages，输入要安装的软件包tidyr，点击install即可自动安装：

R语言gather函数中的冒号_R语言gather函数中的冒号_04

或者，我们也可以使用命令行进行软件的安装：# 使用install.package()命令安装软件

> install.packages("tidyr")

(2) 数据的转换-1

1)转换策略

R语言gather函数中的冒号_加载_05

我们的目的是要把左边的数据转换成右边的格式，要实现转换结果，在Geneid一定的情况下，我们可以把每一个样品和其对应的基因表达量看做一个键-值对(key-value pair)。比如：在GeneID为gene1时，sample1对应的表达量是3，sample2对应的表达量是4。因此，我们在转换数据时，只需按照上述规则，并指定要转换的列即可。使用tidyr包中的gather函数即可实现转换。

2)加载包

在使用Tidyr包之前，我们需要先加载包：# 加载tidyr包

> library(tidyr)

3)使用gather命令将数据转换为Tidy格式1.读取数据：> gene_exp

> gene_exp

GeneId Sample1 Sample2 Sample3

1 gene1 1 2.0 0.32 gene2 4 5.0 6.03 gene3 7 0.8 9.04 gene4 10 11.0 12.0

原始数据是这样的：

R语言gather函数中的冒号_c语言gather用法_06