现实中,数据通常存储在文件中。R 提供了许多函数以便从文件中读取一个表格或将
一个数据框写入文件。如果一个文件储存了一个表格,通常它都会被很好地组织起来,即
按照一定规则将行和列有序地排列。大多数情况下,我们不必逐个字节地读取文件,而是
调用 read.table( )或 read.csv( )等函数。
CSV(逗号分隔值,Comma-Separated Vlues)是目前最受欢迎的软件通用数据格式。CSV
通常是这样组织数据的:不同列之间的值用逗号分隔开,首行默认作为表头。例如,在CSV 格
式中是这样存储 persons 的:
Name,Gender,Age,Major
Ken,Male,24,Finance
Ashley,Female,25,Statistics
Jennifer,Female,23,Computer Science
将数据读入 R 环境中,我们只需要调用 read.csv(file),这里的 file 是文件所
在的路径。为了保证数据文件能被 R 找到,最好直接将数据文件夹放入默认工作目录中,
调用 getwd( )找到该目录。我们会在下一章更详细地讨论它。
read.csv("data/persons.csv")
## Name Gender Age Major
## 1 Ken Male 24 Finance
## 2 Ashley Female 25 Statistics
## 3 Jennifer Female 23 Computer Science
如果需要将数据框保存成一个CSV 文件,可以调用write.csv(file)并调整其他参数:
write.csv(persons, "data/persons.csv", row.names = FALSE, quote = FALSE)
参数 row.names = FALSE 避免存储不必要的行名,参数 quote = FALSE 避免对
输出中的文本加引号,这两种做法在大多数情况下都是非必要的。
R 中还有很多内置函数和扩展包可以用来读写不同格式的数据,我们将在之后的章节
中继续讨论这个内容。