R语言使用subset()函数从dataframe数据中取出满足条件的数据子集

目录

R语言使用subset()函数从dataframe数据中取出满足条件的数据子集

R 语言特点

R语言使用subset()函数从dataframe数据中取出满足条件的数据子集


R可以在CRAN(Comprehensive R Archive Network,http://cran.r-project.org)上免费下载。

R 语言特点

  • R 语言环境软件属于 GNU 开源软件,兼容性好、使用免费
  • 语法十分有利于复杂的数学运算
  • 数据类型丰富,包括向量、矩阵、因子、数据集等常用数据结构
  • 代码风格好,可读性强

虽然 R 主要用于统计分析或者开发统计相关的软件,但也有人用作矩阵计算。其分析速度可媲美专用于矩阵计算的自由软件 GNU Octave 和商业软件 MATLAB。

R是一种编程语言,也是统计计算和绘图的环境,它汇集了许多函数,能够提供强大的功能。
R语言软件界面简陋,通常不直接使用,而是用图形界面的Rstudio。

RStudio是免费提供的开源集成开发环境(IDE)。RStudio提供了一个具有很多功能的环境,使R更容易使用,是在终端中使用R的绝佳选择。

RStudio是一款R语言的IDE,R自带的环境操作起来可能不是方便,而Rstudio很好地解决了这个问题,而且它还具有调试、可视化等功能,支持纯R脚本、Rmarkdown (脚本文档混排)、Bookdown (脚本文档混排成书)、Shiny (交互式网络应用)等。

  • 包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。计算机上存储包的目录称为库(library)。函数.libPaths()能够显示库所在的位置, 函数library()则可以显示库中有哪些包。
  • R自带了一系列默认包(包括base、datasets、utils、grDevices、graphics、stats以及methods),它们提供了种类繁多的默认函数和数据集。其他包可通过下载来进行安装。安装好以后,它们必须被载入到会话中才能使用。命令search()可以告诉你哪些包已加载并可使用。
  • 目前有几千个称为包(package)的用户贡献模块可从http://cran.r-project.org/web/packages下载。

R语言使用subset()函数从dataframe数据中取出满足条件的数据子集

# 去除向量中的重复数据
x <- c(1,2,NA,2,5,NA,4,3,4,9)
print(unique(x))


# subset()从数据框中取出满足条件的子集
# 对于历史行情数据、历史交易记录可以很方便的取出其中感兴趣的数据
data(airquality)
head(airquality)
newset <- subset(airquality,Temp > 80 & Month == 5,select = c(Ozone:Day))
head(newset)


}