用《R数据科学》学习一套数据处理语法_编程语言

这套语法就叫 tidyverse,先用一套小抄 Cheat Sheet 来镇贴。

抛开社区讲语言都是耍流氓,比如说 Python 可以克隆 ggplot2 包,语法几乎一样,用起来不会有太大的差别,但克隆不了 ggplot2 的整个社区以及由社区所衍生出来的各种扩展包,比如我写的 ggtree,所以你在 Python 里用 ggplot2 还是会觉得少了点什么,差了那么点意思。

而做生信的我们是避免不了 R 的,因为有 Bioconductor 社区,在基因组学,特别是单细胞数据分析上,已经是独步江湖了。

要学 R,有基于 S 语言的上古资料(可怜我当年就看了不过这样的资料),有各种统计的史前资料(也被这种资料虐得死去活来),当然也有面向数据科学项目的现代资料,而这个分水岭离不开一个大神 Hadley Wickham。

《R语言数据科学》就是 Hadley 大神的作品,正如中文版的《R数据科学》的副标题写的:

  • 摒弃其他 R 语言工具书从头到尾讲统计的陋习
  • 从实用的 R 包出发,带你重新认识 R 和数据科学

这本书介绍了 tidyverse 语法,也就是一套解决各种数据科学难题的动词,全书分为五个部分:

  • 探索
  • 处理数据
  • 编程
  • 模型
  • 沟通

让你通过搭积木的方法对数据进行探索、处理、分析和呈现等。这是一本为现代人写的数据科学入门书,入手快,不需要太多时间去学习,为像你一样的懒人量身定制。

插播个话外音,在书中第9页说到:

ggplot2 只能同时使用六种形状,默认情况下,当使用这种图形属性时,多出的变量值将不会出现图中。

这个问题已经被我们团队解决,请移步《ggsymbol让点图样式更加丰富的R包

用《R数据科学》学习一套数据处理语法_html_02

R语言社区领军人物著作

本书的目标是教会读者使用最重要的数据科学工具,从而为实施数据科学奠定坚实的基础。读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。

每一章都按照这样的顺序组织内容:先给出一些引人入胜的示例,以便你可以整体了解这一章的内容,然后再深入细节。本书的每一节都配有习题,以帮助你实践所学到的知识。

用《R数据科学》学习一套数据处理语法_python_03