从零开始学R(一)——R语言简介
大数据时代来临,各行各业都更青睐数据思维,但是很多小伙伴在面对各式各样的数据分析软件时非常烦恼,不知如何下手。作为一个攀爬在数据高山的秃头少年,我非常理解初学者在探索数据分析过程中的痛苦。因此,我想在这里以介绍的形式帮大家循序渐进,从零开始学R。
R是什么
R是一款开源的、免费的、专注于数据分析的软件。它通过代码来控制相应的程序,通过对内嵌的数据集(data set)或者外源的数据进行合理的整理与统计分析,为数据分析师提供便捷。
R语言是由S语言发展而来,而S语言又是基于C语言而创立,因此R语言与C/C++以及时下非常流行的Python都有较好的兼容性。无论是Windows系统,Mac系统还是Linux系统都可以顺利运行。可以通过以下的网址来下载相应的R软件:R download。截止目前,R已经发展到4.0版本,功能非常强大。想要下载的小伙伴可以通过以上网址的CRAN button来选择一个镜像进行下载。
R与RStudio
刚刚下载下来的R软件会以一个交互界面的形式展现给大家,图标如下:
点开以后,大家就可以进行操作。但是仅如此对于想要更进一步学习R的小伙伴来说是不够的。R的界面是一个交互界面,就是说你在这里面输入的每一行代码都会即时运行,如果你想保存你的代码(代码文件后缀为".R"),那这个就非常麻烦,这时候你就需要一个集成开发环境(IDE),也就是RStudio。
RStudio是R的集成开发环境,可以为数据分析师带来非常多的方便,包括便捷输入代码,保存文本,自动纠错等。RStudio的下载链接如下:RStudio download。点开这个网址以后即可下载。对于初学者或者学生党来说,里面的免费版本基本是够用的。
在R和RStudio下载好以后,一般来说二者会自动进行连接,不需要我们手动为二者搭桥。我们可以直接打开RStudio进行代码操作与数据分析。
为什么学习R
原本还想仔细聊一下这个话题,突然想到,既然都已经来看这个经验贴,就说明小伙伴已经有学习R的打算了,但是为了防止一些小伙伴畏难,我还是简要说一下为什么学习R。
R是现在较为火热的编程语言,R语言的使用频率在近些年飞速增长,而且相比于传统的商业统计分析软件(例如SPSS和Stata),R的免费和开源吸引了很多数据分析师,正版商业软件的优势在于能够得到非常稳定的统计结果,而统计模型也是经过较长时间检验的(但是非正版的就不好保证了,为了保护知识产权,如果希望使用这些软件的小伙伴还是建议使用正版哦,支持正版!)。但是也正因为如此,这些商业软件在稳定性和发展性的平衡木上倒向了前者。
R的很多统计工具(tools)包含在程序包里(package,有些汉化版翻译为程辑包),只要简单的下载某些包,就能够利用相应的模型进行分析。同时数据分析师也可以自己编写程序包。这种分享的模型推动了R的飞速发展。
总而言之,作为一款优秀的数据分析软件,R有自己的独特优势,尽管很多R的程序包被引入了另一款火热的编程语言Python中(比如经典的ggplot2包,现在在Python里也是可以使用的),R依然焕发出它强大的生命力。
结语
小编第一次进行知识输出,希望得到世界的善良对待:),如果有编写不到位的地方,小伙伴们可以积极指出,希望与大家交朋友。之后小编会陆续推出"从零开始学R”系列,希望大家多多支持呀!