作者:强哥。

前情提要

为什么要学Spark,没有别的,强哥就是觉得这框架牛逼而且热门,现在学大数据,不学Spark你就等于孙悟空飞到如来佛祖的手上没刻“到此一游”并拉上一炮尿一样少了点味道。

迈出第一步

首先,要学Spark,你如果连它是个什么都不懂这个说不过去吧。这里你就需要先了解两点:

  • 它是做大数据计算的
  • 它是用Scala开发的

为什么要了解这两点呢?第一点自然不用多说了。为什么要懂第二点,因为要学Spark,你得先去学学Scala的基本语法吧,不然别人是Scala写的,你Scala不会,到时候让你看源码你咋办。

学Scala也不算难,花一早上,随便找个菜鸟教程学习一下就行了。然后就继续回来和我一起学Spark。

当然了,学Scala的时候,本地安下试试。怎么安?别到处百度,下载这个包那个包的,直接去官网看:

https://docs.scala-lang.org/getting-started/index.html

Mac的话直接一条命令搞定(不是Mac的话就按官网的说明来,我就不多介绍了,多看看官网没坏处):

$ brew install coursier/formulas/coursier && cs setup

coursier会判断我们机子的环境是否安了Java、Scala,没有的话就会帮我们安上(对了,中间可能需要访问到GitHub下东西,最近GitHub被墙的厉害,可能要科学sw,花几块钱吧,别特么导出找免费的浪费时间了。不懂可以公众号后台私聊我)。

按完后,终端打开,输入命令

scala

看看是不是成功安上了,如果找不到这个命令,恭喜你,环境变量没配上,怎么办?输入下面命令

cs install scala3

这里正常来说之前的第一条命令其实已经安上Scala了,这里这么输入,只是为了它给我们提示要怎么配环境变量。输入命令后,结果如下:

https://repo1.maven.org/maven2/io/get-coursier/apps/maven-metadata.xml
  No new update since 2022-03-31 00:39:24
https://repo1.maven.org/maven2/org/scala-lang/scala3-compiler_3/maven-metadata.…
  No new update since 2022-04-13 01:10:41
Wrote scala3
Warning: /Users/xxx/Library/Application Support/Coursier/bin is not in your PATH
To fix that, add the following line to ~/.zshrc

看的懂英文的话,直接根据Warning的提示,把环境变量配置到~/.zshrc下面就可以了。不要忘了让环境变量生效:

source .zshrc

这样,再输入scala就正常了:

spark基础知识 spark零基础_spark基础知识

安完然后就可以滚去学Scala语法了,不需要太深入,基本的语法能看出和Java大概有什么区别就行。

所以今天也就这样了。