1. spark 是什么?

>Apache Spark 是一个类似hadoop的开源高速集群运算环境  与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI ,R API接口.而且提tools:Spark SQL for SQL 处理结构化数据, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.


Apache Spark流处理 spark流数据处理框架_spark

2. spark streaming 

Spark Streaming: 构建在Spark上处理Stream数据的框架,主要的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是由于Spark的低延迟运行引擎(100ms+),尽管比不上专门的流式数据处理软件。也能够用于实时计算,还有一方面相比基于Record的其他处理框架(如Storm)。一部分窄依赖的RDD数据集能够从源数据又一次计算达到容错处理目的。



Apache Spark流处理 spark流数据处理框架_Apache Spark流处理_02

3. build spark: 

    1) 安装 scala 

          scala 语言非常简洁,属于函数式语言。其简洁度令人惊讶(代码量仅仅有java的十分之中的一个)值得学习。

         http://www.scala-lang.org/download/

          下载,解压 :tar -zxvf filename  loaction

          改动环境变量:vim /etc/profile  在PATH后增加scala解压后文件位置。

$/opt/scala/scala-2.11.7

           >  export SPARK_HOME=$opt/spark/spark-1.4.1
           >  export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

                        

           update( very important or you may failed to change the path)  > source /etc/profile

          检測:  scala -version

2)安装 spark streaming

 spark-1.4.1-bin-hadoop2.6.tgz   (一定不要选source code 须要自己编译)

http://spark.apache.org/downloads.html

          解压: tar -zxvf filemname location  (文件名称太长善用 tab键)

3)几个命令 


启动Spark



在Spark执行之前,首先须要让Spark集群启动,假设须要用到hadoop的HDFS的话,也须要把HDFS启动起来。


>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin (注意依据自己的安装文件夹定) 
   
        ./stop-master.sh 
   
     以及   ./start-master.sh 
   
 >cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin;  
   
  

         ./stop-slave.sh;  
  
 
  

         ./start-slave.sh spark://XXXXX 
  
 
  

    >bin/spark-shell.sh   启动spark shell


 在SPARK_HOME/sbin文件夹:

  • sbin/start-master.sh-在机器上运行脚本。启动 master .
  • sbin/start-slaves.sh- 启动conf/slaves中指定的每个slave .
  • sbin/start-all.sh- 同一时候启动master 以及 上面所说文件里指定的slave
  • sbin/stop-master.sh- 停止通过bin/start-master.sh脚本启动的master
  • sbin/stop-slaves.sh- 停止通过bin/start-slaves.sh启动的slave .
  • sbin/stop-all.sh- 停止上述的两种启动脚本启动的master和slave



    想在想在spark上跑自己的代码,须要我们打包成jar ,使用 spark-streaming的命令。可是须要用到sbt的tool,我们下一节再介绍。



參考:1. http://spark.apache.org/docs/latest/index.html


1. spark 是什么?

>Apache Spark 是一个类似hadoop的开源高速集群运算环境  与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI ,R API接口.而且提tools:Spark SQL for SQL 处理结构化数据, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.


Apache Spark流处理 spark流数据处理框架_spark

2. spark streaming 

Spark Streaming: 构建在Spark上处理Stream数据的框架,主要的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是由于Spark的低延迟运行引擎(100ms+),尽管比不上专门的流式数据处理软件。也能够用于实时计算,还有一方面相比基于Record的其他处理框架(如Storm)。一部分窄依赖的RDD数据集能够从源数据又一次计算达到容错处理目的。



Apache Spark流处理 spark流数据处理框架_Apache Spark流处理_02

3. build spark: 

    1) 安装 scala 

          scala 语言非常简洁,属于函数式语言。其简洁度令人惊讶(代码量仅仅有java的十分之中的一个)值得学习。

         http://www.scala-lang.org/download/

          下载,解压 :tar -zxvf filename  loaction

          改动环境变量:vim /etc/profile  在PATH后增加scala解压后文件位置。

$/opt/scala/scala-2.11.7

           >  export SPARK_HOME=$opt/spark/spark-1.4.1
           >  export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

                        

           update( very important or you may failed to change the path)  > source /etc/profile

          检測:  scala -version

2)安装 spark streaming

 spark-1.4.1-bin-hadoop2.6.tgz   (一定不要选source code 须要自己编译)

http://spark.apache.org/downloads.html

          解压: tar -zxvf filemname location  (文件名称太长善用 tab键)

3)几个命令 


启动Spark



在Spark执行之前,首先须要让Spark集群启动,假设须要用到hadoop的HDFS的话,也须要把HDFS启动起来。


>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin (注意依据自己的安装文件夹定) 
   
        ./stop-master.sh 
   
     以及   ./start-master.sh 
   
 >cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin;  
   
  

         ./stop-slave.sh;  
  
 
  

         ./start-slave.sh spark://XXXXX 
  
 
  

    >bin/spark-shell.sh   启动spark shell


 在SPARK_HOME/sbin文件夹:

  • sbin/start-master.sh-在机器上运行脚本。启动 master .
  • sbin/start-slaves.sh- 启动conf/slaves中指定的每个slave .
  • sbin/start-all.sh- 同一时候启动master 以及 上面所说文件里指定的slave
  • sbin/stop-master.sh- 停止通过bin/start-master.sh脚本启动的master
  • sbin/stop-slaves.sh- 停止通过bin/start-slaves.sh启动的slave .
  • sbin/stop-all.sh- 停止上述的两种启动脚本启动的master和slave


    想在想在spark上跑自己的代码,须要我们打包成jar ,使用 spark-streaming的命令。可是须要用到sbt的tool,我们下一节再介绍。


參考:1. http://spark.apache.org/docs/latest/index.html