9.1    Spark与Tachyon兼容性


如何你计划在Tachyon上运行Spark,请参考下面Spark和Tachyon之间版本兼容性列表。


Spark Version    Tachyon Version


1.0.x and Below    v0.4.1


1.1.x    v0.5.0


1.2.x    v0.5.0


1.3.x    v0.5.0


1.4.x    v0.6.4


1.5.x and Above    v0.7.1




这里考虑Tachyon0.5.0版本对spark的版本支持较多,这里选用spark-1.3.1版本做演示。


9.2    在Tachyon上输入/输出数据


(1)编辑 spark/conf/spark-env.sh


export SPARK_CLASSPATH=/usr/local/tachyon-0.5.0/client/target/tachyon-client-0.5.0-jar-with-dependencies.jar:$SPARK_CLASSPATH



(2)创建spark/conf/core-site.xml


注意: 如果在 hadoop 1.x 集群运行,需要配置如下参数


<configuration>


  <property>


    <name>fs.tachyon.impl</name>


    <value>tachyon.hadoop.TFS</value>


  </property>


</configuration>



(3)Put a file X into HDFS and run the Spark shell:



val s = sc.textFile("tachyon://192.168.2.20:19998/X")


s.count()



通过该方法可以知道spark可以访问tachyon。其中:X实际上在HDFS存储,但是通过tachyon可以访问HDFS上的数据。