9.1 Spark与Tachyon兼容性
如何你计划在Tachyon上运行Spark,请参考下面Spark和Tachyon之间版本兼容性列表。
Spark Version Tachyon Version
1.0.x and Below v0.4.1
1.1.x v0.5.0
1.2.x v0.5.0
1.3.x v0.5.0
1.4.x v0.6.4
1.5.x and Above v0.7.1
这里考虑Tachyon0.5.0版本对spark的版本支持较多,这里选用spark-1.3.1版本做演示。
9.2 在Tachyon上输入/输出数据
(1)编辑 spark/conf/spark-env.sh
export SPARK_CLASSPATH=/usr/local/tachyon-0.5.0/client/target/tachyon-client-0.5.0-jar-with-dependencies.jar:$SPARK_CLASSPATH
(2)创建spark/conf/core-site.xml
注意: 如果在 hadoop 1.x 集群运行,需要配置如下参数
<configuration>
<property>
<name>fs.tachyon.impl</name>
<value>tachyon.hadoop.TFS</value>
</property>
</configuration>
(3)Put a file X into HDFS and run the Spark shell:
val s = sc.textFile("tachyon://192.168.2.20:19998/X")
s.count()
通过该方法可以知道spark可以访问tachyon。其中:X实际上在HDFS存储,但是通过tachyon可以访问HDFS上的数据。