spark读取文件的两种方式
原创
©著作权归作者所有:来自51CTO博客作者wx59658a994b151的原创作品,请联系作者获取转载授权,否则将追究法律责任
spark读取文件的两种方式
(1)从本机读取
scala> var lines=sc.textFile("file:///opt/datas/teacher.txt")
lines: org.apache.spark.rdd.RDD[String] = file:////opt/datas/teacher.txt MapPartitionsRDD[13] at textFile at <console>:24
遍历
scala> lines.foreach(println)
01 张三
02 李四
03 王五
(2)从HDFS读取
先在hadoop中上传文件
[root@nodefour hadoop]# hadoop fs -put /opt/datas/customers.csv /data/spa
21/01/05 10:40:38 WARN util.NativeCodeLoader: Unable to load native-hadooplatform... using builtin-java classes where applicable
在spark中读取文件
scala> var lines=sc.textFile("hdfs:///data/spark/customers.csv")