spark读取文件的两种方式

(1)从本机读取

scala> var lines=sc.textFile("file:///opt/datas/teacher.txt")
lines: org.apache.spark.rdd.RDD[String] = file:////opt/datas/teacher.txt MapPartitionsRDD[13] at textFile at <console>:24

spark读取文件的两种方式_大数据

遍历

scala> lines.foreach(println)
01 张三
02 李四
03 王五

(2)从HDFS读取
先在hadoop中上传文件

[root@nodefour hadoop]# hadoop fs -put /opt/datas/customers.csv  /data/spa
21/01/05 10:40:38 WARN util.NativeCodeLoader: Unable to load native-hadooplatform... using builtin-java classes where applicable

在spark中读取文件

scala> var lines=sc.textFile("hdfs:///data/spark/customers.csv")