在spark-sql中进行数据分析之后,对数据进行导出,会被导出到hdfs

首先进入spark本地模式

/export/server/spark/bin/spark-shell

数据存储到dataframe

val df = spark.sql("SELECT * FROM table_name WHERE condition")

df.write.format("csv").option("header", "true").save("path_to_file")

其中,format("csv")表示输出文件格式为csv,option("header", "true")表示在输出文件中包含表头,save("path_to_file")指定输出文件的路径。但是该方法数据不在一个文件中。

下面这个会将数据存到一个文件中

val df = spark.sql("SELECT * FROM my_database.my_table WHERE ...")
df.coalesce(1).write.csv("/path/to/output/csv")