spark支持数据源

原创

mob64ca12eb3858 2024-07-28 09:54:54 ©著作权

文章标签 spark 数据源 HDFS 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12eb3858的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark支持的数据源及使用示例

Apache Spark是一个开源的分布式计算系统，它提供了一个快速、通用、可扩展的大数据处理平台。Spark支持多种数据源，包括HDFS、S3、HBase、Cassandra等。本文将介绍Spark支持的数据源，并给出一些使用示例。

Spark支持的数据源

Spark支持的数据源可以分为以下几类：

文件系统数据源：包括HDFS、S3、本地文件系统等。
数据库数据源：包括Hive、JDBC等。
NoSQL数据源：包括HBase、Cassandra、MongoDB等。
消息队列数据源：包括Kafka、RabbitMQ等。

下面是一个简单的关系图，展示了Spark支持的数据源之间的关系：

erDiagram
    SPARK ||--o{ FILE_SYSTEM : supports
    SPARK ||--o{ DATABASE : supports
    SPARK ||--o{ NOSQL : supports
    SPARK ||--o{ MESSAGE_QUEUE : supports

    FILE_SYSTEM {
        int id
        string name
    }

    DATABASE {
        int id
        string name
    }

    NOSQL {
        int id
        string name
    }

    MESSAGE_QUEUE {
        int id
        string name
    }

使用示例

1. 读取HDFS文件

假设我们有一个存储在HDFS上的文本文件，我们可以使用Spark读取这个文件：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Read HDFS File") \
    .getOrCreate()

df = spark.read.text("hdfs://localhost:9000/user/hadoop/file.txt")
df.show()

2. 读取Hive表

如果我们有一个存储在Hive中的表，我们可以使用Spark SQL查询这个表：

df = spark.sql("SELECT * FROM hive_table")
df.show()

3. 读取HBase表

假设我们有一个存储在HBase中的表，我们可以使用Spark的HBase连接器来读取这个表：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Read HBase Table") \
    .config("spark.jars", "path/to/hbase-connector-spark.jar") \
    .getOrCreate()

df = spark.read.format("org.apache.hadoop.hbase.spark") \
    .option("hbase.columns.mapping", "columnFamily:qualifier") \
    .load("hbaseTableName")
df.show()

4. 读取Kafka消息

如果我们有一个Kafka消息队列，我们可以使用Spark Streaming读取Kafka中的消息：

from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sparkConf = SparkConf()
sparkConf.setAppName("Read Kafka Messages")

ssc = StreamingContext(sparkConf, 2)
kafkaStream = KafkaUtils.createStream(ssc, "localhost:9092", "spark-streaming", {"topic1": 1})

lines = kafkaStream.map(lambda x: x[1])
lines.pprint()

ssc.start()
ssc.awaitTermination()