beeline 登录spark spark beeline用法

转载

mob64ca1400bfa8 2024-08-14 16:16:09

文章标签 beeline 登录spark 数据 spark Hive 文章分类 Spark 大数据

Spark SQL 还可以作为分布式SQL查询引擎通过JDBC或ODBC或者命令行的方式对数据库进行分布式查询。
Spark SQL 中还有一个自带的 Thrift JDBC/ODBC服务，
可以用Spark根目录下的sbin文件夹中的start-thriftserver.sh脚本启动这个服务。
$SPARK_HOME/sbin/start-thriftserver.sh
Spark中还自带了一个Beeline的命令行客户端，用户可以通过这个客户端连接启动的ThriftJDBC/ODBC，然后提交SQL。

$SPARK_HOME/bin/beeline -u jdbc:hive2://localhost:10000

Spark使用Hadoop的HDFS和YARN库，需要我们配置 Spark_Dist_ClasasPath(大写)这个变量。
vim spark-env.sh
export export SPARK_DIST_CLASSPATH=$(/opt/bigdata/hadoop/hadoop-2.8.5/bin/hadoop classpath)
或
export SPARK_DIST_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)

以上配置Spark就可以把数据存储到Hadoop的HDFS中，也可以从HDFS中读取数据。（读写HDFS）
如果没有此配置，Spark只能读写本地文件系统的数据，无法读写HDFS数据。

export JAVA_HOME=/usr/local/java/jdk1.8
export SCALA_HOME=/usr/local/scala/scala-2.12.6export HADOOP_HOME=/opt/bigdata/hadoop/hadoop-2.8.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport HIVE_HOME=/opt/bigdata/hive/hive-2.3.4
export HIVE_CONF_DIR=$HIVE_HOME/conf#export SPARK_HOME=/opt/bigdata/spark/spark-2.3.3
#export SPARK_CONF_DIR=$SPARK_HOME/conf
export SPARK_CONF_DIR=/opt/bigdata/spark/spark-2.3.3/confexport SPARK_DIST_CLASSPATH=$(/opt/bigdata/hadoop/hadoop-2.8.5/bin/hadoop classpath)

RDD 即弹性分布式数据集(Resilient Distributed Datasets)
RDD是Spark的核心，通过熟悉RDD编程可以看出分布式数据集在Spark多个节点分阶段(stage)并行计算的实质，
即每个节点按照Spark任务执行计划的调度有序地在每个节点分别计算结果，
最后一步步按照调度器的调度将结果合并，将结果返回到Spark客户端。

默认情况下，Spark的RDD会在你每次对它们进行Action操作是重新计算。
如果想在多个行动操作中重用同一个RDD，可以使用RDD缓存cache()让Spark把这个RDD缓存下来。
Spark把数据以多种形式持久化到许多地方(memory内存、磁盘disk)

在第一次持久化的RDD计算之后(假如缓存到内存MEMORY_ONLY)，
Spark会把RDD的数据保存到内存中(以分区方式存储到集群中的各节点上)，
这样在之后的行动操作中就可以重用这些数据了。

RDD默认是不进行持久化的。
在实际情况中，通常大部分的数据只使用一次。
我们可以用Spark遍历数据一遍，计算得出我们想要的结果，
所以，我们没有必要浪费存储空间来将这些数据持久化。
Spark在计算过后就默认释放掉这些使用过的数据，这种方式可以避免内存的浪费。
如果这些数据再进行一个行动操作(第2次)会重新遍历一遍原来的数据。

默认情况下，被重用的中间结果RDD可能会在每次对其进行Action操作时重新计算。
但是，可以使用cache()方法在内存中保留被重用的中间结果RDD，
这这种情况下，Spark将在集群内存上保留该RDD，以便在下次查询时进行更快的访问。
还支持在磁盘上持久化存储RDD。

RDD Lineage(又称 RDD谱系图、RDD依赖关系图)
它记录经由转换操作产生的RDD之间的依赖关系。
通过转化操作，你从已有的RDD中派生出新的RDD，
Spark会使用RDD Lineage来记录这些不同RDD之间的依赖关系。
Spark需要用这些信息来按需计算每个RDD，
也可以依靠谱系图在持久化的RDD丢失部分数据时，恢复所丢失的数据。

惰性求值
RDD的转化操作都是惰性求值的。
这意味着在被调用行动操作之前，Spark不会开始计算。
Spark会在RDD Lineage中记录所有经转化生成的RDD之前的依赖关系。
因此转化操作并不会引发真正的计算，仅仅是记录如何得到目标RDD的过程。
当RDD调用行动操作时，Spark根据RDD Lineage了解整个目标RDD计算转化链，
仅进行满足目标RDD行动操作的必要计算，从而避免没有意义的存储、计算资源的浪费，
成功地做到了按需从磁盘读取RDD相关分区数据到内存，
按需进行最小限度的必要计算，提高了Spark计算、内存资源的使用率。

把数据读取到RDD的操作也同样是惰性的。
因此，当我们调用sc.textFile()时，数据并没有读取进来，而是在必要时才会读取，
而读取时也会按照最小限度进行必要内容行读取，
如：task(10)行动操作触发Spark读取文件内容操作时，仅会读取文件前10行，而不会读取整个文件，
从而避免浪费巨大的内存资源损耗。
Spark使用惰性求值，这样就可以把一些操作合并到一起来减少计算数据的步骤。

在RDD的设计中，实现了基于RDD数据存储位置的计算本地化，减少各个节点网络间传输数据的开销。
RDD实际上是由多个分区组成的，
而一个并行计算任务对应着某个节点的一个RDD分区，
当Spark进行任务调度时，会按照"移动数据不如移动计算"的理念，
根据记录着RDD每个分区优先存储位置的列表，尽可能地将计算任务分配到其所需处理的数据块的位置，
从而实现计算本地化，避免各个节点传输数据块带来的资源浪费和计算任务拖延问题。

为了避免多次计算同一个RDD，应对数据进行持久化。
当我们让Spark持久化存储一个RDD时，
计算出RDD的节点会分别保存它们所求出的分区数据。
如果一个有持久化数据的节点发生故障，Spark刚好需要用到缓存的数据时，
如果希望节点故障的情况不会拖累我们的执行速度，也可以把数据备份到多个节点上。
可以通过在存储级别末尾加上"_2"(MEMORY_ONLY_2)来把持久化数据存为2份，以增强容错性，防止节点故障。

RDD checkpoint 容错机制
对RDD进行checkpoint操作，会将RDD直接存储到磁盘上，而不是内存，从而实现真正的数据持久化。

checkpoint实际上对RDD Lineage(依赖关系图谱)的辅助和重新切割修正。
当RDD依赖关系过于冗长和复杂时，即依赖关系已达数十代，
多个不同的分析任务同时依赖该RDD Lineage多个中间RDD时，
并且内存难以同时满足缓存多个相关中间RDD时，
可以考虑根据多个不同分析任务依赖的中间RDD的不同，
使用checkpoint将该RDD Lineage切分成多个子RDD Lineage，
这样每一个子RDD Lineage都会从各个checkpoint开始算起，
从而实现了相互独立，大大减少了由于过于冗长的 RDD Lineage造成的高昂容错成本以及内存资源不足问题。

sc.setcheckpoint("hdfs://centos02:9000/checkpointDir") //会在指定目录创建一个文件夹
rdd.checkpoint //对指定RDD设置checkpoint(rdd尚未存储到checkpoint目录,遇到Action操作才真正开始计算该RDD并存储到checkpoint目录中)

checkpoint()函数将会创建一个二进制的文件，并存储到checkpoint目录中，
在checkpoint的过程中，该RDD的所有依赖于父RDD中的信息将全部移出。
对RDD进行checkpoint操作并不会马上被执行，必须执行Action操作才能触发。

checkpoint和cache一样，是转化操作，
当遇到行动操作时，checkpoint会启动另一个任务，将数据切割拆分，保存到设置的checkpoint目录中。

1、
当使用了checkpoint后，数据被保存到HDFS，此RDD的依赖关系也会丢掉，
因为数据已经持久化到磁盘，不需要重新计算，所以会丢弃掉。
2、
强烈推荐先将数据持久化到内存中(.cache()操作)，否则直接使用checkpoint会开启一个计算，浪费资源。
因为checkpoint会触发一个Job，
如果执行checkpoint的RDD是由其它RDD经过许多计算转换过来的，
如果你没有持久化这个RDD，那么又要从头开始计算该RDD，也就是做了重复的计算工作了，
所以，建议先缓存RDD然后再checkpoint
3、
对涉及大量迭代计算的重要阶段性结果设置检查点。
checkpoint会丢弃该RDD以前的依赖关系，使该RDD成为顶层父RDD，
这样在失败的时候恢复只需要恢复该RDD，而不需要重新计算该RDD了，这在迭代计算中是很有用的。
假设：
你在迭代1000次的计算中，在第999次失败了，然后你没有checkpoint，你只能重新开始恢复了，
如果恰好你在第998次迭代的时候做了一个checkpoint，那么你只需要恢复第998次产生的RDD，
然后再执行第2次迭代，完成总共1000的迭代，这样效率就很高，比较适用于迭代计算非常复杂的情况。
也就是说在恢复计算代价非常高的情况下，适当进行checkpoint会有很大的好处。

Hive metastore Parquet表转换
当向Hive metastore 中读写Parquet表时，
Spark SQL将使用Spark SQL自带的Parquet SerDe(目的是用于序列化和反序列化)，
而不是Hive的SerDe，
Spark SQL自带的SerDe拥有更好的性能。
这个优化的配置参数为：spark.sql.hive.convertMetastoreParquet，默认为：开启。

元数据刷新
Spark SQL缓存了Parquet元数据以达到良好的性能。
当Hive metastore Parquet表转换为enabled时，表修改后缓存的元数据并不能刷新。
所以，当表被Hive或其他工具修改时，则必须手动刷新元数据，以保证元数据的一致性。
代码：
sparkSession.catalog.refreshTable("table_name")

在Spark上激活Hive
为了让Spark SQL 能够连接到已部署好的Hive数据仓库，
我们需要将
hive-site.xml (Hive 配置文件)
core-site.xml (Hadoop配置文件)
hdfs-site.xml (HDFS 配置文件)
这几个配置文件放到$SPARK_HOME/conf 目录下，
这样就可以通过这些配置文件找到Hive元数据库以及数据的实际存放位置了。

没有在Spark集群中部署Hive数据仓库的用户仍然可以启用Hive支持。
当hive-site.xml未配置时，
首先上下文会自动在当前目录下创建 metastore_db（Hive元数据库），
并创建由 spark.sql.warehouse.dir 来指定Hive数据仓库中数据库的默认位置.

当在Spark SQL模块下使用Hive表时，首先需要在实例化SparkSession对象时，显式指定Hive支持。
SparkSession.builder
.enableHiveSupport()
.getOrCreate();

Spark负责任务调度的是：DAGscheduler、TaskScheduler。
DAGscheduler 负责stage层面的划分和高层调度
TaskScheduler 负责同一stage内多个相同Task向Executor的分发，taskTracker负责Task的跟踪执行以及失败Task的重新执行。

Spark应用程序作为独立的进程集运行在集群上，通过主程序的SparkContext对象来协调，
SparkContext在一个驱动程序中只能有一个实例。
其实在SparkContext初始化的过程中，其内部实例化了DAGscheduler、TaskScheduler...等必要的对象，负责任务的划分、调度。

窄依赖：就是父RDD的数据只被一个子RDD使用（一对一）
宽依赖：就是父RDD的数据被多个子RDD使用 (一对多)
宽依赖，通常意味着shuffle操作，这也是stage边界的划分点。

为什么要有窄依赖和宽依赖之分呢？
因为在计算过程中假如发生了数据丢失的情况，
Spark就会通过这些依赖关系重新计算出数据丢失的那一部分。

注意数据类型的使用
能用Byte类型，不需要为了方便定义成Int类型，
一个Byte类型是8字节，Int类型是32字节。
也就是说，一旦数据进行缓存，内存的消耗将会翻倍。

写出高质量的SQL
在使用SQL查询的时候，一条高质量的SQL语句将会节省大量的查询时间，以及节省宝贵的计算资源和内存资源。

Spark调优
1、使用缓存
2、对配置属性进行调优
3、合理使用广播
4、谨慎使用带shuffle操作的方法
5、尽量在一次调用中处理一个分区的数据
6、对数据序列化

一、使用缓存
数据在内存中的计算是非常快的
我们可以把需要进行多次操作的表缓存到内存中，避免对磁盘进行多次的IO操作。
除了我们手动进行缓存之外，Spark在执行shuffle操作的时候也会自动将一些中间数据缓存，比如：reduceByKey。

二、对配置属性进行调优

spark.conf.set("key","value")
spark.sql.shuffle.partitions(200)
spark.sql.inMemoryColumnStorage.compressed(true)
spark.sql.inMemoryColumnStorage.batchSzie(1000)spark.sql.autoBroadcastJoinThreshold(10485760) 10MB

大表join小表，用户可以根据需要广播的小表调整参数的大小。
当使用连接操作的时候，会自动将小小于阈值大小的表广播给所有worder节点。
利用好这个属性可以降低数据传输的网络开销。当这个属性被设为-1时，关闭广播。

三、合理使用广播
对于比较大的变量，我们可以将它广播到每一个节点中，以节省网络通信的开销。
在不广播的情况下，每个task有一个数据的副本，
在广播之后每个Executor保留一份数据的副本。
因为广播之后减少了数据副本的数量，所以在减少网络传输开销的同时也相应地节省了一些资源。

四、谨慎使用带shuffle操作的方法
shuffle操作涉及磁盘的I/O操作、数据的序列化、网络的I/O。
某些shuffle操作会消耗大量的内存，它会把相同的key发到一个节点中，进行连接或者聚合操作。
当相同的key的数据量特别大的时候，内存有可能溢出，于是将数据写到磁盘上，发生I/O操作，导致性能急剧下降。

五、尽量在一次调用中处理一个分区的数据
mapPartitions、foreachPartitions都是在一次调用中处理一个分区的数据，
所以用mapPartitions替换map、foreachPartitions替换foreach能提高性能，
但是使用的时候需要注意内存，因为一次处理一个分区，如果分区比较大，当内存不够的时候就会出现 out of memory 异常。

六、对数据序列化
对数据进行序列化使数据更紧凑、更小，以此减少网络的传输开销，
但是会使访问对象的时间变长，因为需要对数据进行反序列化之后才能使用。

spark.serializer = org.apache.spark.serializer.KryoSerializer。
如果序列化对象太大，那么可以设置 spark.kryoserializer.buffer 来进行调整。

解决数据倾斜问题
在进行shuffle的时候会将各个节点上Key相同的数据传输到同一节点进行下一步的操作。
如果某个Key或某几个Key下的数据的数据量特别大，远远大于其它Key的数据，这时就会出现一个现象，
大部分task很快就完成结束了，剩下几个task运行得特别缓慢。
甚至有时候还会因为某个task下相同Key的数据量过大而造成内存溢出。
这就是发生了数据倾斜。

既然是数据发生了倾斜，那么主要的解决思路就是想办法让它不倾斜

1、调整分区数目
在发生数据倾斜的时候，某个task上需要处理的数据过多，我们可以调整并行度，
使原本分配给一个task的多个Key分配给多个task，这样需要task处理的Key的数目就会减少，于是task上的数据量也就减少了。
配置属性：spark.sql.shuffle.partitions，一般把它的值适当地调大。
这个方法只能缓解数据倾斜，没有从根源上解决问题。
另外需要提一点，在进行了多次操作之后会有很多小任务产生，这时可以用 coalesce来减少分区数。

并不是分区数越少越好，如果你的数据是几个特别大的并且不可分的文件，
这时每个分区中都有大量的记录，分区过少则不能充分地使用CPU的所有核心。
这种情况下就需要主动地重新分区(触发一次shuffle)，增加分区的数量，以提高并行度。

2、去除多余的数据

3、将Key进行拆分，大数据化小数据
回顾一下数据倾斜的原因，单个Key或某几个Key的数据过多。
既然数据过多，我们就想办法减少单个Key的数据量。
我们可以给Key加前缀，强行让它们不同。
通过这种方式让本来应该到同一个task的数据分散到不同的task上，以此来化解数据倾斜的问题。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。