spark 指定executor 数量 spark explain

转载

mob6454cc6f27a3 2024-05-20 12:57:02

文章标签 spark 指定executor 数量 sql联表查询优化子查询字段 sql 文章分类 Spark 大数据

之前一直都知道分析一条sql语句用explain+sql，但是对分析结果有很多还是模棱两可，特别是最近写sql语句，一大堆联表查询嵌套子查询，五六个表联在一起，导致查询速度非常慢，所以好好研究下sql优化问题，准确来说是sql联表查询优化。

一.首先详解一下explain工具

explain SELECT swv.sstore_id,swv.sstore_address,swv.sstore_name,svg.add_time,s.user_name FROM fc_sstore_v_goods AS svg LEFT JOIN fc_ssms_wechat_sstore_view AS swv ON svg.sstore_id = swv.sstore_id LEFT JOIN fc_sstore AS s ON svg.sstore_id = s.sstore_id WHERE 1=1 AND svg.is_lose = 0 AND svg.b2b_spec_id = 6412 AND svg.add_time >= 1506672000 AND svg.add_time < 1560904121 ORDER BY add_time DESC limit 0,10

spark 指定executor 数量 spark explain_sql联表查询优化

spark 指定executor 数量 spark explain_子查询_02

id:决定表的读取顺序

1.id相同，执行顺序由上至下；
2.id不同，如果是子查询，id的序号会递增，id值越大优先级越高,越先被执行;
3.id相同不同，同时存在，如果id相同，可以认为是一组，从上往下顺序执行,在所有组中，id值越大，优先级越高，越先执行；

select_type:查询的类型，也就是数据读取操作的操作类型，他一共有以下5种:

simple:简单的select查询,查询中不包含子查询或者union;
primary:查询中若包含任何复杂的子查询,最外层查询则被标记;
subquery:在select或者where列表中包含了子查询;
derived:在from列表中包含的子查询结果放到DERIVED(衍生表),mysql会递归执行这些子查询,把结果放临时表中;
union:若第二个select出现在union之后,则被标记为union,若union包含在from子句的子查询中,外层select将被标记为:DERIVED;
union result:从union表(即union合并的结果集)中获取select查询的结果

type:访问类型排列

显示查询使用了何种类型,从最好到最差依次是:system > const > eq_ref > ref > range > index > all

system:表只有一行记录(等于系统表),这是const类型的特例,平时不会出现,这个也可忽略不计;
const:表示通过索引一次就找到了，const用于比较primary key或者unique索引，比如where id = 1。当where id>1时就是range了。
eq_ref:联表查询中被驱动表的查询字段是主键或者唯一索引。（on字段是主键或唯一键）;
ref:查询表用到了是普通索引。
range:只检索给定范围的行,使用一个索引来选择行,key列显示使用哪个索引,一般就是在你的where语句中出现了between,<,>,in等的查询；这种范围索引扫描比全表扫描要好,因为它只需要开始于索引的某一个点,结束于另一个点,不用扫描全部索引;
index:也是全表扫描，只是扫描时是按照索引次序进行而不是行，如果在extra中显示Using index,说明正在使用覆盖索引，只扫描索引数据就可以，不用去按索引去获取每一行。
all:也就是全表扫描，重头到位去寻找需要的行
备注:一般来说,得保证查询至少达到range级别,最好能达到ref.

possible_keys:显示可能会被应用到这张表的索引,一个或者多个;查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询实际使用到;

key:实际使用到的索引.如果为null,则没有使用索引;查询中若使用了覆盖索引,则该索引仅出现在key列表中

key_len:表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度,在不损失精确性的情况下,长度越短越好; key_len显示的值为索引字段的最大可能长度,并非实际使用长度,即key_len是根据表定义计算而得,不是通过表内检索出的;

ref:显示索引的哪一列被使用了,如果可能的话,是一个常数,哪些列或常量别用于查找索引列上的值;

rows:根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数;

Extra:包含不适合在其它列中显示但十分重要的额外信息:

1.using filesort(出现这个东西不好):说明mysql会对数据使用一个外部的索引排序,而不是按照表内的索引顺序进行读取,mysql中无法利用索引完成的排序操作称为"文件排序";

2.using temporary(出现这个东西更不好,使用到了临时表):使用了临时表保存中间结果,Mysql在对查询结果排序时使用临时表,常见于排序order by和分组查询group by.

3.using index:表示相应的select操作中使用了覆盖索引(Covering Index),避免了访问了表的数据行,效率不错！

如果同时出现using where ,表明索引被用来执行索引键值的查找;如果没有同时出现using where,表明索引用来读取数据而非执行查找操作。

4.using where 表示 MySQL 服务器将存储引擎返回服务层以后再应用 WHERE 条件过滤。

覆盖索引:理解方式一：就是select的数据列只用从索引列中就能取得,不必读取数据行,Mysql可以利用索引返回select列表中的字段,而不必根据索引再次读取数据文件,换句话说查询列要被所建的索引列覆盖；理解方式二:索引是高效找到行的一个方法,但是一般数据库也能使用索引找到一个列的数据,因此它不必读取整个行，毕竟索引的叶子节点存储了索引数据;当能通过读取索引就可以得到想要的数据,那就不需要读取行了;一个索引包含了(或者覆盖了)满足查询结果的数据就叫做覆盖索引。
注意:如果要使用覆盖索引,一定要注意select列表中只取出需要的列,不可select *;因为如果将所有的字段一起做索引会导致索引文件过大,查询性能下降;

关于索引的问题，再我的另外一般blog有讲解

二.sql联表查询注意的问题

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。