PostgreSQL集合操作性能对比

原创

Jimaks 2025-10-27 12:32:39 博主文章分类：PostgreSQL ©著作权

©著作权归作者所有：来自51CTO博客作者Jimaks的原创作品，请联系作者获取转载授权，否则将追究法律责任

集合操作概述

集合操作是关系型数据库中的基础操作，允许我们对多个数据集进行合并、求交、求差等操作。PostgreSQL提供了三种主要的集合操作符：UNION、INTERSECT和EXCEPT，每种操作符都有其独特的用途和性能特征。理解这些操作的内部机制和性能特点，对于编写高效的SQL查询至关重要。

集合操作的基本语法如下：

UNION：合并两个查询结果，去除重复行
UNION ALL：合并两个查询结果，保留所有行（包括重复）
INTERSECT：返回两个查询结果的交集
INTERSECT ALL：返回两个查询结果的交集，保留重复行
EXCEPT：返回第一个查询结果中存在但第二个查询结果中不存在的行
EXCEPT ALL：返回第一个查询结果中存在但第二个查询结果中不存在的行，保留重复

UNION操作性能分析

UNION vs UNION ALL

最显著的性能差异在于UNION和UNION ALL的区别：

-- UNION操作（去重）
SELECT customer_id FROM orders_2023
UNION
SELECT customer_id FROM orders_2024;

-- UNION ALL操作（不去重）
SELECT customer_id FROM orders_2023
UNION ALL
SELECT customer_id FROM orders_2024;

UNION需要对结果进行排序和去重操作，这涉及到大量的CPU和内存资源消耗。相比之下，UNION ALL只是简单地连接两个结果集，性能要高出很多倍。

去重成本分析

让我们通过一个具体例子来看去重操作的成本：

-- 测试数据准备
CREATE TABLE test_table1 AS 
SELECT generate_series(1, 100000) as id, 'data1' as source;

CREATE TABLE test_table2 AS 
SELECT generate_series(50000, 150000) as id, 'data2' as source;

-- 性能测试
EXPLAIN ANALYZE
SELECT id FROM test_table1
UNION
SELECT id FROM test_table2;

EXPLAIN ANALYZE
SELECT id FROM test_table1
UNION ALL
SELECT id FROM test_table2;

在实际测试中，UNION ALL的执行时间通常比UNION快3-5倍，具体取决于数据量和重复度。

INTERSECT操作优化策略

基本INTERSECT操作

INTERSECT操作用于找出两个查询结果的共同部分：

-- 找出两年都有购买记录的客户
SELECT customer_id FROM orders_2023
INTERSECT
SELECT customer_id FROM orders_2024;

INTERSECT同样会进行去重操作，这会影响性能。

使用EXISTS替代INTERSECT

在某些场景下，使用EXISTS子查询可能比INTERSECT更高效：

-- INTERSECT方式
SELECT customer_id FROM orders_2023
INTERSECT
SELECT customer_id FROM orders_2024;

-- EXISTS方式（可能更高效）
SELECT DISTINCT customer_id 
FROM orders_2023 o1
WHERE EXISTS (
    SELECT 1 FROM orders_2024 o2 
    WHERE o2.customer_id = o1.customer_id
);

EXISTS方式的优势在于它可以提前终止搜索，一旦找到匹配项就不再继续查找。

EXCEPT操作性能考量

EXCEPT与NOT EXISTS对比

EXCEPT操作用于找出存在于第一个结果集中但不在第二个结果集中的记录：

-- EXCEPT方式
SELECT customer_id FROM customers
EXCEPT
SELECT customer_id FROM orders;

-- NOT EXISTS方式
SELECT DISTINCT customer_id 
FROM customers c
WHERE NOT EXISTS (
    SELECT 1 FROM orders o 
    WHERE o.customer_id = c.customer_id
);

在大多数情况下，NOT EXISTS比EXCEPT性能更好，特别是当第二个结果集较大时。

LEFT JOIN替代EXCEPT

另一种优化方式是使用LEFT JOIN：

-- EXCEPT方式
SELECT product_id FROM inventory
EXCEPT
SELECT product_id FROM order_items;

-- LEFT JOIN方式
SELECT DISTINCT i.product_id
FROM inventory i
LEFT JOIN order_items oi ON i.product_id = oi.product_id
WHERE oi.product_id IS NULL;

LEFT JOIN方式通常比EXCEPT更快，因为它可以利用索引并且不需要排序操作。

性能测试与对比

测试环境搭建

为了准确比较不同集合操作的性能，我们需要创建测试数据：

-- 创建测试表
CREATE TABLE dataset_a (
    id INTEGER,
    value TEXT,
    category TEXT
);

CREATE TABLE dataset_b (
    id INTEGER,
    value TEXT,
    category TEXT
);

-- 插入测试数据
INSERT INTO dataset_a 
SELECT generate_series(1, 500000), 
       'value_' || generate_series(1, 500000),
       CASE WHEN generate_series(1, 500000) % 3 = 0 THEN 'A'
            WHEN generate_series(1, 500000) % 3 = 1 THEN 'B'
            ELSE 'C' END;

INSERT INTO dataset_b 
SELECT generate_series(250000, 750000), 
       'value_' || generate_series(250000, 750000),
       CASE WHEN generate_series(250000, 750000) % 2 = 0 THEN 'X' ELSE 'Y' END;

性能基准测试

执行一系列性能测试来比较不同操作的效率：

-- 测试UNION vs UNION ALL
\timing on

-- UNION ALL测试
SELECT COUNT(*) FROM (
    SELECT id FROM dataset_a
    UNION ALL
    SELECT id FROM dataset_b
) t;

-- UNION测试
SELECT COUNT(*) FROM (
    SELECT id FROM dataset_a
    UNION
    SELECT id FROM dataset_b
) t;

-- INTERSECT测试
SELECT COUNT(*) FROM (
    SELECT id FROM dataset_a
    INTERSECT
    SELECT id FROM dataset_b
) t;

-- EXCEPT测试
SELECT COUNT(*) FROM (
    SELECT id FROM dataset_a
    EXCEPT
    SELECT id FROM dataset_b
) t;

优化策略与最佳实践

索引优化

为集合操作创建合适的索引可以显著提升性能：

-- 为集合操作字段创建索引
CREATE INDEX idx_dataset_a_id ON dataset_a(id);
CREATE INDEX idx_dataset_b_id ON dataset_b(id);

-- 复合索引优化复杂查询
CREATE INDEX idx_dataset_a_composite ON dataset_a(category, id);
CREATE INDEX idx_dataset_b_composite ON dataset_b(category, id);

使用临时表优化复杂操作

对于复杂的集合操作，可以考虑使用临时表：

-- 复杂的多步集合操作
WITH step1 AS (
    SELECT customer_id FROM orders_2023 WHERE order_amount > 1000
),
step2 AS (
    SELECT customer_id FROM orders_2024 WHERE order_amount > 1000
),
step3 AS (
    SELECT customer_id FROM vip_customers
)
SELECT customer_id 
FROM step1
INTERSECT
SELECT customer_id FROM step2
INTERSECT
SELECT customer_id FROM step3;

-- 使用临时表优化
CREATE TEMP TABLE temp_high_value_customers_2023 AS
SELECT DISTINCT customer_id FROM orders_2023 WHERE order_amount > 1000;

CREATE TEMP TABLE temp_high_value_customers_2024 AS
SELECT DISTINCT customer_id FROM orders_2024 WHERE order_amount > 1000;

-- 在临时表上创建索引
CREATE INDEX idx_temp_2023 ON temp_high_value_customers_2023(customer_id);
CREATE INDEX idx_temp_2024 ON temp_high_value_customers_2024(customer_id);

-- 执行优化后的查询
SELECT customer_id 
FROM temp_high_value_customers_2023
INTERSECT
SELECT customer_id FROM temp_high_value_customers_2024
INTERSECT
SELECT customer_id FROM vip_customers;

实际应用场景优化

数据同步验证

在数据同步场景中，集合操作常用于验证数据一致性：

-- 低效的验证方式
SELECT COUNT(*) FROM (
    (SELECT id, name, email FROM source_table
     EXCEPT
     SELECT id, name, email FROM target_table)
    UNION ALL
    (SELECT id, name, email FROM target_table
     EXCEPT
     SELECT id, name, email FROM source_table)
) differences;

-- 优化后的验证方式
WITH source_data AS (
    SELECT id, name, email, md5(name || email) as data_hash
    FROM source_table
),
target_data AS (
    SELECT id, name, email, md5(name || email) as data_hash
    FROM target_table
)
SELECT COUNT(*) FROM (
    (SELECT id, data_hash FROM source_data
     EXCEPT
     SELECT id, data_hash FROM target_data)
    UNION ALL
    (SELECT id, data_hash FROM target_data
     EXCEPT
     SELECT id, data_hash FROM source_data)
) differences;

报表数据整合

在生成复杂报表时，集合操作可以帮助整合来自不同源的数据：

-- 优化前：多次使用UNION
SELECT 'Online' as channel, product_id, SUM(sales_amount) as total_sales
FROM online_sales
WHERE sale_date >= '2023-01-01'
GROUP BY product_id

UNION ALL

SELECT 'Retail' as channel, product_id, SUM(sales_amount) as total_sales
FROM retail_sales
WHERE sale_date >= '2023-01-01'
GROUP BY product_id

UNION ALL

SELECT 'Wholesale' as channel, product_id, SUM(sales_amount) as total_sales
FROM wholesale_sales
WHERE sale_date >= '2023-01-01'
GROUP BY product_id;

-- 优化后：使用条件聚合减少查询次数
SELECT 
    unnest(ARRAY['Online', 'Retail', 'Wholesale']) as channel,
    unnest(ARRAY[
        (SELECT SUM(sales_amount) FROM online_sales WHERE sale_date >= '2023-01-01'),
        (SELECT SUM(sales_amount) FROM retail_sales WHERE sale_date >= '2023-01-01'),
        (SELECT SUM(sales_amount) FROM wholesale_sales WHERE sale_date >= '2023-01-01')
    ]) as total_sales;

执行计划分析

理解集合操作的执行计划

使用 EXPLAIN ANALYZE 分析不同集合操作的执行计划：

EXPLAIN ANALYZE
SELECT id FROM dataset_a
UNION
SELECT id FROM dataset_b;

EXPLAIN ANALYZE
SELECT id FROM dataset_a
INTERSECT
SELECT id FROM dataset_b;

重点关注以下信息：

HashAggregate节点：表示去重操作
Sort节点：表示排序操作的成本
各步骤的行数和时间消耗

成本模型理解

PostgreSQL使用成本模型来评估不同执行计划的代价：

-- 查看不同操作的成本估算
EXPLAIN (COSTS TRUE, ANALYZE FALSE)
SELECT id FROM dataset_a
UNION
SELECT id FROM dataset_b;

EXPLAIN (COSTS TRUE, ANALYZE FALSE)
SELECT id FROM dataset_a
UNION ALL
SELECT id FROM dataset_b;

UNION的成本通常比UNION ALL高50-200%，具体取决于数据量和重复度。

系统参数调优

内存配置优化

适当调整内存相关参数可以提升集合操作性能：

-- 增加工作内存以优化排序和聚合操作
SET work_mem = '128MB';

-- 调整维护工作内存
SET maintenance_work_mem = '512MB';

-- 启用并行查询
SET max_parallel_workers_per_gather = 4;

统计信息更新

确保统计信息是最新的，以便优化器做出正确决策：

-- 更新表的统计信息
ANALYZE dataset_a;
ANALYZE dataset_b;

-- 查看统计信息
SELECT tablename, attname, n_distinct
FROM pg_stats 
WHERE tablename IN ('dataset_a', 'dataset_b');