为什么PostgreSQL聚合查询慢？优化GROUPBY的5个方法

来源：IPIPP.com作者：陈平安头衔：全栈工程师

导读：本期聚焦于小伙伴创作的《为什么PostgreSQL聚合查询慢？优化GROUPBY的5个方法》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《为什么PostgreSQL聚合查询慢？优化GROUPBY的5个方法》有用，将其分享出去将是对创作者最好的鼓励。

在PostgreSQL的日常使用中，聚合查询尤其是包含GROUPBY操作的查询，是很多业务场景下的常用功能，比如统计不同类别商品的销量、按时间段分组统计用户活跃度等。但当数据量增长到一定规模后，这类查询的执行速度会明显下降，甚至拖慢整个系统的响应。下面先来看一张示例表结构和基础聚合查询，再逐步介绍优化方法。

基础示例场景

假设我们有一个订单表order_info，结构如下，表中存储了1000万条订单数据：

CREATE TABLE order_info (
    id BIGSERIAL PRIMARY KEY,
    user_id BIGINT NOT NULL,
    category_id INT NOT NULL,
    order_amount DECIMAL(10,2) NOT NULL,
    create_time TIMESTAMP NOT NULL
);

现在需要统计每个商品类目的总订单金额，基础查询语句如下：

SELECT category_id, SUM(order_amount) AS total_amount
FROM order_info
GROUP BY category_id;

当数据量较大时，这个查询可能会执行很久，下面介绍5个针对性的优化方法。

优化方法一：为分组字段创建合适索引

GROUPBY操作的核心是对分组字段进行排序或哈希分组，如果分组字段上没有索引，PostgreSQL需要先进行全表扫描，再对数据进行排序或哈希处理，耗时很长。我们可以为category_id字段创建普通索引，或者创建包含聚合字段的覆盖索引，减少回表操作。

-- 创建普通索引
CREATE INDEX idx_order_category ON order_info(category_id);
-- 创建覆盖索引，包含聚合需要的order_amount字段，避免回表
CREATE INDEX idx_order_category_cover ON order_info(category_id) INCLUDE (order_amount);

如果查询中还有时间范围过滤，比如只统计近30天的类目订单金额，可以创建组合索引：

CREATE INDEX idx_order_category_time ON order_info(category_id, create_time) INCLUDE (order_amount);

优化方法二：减少不必要的分组字段

很多情况下，开发者会把不需要的字段加入GROUPBY子句，导致分组粒度变细，需要处理的数据量大幅增加。比如原本只需要按category_id分组，却不小心加入了user_id，分组数会从几十个变成上百万个，查询速度自然会下降。如果业务允许，尽量合并分组维度，或者拆分查询逻辑，先过滤再分组。

比如如果只需要统计有订单的类目，不需要关联用户信息，就不要把user_id加入分组：

-- 错误示例：多余分组字段
SELECT category_id, user_id, SUM(order_amount) AS total_amount
FROM order_info
GROUP BY category_id, user_id;

-- 正确示例：只保留必要分组字段
SELECT category_id, SUM(order_amount) AS total_amount
FROM order_info
GROUP BY category_id;

优化方法三：及时更新表统计信息

PostgreSQL的查询优化器依赖表的统计信息来生成最优执行计划，如果统计信息过时，优化器可能会选择全表扫描而不是索引扫描，导致查询变慢。我们可以通过ANALYZE命令更新表的统计信息，尤其是在表数据发生大量增删改之后。

-- 更新整个表的统计信息
ANALYZE order_info;
-- 更新指定列的统计信息，更轻量
ANALYZE order_info (category_id, order_amount);

也可以调整autovacuum的配置，让它更频繁地自动更新统计信息，避免手动操作的遗漏。

优化方法四：使用物化视图缓存聚合结果

如果聚合查询的结果不需要实时更新，比如按天统计的类目销量，每天只需要更新一次，那么可以使用物化视图来存储聚合结果，查询时直接读取物化视图，不需要每次都执行全表分组聚合。

-- 创建物化视图
CREATE MATERIALIZED VIEW mv_category_daily_amount AS
SELECT category_id, DATE(create_time) AS order_date, SUM(order_amount) AS total_amount
FROM order_info
GROUP BY category_id, DATE(create_time);

-- 查询物化视图，速度远快于直接查原表
SELECT category_id, total_amount
FROM mv_category_daily_amount
WHERE order_date = '2024-05-20';

-- 定期刷新物化视图，比如每天凌晨刷新
REFRESH MATERIALIZED VIEW mv_category_daily_amount;

优化方法五：选择更高效的聚合函数

不同的聚合函数在PostgreSQL中的执行效率有差异，比如COUNT(*)和COUNT(1)的效率通常比COUNT(具体字段)更高，因为不需要检查字段是否为NULL。另外，如果只需要去重统计，优先使用COUNT(DISTINCT 字段)而不是先去重再COUNT，不过如果去重字段基数很大，也可以考虑用近似聚合函数，比如PostgreSQL扩展中的hyperloglog相关函数，在精度要求不高的情况下大幅提升速度。

-- 高效统计类目下的订单数
SELECT category_id, COUNT(*) AS order_count
FROM order_info
GROUP BY category_id;

-- 近似去重统计，适合大数据量场景
-- 需要先安装pg_hyperloglog扩展
SELECT category_id, hll_count(hll_add_agg(hll_hash_bigint(user_id))) AS approx_user_count
FROM order_info
GROUP BY category_id;

总结

PostgreSQL中GROUPBY聚合查询慢的问题，大多可以通过上述5个方法解决，实际优化时可以先通过EXPLAIN命令查看查询执行计划，定位瓶颈所在，再针对性选择优化方案，往往能取得明显的性能提升。

PostgreSQL 聚合查询 GROUP_BY 查询优化索引优化修改时间：2026-05-30 21:36:09

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。