postgresql COUNT(DISTINCT ...)非常慢。

Question

26 浏览2023年4月16日

匿名的 2023年4月16日

0 Comments

我有一个非常简单的SQL查询：\nSELECT COUNT(DISTINCT x) FROM table;\n我的表大约有150万行。这个查询运行得相当慢，大约需要7.5秒，而\n SELECT COUNT(x) FROM table;\n只需要大约435毫秒。有没有什么方法可以改变我的查询以提高性能？我已经尝试过对x进行分组和普通计数，还在x上创建了索引；但两者的执行时间都是7.5秒。

0

3 答案

匿名的 · Answer 1 · 2023-07-22T03:13:55+00:00

postgresql中使用count(distinct(x))比count(x)要慢很多的原因是因为count(distinct(x))需要对所有的不同的x值进行计数，而count(x)只需要计算x的总数。解决这个问题的方法是通过在不同的表中维护x值的计数，例如table_name_x_counts (x integer not null, x_count int not null)，并使用触发器来更新计数。但是这样会影响写性能，如果在单个事务中更新多个x值，需要按照某种明确的顺序进行操作，以避免可能的死锁。

匿名的 · Answer 2 · 2023-08-28T06:16:41+00:00

postgresql COUNT(DISTINCT ...) very slow

在上述的代码中，我们可以看到三个不同的查询方法，分别是使用COUNT (distinct val)、GROUP BY val+COUNT(*)和CTE。在对这三个查询进行分析的过程中，发现在执行COUNT(DISTINCT ...)的时候，性能非常低下，查询时间较长。下面我们将分析出现这个问题的原因以及解决方法。

原因：

1. 缓存效果：在执行三次"explain analyze"的时候，第一次可能会从磁盘中读取数据，而后两次可能会从内存中读取数据，因此会导致查询时间的差异。

2. 缓存设置：effective_cache_size参数设置为2GB，可能对于当前的查询来说，这个值并不合适，需要进行调整。

3. 内存占用：查询过程中可能会涉及大量的内存占用，导致性能下降。

解决方法：

1. 调整缓存设置：可以尝试调整effective_cache_size参数的值，使其适应当前查询的需求。

2. 优化查询语句：可以考虑使用窗口函数等其他方法来优化查询语句，以提高性能。

3. 确保索引的可用性：需要确保在DISTINCT字段上存在可用的索引，以提高查询的效率。

4. 额外的调优：根据具体情况，可以进一步调整其他相关的参数和配置，以进一步优化查询性能。

通过对问题的分析和解决方法的总结，我们可以尝试调整缓存设置、优化查询语句和确保索引的可用性来解决postgresql COUNT(DISTINCT ...)查询性能较低的问题。

匿名的 · Answer 3 · 2023-06-12T20:35:53+00:00

文章标题：PostgreSQL中COUNT(DISTINCT ...)非常慢的原因和解决方法

在使用PostgreSQL进行查询时，经常会遇到COUNT(DISTINCT ...)查询非常慢的问题。为了解决这个问题，可以采用一种更快的方法来替代COUNT(DISTINCT ...)查询。

解决方法如下：

可以使用以下查询语句来替代COUNT(DISTINCT ...)查询：

SELECT COUNT(*) FROM (SELECT DISTINCT column_name FROM table_name) AS temp;

这种方法比COUNT(DISTINCT column_name)查询要快得多。有用户在帖子中提到，使用这种方法将COUNT DISTINCT的执行时间从190秒缩短到了4.5秒。

这个问题在PostgreSQL官方论坛上也有讨论，其中一位用户在帖子中提到，COUNT(DISTINCT())查询会对表进行排序操作，而不是使用哈希算法。因此，如果在column_name上创建了索引，特别是在work_mem较小的情况下，使用COUNT(DISTINCT())查询会更加高效。

此外，还有用户提到了COUNT(DISTINCT())和COUNT()查询在存在NULL值时的差异。COUNT(column)只计算非空值，而COUNT(*)计算行数。因此，如果column_name中存在NULL值，COUNT(DISTINCT column_name)和COUNT(*)查询的结果会不同。要使它们的行为相同，可以将COUNT(column_name)作为替代。

有些用户在实际使用中并没有发现明显的改进，特别是在多列的情况下。有用户提到可以尝试创建一个合并了这两列的新列来优化查询性能。

还有一些用户在PostgreSQL 13中进行了验证，并没有发现这种替代方法带来的性能改进。也有用户提到在SQL Server中这两种方式的性能没有差别。

对于为什么PostgreSQL没有直接实现COUNT(DISTINCT)查询的更高效算法，用户们有不同的猜测和质疑。有人认为，如果这种替代方法更快，为什么PostgreSQL的内部代码编写者没有直接采用这种更高效的实现方式呢？

在使用PostgreSQL进行COUNT(DISTINCT ...)查询时，可以尝试使用替代方法来提高查询性能。通过使用嵌套查询和COUNT(*)，可以避免COUNT(DISTINCT ...)查询的排序操作，从而加快查询速度。然而，这种方法并不一定在所有情况下都有效，具体效果可能会因数据库版本、数据类型和查询条件等因素而有所差异。因此，在实际使用中，需要根据具体情况进行测试和评估。