PostgreSQL sharding : citus 系列6

2022-05-09 00:00:00 字段 节点 性能 加速 提升

标签

PostgreSQL , hll , hyperloglog , distinct , 加速 , citus.count_distinct_error_rate


背景

在分布式数据库中,计算count(distinct xxx),需要对distinct 的字段,

1、去重,

2、重分布去重后的数据,(这一步,如果distinct值特别多,那么就会比较耗时)

3、然后再去重,

4、后count (xxx),

5、求所有节点的count SUM。

例如,以下是Greenplum的执行计划例子

  1. 相关文章