1 Greenplum整体架构信息

2023-03-07 00:00:00 数据节点随机分布顺序

1.1 架构图示

在以上的架构中可以看出Greenplum主要是由Master和Segment组成的，Master承担生成查询计划并派发汇总执行结果，Segment是执行查询计划及数据储存管理。集群可以直接加载外部的数据。

官网请查看:https://greenplum.org/

Greenplum官方文档:https://gp-docs-cn.github.io/docs/common/gpdb-features.html

1.2 Master主机与Segment主机任务

1.3 数据库分布键分布数据策略
由于greenplum数据库是个分布式数据库,数据分布在每一个segment节点上，其中数据的分布策略有两种分别是hash分布于随机分布。

1.3.1 HASH策略
Hash分布是利用Distributed by (filed1,filed2....) 做为数据分布的条件，计算hash值,并通过hash值路由到制定的segment上,如果不指定分布键,默认的是获取个字段作为分布键。在字段作为分布键时，该字段的值尽量是唯-一的，这样才能分布的均匀，效率会更高，否则会降低数据库的想能。

1.3.2 随机分布
随机分布也叫平均分布。数据会随机的落在每一个segment节点上,不管数据内容是什么格式都会落到segment上，在SQL查询数据,数据会重新分布，性能会比较差，随机分布的用法为Distributed randomly;

1.4 master主节点获取segment节点上的数据顺序
Master在执行sql语句时由于数据切分放在每个segment上,master获取结果的顺序是segment提交的顺序，segment提交到master的顺序是随机的,就会导致一样的数据每次的查询结果顺序不一致，这也是与其他的数据不一样的地方。

本文来源：https://blog.csdn.net/xfg0218/article/details/86472908

相关文章