HAWQ简介

2022-04-13 00:00:00 查询数据并行系统引擎

北京时间8月22日，在美国马萨诸塞州的韦克菲尔德，全球软件基金会 Apache 正式宣布： Apache HAWQ 毕业为项目（Top-LevelProject）。HAWQ 是一个 Hadoop 原生大规模并行 SQL 分析引擎，针对的是分析性应用。和其他关系型数据库类似，接受 SQL，返回结果集。

HAWQ是Hadoop原生SQL查询引擎，结合了MPP数据库的关键技术优势和Hadoop的可扩展性和便捷性。HAWQ从HDFS本地读取数据并将数据写入HDFS。

HAWQ提供业界领先的性能和线性可伸缩性。它为用户提供了自信和成功地与petabyte range数据集交互的工具。HAWQ为用户提供了一个完整的、符合标准的SQL接口。更具体地说，HAWQ有以下特点:

Apache HAWQ 具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。主要如下：
1.对标准的完善支持：ANSI SQL 标准，OLAP 扩展，标准 JDBC/ODBC 支持，比其他 Hadoop SQL 引擎都要完善。

2.具有 MPP（大规模并行处理系统）的性能，比其他 Hadoop 里面的 SQL 引擎快数倍。

3.具有非常成熟的并行优化器。优化器是并行 SQL 引擎的重要组成部分，对性能影响很多，尤其是对复杂查询。

4.支持 ACID 事务特性：这是很多现有基于 Hadoop 的 SQL 引擎做不到的，对保证数据一致性很重要。

5.动态数据流引擎：基于 UDP 的高速互联网络。

HAWQ将复杂的查询分解为小任务，并将它们分发给MPP查询处理单元执行。

HAWQ并行度的基本单位是段实例。一个并行查询处理系统由服务器上的多个工作段实例形成。优化过的查询提交给HAWQ，被分解为更小的组件，并被分派到一起工作的段实例，并生成单个结果集。所有关联操作(如表扫描、连接、聚合和排序)同时在各段并行执行。来自动态管道中上游组件的数据通过可伸缩用户数据报协议(UDP)连接并传输到下游组件。

基于Hadoop分布式存储，HAWQ不存在单点故障，支持全自动在线恢复。系统状态在持续监控，因此如果一个段失败，将自动从集群中删除。在此过程中，系统能继续客户查询服务，必要时可以重新添加回系统。
————————————————
版权声明：本文为CSDN博主「乖乖猪001」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/xiaozhaoshigedasb/article/details/85240516

相关文章