易鲸捷 EsgynDB 对 OLTP 的支持

2022-05-27 00:00:00 数据分析工作负载结构化

用户已经在 Hadoop 上运行大数据工作负载，他们过去使用 EDW 中的结构化历史数据运行 BI 查询，随后创建了为 Big Data 工作负载服务的数据湖泊，但现在他们意识到需要将 EDW 和数据湖泊结合起来。通过集成结构化历史数据、半结构化和非结构化外部 Big Data，不仅能提高决策力，而且能将部分运行在昂贵专有硬件上的工作负载转移至较低 TCO 的开源平台。这包括从这些平台上减少 ELT 过程、集成并扩展报表和分析，以集成所有企业数据并生成更高价值的分析，减少 EDW 和数据湖泊的部署。

大量用户使用 EsgynDB 处理 EDW ELT、BI 报表和分析型工作负载，所以，EsgynDB 是一个有能力同时处理这些工作负载的数据库。在该领域，EsgynDB 的能力和成熟度已远超其他处理这些工作负载的 SQL-on-Hadoop 引擎。ETL 工具转换导入进 EDW 的数据，在EsgynDB 出现之前，惠普公司已广泛地使用 EsgynDB 的底层技术处理大量数据转换，例如，使用 ELT 转换全球运营系统的数据(企业 BI 用户使用)，将数据 rollup 或聚合至报表区域，以支持对 EDW 中数据执行海量并发查询并快速响应。在处理复杂 BI 和分析工作负载时，基于 EsgynDB 的数据湖泊不仅能存储和处理结构化数据，还能存储和处理未被任何 ETL 工具预处理的半结构化和非结构化数据，所以，您无需使用传统方法便能轻松处理此类工作负载。

EsgynDB 的架构使它能高效地处理 HTAP 工作负载。运营系统和分析系统可同时架构在 Hadoop 平台上，运营系统存储 OLTP 和流式应用程序的数据，数据被捕捉的同时在分析系统中进行分析，分析的结果再反馈至运营系统。由于运营系统和分析系统在同一平台上运行，闭环分析能大幅减少响应时间并增强决策力。

处理运营型工作负载需要特定功能，EsgynDB 在处理 BI 和分析工作负载时，具备以下特定功能:

与 ORC 文件深度集成，大化地利用 ORC 的优势。
复杂优化器使用数据的统计信息，为查询生成优计划。
拥有专利技术 Skew Buster——处理倾斜。
拥有专利技术 Adaptive Segmentation——使用查询仅需的资源，在高并发时消耗少资源，并提高弹性。
数据流执行架构，能大化地提高并发度，高效使用内存，实现快速响应。
拥有复杂并行数据库引擎能力，支持高并发和高吞吐量的复杂报表查询。
基于查询模式的多 join 策略，提供佳性能和并发度，高效利用资源。
优化的 Table UDF 能力，能并行处理 C++或 Java 用户函数。和并行执行的MapReduce 类似，与其他数据源和存储引擎集成。

与 Hive 表集成

EsgynDB 支持在同一个查询中同时访问以 text 和 sequence file(key-value)格式存
储的 Hive 表，您还能使用这两种格式将数据加载至 EsgynDB(速度等同于 bulk load)。Hive 表可以被定义为外表，这能提高查询的易用性。

与 ORC 文件深度集成

用户对 EsgynDB 有越来越多的需求，他们期望在业务数据上直接进行 BI/分析类操作，而无需进行数据移动和复制。EsgynDB 支持这类需求，虽然 HBase 并不适合这类工作负载，但 ORC 很适合处理需要大量数据扫描的报表和分析型工作负载。 EsgynDB 与 Apache ORC(典型的列式存储文件格式)深度集成，能高效地处理这类工作负载。

来源 https://www.modb.pro/db/11372

相关文章