易鲸捷 EsgynDB 对 OLTP 的支持
用户已经在 Hadoop 上运行大数据工作负载,他们过去使用 EDW 中的结构化历史 数据运行 BI 查询,随后创建了为 Big Data 工作负载服务的数据湖泊,但现在他们 意识到需要将 EDW 和数据湖泊结合起来。通过集成结构化历史数据、半结构化和 非结构化外部 Big Data,不仅能提高决策力,而且能将部分运行在昂贵专有硬件上 的工作负载转移至较低 TCO 的开源平台。这包括从这些平台上减少 ELT 过程、集 成并扩展报表和分析,以集成所有企业数据并生成更高价值的分析,减少 EDW 和 数据湖泊的部署。
大量用户使用 EsgynDB 处理 EDW ELT、BI 报表和分析型工作负载,所以,EsgynDB 是一个有能力同时处理这些工作负载的数据库。在该领域,EsgynDB 的能力和成熟度已远超其他处理这些工作负载的 SQL-on-Hadoop 引擎。ETL 工具转 换导入进 EDW 的数据,在EsgynDB 出现之前,惠普公司已广泛地使用 EsgynDB 的底层技术处理大量数据转换,例如,使用 ELT 转换全球运营系统的数据(企业 BI 用户使用),将数据 rollup 或聚合至报表区域,以支持对 EDW 中数据执行海量 并发查询并快速响应。在处理复杂 BI 和分析工作负载时,基于 EsgynDB 的数据湖泊不仅能存储和处理结构化数据,还能存储和处理未被任何 ETL 工具预处理的半 结构化和非结构化数据,所以,您无需使用传统方法便能轻松处理此类工作负载。
EsgynDB 的架构使它能高效地处理 HTAP 工作负载。运营系统和分析系统可同时架 构在 Hadoop 平台上,运营系统存储 OLTP 和流式应用程序的数据,数据被捕捉的 同时在分析系统中进行分析,分析的结果再反馈至运营系统。由于运营系统和分析 系统在同一平台上运行,闭环分析能大幅减少响应时间并增强决策力。
处理运营型工作负载需要特定功能,EsgynDB 在处理 BI 和分析工作负载时,具备 以下特定功能:
- 与 ORC 文件深度集成,大化地利用 ORC 的优势。
- 复杂优化器使用数据的统计信息,为查询生成优计划。
- 拥有专利技术 Skew Buster——处理倾斜。
- 拥有专利技术 Adaptive Segmentation——使用查询仅需的资源,在高并发时消耗少资源,并提高弹性。
- 数据流执行架构,能大化地提高并发度,高效使用内存,实现快速响应。
- 拥有复杂并行数据库引擎能力,支持高并发和高吞吐量的复杂报表查询。
- 基于查询模式的多 join 策略,提供佳性能和并发度,高效利用资源。
- 优化的 Table UDF 能力,能并行处理 C++或 Java 用户函数。和并行执行的MapReduce 类似,与其他数据源和存储引擎集成。
与 Hive 表集成
EsgynDB 支持在同一个查询中同时访问以 text 和 sequence file(key-value)格式存
储的 Hive 表,您还能使用这两种格式将数据加载至 EsgynDB(速度等同于 bulk load)。Hive 表可以被定义为外表,这能提高查询的易用性。
与 ORC 文件深度集成
用户对 EsgynDB 有越来越多的需求,他们期望在业务数据上直接进行 BI/分析类操作,而无需进行数据移动和复制。EsgynDB 支持这类需求,虽然 HBase 并不适合这 类工作负载,但 ORC 很适合处理需要大量数据扫描的报表和分析型工作负载。 EsgynDB 与 Apache ORC(典型的列式存储文件格式)深度集成,能高效地处理这 类工作负载。
相关文章