多维度可扩展性(二)| 一键详解八个可扩展维度中的五个等级阶段

2022-02-18 00:00:00 查询 数据 分析 扩展 维度
查询复杂度与并发性的支持
当用户知道企业有一个数据分析平台可以提供灵活查询分析各种业务问题时,用户会尝试着从简单的问题开始,循序渐近地询问平台更多复杂的问题。

从技术角度讲,查询所关联的表会越来越多,查询所使用的分析函数会越来越复杂,查询的嵌套层次会越来越深。平台对查询复杂度的支撑,不会因用户所提交的查询的复杂性而有任何妥协。查询的反馈时间会随着查询的复杂度的增加而适当延长,但不会造成得不到查询结果,或者造成系统崩溃的情况。

查询的复杂度从计算引擎角度看,包括简单的SQL语句到复杂的SQL语句,再到支持R/Python/SAS等语言在数据库内执行,调用机器学习和人工智能算法等。在数据分析中使用更加复杂的算法需要平台能够无妥协地支持,所需要的只是在系统计算能力不足时,通过线性扩展的方式提升系统的物理算力。

企业无法预测何时需要扩展哪些数据分析维度,因此数据分析平台未来需要能够扩展各个维度。只关注有限的维度可能会忽略其他维度的能力扩展,导致错过利用数据获得更多洞察的机会。
举例说明,当某个数据分析项目开始时,分析平台通常是为数据分析需求的初始静态环境设计的。如数据大小很重要,项目就会针对大数据量进行调整。项目成功实施后,会让更多用户更广泛地使用系统,这会增加对查询并发性的需求。

随着用户意识到系统的潜力,他们将提出越来越复杂的业务问题,这将需要更高的查询复杂度。如果系统平台无法处理越来越多的并发和复杂的查询,为了满足查询复杂度这一扩展维度的需求,企业往往不得不在其他维度上妥协。为了处理并发查询数量的显着增加以满足业务需求,平台可能需要降低查询的复杂度以保持其性能水平,或者需要将平台拆分,分别建立一个处理大量受到高度约束和调整的查询系统和一个单独用于复杂查询但用户数量有限的系统。这增加了分析环境的管理成本和系统复杂性。

现代企业的数据分析能力要拥抱多维可扩展性,所有数据分析的可扩展维度在需要时都应得到增强。处理能力的扩展会使系统性能成比例地增加。企业面向未来的发展,确保在一个维度上的投资可以增强其所在领域的能力,并支持未来的大量工作负载需求。

在前面的示例中,查询并发性和复杂性无法同时扩展。Teradata Vantage通过优化这两项功能来应对这一挑战。首先,Vantage“始终并行”的架构确保了四种主要的数据平台操作:扫描、连接、聚合和排序,始终以大程度的并行性运行。这极大地提高了这些操作的性能和吞吐量。Vantage还结合了业界领先的基于成本的优化器、基于哈希的索引、聚合连接索引以及对广泛连接计划的支持。这些功能可以高效、高性能地执行复杂查询,而无需数据库“提示”和查询重写等手动干预。

Vantage的增量规划和增强 (IPE) 优化器扩展意味着即使在没有良好的数据库统计数据且数据不在本地存储文件系统的情况下,也可以优化复杂的查询。在支持查询并发方面,Vantage的虚拟化并行RDBMS和BYNET网络协议可确保所有操作和步骤以大可能的并行度运行,从而快速高效地执行操作并尽快处理工作,大限度地提高并发性和吞吐量。基于逻辑哈希的文件系统支持高效、高性能的本地化数据访问,因此战-术查询在Vantage中基本上是无成本的,不会消耗大量系统资源或阻碍其他查询。此外,Vantage复杂的混合工作负载管理允许系统管理极端级别的并发。事实上,会有几个Vantage用户定期在单个Teradata系统上运行数千个并发查询。

,如下图所示,Teradata使客户能够同时扩展查询并发度和查询复杂度,而不会影响两者的功能或拖累系统性能.



▲图1:借助 Teradata Vantage,企业可以同时在所有八个关键分析维度上进行扩展,从而避免影响任何领域性能。








拒绝接受系统技术限制
技术选择不应成为企业分析能力扩展的限制因素,为满足数据分析需求在8个维度上的扩展,系统平台在技术选择上至少需要在未来能够达到以下的量化指标:

1. 高效的数据存储和可超过10PB的数据处理能力

2. 支持复杂的可扩展和灵活的数据模式,包括三范式
3. 可处理多达64个连接的查询
4. 卓越的动态混合工作负载管理能力
5. 单个查询访问所有存储的数据,包括本地存储和对象存储
6. 系统支持运行1000个以上并发查询
7. 实时加载数据和更新数据

8. 针对不同的工作负载提供一致的查询响应时间

数据分析技术的需求在特定的阶段需要满足特定的条件。按照不同的阶段和等级,我们划分了数据分析平台的5个能力扩展阶段,如下图所示,实现多维可扩展性需要明确的规范,数据分析平台需要支持下面所列出的所有8个可扩展维度中的5个等级阶段:



▲ 图2:该矩阵对八个关键分析需求维度中的每个维度的可扩展性程度进行划分,其中1弱,5强。

创建这个矩阵表明多维可扩展性是可以实现的。Teradata Vantage已经证明了这一点。Vantage作为企业级智能数据分析平台提供了上图中列出的8个维度的所有5个等级功能:

◎ 数据量

目前大的Teradata生产系统管理超过10PB的数据,Teradata经常支持具有万亿行的表。通过将无协调节点的MPP架构与基于成本的成熟优化器和基于哈希的索引结构相结合,Vantage提供了“始终并行”的数据处理能力。

◎ 查询并发性

借助虚拟化并行的数据库引擎和BYNET网络协议以及复杂的混合工作负载管理,Vantage可确保别的并行性。用户能够将更多的应用程序、用户和查询整合到一个平台,单个查询的成本极低。Vantage支持的系统每天运行100多万次查询。

◎ 查询复杂度

凭借业界领先的基于成本的成熟优化器、基于哈希的索引、聚合连接索引以及对广泛连接计划的支持,Vantage用户可以高效且高性能地执行复杂查询,且无需手动调整。

◎ 模式复杂度

Vantage支持复杂的嵌套模式和视图,能够将复杂数据以简化的方式呈现给用户、分析工具和应用程序,不会产生额外的ETL工作。

◎ 查询数据量

通过充分利用索引和分区,Vantage的结构易于部署和自动维护。Vantage还使用多种自动内存缓存。用户还可以使用Vantage的压缩选项、具有可变长度块的高效行存储、柱面读取和同步扫描等技术。

◎ 查询响应时间

Vantage基于哈希的文件系统确保数据均匀分布,无需额外成本即可提供主索引(PI)机制,直接提供战-术查询能力。基于成本的成熟优化器可确保生成优化的查询计划,而不管底层数据模式如何。Vantage还支持自动维护的索引,这进一步提高了查询性能。Vantage的工作负载管理提供控制,可提供一致的查询响应时间。

◎ 数据延迟度

Vantage的加载程序支持高性能批量和流式加载数据,同时提供负载隔离、锁定控制、多值压缩等功能,支持以极低的延迟同时查询和加载数据。多个加载作业可以同时将数据加载到同一个表中,同时保持彼此分离。

◎ 混合工作负载

Vantage的工作负载管理将过滤器和限流阀与复杂的动态资源分配相结合,允许对紧急、高优先级的工作负载进行优先级排序,并保护系统免受“失控”查询的影响,以提高查询吞吐量和一致性,从而可以完成更多工作。



保持在数字化变革中前进的前瞻性
从数据中获得可操作预测智能的竞赛在不断加速,企业必须快速扩展其分析能力。但是对于大多数分析平台来说,扩展是相互依赖的,导致成本和性能的艰难权衡。支持更多的查询可能意味着数据可用性的显着下降;支持更多并发查询会导致查询性能变差,限制吞吐量并影响 SLA。许多数据分析平台仅以粗略的增量进行扩展,从而产生成本压力并产生高额且意想不到的费用。业务分析用户不得不放弃运行创造新业务价值的复杂的、探索性的工作负载。

在数据分析解决方案方面,企业不应受到技术选择的限制。Vantage是的企业级多云互联的智能数据分析平台,可让您同时扩展所有的数据分析需求维度。企业能够处理未来的大量复杂数据的工作负载。从用户数量、查询并发量到数据量,每一个数据分析向量需求增加,其他向量不会损失其原本的性能。企业未来不会因平台在某方面性能的妥协而浪费投资

来源 https://mp.weixin.qq.com/s/BFsMFT9Qwtv6sPAlxLDh8A

相关文章