Tajo介绍

2022-06-09 00:00:00 查询 数据 专区 支持 分布式

目录

    • 产品简介
    • 产品特点

产品简介

Apache Tajo 是用于 Apache Hadoop 的强大的大数据关系和分布式数据仓库系统。Tajo 专为存储在 HDFS(Hadoop 分布式文件系统)和其他数据源上的大型数据集上的低延迟和可扩展的 ad-hoc 查询、在线聚合和 ETL(提取-转换-加载过程)而设计。通过支持 SQL 标准和利用先进的数据库技术,Tajo 允许跨各种查询评估策略和优化机会直接控制分布式执行和数据流。

产品特点

  • 快速高效
    全分布式 SQL 查询处理引擎
    查询优化,例如基于成本和渐进式查询优化
    合理数据集的交互分析
  • 可扩展
    长时间运行查询的容错和动态调度
    大于主存的数据集的核外算法
  • 兼容
    ANSI/ISO SQL 标准合规性
    Hive MetaStore 访问支持
    JDBC 驱动程序支持
    支持多种文件格式,例如 CSV、JSON、RCFile、SequenceFile、ORC 和 Parquet
  • 简单
    用户自定义函数
    交互式外壳
    方便的备份/恢复实用程序
    异步/同步 Java API

相关文章