深入理解Presto

2022-02-14 00:00:00 数据自己的内存自定义机器

简介

Presto是一个facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。presto的架构由关系型数据库的架构演化而来。presto之所以能在各个内存计算型数据库中脱颖而出，在于以下几点：

清晰的架构，是一个能够独立运行的系统，不依赖于任何其他外部系统。例如调度，presto自身提供了对集群的监控，可以根据监控信息完成调度。
简单的数据结构，列式存储，逻辑行，大部分数据都可以轻易的转化成presto所需要的这种数据结构。
丰富的插件接口，完美对接外部存储系统，或者添加自定义的函数。

本文从外到内，依次来介绍presto。

架构

Presto采用典型的master-slave模型：

coordinator(master)负责meta管理,worker管理，query的解析和调度
worker则负责计算和读写。
discovery server，通常内嵌于coordinator节点中，也可以单独部署，用于节点心跳。在下文中，默认discovery和coordinator共享一台机器。

在worker的配置中，可以选择配置：

discovery的ip:port。
一个http地址，内容是service inventory，包含discovery地址。
一个本地文件地址

{
"environment": "production",
    "services": [
    {   
        "id": "ffffffff-ffff-ffff-ffff-ffffffffffff",
        "type": "discovery",
        "location": "/ffffffff-ffff-ffff-ffff-ffffffffffff",
        "pool": "general",
        "state": "RUNNING",
        "properties": {
            "http": "http://192.168.1.1:8080"
        }   
    }   
]   
}

相关文章