从一次 SQL 查询的全过程看 DolphinDB 的线程模型

2022-03-28 00:00:00 查询 数据 线程 节点 计算

分布式系统较为复杂,无论写入还是查询,都需要多个节点的配合才能完成操作。本教程以一个分布式 SQL 查询为例,介绍 DolphinDB 分布式数据库的数据流以及其中经历的各类线程池。通过了解 SQL 查询的全过程,也可以帮助我们更好地优化 DolpinDB 的配置和性能。

1. DolphinDB 线程类型

worker
常规交互作业的工作线程,用于接收客户端请求,将任务分解为多个小任务,根据任务的粒度自己执行或者发送给 local executor 或 remote executor 执行。

local executor
本地执行线程,用于执行 worker 分配的子任务。每个本地执行线程一次只能处理一个任务。所有工作线程共享本地执行线程。plooppeach 等并行计算函数的计算任务分配在本地执行线程完成。

remote executor
远程执行线程,将远程子任务发送到远程节点的独立线程。

batch job worker
使用 submitJob 或 submitJobEx 创建批处理作业的工作线程。该线程在任务执行完后若闲置 60 秒则会被系统自动回收,不再占用系统资源。

web worker
处理 HTTP 请求的工作线程。DolphinDB 提供了基于 web 的集群管理界面,用户可以通过 web 与 DolphinDB 节点进行交互,提交的请求由该线程处理。

secondary worker
次级工作线程。当前节点产生的远程子任务,会在远程节点的次级工作线程上执行,用于避免作业环,解决节点间的任务循环依赖而导致的死锁问题。

dynamic worker
动态工作线程。当所有的工作线程被占满且有新任务时,系统会自动创建动态工作线程来执行任务。根据系统并发任务的繁忙程度,总共可以创建三个级别的动态工作线程,每一个级别可以创建 maxDymicWorker 个动态工作线程。该线程在任务执行完后若闲置 60 秒则会被系统自动回收,不再占用系统资源。

infra worker
基础设施处理线程。当开启元数据高可用或流数据高可用的时候,系统会自动创建基础设施处理线程,用于处理集群节点间的 raft 信息同步工作。

urgent worker
紧急工作线程,只接收一些特殊的系统级任务,如登录 login ,取消作业 cancelJobcancelConsoleJob 等。

diskIO worker
磁盘数据读写线程,通过参数 diskIOConcurrencyLevel 控制。如果 diskIOConcurrencyLevel = 0,表示直接用当前线程来读写磁盘数据。如果 diskIOConcurrencyLevel > 0,则会创建相应个数的指定线程来读写磁盘数据。

2. 不同类型线程与配置参数的关系

线程类型配置参数默认配置
wokerwokerNum默认值是 CPU 的内核数
local executorlocalExecutors默认值是 CPU 内核数减1
remote executorremoteExecutors默认值是1
batch job workermaxBatchJobWorker默认值是 workerNum 的值
web workerwebWorkerNum默认值是1
secondary workersecondaryWorkerNum默认值是 workerNum 的值
dynamic workermaxDynamicWorker默认值是 workerNum 的值
infra workerinfraWorkerNum默认值是2
urgent workerurgentWorkerNum默认值是1
diskIO workerdiskIOConcurrencyLevel默认值是1

3. API 发起一次 SQL 查询的线程经历

DolphinDB 的主要节点类型:

  • controller
    控制节点,负责收集代理节点和数据节点的心跳,监控每个节点的工作状态,管理分布式文件系统的元数据和事务。
  • data node
    数据节点,既可以存储数据,也可以完成查询和复杂的计算。
  • compute node
    计算节点,只用于计算,应用于包括流计算、分布式关联、机器学习、数据分析等场景。计算节点不存储数据,故在该节点上不能建库建表,但可以通过 loadTable 加载数据进行计算。可以通过在集群中配置计算节点,将写入任务提交到数据节点,将所有计算任务提交到计算节点,实现存储和计算的分离。2.00.1版本开始支持计算节点。

综上,API 发起的 SQL 查询可以提交到一个协调节点(coordinator) 来完成数据的查询和计算请求。 coordinator 可以是集群中的 data node 或者 compute node。当使用 2.00.1 及以上版本时,用户可以通过在集群中配置 compute node,将 SQL 查询任务全部提交到 compute node,实现存储和计算的分离。下面以 API 向 coordinator 发起一次 SQL 查询为例,讲述整个过程中所调度的所有线程。



step1:DolphinDB 客户端向 coordinator 发起数据查询请求

以 coordinator 为 data node 为例,例如发起一次聚合查询,查询语句如下:

select avg(price) from loadTable("dfs://database", "table") where year=2021 group by date

相关文章