从一次 SQL 查询的全过程看 DolphinDB 的线程模型
分布式系统较为复杂,无论写入还是查询,都需要多个节点的配合才能完成操作。本教程以一个分布式 SQL 查询为例,介绍 DolphinDB 分布式数据库的数据流以及其中经历的各类线程池。通过了解 SQL 查询的全过程,也可以帮助我们更好地优化 DolpinDB 的配置和性能。
1. DolphinDB 线程类型
worker
常规交互作业的工作线程,用于接收客户端请求,将任务分解为多个小任务,根据任务的粒度自己执行或者发送给 local executor 或 remote executor 执行。
local executor
本地执行线程,用于执行 worker 分配的子任务。每个本地执行线程一次只能处理一个任务。所有工作线程共享本地执行线程。ploop
、peach
等并行计算函数的计算任务分配在本地执行线程完成。
remote executor
远程执行线程,将远程子任务发送到远程节点的独立线程。
batch job worker
使用 submitJob
或 submitJobEx
创建批处理作业的工作线程。该线程在任务执行完后若闲置 60 秒则会被系统自动回收,不再占用系统资源。
web worker
处理 HTTP 请求的工作线程。DolphinDB 提供了基于 web 的集群管理界面,用户可以通过 web 与 DolphinDB 节点进行交互,提交的请求由该线程处理。
secondary worker
次级工作线程。当前节点产生的远程子任务,会在远程节点的次级工作线程上执行,用于避免作业环,解决节点间的任务循环依赖而导致的死锁问题。
dynamic worker
动态工作线程。当所有的工作线程被占满且有新任务时,系统会自动创建动态工作线程来执行任务。根据系统并发任务的繁忙程度,总共可以创建三个级别的动态工作线程,每一个级别可以创建 maxDymicWorker 个动态工作线程。该线程在任务执行完后若闲置 60 秒则会被系统自动回收,不再占用系统资源。
infra worker
基础设施处理线程。当开启元数据高可用或流数据高可用的时候,系统会自动创建基础设施处理线程,用于处理集群节点间的 raft 信息同步工作。
urgent worker
紧急工作线程,只接收一些特殊的系统级任务,如登录 login
,取消作业 cancelJob
、cancelConsoleJob
等。
diskIO worker
磁盘数据读写线程,通过参数 diskIOConcurrencyLevel 控制。如果 diskIOConcurrencyLevel = 0,表示直接用当前线程来读写磁盘数据。如果 diskIOConcurrencyLevel > 0,则会创建相应个数的指定线程来读写磁盘数据。
2. 不同类型线程与配置参数的关系
线程类型 | 配置参数 | 默认配置 |
woker | wokerNum | 默认值是 CPU 的内核数 |
local executor | localExecutors | 默认值是 CPU 内核数减1 |
remote executor | remoteExecutors | 默认值是1 |
batch job worker | maxBatchJobWorker | 默认值是 workerNum 的值 |
web worker | webWorkerNum | 默认值是1 |
secondary worker | secondaryWorkerNum | 默认值是 workerNum 的值 |
dynamic worker | maxDynamicWorker | 默认值是 workerNum 的值 |
infra worker | infraWorkerNum | 默认值是2 |
urgent worker | urgentWorkerNum | 默认值是1 |
diskIO worker | diskIOConcurrencyLevel | 默认值是1 |
3. API 发起一次 SQL 查询的线程经历
DolphinDB 的主要节点类型:
- controller
控制节点,负责收集代理节点和数据节点的心跳,监控每个节点的工作状态,管理分布式文件系统的元数据和事务。 - data node
数据节点,既可以存储数据,也可以完成查询和复杂的计算。 - compute node
计算节点,只用于计算,应用于包括流计算、分布式关联、机器学习、数据分析等场景。计算节点不存储数据,故在该节点上不能建库建表,但可以通过loadTable
加载数据进行计算。可以通过在集群中配置计算节点,将写入任务提交到数据节点,将所有计算任务提交到计算节点,实现存储和计算的分离。2.00.1版本开始支持计算节点。
综上,API 发起的 SQL 查询可以提交到一个协调节点(coordinator) 来完成数据的查询和计算请求。 coordinator 可以是集群中的 data node 或者 compute node。当使用 2.00.1 及以上版本时,用户可以通过在集群中配置 compute node,将 SQL 查询任务全部提交到 compute node,实现存储和计算的分离。下面以 API 向 coordinator 发起一次 SQL 查询为例,讲述整个过程中所调度的所有线程。
step1:DolphinDB 客户端向 coordinator 发起数据查询请求
以 coordinator 为 data node 为例,例如发起一次聚合查询,查询语句如下:
select avg(price) from loadTable("dfs://database", "table") where year=2021 group by date
相关文章