DolphinDB内存管理详解

2022-03-28 00:00:00 数据节点缓存分区内存

DolphinDB是一款支持多用户多任务并发操作的高性能分布式时序数据库软件(distributed time-series database)。针对大数据的高效的内存管理是其性能优异的原因之一。本教程涉及的内存管理包括以下方面：

变量的内存管理：为用户提供与回收编程环境所需内存。
分布式表的缓存管理：多个session共享分区表数据，以提高内存使用率。
流数据缓存：流数据发送节点提供持久化和发送队列缓存，订阅节点提供接收数据队列缓存。
DFS数据库写入缓存：写入DFS的数据先写到WAL和缓存，通过批量写入提升吞吐量。

1. 内存管理机制

DolphinDB向操作系统申请内存块，自行进行管理。当申请的内存块闲置时，系统会定期检查并释放。目前vector和table以及所有字符串的内存分配都已经纳入DolphinDB的内存管理系统。

通过参数maxMemSize设定节点的大内存使用量：该参数制定节点的大可使用内存。如果设置太小，会严重限制集群的性能，如果设置太大，例如超过物理内存，可能会触发操作系统强制关闭进程。若机器内存为16GB，并且只部署1个节点，建议将该参数设置为12GB左右。

以512MB为单位向操作系统申请内存块：当用户查询操作或者编程换进所需要内存时，DolphinDB会以512MB为单位向操作系统申请内存。如果操作系统无法提供大块的连续内存，则会尝试256MB，128MB等更小的内存块。

系统充分利用可用内存缓存数据库数据：当节点的内存使用总量小于maxMemSize时，DolphinDB会尽可能多的缓存数据库分区数据，以便提升用户下次访问该数据块的速度。当内存不足时，系统自动会剔除部分缓存。

每隔30秒扫描一次，空闲的内存块还给操作系统：当用户使用释放内存中变量，或者使用函数clearAllCache释放缓存时，如果内存块完全空闲，则会整体还给操作系统，如果仍有小部分内存在使用，比如512MB的内存块中仍有10MB在使用，则不会归还操作系统。

2. 变量的内存管理

2.1 创建变量

在DolphinDB节点上，先创建一个用户user1，然后登陆。创建一个vector，含有1亿个INT类型元素，约400MB。

示例1. 创建vector变量

 login("admin","123456")  //创建用户需要登陆admin
createUser("user1","123456")
login("user1","123456")
v = 1..100000000
sum(mem().blockSize - mem().freeSize) //输出内存占用结果

相关文章