RethinkDB介绍

2022-04-08 00:00:00 数据支持是一个官网闪存

无意中看到redis作者在博客中推荐了RethinkDB，早上来简单了解了下，记录下：

RethinkDB是一个完全支持Memcached协议、数据可持久化的工业级key-value存储系统。
RethinkDB官网介绍如下：

RethinkDB is built to store JSON documents, and scale to multiple machines with very little effort. It has a pleasant query language that supports really useful queries like table joins and group by, and is easy to setup and learn

Simple programming model:

JSON data model and immediate consistency.
Distributed joins, subqueries, aggregation, atomic updates.
Hadoop-style map/reduce.
Easy administration:

Friendly web and command-line administration tools.
Takes care of machine failures and network interrupts.
Multi-datacenter replication and failover.
Horizontal scalability:

Sharding and replication to multiple nodes.
Queries are automatically parallelized and distributed.
Lock-free operation via MVCC concurrency.
以上为官网的简单介绍，官网也有详细的测试。
在网上查了下一些资料，摘要如下：

RethinkDB的特点：
- 随CPU个数线程扩展
- SSD上速度快十倍
- 节省内存空间
- 断电后及时恢复
- 细化的持久性控制
- 支持上万的并发连接数
- 支持裸盘设备，多磁盘上自动数据分区

RethinkDB的设计思想
1.B树会产生大量的随机写操作，对闪存寿命的负面影响很大。
2.闪存具有良好的随机读性能，所以B树和cluster index变得不再重要。
3.基于以上判断，RethinkDB采用append-only的方式来管理数据和索引，消除闪存上的随机写操作

Append-Only的影响
优点：
1.数据一致性(Data Consistency)。
- 所有更新追加到文件尾部，其他部分没有任何修改
- 文件的其余部分提供了一个完全一致的数据库
2.热备份(Hot Backups)。
- 在数据库文件被修改的同时可以拷贝一致数据
- 可简单地实现增量备份
3.及时恢复(Instantaneous Recovery)
- 数据库本身就类似于一个事务日志
- 恢复时直接截断数据库文件到一个已知一致的事务
缺点：
1) 在一个insert或者update很频繁的workload下，大量数据很快就会过期；
2) append-only消除了数据组织的数据局部性，虽然在SSD上随机读代价很小，但是仍旧是一个问题；
3) 对于索引结构来说，每50MB的数据会生成2GB的数据存储，需要有效地进行垃圾回收。

上面内容来自一PPT，RethinkDB & TokuDB调研测试报告有兴趣可以下载。

从PPT中查看到，其相关性能在并发足够大时，相关性能相比Memcache还是更占优势。

但memcache只是缓存，它可以支持持久化存储，且完全支持Memcache协议!

更多是针对SSD做的优化。

目前官网有免费版与商业版！以上内容只供参考！

相关文章