从Datomic出发,革命性的非NoSQL数据库

2022-03-25 00:00:00 查询 数据 数据库 设计 对等

我终于设法了解了当今不寻常的数据库之一,Datomic,并希望与您分享。 感谢Stuart Halloway和他的工作室!

为什么?!?

我们将很快看到,Datomic与传统的RDBMS数据库以及各种NoSQL数据库有很大的不同。 它甚至不是数据库-它是数据库之上的数据库。 直到现在我都无法解决这个问题。 理解Datomic及其独特设计和优势的关键实际上很简单。

主流数据库(和语言)是围绕1970年代的以下约束设计的:

  • 内存很贵
  • 存储很贵
  • 有必要使用专用的昂贵机器

Datomic本质上是对如果没有这些约束的话我们应该设计什么样的数据库的探索。 我们将选择什么样的设计来拥有千兆字节的RAM,具有与带宽和速度相匹配的网络,并且具有超越硬盘访问的能力,以及一时兴起地旋转和杀死服务器的能力。

但是Datomic并不是一个学术项目。 这是务实的,它想适应我们现有的环境,并让我们现在就可以轻松开始使用其未来功能。 而且它不像看起来那样新鲜和绿色。 据报道,Clojure和Datomic背后的主要思想家Rich Hickey已经考虑了这两个项目很多年了,而且设计也经过了深思熟虑。

Datomic的怪异架构

  1. Datomic是位于另一个数据库(或存储)之上的数据库–内存,文件系统,传统的RDBMS,Amazon Dynamo。
  2. 您不将查询发送到服务器并获取结果。 相反,您取回了执行查询并在本地运行查询和所有后续查询所需的所有数据。 因此,“联接”非常便宜,您可以做很多其他不可能的事情(组合来自多个数据库和本地数据结构的数据,在它们上运行任何代码,…)。 每个使用Datomic(即“对等”)的应用程序都将根据其独特的需求和使用模式,将所需的数据与自身紧密联系在一起。
  3. 所有写操作都通过一个称为Transactor的组件进行,该组件实质上对写进行序列化 ,从而确保ACID 。 听起来可能是一个瓶颈,但考虑到设计和典型的应用需求,它并不是实用的[1] 。 (据报道,Datomic可以处理世界上所有信用卡的所有交易。在Kurt Zimmer的Relevance Podcast中收听Room Key的大量写入操作(Podcast Episode 033) 。)
  4. Datomic的工作原理与版本控制系统(如Git)非常相似。 它永远不会覆盖数据,也没有更新。 您只需将数据标记为,然后添加新数据即可生成新版本的数据库(请考虑git hash / svn修订号)。 然后,您可以查询数据库的新状态或特定版本的状态。 (当然,无论何时向数据库添加事实,都不会复制整个数据库。Datomic既聪明又高效。)
  5. 它不是单个的整体服务器,存储,事务处理程序和对等点在物理上是分开的。

是什么使这成为可能?

  • 网络访问速度快于磁盘访问=>可以通过网络获取所有数据
  • 大量内存=>可以根据其实际需求在每个对等体上存储大量的子集
  • 存储量巨大且价格便宜=>我们可以轻松存储历史数据
  • 具有现代FP语言中使用的高效,不变,“持久”数据结构的经验=>廉价地创建新的“数据库值”

Datomic的独特价值主张和能力

现在,我们已经了解并希望了解Datomic的独特设计。 但是它给我们带来了什么,与其他数据库有什么区别?

该体系结构以及其他一些设计决策提供了以下关键特征:

  • 可编程性–数据,架构,查询输入/输出,事务元数据都是对等点上完全可用的基本数据结构,因此可以以以前无法想象的强大方式进行组合和处理
  • 持久性/问责制-您永远不会丢失历史记录,可以使用有关谁/为什么等的元数据来注释事务,支持查找事物的状态,事物的变化方式,进行假设分析
  • 弹性可伸缩性–由于许多负载已被推到对等端
  • 灵活性–无需严格的架构,易于根据每个对等方的独特需求进行导航,合并和缓存数据,并通过数据功能进行扩展

结束语

Datomic具有与关系数据库(尤其是ACID)相似的目标,并且可以在类似的用例中使用。 从性能角度来看,如果写入比读取更重要,或者您确实需要每秒连续写入大量数据,或者您的行数超过数十亿,那么您可能会更喜欢另一种解决方案。 得益于针对重负载安装的设计和建议的体系结构,即在存储器前面安装了memcached,后端的性能并不重要(因为对等方拥有本地所需的数据或从memcached获取数据),因此应该根据使用相关的特征选择更多。

摘要

Datomic的设计–在本地获取数据和运行查询的同级,单个写入协调器(事务处理程序),基于现有数据库/存储工具(并保留所有历史记录)的方法对我来说似乎很奇怪,可能对我来说效率很低,直到我意识到传统数据库是围绕不再存在的约束设计的。 Datomic现在对我来说很有意义,并且似乎是一种具有令人着迷的功能和巨大潜力的工具。 希望您现在也能看到。

我遗漏了一些有趣的主题,例如可以在Datomic中存储哪些数据结构以及使用的数据模型和查询模型。 要了解有关Datomic的更多信息,请访问5岁 儿童Datomic和Datomic的主页 。

奖励链接

  • Datomic中的乐观和悲观锁定的数据功能 (论坛答案)
  • HighScalability.com:VoltDB消除了六个SQL城市神话,并在过程中提供了Internet规模的OLTP – VoltDB的体系结构描述,与Datomic有一些共同点(单线程写入,作为事务单位的“存储过程”等) )
  • VoltDB – Mike Stonebraker令人难以置信的可伸缩性,SQL,ACID数据库,它也打破了70年代的约束,并利用了巨大的RAM,单线程访问等功能。

[1] Harizopoulos,S.,Abadi,DJ,Madden,S.,&Stonebraker,M.(2008年6月)。 OLTP穿过窥视镜,以及我们在那里发现的东西 。 在2008年ACM SIGMOD国际数据管理会议论文集 (第981-992页)中。 ACM。 –本文表明,传统的RDBMS在锁定和闩锁上花费了将近30%的时间,这可以通过单线程访问消除,VoltDB也可以这样做。 另请参见VoltDB白皮书 。 

参考: The Holy Java博客上的JCG合作伙伴 Jakub Holy 的Datomic,革命性的非NoSQL数据库的意义 。

相关文章