MongoDb 快速入门教程

2020-05-22 00:00:00 数据库文档集合关系字节

CAP定理（CAP theorem）

在计算机科学中, CAP定理（CAP theorem）, 又被称作布鲁尔定理（Brewer's theorem）, 它指出对于一个分布式计算系统来说，不可能同时满足以下三点:

一致性(Consistency) (所有节点在同一时间具有相同的数据)
可用性(Availability) (保证每个请求不管成功或者失败都有响应)
分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)

CAP理论的核心是：一个分布式系统不可能同时很好的满足一致性，可用性和分区容错性这三个需求，多只能同时较好的满足两个。

因此，根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三大类：

CA - 单点集群，满足一致性，可用性的系统，通常在可扩展性上不太强大。
CP - 满足一致性，分区容忍性的系统，通常性能不是特别高。
AP - 满足可用性，分区容忍性的系统，通常可能对一致性要求低一些。NoSQL的优点/缺点

优点:

- 高可扩展性
- 分布式计算
- 低成本
- 架构的灵活性，半结构化数据
- 没有复杂的关系

缺点:

- 没有标准化
- 有限的查询功能（到目前为止）
- 终一致是不直观的程序BASE

BASE：Basically Available, Soft-state, Eventually Consistent。由 Eric Brewer 定义。

CAP理论的核心是：一个分布式系统不可能同时很好的满足一致性，可用性和分区容错性这三个需求，多只能同时较好的满足两个。

BASE是NoSQL数据库通常对可用性及一致性的弱要求原则:

Basically Availble --基本可用
Soft-state --软状态/柔性事务。 "Soft state" 可以理解为"无连接"的, 而 "Hard state" 是"面向连接"的
Eventual Consistency -- 终一致性，也是是 ACID 的终目的。

ACID vs BASE

NoSQL 数据库分类

MongoDb 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能丰富，像关系数据库的。它是可扩展的高性能数据存储解决方案，经常被用于非关系型数据的存储，能存储海量的数据。常见的非关系型数据库还有：Redis，但 MongoDb 比 redis 更具有数据库的特性。

MongoDb的基本数据结构

与 MySQL 等关系型数据库一样，MongoDb 也有类似的概念，但是其称呼不同。下表列出了 MongoDb 的基本数据结构以及与 MySQL 的对比。

可以看到 MongoDb 与 SQL 的数据库概念都是一致的，而 MongoDb 中数据库表（Table）则称之为集合（Collection），行（Row）则称为文档（Document），列（Column）则称为字段（Field）。

文档相当于关系型数据库中的行。它一组键值对，具有动态的模式，所以文档不需要设置相同的字段，并且相同的字段不需要相同的数据类型，这一点，跟关系型数据库有很大的不同。注：

文档中的键/值对是有序的。
MongoDB区分类型和大小写。
MongoDB的文档不能有重复的键。
键不能含有\0 (空字符)。
.和$有特别的意义，只有在特定环境下才能使用。

集合即表格，即表
集合存在于数据库中，集合没有固定的结构。
这意味着可以往集合里插入任何的格式。
通常情况下，插入的数据具有关联性
合法的集合名：集合名不能是空字符串
集合名不能含有\0
集合名不能以system开头
创建的集合名不能有保留字，因为系统生成的集合包含有$

元数据

数据库的信息存储在集合中，使用了系统命名的空间

命令

insert方法向目标集合插入一个文档，这个操作会给文档自动增加一个"_id"键（要是原来没有的话），然后将其保存到MongoDB中；在shell中，可以使用batchInsert函数实现批量插入，它与insert函数非常像，只是它接受的是一个文档数组作为参数：db.foo.batchInsert([{"_id" : 0}, {"_id":1},{"_id":2}])

find和findOne方法可以用于查询集合里的文档，若只想查看一个文档，可以用findOne；

find和findOne可以接受一个查询文档作为限定条件，因此可以查询符合一定条件的文档，使用find时，shell会自动显示多20个匹配的文档，也可获取更多文档。

update接受（至少）两个参数：一个是查询文档（限定条件），用于定位需要更新的目标文档；另一个是修改器（modifier）文档，用于说明要对找到的文档进行哪些修改。简单的更新就是用一个新文档完全替换匹配的文档。这适用于进行大规模模式迁移的情况。

remove方法可将文档从数据库中删除。如果没有使用任何参数，它会将集合内的所有文档全部删除。它可以接受一个作为限定条件的文档作为参数。删除数据是性的，不能撤销，也不能恢复。删除文档通常很快，但是如果要清空整个集合，那么使用drop直接删除集合会更快（然后在这个空集合上重建各项索引）。

数据类型

null 用于表示空值或者不存在的字段；

布尔型有两个值true和false；

数值：shell默认使用64位浮点型数值。对于整型值，可使用NumberInt类（表示4字节带符号整数）或NumberLong类（表示8字符带符号整数）；

字符串：UTF-8字符串都可表示为字符串类型的数据；

日期，被存储为自新纪元以来经过的毫秒数，不存储时区；

正则表达式：查询时，使用正则表达式作为限定条件，语法也与JavaScript的正则表达式语法相同；

数组：数据列表或数据集可以表示为数组

内嵌文档：文档可嵌套其他文档，被嵌套的文档作为父文档的值；

对象id：是一个12字节的ID，是文档的标识，ObjectId的12字节按照如下方式生成：

ObjectId的前4个字节是从标准纪元开始的时间戳，单位为秒。这会带来一些有用的属性。

时间戳，与随后的5字节（稍后介绍）组合起来，提供了秒级别的性。
由于时间戳在前，这意味着ObjectId大致会按照插入的顺序排列。这对于某些方面很有用，比如可以将其作为索引提高效率，但是这个是没有保证的，仅仅是“大致”。
这4字节也隐含了文档创建的时间。绝大多数驱动程序都会提供一个方法，用于从ObjectId获取这些信息。

因为使用的是当前时间，很多用户担心要对服务器进行时钟同步。虽然在某些情况下，在服务器间进行时间同步确实是个好主意，但是这里其实没有必要，因为时间戳的实际值并不重要，只要它总是不停增加就好了（每秒一次）。

接下来的3字节是所在主机的标识符。通常是机器主机名的散列值（hash）。这样就可以确保不同主机生成不同的 ObjectId，不产生冲突。

为了确保在同一台机器上并发的多个进程产生的ObjectId是的，接下来的两字节来自产生ObjectId的进程的进程标识符（PID）。

前9字节保证了同一秒钟不同机器不同进程产生的ObjectId是的。后3字节是一个自动增加的计数器，确保相同进程同一秒产生的ObjectId也是不一样的。一秒钟多允许每个进程拥有256 3 （16 777 216）个不同的ObjectId。

相关文章