独立表空间结构(2)之段---InnoDB表空间（二十八)

2023-01-31 00:00:00 查询数据都是节点叶子

上篇文章我们说了，表空间的区概念，我们都知道mysql的数据是存放在页里，一个页有16kb，而表空间能存放64TB的数据，为了提高查询效率，表空间里又吧页分为多个区，64个页也就是大概1M为一个区，而256个区为一组，每组的前几个页都是存储固定的结构数据。

段（segment）的概念

为啥会突然出现区（extent）的概念呢？我们以前说的查询数据不都是直接查询b+树，b+树的节点就是数据页存放的数据，通过聚簇索引和二级索引查询。

是的，如果表里数据很少，可以直接这样查询，但如果表里数据越来越多呢？

我们以前查询的话也是通过fil_page_prev和fil_page_next连接成的页的双向链表，来查询我们需要的数据。

是的，理论上不引入区对数据查询影响不大，但我们不妨设想以下场景：当我们表里存放的数据越来越多，因为页是通过双向链表连接起来的，物理位子存储的距离可能会很远，这时候如果沿着双向链表扫描，就是所谓的随机I/O。再次强调，磁盘的速度和内存的速度差好几个量级，所以这种情况就会导致查询非常慢。

所以，引入了区(extent)的概念。所以当表里存储的数据非常多的时候，并不是按照页为单位来分配数据的，而是按照区的单位来分配的，甚至当表里的数据非常多时，会吧数据分配在多个连续的区里，这样查询的时候会避免随机I/O带来的性能损耗，虽然这样会浪费存储内存（区的内存可能会因为数据不够而没存储满，但比随机I/O查询性能更高）。

那么段又是什么呢？由上面的基础延伸，我们查询数据的时候，其实就是对b+树节点进行扫描，那如果吧叶子节点和非叶子节点都放在一起进行扫描，是不是就太多了。所以mysql设计者吧叶子节点和非叶子节点的区放在不同的内存，区别对待，而他们自己独有的区就称为段(segment)，叶子节点有自己独有的段，非叶子节点也有自己独有的段。也就是说，不论是聚簇索引还是二级索引，一个索引都会生成两个段，一个是叶子节点段，一个是非叶子节点段。

问：

默认情况下，我们一个聚簇索引会生成段，一个叶子节点段，一个非叶子节点段而段是以区为单位进行存储的，一个区为1M，意味着存少量的数据会用2M内存吗？以后每次添加一条索引都要申请2M的内存？这简直就是天大的浪费。

这是因为我们现在介绍的区都是非常纯粹的，他都是完整的属于一个段，如果区的页内存没有用完，他的剩余页的内存也不可以存储其他段的数据。那么考虑到较小数据量存到区内页这种情况。Mysql设计者们提出了碎片区（fragment）区的概念。也就是在fragment中，不是所有的页都是为了存储同一个段的数据的，比如存了叶子节点段的数据，也可以存非叶子节点段的数据，不属于任何一个段，是只属于表空间结构管理的，他的策略是这样：

刚开始向表中插入数据，段是从某个碎片区以页面为单位来分配存储空间的。

当某个段已经占用了32个碎片区页面后，就会升级为完整的区来分配存储空间。

所以，由上可以知道，段是零散页面碎片区的集合以及完整区的集合，innoDB为了存储一些特殊的数据，除了叶子节点段和非叶子节点段外，还有许多额外的段，比如回滚段，这些后面会一一介绍。

相关文章