高性能架构模式(一):数据库集群如何实现高性能?
在具体的实践过程中,为了更快、更好地设计出的架构,除了掌握一些架构基础知识外,还需要掌握业界已经成熟的各种架构模式。在大部分情况下,我们做架构设计主要都是基于已有的成熟模式,结合业务和团队的具体情况,进行一定的优化或者调整;即使少部分情况我们需要进行较大的创新,前提也是需要对已有的各种架构模式和技术非常熟悉。
一.读写分离
“读写分离”,其本质是将访问压力分散到集群中的多个节点,但是没有分散存储压力;其实现方式可以是一主一从,也可以是一主多从,其中,数据库主机负责读写操作,从机只负责读操作。读写分离的逻辑实现并不是很复杂,但有两个细节,会引入复杂度,分别是:主从复制延迟(网络问题)和分配机制(数据读取问题)。
主从和主备经常被提起,但是这两个概念并不等同:
“主从”:其中的“从”可以理解为“仆从”,仆从是要帮主人干活的,“从机”是需要提供读数据的功能的。
“主备”:其中的“备机”一般被认为仅仅提供备份功能,不提供访问功能。
1.主从复制延迟
读写分离主从机制的实现,意味着需要进行数据备份(不同主机间),那么就会存在数据复制延迟的行为(网络传输)。以 MySQL 为例,主从复制延迟可能达到 1 秒、1分钟、甚至更久。如果数据写入主机后,然后去从机读取数据,因为复制延迟,导致读取的数据为空,那么,就可能会影响到业务。
解决主从复制延迟有几种常见的方法:
业务绑定:写操作后的读操作指定发给数据库主服务器
需要和对应的业务进行强关联
二次读取:读从机失败后再读一次主机
业务分类:关键业务读写操作全部指向主机,非关键业务采用读写分离
2.分配机制
分配机制主要指的是将读写操作区分开来,然后访问不同的数据库服务器,其实就是如何访问读写分离的数据库集群。其使用方式一般有两种:程序代码封装和中间件封装。
这里并没有介绍这两种方案的具体实现细节,旨在概括总的方向。
(1)程序代码封装
程序代码封装指在代码中抽象一个数据访问层,实现读写操作分离和数据库服务器连接的管理。例如,基于 Hibernate 进行简单封装,就可以实现读写分离。其基本结构表如下:
该方式实现起来简单,但是每个编程语言都需要自己来实现,没有办法通用,并且,在发生故障情况下,如果发生主从切换,那么可能需要所有系统都修改配置并重启。
(2)中间件封装
中间件封装指的是独立一套系统出来,实现读写操作分离和数据库服务器连接的管理。其基本结构如下:
其特点如下:
支持多种编程语言。
支持完整的 SQL 语法和数据库服务器的协议。
数据库中间件自己不执行真正的读写操作,但所有的数据库操作请求都要经过中间件,中间件的性能要求也很高。
数据库主从切换对业务服务器无感知。
开源数据库中间件方案:
MySQL 官方提供了 MySQL Proxy(没有正式 GA)
MySQL 官方推荐 MySQL Router
奇虎 360 公司开源的数据库中间件 Atlas
二.分表分库
“读写分离”,的本质只是将访问压力分散到集群中的多个节点,但是没有分散存储压力;而“分库分表”,既可以分散访问压力,又可以分散存储压力。看着如此强大,却是在引入了复杂度和放弃一定功能的基础上完成的。
1.业务分库
业务分库指的是按照业务模块将数据分散到不同的数据库服务器。这样,每个业务模块都有自己的数据库,而不是所有的模块共用一个数据库,这样,也就降低了数据库的压力,提升了数据库的性能。
在软件架构中,是没有完美的方案的,解决一个问题的同时,有可能会引入新的问题。拿业务分库来说,会引入以下一些问题:
join 问题
原本在一个数据库中的数据,现在分散到了多个数据库上,那么,表之间的 join 就无法使用(不同数据库的表之间,是没办法 join 的)。
事物问题
MySQL 提供了事物的特性,在同一个数据库中,支持很好。但是数据分库后,就是不同系统间的交互了,也就是引入了分布式事物的问题。虽然数据库厂商提供了一些分布式事务的解决方案(例如,MySQL 的 XA),但性能实在太低,与高性能存储的目标是相违背的。
分库后就无法使用数据库事务了,那么就需要业务程序自己来模拟实现事务的功能。
成本问题
原来只需要一台服务器就能处理,现在需要多台,成本会增加。这些成本对对于小公司初创业务来说,会表现的更加的严重。
2.分表
分库只是将不同的业务模块,做了拆分,是一种垂直方向拆分的手段。但是,当表的数据超过的千万的时候,就需要考虑分表(水平分表)了,其依据一般是表的大小,而不是表行数据的多少。
单表数据拆分有两种方式:垂直分表和水平分表。示意图如下:
单表的拆分,并不强制要求切分后的多表必须分散在不同的数据库中,器原因在于,单表切分为多表后,新的表即使在同一个数据库服务器中,也可能带来可观的性能提升,如果性能能够满足业务要求,是可以不拆分到多台数据库服务器的。
分表是可以降低存储压力和性能提升的,但是,和分库一样,依旧会引入复杂度。
(1)垂直分表
垂直分表主要是对表中的字段进行拆分,适合将表中某些不常用且占了大量空间的列拆分出去。其复杂度的体现为:操作表的数量会增加。
(2)水平分表
水平分表适合表行数特别大的表,相对于垂直分表,会引入更多的复杂性,如下所示:
路由
数据在进行水平分表时,某条数据具体属于哪个切分后的子表,需要增加路由算法进行计算,这样,在查找的时候,才能更加快速的定位数据。常见的路由算法有:范围路由、Hash 路由、配置路由。
(1)范围路由:将某一段范围的值,路由到同一张表中。其优点是数据能够进行平滑的扩充;其缺点是数据可能分布不均匀。
(2)Hash 路由:计算某些列的 hash 值,将相同 hash 值的数据,路由到一张表中。其优点是表的数据分布较均匀;其缺点是数据扩充会比较麻烦。可借鉴一致性哈希的方式来优化。
(3)配置路由:使用一张路由配置表,来记录数据和分片表的对应关系。其优点是设计简单,扩充表数据也比较容易;其缺点是会增加一次SQL查询,且路由表本身过大的时候,也会降低性能。
join 操作
水平分表后,数据分散在多个表中,如果需要与其他表进行 join 查询,需要在业务代码或者数据库中间件中进行多次 join 查询,然后将结果合并。
count() 操作
这里的count() 不再是一张表的简单统计,常见方式有两种:count() 相加、记录数表
(1)count() 相加:分别对每张表做 count(),然后再汇总返回给客户端。其优点是实现简单;其缺点是性能较差。
(2)记录数表:使用一张记录表来专门记录总条数。其优点是性能较好;其缺点是要额外的维护记录数表。
order by 操作
水平分表后,数据分散到多个子表中,排序操作无法在数据库中完成,只能由业务代码或者数据库中间件分别查询每个子表中的数据,然后汇总进行排序。
3.实现
不管是分库还是分表,其实现方式都和读写分离类似,可分为“程序代码封装”和“中间件封装”,只是,其实现的复杂度相比读写分离会更高。读写分离实现时只要识别 SQL 操作是读操作还是写操作,而分库分表的实现除了要判断操作类型外,还要判断 SQL 中具体需要操作的表、操作函数(例如 count 函数)、order by、group by 操作等。
相关文章