初探分布式系统之数据拆分

2019-08-11 00:00:00 拆分分布式初探

个人对分布式系统的涉及很感兴趣，但分布式系统涉及的知识非常多，刚开始学习时也是各个点分散的学习。前两天对于数据拆分这一块做了一个总结，因此记录下来。

技术出现的原因都是为了解决问题，本文章也是按照这个思路去探讨的。

为什么需要将数据库内的数据进行拆分

一台机器的处理能力有限，当数据量大了后性能下降，而且硬件单机成本不高。

如何拆分

垂直分库(根据业务单元的不同把表分到不同的主机，单台机器能够处理的请求数量有限)
水平分表(当一张表的数据多了之后查询效率就会很慢，可以根据字段范围划分不同的表，学生表的id字段，1~10000分为一张表，10000~20000分为另一张表)

拆分带来的问题

单机ACID打破，引入了分布式事务(难点)
join操作困难，查询跨库
自增id受到困难

解决方案

分布式事务：两阶段提交(2pc),大概意思就是分布式系统中有一个事务管理器(TM),执行分布式事务时向每个资源申请，资源返回全都OK后再向每个资源提交事务，同样等待每个资源返回OK后就完成事务，其中任何一个环节出现erro则回滚。坏处很明显性能太差，高并发系统根本不能使用。

    业界现使用消息队列来解决分布式事务(RocketMQ)具体步骤如下：
    1.MQ发送方发送消息到MQServer
    2.MQServer接收并回应,表明以成功到达
    3.MQ发送方Commit本地事务
    4.若Commit成功则通知MQServer该消息可被消费，失败则表明该消息应被丢弃
    5.若MQ发送方超时未对MQServer发送状态，则主动回查事务状态

《初探分布式系统之数据拆分》

跨库join操作：转化为多个数据库的查询，我们设计数据库时也应尽量避免产生跨库操作。
自增id：单独做一个id生成器的服务，对于每次请求还可以分配一段id，减少请求次数，增加速度。

    原文作者：诗和远方丶
    原文地址: https://segmentfault.com/a/1190000012070088
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

相关文章