分布式事务

数据库分库分表

SOA化

X/OpenDTP事务模型

X/Open Distributed Transaction Processing Reference Model

X/Open是一个组织机构，定义出的一套分布式事务标准，定义了规范的API接口

2PC（two -phase-commit）, 用来保证分布式事务的完整性

J2EE 遵循了X/open DTP规范，设计并实现了java里面的分布式事务编程接口规范-JTA

XA是X/Open DTP定义的中间件与数据库之间的接口规范。 XA接口函数由数据库厂商提供

X/OpenDTP 角色

AP application

RM resouces manager 资源管理器。数据库

TM transaction manager 事务管理器，事务协调者

2PC（two -phase-commit）

(CAP)

阶段一：提交事务请求（投票）

TM向所有的AP发送事务内容，询问是否可以执行事务的提交操作，并等待各个AP的响应
执行事务

各个AP节点执行事务操作，将undo和redo信息记录到事务日志中，尽量把提交过程中所消耗时间的操作和准备都提前完成后确保后续

事务提交的成功率

各个AP向TM反馈事务询问的响应

各个AP成功执行了事务操作，那么反馈给TM yes的response；如果AP没有成功执行事务，就反馈TM no的response

阶段二：执行事务提交

执行提交事务

假设一个事务的提交过程总共需要30s，其中prepare操作需要28（事务日志落地磁盘及各种io操作），而真正commit只需要2s

那么，commit阶段发生错误的概率和prepare相比， 2/28 (<10%) .只要第一个阶段成功，那么commit阶段出现失败的概率就非常小

大大增加了分布式事务的成功概率

中断事务提交

2pc存在的问题

数据一致性问题
同步阻塞

3PC(three phase commit)

阶段一：canCommit

阶段二：preCommit

阶段三：doCommit

三阶段的缺点

分布式事务的实现

JOTM(java open transaction manager)

Atomikos（多数据源配置）

TCC//TODO

互联网行业的解决方案：

最终一致性方案之ebay模式

eBay在2008年公布了一个关于BASE准则提到一个分布式事务解决方案。eBay的方案其实是一个最终一致性方案，它主要采用消息队列来辅助实现事务控制流程，方案的核心是将需要分布式处理的任务通过消息队列的方式来异步执行，如果事务失败，则可以发起人工重试的纠正流程。人工重试被更多的应用于支付场景，通过对账系统对事后问题进行处理

比如一个很常见的场景：某个用户产生了一笔交易，那么需要在交易表中增加记录，同时需要修改用户表的金额（余额），由于这两个表属于不同的远程服务，所以就会涉及到分布式事务与数据一致性的问题

user(id, name, amt_sold, amt_bought)

transaction(xid, seller_id, buyer_id, amount)

begin;

INSERT INTO transaction VALUES(xid, $seller_id, $buyer_id, $amount);

UPDATE user SET amt_sold = amt_sold + $amount WHERE id = $seller_id;

UPDATE user SET amt_bought = amt_bought + $amount WHERE id = $buyer_id;

commit;

那么在这里可以使用消息队列（MQ）来做

先启动一个事务，更新交易表（transaction）后，并不直接更新user表，而是将要对user表进行的更新插入到消息队列中。

目标系统收到该消息以后，启动本地事务去对用户表的余额做调整

伪代码

bool result=dao.update();

if(result){

mq.send();

}

根据上面的伪代码的实现方案，可能出现几种情况

数据库操作成功，向MQ中投递消息也成功
操作数据库失败，不会向MQ中投递消息
操作数据库成功，但是向MQ中投递消息时失败，向外抛出异常。数据库操作回滚

对于上面几种情况，问题都不大。那么我们分析小消费端的问题

消息出队列以后，消费者对应的业务操作要执行成功。如果执行失败，消息不能失效或者丢失。需要保证消息和业务操作一致
尽量避免消息重复消费，如果重复消费，也不能影响业务的执行结果

对于第一个问题，如何保证消息不丢失

现在用的比较普遍的MQ都具有持久化消息的功能，如果消费者宕机或者消费失败，都可以执行重试机制

对于如何避免消息的重复消费

保证消费者的幂等性；也就是说如果队列中的消息因为网络异常导致发送多次的情况下，仍然需要保证消息被应用多次与应用一次产生的效果是一样的
通过消费日志表来记录消费状态；增加一个message_applied（msg_id）表，用来记录已经被成功应用的消息。在目标系统执行更新操作之前，先检测该消息是否已经被消费过，消费完成后通过本地事务控制来更新这个“消费表状态”，用来避免消息重复消费问题

上面这种方式是非常经典的实现，基本避免了分布式事务，实现了“最终一致性”。

各大知名的电商平台和互联网公司，几乎都是采用类似的设计思路来实现“最终一致性”的。这种方式适合的业务场景广泛，而且比较可靠。不过这种方式技术实现的难度比较大

保证最终一致性的模式

查询模式

衰减查询

任何一个服务操作都提供一个查询接口，用来向外部输出操作执行的状态。服务操作的使用方可以通过接口得知服务操作执行的状态，然后根据不同状态做不同的处理操作

为了能够实现查询，每个服务操作都需要有唯一的流水号

补偿模式

有了查询模式，我们就能够得知操作所处的具体状态，如果整个操作处于不正常状态，我们需要修正操作中的出现问题的子操作。也许是要重新执行，或者取消已完成的操作。通过修复使得整个分布式系统达到最终一致。这个过程就是补偿模式

根据发起形式又分为

自动恢复：通过对发生失败操作的接口自动重试或者回滚已经完成的操作

通知运营：如果程序无法自动完成恢复，则通过运营人员手动进行补偿

通知技术：通过监控或者告警通知到技术人员，通过技术手段进行修复

3TCC

如何更通俗的理解TCC事务模型

支付系统接收到会员的支付请求后，需要扣减会员账户余额、增加会员积分（暂时假设需要同步实现）增加商户账户余额

会员系统、商户系统、积分系统是独立的三个子系统，无法通过传统的事务方式进行处理。

TRYING阶段：我们需要做的就是会员资金账户的资金预留，即：冻结会员账户的金额（订单金额）

CONFIRMING阶段：我们需要做的就是会员积分账户增加积分余额，商户账户增加账户余额

CANCELING阶段：该阶段需要执行的就是解冻释放我们扣减的会员余额

阅读系列--分布式事务