多数据源定时采集任务问题,分布式定时任务管理问题。

1. 背景

在开发过程中,可能会涉及到多数据源采集任务任务。例如:定时从多台 FTP 服务器上扫描下载文件 ,或定时从多个库/表中扫描数据,进行业务处理。

通常情况下,我们会结合quartz、xxl-job等定时任务去执行。如果只编写定时任务,获得定时执行的效果,直接引入定时任务框架,并编写定时任务即可。对于失败场景如何处理呢?或者说,如果对这些定时任务做统一管理呢?

2. 实现思路

定时任务表

将所有要执行的定时任务提前写到数据表里,编写定时任务对数据表进行扫描,查询未执行和执行失败的任务进行执行。

由于定时任务是规律的周期性,所以可以编写定时任务,持续向数据表中预写数据,例如,提前24小时。另起定时任务对改表进行扫描(扫描当前时间之前的未执行或执行失败的数据)并执行。

优点:
  • 统一管理:对定时任务做统一管理,通过数据表维护定时任务。
  • 断点续传:此处的断点,可以理解成服务中断,当服务器升级或者短暂宕机的情况,重启服务器后,定时任务也不会丢失,扫描到该任务后依旧可以执行。也可以理解成某个服务执行失败,依然可以进行二次扫描再次执行。
缺点:
  • 增加业务复杂性:需要在数据库维护定时任务表,任务执行需要再起一个定时器进行扫描。一个线程写数据,一个线程扫描数据。
  • 数据库压力:高频率的任务例如每分钟,甚至每秒中,对数据库进行读写,是否对数据有负担?
扩展

分布式或集群环境下,定时任务如何控制? 如何避免同一任务多次执行,或者任务丢失问题?

猜你喜欢

转载自blog.csdn.net/weixin_36908494/article/details/108465430