技术探索与实践:我的一次分布式任务调度系统实战经历

代码旅人
2025-06-28 02:08
阅读 503

开篇:为什么我要写这篇文章?

开篇:为什么我要写这篇文章?

大家好,我是一个有着多年后端开发经验的老码农。最近几年一直在做分布式系统的架构优化和研发管理工作。这篇文章的诞生源于我们团队在去年主导重构一个核心业务模块时的一次真实项目经历。

当时我们的系统已经跑了一年多,在高峰期经常出现任务堆积、资源利用率低、无法横向扩展等问题。作为技术负责人,我们决定从头设计并实现一套轻量级的分布式任务调度系统,以支撑未来3~5年的业务发展需要。整个过程中遇到了很多技术挑战、也踩了不少坑,但最终顺利上线并在生产环境中稳定运行至今。

我想借这次机会,把我在这次项目中关于“技术探索与实践”的经验和思考记录下来,希望能给正在面临类似问题的同学一些启发。


问题描述:老系统暴露出的问题

问题描述:老系统暴露出的问题

原来的任务调度逻辑是部署在一台机器上的独立进程,使用定时任务(Quartz)驱动,流程大致如下:

  1. 每隔1分钟查询数据库中待执行的任务。
  2. 根据任务类型调用对应的服务进行处理。
  3. 将处理结果持久化到数据库。

这套架构起初非常简单清晰,也能满足当时的业务需求。但随着任务数量的增长、类型越来越多样化,它的问题逐渐暴露出来:

  • 单点故障严重:调度节点挂掉整个任务流就中断;
  • 并发能力差:任务只能串行或者少量并行处理;
  • 缺乏监控机制:任务失败后不能自动重试,也无法快速定位问题;
  • 难以水平扩展:想提升吞吐量就得升级硬件;
  • 耦合度高:任务调度与任务执行紧耦合,导致代码臃肿不堪。

这些问题直接导致我们在业务高峰期经常出现任务堆积响应延迟变长甚至服务崩溃等情况。用户反馈很差,我们也被业务方“追着骂”。

于是我们决定重构整个任务调度系统,并希望借此机会引入现代架构理念,比如去中心化调度、任务隔离、动态扩缩容等。


解决方案:打造轻量级分布式任务调度平台

解决方案:打造轻量级分布式任务调度平台

我们最初的目标很明确:构建一个分布式的、可伸缩的任务调度系统,支持多种任务类型、具备可观测性、易于维护和扩展

经过一番调研和内部讨论,我们选用了以下核心技术栈:

  • Kubernetes + Docker:用于容器编排和资源管理;
  • Redis + ZooKeeper:负责任务队列分发和调度器选举;
  • Prometheus + Grafana:构建监控体系;
  • gRPC + Protobuf:作为调度器与执行器之间的通信协议;
  • 自研SDK封装任务定义和执行接口
  • MySQL + Elasticsearch:分别用于任务元信息存储和日志检索。

整体架构图大致如下:

┌───────────────┐
│   Scheduler   │ ← 负责任务调度和分配
└──────┬──────┘
       │
┌──────▼──────┐    ┌─────────────────────┐
│ Task Queue  ├──→ │ Worker (Execution)  │ ← 执行具体任务逻辑
└──────┬──────┘    └─────────────────────┘
       │
┌──────▼──────┐
│ Coordinator │ ← 协调调度器主节点选举
└─────────────┘

注:实际实现中我们采用的是Redis List+ZooKeeper的组合来实现任务队列和主调度节点选举。

设计思路简述:

  1. 解耦调度与执行

    • 调度器只负责将任务入队,不关心如何执行。
    • 执行器通过订阅任务队列拉取任务并处理。
  2. 支持弹性扩容

    • 基于K8s,任务处理Worker可以根据负载自动伸缩;
    • Redis的List天然支持多个Worker消费同一队列。
  3. 任务状态跟踪

    • 所有任务状态都持久化到MySQL;
    • 利用Elasticsearch做日志聚合和检索;
    • 提供REST API供外部系统查询任务进度。
  4. 异常处理机制完善

    • 任务失败自动重试;
    • 支持配置最大重试次数和退避策略;
    • 支持手动重试任务、暂停/恢复任务。

代码实践:关键代码片段展示

代码实践:关键代码片段展示

为了让读者更有代入感,下面我贴上几个核心组件的关键代码片段。

1. 任务调度器核心逻辑(伪Java代码)

public class SimpleScheduler {
    
    private final Jedis jedis;
    private final ScheduledExecutorService executor = Executors.newScheduledThreadPool(1);
    
    public void start() {
        // 每10秒扫描一次任务源
        executor.scheduleAtFixedRate(this::dispatchTasks, 0, 10, TimeUnit.SECONDS);
    }
    
    private void dispatchTasks() {
        List<Task> tasks = fetchPendingTasksFromDB(); // 从DB获取待处理任务
        for (Task task : tasks) {
            jedis.rpush("task_queue", task.serialize());
        }
    }
}

2. 任务执行器监听任务队列(Python伪代码)

import redis
import time
from worker import TaskWorker

r = redis.Redis(host='redis-host', port=6379, db=0)
worker = TaskWorker()

while True:
    try:
        _, task_json = r.blpop("task_queue", timeout=10)
        task = json.loads(task_json)
        worker.execute(task)
    except Exception as e:
        log.error(f"Error processing task: {e}")
        time.sleep(1)

3. 任务执行SDK示例接口

public interface TaskHandler {
    String getName(); // 返回任务类型名

    TaskResult handle(TaskContext context); // 执行逻辑
}

// 业务层只需实现对应接口即可注册任务
public class MyTaskHandler implements TaskHandler {
    @Override
    public String getName() {
        return "my-task";
    }

    @Override
    public TaskResult handle(TaskContext context) {
        // 执行你的业务逻辑
        ...
    }
}

踩坑经验:那些只有你遇到才会知道的事儿

在项目的实施过程中,确实踩了几个大坑,值得拿出来跟大家分享一下。

1. 任务重复执行的噩梦

刚开始我们使用的只是简单的Redis List来存放任务,但是很快发现同一个任务会被多个Worker重复执行

这是因为blpop并不是原子操作,特别是在网络波动或消费者处理耗时较长的时候容易触发。

解决方案

  • 使用Redis Streams替代List;
  • 配合XGROUP和XREAD指令确保一条消息只会被一个消费者消费;
  • 引入Ack机制保证可靠性。

2. Worker负载过高导致崩溃

某次线上发布后,我们发现部分Worker节点CPU打满,任务开始积压。

原因分析

  • 新版本任务执行逻辑存在性能瓶颈;
  • 没有限流机制,Worker超负荷运行;
  • 自动扩容策略太慢,来不及反应。

应对措施

  • 在Worker中加入速率限制,控制每秒最多执行N个任务;
  • 设置健康检查指标,一旦超过阈值就告警;
  • 对K8s HPA规则进行了优化,增加更细粒度的弹性判断条件。

3. 任务状态不同步的问题

我们在初期没有统一任务状态的流转规则,结果导致前端看到的状态不是最新的,引发了一些资损问题。

解决办法

  • 所有状态变更必须走一致的更新接口;
  • 更新时加上乐观锁;
  • 后台异步同步状态到Elasticsearch。

效果总结:改造后的收获

自从新系统上线以来,我们取得了以下几个方面的显著改善:

维度 旧系统 新系统
平均任务延时 >1分钟 <5秒
最大并发数 ~50 可弹性扩展至1000+
容错率 无重试机制 支持自动重试
系统可用性 ≈90% >99.99%
日常运维成本 显著下降

另外还有一个隐性的收益——团队的技术能力和工程规范有了明显提升,因为我们在项目过程中做了大量的Code Review、单元测试覆盖、灰度发布和AB测试。

而且现在的新系统已经能很好支撑我们后续的扩展需求,比如:

  • 支持动态路由;
  • 接入第三方任务来源;
  • 实现基于AI的任务优先级排序算法。

经验分享:关于技术探索的几点体会

回头来看这次技术探索之旅,我有几点经验和教训想分享给大家:

1. 不要盲目追求“先进”,要结合实际情况

我们最开始差点选择了Apache Airflow来做任务调度引擎,功能确实强大,但它更适合批处理场景,对实时性和轻量化要求高的场景不太合适。

所以技术选型前一定要搞清楚自己到底想要什么,不要被炫技带偏节奏。

2. 小步快跑,持续迭代比一次性完美更重要

一开始我们想着要做得尽可能完善,但在实践中发现很多设想根本跑不通。后来采取“小功能先上线、逐步完善”的方式,大大降低了开发和调试的风险。

3. 工具链和基础设施同样重要

我们花了两周时间搭建CI/CD流水线、监控大盘、日志收集系统,看似耽误进度,实则为后期节省了大量人力。别觉得这些“非功能性需求”是浪费时间。

4. 多和产品、测试沟通,避免“闭门造车”

在初期我们忽略了测试同学的需求,导致后面补了很多边界条件测试用例。后来我们建立了“每日站会+周报”机制,效果好了很多。

5. 技术探索的核心是解决问题,而不是“换框架”

很多时候我们以为换个语言、换中间件就能解决问题,其实不然。真正需要改变的是架构设计、流程规范和协作方式。


结语:技术探索是永无止境的过程

技术探索不是一个终点,而是一个过程。每一次深入的技术实践背后,都是对已有认知的一次突破,也是对未来问题的一次准备。

我希望通过这次真实的项目经验分享,能让更多人少走一点弯路,也能激励大家敢于尝试新技术,用工程思维去解决复杂问题。

如果你也在做类似的系统或者正处在架构演进的十字路口,欢迎留言交流,我们可以一起探讨最佳实践。技术这条路很长,结伴前行才能走得更远。

Keep building, keep learning!

评论 0

最热最新
暂无评论
匿名用户Lv.1
0
影响力
0
文章
0
粉丝