技术探索与实践的最佳实践:从一次分布式系统升级谈起
引言:为什么我决定写这篇文章

作为一名在后端开发和架构设计领域摸爬滚打了十多年的工程师,我经历过无数技术选型的纠结、系统上线前的焦虑,以及线上突发故障时的手足无措。今天我想分享的是我们团队最近做的一次核心系统的重构项目。这不仅是一次技术上的演进,更是一段充满挑战与反思的成长之旅。
整个项目围绕一个分布式订单处理系统展开,它支撑着公司多个业务线的核心交易流程。随着用户量的激增和新功能需求的不断迭代,原本基于单体架构的老系统逐渐暴露出性能瓶颈和服务耦合严重等问题。而这次重构的目标不仅是性能提升,更重要的是实现高可用性、可扩展性和服务解耦。
在这篇文章里,我会以第一人称的角度,把我在项目中的经验、遇到的问题、踩过的坑,以及最后收获的一些最佳实践都一一讲清楚。希望对正在面临类似问题的你有所帮助。
一、背景介绍与问题描述

我们面临的挑战
老系统最开始是一个典型的 Spring Boot 单体应用,数据库用了 MySQL 单实例 + 主从复制,缓存用的是 Redis。随着公司电商业务的飞速发展,特别是“双11”、“618”等大促期间,系统频繁出现以下问题:
- 订单创建响应时间暴涨(P99 达到 5s+)
- 并发高峰时大量线程阻塞,甚至出现请求雪崩现象
- 日志系统频繁报警,OOM 频发
- 数据库连接池打满,MySQL 响应变慢
- 系统版本更新需要整套发布,出错率高
更糟的是,订单服务与其他子系统(如库存、支付、物流)强耦合,每次接口变动都牵一发动全身,运维部署压力山大。
面对这些问题,我们决定启动系统重构计划。
二、解决方案与技术选型

目标明确:构建一个可扩展的微服务架构
我们最初的想法是将订单模块拆分成独立服务,并引入异步处理机制。但随着讨论深入,我们意识到,仅仅拆分是不够的。我们需要一个整体的技术规划:
核心目标:
- 拆分为多个服务单元,降低耦合
- 支持异步处理,提高吞吐量
- 实现负载均衡与自动扩缩容
- 提供完整的监控和追踪能力
- 保障数据一致性,支持幂等操作
技术栈选型:
| 模块 | 选择方案 | 选型理由 |
|---|---|---|
| 微服务框架 | Spring Cloud Alibaba | 国内成熟生态,社区活跃,适配性强 |
| 注册中心 | Nacos | 易维护,与 Spring Cloud 无缝集成 |
| 分布式事务 | Seata(AT模式) | 支持 TCC 和 AT 模式,适合我们当前业务模型 |
| 消息队列 | RocketMQ | 阿里系消息中间件,性能高,稳定性好 |
| 数据库 | MySQL 分库分表 + ShardingSphere | 满足读写分离和水平分片的需求 |
| 缓存层 | Redis Cluster | 高可用且具备集群能力 |
| 配置管理 | Apollo | 灰度配置能力强,支持多环境切换 |
| 日志 & 监控 | ELK + SkyWalking | 全链路监控 + 可视化分析 |
| 部署方式 | Kubernetes + Helm | 支持弹性伸缩,易于自动化 |
这个选型不是一蹴而就的,而是我们在几个关键节点上反复权衡后的结果。比如我们曾考虑过 Kafka,但在生产环境下发现 RocketMQ 在削峰填谷、顺序消息控制等方面更适合我们的场景;我们也试用过 Sentinel,但因为业务中涉及大量的资金流转,最终选择了 Seata 来管理分布式事务。
三、落地过程:从设计到代码

我们采用了一个循序渐进的策略:先抽离核心逻辑为独立服务,再引入消息异步处理,之后逐步接入其他服务治理组件。
1. 第一步:服务拆分与接口定义
我们将原来的 OrderService 模块作为微服务入口,拆成三个职责明确的服务:
- order-service:核心下单服务,负责订单状态管理
- inventory-service:库存扣减服务
- payment-service:支付服务
我们使用 Feign 调用服务间通信,并统一通过 Nacos 注册:
# application.yml 示例(order-service)
spring:
cloud:
nacos:
discovery:
server-addr: nacos-cluster.prod:8848
Feign 定义示例:
@FeignClient(name = "inventory-service")
public interface InventoryClient {
@PostMapping("/deduct")
boolean deduct(@RequestBody DeductRequest request);
}
虽然 Feign 使用起来简单,但我们也踩了一个小坑:默认的超时设置太短,导致服务依赖之间偶发调用失败。于是我们在全局配置里设置了合理的 Timeout:
feign:
client:
config:
default:
readTimeout: 3000
connectTimeout: 3000
2. 异步处理的引入
订单创建过程中会涉及到库存扣减、支付回调、短信通知等多个步骤,这些操作如果全部同步执行,势必影响主线程性能。
我们决定采用 RocketMQ 的异步发送机制来解耦这些动作:
// 发送订单创建事件
Message<OrderCreateEvent> message = MessageBuilder.withPayload(event).build();
rocketMQTemplate.convertAndSend("ORDER_TOPIC", message);
消费者监听处理:
@RocketMQMessageListener(topic = "ORDER_TOPIC", consumerGroup = "order-group")
public class OrderConsumer implements RocketMQListener<OrderCreateEvent> {
@Override
public void onMessage(OrderCreateEvent event) {
log.info("收到订单事件,ID: {}", event.getOrderId());
// 扣减库存
inventoryClient.deduct(new DeductRequest(event.getProductId(), 1));
}
}
这套机制显著降低了主流程的延迟,也提升了系统的稳定性。
3. 分布式事务的处理
在跨服务操作中,尤其是库存 + 支付这样的组合操作,我们不得不面对分布式事务的问题。
一开始我们尝试使用 Seata 的 AT 模式,它通过代理数据源,自动生成 undo_log 实现回滚。这听起来非常理想,但在实际使用中我们遇到了如下两个问题:
- 对数据库压力较大,undo_log 表频繁写入,影响性能
- 并发冲突情况下事务回滚代价高
为此,我们最终采用了 TCC 两阶段补偿模式:每笔交易预留资源,在确认阶段执行真正的资源变更,失败则调用 Cancel 接口进行撤销。
伪代码示意如下:
public class OrderTccAction {
@TwoPhaseBusinessAction(name = "createOrder")
public boolean prepare(BusinessActionContext ctx) {
// 预占库存、冻结余额等操作
return inventoryService.reserve(ctx.productId, ctx.count);
}
@Commit
public boolean commit(BusinessActionContext ctx) {
// 正式扣除库存,生成订单
return inventoryService.reduceStock(ctx.productId, ctx.count);
}
@Rollback
public boolean rollback(BusinessActionContext ctx) {
// 回退预占库存
return inventoryService.release(ctx.productId, ctx.count);
}
}
这套机制虽然编码复杂些,但对业务透明,适用于我们这种资金敏感的系统。
四、踩坑记录与经验教训
在整个项目推进过程中,我们遇到了不少坑,有些甚至差点造成上线失败。以下是一些印象深刻的教训:
坑一:Seata 配置不当导致事务卡死
刚开始部署 Seata Server 时没有配置合适的重试机制和超时时间,导致某些分布式事务迟迟未提交,最终形成“悬空事务”,后续都无法清理。
解决办法:我们后来在 Seata Client 中增加了主动轮询机制,定期检查长时间未完成的事务,并触发回滚或提交。
坑二:Kubernetes 下的健康检查误判
K8s 默认的 readinessProbe 设置为每秒检测一次,对于我们这种初始化加载数据较多的服务,经常导致容器还没准备完成就被重启。
优化建议:增加 initialDelaySeconds 到 10~15 秒,并根据服务冷启动情况调整探测频率:
readinessProbe:
httpGet:
path: /actuator/health
port: 8080
initialDelaySeconds: 15
periodSeconds: 5
坑三:异步消费顺序乱导致数据不一致
我们有一类订单消息必须按照 ID 分组有序消费,但使用普通 Topic 导致部分订单被不同消费者并发消费,出现了状态覆盖问题。
解决方案:引入 RocketMQ 的顺序消息机制,将同一个 orderId 的消息投递到固定的队列分区,确保顺序执行:
// 发送端指定 key
rocketMQTemplate.convertAndSend("ORDER_TOPIC", message, orderId);
坑四:日志聚合丢失上下文信息
最初我们只是使用 Filebeat 采集日志到 ES,但服务调用链路无法关联,排查问题很困难。
解决方式:引入 SkyWalking 进行全链路追踪,通过 Trace ID 关联各服务日志。同时在日志格式中加上 traceId:
logging:
pattern:
console: "%d{HH:mm:ss.SSS} [%traceId] %-5level %logger{36} - %msg%n"
这样就能在 Kibana 中直接搜索 traceId 查看完整调用链了。
五、效果总结与收益分析
经过两个月的开发、测试和灰度上线,我们的新订单系统取得了明显成效:
| 指标 | 上线前 | 上线后 | 提升幅度 |
|---|---|---|---|
| P99 请求延迟 | 5.2s | 0.7s | 下降86% |
| QPS(峰值) | 5k | 12k | 提升140% |
| 错误率 | 1.2% | <0.1% | 降低91% |
| 故障恢复时间 | 30分钟以上 | <5分钟 | 缩短83% |
| 新服务接入成本 | 高,需改原系统 | 低,插拔式模块 | 极大降低 |
| 版本发布风险 | 高,全量部署 | 低,灰度滚动更新 | 明显改善 |
除了技术指标外,最大的改变是研发效率和运维体验的提升。现在我们可以按模块灰度更新、隔离部署、精准扩容,大大降低了发布风险,提高了系统的稳定性和可维护性。
六、我的几点经验分享
结合这段经历,我想给正在做架构升级或系统重构的朋友几点实用建议:
✅ 从真实业务出发,不要为了微服务而拆分
我见过太多项目为了追潮流而强行拆微服务,结果反而带来更多管理和运维负担。微服务应该是解耦的结果,而不是目的本身。是否拆服务,取决于你的业务边界是否清晰、通信是否复杂、性能是否存在瓶颈。
✅ 技术选型要基于现有团队能力和历史包袱
很多新技术看起来很酷,但如果你的团队没掌握,或者你现有的系统很难迁移,那就不要轻易动。选型的本质是在“先进性”与“可行性”之间找平衡。
✅ 分布式事务没有银弹
无论是 Saga 模式、TCC、还是 AT 模式,都有适用场景。在金融、电商这种对一致性要求高的系统里,TCC 更可控,AT 更易用但风险更高。
✅ 不要忽视可观测性建设
监控、日志、链路追踪,是判断系统运行状态的关键手段。“看不见”的问题比“看得见”的问题更可怕。务必在设计之初就把这些考虑进去。
✅ 多做压测、灰度、混沌实验
不要等到上线才发现问题。我们要学会在压测环境中模拟各种异常:网络波动、服务宕机、数据库断连等等。这样才能提前发现问题、验证容错能力。
结语:技术的终极价值在于解决问题
回首整个项目的历程,我始终坚信一句话:“技术没有对错,只有合适与否。”
每一次系统重构、架构演进的背后,都是对业务理解、团队协作和技术认知的综合考验。技术探索的过程或许枯燥,但当你真正解决了问题、提升了用户体验、让团队协作更高效的时候,那种成就感是无可替代的。
愿你在自己的技术道路上也能不断探索、勇敢实践,找到属于你的“最佳实践”。
如有问题欢迎留言交流,也欢迎分享你的实战经验和心得。
——一位热爱写代码的架构师

评论 0