从一次性能瓶颈优化说起：技术探索与实践解决方案

星河程序员

2025-06-26 08:10

阅读 1800

开篇：为什么写这篇分享？

去年我在一家中型电商公司负责后端架构的优化工作，当时我们系统的核心接口响应时间突然飙升，特别是在大促活动期间，TP99（99 分位）的响应时间甚至达到了 3 秒以上。这个情况在高并发场景下几乎不可接受。面对这个问题，我带着团队经历了一次深入的技术探索之旅。

今天我想以第一人称的方式，分享这段实战经验——不仅包括我们遇到的问题、做出的技术选型决策、具体的代码实践，还会聊聊踩过的坑和一些值得反思的地方。希望这篇文章能给你带来一些启发，尤其是在系统性能优化和工程实践中的一些思考。

背景介绍：一场大促背后的危机

我们的电商平台已经运行了几年，业务模块逐渐增多，接口也越来越多。平台采用的是 Spring Boot + MyBatis 的后端架构，数据库主要是 MySQL 集群，缓存使用 Redis。前端通过 Nginx 做负载均衡，整体是一个典型的单体结构，只是按业务做了简单的模块划分。

当时正值双11前夕，我们在压测时发现某个核心商品详情页接口的响应速度严重下降，严重影响用户体验。更糟糕的是，随着压力增大，线程池频繁打满，系统出现了部分请求超时和服务降级的现象。

这让我意识到，问题可能不只是一个接口那么简单，而是整个系统在某些环节存在性能瓶颈。我们决定进行一次系统性的排查和优化。

问题描述：谁是真正的“凶手”？

初步分析

我们首先使用 SkyWalking 进行链路追踪，发现这个接口在调用 getProductDetail 方法时耗时异常。方法内部涉及多个子查询：

查询商品基本信息
查询库存信息
查询优惠活动信息
查询用户是否收藏该商品
查询推荐商品列表

这些查询都是独立的，且其中几个还涉及到远程 RPC 或者第三方服务（如营销平台的优惠信息），而且大多数都没有做本地缓存。

进一步查看线程堆栈和日志，我们发现两个关键问题：

数据库连接池不足：MySQL 使用的是 HikariCP，默认配置只开了 10 个连接，但高峰期经常有几十个线程同时等待。
Redis 网络延迟高：虽然大部分热点数据都加了 Redis 缓存，但由于没有使用异步或 pipeline，导致大量的网络 IO 被浪费。

这两个问题叠加在一起，造成了整个接口链路上的阻塞，最终表现为响应时间变长、线程阻塞、服务雪崩的风险。

解决方案：从架构到细节的全面优化

技术原理图-1

解决方案：从架构到细节的全面优化

1. 数据库连接池扩容 + 读写分离

我们首先对数据库连接池进行了扩容，将 HikariCP 的最大连接数调整为 50，并引入了读写分离机制，利用 MyCat 中间件来自动路由读写请求。

这样做的收益在于：

写操作走主库，保证一致性
读操作分散到多个从库，提升并发能力
减少了单点压力，提升了容灾能力

2. 引入 Caffeine 本地缓存降低 Redis 依赖

虽然我们已有 Redis 缓存，但在高频读取的场景下，每次都要跨网络访问还是带来了不小的延迟。于是我们决定在应用层增加一层本地缓存。

我们选择了 Caffeine，这是一个高性能的 Java 本地缓存库，支持多种过期策略和自动刷新机制。

例如：

public class ProductCache {
    private final Cache<Long, Product> productCache = Caffeine.newBuilder()
        .maximumSize(10_000)
        .expireAfterWrite(5, TimeUnit.MINUTES)
        .build();

    public Product get(Long productId) {
        return productCache.get(productId, id -> fetchFromDB(id));
    }

    private Product fetchFromDB(Long productId) {
        // 从数据库加载商品信息
    }
}

这种方式大幅降低了 Redis 的访问频次，提升了接口的整体响应速度。

3. 接口合并 + 异步编排处理

最初每个子查询是串行执行的，这种做法在高并发下效率极低。我们采用了 Java8 的 CompletableFuture 对接口进行并行编排。

比如：

public ProductDetail getProductDetail(Long productId) {
    CompletableFuture<Product> productFuture = CompletableFuture.supplyAsync(() -> productDAO.get(productId));
    CompletableFuture<Stock> stockFuture = CompletableFuture.supplyAsync(() -> stockService.get(productId));
    CompletableFuture<List<Promotion>> promotionFuture = CompletableFuture.supplyAsync(() -> promotionClient.queryPromotions(productId));

    return productFuture.thenCombine(stockFuture, (product, stock) -> {
        product.setStock(stock);
        return product;
    }).thenApply(product -> {
        product.setPromotions(promotionFuture.join());
        return product;
    }).join();
}

通过这种方式，原本需要 1s+ 的接口，在合理并行化后缩短到了 200ms 左右。

踩坑经验：别让“优化”变成了“陷阱”

在整个过程中，我们也踩了不少坑，下面分享几点经验教训。

❌ 不合适的本地缓存粒度

一开始我们为了简单快捷，直接用了全局缓存 Map<String, Object> 来存储各种类型的缓存值。结果在实际压测中发现，不同缓存项之间互相影响，容易出现内存爆掉的情况。

后来我们改为按类划分缓存实例，结合 Caffeine 提供的基于大小和时间的淘汰机制，才真正实现精细化管理。

❌ 没有合理的熔断与限流机制

在进行并行编排时，我们没有考虑到其中一个第三方服务存在慢接口的问题。当它出现波动时，整个编排链路被阻塞，反而造成接口整体超时。

后来我们加入了 Hystrix 的熔断机制，设置 fallback 回退逻辑，避免一个接口拖垮整体服务。

❌ 没有考虑异步回调中的上下文丢失问题

在使用 CompletableFuture 时，我们没有注意线程池的上下文传递问题，比如 MDC 日志上下文、Trace ID 等都会丢失。

我们最终改用了封装好的线程池，或者显式地传递上下文变量，才解决了这个问题。

实施后的效果与收益

优化完成后，我们再次进行了线上压测和真实流量观察，取得的效果如下：

指标	优化前	优化后
接口平均响应时间	1100ms	180ms
TP99 响应时间	3000ms	400ms
QPS	1200	6000+
Redis 访问次数	10w+/分钟	< 2w+/分钟
CPU 使用率	80%+	稳定在 50%以内

更重要的是，系统的整体稳定性也明显提升，服务降级次数大大减少，开发同学也不再频繁收到监控告警。

经验总结与建议

✅ 技术不是银弹，组合才是王道

这次优化最大的感触就是：没有哪一项技术能解决所有问题。我们用了本地缓存+Caffeine，用了线程池编排+CompletableFuture，用了中间件分库+MyCat……它们各自承担角色，才能构成一个稳定的系统。

✅ 性能优化要先“望闻问切”，再“开药方”

很多时候大家一上来就开始调参数、换工具。其实最重要的是先搞清楚问题在哪——是不是数据库？是不是网络？有没有锁竞争？是否有 GC 影响？这些问题不弄清楚，乱优化只会适得其反。

✅ 日常就要建立良好的可监控体系

这次能快速定位问题，得益于我们早早接入了 SkyWalking 和 Prometheus 监控。如果等出了问题再去埋点，那就来不及了。

✅ 多用现成轮子，少重复造轮子

在选择工具的时候，我们尽可能使用社区成熟的组件，比如 Caffeine、Hystrix、SkyWalking、Prometheus 等。它们经过大量验证，稳定性更高。

结语：解决问题的过程就是成长的过程

回头看这次性能优化过程，从最初的焦头烂额到后来的豁然开朗，不仅是技术上的突破，更是思维方式上的成长。有时候一个看似小问题的背后，往往隐藏着复杂的系统设计缺陷。

如果你也在做类似的事情，不妨多从这几个角度入手：

是否有不必要的 I/O？
是否可以引入异步处理？
是否可以加缓存？
是否可以用更轻量的组件替代？

最重要的一点：永远不要把所有鸡蛋放在一个篮子里。无论是技术选型、服务拆分、数据持久化，都需要留有余地，保持弹性。

如果你觉得这篇文章对你有帮助，欢迎点赞、评论，也欢迎一起探讨更多架构与性能优化相关的话题。

作者简介：某电商平台资深后端工程师，擅长分布式架构、高并发优化，热爱开源与分享，乐于构建高效稳定的服务体系。

标签:求职书籍技术分享Springboot

最热最新

暂无评论

为你推荐

暂无相关推荐

从一次性能瓶颈优化说起：技术探索与实践解决方案

开篇：为什么写这篇分享？

背景介绍：一场大促背后的危机

问题描述：谁是真正的“凶手”？

初步分析

解决方案：从架构到细节的全面优化

1. 数据库连接池扩容 + 读写分离

2. 引入 Caffeine 本地缓存降低 Redis 依赖

3. 接口合并 + 异步编排处理

踩坑经验：别让“优化”变成了“陷阱”

❌ 不合适的本地缓存粒度

❌ 没有合理的熔断与限流机制

❌ 没有考虑异步回调中的上下文丢失问题

实施后的效果与收益

经验总结与建议

✅ 技术不是银弹，组合才是王道

✅ 性能优化要先“望闻问切”，再“开药方”

✅ 日常就要建立良好的可监控体系

✅ 多用现成轮子，少重复造轮子

结语：解决问题的过程就是成长的过程

评论 0

为你推荐

精选内容