从踩坑到成长：我的一次技术探索与实践记录

深夜构建者

2025-06-24 02:40

阅读 2848

开篇：为什么想写这篇文章？

作为一名工作多年的技术从业者，我深知在实际项目中遇到的难题远比书本上的案例复杂得多。每一个“小问题”，背后可能隐藏着庞大的系统结构、复杂的依赖关系和不可预知的边界情况。

这篇文章我想分享一个让我印象深刻的真实案例：我们团队在一个分布式系统升级过程中，如何一步步从方案设计到落地实施，最终完成一次高难度的架构改造。这中间不仅有技术选型的纠结，也有开发过程中的踩坑、排查与重构，更有人与人之间的协作与沟通挑战。

希望这篇文字能给你带来一些启发，哪怕只是多一份面对困难时的从容心态也好。

背景介绍：一次服务拆分引发的“连锁反应”

那是一个普通的工作日早晨，我所在的公司正经历业务快速增长期。原先的单体应用已经承载不了日益增长的流量和功能模块的扩展需求。于是，一场服务化重构提上了日程。

我们的目标是将核心模块按领域划分，逐步拆分为多个独立服务，并通过统一网关进行路由管理。理想很丰满，但现实总是骨感。

项目初期，我们选择了 Spring Cloud + Docker 的组合来搭建微服务框架。看起来一切顺利，直到我们在部署过程中发现了一个棘手的问题——服务之间通信的延迟波动很大，甚至出现了大量超时现象。

这个问题直接影响了整个系统的稳定性，进而影响用户体验。而我们当时还处于灰度上线阶段，尚未全面放量。可想而知，如果不及时解决，后续上线风险极高。

问题描述：谁动了我的线程池？

问题最开始出现在接口调用响应时间不稳定上。用户偶尔访问会出现明显的卡顿，有的请求甚至直接报错超时。我们一开始怀疑是数据库慢查询造成的瓶颈，于是进行了慢 SQL 分析和索引优化。

但很快我们意识到，真正的问题出在网络调用链路上。

通过 APM 工具（当时我们使用的是 SkyWalking）分析，我们发现某几个服务之间的调用耗时异常升高，尤其是在高并发场景下，延迟峰值可达数秒。进一步查看日志后，我们定位到了一个关键点：某个基础服务在高峰期经常出现线程阻塞的现象。

我们使用的远程调用方式是 FeignClient + Ribbon，默认采用同步阻塞模式进行 HTTP 请求，线程池配置不合理的情况下，在高频请求下很容易造成资源耗尽。

更糟的是，该基础服务被多个其他服务所依赖，一旦它出现故障，就会形成“雪崩效应”，整条调用链都会受到波及。

解决方案：换个姿势继续干！

发现问题之后，我们开始着手优化：

第一步：异步调用 + 线程池隔离

我们首先尝试将原来的 FeignClient 同步调用改为异步调用，引入 CompletableFuture 来实现非阻塞调用。同时，为每个对外暴露的服务接口分配专用线程池，避免不同服务之间互相抢占资源。

@Configuration
public class FeignConfig {

    @Bean
    public Executor feignExecutor() {
        int corePoolSize = Runtime.getRuntime().availableProcessors() * 2;
        ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor();
        executor.setCorePoolSize(corePoolSize);
        executor.setMaxPoolSize(corePoolSize * 2);
        executor.setQueueCapacity(500);
        executor.setThreadNamePrefix("feign-pool-");
        executor.initialize();
        return executor;
    }
}

配合如下方式启用异步支持：

系统架构设计-2

feign:
  client:
    config:
      default:
        http:
          enabled: true
  async:
    enabled: true

第二步：引入熔断降级机制

为了应对服务异常带来的级联失败，我们引入了 Hystrix 做熔断降级处理。

对关键调用方法添加注解：

@HystrixCommand(fallbackMethod = "defaultUser")
public User getUserById(String userId) {
    return userFeignClient.getUser(userId);
}

public User defaultUser(String userId, Throwable t) {
    return new User("DEFAULT", "Fallback User");
}

同时配置熔断参数：

hystrix:
  threadpool:
    default:
      coreSize: 10
      maxQueueSize: 200

第三步：引入服务 Mesh 架构过渡

考虑到未来架构进一步演进的需要，我们决定在稳定版本上线之后逐步向 Service Mesh 方向迁移。我们先使用 Istio 搭建了一个测试环境，尝试将部分非关键服务迁移到 Sidecar 模式。

虽然这一阶段还未完全推广，但也为我们积累了宝贵经验，为后期全量迁移打下了基础。

代码实践：关键片段一览

下面是一些典型的优化后的代码示例，供参考：

FeignClient 接口定义（异步 + 熔断）

@FeignClient(name = "user-service", configuration = FeignConfig.class)
public interface UserServiceFeignClient {

    @GetMapping("/user/{id}")
    CompletableFuture<User> getUser(@PathVariable String id);

    // fallback 处理逻辑
    default CompletableFuture<User> getUserFallback(String id, Throwable t) {
        return CompletableFuture.completedFuture(new User("default", "Fallback User"));
    }
}

异步任务处理类

@Service
public class AsyncService {

    @Autowired
    private UserServiceFeignClient userServiceFeignClient;

    public void processUserAsync(String userId) {
        userServiceFeignClient.getUser(userId)
            .thenAccept(user -> {
                // do something with user
            })
            .exceptionally(ex -> {
                log.error("Failed to get user info: {}", ex.getMessage());
                return null;
            });
    }
}

踩坑经验：那些年我们一起掉过的“坑”们

在整个优化和排查过程中，我们踩了不少坑，总结下来主要有以下几点：

坑一：默认线程池不适应高并发场景

Feign 默认使用的不是自定义线程池，而是在主线程中执行请求，结果导致请求堆积严重，尤其在服务间相互依赖的时候更容易发生死锁或资源占用过高。

解决办法：显式指定 Feign 使用的线程池，并根据实际 QPS 配置合理的容量和队列大小。

坑二：异步处理不当导致上下文丢失

当我们把所有调用都改成异步之后，遇到了一个诡异的问题：某些线程上下文信息（比如 MDC 日志追踪信息、登录用户信息等）在异步回调中丢失了。

经过排查发现是因为线程切换导致的。Java 的 ThreadLocal 在线程池中不会自动传递上下文。

解决方案：

使用 TransmittableThreadLocal（TTL）组件解决线程上下文传播问题。
或者手动将上下文复制到新的异步线程中（不推荐，容易遗漏）。

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>transmittable-thread-local</artifactId>
    <version>2.12.6</version>
</dependency>

使用方式也很简单，替换原生的 ThreadLocal 即可：

private static final TransmittableThreadLocal<String> traceIdContext = new TransmittableThreadLocal<>();

坑三：未做好压测模拟，导致线上真实环境表现不一致

前期我们做了不少本地测试和 mock 数据模拟，但忽略了真实环境下的网络延迟和负载情况，导致压力测试结果和线上表现差距很大。

教训：

尽量在准生产环境下进行压测，使用真实流量回放工具（如 JMeter + TCPDump）还原现场。
利用混沌工程手段提前演练故障恢复机制的有效性。

效果总结：稳了！

技术对比分析-1

在经过一系列优化之后，整体系统的稳定性得到了显著提升：

接口平均响应时间下降了 35%
QPS 提升约 40%，且系统吞吐能力更稳定
调用失败率从之前的 5%~8% 下降到不足 1%
用户反馈明显改善，投诉率大幅降低

更重要的是，这次经历让我们在团队内部建立了一套行之有效的微服务治理规范，包括：

异步调用的最佳实践
线程池的合理配置建议
熔断降级策略的统一模板
服务间通信质量监控体系

经验分享：给同行们的几点建议

如果你也正在做或者准备做服务化改造，以下是我在实践中总结的一些经验和建议：

✅ 技术选型要结合业务场景，切忌盲目追求新技术

不要因为听别人说某种框架牛X就照搬，比如我当时看到很多文章推荐 gRPC，但我们团队 Java 栈居多，短期内学习成本太高。所以权衡之后还是选择基于熟悉的 Feign 进行优化。

✅ 异步并非万能，要用得其所

异步确实可以提升性能，但也会增加代码复杂度和调试难度。对于实时性要求高的调用，还是建议保留同步方式；而对于非关键路径或数据聚合类接口，再考虑异步处理。

✅ 线程池一定要定制化，别用默认！

不同的服务接口有不同的负载特征，线程池应该按照接口维度进行细分。否则一个小失误就能拖垮整个系统。

✅ 压测必须贴近真实，不能纸上谈兵

很多人喜欢拿本地跑个 JUnit 测试就当性能达标了。其实不然，只有在类生产环境下真实压测过，才能反映系统真正的抗压能力。

✅ 要有持续优化的意识

架构优化不可能一蹴而就。我们需要建立起一套持续监测、快速迭代的能力。比如说我们可以接入 Prometheus + Grafana 做指标可视化，利用 AlertManager 实现预警通知，做到早发现、早干预。

结语：每一次踩坑都是成长的机会

回望那段日子，虽然痛苦，但却无比珍贵。我们从一次次失败中学到了太多：不仅仅是技术方案的选择，还有团队协作的方式、沟通的重要性，以及对待 Bug 的耐心与敬畏。

作为技术人员，我们要做的不是一味地避开问题，而是要敢于直面挑战，在不断试错中积累经验。

最后送大家一句话：“没有白踩的坑，只有还没总结的经验。”

愿你我都能在这条技术之路上越走越远，越走越稳。

作者简介：十年码农，曾就职于大型互联网公司，主导过多个千万级用户系统的架构设计与性能优化，现专注于云原生与 DevOps 技术方向，热爱分享与交流。欢迎关注公众号【极简架构师】获取更多原创内容。

标签:产品资源面试题挑战运营

最热最新

暂无评论

为你推荐

暂无相关推荐