技术探索与实践：一次从零到一的工程重构之旅

Bug自己会好

2025-06-21 22:46

阅读 1907

开篇：技术探索的价值在于“落地”

作为一名从业多年的后端架构师，我始终坚信，技术探索的意义不在于“能不能做”，而在于“怎么做才能做得更好”。在这个技术迭代飞快的时代，我们每天都会接触到各种新的框架、平台和理论模型。但真正能沉淀下来的，往往是那些经过业务打磨、能够解决实际问题的技术方案。

今天我想分享一次真实的项目重构经历。它不是什么炫酷的大厂案例，也不涉及高并发、大规模集群这样的宏大命题。但它真实、贴近一线工程师的日常，更重要的是，在这个过程中我们经历了技术选型的挣扎、工程细节的反复推敲，以及对“稳定性 vs 创新性”这一永恒命题的深入思考。

我希望通过这篇文章，能让你感受到一次完整的从需求分析、技术选型、开发实施到上线验证的闭环实践过程，并启发你在面对类似挑战时，如何平衡创新和稳定，找到自己的解题思路。

问题描述：系统性能瓶颈下的重构契机

去年年中，我们团队负责维护的一个核心业务系统开始频繁出现性能问题。这个系统是公司内部的服务支撑平台，包含用户管理、权限控制、审批流程等多个模块，支撑了整个公司的运营体系。

最初的问题是从接口响应时间变慢开始的。某些关键查询接口的平均耗时从原来的300ms左右上升到了1500ms以上，且波动非常大，有时甚至会出现超时。日志监控显示数据库CPU使用率长期保持在85%以上，QPS也远超预设阈值。

更糟糕的是，随着业务扩展，原有系统的代码结构越来越复杂，每次升级或修复都需要牵扯大量关联模块，测试回归成本剧增。

于是，我们决定启动一次较为彻底的系统重构计划。目标很明确：

提升核心接口性能，降低延迟
解耦服务模块，提高可维护性
为未来微服务化铺路
控制成本，避免“重复造轮子”

解决方案：一场技术选型的权衡之战

技术选型的几个核心维度

在制定具体方案前，我们做了充分的技术调研和多轮讨论。最终确定了以下几个关键考虑点：

维度	要求
性能要求	接口响应时间 P99 小于 500ms
扩展性	模块间低耦合，方便拆分
易维护性	代码逻辑清晰，便于后续交接
团队熟悉度	避免引入完全陌生的技术栈
成本可控	尽量复用现有基础设施

基于这几个原则，我们逐步缩小技术选型范围。

主要技术决策

1. 后端语言选择

原系统是基于 PHP + MySQL 的传统架构。考虑到团队Java背景较强，我们在是否继续使用PHP或者转向Java之间犹豫了很久。

最终决定采用 Spring Boot + MyBatis Plus，主要是出于以下几点：

团队成员都有一定Java基础，上手难度低
Spring生态成熟，组件丰富，适合中台类项目的构建
更容易对接未来的微服务架构（如Spring Cloud）

2. 数据库选型

原有的MySQL单实例已经无法承载日益增长的数据量。为了提升性能，我们将数据进行冷热分离，并引入了Redis缓存。

同时，我们也评估过MongoDB等NoSQL数据库，但考虑到已有大量的SQL查询逻辑，最终还是以MySQL为主，搭配部分业务引入Elasticsearch进行搜索优化。

3. 缓存策略设计

对于高频读取、低频写入的数据，我们采用了两级缓存设计：

LocalCache（Caffeine）：应对突发请求，降低网络开销
Redis集中式缓存：实现服务节点间的缓存共享

这种组合既保证了性能又兼顾一致性，尤其是在分布式部署环境下表现良好。

4. 工程拆分策略

我们并没有一开始就将系统拆分成多个微服务，而是先进行了工程内模块化改造，按职责划分成若干个独立模块，并使用Spring Boot的starter机制封装通用逻辑。

这样可以在不改变部署方式的前提下，先完成逻辑上的解耦，为后期的微服务化做好准备。

代码实践：模块化架构中的关键实现

这里我可以分享一个核心模块的设计片段——权限控制模块的重构过程。

原始痛点

权限校验散落在各个Controller层，不同接口的处理逻辑不统一，导致权限变更时需要修改多个文件，极易遗漏。

// 旧版权限判断示例
@PostMapping("/submit")
public Result submitOrder(@RequestBody OrderDTO dto) {
    if (!PermissionUtil.check(userId, "order.submit")) {
        return Result.fail("无操作权限");
    }
    
    // 业务逻辑...
}

新的设计思路

我们引入了一个统一的权限注解+切面处理机制，简化鉴权逻辑，也更利于统一配置和审计。

自定义注解定义

@Target(ElementType.METHOD)
@Retention(RetentionPolicy.RUNTIME)
public @interface RequirePermission {
    String value(); // 权限标识符
}

切面处理逻辑

@Aspect
@Component
@Slf4j
public class PermissionAspect {

    @Autowired
    private PermissionService permissionService;

    @Pointcut("@annotation(com.yourcompany.RequirePermission)")
    public void permissionCheck() {}

    @Around("permissionCheck()")
    public Object checkPermission(ProceedingJoinPoint joinPoint) throws Throwable {
        MethodSignature signature = (MethodSignature) joinPoint.getSignature();
        Method method = signature.getMethod();
        
        RequirePermission annotation = method.getAnnotation(RequirePermission.class);
        String permCode = annotation.value();


![技术概念图解-1](https://code-guide.oss.shanghai.autogptai.club/common/file/download?name=date2025062122/34e51f66-ed7c-4404-bd04-8bc9fff2c4cc.jpg)


        Long userId = CurrentUser.getUserId(); // 获取当前登录用户
        
        if (!permissionService.hasPermission(userId, permCode)) {
            throw new PermissionDeniedException("无操作权限: " + permCode);
        }

        return joinPoint.proceed();
    }
}

接口使用示例

@PostMapping("/submit")
@RequirePermission("order.submit")
public Result submitOrder(@RequestBody OrderDTO dto) {
    // 仅需添加注解即可，不再需要手动if判断
    return orderService.submit(dto);
}

这种方式不仅减少了冗余代码，而且提升了整体可维护性。我们可以很方便地记录每一次权限检查的动作，也更容易进行权限规则的动态更新。

踩坑经验：那些没写进文档的教训

技术选型往往是在理想与现实之间做妥协的过程。下面是一些我们在实践中遇到的真实问题及解决方案：

坑点1：Redis连接池爆了怎么办？

上线初期，我们发现Redis经常出现“Too many connections”的异常。

原因：我们低估了高峰期的并发请求，Redis的连接数设置偏小，且未使用连接池复用机制。

解决方法：

使用Lettuce替代Jedis（更适合长连接）
设置合理的maxTotal和maxIdle参数
引入Redisson作为高级封装工具

spring:
  redis:
    lettuce:
      pool:
        max-active: 200
        max-idle: 50
        min-idle: 10
        max-wait: 2000ms

坑点2：本地缓存失效策略混乱

刚开始的时候，我们没有统一本地缓存的TTL配置策略，导致同一个对象在不同服务中存在不同的缓存生命周期，出现了数据不一致问题。

解决方法：我们封装了一个统一的LocalCacheManager，所有缓存的创建都必须通过该入口，并根据业务优先级设置不同级别的默认TTL。

public class LocalCacheManager {
    private final Cache<String, Object> commonCache = Caffeine.newBuilder()
        .maximumSize(1000)
        .expireAfterWrite(5, TimeUnit.MINUTES) // 默认5分钟
        .build();

    public void put(String key, Object value) {
        commonCache.put(key, value);
    }

    public Object getIfPresent(String key) {
        return commonCache.getIfPresent(key);
    }

    // 可根据不同场景定义其他cache类型
}

坑点3：Spring事务失效问题

在重构DAO层时，有同事将一个原本在Service层的方法调用移动到了MyBatis的Interceptor中执行，结果导致事务控制失效。

根本原因：Spring AOP默认只拦截外部调用（即通过代理对象），而Interceptor内部调用不会触发AOP拦截。

解决方法：要么使用AopContext获取当前代理对象，要么重构调用方式，确保事务边界合理。

YourService proxy = (YourService) AopContext.currentProxy();
proxy.doSomethingInTransaction();

这类问题如果不及时发现，很容易在线上造成脏数据等问题，值得警惕。

效果总结：重构带来哪些变化？

经过3个月的时间，我们完成了第一阶段的重构工作，并逐步灰度上线，效果显著：

指标	改造前	改造后	提升幅度
核心接口响应时间（P99）	1623ms	387ms	约76%
QPS（高峰时段）	180次/秒	620次/秒	提升约244%
日均异常次数	130+次	<10次	大幅下降
代码维护成本	高	中	可接受

最重要的是，团队成员普遍反馈“代码整洁多了，调试效率明显提升”。

这次重构让我们深刻认识到，技术升级并不一定意味着要用“最新最炫”的技术，而是要在合适的时间、合适的场景下做出最合适的选择。

经验分享：给技术人员的几点建议

技术应用场景-2

结合这次实践，我想给从事技术工作的朋友们几点建议：

1. 架构不是一开始就要“完美”的

很多新人总想着“我要设计一个绝对松耦合、绝对高性能的系统”，其实这在初期是很难做到的。好的架构应该是在不断演进中形成的。你不需要一步到位，但要留下清晰的演进路径。

2. 不要忽视“人”的因素

我们在技术选型时曾一度考虑引入Go语言来替换部分Java服务，但我们最终放弃了。不是因为Go不够好，而是因为我们团队里几乎没有Go的经验。在这种情况下盲目换语言，反而可能增加交付风险。

技术可以学，但成本要考虑清楚。

3. “性能优化”不只是编码的事

我们在重构过程中发现，很多性能瓶颈其实是设计造成的。比如错误的索引、不必要的N+1查询、缓存穿透等。这些都不是单纯加缓存或上高性能框架就能解决的，必须从设计源头抓起。

4. 学会“写得少、跑得稳”

很多工程师喜欢追求“优雅的代码”，但在实际业务中，“稳定”远比“优雅”重要。我们后来砍掉了很多看似“聪明”的设计模式，保留了最朴素但有效的实现方式。有时候，“简单粗暴”才是最高效的。

写在最后：技术人的价值在于解决问题

回顾这段重构旅程，我没有做什么惊天动地的事情，只是脚踏实地地把每一个问题解决掉，把每一块代码打磨好。但这正是我热爱这份职业的原因——你能亲手打造一件东西，让它变得更高效、更可靠、更有生命力。

我相信，技术探索永远都是双向奔赴：一方面我们要紧跟趋势，学习前沿；另一方面，也要沉下心来，在真实的业务中验证技术的价值。

希望我的这段经历，对你有所启发。也欢迎你在评论区留言，一起聊聊你在技术探索与实践中遇到的故事。

如果你也正在经历类似的重构或技术升级，欢迎私信交流，我很乐意提供一些实战建议。

标签:工具后端

最热最新

暂无评论

为你推荐

暂无相关推荐