高并发系统设计：实战经验分享

马勇

2025-06-25 04:55

阅读 2016

开篇：为什么我要写这篇文章？

作为一名全栈开发工程师，我在过去的几年里经历了从传统Web项目到高并发系统的跨越。其中有一次经历特别深刻：当时我们团队负责一个电商秒杀平台的核心后端架构设计和实现。在一次“双11”预热活动中，流量突然激增，系统出现了严重的性能瓶颈。那一晚我熬夜排查问题、优化代码、调整架构，最后通过一系列策略将系统恢复稳定。

那次事件之后，我对高并发系统的设计有了更深入的理解，也积累了大量实战经验。今天我想把这些经验拿出来和大家分享，不是为了炫耀技术多牛，而是希望你能在遇到类似情况时少踩坑、少加班。

项目背景：电商秒杀系统的技术挑战

1. 背景介绍

这个系统是我们为一家中型电商平台定制开发的促销模块，核心功能是商品限时限量抢购（俗称秒杀）。平时流量不大，但每逢大促或品牌活动，瞬间涌入的用户量会达到平常的上百倍甚至上千倍。

我们的目标是：保证在突发高并发情况下，系统依然能稳定处理请求，避免崩溃、雪崩、超卖等严重问题。

2. 技术栈概况

前端：Vue.js + Element UI
后端：Node.js（Koa）+ Spring Boot（Java混编）
数据库：MySQL 主从 + Redis 集群
中间件：RabbitMQ、Nginx、ElasticSearch
缓存层：Redis Cluster
异步队列：Kafka（后换回 RabbitMQ）
监控报警：Prometheus + Grafana + ELK
部署环境：阿里云 ECS + K8s 容器集群

遇到的挑战：高并发下的“死亡螺旋”

1. 突发流量压垮数据库

第一次模拟压力测试的时候，我们使用了 JMeter 对下单接口发起并发请求。刚开始还很正常，每秒几千个请求没问题，但随着并发数增加到上万级别，MySQL 的 QPS 开始抖动，响应时间迅速上升，CPU 使用率飙升，紧接着整个系统开始出现大量超时、报错。

最可怕的是连锁反应：前端不断重试失败的请求 → 后端堆积任务越来越多 → 更多线程阻塞等待数据库响应 → 系统进入死循环。

2. 库存超卖问题频发

库存管理采用常见的减库存方式——先查库存再扣减：

UPDATE goods SET stock = stock - 1 WHERE id = ? AND stock > 0

但在高并发场景下，仍然会发生多个请求同时查询到有库存，然后一起执行扣减，导致库存变为负数。

虽然加了 CAS（Compare And Set），但仍挡不住并发量过大时的竞争条件。

3. 接口响应慢，用户体验差

当 MySQL 承受不住高压访问时，很多请求卡在数据库层，导致接口平均响应时间超过5秒，部分接口甚至直接返回网关超时错误（504）。

解决方案：一步步打造高并发“防洪堤”

面对这些问题，我们没有选择直接重构整套系统，而是采取“小步快跑”的方式，逐步引入关键组件，提升系统抗压能力。下面是我总结的一些关键技术实践。

一、引入缓存层，缓解数据库压力

1. Redis 缓存热门数据

商品信息、库存数量这类读多写少的数据，我们全部缓存在 Redis 中。每次请求先查 Redis，只有在缓存未命中时才走数据库。

举个例子：商品详情页展示用的库存值就直接取自 Redis：

async getStock(goodsId) {
  const cacheKey = `stock:${goodsId}`;
  let stock = await redis.get(cacheKey);
  if (!stock) {
    stock = await Goods.findOne({ where: { id: goodsId } });
    await redis.setex(cacheKey, 60 * 5, stock);
  }
  return stock;
}

设置过期时间为5分钟，既能降低数据库压力，也能保证一定的实时性。

2. Redis Lua 原子操作控制库存

针对库存超卖问题，我们采用了 Redis 的 Lua 脚本进行原子性扣减：

local key = KEYS[1]
local num = tonumber(ARGV[1])
local stock = redis.call("GET", key)
if stock == false or tonumber(stock) < num then
  return 0
else
  return redis.call("DECRBY", key, num)
end

调用示例：

数据流转过程-2

const hasStock = await redis.eval(luaScript, 1, stockKey, 1);
if (hasStock === 0) {
  throw new Error('库存不足');
}

这种方式利用 Redis 的单线程特性，确保了扣减过程的原子性，有效防止超卖。

二、异步化处理：解耦核心链路

1. 下单与支付流程分离

我们将下单流程拆分为两个阶段：

第一阶段：仅完成库存冻结和订单初始化（写入临时表）
第二阶段：通过消息队列异步处理实际支付、发货逻辑

这样做的好处是：

减少主业务路径的复杂度
提升整体吞吐量
支持失败重试机制

2. Kafka / RabbitMQ 消费异步任务

初期使用 Kafka 处理订单后续逻辑，但由于 Kafka 消息丢失等问题，后来我们改用 RabbitMQ。

我们设置了多个消费者并行消费订单队列，并配合死信队列处理多次失败的任务：

@Bean
public Queue orderQueue() {
    return QueueBuilder.durable("order.queue")
        .withArgument("x-dead-letter-exchange", "order.dead")
        .build();
}

并通过幂等性处理保证重复消费不会造成重复发货。

三、数据库优化：分库分表 + 读写分离

1. 分库分表策略

订单、用户等核心数据量增长非常快，所以我们做了垂直分库和水平分表。

例如订单按用户ID hash分片，每个用户的订单落在固定DB中：

-- 用户ID % 16 决定 DB 分区
CREATE DATABASE db_0 ... 
CREATE DATABASE db_1 ...
...

同时，使用 ShardingSphere 或 MyCat 进行中间路由管理。

2. 读写分离 + 连接池优化

通过 MySQL 主从复制做读写分离，所有 SELECT 请求都打到 slave 节点，INSERT/UPDATE 则走 master。

使用 Druid 或 HikariCP 做连接池，合理设置最大连接数、空闲连接回收策略。

四、服务限流降级：最后一道防线

我们引入了 Sentinel（阿里巴巴开源的限流框架），为关键接口配置：

QPS 限制：如 /seckill 最大每秒 1W 次
线程隔离：设置线程池资源隔离
熔断降级：当失败率达到阈值时自动切换为排队页面或提示语

效果非常明显：即使流量暴涨，我们也能保证核心链路可用，外围服务可以降级保底。

五、日志监控与预警体系

我们在生产环境中部署了一整套监控系统：

Prometheus 拉取各节点指标（CPU、内存、网络、QPS）
Grafana 展示系统负载图
ELK 分析异常日志
自定义报警规则发送钉钉通知

比如当某 API 平均响应时间超过 500ms 时，系统立即发出警报，提醒我们查看原因。

效果总结：从崩溃边缘走向稳定运行

经过这一系列改造，我们成功应对了“双11”当天的极端流量冲击，最终实现了以下成果：

指标	改造前	改造后
平均响应时间	3~8 秒	< 500 ms
QPS	~2000	> 30000
库存一致性	存在超卖	零超卖
系统可用性	80%	> 99.99%
错误日志量	每小时数百条	稳定时基本无异常

最重要的是，在真正的大促期间，整个系统稳定运行，用户几乎没有感知到任何延迟或失败，客服反馈的投诉量几乎为零。

经验分享：高并发系统设计的几点建议

1. 高并发不是“堆机器”，而是“巧设计”

很多时候我们容易陷入误区，认为只要机器资源足够多就能扛住流量。但真实项目中，往往是设计上的缺陷导致系统崩溃，而不是硬件不足。

所以首先要关注的是架构设计，其次才是扩容。

2. 关键路径必须简化

比如下单、支付这种核心流程要尽可能精简，不要掺杂太多逻辑在里面。可以把非核心流程异步化、剥离出去，保证主路径高效稳定。

3. 缓存不是万能，但一定要用好

缓存能大大缓解数据库压力，但也可能带来数据一致性问题。所以在使用缓存的同时，一定要做好缓存失效策略、更新机制、穿透防护（布隆过滤器等）。

4. 限流和降级，是保命稻草

当系统真的扛不住的时候，限流降级就是你的最后一道防线。提前埋好这些机制，比临时手忙脚乱去补救要有效得多。

5. 日常就要模拟压力，不能靠“猜”

定期做压力测试非常重要，不能等到上线才发现系统撑不住。JMeter、LoadRunner、Locust 都是很不错的工具。你可以结合监控看到系统瓶颈所在。

6. 多人协作，沟通先行

在一个高并发系统里，往往前后端、运维、DBA都要深度参与。我们需要提前沟通好接口设计、数据结构、缓存策略等等，避免因“各自为战”引发更大的问题。

结尾：高并发是一种综合能力，也是一种心态

微服务架构示意图-1

说实话，刚接触高并发系统那会儿我也很慌。第一次遇到几万并发，看着监控面板疯狂跳动的红线，心跳都跟着加快。

但慢慢你会发现，只要思路对了，方法得当，高并发也没那么可怕。它考验的是一个人对系统全局的认知能力，以及临场应变的冷静程度。

如果你也在做一个需要高并发支持的系统，或者正在为此焦虑，不妨把上面这些思路用起来试试看。

也欢迎你在评论区交流你的经验和问题。我们一起成长，不内卷，只进步。

Stay sharp, code with heart 💻❤️

本文内容基于本人过往工作实践整理，如有细节差异请以实际情况为准。欢迎转载但请注明出处，尊重原创才能走得更远。

标签:Java项目

最热最新

暂无评论

为你推荐

暂无相关推荐