为什么技术探索与实践？

♀孙志强

2025-06-28 22:06

阅读 3225

从“为了技术而技术”到“用技术解决问题”：一次真实的工程探索之路

我曾经也是一名热衷于“炫技”的程序员，看到新技术就迫不及待想上手尝试。但随着经验的增长和项目实战的积累，我才真正意识到——技术的价值，不在于它多新、多酷，而在于它能否真正解决问题。

今天我想分享的是一个让我彻底转变思维的实际项目经历。这不仅仅是一次技术实践，更是一次关于“为什么要做技术探索与实践”的深刻思考。

项目的起点：一个看似简单的功能需求

那是我在某家电商公司担任技术负责人时接到的一个需求：我们想在用户浏览商品页面时，根据用户的实时行为动态推荐一些关联商品，提高转化率和用户体验。

听起来似乎很简单，前端加个推荐模块，后端给个接口返回推荐结果就行了。可当我和团队开始讨论具体实现方案时，才发现这并不容易：

用户的访问量很大，高峰期每秒数万请求，系统要能扛住高并发。
推荐需要实时性，不能是离线预处理的那种静态数据。
推荐内容还要个性化，不能“千人一面”，得结合用户的实时行为（比如点击、收藏、浏览路径）。
系统必须稳定可靠，因为这个推荐模块已经嵌入了核心交易链路中的一个关键页面。

这下问题来了，该怎么选型？怎么设计架构？怎么保证性能和稳定性？

挑战重重：不是所有问题都能靠老方法解决

最开始我们打算沿用之前的做法：在主业务逻辑中同步调用一个推荐服务。这样结构简单，开发起来快，上线风险小。

但测试阶段很快就出问题了：

推荐服务响应慢的时候会拖慢整个页面加载速度，影响用户体验；
数据量一大，推荐算法的计算时间飙升，QPS直接掉到几十，根本撑不住大流量；
推荐结果不够精准，因为算法模型还在用半年前的数据做训练。

这时候我意识到：如果我们只是把旧的方法套用到新的场景里，那不过是“重复昨天的错误”。我们必须重新思考这个问题的本质。

技术选型的纠结：到底该选择什么技术栈？

我们决定拆解问题，分步骤解决。

第一步：性能瓶颈优化

我们调研了很多推荐系统的技术实现，最终决定将推荐服务从业务主线程中抽离出来，采用异步+缓存+降级策略来应对高并发。

前端通过埋点采集用户行为，发送至消息队列（Kafka）；
推荐系统订阅消息，进行实时特征提取和模型推理；
推荐结果写入 Redis 缓存，前端请求时异步拉取；
如果推荐服务不可用，自动降级为固定推荐列表，不影响主流程。

第二步：提升推荐质量

我们原有的推荐模型是一个基于协同过滤的离线模型，更新周期是7天。显然无法满足实时性的要求。

我们决定引入 Flink + TensorFlow Serving 的实时特征工程 + 在线学习机制：

Flink 实时计算用户行为序列；
将特征喂给部署在 TensorFlow Serving 上的模型；
返回预测结果，写入 Redis；
同时收集用户的点击反馈，作为在线学习的样本输入模型，形成闭环。

这套组合拳下来，整个系统的吞吐能力和推荐效果都得到了显著提升。

落地实践：几个关键环节的技术实现细节

为了让大家分享具体的实现思路，我挑几个关键技术点说明。

异步埋点采集 + Kafka 消息通道

我们在前端使用 JavaScript 埋点记录用户行为，通过 Fetch API 异步上报到日志收集服务，再由服务端写入 Kafka。

// 前端埋点示例
function trackEvent(eventType, payload) {
  fetch('/log', {
    method: 'POST',
    body: JSON.stringify({
      eventType,
      payload,
      timestamp: Date.now(),
    }),
  });
}

后端服务接收到埋点数据后，清洗格式化并推送到 Kafka 中指定 topic，供下游消费。

实时特征处理 + TensorFlow Serving 调用

我们使用 Apache Flink 进行实时特征提取，然后调用 TensorFlow Serving 接口获取预测结果。

下面是一个简化版的 Flink 流处理代码片段：

DataStream<Event> events = env.addSource(new KafkaSource(...));

events.keyBy("userId")
  .window(TumblingEventTimeWindows.of(Time.seconds(10)))
  .process(new ProcessWindowFunction<Event, Recommendation, Key, TimeWindow>() {
    @Override
    public void process(Key key, Context context, Iterable<Event> elements, Collector<Recommendation> out) {
      List<Feature> features = FeatureEngineer.extract(elements);
      ModelInput input = convertToModelInput(features);
      ModelOutput output = TensorflowServingClient.query(input); // 调用 TF Serving
      Recommendation recs = new Recommendation(key.userId, output.topNItems());
      out.collect(recs);
    }
  })
  .addSink(new RedisSink<>()); // 写入 Redis

技术应用场景-1

这套代码的核心在于将事件流按用户 ID 分组，提取最近一段时间内的行为特征，并调用模型服务返回推荐结果，最后写入缓存。

当然实际工程中还需要考虑很多细节，比如模型版本控制、特征服务一致性、模型调用超时重试等等，但我们当时就是靠着这种不断迭代的方式逐步完善出来的。

踩坑无数：那些年我们一起掉过的“深坑”

在整个项目落地过程中，遇到过不少“坑”，有些教训至今记忆犹新：

❗️坑一：模型服务冷启动慢，导致首次请求大量失败

刚上线时，我们的推荐服务每次重启都会出现大量失败，监控数据显示第一次请求延迟超过 5 秒，原因是我们用了 TensorFlow Serving，默认启动时不加载模型，等到第一个请求到来才加载。

解决办法是在服务启动时主动触发模型预热：

curl -X POST http://localhost:8501/v1/models/recommender:predict \
  -d '{"instances": [[0]*100]}'  # 发送一个 dummy 请求

❗️坑二：Flink checkpoint 失败，任务频繁重启

我们在 Flink 设置了 5 分钟的 checkpoint 间隔，但在实际运行中发现，checkpoint 经常失败，导致任务反复重启。

后来排查发现是因为我们使用的 RocksDB state backend 内存配置不合理，加上窗口状态过大，导致 checkpoint 超时。

解决方案是：

升级到 FsStateBackend 或使用增量 checkpoint；
根据窗口大小调整内存参数；
合理设置窗口保留时间和 TTL。

❗️坑三：Redis 高并发写入压力大，影响主业务

最初我们将推荐结果直接写入主 Redis 集群，结果导致主业务的缓存被刷出，影响了首页商品信息的读取。

后来我们做了两件事：

为推荐系统单独部署 Redis 实例，隔离资源；
使用 Redis 的懒淘汰策略（eviction policy），避免相互影响。

这些坑虽然让我们加班加点，但也让我们对系统的边界、资源分配和容错机制有了更深的理解。

成果初现：不仅仅是技术上的突破

经过两个多月的打磨和优化，系统终于上线了。上线第一周，我们就看到了明显的变化：

指标	上线前	上线后
页面平均加载时间	1.3s	1.05s
推荐位点击率	4.1%	6.9%
推荐位转化率	1.8%	3.2%

最重要的是，系统在高峰时段也能稳定运行，没有出现重大故障。这次技术探索带来的不仅仅是数字上的变化，更是整个团队技术能力的提升。

我们学会了如何用工程思维去思考业务问题，而不是一味地追求炫酷技术；我们也理解了技术落地背后需要多少耐心和细致的工作。

我的几点心得体会：送给每一个热爱技术的你

如果你问我：“技术探索与实践的意义是什么？”我会毫不犹豫地说：

“是为了让技术真正服务于业务，让开发者有能力承担更大的责任。”

🧠 不要为了技术而技术

很多新人总想着试试这个新技术、玩玩那个新框架。但真正的技术成长，往往来自于解决实际问题的过程。只有当你真正面对业务压力、性能瓶颈和用户反馈时，你才会知道哪些技术是有价值的。

⚙️ 技术选型要有边界意识

不是最新、最火的就是最好的。我们要综合考虑团队的技术储备、运维成本、扩展性和稳定性。有时候一个简单的数据库表结构优化，比引入一个复杂的分布式系统更能解决问题。

🔄 工程思维胜过理论堆砌

很多人讲技术头头是道，但一旦落到代码层面就各种bug频出。技术落地从来都不是纸上谈兵，而是要在实践中不断验证、调优和改进。

💬 和业务方保持沟通，理解背后的业务目标

技术人常常忽略一件事：我们开发的功能究竟是为了解决什么问题？是提升用户体验？还是提高转化率？还是保障系统稳定性？只有明白了业务背景，我们才能做出更有价值的技术决策。

结语：技术和业务之间，其实没有鸿沟

写下这篇文章的时候，我翻出了当年项目的几个 commit 日志。看着那些密密麻麻的日志，仿佛又回到了那段加班加点的日子。

我深知，每一个深夜敲下的代码、每一次线上 debug 的心跳加速、每一回性能调优时的绞尽脑汁，都是技术人成长的真实轨迹。

也许未来的某一天，我们还会遇到类似的挑战。但我相信，只要始终坚持“用技术解决问题”的初心，我们就能走得更远。

希望这篇文章能带给你一些启发。无论你是刚入门的工程师，还是正在带队的技术负责人，愿你在每一次技术探索与实践中，都能找到属于自己的答案。

标签:算法资源

最热最新

暂无评论

为你推荐

暂无相关推荐