技术探索与实践入门指南

南城开发者

2025-06-13 06:23

阅读 2375

开篇：技术不是一条笔直的路

作为一个入行多年的技术人，我深知在代码之外，真正的挑战往往来自于那些没有标准答案的场景。无论是从0到1搭建一个系统，还是在已有架构中引入新技术，亦或是面对线上紧急故障时快速响应，这些都让我深刻体会到：技术的核心不在于知道多少，而在于如何解决问题、如何持续学习和适应变化。

这篇文章想以我亲身经历的一个项目为例，聊聊我在技术探索与实践中踩过的坑、收获的经验，以及一些适合新手起步的建议。希望它能给正在这条路上摸索的朋友一些启发，哪怕只是一点点思路或方向。

问题描述：一次“性能优化”的起点

开发工具界面-1

问题描述：一次“性能优化”的起点

事情发生在两三年前。当时我们团队负责的是一个面向全国的SaaS平台，服务对象是中小企业的财务软件用户。随着用户量的增长，平台的响应速度开始变慢，尤其是每个月初（财务结算高峰期），页面卡顿严重，甚至出现请求超时的情况。

最初，大家都把问题归结为数据库负载过高，尝试过加索引、升级硬件、做读写分离等常规手段，但效果有限。最头疼的是，这些问题并不是每次都出现，具有一定的“偶发性”，排查起来特别麻烦。

那段时间，我们每天都在开会讨论到底是哪出了问题，有人说是缓存策略不对，有人说前端调用了太多接口，也有人怀疑是不是第三方接口拖了后腿……总之就是——问题看起来很多，但谁也无法精准定位。

直到有一天，我决定从日志入手，尝试用技术手段系统地追踪整个调用链路。

解决方案：构建一套完整的链路追踪体系

项目背景

我们这套系统基于Spring Cloud微服务架构，整体上使用了Nacos作为注册中心，Feign进行服务间调用，MyBatis操作MySQL数据库，Redis作为缓存层，同时还接入了一些第三方API接口。

问题的本质是：在分布式系统的复杂性下，传统的日志记录方式无法快速定位问题发生的环节，我们需要一种更高效的方式来跟踪每一次请求背后的执行路径。

于是，我们决定着手搭建一套链路追踪系统，用来帮助我们清晰地看到每个请求经过了哪些服务、耗时多久、中间有没有异常或阻塞点。

技术选型过程

为了实现这个目标，我们调研了几个主流的APM工具：

SkyWalking：国产开源，支持多种语言，社区活跃，对Java生态非常友好，尤其适配Spring Boot和Spring Cloud。
Zipkin：老牌分布式追踪系统，相对简单轻量，集成也比较容易，但UI界面不如SkyWalking直观。
Pinpoint：韩国开源，也是针对Java应用，功能强大但部署略显复杂。
Jaeger：由Uber开源，原生支持OpenTracing规范，适合更复杂的服务网格场景。

最后我们选择了Apache SkyWalking，主要原因有几点：

支持无侵入式探针注入，可以对原有业务系统零修改即可接入。
提供了完整的监控面板，包括拓扑图、链路追踪、JVM指标监控等。
社区活跃度高，文档完善，对我们的技术栈兼容性好。
具备未来扩展的可能性，比如后续可以对接Prometheus和ELK形成统一的可观测体系。

代码实践：如何接入SkyWalking并完成埋点

第一步：安装SkyWalking服务端

我们选择使用Docker来部署SkyWalking OAP服务和对应的UI控制台，这样避免了环境配置的麻烦。

docker run -d --name oap --network=host \
  -e COLLECTOR_BACKEND_SERVICES=127.0.0.1:11800 \
  apache/skywalking-oap-server:v9.7.0

docker run -d --name skywalking-ui --network=host \
  -p 8080:8080 \
  -e SW_AGENT_COLLECTOR_BACKEND_SERVICES=127.0.0.1:11800 \
  apache/skywalking-ui

启动后访问 http://localhost:8080 即可进入SkyWalking UI控制台。

第二步：在应用中启用SkyWalking Agent

SkyWalking采用Agent方式进行数据采集，不需要改动任何业务代码。只需要在JVM启动参数中加入agent路径即可。

例如，在启动Spring Boot应用时加上：

java -javaagent:/path/to/skywalking-agent.jar \
     -Dskywalking.agent.service_name=my-service \
     -jar your-app.jar

其中：

/path/to/skywalking-agent.jar 是SkyWalking解压后的agent目录下的jar文件；
skywalking.agent.service_name 是你这个应用的名字，用于在UI中展示。

第三步：查看链路追踪结果

启动服务后稍等几分钟，打开SkyWalking的界面，你可以看到如下信息：

各个服务之间的依赖关系图
每个服务的吞吐量和延迟情况
某个具体请求的完整链路（trace）
可视化展示每个节点的耗时，是否有SQL执行缓慢、外部调用阻塞等问题

举个例子，当我们发现某个请求卡顿时，点击它的Trace ID就能看到整个调用流程：

gateway -> order-service -> user-service -> payment-service -> third-party-api

通过SkyWalking提供的图表，我们可以清楚看到哪个步骤耗费时间最多。例如，我们发现有一个订单服务频繁调用了一个第三方银行接口，平均耗时超过500ms，这成为整个请求链路中的瓶颈点。

踩坑经验：不是所有问题都能用技术解决

虽然SkyWalking帮我们找到了不少瓶颈点，但也有一些时候，技术只是解决方案的一部分。

记得有一次，我们发现有一个核心服务响应时间极不稳定，有时候几毫秒，有时候却要好几百毫秒。我们一开始以为是GC或者网络问题，后来通过SkyWalking才发现，这个服务内部调用了本地的一个Python脚本处理Excel导出任务。

原来，这个Python脚本是早期遗留下来的功能，直接在Spring Boot里通过Runtime.exec()方式执行，根本没有并发控制。当多个用户同时导出数据时，脚本堆积导致线程阻塞，整个服务就“瘫”了。

这个问题暴露之后，我们意识到两点：

不能忽视非Java组件的性能影响；
技术监控只能发现问题，解决还是要靠架构设计与合理分工。

最终，我们把这个导出任务抽出来，单独封装成一个定时任务服务，并配合消息队列异步处理用户的导出请求。这才彻底解决了这个问题。

还有一次，我们在测试环境中启用了SkyWalking，但在正式环境中因为权限问题导致Agent加载失败，结果整整一天没人注意到——幸好我们后来配置了SkyWalking自身的健康检查告警，避免了类似问题再次发生。

效果总结：技术赋能带来的改变

技术原理图-2

自从接入SkyWalking之后，我们在以下几个方面有了明显改善：

问题定位效率提升：过去定位一个问题可能需要半天到一天，现在基本可以在几分钟内找到根源。
系统稳定性增强：通过对链路和资源使用的实时监控，我们能够提前发现潜在风险，避免小问题演变成大故障。
开发协作更顺畅：不同团队之间的接口问题现在可以通过Trace直接复现，减少了互相扯皮和沟通成本。
技术氛围提升：大家逐渐养成了看指标、查链路的习惯，不再只是关注代码逻辑本身。

更重要的是，我们借此机会推动了一系列基础设施的优化，比如统一日志管理、引入Prometheus+Grafana做指标可视化、完善自动化监控与告警体系，逐步构建起了一整套可观测系统。

经验分享：给刚入门同学的建议

如果你正打算踏上技术探索的道路，我想结合这段经历，给你几点建议。

1. 不要追求“黑科技”，先学会“稳定落地”

刚开始接触新工具的时候，很容易被各种高级特性吸引，想着怎么才能“炫技”。但实际工作中，最重要的从来都不是多花哨的功能，而是能不能稳定运行、能不能快速解决问题。

像我们当初第一次引入SkyWalking，也只是用了最基本的追踪功能，但已经带来了巨大的价值。至于其他诸如性能分析、拓扑建模、AI预测等高级功能，都是后期慢慢迭代出来的。

所以，别一开始就追求复杂，先让系统跑起来，再谈优化。

2. 代码只是手段，理解业务才是关键

很多时候我们以为问题是技术层面的，但深挖下去却发现是业务理解不到位导致的设计缺陷。比如前面提到的那个Python脚本问题，其实就是初期没有考虑到并发场景。

因此，技术人一定要懂业务逻辑，否则你的方案很可能只是一个“局部最优解”。

3. 养成良好的工程习惯

比如：

写代码之前先想好怎么做异常处理；
接口设计要留扩展余地；
日志记录要有结构化思维；
系统上线前要有监控手段跟进。

这些看似琐碎的事情，其实都是保障工程质量的关键。

4. 保持好奇心，持续学习

技术更新换代非常快，今天流行的东西，可能明天就不适用了。我们要做的不是盲目追新，而是建立扎实的基础能力和持续学习的能力。

比如我这几年从Java转Go、再到云原生和AI工程，每次都是边学边干，过程中确实有不少困惑，但只要坚持下来，总会有突破。

5. 别怕犯错，关键是从中成长

我们曾经误删过生产环境的监控数据、搞坏过CI/CD流水线、还在测试环境误杀过别人的进程……这些教训很“痛”，但也让我们更谨慎、更懂得尊重系统边界。

记住一句话：“技术可以改，信任很难重来。”

结语：技术探索，是一条需要坚持的修行之路

回望这一段旅程，SkyWalking只是我们技术体系建设的第一步。后面还陆续引入了Logstash、Prometheus、Grafana、AlertManager等多个组件，形成了一个完整的可观测性平台。而这背后，是我们无数次的试错、反思、迭代，才一点点打磨出来的。

技术的路没有捷径，但只要你肯踏实地去做事、去思考、去总结，就一定能走得稳、走得远。

我也常常提醒自己：“不要做那个只会写CRUD的人，但也要警惕不要做那个整天玩框架却不懂业务的人。”

愿你在技术这条路上，既有深度，也有温度。

标签:简历运营

最热最新

暂无评论

为你推荐

暂无相关推荐

技术探索与实践入门指南

开篇：技术不是一条笔直的路

问题描述：一次“性能优化”的起点

解决方案：构建一套完整的链路追踪体系

项目背景

技术选型过程

代码实践：如何接入SkyWalking并完成埋点

第一步：安装SkyWalking服务端

第二步：在应用中启用SkyWalking Agent

第三步：查看链路追踪结果

踩坑经验：不是所有问题都能用技术解决

效果总结：技术赋能带来的改变

经验分享：给刚入门同学的建议

1. 不要追求“黑科技”，先学会“稳定落地”

2. 代码只是手段，理解业务才是关键

3. 养成良好的工程习惯

4. 保持好奇心，持续学习

5. 别怕犯错，关键是从中成长

结语：技术探索，是一条需要坚持的修行之路

评论 0

为你推荐

精选内容