聊聊监控工具：一次从“看门狗”到“诊断仪”的演进经历

邓艳

2025-06-24 23:14

阅读 1701

引言：为什么是监控工具？

去年公司做了一个大型的云原生项目重构，业务模块全部拆解成微服务架构。刚开始大家挺兴奋，觉得终于可以摆脱单体应用的束缚，自由扩展、独立部署，提升整体系统的可维护性和灵活性。

但没过多久，问题就开始陆续暴露出来。最开始是一个订单服务突然挂了，没人第一时间发现，等到有用户投诉了才排查；接着，Kubernetes节点经常出现高负载导致部分Pod频繁重启；还有就是线上系统出现慢查询导致接口响应超时，却找不到具体瓶颈在哪里……

这些问题让运维团队和我们后端开发都倍感压力。虽然我们之前也用过Prometheus和Grafana，但更多是作为事后分析的辅助工具，没有真正建立起一个完整的、可落地的监控体系。

于是，我被任命为这次“构建全链路监控体系”的负责人。那段时间，我对各种监控工具有了深入的研究和实践。今天，我想借这篇文章聊聊这些年对监控工具的理解，以及我们在实际项目中是如何一步步从“看门狗”型监控升级到“主动诊断”型体系的。

问题描述：我们到底在“监控”什么？

刚开始接手这个任务的时候，我也一度迷茫。市面上那么多监控工具，像Prometheus、Zabbix、ELK、OpenTelemetry、SkyWalking、New Relic……每种都有自己的特点，有的偏向指标采集，有的擅长日志分析，还有的主打分布式追踪。

那我们的核心需求到底是什么？经过多次与产品经理、运维、测试团队的沟通，我们梳理出了以下几个关键点：

实时状态感知：希望看到所有服务的当前运行状态，CPU、内存、请求延迟、错误率等。
快速故障定位：当某个接口变慢或出错时，能迅速找到是哪个组件出的问题。
历史数据分析：需要对系统性能趋势做长期统计，便于容量规划和优化。
报警机制：出现问题要有及时的告警通知，最好是多级、分级通知。
易接入易维护：新服务上线要能自动接入监控，避免重复工作。

当时我们已经使用了一套基础的Prometheus+Alertmanager+Grafana，但存在几个明显的短板：

监控覆盖不全：很多中间件（比如RabbitMQ、Redis、MySQL）没有纳入；
指标粒度不够细：无法区分不同API接口的调用耗时；
报警阈值设置混乱：有时候报警泛滥，有时候又漏掉重要信号；
分布式追踪缺失：跨服务调用链完全靠人工打日志去查，效率很低。

这些问题，促使我们必须重新设计整个监控体系。

解决方案：构建多层次监控体系

经过几轮技术选型和评估，我们最终采用了以下架构：

[客户端] --> [OpenTelemetry Collector]
    |
    +---> [Prometheus for metrics]
    +---> [Loki for logs]
    +---> [Tempo for traces]
    +---> [Jaeger or Tempo UI for trace visualization]
    +---> [Prometheus Alertmanager for alerts]
    +---> [Grafana for dashboards]

为什么要这样设计？

我们选择以 OpenTelemetry 为核心来统一数据采集层，是因为它提供了统一的 metrics、logs、traces 的标准化采集能力，并且支持多种导出器（exporter），包括 Prometheus、Loki、Tempo 等，非常灵活。

而且 OpenTelemetry 是 CNCF 的项目，社区活跃，未来兼容性强。相比传统的 ELK 或单独的 Prometheus Exporter，它的可观测性理念更先进，也更符合现代云原生的发展方向。

实践细节：代码与配置示例

接下来我结合我们项目中的实际代码和配置，详细说说这些组件是怎么集成起来的。

第一步：服务端注入监控埋点

我们的微服务都是基于 Go 编写的，使用 Gin 框架，所以我们封装了一个 middleware 来自动记录每个 HTTP 接口的指标和链路。

// metrics_middleware.go
func MetricsMiddleware() gin.HandlerFunc {
	return func(c *gin.Context) {
		start := time.Now()

		path := c.Request.URL.Path
		method := c.Request.Method

		c.Next()

		latency := time.Since(start).Seconds()
		status := c.Writer.Status()

		metrics.HTTPRequestTotal.WithLabelValues(path, method, strconv.Itoa(status)).Inc()
		metrics.HTTPRequestLatency.WithLabelValues(path, method).Observe(latency)
	}
}

// 初始化 Promethes Metric
var (
	HTTPRequestTotal = promauto.NewCounterVec(
		prometheus.CounterOpts{
			Name: "http_requests_total",
			Help: "Total number of HTTP requests by path and status",
		},
		[]string{"path", "method", "status"},
	)

	HTTPRequestLatency = promauto.NewHistogramVec(
		prometheus.HistogramOpts{
			Name:    "http_request_latency_seconds",
			Help:    "HTTP request latency in seconds.",
			Buckets: prometheus.DefBuckets,
		},
		[]string{"path", "method"},
	)
)

然后我们注册了 Prometheus 的 /metrics 接口：

func SetupMetrics(router *gin.Engine) {
	router.GET("/metrics", gin.WrapH(promhttp.Handler()))
}

这样就完成了基本的指标暴露。

第二步：OpenTelemetry Collector 配置

为了统一收集各个服务的 metrics 和 traces，我们引入了 OTLP 协议，使用 OpenTelemetry Collector 来集中处理数据流。

Collector 的配置大致如下：

receivers:
  otlp:
    protocols:
      grpc:
      http:

  host_metrics:
    collection_interval: 10s
    scrapers:
      cpu: {}
      memory: {}
      disk: {}
      filesystem: {}
      network: {}

exporters:
  logging:
    verbosity: detailed

  prometheusremotewrite:
    endpoint: https://prometheus.example.com/api/v1/write

  loki:
    endpoint: https://loki.example.com/loki/api/v1/push

  tempo:
    endpoint: https://tempo.example.com:4317
    insecure: true

service:
  pipelines:
    metrics:
      receivers: [otlp, host_metrics]
      exporters: [prometheusremotewrite]

    traces:
      receivers: [otlp]
      exporters: [tempo]

    logs:
      receivers: [otlp]
      exporters: [loki]

这份配置实现了：

收集主机资源信息；
统一接收各服务上报的 OTLP 数据；
将不同类别数据分别发往 Loki（日志）、Tempo（trace）、Prometheus（指标）进行存储。

第三步：告警规则配置

在 Prometheus 中定义告警规则是非常关键的一步，例如我们对某个服务接口设置了如下告警：

groups:
- name: service-sla
  rules:
  - alert: HighHttpLatency
    expr: http_request_latency_seconds{path="/api/order/create"} > 0.5
    for: 2m
    labels:
      severity: warning
    annotations:
      summary: "High latency on order creation API"
      description: "The average latency is above 500ms (current value: {{ $value }}s)"

这条规则的意思是：如果 /api/order/create 这个接口在过去两分钟内平均延时超过 0.5 秒，则触发警告。

踩坑经验：哪些地方容易踩雷？

在整个搭建过程中，我们也遇到不少坑，值得记录一下。

坑一：OpenTelemetry Collector 内存占用过高

我们在生产环境部署了多个 Collector 实例，用于处理大量的 trace 数据。一开始为了追求性能，给 Collector 设置了太大的 batch size，结果导致内存暴涨，偶尔会 OOM。

后来我们调整了如下参数，显著缓解了这个问题：

exporters:
  tempo:
    timeout: 10s
    retry_on_http_429: true
    sending_queue:
      max_samples_per_batch: 1000
      capacity: 10000
      max_shards: 10

同时控制并发数和批量大小，有效降低了内存峰值。

坑二：Grafana 查询延迟严重

我们在 Grafana 上建立了很多大盘，但某些复杂聚合查询会导致页面卡顿，甚至超时。

解决办法是：

对于长时间周期的图表，尽量使用降采样后的指标；
使用 Loki 的 |~ 来过滤日志，避免全量扫描；
在 Tempo 查询中加时间范围限制，减少返回 span 数量。

坑三：Trace ID 无法穿透多个服务

最初 Trace 不够连贯，有些服务之间调用时 Trace ID 丢失了，导致调用链断裂。

我们在服务之间通信时增加了如下拦截器来透传上下文：

// client middleware to inject trace context
func NewTraceRoundTripper(next http.RoundTripper) http.RoundTripper {
	return &traceRoundTripper{next: next}
}

type traceRoundTripper struct {
	next http.RoundTripper
}

func (t *traceRoundTripper) RoundTrip(req *http.Request) (*http.Response, error) {
	ctx := req.Context()
	req, _ = req.WithContext(ctx), nil
	propagator := propagation.TraceContext{}
	propagator.Inject(ctx, propagation.HeaderCarrier(req.Header))
	return t.next.RoundTrip(req)
}

确保每次调用都带上 trace header。

实施效果：带来了什么变化？

开发环境配置界面-1

这套新的监控体系上线后，带来的收益还是很明显的：

故障响应速度提升了 3 倍，平均 MTTR 从原来的 40 分钟缩短到了 12 分钟；
通过可视化大盘，我们可以直观地看到每个微服务的健康状况；
开发同学现在调试问题可以直接查看 trace 和日志，不再需要满屏 grep；
告警变得精准可控，误报和漏报大大减少；
新服务接入监控的流程自动化，只需添加对应 exporter 即可。

更重要的是，我们现在不仅可以知道“哪里出了问题”，还能知道“为什么会出问题”。

有一次，我们在 Grafana 发现某支付服务的 TPS 异常升高，进一步追踪发现是某个缓存 key 失效导致了大量数据库请求，从而引发了雪崩效应。最终我们通过调整缓存过期策略解决了这个问题——如果没有完善的监控体系，这种潜在风险很难被及时发现。

经验分享：写给正在搭建监控体系的你

版本控制工具使用-2

如果你也在考虑建设或改进你的监控体系，这里是我总结的一些经验和建议：

1. 不要一开始就追求大而全

很多人一开始就想把 everything 都监控起来，结果投入巨大精力却发现难以维持。建议从小处着手，先覆盖核心服务和关键路径。

2. 关注数据一致性

不同的监控组件有不同的数据格式和语义，容易造成指标口径不一致。OpenTelemetry 的优势之一就是帮你统一这一层。

3. 注重可观测性的三个支柱：Metrics, Logs, Traces

不要只依赖一种形式，它们各自有不同的价值。Metrics 适合宏观监控，Logs 有助于精确定位，Traces 是理解系统行为的关键。

4. 合理设定报警阈值

不要盲目复制网上的模板，每个系统、每个业务场景都应该有自己的判断标准。建议初期以观察为主，逐步收敛报警策略。

5. 重视用户体验

无论是 Grafana 的大盘还是告警信息，都要做到清晰、简洁、可操作。否则即使数据再全，也无法发挥最大价值。

写在最后：监控的本质不是“发现问题”，而是“预防问题”

回头来看，这次监控体系的升级改造，不仅仅是技术上的突破，更重要的是让我们意识到：

可观测性是高质量交付的基础。

过去我们总是被动地解决问题，而现在，我们可以通过持续监控、不断优化，在问题发生前就识别潜在风险。

未来的路上，我还计划继续探索 AI 驱动的异常检测、自适应告警策略等更高阶的能力。也希望这篇文章能给你带来一些启发，少走一点弯路。

如果你也有类似的经验或问题，欢迎留言交流！毕竟监控这件事，从来都不是一个人的事，而是一个团队共同成长的过程。

作者：一位热爱折腾的一线架构师，目前专注于云原生和 DevOps 方向，坚信好系统是可以“看得见”的。

标签:书籍Javascript

最热最新

暂无评论

为你推荐

暂无相关推荐