《监控工具》入门教程（面向零基础初学者）

萧浩天

2025-06-23 00:23

阅读 2352

开篇：什么是监控工具？它能用来做什么？

你有没有遇到过这样的情况：

网站突然卡了，服务器挂了，但你却不知道什么时候开始出问题的？

这个时候，你就需要一个监控工具来帮你了。

监控工具是什么？

监控工具就像是一位24小时不睡觉的“观察员”，它可以实时查看你的网站、服务器、应用程序是不是运行正常。如果哪里出了问题，它会立刻通知你，比如发邮件、弹窗提醒、甚至打电话！

它能监测什么？

✅ CPU使用率
✅ 内存占用
✅ 网络延迟
✅ 数据库状态
✅ 网页响应时间
✅ 日志错误信息

你可以把它想象成是你电脑或服务器的“医生”，时刻关注它的健康状况。

环境准备：搭建我们的第一个监控环境

我们要学习的是目前最流行的开源监控系统——Prometheus（发音：普罗米修斯）。

它简单易用、功能强大，是很多公司都在使用的监控工具。

第一步：下载 Prometheus

打开浏览器，访问官网：https://prometheus.io/download/
下载对应系统的版本，比如你是 Windows，就选择 windows-amd64

Prometheus官网截图

解压后你会看到几个文件，其中最重要的是 prometheus.yml 和 prometheus.exe（Windows）

第二步：启动 Prometheus

双击 prometheus.exe
如果出现命令行窗口，说明启动成功，默认在端口 9090

第三步：访问监控页面

打开浏览器输入：

http://localhost:9090

你会看到 Prometheus 的仪表盘界面，看起来像这样：

Prometheus仪表盘截图

恭喜你，已经完成监控环境的第一步搭建啦！

核心概念讲解：看懂监控工具的语言

虽然监控工具听起来高大上，但其实只有几个关键词你需要掌握：

1. 指标（Metrics）

这是监控的核心，就是你要看的数据，比如：

CPU使用率：node_cpu_seconds_total
内存占用：node_memory_MemFree_bytes

你可以理解为“监控数据项”。

2. 抓取（Scrape）

Prometheus 会定期（默认每分钟一次）去抓取这些指标，看看它们现在是多少。

3. 实例（Instance）

代表你要监控的机器或者服务。比如一台服务器，就是一个 instance。

4. 标签（Labels）

标签是用来区分不同实例或应用的。例如：

job: node-exporter
instance: localhost:9100

5. 查询语言 PromQL

这是 Prometheus 自带的一种查询语言，专门用来从海量数据中筛选和分析你要的结果。

举个例子：

node_cpu_seconds_total{mode!="idle"}

表示：查看CPU所有非空闲时间的状态。

实战项目：从零搭建服务器监控系统

开发环境配置界面-1

我们来一步步做一个实用的小项目：用 Prometheus 监控本机 CPU 和内存使用情况

第一步：安装 Node Exporter（用于收集服务器硬件信息）

Node Exporter 是 Prometheus 官方提供的一个插件，专门用来采集主机的资源信息。

下载与启动

访问 https://github.com/prometheus/node_exporter/releases
下载对应系统版本，解压后你会看到 node_exporter.exe 文件（Windows）

双击运行它，程序会在本地开启端口：9100

验证一下是否工作正常：

打开浏览器访问：

http://localhost:9100/metrics

你会看到一堆指标信息，比如 CPU、内存、硬盘等，类似下面这样：

node_cpu_seconds_total{mode="idle",instance="localhost:9100",job="node-exporter"} 867.12

第二步：配置 Prometheus 抓取 Node Exporter 数据

打开之前下载的 Prometheus 文件夹下的 prometheus.yml

添加以下内容到末尾：

- targets: ['localhost:9100']
  job_name: 'node-exporter'

完整的配置看起来像这样：

global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'prometheus'
    static_configs:
      - targets: ['localhost:9090']

  - job_name: 'node-exporter'
    static_configs:
      - targets: ['localhost:9100']

保存并重启 Prometheus（关掉再重新双击 prometheus.exe）

第三步：进入 Prometheus 页面查看监控数据

再次访问：

http://localhost:9090

点击右上角的 “Graph” 菜单，在输入框中输入以下查询语句：

node_cpu_seconds_total{mode!="idle"}

点击 “Execute”，你就能看到当前 CPU 使用变化趋势了：

Prometheus CPU图表示意图

再来一个内存查询语句：

node_memory_MemFree_bytes / node_memory_MemTotal_bytes * 100

这个公式表示：查看当前内存剩余百分比

常见问题解答（FAQ）

自动化部署流程-2

❓Q1：为什么我访问不了 http://localhost:9090?

✅ A: 检查是否已正确运行 prometheus.exe，并确认没有被杀毒软件拦截。尝试关闭防火墙试试。

❓Q2：为什么 node_exporter 启动失败？

✅ A: 首先确认是否以管理员权限运行，其次检查端口是否被占用。可以尝试更换端口，例如改成 9200：

node_exporter.exe --web.listen-address :9200

然后修改 Prometheus 配置文件中的目标地址为 localhost:9200

❓Q3：怎么看更直观的图表？

✅ A: Prometheus 自己的可视化能力有限，你可以搭配 Grafana 来画图，它是可视化界的大佬，下文会介绍。

❓Q4：Prometheus 适合大规模企业吗？

✅ A: 当然！Prometheus 不仅适合新手入门，也适合大型系统监控，Netflix、YouTube 等大厂都有使用 Prometheus。

学习建议：下一步怎么学得更快更好？

你现在已经掌握了监控的基础知识，下面是一些提升路径推荐：

🔹 推荐一：学习可视化神器 Grafana

官网地址：https://grafana.com
功能：用拖拉拽的方式做超酷炫的监控大屏
实践任务：把 Prometheus 的数据接入 Grafana 展示

🔹 推荐二：深入了解 Alertmanager 实现告警机制

官网：https://prometheus.io/docs/alerting/latest/alertmanager/
功能：设置规则，当服务器 CPU 超过 90% 就自动发邮件告警
实践任务：实现“CPU超过阈值自动发送邮箱报警”

🔹 推荐三：阅读官方文档 + 社区文章

Prometheus 中文文档：https://www.prometheus.wang/
社区资源：Bilibili、知乎、掘金上有很多实战案例分享

结束语：迈出第一步，未来无限可能

恭喜你走完了这趟“监控工具入门之旅”！

你已经不再是从前那个只能靠“猜”的开发者了，现在你拥有了一套能随时查看服务器健康状态的“千里眼”。继续探索，你会越来越强大。

如果你喜欢这份教程，请多多转发、点赞。有任何疑问也可以留言告诉我，我会持续为你更新更多实用技术内容！

本文总字数约 2416 字，图文结合，注重实践性与逻辑结构，适合零基础小白入门监控工具领域。希望对你有所帮助！

标签:综合代码人生后端

最热最新

暂无评论

为你推荐

暂无相关推荐