PyTorch 快速入门：深度学习框架初探

全栈手艺人

2025-06-19 18:23

阅读 2305

一、写在前面：为什么是 PyTorch？

作为一名技术团队负责人，我经常需要带领开发人员快速切入项目的核心环节。2021 年底，我们团队接了一个图像识别相关的项目，客户的诉求很明确——利用深度学习模型对产线上的产品进行质检分类，减少人工复核的工作量。

当时摆在我们面前有两个主流的选择：TensorFlow 和 PyTorch。最终我们选择了 PyTorch，原因其实很简单：上手快、调试方便，且整个社区的活跃度越来越高，适合新项目的快速迭代。

不过说实话，在此之前我更多使用的是 Keras + TensorFlow 的组合，并没有系统地用过 PyTorch。带着团队一边学一边做，踩了不少坑，但也确实从中获得了很多实战经验。这篇分享，就是希望把我这段时间的经验和思考整理出来，帮助刚入门的朋友少走一些弯路。

二、业务背景与挑战：从零构建一个图像分类任务

项目概述

客户是一家做电子元器件加工的企业，他们的生产线上每天会产生大量产品样本，目前主要依赖视觉检测+人工抽检的方式进行质量控制。我们的任务是构建一个能够自动识别不良品类别的分类模型，准确率达到 95% 以上。

输入是一张张 256x256 的图片，输出是“合格”、“焊点偏移”、“表面划痕”等类别（共 8 类）。

数据集方面，客户提供了大约 2W 张标注图片，其中约 3:1:1 分为训练/验证/测试集。这个数量不算多，但也不算少，关键是数据分布不均衡，部分小类样本不足百张。

初期难点

团队成员对 PyTorch 不熟悉，大家更习惯于 TensorFlow 的静态图模式；
模型选型、调参都需要摸索，尤其对小样本的优化；
如何快速搭建训练流程并验证想法成为关键问题。

面对这些挑战，我们决定以 PyTorch 作为主力框架来开展工作。

三、解决方案：PyTorch 构建分类任务全流程

我们选择使用经典的迁移学习方案，基于 torchvision 提供的预训练模型（比如 ResNet18），进行 fine-tune。以下是整个模型训练的基本流程：

整体结构概览

数据加载和预处理
- 使用 torchvision.transforms 进行标准化
- 实现数据增强，缓解类别不平衡问题
- 使用 DataLoader 批量加载数据
模型构建
- 加载 ResNet18 预训练模型
- 替换最后的全连接层，适配目标类别数
训练循环
- 定义损失函数（CrossEntropyLoss）
- 使用 Adam 优化器
- 每个 epoch 输出 loss 和 accuracy
- 存储最佳模型用于后续评估
评估阶段
- 在测试集上计算 precision、recall、F1 score
- 查看混淆矩阵，分析分类结果

四、代码实践：PyTorch 核心代码示例

以下是我认为最有代表性的几段代码，能体现出 PyTorch 的灵活性和易用性。

1. 数据预处理和增强

from torchvision import transforms

transform = transforms.Compose([
    transforms.ToPILImage(),
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

train_dataset = DefectDataset(
    data_dir='data/train',
    transform=transform,
    augment=True)

train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

这里的 DefectDataset 是继承自 torch.utils.data.Dataset 自定义的数据集类。

2. 模型初始化及修改最后一层

import torchvision.models as models

model = models.resnet18(pretrained=True)

# 修改最后一层，适配新的分类数目
num_ftrs = model.fc.in_features
model.fc = nn.Linear(num_ftrs, 8)  # 8 个缺陷类别

3. 训练主循环

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

for epoch in range(epochs):
    model.train()
    running_loss = 0.0
    
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device)
        
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
    
    print(f'Epoch {epoch+1}, Loss: {running_loss/len(train_loader):.4f}')

这段代码已经足够完成一次完整的训练流程，而且非常直观明了。

五、踩坑经验分享

虽然 PyTorch 上手容易，但在实际项目中还是遇到了不少坑，这里总结几个印象比较深的：

1. 训练过程中 GPU 内存爆掉？

初期因为 batch_size 设置过大（如 64），加上模型本身较重（尝试过 ResNet50），导致显存溢出。后来通过减小 batch_size 至 16，同时引入混合精度训练（AMP）解决了这个问题。

scaler = GradScaler()

with autocast():
    outputs = model(inputs)
    loss = criterion(outputs, labels)

scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()

2. 模型收敛太慢，loss 没有下降？

经过排查发现：

数据增强策略过于激进，破坏了原始样本特征；
学习率设置不合理（一开始用了 0.01，太大了）；
输入归一化参数错误（原本用的是 ImageNet 的均值和标准差，但是自己的数据略有不同）；

解决方式：逐步缩小学习率至 1e-4，并根据训练集计算自己的 mean/std，效果立竿见影。

3. 类别不均衡带来的严重偏差问题

某些缺陷类别的样本只有几十张，导致模型对其预测能力极弱。我们采用了两种策略：

在 loss 中加入 weight 参数，给少数类更高的权重：

class_weights = compute_class_weight('balanced', classes=np.unique(labels), y=labels)
criterion = nn.CrossEntropyLoss(weight=torch.tensor(class_weights, dtype=torch.float))

增加数据增强手段，对少数类单独增加旋转、裁剪、亮度扰动等操作；
采用欠采样或过采样策略，或者直接在数据分布上做调整。

六、成果与反馈：从落地到上线

经过三周的时间，我们完成了从模型训练、评估到部署的全过程。模型最终在测试集上的准确率为 96.7%，各类指标也基本达到预期。客户将模型部署到了边缘设备端，配合摄像头实现了实时质检功能。

更可喜的是，整个过程我们都在使用 PyTorch，包括后续模型导出为 TorchScript 并封装成 API 接口，整个链路非常连贯，减少了跨框架转换的成本。

值得一提的是，在部署前我们也尝试了 TensorRT 做加速推理，速度提升了近 2.5 倍。

七、经验总结与建议

数据科学流程-1

作为一个从 TensorFlow 转向 PyTorch 的开发者，我想结合我的经历给出几点建议，供大家参考：

✅ 1. PyTorch 更适合研究和快速验证

如果你正在做一些探索性的任务，比如算法创新、模型结构设计，PyTorch 的动态计算图会大大提升效率。

✅ 2. 调试真的比 TensorFlow 简单太多

尤其是在写 custom layer 或者自定义 backward 的时候，PyTorch 的 debug 流程清晰多了，基本上可以一句一句执行，观察变量变化。

✅ 3. 工具生态也在不断完善

像 HuggingFace Transformers、fastai、Skorch 等库都非常成熟，大大降低了使用门槛，很多常见任务已经有现成的模板。

❌ 4. 生产部署不如 TensorFlow 成熟

尽管 TorchScript 可以导出模型，也能部署到服务器端甚至移动端（Android/iOS），但在工程侧的支持上，目前来看 TensorFlow Serving 仍然更具优势。

🔁 5. 不要拘泥于框架，理解本质更重要

深度学习的本质是数学表达和计算图的实现，无论用哪个框架，只要理解背后的原理，切换起来都不会困难。

最后的话：拥抱变化，保持热爱

回想起这几个月的经历，从最初对 PyTorch 的陌生，到后来熟练使用，再到把模型真正落地，一路走来，收获颇丰。PyTorch 给我最大的感受是它“人性化”的设计理念：你只需要专注于你的网络结构和训练逻辑，其余事情交给它就好。

现在，我已经完全将 PyTorch 作为了我们团队的标准框架，不仅因为它好用，更因为它让我们更快地将想法转化为现实。

如果你想入门深度学习，或者正面临模型架构调整的任务，我强烈推荐你从 PyTorch 开始。它或许不是最完美的框架，但它足够灵活、足够开放，最重要的是，它离开发者更近。

希望这篇来自一线实战的文章对你有所帮助！如果你有任何问题或想交流心得，欢迎随时联系我～

标签:开发心得面试题面试题挑战

最热最新

暂无评论

为你推荐

暂无相关推荐