PyTorch快速入门：从零开始写你的第一个神经网络

程序员小陈

2026-01-06 12:08

阅读 2018

大家好，我是一名干了5年后端开发的老兵，平时和数据库、API打交道比较多。但这几年AI火得不行，我也忍不住“跨界”学起了深度学习。当初第一次接触PyTorch时，被张量、自动求导这些词整得头大——文档太学术，代码看不懂，连安装都踩坑。所以今天，我想用最直白的语言、最少的术语，带你亲手跑通第一个PyTorch程序。这篇教程不讲高深理论，只关注代码人生中最实在的那一步：让代码跑起来！

为什么选PyTorch？

简单说，PyTorch是目前最流行的深度学习框架之一，由Facebook（现Meta）开发。它的优势在于：

Pythonic：代码写起来像普通Python，上手快
动态图机制：调试方便，适合实验和教学
社区活跃：遇到问题很容易找到答案

如果你以后想搞AI、做模型训练，或者只是好奇“AI是怎么工作的”，PyTorch是个极好的起点。

第一步：搭建你的PyTorch环境

别担心，安装比你想象中简单。我们推荐用 pip（Python包管理工具）来安装。

前提条件

安装了 Python 3.7 或更高版本（建议 3.8~3.11）
装好了 pip（一般随Python一起安装）

💡 小贴士：我当初学的时候，在Windows上直接用命令行，Mac用Terminal，Linux就更不用说了。只要能敲命令就行。

安装PyTorch

打开终端（命令行），运行以下命令（这是CPU版本，适合初学者）：

pip install torch torchvision torchaudio

⚠️ 如果你有NVIDIA显卡并想用GPU加速，可以去 PyTorch官网生成专属安装命令。但新手建议先用CPU版，避免驱动配置的麻烦。

验证是否安装成功

新建一个Python文件（比如 test_torch.py），输入：

import torch
print(torch.__version__)
print("PyTorch 安装成功！")

运行它：

python test_torch.py

如果看到版本号（比如 2.1.0）和成功提示，恭喜你，环境搭好了！

核心概念：用生活例子理解PyTorch

别被“张量”“自动求导”吓到，它们其实很直观。

1. 张量（Tensor） = 增强版NumPy数组

在PyTorch里，所有数据都用 Tensor 表示。你可以把它想象成Excel表格，但能存更多维度的数据。

import torch

# 创建一个标量（0维张量）
x = torch.tensor(5)
print(x)  # tensor(5)

# 创建一个向量（1维）
vec = torch.tensor([1, 2, 3])
print(vec)  # tensor([1, 2, 3])

# 创建一个矩阵（2维）
mat = torch.tensor([[1, 2], [3, 4]])
print(mat)
# tensor([[1, 2],
#         [3, 4]])

📌 关键区别：PyTorch张量可以自动记录运算过程，用于后续的梯度计算——这是训练神经网络的核心！

2. 自动求导（Autograd） = 数学公式的“自动计算器”

神经网络靠“调参数”来学习。怎么知道参数该往哪个方向调？靠梯度（gradient）。PyTorch的 autograd 模块能自动算出梯度，省去手动推导的痛苦。

看个简单例子：

x = torch.tensor(2.0, requires_grad=True)  # 告诉PyTorch：我要对x求导
y = x ** 2 + 3 * x + 1
y.backward()  # 自动计算dy/dx
print(x.grad)  # 输出 tensor(7.) → 因为 dy/dx = 2x + 3，x=2时结果是7

我当初第一次看到 .backward() 就惊呆了——这不就是微积分自动完成器吗？

3. 神经网络模块（nn.Module） = 搭积木

PyTorch用 torch.nn 模块帮你快速搭建网络。比如一个简单的全连接层：

import torch.nn as nn

model = nn.Linear(in_features=2, out_features=1)  # 输入2个数，输出1个数
print(model.weight)  # 随机初始化的权重
print(model.bias)    # 随机初始化的偏置

你可以把多个层组合成复杂模型，就像搭乐高。

实战：用PyTorch拟合一条直线

现在，我们动手做一个超简单的项目：用神经网络拟合 y = 2x + 1 这条直线。

虽然用线性回归就能解决，但这是理解训练流程的完美起点。

步骤1：准备数据

# 生成100个x值，从-1到1
x = torch.linspace(-1, 1, 100).reshape(-1, 1)  # 变成100行1列
y = 2 * x + 1 + 0.1 * torch.randn(x.size())    # 加点噪声，更真实

步骤2：定义模型

class LinearModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = nn.Linear(1, 1)  # 输入1维，输出1维
    
    def forward(self, x):
        return self.linear(x)

model = LinearModel()

✨ forward 方法定义了数据如何流过网络——这是PyTorch的核心约定。

步骤3：设置损失函数和优化器

损失函数：衡量预测值和真实值的差距（这里用均方误差）
优化器：根据损失调整参数（这里用SGD）

criterion = nn.MSELoss()          # 损失函数
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)  # 学习率0.01

步骤4：训练循环

for epoch in range(100):  # 训练100轮
    # 1. 前向传播：计算预测值
    pred = model(x)
    
    # 2. 计算损失
    loss = criterion(pred, y)
    
    # 3. 清空梯度（重要！否则会累积）
    optimizer.zero_grad()
    
    # 4. 反向传播：计算梯度
    loss.backward()
    
    # 5. 更新参数
    optimizer.step()
    
    if epoch % 20 == 0:
        print(f"Epoch {epoch}, Loss: {loss.item():.4f}")

运行后你会看到损失逐渐下降，说明模型在“学习”！

步骤5：查看结果

print("学到的权重:", model.linear.weight.item())
print("学到的偏置:", model.linear.bias.item())

理想情况下，权重接近2，偏置接近1。恭喜！你刚亲手训练了一个神经网络。

新手常见问题解答

Q1: 为什么每次训练结果不一样？

因为权重是随机初始化的。想复现结果？加这三行：

torch.manual_seed(42)
# 如果用GPU还要加：
# torch.cuda.manual_seed(42)
# torch.backends.cudnn.deterministic = True

Q2: `requires_grad=True` 是什么时候用的？

只有需要对某个张量求导时才设为True。模型参数默认开启，输入数据通常不需要。

Q3: GPU怎么用？

只需把数据和模型移到GPU：

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
x = x.to(device)
y = y.to(device)

但记得：所有参与运算的张量必须在同一设备上！

Q4: 报错 “RuntimeError: expected scalar type Float but found Double”？

PyTorch默认使用 float32，但NumPy常生成 float64。统一类型即可：

x = x.float()  # 转为float32

下一步学习建议

你已经跨出了最难的第一步！接下来可以：

学习方向	推荐内容
巩固基础	学习 `Dataset` 和 `DataLoader`，处理真实数据集
图像识别	用 `torchvision` 加载MNIST/CIFAR10，训练CNN
自然语言	尝试RNN或Transformer做文本分类
工程实践	学习模型保存（`torch.save`）和部署

🧭 我的建议：不要一上来就啃论文。先复现经典项目（比如猫狗分类），在代码人生中积累手感。遇到报错别慌——90%的问题都是张量形状或设备不匹配，仔细看错误信息就能解决。

写在最后

这篇教程没有炫技，也没有堆砌术语。因为我记得自己当初面对空白编辑器时的迷茫。深度学习的门槛不在数学，而在迈出第一行代码的勇气。

你现在拥有了一个能训练的模型，哪怕它只是拟合一条直线。但这和训练ImageNet的ResNet在本质上是一样的流程：定义模型 → 计算损失 → 更新参数。

所以，别等“准备好”——打开你的IDE，复制上面的代码，改一改数字，看看会发生什么。这才是真正的教程，这才是真实的代码人生。

下次见！

标签:代码人生教程

最热最新

暂无评论

为你推荐

暂无相关推荐

PyTorch快速入门：从零开始写你的第一个神经网络

为什么选PyTorch？

第一步：搭建你的PyTorch环境

前提条件

安装PyTorch

验证是否安装成功

核心概念：用生活例子理解PyTorch

1. 张量（Tensor） = 增强版NumPy数组

2. 自动求导（Autograd） = 数学公式的“自动计算器”

3. 神经网络模块（nn.Module） = 搭积木

实战：用PyTorch拟合一条直线

步骤1：准备数据

步骤2：定义模型

步骤3：设置损失函数和优化器

步骤4：训练循环

步骤5：查看结果

新手常见问题解答

Q1: 为什么每次训练结果不一样？

Q2: `requires_grad=True` 是什么时候用的？

Q3: GPU怎么用？

Q4: 报错 “RuntimeError: expected scalar type Float but found Double”？

下一步学习建议

写在最后

评论 0

为你推荐

精选内容

PyTorch快速入门：从零开始写你的第一个神经网络

为什么选PyTorch？

第一步：搭建你的PyTorch环境

前提条件

安装PyTorch

验证是否安装成功

核心概念：用生活例子理解PyTorch

1. 张量（Tensor） = 增强版NumPy数组

2. 自动求导（Autograd） = 数学公式的“自动计算器”

3. 神经网络模块（nn.Module） = 搭积木

实战：用PyTorch拟合一条直线

步骤1：准备数据

步骤2：定义模型

步骤3：设置损失函数和优化器

步骤4：训练循环

步骤5：查看结果

新手常见问题解答

Q1: 为什么每次训练结果不一样？

Q2: requires_grad=True 是什么时候用的？

Q3: GPU怎么用？

Q4: 报错 “RuntimeError: expected scalar type Float but found Double”？

下一步学习建议

写在最后

评论 0

为你推荐

相关推荐

精选内容

Q2: `requires_grad=True` 是什么时候用的？