PyTorch初体验：一个考公程序员的深夜AI入门记

慢查询猎人

2026-01-05 05:48

阅读 2667

上周五晚上11点，我正瘫在成都出租屋的懒人沙发上，一边啃着冒菜外卖，一边刷着某乎上“35岁程序员如何转型”的热帖。窗外九眼桥的夜生活刚刚开始，而我的生活……还在和PyTorch死磕。

说来有点魔幻——白天在公司写业务CRUD，晚上却在卷深度学习，周末还得刷行测题。没错，我就是那个一边准备考公、一边不想放弃技术的在职程序员。最近组里接了个新需求：用AI做用户行为预测，领导一句“你不是学过点机器学习吗？试试”，直接把我推上了火线。于是，PyTorch成了我深夜加班的新搭子。

为啥选PyTorch？简历不能只写Spring Boot啊！

坦白讲，之前我对深度学习的理解还停留在“调sklearn包跑个Random Forest”的水平。但今年春招刷BOSS直聘时发现，连政务云项目都开始要求“了解AI模型部署”了。考公竞争这么卷，技术岗简历上如果只写“精通Java”、“熟悉MySQL”，怕是连初筛都过不了。

所以，学PyTorch，既是工作需要，也是给自己留条后路。万一考不上，至少还能靠AI技能多拿几个面试机会。

PyTorch作为目前最主流的深度学习框架之一，优势很明显：

动态图机制：写代码像写Python一样自然，debug方便
社区活跃：GitHub上Star数爆表，遇到问题基本都能搜到答案
学术友好：论文复现首选，很多SOTA模型都开源在PyTorch

相比之下，TensorFlow虽然部署能力强，但API设计略显笨重；JAX太新，生态还不成熟。对我这种“兼职AI选手”来说，PyTorch上手最快。

从“Hello World”到跑通第一个模型

我拿的数据集是公司脱敏后的用户点击日志（别问，问就是合规）。目标很简单：根据用户过去7天的行为，预测他明天会不会点击某个推荐位。

环境搭建：conda救我狗命

先装环境。以前用pip装包经常依赖冲突，现在直接上conda：

conda create -n pytorch-env python=3.9
conda activate pytorch-env
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

小贴士：国内网络建议换清华源，不然下载CUDA驱动能等到第二天早上。

装完一跑import torch，没报错！那一刻的快乐，堪比周五下班前merge完PR。

数据预处理：比产品经理的需求还难搞

原始数据长这样：

user_id	timestamp	item_id	clicked
1001	2024-03-01 10:23	A123	1
1001	2024-03-01 11:45	B456	0

要把它变成模型能吃的格式，得做三件事：

序列化：把每个用户的点击历史按时间排序，截取最近N条
编码：item_id是字符串，得转成数字（用了LabelEncoder）
划分训练/验证集：按时间切分，避免数据泄露

这里踩了个大坑：一开始我把所有数据随机打乱再split，结果AUC高达0.95——高兴不到三秒，测试集一跑直接崩到0.55。后来才意识到：时间序列数据不能shuffle！

改完之后代码长这样：

from sklearn.preprocessing import LabelEncoder
import torch
from torch.utils.data import Dataset

class ClickDataset(Dataset):
    def __init__(self, df, seq_len=7):
        self.df = df.groupby('user_id').apply(
            lambda x: x.sort_values('timestamp').tail(seq_len)
        ).reset_index(drop=True)
        self.le = LabelEncoder()
        self.df['item_id'] = self.le.fit_transform(self.df['item_id'])
        # ... 其他预处理
        
    def __getitem__(self, idx):
        # 返回 (seq_features, label)
        pass

说实话，这部分花了我两个晚上。期间一度想放弃，但想到简历上能写“独立完成用户行为序列建模”，又咬牙坚持下来了。

模型搭建：从MLP到Transformer，我试了三种算法

最初偷懒，直接上全连接网络（MLP）：

class MLPModel(nn.Module):
    def __init__(self, input_dim, hidden_dim=128):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Dropout(0.3),
            nn.Linear(hidden_dim, 1),
            nn.Sigmoid()
        )
    
    def forward(self, x):
        return self.net(x)

效果一般，验证集AUC 0.72。领导看了直摇头：“这还不如规则引擎。”

于是升级到GRU（门控循环单元），专门处理序列数据：

class GRUModel(nn.Module):
    def __init__(self, vocab_size, embed_dim=64, hidden_dim=128):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.gru = nn.GRU(embed_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, 1)
        
    def forward(self, x):
        x = self.embedding(x)  # [B, L] -> [B, L, E]
        _, h = self.gru(x)     # h: [1, B, H]
        return torch.sigmoid(self.fc(h.squeeze(0)))

AUC涨到0.78，勉强能看。但同事小王（组里唯一正经AI工程师）说：“现在都2024年了，还用RNN？上Transformer啊！”

好吧，听人劝吃饱饭。我把模型改成简化版Transformer，只保留Multi-Head Attention + FFN：

class SimpleTransformer(nn.Module):
    def __init__(self, vocab_size, embed_dim=64, num_heads=4):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.pos_encoding = PositionalEncoding(embed_dim)
        self.encoder = nn.TransformerEncoderLayer(
            d_model=embed_dim, nhead=num_heads, batch_first=True
        )
        self.pool = nn.AdaptiveAvgPool1d(1)
        self.fc = nn.Linear(embed_dim, 1)
        
    def forward(self, x):
        x = self.embedding(x)
        x = self.pos_encoding(x)
        x = self.encoder(x)
        x = x.transpose(1, 2)  # [B, L, D] -> [B, D, L]
        x = self.pool(x).squeeze(-1)
        return torch.sigmoid(self.fc(x))

结果？AUC直接干到0.83！虽然离上线还有距离，但至少能跟领导交差了。

训练调优：那些让我半夜惊坐起的坑

1. Loss不下降？可能是学习率太高

一开始用默认lr=0.001，loss在0.69左右疯狂震荡（相当于瞎猜）。查了下资料，发现二分类交叉熵的初始loss应该是-log(0.5)≈0.693，说明模型根本没学到东西。

尝试用学习率搜索：

from torch.optim.lr_scheduler import OneCycleLR

optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)
scheduler = OneCycleLR(optimizer, max_lr=0.01, steps_per_epoch=len(train_loader), epochs=10)

配合梯度裁剪，终于稳住了。

2. GPU内存爆炸

我的笔记本只有8G显存，跑Transformer时直接OOM。解决方案：

减小batch_size（从64降到16）
用torch.cuda.empty_cache()清理缓存
启用混合精度训练：

scaler = torch.cuda.amp.GradScaler()

for data, target in train_loader:
    optimizer.zero_grad()
    with torch.cuda.amp.autocast():
        output = model(data)
        loss = criterion(output, target)
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()

显存占用降了40%，训练速度反而快了——真香！

3. 验证集指标虚高

有次验证AUC 0.85，上线后线上AUC只有0.68。排查发现：训练时用了未来信息！因为预处理时没严格按时间窗口划分，导致某些样本“偷看”了未来的点击行为。

教训：时间序列建模，数据隔离必须严格按时间轴。

效果对比：三种算法哪家强？

跑完一轮实验，整理了个表格：

模型	验证集AUC	训练时间（epoch）	显存占用	可解释性
MLP	0.72	2min	2.1GB	★★★★☆
GRU	0.78	5min	3.8GB	★★☆☆☆
Transformer	0.83	8min	5.5GB	★☆☆☆☆

结论很现实：效果越好，资源消耗越大，调试越痛苦。最后我们折中选了GRU——效果够用，部署简单，运维大哥也不骂我。

给同样“半路出家”的朋友几点建议

别追求SOTA：工业界更看重稳定性和可维护性。一个AUC 0.78但能跑半年不崩的模型，远胜AUC 0.85但三天两头挂的“艺术品”。
善用PyTorch Lightning：如果你和我一样讨厌写重复的训练循环，试试这个库。几行代码搞定checkpoint、log、GPU分配。
简历怎么写？ 别只写“使用PyTorch构建模型”。改成：“基于用户行为序列，设计GRU模型实现点击率预测，AUC提升11%，支撑日均千万级推荐请求”。有场景、有指标、有技术栈，HR一眼就看到亮点。
考公和AI不冲突：现在很多政务智能化项目（比如智慧审批、舆情分析）都需要懂AI的公务员。我甚至在某省考岗位表里看到了“人工智能方向”的备注！

凌晨两点，模型终于收敛了。我关掉终端，看了眼窗外——成都的夜还是那么温柔。明天还要早起刷申论，但此刻，我为自己又掌握了一项硬核技能而开心。

技术这条路，从来不是非黑即白。你可以一边写算法，一边背《十四五规划》；一边调学习率，一边研究行测数量关系。重要的是，别停下脚步。

对了，这篇文章的代码我都放GitHub了（链接私信我），欢迎star。下次分享《如何用Flask+Docker把PyTorch模型部署到政务云》，敬请期待。

最后自嘲一句：都说程序员35岁危机，但我相信，只要还能深夜调参、清晨刷题，就永远有选择的权利。共勉。

标签:算法简历技术分享

最热最新

暂无评论

为你推荐

暂无相关推荐