我模仿 nanochat 全栈 llm 流程, 在 8 x H100 芯片训练了 500m 参数的 llm, 以下感悟

By: wangshuo6

4 November 2025 at 10:18

wangshuo6:

花费了 8w 个 token, 110$的 gpu 服务器成本(一般时间花在 debug 上，一半时间训练)

感受是 gpu 价格及其贵，代码出现 1 个 bug = 10min debug -> 至少 1.2$花销

bug 出现频率高: python 容易写出语法/变量名错误，超参数填的的不对会导致 gpu 计算错误，cuda 和 pytorch 版本问题也会导致出错

总结就是:

1. 犯错的代价是严重的，务必用小批量数据测试代码是否写的正确

2. ai 基建大概率不是泡沫

以上 gpu 是租的便宜的小厂商的，主流云服务价格翻倍