Normal view

There are new articles available, click to refresh the page.
Today — 3 November 2025Main stream

BERT 论文复现: 经验 & 教训

3 November 2025 at 11:18
huangyezhufeng:

https://datahonor.com/blog/2025/11/02/bert/

目录:

关于我们做到了哪一步
BERT 简介
有趣的观察
    预训练过程的有趣现象
    数据非常非常重要
    从 Finetune 管窥预训练的威力
错误与教训
    即使在极小数据集上也无法过拟合
    一次性预处理全量数据,CPU 加班,GPU 休假
    试图用临时手搓的玩意儿达到很好的性能
    workers 和 prefetch 因子设得过大导致 OOM
    没有优雅处理 DataLoader worker 的异常
    评估时使用了错误的 tokenizer
最后
❌
❌