【译】Large Transformer Model 推理优化 | Lil'Log

[January 10, 2023] · 31 min · Lilian Weng 2023-01-24 更新:增加了关于蒸馏 的小节 如今,大型 Transformer 模型已经成为主流,为各种任务创造了 SoTA (最先进的技术) 结果。它们功能强大但训练和使用...

创建: 2023-10-06 · 更新: 2023-10-06 · 字数: 11979字 · 时长: 24分钟 ·  作者: Lilian Weng

【译】如何在多 GPU 上训练真正的大型模型? | Lil'Log

2022-03-13 更新: 添加 expert choice routing 2022-06-10 更新: Greg 和我撰写了这篇文章的缩短和升级版本,发表在 OpenAI Blog 上:“训练大型神经网络的技术” 近年来,我们...

创建: 2023-10-06 · 更新: 2023-10-06 · 字数: 8582字 · 时长: 18分钟 ·  作者: Lilian Weng