【译】Large Transformer Model 推理优化 | Lil'Log
[January 10, 2023] · 31 min · Lilian Weng 2023-01-24 更新:增加了关于蒸馏 的小节 如今,大型 Transformer 模型已经成为主流,为各种任务创造了 SoTA (最先进的技术) 结果。它们功能强大但训练和使用...
[January 10, 2023] · 31 min · Lilian Weng 2023-01-24 更新:增加了关于蒸馏 的小节 如今,大型 Transformer 模型已经成为主流,为各种任务创造了 SoTA (最先进的技术) 结果。它们功能强大但训练和使用...
2022-03-13 更新: 添加 expert choice routing 2022-06-10 更新: Greg 和我撰写了这篇文章的缩短和升级版本,发表在 OpenAI Blog 上:“训练大型神经网络的技术” 近年来,我们...