【译】Large Transformer Model 推理优化 | Lil'Log

[January 10, 2023] · 31 min · Lilian Weng 2023-01-24 更新:增加了关于蒸馏 的小节 如今,大型 Transformer 模型已经成为主流,为各种任务创造了 SoTA (最先进的技术) 结果。它们功能强大但训练和使用...

创建: 2023-10-06 · 更新: 2023-10-06 · 字数: 11979字 · 时长: 24分钟 ·  作者: Lilian Weng