Foundation

.img-shadow { box-shadow: 8px 8px 10px rgba(0, 0, 0, 0.5); } #theme-toggle, .top-link { display: none; } @media (prefers-color-scheme: dark) { :root { --theme: rgb(29, 30, 32); --entry: rgb(46, 46, 51); --primary: rgb(218, 218, 219); --secondary: rgb(155, 156, 157); --tertiary: rgb(65, 66, 68); --content: rgb(196, 196, 197); --code-block-bg: rgb(46, 46, 51); --code-bg: rgb(55, 56, 62); --border: rgb(51, 51, 51); } .list { background: var(--theme); } .list:not(.dark)::-webkit-scrollbar-track { background: 0 0; } .list:not(.dark)::-webkit-scrollbar-thumb { border-color: var(--theme); } }

【译】Large Transformer Model 推理优化 | Lil'Log

[January 10, 2023] · 31 min · Lilian Weng 2023-01-24 更新：增加了关于蒸馏的小节如今，大型 Transformer 模型已经成为主流，为各种任务创造了 SoTA (最先进的技术) 结果。它们功能强大但训练和使用...

【译】如何在多 GPU 上训练真正的大型模型？ | Lil'Log

2022-03-13 更新: 添加 expert choice routing 2022-06-10 更新: Greg 和我撰写了这篇文章的缩短和升级版本，发表在 OpenAI Blog 上：“训练大型神经网络的技术” 近年来，我们...