雷姬家的阁楼书架
06:24 · May 12, 2024 · Sun
https://t.me/CE_Observe/33156
Telegram
每日消费电子观察
微软打破 Decoder-Only 架构:大幅降低 GPU 内存需求
https://www.ithome.com/0/767/340.htm
https://arxiv.org/abs/2405.05254 (英文)
微软 & 清华最新研究,打破 GPT 系列开创的 Decoder-Only 架构 —— 提出 Decoder-Decoder 新型架构,名为 YOCO(You Only Cache Once)。
YOCO 仅缓存一次键值对,可大幅降低 GPU 内存需求,且保留全局注意力能力。一张图来看…
Home
Powered by
BroadcastChannel
&
Sepia