1回答

0收藏

MLA,在生成期间仅需缓存蓝色框中的向量

金融科技 金融科技 87 人阅读 | 1 人回复 | 2024-12-31

[color=var(--md-box-samantha-normal-text-color) !important](RoPE)(Su et al., 2024)的解耦键的矩阵;RoPE 表示应用 RoPE 矩阵的操作;表示拼接。请注意,对于 MLA,在生成期间仅需缓存蓝色框中的向量(即和),这显著减少了 KV 缓存,同时保持了与标准多头注意力(MHA)(Vaswani et al., 2017)相当的性能。

[color=var(--md-box-samantha-normal-text-color) !important]对于注意力查询,我们也进行低秩压缩,这可以减少训练期间的激活内存:




其中是查询的压缩潜在向量;表示查询压缩维度;、分别是查询的下投影和上投影矩阵;是用于生成携带 RoPE 的解耦查询的矩阵。


[color=var(--md-box-samantha-normal-text-color) !important]最终,注意力查询()、键()和值()相结合,产生最终的注意力输出:


其中表示输出投影矩阵。


screenshot_20241217_232716.jpg
分享到:
回复

使用道具 举报

回答|共 1 个

test

发表于 2024-12-31 11:31:54 | 显示全部楼层

王企鹅恶气 萨  阿萨
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则