MLA，在生成期间仅需缓存蓝色框中的向量

test

[color=var(--md-box-samantha-normal-text-color) !important]（RoPE）（Su et al., 2024）的解耦键的矩阵；RoPE 表示应用 RoPE 矩阵的操作；表示拼接。请注意，对于 MLA，在生成期间仅需缓存蓝色框中的向量（即和），这显著减少了 KV 缓存，同时保持了与标准多头注意力（MHA）（Vaswani et al., 2017）相当的性能。

[color=var(--md-box-samantha-normal-text-color) !important]对于注意力查询，我们也进行低秩压缩，这可以减少训练期间的激活内存：

其中是查询的压缩潜在向量；表示查询压缩维度；、分别是查询的下投影和上投影矩阵；是用于生成携带 RoPE 的解耦查询的矩阵。

[color=var(--md-box-samantha-normal-text-color) !important]最终，注意力查询（）、键（）和值（）相结合，产生最终的注意力输出：

其中表示输出投影矩阵。

test · 发表于 2024-12-31 11:31:54

王企鹅恶气萨阿萨

MLA，在生成期间仅需缓存蓝色框中的向量

test LV6