Linear Attention [1/n]

Linear Attention [1/n]

RNN 

Linear Attention [2/n]

image-20251212115350633


2025-12-15

PKM: 1907.05242 MLS: 2412.09764 UltraMem v1: 2411.12364 UltraMem v2: 2508.18756

各个Mem架构横向比较

  • PKM、UltraMem 和 MLS 在形式上都可写成 top-k 稀疏加权的 memory read,差别不在于是否用 top-k,而在于 routing 的数学地位。
  • PKM 的 routing 来自 product key 的结构先验,是固定、非学习的;UltraMem v1/v2 把 routing 视为 检索或可学习的 gate;
  • MLS 则进一步把 routing 明确写成 memory layer 的定义性原语(带约束的 mask),而不是实现技巧。

从统一视角看,前几者都可以视为 MLS 在不同 routing 约束下的特例。

-–

2025-12-21

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

2502.11089

image-20251221160444892

img

flash attention

  • Flash-Attn 为了凑矩阵乘法 把QK的Block 捆绑
    • 矩阵乘法可以调用高效的半精度矩阵乘法(tensor core)
    • 矩阵乘法太快了,memory load 反而成为瓶颈

image-20251221170334619

总结

  • decoding 用了 GQA 高效
  • Compress 得到了Selection 的梯度回传 选择块更精准

KIMI moba

image-20251221214859236

image-20251221214959405

  • kimi 128k 优势弱于 NSA

    image-20251221215118783

无论什么硬件,通用的原则;

  • 矩阵乘法快于 Mem 写入读出
  • 连续读取 局部性

MinMax

image-20251222144041496

image-20251222141414243

image-20251222141517570

image-20251222141854531

image-20251222142101807

  • LSTM: vector-valued hidden state
  • Linear Attention: hardware efficiency (Matrix Mutiplication)
  • Mamba2

image-20251222142838370

image-20251222143007362

image-20251222143021280

image-20251222144246646 \(\boldsymbol{S}_{[i+1]} = \boldsymbol{S}_{[i]} + \boldsymbol{V}^\top_{[i]} \boldsymbol{K}_{[i]} \\ \boldsymbol{O}_{[i+1]} = \boldsymbol{S}_{[i+1]} \boldsymbol{q}_{[i+1]} \\ \boldsymbol{O} = (\boldsymbol{Q} \boldsymbol{K}^\top \odot \boldsymbol{M}) \boldsymbol{V} \in \mathbb{R}^{L \times d}\)

image-20251222144336807 \(\mathbf{O} = (\mathbf{Q} \mathbf{K}^\top \odot \mathbf{M}) \mathbf{V} \in \mathbb{R}^{L \times d}\) \[\boldsymbol{O}_{[i]} = \boldsymbol{Q}_{[i]}\boldsymbol{S}^\top_{[i]} + (\boldsymbol{Q}_{[i]}\boldsymbol{K}^\top_{[i]} \odot \boldsymbol{M}) \boldsymbol{V}_{[i]} \\ \boldsymbol{O} = (\boldsymbol{Q} \boldsymbol{K}^\top \odot \boldsymbol{M}) \boldsymbol{V} \in \mathbb{R}^{L \times d}\]

image-20251222145800861

image-20251222150213035

image-20251222150100161

image-20251222150245975

Written by Yiran //