Skip to content
雲里
里雾

Attention Mechanism 🌱 Seed

AI

aka: 注意力机制, Self-Attention, 自注意力, Cross-Attention, 交叉注意力

Content

Attention Mechanism(注意力机制)是 Transformer 的核心计算模块,决定模型在处理某个 token 时,应该「关注」输入中的哪些其他 token

Acceptance

直觉:
读句子「银行倒闭了,他走向河边的银行坐下」时,人会自动判断第二个「银行」指的是「河岸」——这是靠上下文来消歧义的。Attention 机制做的就是这件事:给每个词和其他词建立关联权重。

计算过程(Query-Key-Value):
每个 token 被映射成三个向量:

  • Query(Q):「我想找什么信息?」
  • Key(K):「我能提供什么信息?」
  • Value(V):「我实际携带的内容」

计算流程:

  1. Q 和所有 K 做点积 → 得到相似度分数
  2. 分数 softmax 归一化 → 得到注意力权重(所有权重之和 = 1)
  3. 用权重对所有 V 加权求和 → 得到该 token 的新表示

权重越高 = 越「关注」对方。

两种变体:

  • Self-Attention(自注意力):Q/K/V 来自同一序列(文本内部词与词之间的关系)
  • Cross-Attention(交叉注意力):Q 来自一个序列,K/V 来自另一个序列(如文本到图像的生成中,图像 token「询问」文本 token)

Question

  1. Multi-Head Attention(多头注意力)是什么?为什么用多个头比单头效果好?
  2. 注意力机制的计算复杂度是 O(n²),意味着输入越长计算越贵——有哪些替代方案?
  3. Flash Attention 是什么?它如何在不改变数学上等价性的前提下加速计算?

See Also

Transformer
LLM
Context Window
属性纠缠(Attribute Entanglement)

Reference

  • 2026-03-24 LumosX 论文调研(Relational Attention 应用)
  • Vaswani et al., 2017: “Attention Is All You Need”
  • 给普通人的LLM入门

YoYo’s Note

「Attention Is All You Need」——这个论文标题现在回看像一句预言:注意力机制不只是 Transformer 的核心,也成了 AI 领域的核心隐喻。

LumosX 那篇论文之所以能解决多角色混淆,本质上就是在「hack」注意力机制——通过 mask 控制「谁被允许关注谁」。理解了 attention 的 Q/K/V 机制,就能看懂为什么 mask 可以隔离角色属性。

对 Midjourney 的启示:--cref 在底层可能也是在做类似的事——把参考图作为额外的 K/V 序列,让生成过程中的 Q(当前生成位置)更多关注参考图的特征。

分享这张卡片:
分享到 X

Attention Mechanism

#AI

反向链接