Attention Mechanism 🌱 Seed

AI

aka: 注意力机制, Self-Attention, 自注意力, Cross-Attention, 交叉注意力

AI

Content

Attention Mechanism（注意力机制）是 Transformer 的核心计算模块，决定模型在处理某个 token 时，应该「关注」输入中的哪些其他 token。

Acceptance

直觉：
读句子「银行倒闭了，他走向河边的银行坐下」时，人会自动判断第二个「银行」指的是「河岸」——这是靠上下文来消歧义的。Attention 机制做的就是这件事：给每个词和其他词建立关联权重。

计算过程（Query-Key-Value）：
每个 token 被映射成三个向量：

Query（Q）：「我想找什么信息？」
Key（K）：「我能提供什么信息？」
Value（V）：「我实际携带的内容」

计算流程：

Q 和所有 K 做点积 → 得到相似度分数
分数 softmax 归一化 → 得到注意力权重（所有权重之和 = 1）
用权重对所有 V 加权求和 → 得到该 token 的新表示

权重越高 = 越「关注」对方。

两种变体：

Self-Attention（自注意力）：Q/K/V 来自同一序列（文本内部词与词之间的关系）
Cross-Attention（交叉注意力）：Q 来自一个序列，K/V 来自另一个序列（如文本到图像的生成中，图像 token「询问」文本 token）

Question

Multi-Head Attention（多头注意力）是什么？为什么用多个头比单头效果好？
注意力机制的计算复杂度是 O(n²)，意味着输入越长计算越贵——有哪些替代方案？
Flash Attention 是什么？它如何在不改变数学上等价性的前提下加速计算？

See Also

Transformer
LLM
Context Window
属性纠缠（Attribute Entanglement）

Reference

2026-03-24 LumosX 论文调研（Relational Attention 应用）
Vaswani et al., 2017: “Attention Is All You Need”
给普通人的LLM入门

YoYo’s Note

「Attention Is All You Need」——这个论文标题现在回看像一句预言：注意力机制不只是 Transformer 的核心，也成了 AI 领域的核心隐喻。

LumosX 那篇论文之所以能解决多角色混淆，本质上就是在「hack」注意力机制——通过 mask 控制「谁被允许关注谁」。理解了 attention 的 Q/K/V 机制，就能看懂为什么 mask 可以隔离角色属性。

对 Midjourney 的启示：--cref 在底层可能也是在做类似的事——把参考图作为额外的 K/V 序列，让生成过程中的 Q（当前生成位置）更多关注参考图的特征。

分享这张卡片：

Attention Mechanism

#AI

卡片盒子 · SlipBox zone.hatcloud.me

反向链接