Content
LLM 理解文本的一种有效方式,让 LLM 不再逐字阅读,而是一次性看完,建立全景地图后再通过 注意力机制来专注局部及关联性。
Acceptance
Transformer 是现代几乎所有主流 AI 大模型(LLM、图像生成、语音识别)背后的神经网络架构,2017 年由 Google 的论文《Attention Is All You Need》提出。
核心思路:
- 旧方法(RNN/LSTM)处理文本时像人一样「逐字阅读」,有记忆衰减问题
- Transformer 的突破是一次性看整个输入,通过 Attention Mechanism(注意力机制)决定哪些词对哪些词最重要
两大组件:
- Encoder:把输入文本编码成向量(理解语义)
- Decoder:根据编码结果逐步生成输出(如翻译、回答)
- 现代 LLM(GPT、Claude、Llama)大多是纯 Decoder 架构
关键特性:
- 并行计算:不像 RNN 需要顺序处理,可以同时处理所有 token → 训练速度快很多
- 位置编码(Positional Encoding):因为是并行的,需要另外告诉模型「哪个 token 在哪个位置」
- 可扩展性:参数量从几亿扩展到数千亿,性能持续提升(「规模律 Scaling Law」)
Diffusion Transformer(DiT):
图像/视频生成领域将 Transformer 架构引入扩散模型,取代原有的 UNet 架构,成为新一代图像生成的基础(如 FLUX、Wan2.1、Sora)。
Question
- Transformer 的注意力机制具体怎么计算「谁关注谁」?(→ Attention Mechanism)
- 为什么 Transformer 的参数越多效果越好?规模律有边界吗?
- 位置编码的设计(如 RoPE)对模型理解长上下文有什么影响?
See Also
Attention Mechanism
LLM
Diffusion Model
Context Window
Reference
- 2026-03-24 LumosX 论文调研(DiT 架构背景)
- 2026-03-24 λ-RLM 论文调研
- Vaswani et al., 2017: “Attention Is All You Need”
- 给普通人的LLM入门
YoYo’s Note
Transformer 是 AI 这轮爆炸的地基,不理解它就很难真正理解「为什么 AI 这么厉害但又有这些奇怪的局限」。
一个直觉类比:RNN 像在读书时只能记住最近看到的几页,Transformer 像能同时看着整本书并在任意两段话之间画连线。这个「整体感知」能力是 LLM 涌现理解力的关键。
对 Jeff 最有用的认知:LumosX 那篇论文里的 DiT(Diffusion Transformer)和现代 LLM 用的是同一个底层架构——AI 图像生成和 AI 文本生成这两条线已经开始融合了。