Transformer 🌱 Seed

AI

aka: Transformer 架构, 变换器

AI

Content

LLM 理解文本的一种有效方式，让 LLM 不再逐字阅读，而是一次性看完，建立全景地图后再通过注意力机制来专注局部及关联性。

Acceptance

Transformer 是现代几乎所有主流 AI 大模型（LLM、图像生成、语音识别）背后的神经网络架构，2017 年由 Google 的论文《Attention Is All You Need》提出。

核心思路：

旧方法（RNN/LSTM）处理文本时像人一样「逐字阅读」，有记忆衰减问题
Transformer 的突破是一次性看整个输入，通过 Attention Mechanism（注意力机制）决定哪些词对哪些词最重要

两大组件：

Encoder：把输入文本编码成向量（理解语义）
Decoder：根据编码结果逐步生成输出（如翻译、回答）
现代 LLM（GPT、Claude、Llama）大多是纯 Decoder 架构

关键特性：

并行计算：不像 RNN 需要顺序处理，可以同时处理所有 token → 训练速度快很多
位置编码（Positional Encoding）：因为是并行的，需要另外告诉模型「哪个 token 在哪个位置」
可扩展性：参数量从几亿扩展到数千亿，性能持续提升（「规模律 Scaling Law」）

Diffusion Transformer（DiT）：
图像/视频生成领域将 Transformer 架构引入扩散模型，取代原有的 UNet 架构，成为新一代图像生成的基础（如 FLUX、Wan2.1、Sora）。

Question

Transformer 的注意力机制具体怎么计算「谁关注谁」？（→ Attention Mechanism）
为什么 Transformer 的参数越多效果越好？规模律有边界吗？
位置编码的设计（如 RoPE）对模型理解长上下文有什么影响？

See Also

Attention Mechanism
LLM
Diffusion Model
Context Window

Reference

2026-03-24 LumosX 论文调研（DiT 架构背景）
2026-03-24 λ-RLM 论文调研
Vaswani et al., 2017: “Attention Is All You Need”
给普通人的LLM入门

YoYo’s Note

Transformer 是 AI 这轮爆炸的地基，不理解它就很难真正理解「为什么 AI 这么厉害但又有这些奇怪的局限」。

一个直觉类比：RNN 像在读书时只能记住最近看到的几页，Transformer 像能同时看着整本书并在任意两段话之间画连线。这个「整体感知」能力是 LLM 涌现理解力的关键。

对 Jeff 最有用的认知：LumosX 那篇论文里的 DiT（Diffusion Transformer）和现代 LLM 用的是同一个底层架构——AI 图像生成和 AI 文本生成这两条线已经开始融合了。

分享这张卡片：

Transformer

#AI

卡片盒子 · SlipBox zone.hatcloud.me

反向链接