Skip to content
雲里
里雾

Transformer 🌱 Seed

AI

aka: Transformer 架构, 变换器

Content

LLM 理解文本的一种有效方式,让 LLM 不再逐字阅读,而是一次性看完,建立全景地图后再通过 注意力机制来专注局部及关联性。

Acceptance

Transformer 是现代几乎所有主流 AI 大模型(LLM、图像生成、语音识别)背后的神经网络架构,2017 年由 Google 的论文《Attention Is All You Need》提出。

核心思路:

  • 旧方法(RNN/LSTM)处理文本时像人一样「逐字阅读」,有记忆衰减问题
  • Transformer 的突破是一次性看整个输入,通过 Attention Mechanism(注意力机制)决定哪些词对哪些词最重要

两大组件:

  • Encoder:把输入文本编码成向量(理解语义)
  • Decoder:根据编码结果逐步生成输出(如翻译、回答)
  • 现代 LLM(GPT、Claude、Llama)大多是纯 Decoder 架构

关键特性:

  • 并行计算:不像 RNN 需要顺序处理,可以同时处理所有 token → 训练速度快很多
  • 位置编码(Positional Encoding):因为是并行的,需要另外告诉模型「哪个 token 在哪个位置」
  • 可扩展性:参数量从几亿扩展到数千亿,性能持续提升(「规模律 Scaling Law」)

Diffusion Transformer(DiT):
图像/视频生成领域将 Transformer 架构引入扩散模型,取代原有的 UNet 架构,成为新一代图像生成的基础(如 FLUX、Wan2.1、Sora)。

Question

  1. Transformer 的注意力机制具体怎么计算「谁关注谁」?(→ Attention Mechanism)
  2. 为什么 Transformer 的参数越多效果越好?规模律有边界吗?
  3. 位置编码的设计(如 RoPE)对模型理解长上下文有什么影响?

See Also

Attention Mechanism
LLM
Diffusion Model
Context Window

Reference

  • 2026-03-24 LumosX 论文调研(DiT 架构背景)
  • 2026-03-24 λ-RLM 论文调研
  • Vaswani et al., 2017: “Attention Is All You Need”
  • 给普通人的LLM入门

YoYo’s Note

Transformer 是 AI 这轮爆炸的地基,不理解它就很难真正理解「为什么 AI 这么厉害但又有这些奇怪的局限」。

一个直觉类比:RNN 像在读书时只能记住最近看到的几页,Transformer 像能同时看着整本书并在任意两段话之间画连线。这个「整体感知」能力是 LLM 涌现理解力的关键。

对 Jeff 最有用的认知:LumosX 那篇论文里的 DiT(Diffusion Transformer)和现代 LLM 用的是同一个底层架构——AI 图像生成和 AI 文本生成这两条线已经开始融合了。

分享这张卡片:
分享到 X

Transformer

#AI

反向链接