给普通人的 LLM 入门

你每天都在用它——问它写邮件、帮你翻译、让它帮你想方案。但你可能不知道它为什么这样工作，为什么有时候它自信地说错话，为什么有时候它「记不住」你上次聊的东西。

这篇文章不需要任何技术背景，把 LLM 说明白。

一、它在做什么？一句话

LLM 只做一件事：

给定一段文字，预测下一个词最可能是什么。

就这样。

没有「理解」，没有「思考」，没有「知道」。只有：根据前面出现的文字，统计上最可能跟在后面的是什么。

但这个简单操作，在足够大的规模下，涌现出了推理、翻译、写代码、聊天的能力。这是 2017 年以来 AI 领域最大的意外发现之一。

你可以做个小实验：在手机输入法里打「今天天气」，它会自动联想「不错」「真好」之类的词——输入法做的就是 LLM 做的事，只是规模小得多。LLM 是同一原理放大了几亿倍的结果。

二、Token：模型看到的不是你写的字

LLM 处理文字的方式很奇怪。它不直接处理字符，也不处理单词，而是处理 Token——一种介于字符和单词之间的东西，用统计方法自动切割出来的文字碎片。

举个例子：

"今天天气真好"  → ["今天", "天气", "真", "好"]
"unbelievable"  → ["un", "believ", "able"]
"ChatGPT"       → ["Chat", "G", "PT"]

为什么要这么切，而不是直接按字或按词？因为这是个折中方案：切得太细（每个字一个），词汇表会爆炸；切得太粗（整个词一个），没见过的新词就没法处理。Token 是数据统计出来的最优解。

你需要记住的实用信息：

1000 个汉字 ≈ 1000~1500 tokens（中文比英文贵一些）
用 AI 的 API 是按 token 计费的，你输入的 + 它回答的，都算钱
模型看到的是切碎后的 token 序列，不是你的原文

这解释了为什么有时候你觉得 prompt 写得很清楚，模型却理解错了——它看到的切法和你以为的不一样。

三、Transformer：为什么可以「一次看整段话」

在现代 AI 架构出现之前，处理文字的老方法（叫 RNN）就像一个只能看当前这一行、靠短期记忆往下读的人——读到后面，前面的内容就记不住了。

2017 年，Google 发表了一篇论文《Attention Is All You Need》，提出 Transformer 架构。它的核心思路是：

不要逐字读，而是一次性把整段文字摊开，在任意两个词之间画连线，标注它们的关联强度。

想象你在读一篇侦探小说，你不是从第一行顺序读到最后——你会在第 200 页的「凶手」和第 3 页的「可疑线索」之间跳跃，反复比对。这种「全局跳跃式关联」就是 Transformer 在做的事。

值得知道的一点： Transformer 是目前几乎所有主流 AI 的底层——Claude、GPT、Gemini，以及 Midjourney 等图像生成工具最新的版本，全都建在这个架构上。文字 AI 和图像 AI 这两条线，正在往同一个底层汇合。

四、Attention：「谁关注谁」

Transformer 里最核心的操作叫 Attention（注意力机制）。这就是「画连线」的具体实现。

每个词处理时，都会问三个问题：

Query（Q）：「我在找什么信息？」
Key（K）：「我能提供什么信息？」
Value（V）：「我实际携带的内容是什么？」

你可以把它想象成一个图书馆的检索系统：你手里的关键词（Query）去跟书架上所有书的标签（Key）匹配，匹配度越高，这本书的内容（Value）对你的影响就越大。

用一个具体例子：

「银行倒闭了，他走向河边的银行坐下」

当模型处理第二个「银行」时，它的 Q 会和句子里所有词的 K 比较相似度——「河边」和它的匹配度很高，于是模型「知道」这里的「银行」是「河岸」，不是金融机构。

这个机制是 LLM 能理解歧义、把握上下文的根本原因。

五、上下文窗口：模型的工作台

LLM 有一个重要的硬限制：Context Window（上下文窗口）。

上下文窗口是模型在单次对话中能同时看到的最大内容量。超过这个上限，模型就看不到更早的内容了。

一个好的类比：黑板。教室里的黑板就这么大，写满了就得擦掉老内容才能继续写。模型的上下文窗口就是这块黑板——你和它的对话历史、你发给它的文件、它的回答，全都在这块黑板上。写满了，最早的内容就消失了。

目前主流大小：

Claude Sonnet：200K tokens（约 15 万汉字，150 页书）
GPT-4o：128K tokens
Gemini 1.5 Pro：1M tokens（约 700 页书）

最重要的认知：上下文窗口不是记忆，是工作台。

每次开启新对话，黑板是空的。对话结束，内容消失。如果你想让它「记得」上次聊的事，必须手动把那些内容重新发给它——这就是为什么你跟 ChatGPT 开了新对话，它不记得上次说了什么。那不是 bug，是设计如此。

六、Context Rot：越聊越容易出错

有一个你可能体验过但没有名字的现象：一个对话聊很长之后，AI 好像越来越容易说错话。

这不是错觉，有研究者把它量化了：

模型的准确率随输入长度呈指数衰减。

原因是：当对话历史越来越长，黑板上的内容越来越多，每段内容分到的「注意力」就越来越少——早期的内容逐渐被稀释，模型慢慢「忘记」了开头说了什么。这就是「Context Rot」，上下文腐烂。

还有一个相关的发现叫 Lost in the Middle：模型对上下文开头和结尾最专注，中间部分最容易忽略。

实用建议：

重要的事情放在对话开头，不要埋在一长串消息的中间
如果一个任务很复杂，拆成多次对话比塞进一次更可靠
对话感觉「越聊越乱」时，开一个新对话重新说清楚背景

七、训练：这个东西是怎么被造出来的

到这里你已经知道 LLM「工作时」是什么样的了。现在说「造」的过程，三个阶段：

第一阶段：预训练（Pre-training）

把互联网上的海量文本——Wikipedia、书籍、新闻、论坛，数万亿个 token——反复训练「预测下一个 token」这一个任务。

这个阶段结束时，模型已经「知道」大量关于语言、世界、科学、历史的信息。但它还不会「回答问题」，它只会「续写文字」——给它半句话，它会往下接。

第二阶段：监督微调（SFT）

收集大量「问题-好答案」对话数据，继续训练。这个阶段教模型「如何有用地回答人类的问题」，而不只是续写文字。

第三阶段：人类反馈强化学习（RLHF）

让真实的人评估模型给出的两个不同回答，哪个更好？收集大量这类偏好判断，训练一个「奖励模型」，再用奖励模型来优化 LLM，让它的输出越来越符合人类的期望。

一个有意思的认知：模型「不做有害的事」这类行为，不是在代码里写死的 if-else，而是通过 RLHF 训练出来的倾向。这意味着它是概率性的，而不是绝对的——这就是为什么存在「越狱」的可能性。

八、幻觉：为什么 AI 会自信地说谎

用 AI 一段时间，你一定碰到过：它说得头头是道，但说的是假的。帮你查了一个「不存在的新闻」，引用了一本「没有这段话的书」，介绍了一个「并不存在的功能」。

这就是幻觉（Hallucination），是 LLM 最出名的毛病。

根本原因就在它的本质：它在预测「听起来对」的文字，不是在检索「已知为真」的事实。

当它不知道某件事时，它不会说「我不知道」。因为「我不知道」在统计上往往不是「最合理的下一个 token」——它见过太多「然后它自信地回答道……」这样的文字模式。于是它会继续生成听起来像知道的内容。

实用原则：

让 AI 帮你理解概念、写作、分析、头脑风暴——很好用，准确率高
让 AI 提供具体事实：某个人的经历、某件事的细节、某本书的某段话——必须自己验证
它说「根据最新数据……」「研究表明……」时，要特别警惕：它的训练数据有截止日期，且它不区分「我知道」和「我在预测」

九、图像生成：Midjourney 那边发生着什么

你可能用过 Midjourney、Stable Diffusion，或者见别人用过——输入一段描述，AI 生成图片。这背后用的是另一套原理：Diffusion Model（扩散模型）。

它的工作方式非常反直觉：

从一张纯噪点（像电视没信号时的雪花屏）出发，一步步「洗去噪声」，同时被你的描述引导，最终变成一张图。

训练时：取真实图片，一步步往上叠加随机噪声，直到变成纯噪点。然后让模型学会「从加了一步噪声的图里，预测干净一点的版本」。

推理时：倒过来跑。从纯噪点出发，模型一次次去掉一点噪声，同时被你的文字描述拉向「符合描述的方向」，经过 20~50 步，得到一张图。

为什么固定 seed 能保持相似风格： seed 控制起始噪点的随机状态。同样的 seed = 同样的起点 = 在相同「基础」上被描述塑造，所以更容易得到风格相近的结果。

为什么多个角色同框容易混淆： 图像生成时，不同角色的特征会互相影响——没有机制告诉模型「这张脸和这件衣服是同一个人的」。这是架构层面的问题，不是换个 prompt 就能完全解决的。

十、它们正在合并

最后一个大视角。

2017 年，Transformer 架构改变了文字 AI。
2020 年，扩散模型改变了图像 AI。
2023 年以来，这两条线开始合并：

图像生成开始用 Transformer 替换旧架构（新的图像模型用的是「Diffusion Transformer」）
多模态模型（GPT-4o、Gemini）可以同时看图、听声音、理解文字
视频生成把两者合并，既有文字理解，又有图像生成

现在你用 AI 写字，用 AI 生图，用 AI 做视频——这三件事，底层架构正在收敛到同一个东西上。

理解了 Transformer + Attention 这个核心，你就有了一把钥匙，能看懂 AI 领域绝大多数新闻和论文在说什么。

延伸阅读方向

如果想继续了解：

RAG（检索增强生成）：怎么让 AI 读取你自己的文件、知识库，而不只依赖它的训练记忆。「AI 如何记住你的信息」，答案在这里。

Fine-tuning / LoRA：怎么让模型「学会」特定的风格或人物形象。图像生成里的「风格一致性」问题，目前最靠谱的技术方案就是这个。

Agent：AI 怎么从「回答一个问题」变成「自主完成一项任务」——搜索、写文件、发邮件、调工具，一气呵成。这是 AI 助理下一步的形态。