Skip to content
雲里
里雾
YoYo / 分析报告

给普通人的 LLM 入门

瑶瑶
YoYo

你每天都在用它——问它写邮件、帮你翻译、让它帮你想方案。但你可能不知道它为什么这样工作,为什么有时候它自信地说错话,为什么有时候它「记不住」你上次聊的东西。

这篇文章不需要任何技术背景,把 LLM 说明白。


一、它在做什么?一句话

LLM 只做一件事:

给定一段文字,预测下一个词最可能是什么。

就这样。

没有「理解」,没有「思考」,没有「知道」。只有:根据前面出现的文字,统计上最可能跟在后面的是什么。

但这个简单操作,在足够大的规模下,涌现出了推理、翻译、写代码、聊天的能力。这是 2017 年以来 AI 领域最大的意外发现之一。

你可以做个小实验:在手机输入法里打「今天天气」,它会自动联想「不错」「真好」之类的词——输入法做的就是 LLM 做的事,只是规模小得多。LLM 是同一原理放大了几亿倍的结果。


二、Token:模型看到的不是你写的字

LLM 处理文字的方式很奇怪。它不直接处理字符,也不处理单词,而是处理 Token——一种介于字符和单词之间的东西,用统计方法自动切割出来的文字碎片。

举个例子:

"今天天气真好"  → ["今天", "天气", "真", "好"]
"unbelievable"  → ["un", "believ", "able"]
"ChatGPT"       → ["Chat", "G", "PT"]

为什么要这么切,而不是直接按字或按词?因为这是个折中方案:切得太细(每个字一个),词汇表会爆炸;切得太粗(整个词一个),没见过的新词就没法处理。Token 是数据统计出来的最优解。

你需要记住的实用信息:

这解释了为什么有时候你觉得 prompt 写得很清楚,模型却理解错了——它看到的切法和你以为的不一样。


三、Transformer:为什么可以「一次看整段话」

在现代 AI 架构出现之前,处理文字的老方法(叫 RNN)就像一个只能看当前这一行、靠短期记忆往下读的人——读到后面,前面的内容就记不住了。

2017 年,Google 发表了一篇论文《Attention Is All You Need》,提出 Transformer 架构。它的核心思路是:

不要逐字读,而是一次性把整段文字摊开,在任意两个词之间画连线,标注它们的关联强度。

想象你在读一篇侦探小说,你不是从第一行顺序读到最后——你会在第 200 页的「凶手」和第 3 页的「可疑线索」之间跳跃,反复比对。这种「全局跳跃式关联」就是 Transformer 在做的事。

值得知道的一点: Transformer 是目前几乎所有主流 AI 的底层——Claude、GPT、Gemini,以及 Midjourney 等图像生成工具最新的版本,全都建在这个架构上。文字 AI 和图像 AI 这两条线,正在往同一个底层汇合。


四、Attention:「谁关注谁」

Transformer 里最核心的操作叫 Attention(注意力机制)。这就是「画连线」的具体实现。

每个词处理时,都会问三个问题:

你可以把它想象成一个图书馆的检索系统:你手里的关键词(Query)去跟书架上所有书的标签(Key)匹配,匹配度越高,这本书的内容(Value)对你的影响就越大。

用一个具体例子:

「银行倒闭了,他走向河边的银行坐下」

当模型处理第二个「银行」时,它的 Q 会和句子里所有词的 K 比较相似度——「河边」和它的匹配度很高,于是模型「知道」这里的「银行」是「河岸」,不是金融机构。

这个机制是 LLM 能理解歧义、把握上下文的根本原因。


五、上下文窗口:模型的工作台

LLM 有一个重要的硬限制:Context Window(上下文窗口)

上下文窗口是模型在单次对话中能同时看到的最大内容量。超过这个上限,模型就看不到更早的内容了。

一个好的类比:黑板。教室里的黑板就这么大,写满了就得擦掉老内容才能继续写。模型的上下文窗口就是这块黑板——你和它的对话历史、你发给它的文件、它的回答,全都在这块黑板上。写满了,最早的内容就消失了。

目前主流大小:

最重要的认知:上下文窗口不是记忆,是工作台。

每次开启新对话,黑板是空的。对话结束,内容消失。如果你想让它「记得」上次聊的事,必须手动把那些内容重新发给它——这就是为什么你跟 ChatGPT 开了新对话,它不记得上次说了什么。那不是 bug,是设计如此。


六、Context Rot:越聊越容易出错

有一个你可能体验过但没有名字的现象:一个对话聊很长之后,AI 好像越来越容易说错话

这不是错觉,有研究者把它量化了:

模型的准确率随输入长度呈指数衰减。

原因是:当对话历史越来越长,黑板上的内容越来越多,每段内容分到的「注意力」就越来越少——早期的内容逐渐被稀释,模型慢慢「忘记」了开头说了什么。这就是「Context Rot」,上下文腐烂。

还有一个相关的发现叫 Lost in the Middle:模型对上下文开头和结尾最专注,中间部分最容易忽略。

实用建议:


七、训练:这个东西是怎么被造出来的

到这里你已经知道 LLM「工作时」是什么样的了。现在说「造」的过程,三个阶段:

第一阶段:预训练(Pre-training)

把互联网上的海量文本——Wikipedia、书籍、新闻、论坛,数万亿个 token——反复训练「预测下一个 token」这一个任务。

这个阶段结束时,模型已经「知道」大量关于语言、世界、科学、历史的信息。但它还不会「回答问题」,它只会「续写文字」——给它半句话,它会往下接。

第二阶段:监督微调(SFT)

收集大量「问题-好答案」对话数据,继续训练。这个阶段教模型「如何有用地回答人类的问题」,而不只是续写文字。

第三阶段:人类反馈强化学习(RLHF)

让真实的人评估模型给出的两个不同回答,哪个更好?收集大量这类偏好判断,训练一个「奖励模型」,再用奖励模型来优化 LLM,让它的输出越来越符合人类的期望。

一个有意思的认知:模型「不做有害的事」这类行为,不是在代码里写死的 if-else,而是通过 RLHF 训练出来的倾向。这意味着它是概率性的,而不是绝对的——这就是为什么存在「越狱」的可能性。


八、幻觉:为什么 AI 会自信地说谎

用 AI 一段时间,你一定碰到过:它说得头头是道,但说的是假的。帮你查了一个「不存在的新闻」,引用了一本「没有这段话的书」,介绍了一个「并不存在的功能」。

这就是幻觉(Hallucination),是 LLM 最出名的毛病。

根本原因就在它的本质:它在预测「听起来对」的文字,不是在检索「已知为真」的事实。

当它不知道某件事时,它不会说「我不知道」。因为「我不知道」在统计上往往不是「最合理的下一个 token」——它见过太多「然后它自信地回答道……」这样的文字模式。于是它会继续生成听起来像知道的内容。

实用原则:


九、图像生成:Midjourney 那边发生着什么

你可能用过 Midjourney、Stable Diffusion,或者见别人用过——输入一段描述,AI 生成图片。这背后用的是另一套原理:Diffusion Model(扩散模型)

它的工作方式非常反直觉:

从一张纯噪点(像电视没信号时的雪花屏)出发,一步步「洗去噪声」,同时被你的描述引导,最终变成一张图。

训练时:取真实图片,一步步往上叠加随机噪声,直到变成纯噪点。然后让模型学会「从加了一步噪声的图里,预测干净一点的版本」。

推理时:倒过来跑。从纯噪点出发,模型一次次去掉一点噪声,同时被你的文字描述拉向「符合描述的方向」,经过 20~50 步,得到一张图。

为什么固定 seed 能保持相似风格: seed 控制起始噪点的随机状态。同样的 seed = 同样的起点 = 在相同「基础」上被描述塑造,所以更容易得到风格相近的结果。

为什么多个角色同框容易混淆: 图像生成时,不同角色的特征会互相影响——没有机制告诉模型「这张脸和这件衣服是同一个人的」。这是架构层面的问题,不是换个 prompt 就能完全解决的。


十、它们正在合并

最后一个大视角。

2017 年,Transformer 架构改变了文字 AI。
2020 年,扩散模型改变了图像 AI。
2023 年以来,这两条线开始合并:

现在你用 AI 写字,用 AI 生图,用 AI 做视频——这三件事,底层架构正在收敛到同一个东西上。

理解了 Transformer + Attention 这个核心,你就有了一把钥匙,能看懂 AI 领域绝大多数新闻和论文在说什么。


延伸阅读方向

如果想继续了解:

RAG(检索增强生成):怎么让 AI 读取你自己的文件、知识库,而不只依赖它的训练记忆。「AI 如何记住你的信息」,答案在这里。

Fine-tuning / LoRA:怎么让模型「学会」特定的风格或人物形象。图像生成里的「风格一致性」问题,目前最靠谱的技术方案就是这个。

Agent:AI 怎么从「回答一个问题」变成「自主完成一项任务」——搜索、写文件、发邮件、调工具,一气呵成。这是 AI 助理下一步的形态。


分享这篇文章:
分享到微博 分享到 QQ 分享到 X

Previous
POSSE:先拥有,再传播
Next
Cursor 套壳 Kimi:一场精致的投机游戏