Content

通过海量文本训练出来的概率模型，核心能力是根据上文预测下一个 token。但在规模足够大之后涌现出了推理、翻译、编程等能力。目前(2026-03)的主流架构是 Transformer。

训练过程

LLM 的训练分三个阶段：

预训练（Pre-training）：在海量文本上（数万亿 token）训练「预测下一个 token」——这给了模型关于语言、世界知识的基础理解。计算量极大，通常需要数千块 GPU 运行数月。
监督微调（SFT, Supervised Fine-Tuning）：在高质量的「问题-答案」对话数据上继续训练，让模型学会如何「回答问题」而不只是「续写文本」。
人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）：让人类评估模型的回答（哪个更好），用这些偏好训练一个「奖励模型」，再用奖励模型优化 LLM，使其输出更符合人类期望。

实验发现：模型参数量越大 + 训练数据越多 + 计算量越大，模型能力越强——且这种关系具有可预测的规律性（power law）。这驱动了近年来的「算力军备竞赛」。

当模型规模达到某个临界点，一些训练时没有专门学习的能力会「突然出现」，如推理、数学、类比、代码生成。目前对涌现的机制仍有争议。

A large language model (LLM) is a computational model trained on a vast amount of data, designed for natural language processing tasks, especially language generation.The largest and most capable LLMs are generative pre-trained transformers (GPTs) that provide the core capabilities of modern chatbots. LLMs can be fine-tuned for specific tasks or guided by prompt engineering. These models acquire predictive power regarding syntax, semantics, and ontologiesinherent in human language corpora, but they also inherit inaccuracies and biases present in the data they are trained on.
——维基百科

LLM 的本质是一个「概率补全机器」——给定前文，预测最可能的下一个 token。所有看起来像「理解」「推理」「创意」的行为，底层都是这个简单操作的涌现结果。

这个认识有两个重要推论：

第一，为什么 LLM 会幻觉： 它预测「听起来对」的文本，不是检索「已知为真」的事实。当它不知道某件事时，它不会说「我不知道」，而是继续生成「听起来像知道」的文本。

第二，为什么 prompt 很重要： 你给的上文（prompt）直接决定了模型在预测下一个 token 时的「起点」。好的 prompt = 在一个更有利的位置开始预测。

对 Jeff 学习这个领域的建议：先把「Token → Context Window → Transformer → Attention」这条线搞清楚，再去理解 Agent、RAG、Fine-tuning 等上层概念。基础扎实了，读论文会快很多。