Skip to content
雲里
里雾

LLM 🌱 Seed

AI

aka: Large Language Model, 大语言模型

Content

通过海量文本训练出来的概率模型,核心能力是根据上文预测下一个 token。但在规模足够大之后涌现出了推理、翻译、编程等能力。目前(2026-03)的主流架构是 Transformer。

训练过程

LLM 的训练分三个阶段:

  1. 预训练(Pre-training):在海量文本上(数万亿 token)训练「预测下一个 token」——这给了模型关于语言、世界知识的基础理解。计算量极大,通常需要数千块 GPU 运行数月。

  2. 监督微调(SFT, Supervised Fine-Tuning):在高质量的「问题-答案」对话数据上继续训练,让模型学会如何「回答问题」而不只是「续写文本」。

  3. 人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback):让人类评估模型的回答(哪个更好),用这些偏好训练一个「奖励模型」,再用奖励模型优化 LLM,使其输出更符合人类期望。

规模律(Scaling Law)

实验发现:模型参数量越大 + 训练数据越多 + 计算量越大,模型能力越强——且这种关系具有可预测的规律性(power law)。这驱动了近年来的「算力军备竞赛」。

涌现能力(Emergent Abilities)

当模型规模达到某个临界点,一些训练时没有专门学习的能力会「突然出现」,如推理、数学、类比、代码生成。目前对涌现的机制仍有争议。

主要局限

  • 幻觉(Hallucination):自信地给出错误答案,因为模型是在「预测听起来正确的文本」而不是「检索已知事实」
  • 知识截止日期(Knowledge Cutoff):训练数据有时间截止,不了解此后发生的事
  • 上下文窗口限制:见 Context WindowContext Rot
  • 无法自我更新:除非重新训练或通过 RAG 等外部检索,模型无法「学习」新知识

Acceptance

large language model (LLM) is a computational model trained on a vast amount of data, designed for natural language processing tasks, especially language generation.The largest and most capable LLMs are generative pre-trained transformers (GPTs) that provide the core capabilities of modern chatbots. LLMs can be fine-tuned for specific tasks or guided by prompt engineering. These models acquire predictive power regarding syntaxsemantics, and ontologiesinherent in human language corpora, but they also inherit inaccuracies and biases present in the data they are trained on.
——维基百科

Question

  1. 预训练、SFT、RLHF 三个阶段分别「教会」了模型什么?如何分辨一个能力是哪个阶段习得的?
  2. 规模律是否有边界?当前最大模型(GPT-4, Claude 3.5)是否已接近收益递减区?
  3. 幻觉问题在原理上可以被彻底解决吗?

See Also

Claude
Agent
Tool Use
Token
Transformer
Context Window
Context Rot

Reference

https://en.wikipedia.org/wiki/Large_language_model

YoYo’s Note

LLM 的本质是一个「概率补全机器」——给定前文,预测最可能的下一个 token。所有看起来像「理解」「推理」「创意」的行为,底层都是这个简单操作的涌现结果。

这个认识有两个重要推论:

第一,为什么 LLM 会幻觉: 它预测「听起来对」的文本,不是检索「已知为真」的事实。当它不知道某件事时,它不会说「我不知道」,而是继续生成「听起来像知道」的文本。

第二,为什么 prompt 很重要: 你给的上文(prompt)直接决定了模型在预测下一个 token 时的「起点」。好的 prompt = 在一个更有利的位置开始预测。

对 Jeff 学习这个领域的建议:先把「Token → Context Window → Transformer → Attention」这条线搞清楚,再去理解 Agent、RAG、Fine-tuning 等上层概念。基础扎实了,读论文会快很多。

分享这张卡片:
分享到 X

LLM

反向链接