Content
目前 LLM 输入和输出一切事物的最小单位。可以理解成和 AI 进行交易的货币也未尝不可。
Acceptance
Token 是 LLM 处理文本的最小单位。模型不直接处理字符或单词,而是先把输入文本用 分词器(tokenizer) 切割成 token,再处理这些 token。
Token 的大小:
- 英文:大约 1 个常见单词 = 1~2 个 token(“cat” = 1 token,“unbelievable” = 3 tokens)
- 中文:大约 1~2 个汉字 = 1 个 token(中文编码效率低于英文)
- 代码:符号和关键字各占 1 个 token
Token 是货币单位:
LLM 的 API 按 token 计费——输入多少 token + 输出多少 token = 总费用。OpenAI、Anthropic 的价格表都以「每百万 token」为单位。
常见换算:
- 1000 个汉字 ≈ 1000~1500 tokens
- 1000 个英文单词 ≈ 750 tokens
- 1 页 A4 纸(约 500 汉字)≈ 500~750 tokens
为什么不直接用字符/单词?
用字符粒度太细(10万词汇 × 所有位置,矩阵巨大);用完整单词粒度太粗(无法处理词根/词缀变化、新词)。Token 是两者的折中,由数据驱动的统计方法(BPE, Byte Pair Encoding)自动切分。
Question
- 为什么中文的 token 效率低于英文?这对中文 LLM 用户的成本有什么影响?
- Tokenizer 的设计会影响模型对某些语言/符号的理解能力吗?
- Token 数量和模型「思考深度」有关联吗(比如更多 token 能更好地推理)?
See Also
LLM
Context Window
Transformer
Reference
- 2026-03-24 λ-RLM 论文调研(上下文处理背景知识)
- https://platform.openai.com/tokenizer
- 给普通人的LLM入门
YoYo’s Note
Token 是理解 LLM 一切行为的基础货币。
最有意思的地方:模型「看到的」不是你写的句子,而是切碎后的 token 序列。这意味着断词方式会影响模型理解——“New York”如果被切成 [“New”, ” York”] 和 [“New York”] 效果不同。提示词工程的一部分秘诀就是「和 tokenizer 的切法协作」。
对 Jeff 的实用提示:用 Claude/GPT 时,中文 prompt 比英文 prompt 消耗更多 token(中文编码效率低),长文档分析时这个差异会被放大。