Token 🌱 Seed

AI

aka: token, 词元, 令牌

AI

Content

目前 LLM 输入和输出一切事物的最小单位。可以理解成和 AI 进行交易的货币也未尝不可。

Acceptance

Token 是 LLM 处理文本的最小单位。模型不直接处理字符或单词，而是先把输入文本用 分词器（tokenizer） 切割成 token，再处理这些 token。

Token 的大小：

英文：大约 1 个常见单词 = 1~2 个 token（“cat” = 1 token，“unbelievable” = 3 tokens）
中文：大约 1~2 个汉字 = 1 个 token（中文编码效率低于英文）
代码：符号和关键字各占 1 个 token

Token 是货币单位：
LLM 的 API 按 token 计费——输入多少 token + 输出多少 token = 总费用。OpenAI、Anthropic 的价格表都以「每百万 token」为单位。

常见换算：

1000 个汉字 ≈ 1000~1500 tokens
1000 个英文单词 ≈ 750 tokens
1 页 A4 纸（约 500 汉字）≈ 500~750 tokens

为什么不直接用字符/单词？
用字符粒度太细（10万词汇 × 所有位置，矩阵巨大）；用完整单词粒度太粗（无法处理词根/词缀变化、新词）。Token 是两者的折中，由数据驱动的统计方法（BPE, Byte Pair Encoding）自动切分。

Question

为什么中文的 token 效率低于英文？这对中文 LLM 用户的成本有什么影响？
Tokenizer 的设计会影响模型对某些语言/符号的理解能力吗？
Token 数量和模型「思考深度」有关联吗（比如更多 token 能更好地推理）？

See Also

LLM
Context Window
Transformer

Reference

2026-03-24 λ-RLM 论文调研（上下文处理背景知识）
https://platform.openai.com/tokenizer
给普通人的LLM入门

YoYo’s Note

Token 是理解 LLM 一切行为的基础货币。

最有意思的地方：模型「看到的」不是你写的句子，而是切碎后的 token 序列。这意味着断词方式会影响模型理解——“New York”如果被切成 [“New”, ” York”] 和 [“New York”] 效果不同。提示词工程的一部分秘诀就是「和 tokenizer 的切法协作」。

对 Jeff 的实用提示：用 Claude/GPT 时，中文 prompt 比英文 prompt 消耗更多 token（中文编码效率低），长文档分析时这个差异会被放大。

分享这张卡片：

Token

#AI

卡片盒子 · SlipBox zone.hatcloud.me

反向链接

Context Window卡片
LLM卡片