Skip to content
雲里
里雾

Token 🌱 Seed

AI

aka: token, 词元, 令牌

Content

目前 LLM 输入和输出一切事物的最小单位。可以理解成和 AI 进行交易的货币也未尝不可。

Acceptance

Token 是 LLM 处理文本的最小单位。模型不直接处理字符或单词,而是先把输入文本用 分词器(tokenizer) 切割成 token,再处理这些 token。

Token 的大小:

  • 英文:大约 1 个常见单词 = 1~2 个 token(“cat” = 1 token,“unbelievable” = 3 tokens)
  • 中文:大约 1~2 个汉字 = 1 个 token(中文编码效率低于英文)
  • 代码:符号和关键字各占 1 个 token

Token 是货币单位:
LLM 的 API 按 token 计费——输入多少 token + 输出多少 token = 总费用。OpenAI、Anthropic 的价格表都以「每百万 token」为单位。

常见换算:

  • 1000 个汉字 ≈ 1000~1500 tokens
  • 1000 个英文单词 ≈ 750 tokens
  • 1 页 A4 纸(约 500 汉字)≈ 500~750 tokens

为什么不直接用字符/单词?
用字符粒度太细(10万词汇 × 所有位置,矩阵巨大);用完整单词粒度太粗(无法处理词根/词缀变化、新词)。Token 是两者的折中,由数据驱动的统计方法(BPE, Byte Pair Encoding)自动切分。

Question

  1. 为什么中文的 token 效率低于英文?这对中文 LLM 用户的成本有什么影响?
  2. Tokenizer 的设计会影响模型对某些语言/符号的理解能力吗?
  3. Token 数量和模型「思考深度」有关联吗(比如更多 token 能更好地推理)?

See Also

LLM
Context Window
Transformer

Reference

YoYo’s Note

Token 是理解 LLM 一切行为的基础货币。

最有意思的地方:模型「看到的」不是你写的句子,而是切碎后的 token 序列。这意味着断词方式会影响模型理解——“New York”如果被切成 [“New”, ” York”] 和 [“New York”] 效果不同。提示词工程的一部分秘诀就是「和 tokenizer 的切法协作」。

对 Jeff 的实用提示:用 Claude/GPT 时,中文 prompt 比英文 prompt 消耗更多 token(中文编码效率低),长文档分析时这个差异会被放大。

分享这张卡片:
分享到 X

Token

#AI

反向链接