你有没有想过,ChatGPT是怎么”数数”的?
它不像我们人类看书那样一行行读,而是一个字一个字地”吃”——
这个”字”,就是Token。

一句话理解
Token = AI处理文本的最小单元,可以是一个字、一个词、一句话,甚至一个标点。
它是怎么”切”的
打个比方,同样一句话,AI和人类的理解方式完全不同:
人类看:"今天天气真好"
AI看:["今天", "天气", "真好"] = 3个Token
人类看:"today is a good day"
AI看:["today", "is", "a", "good", "day"] = 5个Token
注意,英文没那么简单——”yesterday”算2个Token,”I”也算1个Token。AI不是按”字”或”词”切分的,它是按自己的”词表”来的。
Token多少钱?
你跟AI对话,其实是在”消耗”Token。每个Token大约0.0001元人民币。
听起来很少?但AI处理长文本时消耗极快:
- 1000字中文 ≈ 500-800个Token
- 一次GPT-4的完整对话 ≈ 几毛到几块钱
- 一篇论文(1万字)≈ 5-10块钱
所以学会”精简提问”,真的能省钱。
上下文窗口:AI的”桌面空间”
说到Token,就必须提它的好搭档——上下文窗口。
你可以理解为:上下文窗口就是AI的”工作桌面”——能同时摊开多少本书。
GPT-4 Turbo:12.8万个Token ≈ 一部《天龙八部》
Claude 3.5:20万个Token ≈ 《三体》全集
Gemini 1.5:100万个Token ≈ 一个人一生的阅读量
桌面越大,AI能同时处理的信息就越多。
一句话总结
Token就是AI的”字”——它不是按人类的方式切分,而是按自己的”词表”来一顿一顿地”吃”。
想更深入了解?这里是给专业读者的进阶内容。
上面我们聊了Token是什么、怎么计费。如果你好奇AI到底是怎么把文字”切碎”的,以及这个切法经历了哪些演变,可以继续看专业版。
专业版:进阶理解
学术定义
Token是大语言模型(LLM)处理文本的基本单元。在训练阶段,模型学习预测下一个最可能的Token;在推理阶段,模型逐个生成Token形成完整回复。
GPT系列使用的是基于Byte Pair Encoding(BPE)的分词算法,中文通常按”词”或”子词”切分,英文则将单词拆分为更小的子词单元。
技术细节
分词算法:
| 算法 | 代表模型 | 特点 |
|---|---|---|
| BPE | GPT-2/3/4 | 常用,平衡词表大小和覆盖率 |
| WordPiece | BERT | 更细粒度,适合多语言 |
| SentencePiece | Llama | 无监督训练,支持多语言 |
词表规模对比:
| 模型 | 词表大小 |
|---|---|
| GPT-2 | 50,257 |
| GPT-3.5 | ~100,000 |
| GPT-4 | ~100,000-200,000 |
| Claude 3 | ~200,000 |
技术演进
| 时间 | 里程碑 |
|---|---|
| 2013年 | Word2Vec诞生,开启词向量时代 |
| 2018年 | BERT使用WordPiece,开启子词分词主流 |
| 2019年 | GPT-2使用BPE,1.5B参数引爆关注 |
| 2020年 | GPT-3展示”涌现能力”,Token概念普及 |
| 2023年 | GPT-4支持32K/128K上下文,Token成本优化成为焦点 |
典型代表
- Tiktoken(OpenAI官方Python库):最常用的BPE分词器
- HuggingFace Tokenizers:支持多种分词算法的统一接口
- SentencePiece:Google开源,支持BPE/WordPiece/Unigram
