Token：AI世界的”字”

你有没有想过，ChatGPT是怎么”数数”的？

它不像我们人类看书那样一行行读，而是一个字一个字地”吃”——

这个”字”，就是Token。

Token：AI世界的"字"

一句话理解

Token = AI处理文本的最小单元，可以是一个字、一个词、一句话，甚至一个标点。

它是怎么”切”的

打个比方，同样一句话，AI和人类的理解方式完全不同：


人类看："今天天气真好"
AI看：["今天", "天气", "真好"] = 3个Token

人类看："today is a good day"
AI看：["today", "is", "a", "good", "day"] = 5个Token

注意，英文没那么简单——”yesterday”算2个Token，”I”也算1个Token。AI不是按”字”或”词”切分的，它是按自己的”词表”来的。

Token多少钱？

你跟AI对话，其实是在”消耗”Token。每个Token大约0.0001元人民币。

听起来很少？但AI处理长文本时消耗极快：

1000字中文 ≈ 500-800个Token
一次GPT-4的完整对话 ≈ 几毛到几块钱
一篇论文（1万字）≈ 5-10块钱

所以学会”精简提问”，真的能省钱。

上下文窗口：AI的”桌面空间”

说到Token，就必须提它的好搭档——上下文窗口。

你可以理解为：上下文窗口就是AI的”工作桌面”——能同时摊开多少本书。


GPT-4 Turbo：12.8万个Token ≈ 一部《天龙八部》
Claude 3.5：20万个Token ≈ 《三体》全集
Gemini 1.5：100万个Token ≈ 一个人一生的阅读量

桌面越大，AI能同时处理的信息就越多。

一句话总结

Token就是AI的”字”——它不是按人类的方式切分，而是按自己的”词表”来一顿一顿地”吃”。

想更深入了解？这里是给专业读者的进阶内容。

上面我们聊了Token是什么、怎么计费。如果你好奇AI到底是怎么把文字”切碎”的，以及这个切法经历了哪些演变，可以继续看专业版。

专业版：进阶理解

学术定义

Token是大语言模型（LLM）处理文本的基本单元。在训练阶段，模型学习预测下一个最可能的Token；在推理阶段，模型逐个生成Token形成完整回复。

GPT系列使用的是基于Byte Pair Encoding（BPE）的分词算法，中文通常按”词”或”子词”切分，英文则将单词拆分为更小的子词单元。

技术细节

分词算法：

算法	代表模型	特点
BPE	GPT-2/3/4	常用，平衡词表大小和覆盖率
WordPiece	BERT	更细粒度，适合多语言
SentencePiece	Llama	无监督训练，支持多语言

词表规模对比：

模型	词表大小
GPT-2	50,257
GPT-3.5	~100,000
GPT-4	~100,000-200,000
Claude 3	~200,000

技术演进

时间	里程碑
2013年	Word2Vec诞生，开启词向量时代
2018年	BERT使用WordPiece，开启子词分词主流
2019年	GPT-2使用BPE，1.5B参数引爆关注
2020年	GPT-3展示”涌现能力”，Token概念普及
2023年	GPT-4支持32K/128K上下文，Token成本优化成为焦点

典型代表

Tiktoken（OpenAI官方Python库）：最常用的BPE分词器
HuggingFace Tokenizers：支持多种分词算法的统一接口
SentencePiece：Google开源，支持BPE/WordPiece/Unigram

{{userData.name}}已认证

Token：AI世界的”字”

一句话理解

它是怎么”切”的

Token多少钱？

上下文窗口：AI的”桌面空间”

一句话总结

专业版：进阶理解

学术定义

技术细节

技术演进

典型代表

RAG：让AI先查资料再答题的聪明玩法

CLI：那些黑屏幕后面的"咒语"

Token经济学七问——一份关于AI新经济的入门地图

Transformer：让AI学会”一目十行”的神秘架构

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

Mythos 全面解读：Anthropic 最强模型发布

MiniMax发布MMX-CLI：为 Agent 设计的全模态命令行工具

AI日报：Muse Spark低调上线，腾讯推出”龙虾”浏览器QBotClaw

从手动到智创，携程直播全链路设计的跃迁之路

Ardot

阿里悟空

QClaw

关于我们

商务合作

隐私声明

用户协议