Token:AI世界的”字”

你有没有想过,ChatGPT是怎么”数数”的?

它不像我们人类看书那样一行行读,而是一个字一个字地”吃”——

这个”字”,就是Token。

Token:AI世界的"字"

一句话理解

Token = AI处理文本的最小单元,可以是一个字、一个词、一句话,甚至一个标点。

它是怎么”切”的

打个比方,同样一句话,AI和人类的理解方式完全不同:


人类看:"今天天气真好"
AI看:["今天", "天气", "真好"] = 3个Token

人类看:"today is a good day"
AI看:["today", "is", "a", "good", "day"] = 5个Token

注意,英文没那么简单——”yesterday”算2个Token,”I”也算1个Token。AI不是按”字”或”词”切分的,它是按自己的”词表”来的。

Token多少钱?

你跟AI对话,其实是在”消耗”Token。每个Token大约0.0001元人民币。

听起来很少?但AI处理长文本时消耗极快:

  • 1000字中文 ≈ 500-800个Token
  • 一次GPT-4的完整对话 ≈ 几毛到几块钱
  • 一篇论文(1万字)≈ 5-10块钱

所以学会”精简提问”,真的能省钱。

上下文窗口:AI的”桌面空间”

说到Token,就必须提它的好搭档——上下文窗口。

你可以理解为:上下文窗口就是AI的”工作桌面”——能同时摊开多少本书。


GPT-4 Turbo:12.8万个Token ≈ 一部《天龙八部》
Claude 3.5:20万个Token ≈ 《三体》全集
Gemini 1.5:100万个Token ≈ 一个人一生的阅读量

桌面越大,AI能同时处理的信息就越多。

一句话总结

Token就是AI的”字”——它不是按人类的方式切分,而是按自己的”词表”来一顿一顿地”吃”。


想更深入了解?这里是给专业读者的进阶内容。

上面我们聊了Token是什么、怎么计费。如果你好奇AI到底是怎么把文字”切碎”的,以及这个切法经历了哪些演变,可以继续看专业版。

专业版:进阶理解

学术定义

Token是大语言模型(LLM)处理文本的基本单元。在训练阶段,模型学习预测下一个最可能的Token;在推理阶段,模型逐个生成Token形成完整回复。

GPT系列使用的是基于Byte Pair Encoding(BPE)的分词算法,中文通常按”词”或”子词”切分,英文则将单词拆分为更小的子词单元。

技术细节

分词算法

算法 代表模型 特点
BPE GPT-2/3/4 常用,平衡词表大小和覆盖率
WordPiece BERT 更细粒度,适合多语言
SentencePiece Llama 无监督训练,支持多语言

词表规模对比

模型 词表大小
GPT-2 50,257
GPT-3.5 ~100,000
GPT-4 ~100,000-200,000
Claude 3 ~200,000

技术演进

时间 里程碑
2013年 Word2Vec诞生,开启词向量时代
2018年 BERT使用WordPiece,开启子词分词主流
2019年 GPT-2使用BPE,1.5B参数引爆关注
2020年 GPT-3展示”涌现能力”,Token概念普及
2023年 GPT-4支持32K/128K上下文,Token成本优化成为焦点

典型代表

  • Tiktoken(OpenAI官方Python库):最常用的BPE分词器
  • HuggingFace Tokenizers:支持多种分词算法的统一接口
  • SentencePiece:Google开源,支持BPE/WordPiece/Unigram
AI百科

RAG:让AI先查资料再答题的聪明玩法

2026-4-8 8:49:46

AI百科

CLI:那些黑屏幕后面的"咒语"

2026-4-8 10:36:30

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧