什么是 Token在计算机科学和自然语言处理NLP领域Token令牌/词元是文本处理的基本单位。它通常指通过特定规则如空格、标点将一段连续文本分割后得到的最小语义片段。例如句子 “I love AI.” 可以被切分为三个 Token[I, love, AI]。在大语言模型如 GPT中Token 化是理解与生成文本的第一步模型并不直接认识单词而是处理这些 Token 序列。Token 的长度不固定可能是一个单词、一个子词如 “unhappiness” 被拆为 “un”, “happiness”甚至是一个字符。中文等无空格语言的分词也是 Token 化的一种形式。理解 Token 是理解现代 AI 如何“阅读”和“写作”的关键。