新闻

What Are AI Tokens? The Language and Currency Powering ...

新闻 2026-05-15 0 次浏览

在各类 AI 应用的底层,运行着一套特殊的算法,它们使用基于 Token 词汇表的独特语言来处理海量数据。

AI Token 是将大块信息拆解后形成的微小数据单元。AI 模型通过处理这些 Token 来学习它们之间的关联,进而解锁预测、生成和推理等能力。处理 Token 的速度越快,模型学习和响应的效率就越高。核心目标在于实现最快的处理速度和最低的单 Token 成本,从而优化 AI 基础设施并最大化收益。

AI 工厂(AI factories)——旨在加速 AI 工作负载的新型数据中心——能够高效地“咀嚼”大量 Token,将其从 AI 的语言转化为 AI 的货币,即智能。

借助 AI 工厂,企业可以利用最新的全栈计算解决方案,以更低的计算成本处理更多 Token,从而为客户创造额外价值。实际案例表明,通过集成软件优化并采用最新一代 NVIDIA GPU,单 Token 成本相比前代未优化的流程降低了 20 倍——并在短短四周内带来了 25 倍的收入增长

通过高效处理 Token,AI 工厂正在制造智能——即这场由 AI 驱动的新工业革命中最宝贵的资产。

分词技术如何将数据转化为 AI 可读的 Token?

无论是处理文本、图像、音频片段、视频还是其他模态的数据,Transformer AI 模型都会将其转换为 Token。这一过程被称为分词。

高效的分词有助于减少训练和推理所需的算力。分词方法多种多样——针对特定数据类型和用例定制的分词器可能需要更小的词汇表,这意味着需要处理的 Token 数量更少。

对于大语言模型 (LLMs) 而言,短词可能仅用单个 Token 表示,而长词则可能被拆分为两个或更多 Token。

例如,“darkness”(黑暗)这个词会被拆分为两个 Token:“dark”和“ness”,每个 Token 都对应一个数字表示,例如 217 和 655。相反的词,“brightness”(明亮),同样会被拆分为“bright”和“ness”,对应的数字表示为 491 和 655。

在此例中,与“ness”关联的共享数值有助于 AI 模型理解这两个词可能具有某些共性。在其他情况下,根据上下文含义,分词器可能会为同一个词分配不同的数字表示。

例如,“lie”这个词可能指躺下的姿势,也可能指说谎。在训练过程中,模型会学习这两种含义的区别,并为它们分配不同的 Token 编号。

对于处理图像、视频或传感器数据的视觉 AI 模型,分词器可以帮助将像素或体素等视觉输入映射为一系列离散的 Token。

处理音频的模型可能会将短片段转换为声谱图——即声波随时间变化的视觉描述,然后将其作为图像进行处理。其他音频应用则可能侧重于捕捉包含语音的声音片段的含义,并使用另一种捕捉语义 Token 的分词器,后者代表语言或上下文数据,而不仅仅是声学信息。

Token 在 AI 训练期间是如何使用的?

训练 AI 模型的第一步是对训练数据集进行分词。

根据训练数据的大小,Token 的数量可能达到数十亿甚至数万亿——根据预训练缩放定律(pretraining scaling law),用于训练的 Token 越多,AI 模型的质量就越高。

当 AI 模型进行预训练时,它会接受测试:即被展示一组样本 Token 并被要求预测下一个 Token。根据其预测是否正确,模型会进行自我更新以提高下一次猜测的准确度。这一过程不断重复,直到模型从错误中学习并达到预期的准确率水平,这被称为模型收敛。

预训练结束后,模型会通过后训练(post-training)进一步改进,在此阶段,它们会继续在与部署场景相关的 Token 子集上进行学习。这些 Token 可能是用于法律、医学或商业应用的专业领域信息,或者是帮助模型针对特定任务(如推理、聊天或翻译)进行调整的 Token。其目标是建立一个能根据用户查询生成正确 Token 以提供恰当响应的模型——这种能力通常被称为推理(inference)。

Token 在 AI 推理和推理过程中是如何使用的?

在推理阶段,AI 会接收一个提示——根据模型不同,这可能是文本、图像、音频片段、视频、传感器数据甚至基因序列——并将其转化为一系列 Token。模型处理这些输入 Token,将响应生成为 Token,然后将其转换回用户期望的格式。

输入和输出语言可以不同,例如在将英语翻译成日语的模型中,或者将文本提示转换为图像的模型中。

为了理解完整的提示,AI 模型必须能够同时处理多个 Token。许多模型都有一个特定的限制,称为上下文窗口——不同的用例需要不同的上下文窗口大小。

一个一次只能处理几千个 Token 的模型,或许只能处理一张高分辨率图像或几页文本。而拥有数万个 Token 上下文长度的另一个模型,可能能够总结整本小说或一个小时的播客片段。有些模型甚至提供一百万或更多 Token 的上下文长度,允许用户输入海量数据源供 AI 分析。

推理 AI 模型是 LLM 的最新进展,它可以通过以不同方式处理 Token 来应对更复杂的查询。在这里,除了输入和输出 Token 外,模型还会在思考如何解决特定问题的几分钟或几小时内生成大量推理 Token。

这些推理 Token 能够更好地回答复杂问题,就像一个人如果有时间思考问题就能构思出更好的答案一样。与在传统 LLM 上进行单次推理传递相比,每个提示相应的 Token 增加可能需要超过 100 倍的算力——这是测试时扩展(test-time scaling),也称为“长思考”的一个例子。

Token 如何驱动 AI 经济?

预训练和后训练期间,Token 相当于对智能的投资;而在推理期间,它们驱动着成本和收入。因此,随着 AI 应用的普及,AI 经济学的新原则正在浮现。

建立 AI 工厂是为了维持高吞吐量的推理,通过将 Token 转化为可货币化的洞察力,为用户制造智能。这就是为什么越来越多的 AI 服务根据消耗和生成的 Token 数量来衡量其产品价值,并基于模型的 Token 输入和输出费率提供定价计划。

一些 Token 定价计划为用户提供了一组在输入和输出之间共享的 Token 数量。基于这些 Token 限制,客户可以使用仅消耗几个 Token 的简短文本提示来生成长篇、由 AI 生成的响应,后者可能消耗数千个 Token。或者,用户也可以将大部分 Token 花费在输入上,向 AI 模型提供一组文档以将其总结为几个要点。

为了服务大量并发用户,一些 AI 服务还设置了 Token 限制,即单个用户每分钟生成的最大 Token 数。

Token 也定义了 AI 服务的用户体验。首 Token 时间(Time to first token,即用户提交提示与 AI 模型开始响应之间的延迟)和 Token 间延迟(inter-token latency,即生成后续输出 Token 的速率)决定了终端用户如何体验 AI 应用的输出。

每个指标都需要权衡,正确的平衡取决于用例。

对于基于 LLM 的聊天机器人,缩短首 Token 时间可以通过保持对话节奏且没有不自然的停顿来提高用户参与度。优化 Token 间延迟可以使文本生成模型匹配普通人的阅读速度,或者使视频生成模型达到所需的帧率。对于进行长思考和研究的 AI 模型,更强调生成高质量的 Token,即使这会增加延迟。

开发者必须在这些指标之间取得平衡,以提供高质量的用户体验和最佳的吞吐量,即 AI 工厂能够生成的 Token 数量。

如何实现最低的单 Token 成本

为了应对这些挑战,NVIDIA 的全栈 AI平台提供了丰富的软件微服务蓝图,以及强大的加速计算基础设施——这是一个灵活的全栈解决方案,使企业能够发展、优化和扩展 AI 工厂,从而大规模优化 Token 处理。

了解如何针对不同任务优化 Token 使用,可以帮助开发者、企业甚至终端用户从他们的 AI 应用中获得最大价值。

了解更多关于如何计算最低单 Token 成本的信息,并下载 NVIDIA 关于AI 工厂成本-延迟-性能优化的指南。前往 build.nvidia.com 开始在 NVIDIA 全栈平台上构建 AI 工厂。