新闻

What Are AI Tokens? Unlocking the Language and Fuel Behind the Power

新闻 2026-05-14 0 次浏览

在各类 AI 应用的底层,核心算法正在以独特的语言高速处理数据,这种语言主要基于 Token 词汇表构建。

AI Token 是将大块信息拆解后形成的微小数据单元。AI 模型通过处理这些 Token 来学习它们之间的关联,从而解锁预测、生成和推理等关键能力。Token 处理速度越快,模型的学习和响应就越迅速。为了优化 AI 基础设施并最大化收益,核心目标在于实现最短的处理时间和最低的单 Token 成本。

AI 工厂——作为一种旨在加速 AI 工作负载的新型数据中心——能够高效地“吞噬”海量 Token,将其从 AI 的语言转化为具有价值的“货币”,即智能。

借助 AI 工厂,企业可以利用最新的全栈计算解决方案,在降低算力成本的同时处理更多 Token,从而为客户创造额外价值。实际案例显示,通过集成软件优化并采用最新一代 NVIDIA GPU,与未优化的旧代 GPU 相比,单 Token 成本降低了 20 倍——并在短短四周内实现了 25 倍的收入增长

通过高效处理 Token,AI 工厂正在“制造”智能——这不仅是 AI 驱动的新工业革命中最核心的资产,也是最具价值的产物。

分词如何将数据转化为 AI 可读的 Token?

无论是处理文本、图像、音频、视频还是其他模态数据,Transformer AI 模型都会将数据转化为 Token。这一过程被称为分词。

高效的分词有助于减少训练和推理所需的算力。分词方法多种多样——针对特定数据类型和场景定制的分词器可能只需要更小的词汇表,这意味着需要处理的 Token 数量更少。

对于大型语言模型而言,短词可能由单个 Token 表示,而长词则可能被拆分为两个或更多 Token。

例如,“darkness”(黑暗)一词会被拆分为两个 Token:“dark”和“ness”,每个 Token 都有对应的数字表示,例如 217 和 655。反义词“brightness”(明亮)同理,被拆分为“bright”和“ness”,对应的数字表示为 491 和 655。

在这个例子中,与“ness”关联的共有数值有助于 AI 模型理解这两个词之间的共性。在其他情况下,分词器会根据上下文语义,为同一个词赋予不同的数字表示。

例如,“lie”这个词可能指“躺下”,也可能指“撒谎”。在训练过程中,模型会学习这两种含义的区别,并为它们分配不同的 Token 编号。

对于处理图像、视频或传感器数据的视觉 AI 模型,分词器可以将像素或体素等视觉输入映射为一系列离散的 Token。

处理音频的模型可能会将短片段转换为声谱图——即随时间变化的声波可视化图,随后将其作为图像进行处理。其他音频应用则侧重于捕捉包含语音的声音片段的含义,并使用另一种能捕捉语义 Token 的分词器,这种 Token 代表语言或语境数据,而不仅仅是声学信息。

Token 在 AI 训练中如何被使用?

训练 AI 模型的第一步是对训练数据集进行分词。

根据训练数据的大小,Token 的数量可能达到数十亿甚至数万亿——并且根据预训练缩放定律,用于训练的 Token 越多,AI 模型的质量通常越高。

在 AI 模型预训练期间,模型会接受测试:展示一组样本 Token 并要求预测下一个 Token。模型会根据预测的正确与否进行自我更新,以优化下一次的猜测。这一过程不断重复,直到模型从错误中汲取教训并达到预定的精度水平,即模型收敛。

预训练完成后,模型会通过后训练进一步改进。在此阶段,模型会在与其部署场景相关的特定 Token 子集上继续学习。这些 Token 可能包含法律、医学或商业等领域的特定信息,或者是用于帮助模型微调至特定任务(如推理、聊天或翻译)的 Token。最终目标是生成正确的 Token,以便根据用户的查询提供准确的响应——这项技能通常被称为推理

Token 在 AI 推理和推理中如何发挥作用?

在推理阶段,AI 接收一个提示——根据模型不同,可以是文本、图像、音频、视频、传感器数据甚至基因序列——并将其转化为一系列 Token。模型处理这些输入 Token,以 Token 的形式生成响应,然后再将其转换回用户期望的格式。

输入和输出语言可以不同,例如将英语翻译成日语的模型,或将文本提示转化为图像的模型。

要理解一个完整的提示,AI 模型必须能够同时处理多个 Token。许多模型都有一个指定的限制,称为上下文窗口——不同的应用场景需要不同的上下文窗口大小。

一次能处理几千个 Token 的模型,或许可以处理一张高分辨率图像或几页文本。如果上下文长度达到数万个 Token,另一个模型可能就能总结整本小说或一小时的播客片段。一些模型甚至提供百万或更多 Token 的上下文长度,允许用户输入海量数据供 AI 分析。

Token 如何驱动 AI 经济学?

预训练和后训练期间,Token 等同于对智能的投资;而在推理阶段,它们则驱动着成本和收益。因此,随着 AI 应用的普及,新的 AI 经济学原则正在浮现。

AI 工厂的建立旨在支撑大规模推理,通过将 Token 转化为可货币化的洞察来为用户制造智能。这就是为什么越来越多的 AI 服务根据消耗和生成的 Token 数量来衡量其产品价值,并提供基于模型 Token 输入和输出费率的定价方案。

Token 也定义了 AI 服务的用户体验。首 Token 时间(用户提交提示到 AI 模型开始响应之间的延迟)以及 Token 间延迟(或 Token 到 Token 的生成速率),决定了最终用户如何体验 AI 应用的输出。

每个指标都存在权衡,而正确的平衡取决于具体用例。

对于基于 LLM 的聊天机器人,缩短首 Token 时间可以通过保持对话节奏、消除不自然的停顿来提高用户参与度。优化 Token 间延迟可以使文本生成模型匹配常人的阅读速度,或让视频生成模型达到预期的帧率。对于进行深度思考和研究的 AI 模型,更强调生成高质量的 Token,即使这会增加延迟。

如何实现最低的单 Token 成本

为了应对这些挑战,NVIDIA 全栈 AI平台提供了丰富的软件微服务蓝图,并辅以强大的加速计算基础设施——这是一个灵活的全栈解决方案,使企业能够演进、优化和扩展 AI 工厂,从而大规模优化 Token 处理。

了解如何在不同任务中优化 Token 使用,有助于开发者、企业乃至最终用户从其 AI 应用中获取最大价值。

了解更多关于如何计算最低单 Token 成本的信息,并下载 NVIDIA 关于AI 工厂成本-延迟-性能优化的指南。前往build.nvidia.com开始基于 NVIDIA 全栈平台构建 AI 工厂。