新闻

AI Tokens Explained: The Language and Currency Fueling ...

新闻 2026-05-15 0 次浏览

在现代 AI 应用的底层,核心算法正在通过一种独特的语言高速处理数据,这种语言的词汇基础就是 Token

AI Token 是将庞大数据片段拆解而成的微小单位。AI 模型通过处理这些 Token 来掌握其间的内在联系,进而解锁预测、生成以及推理等能力。Token 的处理速度越快,模型的学习效率与响应速度就越迅速。为了优化 AI 基础设施并最大化收益,核心目标在于以最快的处理时间和最低的单 Token 成本来实现高效运作。

AI 工厂——作为一种旨在加速 AI 工作负载的新型数据中心——能够高效地吞吐 Token。它们将这些数据单位从 AI 的语言形态转化为“货币”形态,即智能本身。

借助 AI 工厂,企业能够利用最新的全栈计算解决方案,在压低算力成本的同时处理海量 Token,从而为客户创造额外价值。实际案例表明,通过整合软件优化技术并采用最新一代 NVIDIA GPU,单 Token 处理成本较未优化的上一代 GPU 降低了 20 倍——仅在四周内就实现了 25 倍的收益增长

通过高效吞吐 Token,AI 工厂正在“制造”智能——这正是这场由 AI 驱动的新工业革命中最为宝贵的资产。

分词如何将数据转化为 AI 可读的 Token?

无论是处理文本、图像、音频片段、视频还是其他模态数据,Transformer AI 模型都会将数据转化为 Token。这一过程被称为分词。

高效的分词策略有助于降低 训练和推理所需的算力。分词方法多种多样——针对特定数据类型和使用场景定制的分词器往往只需要更小的词汇表,这意味着需要处理的 Token 数量更少。

对于 大型语言模型(LLM)而言,短单词可能仅用一个 Token 表示,而较长的单词则可能被拆分为两个或更多的 Token。

例如,“darkness”(黑暗)一词会被拆分为“dark”和“ness”两个 Token,每个 Token 都对应一个数字编码,如 217 和 655。反之,“brightness”(光明)一词会被类似地拆分为“bright”和“ness”,对应的数字编码可能为 491 和 655。

在此例中,与“ness”关联的共享数值有助于 AI 模型理解这两个词汇之间的共性。而在其他情况下,根据上下文含义的不同,分词器可能会为同一个词分配不同的数字编码。

例如,“lie”一词可能指代“躺下”的动作,也可能指“说谎”。在训练过程中,模型会学习这两种含义的区别,并为它们分配不同的 Token 编号。

对于处理图像、视频或传感器数据的视觉 AI 模型,分词器可以将像素或体素等视觉输入映射为一系列离散的 Token。

处理音频的模型可能会将短片段转换为声谱图——即随时间变化的声波可视化图像,随后将其作为图像进行处理。其他音频应用则侧重于捕捉包含语音的声音片段的含义,并使用另一种能捕获语义 Token 的分词器,这类 Token 代表语言或语境数据,而非单纯的声学信息。

Token 在 AI 训练中如何发挥作用?

训练 AI 模型的第一步是对训练数据集进行分词。

根据训练数据规模的大小,Token 的数量可能达到数十亿甚至数万亿——并且根据 预训练缩放定律,用于训练的 Token 越多,AI 模型的质量就越高。

当 AI 模型进行预训练时,系统会向其展示一组样本 Token 并要求预测下一个 Token。模型会根据预测结果是否正确来更新自身参数,以提高下一次猜测的准确率。这一过程不断重复,直到模型从错误中汲取教训并达到预期的精度水平,即所谓的“模型收敛”。

预训练结束后,模型还会通过 后训练 进行进一步优化,即在与部署场景相关的特定 Token 子集上继续学习。这些 Token 可能是涉及法律、医学或商业等应用领域的专业信息,或者是用于帮助模型适应推理、聊天或翻译等特定任务的 Token。其目标是构建一个能够根据用户查询生成正确 Token 以提供准确响应的模型——这种能力通常被称为 推理

Token 在 AI 推理和推理阶段如何被使用?

在推理阶段,AI 会接收一个提示,根据模型类型不同,这个提示可能是文本、图像、音频片段、视频、传感器数据甚至是基因序列,并将其转化为一系列 Token。模型处理这些输入 Token,生成响应形式的 Token,然后再将其转换回用户期望的格式。

输入和输出的语言形式可以不同,例如在将英语翻译成日语的模型中,或者将文本提示转化为图像的模型中。

为了理解完整的提示,AI 模型必须具备同时处理多个 Token 的能力。许多模型都有一个指定限制,称为“上下文窗口”——不同的应用场景需要不同的上下文窗口大小。

一次能处理几千个 Token 的模型或许可以处理一张高分辨率图片或几页文本。而具备数万 Token 上下文长度的模型,则可能能够总结整本小说或长达一小时的播客节目。有些模型甚至提供百万级以上的上下文长度,允许用户输入海量数据供 AI 分析。

推理 AI 模型是 LLM 的最新进展,它可以通过以不同于以往的方式处理 Token 来应对更复杂的查询。在此过程中,除了输入和输出 Token 外,模型在思考如何解决特定问题时,还会在几分钟或几小时内生成大量的“推理 Token”。

这些推理 Token 有助于更好地回答复杂问题,就像人如果有了时间来梳理问题,就能构思出更好的答案一样。与在传统 LLM 上进行单次推理相比,每次提示对应的 Token 数量的相应增加可能需要超过 100 倍的算力——这就是 测试时缩放,也被称为“长思考”。

Token 如何驱动 AI 经济学?

预训练和后训练阶段,Token 等同于对智能的投资;而在推理阶段,它们则驱动着成本与收益。因此,随着 AI 应用的普及,新的 AI 经济学原则正在浮现。

AI 工厂旨在支撑大规模推理服务,通过将 Token 转化为可变现的洞察,为用户“制造”智能。正因如此,越来越多的 AI 服务开始根据消耗和生成的 Token 数量来衡量其产品价值,并基于模型的 Token 输入和输出速率提供定价方案。

某些 Token 定价方案为用户提供了一定额度的输入与输出共享 Token。在这些额度限制下,客户可以使用仅需少量 Token 的简短文本提示来生成包含数千 Token 的长篇 AI 回复。反之,用户也可以将大部分 Token 用于输入,向 AI 模型提供一组文档,要求将其总结为几个要点。

为了服务于大量并发用户,部分 AI 服务还设置了 Token 限制,即单个用户每分钟生成的 Token 上限。

Token 同样定义了 AI 服务的用户体验。首 Token 时间(用户提交提示到 AI 模型开始响应之间的延迟)以及 Token 间延迟(后续输出 Token 的生成速率),决定了最终用户如何感知 AI 应用的输出体验。

每个指标都涉及权衡,而最佳平衡点取决于具体的使用场景。

对于基于 LLM 的聊天机器人,缩短首 Token 时间可以通过保持对话节奏且没有不自然的停顿来提升用户参与度。优化 Token 间延迟则能让文本生成模型匹配普通人的阅读速度,或让视频生成模型达到所需的帧率。对于进行长思考和研究的 AI 模型,即使增加延迟,重点也更在于生成高质量的 Token。

开发者必须在这些指标之间取得平衡,以提供高质量的用户体验并实现最优吞吐量,即 AI 工厂能够生成的 Token 数量。

如何实现最低的单 Token 成本

为了应对这些挑战,NVIDIA 全栈 AI平台提供了庞大的 软件微服务蓝图库,并辅以强大的 加速计算基础设施——这是一个灵活的全栈解决方案,旨在帮助企业演进、优化和扩展 AI 工厂,从而实现大规模的 Token 处理优化。

了解如何针对不同任务优化 Token 使用,将有助于开发者、企业甚至最终用户从其 AI 应用中获取最大价值。

了解更多关于 如何计算最低单 Token 成本的信息,并下载 NVIDIA 关于 AI 工厂的成本-延迟-性能优化的指南。您可以在 build.nvidia.com 上开始构建基于 NVIDIA 全栈平台的 AI 工厂。