在各类 AI 应用的底层,核心算法实际上是在处理一种基于 Token 词汇表的自有语言。
AI Token 是将大型数据块拆解后形成的微小数据单元。AI 模型通过处理这些 Token 来学习它们之间的关联,进而解锁预测、生成和推理等能力。Token 的处理速度越快,模型的学习和响应就越敏捷。优化的核心目标在于实现极致的处理速度并压低每个 Token 的成本,从而优化 AI 基础设施并最大化收益
AI 工厂(AI factories)是一类旨在加速 AI 工作负载的新型数据中心,它们能高效地吞吐 Token,将其从 AI 的语言转化为 AI 的货币——即智能。
借助 AI 工厂,企业能够利用最新的全栈计算解决方案,以更低的计算成本处理海量 Token,从而为客户创造额外价值。在实际案例中,通过集成软件优化并采用新一代 NVIDIA GPU,相较于在旧代 GPU 上未优化的流程,其 Token 处理成本降低了 20 倍——并在短短四周内实现了 25 倍的营收增长。
通过高效处理 Token,AI 工厂正在制造智能——这场由 AI 驱动的新工业革命中,这是最有价值的资产。
分词是如何将数据转化为 AI 可读 Token 的?
无论是处理文本、图像、音频片段、视频还是其他模态的数据,Transformer AI 模型都会将数据转化为 Token。这一过程被称为分词(Tokenization)。
高效的分词策略有助于降低训练和推理所需的算力。分词方法多种多样——针对特定数据类型和场景定制的分词器往往只需要更小的词表,这意味着需要处理的 Token 数量更少。
对于大型语言模型而言,短词可能仅用单个 Token 表示,而长词则可能被拆分为两个或更多的 Token。
例如,“darkness”一词会被拆分为“dark”和“ness”两个 Token,每个 Token 都对应一个数字编码,如 217 和 655。反之,“brightness”也会被拆分为“bright”和“ness”,其对应的数字编码分别为 491 和 655。
在这个例子中,与“ness”关联的共享数值有助于 AI 模型理解这两个词可能存在某种共性。而在其他情况下,分词器可能会根据单词在语境中的含义为其分配不同的数字编码。
例如,“lie”这个词可能指代躺下的姿势,也可能指代说谎。在训练过程中,模型会学习这两种含义的区别,并为其分配不同的 Token 编号。
对于处理图像、视频或传感器数据的视觉 AI 模型,分词器可以帮助将像素或体素等视觉输入映射为一系列离散的 Token。
处理音频的模型可能会将短片段转换为声谱图——即声波随时间变化的可视化表示,然后将其作为图像进行处理。其他音频应用则可能侧重于捕捉包含语音的声音片段的含义,并使用另一种能捕获语义 Token 的分词器,这类 Token 代表语言或上下文数据,而非仅仅是声学信息。
Token 在 AI 训练期间是如何被使用的?
训练 AI 模型的第一步是对训练数据集进行分词。
根据训练数据量的不同,Token 的数量可能达到数十亿甚至数万亿——根据预训练缩放定律(pretraining scaling law),训练使用的 Token 越多,AI 模型的质量就越高。
在 AI 模型预训练期间,模型会接受测试:查看一组样本 Token 并预测下一个 Token。根据预测结果的正确与否,模型会进行自我更新以改进下一次的猜测。这一过程不断重复,直到模型从错误中汲取教训并达到预期的准确率水平,这被称为模型收敛。
预训练结束后,模型会通过后训练(post-training)进一步优化。在此阶段,模型会继续在与部署场景相关的 Token 子集上进行学习。这些 Token 可能是法律、医学或商业应用领域的特定信息,或者是用于定制模型以执行推理、聊天或翻译等特定任务的 Token。最终目标是构建一个能根据用户查询生成正确 Token 以提供准确响应的模型——这种能力通常被称为推理。
Token 在 AI 推理和推理阶段如何发挥作用?
在推理阶段,AI 接收一个提示词(Prompt)——根据模型不同,这可以是文本、图像、音频片段、视频、传感器数据甚至基因序列——并将其转化为一系列 Token。模型处理这些输入 Token,以 Token 的形式生成响应,随后将其转换回用户期望的格式。
输入和输出的语言(形式)可以不同,例如将英语翻译成日语的模型,或者是将文本提示词转化为图像的模型。
为了理解完整的提示词,AI 模型必须具备同时处理多个 Token 的能力。许多模型都有一个特定的限制,称为上下文窗口——不同的应用场景需要不同大小的上下文窗口。
一次能处理几千个 Token 的模型或许只能处理一张高分辨率图片或几页文本。如果上下文长度达到数万个 Token,另一个模型可能就能总结整本小说或长达一小时的播客片段。有些模型甚至提供百万级或更多 Token 的上下文长度,允许用户输入海量数据供 AI 分析。
Token 如何驱动 AI 经济学?
在预训练和后训练期间,Token 等同于对智能的投资;而在推理阶段,它们则驱动着成本和收入。因此,随着 AI 应用的普及,AI 经济学的新原则正在浮现。
AI 工厂的建立旨在支撑大规模推理,通过将 Token 转化为可变现的洞察来为用户制造智能。正因如此,越来越多的 AI 服务开始根据消耗和生成的 Token 数量来衡量产品价值,并提供基于模型 Token 输入输出速率的定价方案。
一些 Token 定价方案为用户提供了一定额度的输入输出共享 Token。基于这些配额,客户可以使用仅消耗少量 Token 的短文本提示词来生成包含数千个 Token 的长篇 AI 回复。反之,用户也可以将大部分 Token 用于输入,向 AI 模型提供一堆文档,仅要求其总结为几个要点。
为了服务大量并发用户,部分 AI 服务还设定了 Token 限制,即每分钟为单个用户生成的 Token 最大数量。
Token 还定义了 AI 服务的用户体验。首 Token 延迟(Time to first token),即用户提交提示词到 AI 模型开始响应之间的延迟,以及 Token 间延迟(inter-token latency),即后续输出 Token 的生成速率,决定了终端用户如何体验 AI 应用的输出。
每个指标都涉及权衡,而正确的平衡取决于具体的应用场景。
对于基于 LLM 的聊天机器人,缩短首 Token 延迟有助于保持对话节奏,避免不自然的停顿,从而提升用户参与度。优化 Token 间延迟则能让文本生成模型匹配普通人的阅读速度,或让视频生成模型达到预期的帧率。对于进行深度思考和研究的 AI 模型,则更侧重于生成高质量的 Token,即使这会增加延迟。
开发者必须在各项指标之间取得平衡,以在保证 AI 工厂吞吐量的前提下提供高质量的用户体验。
如何实现最低的 Token 成本
为了应对这些挑战,NVIDIA 的全栈 AI平台提供了丰富的软件、微服务和蓝图,以及强大的加速计算基础设施 —— 这是一套灵活的全栈解决方案,旨在帮助企业演进、优化和扩展 AI 工厂,从而在大规模场景下优化 Token 处理。
了解如何优化不同任务中的 Token 使用,有助于开发者、企业乃至终端用户从其 AI 应用中获取最大价值。
了解更多关于如何计算最低 Token 成本的信息,并下载 NVIDIA 关于AI 工厂成本-延迟-性能优化的指南。即刻前往 build.nvidia.com 在 NVIDIA 全栈平台上构建 AI 工厂。


