新闻

AI代币是什么?揭秘驱动...的语言与资金

新闻 2026-05-15 0 次浏览

在各类 AI 应用的底层,核心算法正以独特的语言处理海量数据,而这种语言的基石便是 Token

AI Token 是将大型信息块拆解后形成的微小数据单位。模型通过处理这些 Token 来学习彼此间的关联,从而解锁预测、生成及推理等能力。Token 的处理速度越快,模型的反馈与学习就越敏捷。目标在于尽可能缩短处理耗时并压低单个 Token 的成本,进而优化 AI 基础设施,最大化商业收益。

AI 工厂作为一种专为加速 AI 工作负载而设计的新型数据中心,能够高效地吞吐 Token,将其从 AI 的语言转化为 AI 的货币——即智能。

依托 AI 工厂,企业能够利用最新的全栈计算方案,以更低的算力成本处理更多的 Token,从而为客户创造额外价值。例如,通过整合软件优化并采用新一代 NVIDIA GPU,相较于未优化的旧款 GPU,单 Token 成本降幅可达 20 倍——并在短短四周内实现了 25 倍的收入增长。

通过高效处理 Token,AI 工厂正在生产“智能”——这一 AI 驱动的新工业革命中最具价值的资产。

分词如何将数据转化为 AI 可读的 Token?

无论是处理文本、图像、音频片段、视频还是其他模态的数据,Transformer AI 模型都会将其翻译成 Token。这一过程被称为“分词”。

高效的分词有助于降低训练和推理所需的算力。分词方法多种多样,针对特定数据类型和场景定制的分词器往往只需更小的词汇表,意味着需要处理的 Token 数量更少。

对于大型语言模型而言,短单词可能由单个 Token 表示,而长单词则可能被拆分为两个或更多 Token。

例如,“darkness”一词会被拆分为“dark”和“ness”两个 Token,每个 Token 都带有数字表示,如 217 和 655。反义词“brightness”则会拆分为“bright”和“ness”,对应的数字表示为 491 和 655。

在这个例子中,与“ness”关联的共享数值有助于 AI 模型理解这两个词可能存在某种共性。但在其他情况下,分词器可能会根据上下文含义,为同一个词分配不同的数字表示。

例如,“lie”这个词可能指躺下的姿势,也可能指说谎。在训练过程中,模型会学习这两种含义的区别,并为它们分配不同的 Token 编号。

对于处理图像、视频或传感器数据的视觉 AI 模型,分词器可以帮助将像素或体素等视觉输入映射成一系列离散的 Token。

处理音频的模型可能会将短片段转换为声谱图——即声波随时间变化的可视化表示,然后将其作为图像进行处理。其他音频应用则可能侧重于捕捉包含语音的声音片段的含义,并使用另一种捕捉语义 Token 的分词器,这些 Token 代表语言或上下文数据,而不仅仅是声学信息。

Token 在 AI 训练期间如何使用?

训练 AI 模型的第一步是对训练数据集进行分词。

根据训练数据的大小,Token 的数量可能高达数十亿甚至数万亿——根据预训练缩放定律,用于训练的 Token 越多,AI 模型的质量通常越高。

在 AI 模型预训练期间,模型会通过展示一组 Token 样本并进行预测来接受测试。基于预测的正确与否,模型会进行自我更新以提高下一次猜测的准确率。这一过程不断重复,直到模型从错误中吸取教训并达到预期的准确率水平,即所谓的“模型收敛”。

预训练结束后,模型还会通过后训练进行进一步改进。在此阶段,模型会继续在与部署场景相关的 Token 子集上进行学习。这些 Token 可能包含法律、医学或商业等应用领域的特定信息,或者是帮助模型针对推理、聊天或翻译等特定任务进行调整的 Token。最终目标是建立一个能够根据用户查询生成正确 Token 以提供恰当响应的模型——这种能力通常被称为推理

Token 在 AI 推理和推理期间如何使用?

在推理阶段,AI 接收一个提示——根据模型不同,可能是文本、图像、音频片段、视频、传感器数据甚至基因序列——并将其转化为一系列 Token。模型处理这些输入 Token,将响应生成为 Token,然后将其转换回用户期望的格式。

输入和输出语言可以不同,例如在将英语翻译成日语的模型,或将文本提示转换为图像的模型中。

为了理解完整的提示,AI 模型必须能够同时处理多个 Token。许多模型都有一个指定的限制,称为“上下文窗口”,不同的用例需要不同的上下文窗口大小。

一次能处理几千个 Token 的模型或许可以处理一张高分辨率图片或几页文本。而拥有数万个 Token 上下文长度的模型,则可能能够总结整本小说或长达一小时的播客节目。有些模型甚至提供百万或更多 Token 的上下文长度,允许用户输入海量数据供 AI 分析。

推理 AI 模型作为 LLM 的最新进展,可以通过以不同于以往的方式处理 Token 来应对更复杂的查询。在这里,除了输入和输出 Token 外,模型在思考如何解决特定问题的几分钟或几小时内,还会生成大量的“推理 Token”。

这些推理 Token 有助于更好地回答复杂问题,就像一个人如果有时间思考一个问题,就能构思出更好的答案一样。每个提示对应的 Token 数量增加,可能需要比传统 LLM 单次推理多出 100 倍以上的算力——这就是测试时缩放的一个例子,也被称为“长思考”。

Token 如何驱动 AI 经济?

预训练和后训练阶段,Token 等同于对智能的投资;而在推理阶段,它们则驱动成本和收入。因此,随着 AI 应用的普及,新的 AI 经济原则正在浮现。

AI 工厂旨在支撑大规模推理,通过将 Token 转化为可变现的洞察力,为用户制造智能。这就是为什么越来越多的 AI 服务根据消耗和生成的 Token 数量来衡量其产品价值,并提供基于模型 Token 输入和输出费率的定价计划。

某些 Token 定价计划为用户提供输入和输出之间共享的一定数量的 Token。基于这些 Token 限制,客户可以使用只占用几个 Token 的简短文本提示来生成占用数千个 Token 的长篇 AI 生成响应。或者,用户也可以将大部分 Token 花在输入上,向 AI 模型提供一组文档以将其总结为几个要点。

为了服务于大量并发用户,某些 AI 服务还设置了 Token 限制,即为单个用户每分钟生成的最大 Token 数量。

Token 也定义了 AI 服务的用户体验。首 Token 时间即用户提交提示与 AI 模型开始响应之间的延迟,以及 Token 间延迟或生成后续输出 Token 的速率,决定了最终用户如何体验 AI 应用的输出。

每个指标都需要权衡,正确的平衡取决于用例。

对于基于 LLM 的聊天机器人,缩短首 Token 时间可以通过保持对话节奏且没有不自然的停顿来提高用户参与度。优化 Token 间延迟可以使文本生成模型匹配普通人的阅读速度,或使视频生成模型达到所需的帧率。对于进行长思考和研究的 AI 模型,即使增加延迟,也更侧重于生成高质量的 Token。

开发者必须在这些指标之间取得平衡,以提供高质量的用户体验和最佳的吞吐量,即 AI 工厂能够生成的 Token 数量。

如何实现最低的 Token 成本

为了应对这些挑战,NVIDIA 全栈 AI平台提供了丰富的软件微服务蓝图,以及强大的加速计算基础设施——这是一个灵活的全栈解决方案,使企业能够演进、优化和扩展 AI 工厂,从而大规模优化 Token 处理。

了解如何针对不同任务优化 Token 使用,可以帮助开发者、企业甚至最终用户从其 AI 应用中获得最大价值。

了解更多关于如何计算最低 Token 成本的信息,并下载 NVIDIA 关于AI 工厂成本-延迟-性能优化的指南。前往 build.nvidia.com 开始在 NVIDIA 全栈平台上构建 AI 工厂。