新闻

AI代币是什么?揭秘驱动其运作的核心语言与价值属性

新闻 2026-05-16 0 次浏览

每一个 AI 应用的底层,都运行着以特定语言处理数据的算法,这种语言的基础便是 Token词元)。

AI Token 是将大型信息块拆分后形成的微小数据单元。AI 模型通过处理这些 Token 来学习它们之间的关联,进而解锁预测、生成和推理等能力。Token 的处理速度越快,模型的学习和响应速度就越快。优化的目标在于实现最短的处理时间并压低每个 Token 的成本,从而优化 AI 基础设施并最大化收益。

AI 工厂是一类专为加速 AI 工作负载而设计的新型数据中心,它能高效地吞吐 Token,将其从 AI 的语言转化为 AI 的货币——即智能。

借助 AI 工厂,企业能够利用最新的全栈计算解决方案,在更低的算力成本下处理更多的 Token,从而为客户创造额外价值。以某案例为例,通过集成软件优化并采用最新一代 NVIDIA GPU,与上一代 GPU 上的未优化流程相比,每个 Token 的成本降低了 20 倍——并在短短四周内实现了 25 倍的收益增长

通过高效处理 Token,AI 工厂正在制造智能——这场由 AI 驱动的新工业革命中最宝贵的资产。

数据如何通过分词转化为 AI 可读的 Token?

无论是处理文本、图像、音频片段、视频还是其他模态的数据,Transformer AI 模型都会将其转化为 Token。这个过程被称为分词。

高效的分词有助于减少训练和推理所需的算力。分词方法多种多样——针对特定数据类型和用例量身定制的分词器可能需要更小的词表,这意味着需要处理的 Token 数量更少。

对于大型语言模型(LLM)而言,短词可能由单个 Token 表示,而长词则可能被拆分为两个或更多的 Token。

例如,“darkness”(黑暗)一词会被拆分为两个 Token:“dark”和“ness”,每个 Token 都带有数字表示,如 217 和 655。相反的词“brightness”(明亮)也会被类似地拆分为“bright”和“ness”,对应的数字表示为 491 和 655。

在这个例子中,与“ness”关联的共享数字值有助于 AI 模型理解这些词可能具有某些共同特征。在其他情况下,根据上下文中的含义,分词器可能会为同一个词分配不同的数字表示。

例如,“lie”这个词可以指“躺下”的姿势,也可以指“说谎”。在训练期间,模型会学习这两种含义的区别,并为它们分配不同的 Token 编号。

对于处理图像、视频或传感器数据的视觉 AI 模型,分词器可以帮助将像素或体素等视觉输入映射为一系列离散的 Token。

处理音频的模型可能会将短片段转换为声谱图——即声波随时间变化的视觉描述,然后将其作为图像进行处理。其他音频应用则可能侧重于捕捉包含语音的声音片段的含义,并使用另一种分词器来捕捉语义 Token,这种 Token 代表语言或上下文数据,而不仅仅是声学信息。

Token 在 AI 训练期间如何使用?

训练 AI 模型的第一步是对训练数据集进行分词。

根据训练数据的大小,Token 的数量可能达到数十亿甚至数万亿——根据预训练缩放定律,用于训练的 Token 越多,AI 模型的质量就越高。

当 AI 模型进行预训练时,它会通过展示一组样本 Token 并要求预测下一个 Token 来进行测试。根据其预测是否正确,模型会进行自我更新以改进下一次猜测。这一过程不断重复,直到模型从错误中学习并达到目标准确率水平,这被称为模型收敛。

预训练结束后,模型会通过后训练(post-training)进一步改进,模型继续在与部署场景相关的 Token 子集上进行学习。这些 Token 可能是法律、医学或商业应用中特定领域的信息,或者是帮助模型针对特定任务(如推理、聊天或翻译)进行调整的 Token。目标是生成正确的 Token 以根据用户的查询提供正确的响应——这种技能通常被称为推理(inference)。

Token 在 AI 推理和推理期间如何使用?

在推理过程中,AI 会接收提示——根据模型不同,可能是文本、图像、音频片段、视频、传感器数据,甚至是基因序列——并将其转化为一系列 Token。模型处理这些输入 Token,以 Token 的形式生成响应,然后将其转化为用户期望的格式。

输入和输出的语言可以不同,例如在将英语翻译成日语的模型中,或者将文本提示转化为图像的模型中。

要理解一个完整的提示,AI 模型必须能够同时处理多个 Token。许多模型都有一个指定的限制,称为上下文窗口——不同的用例需要不同的上下文窗口大小。

一个能一次处理几千个 Token 的模型可能只能处理一张高分辨率图像或几页文本。而拥有数万个 Token 上下文长度的另一个模型,可能能够总结整本小说或一个小时的播客片段。有些模型甚至提供一百万或更多 Token 的上下文长度,允许用户输入海量数据源供 AI 分析。

推理 AI 模型是 LLM 的最新进展,它可以通过以不同于以往的方式处理 Token 来应对更复杂的查询。在这里,除了输入和输出 Token 外,模型在思考如何解决给定问题的几分钟或几小时内,还会生成大量推理 Token。

这些推理 Token 能够更好地回答复杂问题,就像一个人通过时间思考问题能得出更好的答案一样。每个提示对应的 Token 增加可能需要比传统 LLM 上的单次推理传递多 100 倍以上的算力——这是测试时缩放(test-time scaling),即“长思考”的一个例子。

Token 如何驱动 AI 经济?

预训练和后训练期间,Token 等同于对智能的投资;而在推理期间,它们驱动成本和收益。因此,随着 AI 应用的普及,AI 经济学的新原则正在涌现。

AI 工厂的建立旨在支持大批量推理,通过将 Token 转化为可变现的洞察力,为用户制造智能。这就是为什么越来越多的 AI 服务根据消耗和生成的 Token 数量来衡量其产品价值,并提供基于模型 Token 输入和输出费率的定价计划。

某些 Token 定价计划为用户提供一组在输入和输出之间共享的 Token 数量。基于这些 Token 限制,客户可以使用仅消耗几个 Token 的短文本提示作为输入,生成长达数千个 Token 的 AI 生成响应作为输出。或者,用户可以将大部分 Token 花费在输入上,向 AI 模型提供一组文档以将其总结为几个要点。

为了服务大量并发用户,某些 AI 服务还设定了 Token 限制,即为单个用户每分钟生成的最大 Token 数。

Token 也定义了 AI 服务的用户体验。首 Token 时间(Time to first token),即用户提交提示与 AI 模型开始响应之间的延迟,以及 Token 间延迟(inter-token 或 token-to-token latency),即生成后续输出 Token 的速率,决定了最终用户如何体验 AI 应用的输出。

每个指标都涉及权衡,正确的平衡由用例决定。

对于基于 LLM 的聊天机器人,缩短首 Token 时间可以通过保持对话节奏且没有不自然的停顿来提高用户参与度。优化 Token 间延迟可以使文本生成模型匹配普通人的阅读速度,或者使视频生成模型达到所需的帧率。对于进行长思考和研究任务的 AI 模型,更强调生成高质量的 Token,即使这会增加延迟。

开发者必须在这些指标之间取得平衡,以提供高质量的用户体验和最佳吞吐量,即 AI 工厂能够生成的 Token 数量。

如何实现最低的每个 Token 成本

为了应对这些挑战,NVIDIA 全栈 AI平台提供了庞大的软件微服务蓝图库,以及强大的加速计算基础设施——这是一个灵活的全栈解决方案,使企业能够发展、优化和扩展 AI 工厂,从而大规模优化 Token 处理。

了解如何在不同任务中优化 Token 使用,可以帮助开发者、企业甚至最终用户从其 AI 应用中获得最大价值。

了解更多关于如何计算最低 Token 成本的信息,并下载 NVIDIA 关于AI 工厂成本-延迟-性能优化的指南。请在 build.nvidia.com 上开始构建 AI 工厂。