新闻

【交我学-24】IWSLT2025赛事视角下,同步语音翻译研究近况与未来展望

新闻 2026-05-05 0 次浏览

AudioCC交我学

大家好,欢迎来到「AudioCC交我学」专栏!


在全球化沟通日益频繁的今天,口语机器翻译(SLT)作为打破语言壁垒的核心技术,正朝着更实时、更高效、更贴合真实场景的方向发展。


IWSLT作为每年一度的国际口语机器翻译评测大赛,致力于推动口语翻译各领域发展。2025 IWSLT分设7个赛道,吸引了32个团队参与。本文聚焦于同步翻译赛道(Simultaneous Translation track),介绍当前领域前沿问题以及解决方案。


一、

IWSLT 2025:同步翻译赛道的核心挑战

与赛事全景



IWSLT 2025 总体介绍




两大核心挑战

  • 长语音处理:传统翻译系统多依赖预分段的短音频数据集训练,难以适配真实场景中的长语音流。本次大赛要求系统具备自动分割长语音或直接处理无界语音输入的能力。

  • 受限条件下的LLM应用:大赛围绕训练数据与资源约束,明确了LLM的使用边界。


参与与评测

  • 参赛团队:CUNI、CMU、OSU、UPV、NAIST

  • 评测数据集:IWSLT25Instruct、ParCzech、ELITR

  • 评估指标:BLEU、COMET、StreamLAAL

  • 延迟场景:为全面评估不同延迟条件下的翻译性能,赛道设置了低延迟和高延迟两种场景




 IWSLT 2025 赛事结果分析



本次大赛结果呈现出鲜明的技术趋势,关键结论如下:

  1. 除CUNI为捷克语设计的端到端模型外,其余系统均集成LLM——CUNI采用专为多语言翻译训练的EuroLLM,其他团队则使用通用LLM(如Qwen,Llama),说明LLM已成为SimulST领域的主流技术方案。

  2. 高延迟场景下,CUNI的级联系统性能领先,说明级联架构在延迟放宽时的质量优势。

  3. 低延迟场景中,CMU与NAIST的系统在不同语言对上取得了较好的效果。

  4. 针对带口音翻译,OSU的系统凭借更强的鲁棒性取得最佳结果。

  5. 人工评估与机器指标高度一致:顶尖系统的翻译质量接近学生议员水平,但仍不及专业议员——专业口译员能提炼核心信息,在更短时间内输出更高质量的翻译,这也是机器翻译未来需突破的方向。




参赛系统技术拆解




(1)CUNI:级联架构+多缓冲区设计


CUNI针对多数语言对采用级联架构,具体架构与功能如下:


Encoder:Whisper Large v3+AlignAtt

AlignAtt 为基于注意力机制的读写决策策略。其核心思路为,通过分析当前时间步输出文本对输入音频的注意力分布,若注意力集中于音频末端,表明已接近有效翻译边界,继续生成易导致精度下降,故暂停翻译并等待更多语音输入;若注意力集中于音频前部,则判定可延续译文生成流程。


Decoder:EuroLLM-9B + Local Agreement

  • EuroLLM 是一款专为多语言翻译任务优化训练的开源大语言模型,在跨语言语义对齐与小语种翻译场景中具备优异性能。

  • Local Agreement 通过对比相邻时间步的翻译假设,选取最大公共部分作为稳定输出。


长语音处理能力:SileroVAD+Buffer Selection

Buffer Selection通过设计4个缓冲区(源音频、解码目标、上下文、初始提示词),留存历史语境、避免重复计算,同时通过缓冲区修剪策略(超长时截断完整语句、触发VAD时清空缓冲区),防止LLM幻觉并保障翻译连贯性。


实验结果:

  • 实验分析了束搜索的beam值与缓冲区长度对模型性能的影响,确定beam=5、音频缓冲区长度30秒为最优参数配置。

  • 在单独系统论文中,仅与基线模型进行对比,延迟与质量表现较优,结合赛事整体结果来看,CUNI系统在高延迟场景下表现优异。



(2)CMU:InfiniSST架构+RoPE,低延迟高效适配

CMU系统以InfiniSST为基础架构,聚焦低延迟场景下的效率与性能平衡,核心设计及功能如下:


Encoder:Streaming Wav2Vec 2.0


DecoderQwen2.5-7B-Instruct + Fixed Length Strategy

  • 流式推理使用定长读写策略,按照不同延迟要求,读取不同数量的chunk后进行翻译


长语音处理能力: RoPE + SlidingWindow

  • RoPE 为旋转位置嵌入,无需微调即可将模型上下文长度扩展至无限

  • 滑动窗口优化KV Cache管理,适配无界语音输入需求


数据集构建:   

基于LibriSpeech、CommonVoice、VoxPopuli三大ASR数据集,通过LLM完成翻译并限定上下文为前三个句子;借助MFA实现语音-文本对齐、SimulAlign实现源文本-译文对齐,同步构建稳健片段(调整分段起始至语句边界,规避跨句分割干扰)。


实验结果:

  • 引入VoxPopuli合成数据后,BLEU得分至少提升1分;

  • Qwen2.5-7B-Instruct在中文翻译任务上显著优于Llama-3.1-8B-Instruct,BLEU提升约4分,且延迟增加不明显。


(3)NAIST:SHAS语义分段+自适应优化,质量延迟均衡

NAIST系统以SHAS语义分段模型为核心,结合LLM实现语义感知的流式翻译,架构设计及功能如下:

Encoder:Whisper Large v3+Fixed Length Strategy


Decoder:Qwen2.5-7B + LocalAgreement


长语音处理能力:SHAS

  • Architecture:Wav2vec + Segmentation Frame Classifier

  • SHAS 为预训练模型,从人工分段语料中学习最优分段策略(VAD为基于静音检测的分段策略),通过wav2vec 2.0提取声学特征,经SFC分类器计算帧级边界概率,结合阈值θ控制分段严格度。

  • SHAS 最初为离线翻译任务设计,为适配流式场景下的增量音频流,文章引入了超参数 ,来解决面对增量音频分割频繁的问题


实验结果:

在非计算感知场景下,NAIST系统的翻译质量显著优于基线模型;但计入实际计算耗时后,LocalAgreement策略所需的大量假设生成,以及SHAS模块的引入,共同带来了额外的延迟开销。


二、

LLM-based SimulST:从固定策略到自适应决策的进化

随着大语言模型(LLM)技术的快速迭代,流式语音翻译(SimulST)已从传统级联模型,逐步转向LLM赋能的全新技术范式,依托LLM强大的语义理解、跨语言对齐能力及上下文建模优势,有效解决传统方法的效率与质量瓶颈。


1. 多轮对话与交错结构数据集


早期LLM流式翻译多采用级联模型,将增量输入与历史输入拼接后重新传给LLM,无法复用KV Cache,计算效率低。《Conversational SIMULMT: Efficient Simultaneous Translation with Large Language Models》研究提出将流式翻译转化为多轮对话形式——新输入直接拼接在LLM输出之后,不破坏输出结构,从而实现缓存复用,但也带来数据格式不匹配的问题:


• 字节:采用手动标注的交错结构数据集;

• 其他团队:参考该思路,利用LLM生成交错结构数据集(如InfiniSST)。


此外,早期LLM系统多采用LocalAgreement以及固定长度决策策略,无法基于语义动态调整,灵活性不足。为此,最新研究聚焦自适应决策,让模型自主判断"读"或"写"。



2. EASiST:自适应策略

核心思想是将固定策略升级为自适应策略,让LLM自主学习读写决策:


交错式数据集构建:通过LLM分割转录文本并翻译,设置低、中、高三种延迟场景,利用MFA实现语音-文本对齐,生成兼具单调性与高质量的数据集。


三阶段训练流程:

a. 阶段一(SimulMT预训练):使用交错格式MT数据集,引导LLM学习交错序列格式,同时加入离线MT损失保持全句翻译能力


b. 阶段二(语音-文本模态对齐):冻结LLM,仅训练Encoder与Adapter,实现语义层面的模态对齐


c. 阶段三(多任务SFT):同步语音翻译任务与策略决策任务,目的是训练读写策略决策模块


实验结果:

EASiST显著优于固定策略的wait-k模型及自适应策略的AlignAtt、EDAtt模型,在计算感知延迟(LAAL-CA)下仍保持性能优势,83亿参数模型的推理开销通过缓存复用大幅降低,比肩1亿参数传统模型。



3. SIMULSENSE:语义单元检测+轻量决策


SIMULSENSE的核心创新是引入语义单元检测器(SUD),在编码器输出阶段完成读写决策,而非依赖LLM进行决策,从而提高效率:


SUD语义单元检测器:灵感源于人类口译员的工作模式——感知到"能够独立传递完整语义的最小语言单位"后立即翻译。SUD为编码器输出特征分配权重,累计权重超过阈值γ时,判定检测到语义单元,触发LLM翻译,避免冗余计算。


Sense-Aware Transducer(SAT)训练架构:

  • 输入:编码器特征H+延迟标签;

  • 输出:两组权重—A(语义单元分割)和B(特征- token对齐);

  • 约束条件:权重A总和等于语义单元数-1(确保分割完整性),权重B总和匹配对应token数(确保对齐准确性)。


训练损失设计:包含联合损失(预测文本token)、质量损失(两组权重约束)和LLM损失(优化翻译质量),无需专用交错式训练数据,仅用真实平行数据即可训练。


实验结果:

SIMULSENSE在计算感知延迟下的质量-延迟权衡全面优于NAIST-2025和Dialogue-LLM,决策模块平均推理时间仅38.6ms,RTF低至0.016,分别比Dialogue-LLM快3.0倍、比NAIST-2025快9.6倍,实时效率大幅提升。


三、

 无界语音翻译

真实场景中的语音输入往往是无界的,传统处理方式(VAD/SHAS/固定长度分割)存在两大核心问题:一是分段与语义边界错位,导致翻译不连贯;二是分段时清空Cache,造成上下文丢失,引发翻译误解。


为解决这些问题,研究方向逐渐聚焦于Cache优化与LLM能力结合:

  • 早期Cache选择策略:滑动窗口策略尝试保留历史信息,但缓存修剪策略未优化,易导致冗余或信息丢失;StreamAtt架构基于注意力机制动态选择需保留的音频历史,有效应对"无限上下文增长"问题。

  • LLM-based Cache解决方案:利用LLM强大的上下文处理能力,结合RoPE、滑动窗口等技术,实现无界语音的高效处理。例如InfiniSST通过LLM+滑动窗口,无需依赖外部分段即可处理长语音,显著降低延迟的同时保留关键上下文信息。


目前,无界语音翻译仍是流式语音翻译领域亟待攻克的核心难题,其在上下文长效保留、语义边界精准匹配及质量-延迟-计算效率三者平衡上仍有较大提升空间。


总结

结合IWSLT 2025同步翻译赛道成果,可明确两个核心问题的现状:一是LLM已成为流式语音翻译(SimulST)的核心支撑,无论是级联还是端到端架构,其在提升翻译质量与效率上的价值已得到充分验证;二是无界语音翻译仍是当前亟待攻克的难题,传统分段方式的局限的与质量-延迟-效率的平衡问题,仍需进一步突破。


供稿 | 李金顺

编辑 | 方楠

审核 | 韩冰


关注我们



上一篇
Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者
下一篇
现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理
返回列表