一、赛题背景与意义
随着全球化进程加速,影视作品作为文化输出与交流的重要载体,如何突破语言壁垒、实现跨语言的精准传播,成为当下 AI 研究的热点。影视场景里,语音往往包含口音差异、多角色对白及背景噪音;翻译时又要兼顾文化典故、俚语和语境连贯性,难度极高。本次大赛旨在推动端到端语音到多语言文本技术的创新应用,鼓励参赛者在不超过 20B 参数量的开源模型上,通过技术和数据策略的融合,攻克影视复杂场景下的自动精准翻译难题。
二、任务概述
- 输入:中文影视场景中多轮对话的音频片段
- 输出:对应的英文、马来语和泰语翻译文本
- 评估指标:目标语言的翻译准确率(以 BLEU、TER 等指标为主)
- 模型约束:基于开源模型,参数规模不超 20B;可额外扩充数据资源
赛题链接:https://challenge.ai.mgtv.com/#/track/52
三、数据处理与预处理策略
-
片段名解析与关联
- 将原始音频文件按会话 ID、时间戳等信息切割后,解析文件名
- 按时间戳排序并重组,恢复完整对话流,保证时序一致性
-
上下文信息构造
- 对每个会话,采用滑动窗口方式,合并前 N 轮对话文本与当前音频对应的内容
- 例如 N=2 时,每条训练样本包含“第 1–2 轮文本 + 第 3 轮音频”,帮助模型学习对话中指代、省略句等语义依赖
-
文本清洗与标注
- 保留口语化特征(语气词、停顿标记)以提升翻译的自然度
- 对常见俚语、文化梗做补充标注,为翻译模型提供额外提示
四、核心技术方案
为什么“影视语音+多语言”这么难?
官方一句话要求:把中文影视剧里的人声,一次性转成英、马、泰三语字幕。
真正落地发现坑点满满:
维度 | 现实暴击 |
---|---|
语音 | 宫斗剧哭腔+泰式口音+BGM炸雷,ASR 直接懵圈 |
文本 | “臣妾做不到啊”这类文化梗,直译=翻车 |
场景 | 多轮对话指代、省略、倒装,一句话脱离上下文就 GG |
性能 | 20B 模型推理 3h,A100 烧到 80℃,评审还要实时字幕 |
一句话:做字幕容易,做能看的字幕难。
4.1 阶段一:语音识别
-
基础模型:Qwen2.5-Omni-3B
-
微调策略:
- 冻结模型底座,仅对语音特征编码器和解码层的 LoRA 适配层进行微调
- 训练数据格式:
{
"messages": [
{
"role": "user",
"content": "<audio>影视语音说了什么
### 上下文:
这个是李姐的文件
超超的复印文件
静姐的 静姐的"
},
{
"role": "assistant",
"content": "何氏明月温婉淑德娴雅端庄
着册封为后为天下之母仪"
}
],
"audios": [
"data/alg_2025_audios_final/电视剧1 EP01/电视剧1 EP01_00_01_37,780_00_01_52,860.wav"
]
}
- 损失函数聚焦序列对齐和断句准确度,提升长对话的连贯识别能力
4.2 阶段二:多语言翻译
语音 wav ──▶ Qwen2.5-Omni-3B(ASR) ──▶ 中文文本 ──▶ Qwen3-14B──▶ 英/马/泰文本
-
基础模型: Qwen3-14B
-
微调策略:
- 在 Qwen3-14B(或同级别模型)上应用 LoRA,强化东南亚语种的领域适配
- 训练数据采用 shareGPT 风格的平行多轮对话格式,例如:
{
"system": "你是一名影视场景的多语言翻译助手,将中文翻译为:马来语",
"conversations": [
{
"from": "human",
"value": "我来扶您吧"
},
{
"from": "gpt",
"value": "Saya akan memapah puan."
},
{
"from": "human",
"value": "这小宫女胆子也太大了"
},
{
"from": "gpt",
"value": "Dayang-dayang ini sangat berani."
},
{
"from": "human",
"value": "当初她不也是靠的这招勾引的皇上吗"
},
{
"from": "gpt",
"value": "Masa itu, dia juga mengurat maharaja dengan helah ini."
},
{
"from": "human",
"value": "宣太医 快宣太医"
},
{
"from": "gpt",
"value": "Cepat panggil tabib diraja!"
},
{
"from": "human",
"value": "现在是我的册封大典"
},
{
"from": "gpt",
"value": "Ini upacara pertabalan adinda."
}
]
}
- 损失函数兼顾翻译准确性(BLEU)与对话流畅度(基于困惑度评估)
五、模型微调与训练细节
-
训练框架:ms-swift
- 支持高效 LoRA 微调,并行加速
-
硬件环境:多节点 V100 GPU
-
超参设置:
- Batch size:语音识别阶段 1,翻译阶段 1
- 学习率:1e-4(LoRA)
- 上下文窗口:3 轮对话
-
推理加速:为兼顾多轮串行上下文与推理时长,实践中使用 vLLM v6.1+ 实现并行加速,推理时间由原 PT 模式的 3h 降至约 40min
六、实验结果与排名
赛道 | 排名 | 备注 |
---|---|---|
A 榜 | 第10名 | 正式提交队伍中排名前十 |
B 榜 | 第11名 | 因小号提交顺延,实际进入 Top10 |
-
Trick
- 上下文滑动窗口和 beam search(num_beams)调优显著上分
- 使用 Sailor2-20B-Chat 在东南亚语种领域预训练语料上的优势明显(没用上)
七、挑战与心得体会
-
多轮并行推理的技术难点
- PT 串行推理耗时长,初版用 ms-swift 串行推理需 3h
- 切换至 vLLM 并行后虽加速到 40min,但性能下降约 1 个多点
- 后续发现 vLLM 版本差异(v6.1+ vs v8.5+)可能是主要原因
-
微调与数据平衡
- LoRA 只调适配层能有效降低显存占用,但对低资源语言仍需更多平行语料
- 数据清洗与文化梗标注对于翻译质量有显著影响
-
团队协作与资源调度
- 多阶段模型训练需要合理分配 GPU 资源与加速框架
- 训练日志、评估脚本和数据处理代码高内聚,方便复现实验
八、未来展望
- 更大模型与多任务结合:尝试在 SiLu 结合显式检索和 RLHF 强化微调
- 跨模态统一框架:探索将 ASR 与翻译端到端联合微调
- 实时在线部署:基于 vLLM 与千兆网卡,实现流式实时翻译
本次比赛让我们深刻体会到数据与模型架构对复杂场景下多模态任务的重要性,也为后续结合更大规模预训练模型与高效推理框架奠定了实践基础。
成功拿下低保,代码等整理好后续开源出来!