芒果TV-影视语音多语种翻译赛-TOP10总结-CSDN博客

本文链接：https://blog.csdn.net/m0_37733448/article/details/149406731

一、赛题背景与意义

随着全球化进程加速，影视作品作为文化输出与交流的重要载体，如何突破语言壁垒、实现跨语言的精准传播，成为当下 AI 研究的热点。影视场景里，语音往往包含口音差异、多角色对白及背景噪音；翻译时又要兼顾文化典故、俚语和语境连贯性，难度极高。本次大赛旨在推动端到端语音到多语言文本技术的创新应用，鼓励参赛者在不超过 20B 参数量的开源模型上，通过技术和数据策略的融合，攻克影视复杂场景下的自动精准翻译难题。

二、任务概述

输入：中文影视场景中多轮对话的音频片段
输出：对应的英文、马来语和泰语翻译文本
评估指标：目标语言的翻译准确率（以 BLEU、TER 等指标为主）
模型约束：基于开源模型，参数规模不超 20B；可额外扩充数据资源

赛题链接：https://challenge.ai.mgtv.com/#/track/52

三、数据处理与预处理策略

片段名解析与关联
- 将原始音频文件按会话 ID、时间戳等信息切割后，解析文件名
- 按时间戳排序并重组，恢复完整对话流，保证时序一致性
上下文信息构造
- 对每个会话，采用滑动窗口方式，合并前 N 轮对话文本与当前音频对应的内容
- 例如 N=2 时，每条训练样本包含“第 1–2 轮文本 + 第 3 轮音频”，帮助模型学习对话中指代、省略句等语义依赖
文本清洗与标注
- 保留口语化特征（语气词、停顿标记）以提升翻译的自然度
- 对常见俚语、文化梗做补充标注，为翻译模型提供额外提示

四、核心技术方案

为什么“影视语音+多语言”这么难？

官方一句话要求：把中文影视剧里的人声，一次性转成英、马、泰三语字幕。
真正落地发现坑点满满：

维度	现实暴击
语音	宫斗剧哭腔+泰式口音+BGM炸雷，ASR 直接懵圈
文本	“臣妾做不到啊”这类文化梗，直译=翻车
场景	多轮对话指代、省略、倒装，一句话脱离上下文就 GG
性能	20B 模型推理 3h，A100 烧到 80℃，评审还要实时字幕

一句话：做字幕容易，做能看的字幕难。

4.1 阶段一：语音识别

基础模型：Qwen2.5-Omni-3B
微调策略：
- 冻结模型底座，仅对语音特征编码器和解码层的 LoRA 适配层进行微调
- 训练数据格式：

{
    "messages": [
        {
            "role": "user", 
            "content": "<audio>影视语音说了什么

### 上下文：
这个是李姐的文件
超超的复印文件
静姐的 静姐的"
        }, 
        {
            "role": "assistant", 
            "content": "何氏明月温婉淑德娴雅端庄
着册封为后为天下之母仪"
        }
    ], 
    "audios": [
        "data/alg_2025_audios_final/电视剧1 EP01/电视剧1 EP01_00_01_37,780_00_01_52,860.wav"
    ]
}

损失函数聚焦序列对齐和断句准确度，提升长对话的连贯识别能力

4.2 阶段二：多语言翻译

语音 wav ──▶ Qwen2.5-Omni-3B(ASR) ──▶ 中文文本 ──▶ Qwen3-14B──▶ 英/马/泰文本

基础模型： Qwen3-14B
微调策略：
- 在 Qwen3-14B（或同级别模型）上应用 LoRA，强化东南亚语种的领域适配
- 训练数据采用 shareGPT 风格的平行多轮对话格式，例如：

{
    "system": "你是一名影视场景的多语言翻译助手，将中文翻译为：马来语", 
    "conversations": [
        {
            "from": "human", 
            "value": "我来扶您吧"
        }, 
        {
            "from": "gpt", 
            "value": "Saya akan memapah puan."
        }, 
        {
            "from": "human", 
            "value": "这小宫女胆子也太大了"
        }, 
        {
            "from": "gpt", 
            "value": "Dayang-dayang ini sangat berani."
        }, 
        {
            "from": "human", 
            "value": "当初她不也是靠的这招勾引的皇上吗"
        }, 
        {
            "from": "gpt", 
            "value": "Masa itu, dia juga mengurat maharaja dengan helah ini."
        }, 
        {
            "from": "human", 
            "value": "宣太医 快宣太医"
        }, 
        {
            "from": "gpt", 
            "value": "Cepat panggil tabib diraja!"
        }, 
        {
            "from": "human", 
            "value": "现在是我的册封大典"
        }, 
        {
            "from": "gpt", 
            "value": "Ini upacara pertabalan adinda."
        }
    ]
}

损失函数兼顾翻译准确性（BLEU）与对话流畅度（基于困惑度评估）

五、模型微调与训练细节

训练框架：ms-swift
- 支持高效 LoRA 微调，并行加速
硬件环境：多节点 V100 GPU
超参设置：
- Batch size：语音识别阶段 1，翻译阶段 1
- 学习率：1e-4（LoRA）
- 上下文窗口：3 轮对话
推理加速：为兼顾多轮串行上下文与推理时长，实践中使用 vLLM v6.1+ 实现并行加速，推理时间由原 PT 模式的 3h 降至约 40min

六、实验结果与排名

赛道	排名	备注
A 榜	第10名	正式提交队伍中排名前十
B 榜	第11名	因小号提交顺延，实际进入 Top10

Trick
- 上下文滑动窗口和 beam search（num_beams）调优显著上分
- 使用 Sailor2-20B-Chat 在东南亚语种领域预训练语料上的优势明显(没用上)

七、挑战与心得体会

多轮并行推理的技术难点
- PT 串行推理耗时长，初版用 ms-swift 串行推理需 3h
- 切换至 vLLM 并行后虽加速到 40min，但性能下降约 1 个多点
- 后续发现 vLLM 版本差异（v6.1+ vs v8.5+）可能是主要原因
微调与数据平衡
- LoRA 只调适配层能有效降低显存占用，但对低资源语言仍需更多平行语料
- 数据清洗与文化梗标注对于翻译质量有显著影响
团队协作与资源调度
- 多阶段模型训练需要合理分配 GPU 资源与加速框架
- 训练日志、评估脚本和数据处理代码高内聚，方便复现实验