magenta-realtime模型论文速读:音乐音频与自然语言的联合嵌入

《MULAN: A JOINT EMBEDDING OF MUSIC AUDIO AND NATURAL LANGUAGE》论文

一、引言

论文提出了一种名为 MuLan 的新型音乐音频与自然语言联合嵌入模型,旨在克服传统音乐标记和基于内容的检索系统依赖预定义本体的局限性。MuLan 直接将音乐音频与无约束的自然语言描述相连接,采用双塔架构,通过对比学习利用 4400 万条音乐录音(37 万小时)和弱关联的自由形式文本标注进行训练。该模型具有广泛的音乐流派和文本风格兼容性,能够实现零样本功能,适用于多种应用,包括迁移学习、零样本音乐标记、音乐领域的语言理解和跨模态检索等。

二、相关工作

  1. 音频表示学习 :无论是在通用环境音频还是音乐音频领域,使用大规模任务无关的预训练来获取通用内容表示的迁移学习已成为主流方法。包括监督预训练(如 Audio Spectrogram Transformer)、无监督和自监督预训练(如判别式训练和生成式训练)等多种预训练机制被探索。

  2. 跨模态对比学习 :受对比学习在图像和文本领域成功的启发,研究者提出了三模态架构,将音频塔引入图像 - 文本模型中。在音频领域,也有相关工作利用对比学习对齐音频和关联标签的潜在表示,但大多局限于固定词汇表的标签,不支持自由形式自然语言的泛化。

  3. 音乐文本联合嵌入模型 :为实现基于内容的音乐信息检索,需将自由形式文本与广泛的音乐属性相连接。有研究通过多标签分类任务将语义在音乐中标记,或依赖预先存在的标签连接模态。而 MuLan 的双塔架构使得模型能够提供自然语言接口,适用于跨模态检索、零样本标记和语言理解等下游任务。

三、研究方法

  1. 学习框架 :MuLan 模型由两个独立的音频和文本输入模态的嵌入网络组成,共享维度为 d 的 ℓ₂ - 归一化嵌入空间。训练时,通过计算对比损失函数来最小化一批样本的损失值,从而使得目标音频 - 文本对的批判函数产生较大的正值,而非目标对产生接近零的较小值。

  2. 音频嵌入网络 :考虑了 Resnet - 50 架构和 Audio Spectrogram Transformer(AST)架构。Resnet - 50 对 log mel 谱图进行操作,AST 则将时间 - 频率补丁序列作为输入,两种架构均通过 SpecAugment 进行数据增强,并在训练时对除最终线性变换层外的其他层进行预训练。

  3. 文本嵌入网络 :使用基于 Bidirectional Encoder Transformer(BERT)的 base - uncased 架构,将文本输入转换为令牌序列,并以 [CLS] 令牌嵌入作为输出,经线性变换和 ℓ₂ - 归一化后得到文本嵌入。

  4. 训练数据集挖掘 :从 5000 万互联网音乐视频中提取 30 秒片段,经过音乐音频检测器过滤后得到约 4400 万片段。为每条音乐视频收集短形式文本、长形式文本和播放列表标题等三种来源的文本数据,并通过训练好的 BERT 模型和规则基过滤启发式方法对文本进行预过滤。

四、实验评估

  1. 零样本音乐标记 :在 MagnaTagATune(MTAT)和 AudioSet 的音乐相关部分进行评估,使用类平衡接收者操作特征曲线下面积(AUC-ROC)作为指标。结果显示,MuLan 模型在两种基准测试中均取得良好性能,尽管对于一些具有非特定含义或涉及简单否定的标签表现不佳。

  2. 线性探测的迁移学习 :在冻结的音频嵌入上训练独立的每类逻辑回归层,评估音频编码器作为通用特征提取器的性能。结果表明,MuLan 的预训练音频编码器在音乐标记基准测试中实现了最先进的迁移学习性能。

  3. 从文本查询中检索音乐 :使用 7000 个专家策划的播放列表进行评估,构建两个跨模态检索评估集,分别使用标题和描述作为查询。结果显示,包含更多数据源的模型在泛化能力上更优,即使训练文本未经过滤,模型也能表现出较高的鲁棒性。

  4. 文本三元组分类 :评估文本嵌入对音乐相关文本的理解深度。结果表明,包含长形式文本注释的 MuLan 文本嵌入模型在音乐领域表现出色,超越了通用句子嵌入模型。

五、结论

论文提出的 MuLan 模型通过大规模弱关联的文本和音频数据训练,实现了音乐音频和自然语言的联合嵌入,在多种应用中展示了自然语言接口的多功能性,其预训练音频嵌入在音乐标记基准测试中达到了最先进的迁移学习性能。尽管存在不足,但该研究为构建音乐音频的自由形式自然语言接口迈出了重要一步,未来在文本过滤方法改进等方面仍有提升空间。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值