第五章:多模态表示学习:跨越模态鸿沟——构建“通用语义”的艺术

在前几章中,我们已经为机器智能分别装备了理解文本、视觉和听觉这三大核心信息模态的基础能力。我们已经拥有了强大的“语言之钥”、“视觉之窗”和“听觉之耳”。然而,一个严峻的现实摆在我们面前:这些独立的“感官”系统如同说着不同方言的专家,它们各自在其领域内表现出色,却无法直接交流与协作。本章,我们将深入多模态AI的“心脏地带”,系统性地解决一个根本性问题:如何将来自不同模态,这些本质上异构(heterogeneous)的信息,映射到一个统一的、机器能够理解和关联的“通用语义空间”中? 这如同在不同文明之间,尝试构建一块能够相互翻译的“罗塞塔石碑”。

我们将剖析并对比两大主流技术范式——对齐表示(以对比学习为核心)联合表示(以Transformer融合为核心)——的核心原理、代表性模型与设计哲学。同时,本章也会探讨生成式方法在表示学习中的应用,并最终建立起评估多模态表示质量的科学框架,为后续理解更复杂的MLLM等模型奠定坚实的理论基础。

5.1 核心问题:多模态世界的“巴别塔”与“罗塞塔石碑”

5.1.1 “巴别塔”困境再探:表示鸿沟 (Heterogeneity Gap)

多模态学习的核心挑战,可以形象地比喻为“巴别塔”困境,即表示鸿沟 (Heterogeneity Gap)。不同模态的信息,其“语言”和“语法”截然不同:

  • 特征空间的不匹配: 图像的特征空间可能由像素的颜色、纹理、形状等构成;文本的特征空间则由离散的、符号化的词元构成;音频的特征空间是时序的波形或频域的能量分布。这些空间的维度、统计特性、拓扑结构都大相径庭。
  • 数据结构的差异: 图像是具有强烈空间局部性的二维或三维网格,而文本是一维的序列,视频则是时空立方体。
  • 语义粒度的不对等: 一张图片可能包含了丰富的、并行的场景信息,而一句话则通常是串行的、包含抽象逻辑的。如何将图片中一只“正在跳跃的棕色狐狸”与文本中的相应短语精确对应起来,是一个巨大的挑战。

度量这个鸿沟本身也是一个活跃的研究领域。研究者们尝试通过典型相关分析 (Canonical Correlation Analysis, CCA)基于互信息的度量或设计特定的探测任务 (Probing Tasks) 来量化不同模态表示在对齐特定语义属性上的一致性,从而间接地刻画这个鸿沟的大小。

5.1.2 我们的目标:“罗塞塔石碑”——构建通用语义空间

面对“巴别塔”的挑战,多模态表示学习的目标便是构建一块数字世界的“罗塞塔石碑”,一个能够承载通用语义的空间。这个空间应实现三大目标:

  1. 语义对齐 (Semantic Alignment): 确保语义上相似的概念,无论来自哪个模态,其表示在空间中都彼此靠近。
  2. 信息协同 (Information Synergy): 不同模态的信息应能相互补充、相互印证,实现“1+1 > 2”的效果。
  3. 知识迁移 (Knowledge Transfer): 在一个模态上学习到的知识,应能辅助对另一个模态的理解。

为了实现这一宏伟目标,研究者们主要探索了两大技术路径:

  • 对齐表示 (Aligned Representation): 这种策略允许每个模态保留自己的“方言”(即独立的表示空间),但致力于让这些“方言”之间能够相互“翻译”。它通过特定的学习目标,使得不同模态的表示在某个共享的投影空间中能够对齐。 在这里插入图片描述

  • 联合表示 (Joint Representation): 这种策略则更具雄心,它致力于创造一种所有模态都必须学习的“世界语”。它将来自不同模态的信息映射到同一个、共享的表示空间中进行深度交互和融合。 在这里插入图片描述

接下来,我们将深入剖析这两种策略的核心原理和代表性工作。

5.2 对齐表示范式:对比学习的优雅与力量

对齐表示范式的核心思想是,我们不需要强迫所有模态使用完全相同的编码器或表示空间,而是专注于学习一个度量空间,在这个空间里,我们可以有效地判断来自不同模态的两个样本是否描述的是同一件事物。近年来,对比学习 (Contrastive Learning) 以其优雅的数学形式和强大的无监督/自监督学习能力,成为了实现这一目标的王牌技术。

5.2.1 核心思想:“物以类聚,人以群分”——对比学习的哲学与机制

对比学习的哲学非常直观:在学习到的表示空间中,语义上**相似的样本对(正样本)应该被“拉近”,而语义上不相似的样本对(负样本)**应该被“推远”。

  • InfoNCE损失函数深度解读: InfoNCE (Noise Contrastive Estimation) 损失是对比学习最常用的目标函数之一。对于一个给定的样本(称为“锚点”,anchor),我们有一个与之配对的正样本和许多不配对的负样本。InfoNCE损失的目标可以看作是一个多分类问题:模型需要从包含一个正样本和多个负样本的集合中,准确地“识别”出那个唯一的正样本。其数学形式通常为:

    Loss = -log(exp(sim(anchor, positive) / τ) / Σ[exp(sim(anchor, sample_i) / τ)])

    其中,sim()是相似度函数(通常是余弦相似度),τ温度系数 (temperature)。温度系数是一个关键的超参数,它用于调节模型对难负样本的关注程度。较低的温度会放大相似度得分的差异,使得模型更努力地区分那些与锚点较为相似的负样本,从而学习到更精细的表示。

  • 数据驱动的本质: 对比学习的成功在很大程度上依赖于海量、高质量的配对数据。正负样本对的构建是其核心。在多模态领域,最常见的便是利用天然存在的图文对(例如,网页上的图片及其附带的说明文字)作为正样本,而将一个图片与其他不相关的文本配对作为负样本。

5.2.2 里程碑模型深度解析:CLIP (Contrastive Language-Image Pre-training)

OpenAI于2021年发布的CLIP模型,是对比学习在视觉-语言领域应用的典范,其影响力至今不减。
在这里插入图片描述

  • 架构的简洁之美: CLIP采用了极其简洁的双塔结构 (Dual-Tower Architecture)。一个塔是图像编码器(可以是ResNet或ViT),负责将输入的图像编码为一个特征向量;另一个塔是文本编码器(通常是Transformer),负责将输入的文本编码为另一个特征向量。两个编码器独立工作,目标是学习将图像和其对应的文本描述投影到同一个多模态嵌入空间中。
  • 零样本迁移的“魔法”探源: CLIP最令人惊叹的能力是其强大的零样本迁移 (Zero-shot Transfer)。例如,在进行图像分类时,我们无需为CLIP提供任何带标签的训练样本。只需将所有待分类别的名称构建成文本提示(例如,“a photo of a cat”, “a photo of a dog”),然后将待分类的图像分别与这些文本提示计算其在嵌入空间中的余弦相似度。相似度最高的那个文本提示所对应的类别,即为模型的预测结果。
    这种“魔法”的根源在于,CLIP通过在4亿个从互联网收集的、带有噪声的图文对上进行对比学习,已经学习到了一个非常鲁棒的、对齐了广泛视觉概念和自然语言描述的共享语义空间。它不再是学习识别特定的、预先定义好的类别,而是学习视觉与语言之间的根本关联
  • CLIP的“阿喀琉斯之踵”: 尽管强大,CLIP并非全能。它在一些需要细粒度理解的任务上表现不佳,例如精确计数物体数量、理解复杂的空间关系(如“把红色的方块放在蓝色球体的左边”)、或识别抽象概念。此外,其性能高度依赖于预训练数据的规模和质量,并且可能继承数据中存在的社会偏见。
5.2.3 CLIP生态与技术演进:超越图文,绑定万物

CLIP的成功激发了大量后续工作,不断拓展着对齐表示的边界:

  • 效率与鲁棒性优化: 如Google的SigLIP 通过改用更简单的Sigmoid损失函数,在保持性能的同时提升了训练效率和稳定性。Meta的FLIP (Fast Language-Image Pre-training) 则通过在预训练时掩码部分图像块,显著加快了训练速度。

  • 绑定万物:ImageBind的革命性思想
    核心问题: 我们如何才能对齐那些没有大规模直接配对数据的模态?例如,我们很难找到海量的(声音,深度图)配对数据。
    ImageBind的解决方案: Meta AI的ImageBind提出了一个极具革命性的思想:利用图像作为一种“通用语言”或“中心枢纽 (central pivot)”。由于图像数据在互联网上最为丰富,并且常常与其他模态(如文本、音频)共现,ImageBind假设可以利用图像作为桥梁,间接地对齐多种模态。它使用一个共享的图像编码器,并为其他每种模态(文本、音频、深度、热力图、IMU)都训练一个独立的编码器,训练目标是让每种模态的表示都与其配对的图像表示在嵌入空间中对齐。在这里插入图片描述

    惊人的是,一旦训练完成,即使某些模态之间从未在训练中“见过面”(例如音频和深度图),它们的表示也因为都与图像对齐而自动地在同一个共享空间中对齐了。这意味着,我们可以直接用一段音频去检索一张深度图,或者用文本描述生成一段符合语义的音频(通过引导生成模型)。ImageBind极大地拓展了多模态表示学习的想象空间。

5.3 联合表示范式:Transformer驱动的深度融合

与对齐表示范式不同,联合表示 (Joint Representation) 的目标更为宏大:它试图将来自不同模态的信息**“熔于一炉”**,在一个共享的模型架构中进行深度交互和融合,学习到一个统一的多模态表示。近年来,Transformer以其强大的序列建模和注意力机制,成为了实现这一目标的最佳载体。
在这里插入图片描述

5.3.1 核心思想:“熔于一炉”的统一序列建模
  • Tokenization的挑战: 要将多模态信息输入给Transformer,首要任务是将所有模态的数据都转化为统一的Token序列。对于文本,这相对直接(如WordPiece)。对于图像,通常借鉴ViT的思想,将其分割成一系列图块 (Patches),然后将每个图块线性投影为一个视觉Token。
  • 模态信息的区分: 为了让模型知道一个Token是来自图像还是文本,通常会引入模态类型嵌入 (Modality Type Embeddings),将其与每个Token的嵌入相加,类似于BERT中区分两个句子的Segment Embeddings。
5.3.2 主流架构的演进与设计权衡
  • 单流架构 (Single-Stream):ViLT的极简主义在这里插入图片描述
    • 设计哲学: ViLT (Vision-and-Language Transformer) 采取了一种极其简洁的策略。它直接将视觉Token序列和文本Token序列拼接在一起,然后喂给一个标准的、共享的Transformer编码器。它尽可能地减少了针对特定模态的复杂设计。
    • 优点与代价: 这种设计的优点是简洁、高效。但代价是,由于缺乏深度的单模态处理阶段,它可能无法像更复杂的模型那样充分提取各模态的细致特征,性能上可能有所牺牲。
  • 双流+跨模态交互架构 (Dual-Stream with Cross-Attention):LXMERT/UNITER的深度交互在这里插入图片描述
    • 设计哲学: 这类模型认为,在进行深度融合之前,应该先让各模态通过独立的编码器进行充分的“自我理解”。例如,LXMERT包含一个专门的语言编码器、一个专门的物体关系编码器(用于视觉),以及一个核心的跨模态编码器
    • 跨模态注意力 (Cross-Attention): 跨模态编码器是这类模型的核心。它包含多层交错的注意力层,例如,一层自注意力用于更新文本表示,一层跨模态注意力允许更新后的文本表示去“关注”视觉表示,另一层自注意力用于更新视觉表示,再一层跨模态注意力允许更新后的视觉表示去“关注”文本表示。通过这种反复、深度的交互,模型能够学习到复杂的跨模态关联。
    • 优点与代价: 性能通常非常强大,但在模型结构上更复杂,参数量和计算开销也更大。
5.3.3 走向更强大的统一模型:BLIP与BEiT-3的创新
  • BLIP系列的核心创新:Q-Former深度剖析在这里插入图片描述

    核心问题: 在后续的MLLM中,我们通常会使用一个强大的、预训练好的、但参数“冻结”的视觉编码器。它的输出通常是变长的视觉特征序列。而语言模型则期望接收固定长度的、语义浓缩的输入。如何在这两者之间高效地传递信息?
    Q-Former的工作机制: BLIP-2中提出的Q-Former是一个巧妙的解决方案。它是一个小型的Transformer,引入了一组可学习的查询向量 (learnable queries)。这些查询向量像一群“信息侦察兵”,通过交叉注意力机制去“审问”来自冻结视觉编码器的大量视觉特征,并从中“提取”出与文本最相关的、固定数量的视觉摘要信息。这些摘要信息随后被送入语言模型。Q-Former充当了一个高效的、可学习的“信息瓶颈”或“摘要器”,极大地提升了视觉与语言融合的效率和效果。

  • BEiT-3的统一预训练范式
    BEiT-3则将统一建模的思想推向了极致。
    在这里插入图片描述
    核心思想: 它将所有模态(文本、图像、图文对)都视为一种“语言”,并通过一个统一的掩码数据建模 (Masked Data Modeling) 任务进行端到端预训练。
    Multiway Transformer的架构设计: 它在一个共享的骨干网络中,为不同模态和任务巧妙地设计了不同的“专家”模块和共享的自注意力层,从而能够在一个模型中无缝地处理单模态(如图像分类、文本表示)和多模态(如VQA、图文检索)任务,是统一建模思想的重要代表。

5.4 “以创生悟”:生成式表示学习的新视角

除了对比和联合这两种主流范式,生成式学习 (Generative Learning) 也为多模态表示学习提供了另一种独特的、但同样强大的视角。其核心思想是:一个能够高质量地从一种模态生成另一种模态的模型,其内部必然学习到了深刻的跨模态表示。 创造的过程本身,就是一种深刻的理解。

  • CoCa (Contrastive Captioner)的巧妙结合:CoCa模型完美地体现了“鱼与熊掌兼得”的智慧。它在一个统一的Encoder-Decoder框架下,同时进行了两种学习:在这里插入图片描述
    1. 对比学习: 其编码器部分的输出被用于进行图文对比学习(类似于CLIP),以学习对齐的表示。
    2. 生成式学习: 其解码器部分则是一个自回归模型,负责根据图像编码生成对应的文本描述(Captioning)。
      通过这种方式,CoCa既学习到了强大的对齐表示,又具备了生成能力,其学到的表示在多个任务上都表现出色。
  • 基于VAE/GAN的表示学习简介: 虽然不是当前最主流的方法,但基于变分自编码器(VAE)学习共享的潜空间,或利用**生成对抗网络(GAN)**进行跨模态转换,都在特定场景下展示了学习多模态表示的潜力。
  • 与扩散模型的联系: 尽管扩散模型主要以其惊人的生成能力著称,但其核心的U-Net编码器在逐步去噪的过程中,为了预测噪声,必须深刻理解输入的条件(如文本描述)和当前的图像状态。因此,其学到的中间层特征表示,也蕴含了丰富的多模态语义信息,具有作为高质量特征提取器的巨大潜力。

5.5 评估的量尺:如何科学地衡量多模态表示的质量?

学习到了各种多模态表示(Embedding),我们如何知道它们的好坏?这是一个复杂但至关重要的环节。评估方法大致可以分为两类:

5.5.1 内在评估 (Intrinsic Evaluation):直击表示空间本身
  • 线性探查 (Linear Probing): 冻结学习到的多模态表示,只在其上训练一个简单的线性分类器来完成某个任务。如果线性分类器能取得好成绩,说明表示本身具有良好的“可分性”和语义信息。
  • t-SNE/UMAP可视化: 将高维嵌入降维到二维或三维进行可视化,直观地观察来自不同模态但语义相似的样本(如一张狗的图片和“a photo of a dog”这句话)是否在空间中聚类。
  • 跨模态相似性度量: 在一个保留的测试集上,计算所有图文对的相似度得分。一个好的表示应该使得匹配的正样本对的得分远高于不匹配的负样本对。
5.5.2 外在评估 (Extrinsic Evaluation):通过下游任务性能进行“实战演练”

这是目前最主流的评估方式,即看这些表示在各种下游多模态任务上的实际表现:

  • 零样本/少样本能力测试:
    • 零样本图文检索 (Zero-shot Retrieval): 用文本检索图像,或用图像检索文本。评估指标包括Recall@K(前K个结果命中正确答案的比例)、MRR(平均倒数排名)等。
    • 零样本图像分类: 直接使用文本描述(如“a photo of a [class]”)作为分类器进行分类的准确率。
  • 微调后性能测试 (Fine-tuning Performance):
    • 视觉问答 (VQA): 根据图像和问题回答。
    • 自然语言视觉推理 (NLVR²): 判断一句话是否符合一对图片所描述的场景。
    • 图像/视频描述生成 (Captioning): 评估生成描述的质量(如BLEU, CIDEr分数)。
5.5.3 评估的挑战与思考

尽管有上述方法,但评估仍面临挑战,如缺乏统一的、专门评估“表示本身质量”的黄金标准;下游任务性能受后续模型架构影响,难以完全归因于表示质量;以及对表示的鲁棒性、公平性和可解释性的评估方法尚不完善。

5.6 本章小结与承上启下:表示之基已固,静待模型之巅

在本章中,我们深入了多模态表示学习的“心脏地带”。我们从其根本挑战——“表示鸿沟”出发,系统性地剖析并对比了解决这一挑战的两大核心范式:以CLIP为代表的、追求优雅对齐的对比学习;以及以BLIP/BEiT-3等为代表的、追求深度融合的Transformer统一模型。我们理解了它们各自的设计哲学、核心机制、优势与局限,并探讨了生成式方法在其中的应用,以及如何科学地评估这些来之不易的多模态表示。

掌握了这些底层的表示学习方法,我们才真正拥有了构建复杂多模态模型的“砖瓦”和“水泥”。这些精心学习到的多模态表示,如同经过“罗塞塔石碑”翻译后的通用语义,将作为输入或中间状态,被送入更宏大、更智能的模型架构中,释放出更大的潜力。

下一部分,我们将正式进入“模型构建”的篇章。我们将首先回顾经典的融合策略,然后将目光聚焦于当前最激动人心的领域——大型多模态模型(MLLMs)。我们将看到,当这些高质量的多模态表示与强大的大型语言模型相结合时,是如何催生出令人惊叹的智能涌现的。表示之基已固,模型之巅的壮丽风光,正等待我们去探索。


内容同步在公众号:智语Bot,方便大家手机阅读

参考文献 (References)

  1. Baltrušaitis, T., Ahuja, C., & Morency, L. P. (2018). Multimodal machine learning: A survey and taxonomy. IEEE transactions on pattern analysis and machine intelligence, 41(2), 423-443.
  2. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In International conference on machine learning (ICML).
  3. Zhai, X., Mustafa, B., Kolesnikov, A., & Beyer, L. (2023). Sigmoid loss for language image pre-training. In International Conference on Computer Vision (ICCV).
  4. Girdhar, R., El-Nouby, A., Liu, Z., Singh, M., Alwala, K. V., Joulin, A., & Misra, I. (2023). Imagebind: One embedding space to bind them all. In Conference on Computer Vision and Pattern Recognition (CVPR).
  5. Kim, W., Son, B., & Kim, I. (2021). Vilt: Vision-and-language transformer without convolution or region supervision. In International conference on machine learning (ICML).
  6. Tan, H., & Bansal, M. (2019). LXMERT: Learning cross-modality encoder representations from transformers. In Conference on Empirical Methods in Natural Language Processing (EMNLP).
  7. Chen, Y. C., Li, L., Yu, L., Kholy, A. E., Ahmed, F., Gan, Z., … & Liu, J. (2020). Uniter: Universal image-text representation learning. In European conference on computer vision (ECCV).
  8. Li, J., Li, D., Savarese, S., & Hoi, S. (2023). Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International Conference on Machine Learning (ICML).
  9. Wang, W., Bao, H., Dong, L., Bjorck, J., Peng, Z., Liu, Q., … & Wei, F. (2022). Image as a foreign language: Beit pretraining for all vision and vision-language tasks. arXiv preprint arXiv:2208.10442.
  10. Yu, J., Wang, Z., Vasudevan, V., Yeung, S., Seyedhosseini, M., & Wu, Y. (2022). Coca: Contrastive captioners are image-text foundation models. arXiv preprint arXiv:2205.01917.
  11. Du, Y., Li, Z., Liu, Z., Yuan, Z., Zhao, L., & Li, S. (2022). A survey of vision-language pre-trained models. ACM Computing Surveys (CSUR), 55(9), 1-39.
  12. Li, Y., Yang, J., Song, Y., & Hospedales, T. (2023). A Comprehensive Survey of Recent Advancements in Deep Multimodal Learning. arXiv preprint arXiv:2305.19703.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

(initial)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值