qq_40257134-CSDN博客

原创笔记DriveDreamer v2

此外，不同的条件对驾驶视频生成的影响也被探讨，DriveDreamer-2即使在没有任何图像条件的情况下也能生成具有竞争力的结果，并展现出最高的多样性。论文最后讨论了DriveDreamer-2的创新性和优势，它不仅能够生成用户定制的驾驶视频，还能通过生成的视频增强驾驶感知方法的训练。论文首先指出，世界模型在自动驾驶领域的重要性，尤其是在多视角驾驶视频的生成上。，包括车辆的cut in，行人的横穿等轨迹的生成，还有保存轨迹等通用工具函数，然后通过大语言模型分析用户输入的需求，生成由这些组件函数组成的。

2025-01-13 10:06:07 962

原创笔记DriveDreamerv1

DriveDreamer通过结合扩散模型和两阶段训练流程，成功地从真实世界驾驶场景中构建了世界模型。创新之处在于首次将扩散模型应用于真实世界的自动驾驶任务中，提高了驾驶视频生成和驾驶策略预测的质量和可控性。应用前景：为自动驾驶系统的训练和优化提供了新的方法和思路，特别是在处理复杂和多样化的驾驶场景时具有优势。

2025-01-10 14:17:40 846

原创 VILT：Vision-and-Language Transformer

CLIP: VE(vit) = TE(trans) > MI(cossimilar)（擅长抽特征，image-text retrieva，不擅长VQA，vision reasoning）最简单的VLP模型（没有目标检测的模型，只有transformer做融合），模型参数少，计算时间快。2.预训练的图像网络表达能力有限，受视觉embedder和预定义的视觉词典限制。离散型的图片表达，以bounding box的形式，有明确的语义信息。对于分类任务，ViLT时间快，表现也不差（上图表示多模态分类任务）

2025-01-07 10:23:15 872