- 博客(4)
- 收藏
- 关注
原创 笔记DriveDreamer v2
此外,不同的条件对驾驶视频生成的影响也被探讨,DriveDreamer-2即使在没有任何图像条件的情况下也能生成具有竞争力的结果,并展现出最高的多样性。论文最后讨论了DriveDreamer-2的创新性和优势,它不仅能够生成用户定制的驾驶视频,还能通过生成的视频增强驾驶感知方法的训练。论文首先指出,世界模型在自动驾驶领域的重要性,尤其是在多视角驾驶视频的生成上。,包括车辆的cut in, 行人的横穿等轨迹的生成,还有保存轨迹等通用工具函数,然后通过大语言模型分析用户输入的需求,生成由这些组件函数组成的。
2025-01-13 10:06:07
962
原创 笔记DriveDreamerv1
DriveDreamer通过结合扩散模型和两阶段训练流程,成功地从真实世界驾驶场景中构建了世界模型。创新之处在于首次将扩散模型应用于真实世界的自动驾驶任务中,提高了驾驶视频生成和驾驶策略预测的质量和可控性。应用前景:为自动驾驶系统的训练和优化提供了新的方法和思路,特别是在处理复杂和多样化的驾驶场景时具有优势。
2025-01-10 14:17:40
846
原创 VILT:Vision-and-Language Transformer
CLIP: VE(vit) = TE(trans) > MI(cossimilar)(擅长抽特征,image-text retrieva,不擅长VQA,vision reasoning)最简单的VLP模型(没有目标检测的模型,只有transformer做融合),模型参数少,计算时间快。2.预训练的图像网络表达能力有限,受视觉embedder和预定义的视觉词典限制。离散型的图片表达,以bounding box的形式,有明确的语义信息。对于分类任务,ViLT时间快,表现也不差(上图表示多模态分类任务)
2025-01-07 10:23:15
872
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人