自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 笔记DriveDreamer v2

此外,不同的条件对驾驶视频生成的影响也被探讨,DriveDreamer-2即使在没有任何图像条件的情况下也能生成具有竞争力的结果,并展现出最高的多样性。论文最后讨论了DriveDreamer-2的创新性和优势,它不仅能够生成用户定制的驾驶视频,还能通过生成的视频增强驾驶感知方法的训练。论文首先指出,世界模型在自动驾驶领域的重要性,尤其是在多视角驾驶视频的生成上。,包括车辆的cut in, 行人的横穿等轨迹的生成,还有保存轨迹等通用工具函数,然后通过大语言模型分析用户输入的需求,生成由这些组件函数组成的。

2025-01-13 10:06:07 962

原创 笔记DriveDreamerv1

DriveDreamer通过结合扩散模型和两阶段训练流程,成功地从真实世界驾驶场景中构建了世界模型。创新之处在于首次将扩散模型应用于真实世界的自动驾驶任务中,提高了驾驶视频生成和驾驶策略预测的质量和可控性。应用前景:为自动驾驶系统的训练和优化提供了新的方法和思路,特别是在处理复杂和多样化的驾驶场景时具有优势。

2025-01-10 14:17:40 846

原创 VILT:Vision-and-Language Transformer

CLIP: VE(vit) = TE(trans) > MI(cossimilar)(擅长抽特征,image-text retrieva,不擅长VQA,vision reasoning)最简单的VLP模型(没有目标检测的模型,只有transformer做融合),模型参数少,计算时间快。2.预训练的图像网络表达能力有限,受视觉embedder和预定义的视觉词典限制。离散型的图片表达,以bounding box的形式,有明确的语义信息。对于分类任务,ViLT时间快,表现也不差(上图表示多模态分类任务)

2025-01-07 10:23:15 872

原创 transformer代码学习

学习transformer源码过程的疑问及解答

2024-12-31 17:06:53 743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除