soulmode-CSDN博客

翻译【论文翻译】OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving—用于端到端自动驾驶的开源多模态模型

摘要 OpenEMMA提出了一种基于开源多模态大语言模型（MLLMs）的端到端自动驾驶框架，通过思维链推理提升复杂场景下的决策能力。该方法整合视觉输入与历史驾驶状态，分解轨迹规划为可解释的速度和曲率预测，并引入微调YOLO模型增强目标检测。实验在nuScenes数据集上验证了框架的有效性，相比零样本基线显著降低轨迹误差（如LLaVA-1.6模型降低30%），但未微调的MLLMs性能仍受限。开源代码旨在推动社区协作，解决自动驾驶泛化与资源依赖问题。

2025-07-08 12:55:11 3

翻译【论文翻译】LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving —用于自动驾驶的轻量级端到端多模态模型

本文介绍了LightEMMA，一个用于评估视觉-语言模型（VLM）在自动驾驶中性能的轻量级端到端框架。我们使用该框架，通过思维链提示策略，在nuScenes数据集上对12个主流VLM进行了系统性评估。实验结果表明，尽管VLM展现出强大的场景理解能力，但在推理速度、成本和预测准确性方面仍存在显著局限。其预测精度甚至不优于简单的基线模型，且在复杂场景下决策不稳定，存在安全隐患。研究强调，未来需要开发针对驾驶领域的专用模型或进行领域微调，以提升VLM在自动驾驶任务中的实用性和可靠性。

2025-07-07 12:36:21 5

翻译【论文翻译】Embodied navigation-具身导航

具身导航是一种新兴的导航范式，通过物联网（IoT）和人工智能（AI）技术，使移动物体能够与物理世界交互，获取局部地图、定位物体并优化导航路线。本文系统综述了具身导航的研究进展，涵盖感知、导航、效率优化及其赋能的任务。感知部分探讨了几何感知和语义理解，导航部分分析了基于几何和学习增强的方法，效率优化部分讨论了延迟、能效和鲁棒性改进策略。具身导航赋能的任务包括自动驾驶、辅助机器人、仿生应用等。尽管具身导航前景广阔，但仍面临真实世界适用性、多智能体协作、仿生神经架构等挑战，需进一步研究以推动通用自主系统的发展。

2025-05-09 15:01:51 81

翻译【论文翻译】 OmniTracker: Unifying Visual Object Tracking by Tracking-With-Detection

视觉对象跟踪 (VOT) 旨在估计视频序列中目标对象的位置，这是一项重要的视觉任务，在现实世界中有多种应用。根据目标对象的初始状态是由第一帧中提供的标注指定还是由类别指定，VOT 可分为实例跟踪（例如，SOT 和 VOS）和类别跟踪（例如，MOT、MOTS 和 VIS）任务。不同的定义导致了这两种任务类型的解决方案各不相同，从而造成了冗余的训练开销和参数开销。

2025-05-08 22:50:13 112

翻译【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型（二）

我们的实验评估包括直接评估实验（将我们的基础（预训练）模型与通过直接提示的其他模型设计进行比较），以及详细的微调实验（在具挑战性的下游任务上评估我们的模型，并将其与文献中提出的用于灵巧操作的其他方法进行比较）。我们研究以下研究问题：在我们第一组实验中，我们在完整的混合数据集上进行预训练后，不进行任何后训练，评估模型，以考察我们的基础模型执行各种任务的能力。我们与文献中的其他机器人基础模型进行比较：包括VLA模型和在相同预训练混合数据集上从头开始训练的较小模型。我们在以下任务上进行评估（如图6所示），每个任务

2025-05-07 18:21:12 99

翻译【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型（一）

机器人学习具有巨大潜力，有望释放灵活、通用和灵巧机器人系统的全部潜能，并解决人工智能领域一些最深层次的问题。然而，将机器人学习提升到有效现实世界系统所需的通用性水平，在数据、泛化性和鲁棒性方面面临着主要障碍。在本文中，我们讨论了通用机器人策略（即机器人基础模型）如何能够应对这些挑战，以及我们如何能够为复杂且高度灵巧的任务设计有效的通用机器人策略。我们提出了一种新颖的流匹配架构，该架构构建于预训练的视觉语言模型（VLM）之上，以继承互联网规模的语义知识。

2025-05-06 23:12:06 112

翻译【论文翻译】An Efficient Solution to Non-Minimal Case Essential Matrix Estimation（二）

（分支点[36]）：设。

2025-01-17 20:00:00 79

翻译【论文翻译】An Efficient Solution to Non-Minimal Case Essential Matrix Estimation（一）

—在两幅校准图像之间找到相对姿态是计算机视觉中的一个基本任务。给定五个点对应关系，经典的五点法可以高效地计算本质矩阵。对于。

2025-01-17 19:59:28 69

翻译【论文翻译】OpenCalib: A Multi-sensor Calibration Toolbox for Autonomous Driving

准确的传感器校准是自主车辆多传感器感知和定位系统的前提条件。传感器的内参校准旨在获得传感器内部的映射关系，而外参校准则是将两个或多个传感器转化为统一的空间坐标系统。大多数传感器在安装后需要进行校准，以确保传感器测量的准确性。为此，我们推出了OpenCalib，一个包含丰富的多种传感器校准方法的工具箱。OpenCalib覆盖了不同应用场景下的手动校准工具、自动校准工具、工厂校准工具和在线校准工具。同时，为了评估校准精度并随后提高校准算法的准确性，我们发布了相应的基准数据集。

2024-09-28 18:18:07 563

翻译【论文翻译】OpenCalib: A multi-sensor calibration toolbox for autonomous driving

准确的传感器校准是自主车辆多传感器感知的先决条件。尽管有许多与传感器校准相关的开源项目，但大多数是为特定传感器或应用场景设计的。为此，我们提出了OpenCalib，一个具有丰富传感器校准方法的工具箱，专为自主驾驶车辆设计。OpenCalib覆盖了最常用的传感器，包括LiDAR、相机、IMU、雷达以及不同的应用场景，包括基于道路场景的手动和自动校准、生产线上的校准以及在线校准。据我们所知，OpenCalib是首个专门为自主车辆设计的完整开源校准工具箱。

2024-09-28 16:45:10 302

翻译【二】Deep learning and multi-modal fusion for real-time multi-object tracking

为了克服这一限制，文献[133]的作者提出了一种结合多通道特征和可学习图匹配的跟踪算法，基于并行图模型处理帧内目标的外观特征，并更高效地处理轨迹之间的复杂关系。文献[141]的作者提出了一种中间多模态融合方法。此外，文献[30]的作者提出了一种基于Siamese网络的多模态、多层次融合模型，该模型专门用于RGB-T目标跟踪中的特征或像素级融合，显著提高了跟踪性能。本节详细介绍了多模态融合的几种主要方法，包括多模态融合的层次分析、多模态融合技术的分类及其在MOT算法中的应用，以及多模态数据类别及其融合方法。

2024-09-13 16:10:39 414

翻译【论文翻】Deep learning and multi-modal fusion for real-time multi-object tracking

实时多目标跟踪（MOT）是一项复杂的任务，涉及到检测和跟踪多个目标。目标被检测到后，会被分配标记，并实时跟踪其轨迹。科学界对在智慧城市背景下利用MOT技术的可能性充满了兴趣。其主要关注领域包括智能交通、车辆和行人检测、人员监控以及公共安全。近年来，深度学习技术的发展使得有效应对实时MOT任务的挑战并提高跟踪性能成为可能。智慧交通应用中的环境感知在很大程度上依赖于传感器数据融合。在交通场景中，一个深思熟虑的方法是利用传感器和摄像头的组合来检测和跟踪目标，同时有效地收集有价值的数据。

2024-09-13 15:38:21 659

翻译【论文翻译】A measurement fusion algorithm of sensors angle association for multi-target tracking-第二部分

不同类型传感器之间的多目标跟踪在充分利用各种类型的测量数据方面面临巨大挑战。为此，本文提出了一种基于角度关联（AA）的单个主动传感器与多个被动传感器（SAMPS）测量融合算法，称为SAMPS-AA算法，用于多目标跟踪。首先，为了缩小关联范围，提出了一种有效的筛选算法，用于提取两种传感器的公共角度测量数据。然后，通过基于角度测量的统计方法，开发了一种错误关联组的排除策略。随后，通过基于最小二乘法（LS）的角度关联，获得融合测量数据的坐标。最后，利用主动传感器的测量特性，提出了另一种错误测量点的排除策略。实验结

2024-09-07 12:45:39 268 1

翻译【论文翻译】A measurement fusion algorithm of sensors angle association for multi-target tracking-第一部分

不同类型传感器之间的多目标跟踪在充分利用各种类型的测量数据方面面临巨大挑战。为此，本文提出了一种基于角度关联（AA）的单个主动传感器与多个被动传感器（SAMPS）测量融合算法，称为SAMPS-AA算法，用于多目标跟踪。首先，为了缩小关联范围，提出了一种有效的筛选算法，用于提取两种传感器的公共角度测量数据。然后，通过基于角度测量的统计方法，开发了一种错误关联组的排除策略。随后，通过基于最小二乘法（LS）的角度关联，获得融合测量数据的坐标。最后，利用主动传感器的测量特性，提出了另一种错误测量点的排除策略。实验结

2024-08-31 14:18:10 165

翻译【论文翻译】Multi-modal Visual Tracking Based on Textual Generation——多模态基于文本生成的视觉跟踪

由于其广泛的潜在应用，多模态跟踪引起了极大的关注。现有的多模态跟踪方法通常在RGB跟踪的基础上融合不同视觉模态的数据。然而，仅仅关注视觉模态是不够的，因为跟踪数据的匮乏。受大模型最近成功的启发，本文提出了一种基于文本生成的多模态视觉跟踪（MVTTG）方法，以解决缺乏语言信息和忽略目标与搜索区域之间语义关系的视觉跟踪局限性。为此，我们利用大模型生成图像描述，使用这些描述提供关于目标外观和运动的补充信息。

2024-07-26 18:19:27 368

翻译【SIFT介绍】Scale-Invariant Feature Transform——尺度不变特征变换（四）

许多实际应用需要在一张或多张图像中定位参考位置，例如图像对齐、去除畸变、物体跟踪、3D重建等。我们已经看到，角点可以相当可靠地定位，并且不依赖于方向。然而，典型的角点检测器仅提供每个候选点的位置和强度，它们不提供任何有关其特征或“身份”的信息，这些信息可以用于匹配。另一个限制是大多数角点检测器仅在特定尺度或分辨率下工作，因为它们基于一组固定的滤波器。本章介绍了局部特征检测的尺度不变特征变换（SIFT）技术，该技术最初由D. Lowe [152]提出，并自此成为成像行业的“主力”方法。

2024-07-12 15:13:29 146

翻译【SIFT介绍】Scale-Invariant Feature Transform——尺度不变特征变换（三）

许多实际应用需要在一张或多张图像中定位参考位置，例如图像对齐、去除畸变、物体跟踪、3D重建等。我们已经看到，角点可以相当可靠地定位，并且不依赖于方向。然而，典型的角点检测器仅提供每个候选点的位置和强度，它们不提供任何有关其特征或“身份”的信息，这些信息可以用于匹配。另一个限制是大多数角点检测器仅在特定尺度或分辨率下工作，因为它们基于一组固定的滤波器。本章介绍了局部特征检测的尺度不变特征变换（SIFT）技术，该技术最初由D. Lowe [152]提出，并自此成为成像行业的“主力”方法。

2024-07-11 21:36:10 106

翻译【SIFT介绍】Scale-Invariant Feature Transform——尺度不变特征变换（二）

许多实际应用需要在一张或多张图像中定位参考位置，例如图像对齐、去除畸变、物体跟踪、3D重建等。我们已经看到，角点可以相当可靠地定位，并且不依赖于方向。然而，典型的角点检测器仅提供每个候选点的位置和强度，它们不提供任何有关其特征或“身份”的信息，这些信息可以用于匹配。另一个限制是大多数角点检测器仅在特定尺度或分辨率下工作，因为它们基于一组固定的滤波器。本章介绍了局部特征检测的尺度不变特征变换（SIFT）技术，该技术最初由D. Lowe [152]提出，并自此成为成像行业的“主力”方法。其目标是定位能够鲁棒识别

2024-07-11 21:33:58 93

soulmode的博客