3Ｄ视觉工坊-CSDN博客

转载告别二维！SiM3D：首个多视图多模态 3D 异常检测大杀器！

为建立基线，文章将主流单视图方法扩展到多视图 3D ADS 任务，实验结果显示，原生处理 RGB 图像的方法在两种设置下的检测和分割性能优于多模态方法，Patchcore 在多视图 3D 任务中表现最佳。我们还为异常测试样本提供了手动标注的 3D 分割真值。构建了一个新颖的多模态多视图数据集，使用顶级工业传感器和机器人采集，包含 8 种类型的 333 个实例的多视图高分辨率图像（12 Mpx）和点云（约 700 万个点），以及每种类型的 CAD 模型，并为异常测试样本提供手动标注的 3D 分割真值。

2025-07-02 07:02:16 5

转载高校教师，集体拒当“副院长”！

在学术领域，积累和经验至关重要。作为副院长，教师们不仅要承担起学院建设、学生管理等繁重的行政工作，同时还要兼顾自身的科研任务，在行政与科研之间找到平衡点。通常而言，副院长们往往被赋予了分管的具体业务，包括教学、科研、人事、党政等方面，但最终的拍板权还是在院长手上。没有了琐碎的行政事务和复杂的人际关系牵绊，他们可以自由选择在教学或科研上投入更多精力，更加专注于自己的学术领域，追求更高的学术成就。担任副院长，不仅会对教师的学术生涯带来影响，更在无形中重塑了他们的日常生活和工作模式，带来一系列“隐形负担”。

2025-07-02 07:02:16 8

转载 RSS‘25 Best Student Paper Finalist！突破机器人模仿学习的上限！

人类能够使用视觉和触觉完成很多复杂的任务（e.g.水果削皮），但是这些contact-rich任务对机器人却很难。如何通过视觉-触觉/力觉融合的模仿学习让机器人更加灵巧？本次分享，我们将会介绍从硬件、数据、算法三个维度同时优化的机器人系统，进一步突破机器人操作能力的边界。他的主要研究方向为机器人模仿学习、触觉/力觉感知、柔性物体操作等。算法-Reactive Diffusion Policy (RDP) 视觉-触觉/力觉融合的模仿学习算法。如果您有相关工作需要分享，欢迎文末联系我们。3D视觉工坊哔哩哔哩。

2025-07-02 07:02:16 9

转载 IROS 2025｜RoboSense 机器人感知挑战赛正式开启，五大任务赛道，万元奖金等你来战！

机器人系统正逐步走出实验室，进入真实世界。现有模型鲁棒性与泛化能力亟待提升。为此，RoboSense Challenge 2025 设立五大真实世界任务，全面评估机器人在复杂场景下的感知理解与决策能力，推动多模态、多任务感知系统的创新研究与落地部署。任务目标：训练一个 3D 感知模型，在多个 LiDAR 安装条件下保持一致性能，支持检测与语义分割子任务，具备强部署适应性与结构稳定性。面向真实世界的机器人感知评测任务，五大核心赛道、全链路挑战体系，聚焦多模态感知、任务泛化与系统稳健性，全球征集解决方案。

2025-07-01 07:04:09 18

转载 RA-L‘25开源 | 北理工&清华新作ActiveSplat：主动高保真场景重建+3D高斯泼溅新突破！

ActiveSplat的核心思想是利用高斯泼溅技术实现实时的三维重建与环境探索，并采用混合地图表示，融合了密集的预测信息和稀疏的拓扑抽象，从而在探索效率与重建精度之间取得良好的平衡。该系统依托基于高斯泼溅的可微渲染器，实现了高精度的密集场景预测，并结合 Voronoi 图提取工作空间抽象，设计出混合地图表达与基于拓扑的分层路径规划策略，在探索效率与重建完整性之间实现了良好平衡。系统实现了高分辨率、逼真的新视角渲染，重建的三维模型细节丰富，且探索路径更加高效，避免了传统方法中的重复轨迹。

2025-07-01 07:04:09 3

转载机械臂抓取项目实战！基于KW-3D相机！

PickWiz是苏州三迪斯维推出的一款为工业视觉引导任务定制的全新一代视觉引导抓取软件，搭载3D视觉大模型，适用于拆垛、无序抓取、有序上下料、单目标精准定位等多种工业自动化场景，通过零代码、零编程的设计，有效降低视觉引导抓取软件的学习门槛，大幅缩短交付周期。苏州三迪斯维的KW系列相机，配合搭载3D视觉大模型的工业视觉软件PickWiz，最快5分钟完成视觉配置，有效应对各种室内环境，满足各种拆码垛、抓取、上下料等工业自动化场景。KW-LUMOS-W 高反光物体有序上下料。KW-LCW 无序抓取黑色物体。

2025-06-30 18:37:25 39

转载 ICCV‘25 Hi3DGen开源 | 法线为桥：为高清三维几何生成另辟蹊径

香港中文大学(深圳)GAP实验室在读博士, 师从韩晓光教授。近期专注于三维基础模型和三维表征学习，以促进三维空间重建和生成的发展。主导的多个开源项目在Github上获得千stars以上关注, 曾担任CVPR,ICCV,SiggraphAsia,TVCG等学术期刊及会议审稿人。：3D视觉工坊很荣幸邀请到香港中文大学(深圳)GAP实验室在读博士。3D视觉工坊很荣幸邀请到香港中文大学(深圳)GAP实验室在读博士。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。

2025-06-30 07:04:09 20

转载 LLM&点云&物理引导！DexGrasp Anything：340 万抓取姿态数据实现通用灵巧抓取！

然而，由于灵巧手的自由度高以及物体的多样性大，以稳健的方式生成高质量、可用的抓取姿势是一项重大挑战。此外，我们还提供了一个新的灵巧抓取数据集，其中包含超过340万个不同的抓取姿势，涉及15000多个不同的物体，展示了其在推动通用灵巧抓取方面的潜力。利用强大的大语言模型（LLM）的语义先验来补充传统的物体几何特征，通过点变换器（Point Transformer）编码物体点云，并结合LLM生成的语义特征，通过交叉注意力机制集成到扩散模型中，增强了模型生成精确和上下文相关抓取姿势的能力。

2025-06-30 07:04:09 34

转载 CIOE2025！深圳中国国际光电博览会！聚焦激光雷达、3D视觉成像、人形机器人！

目前艾迈斯欧司朗、意法半导体、滨松、芯视界、芯探科技、蓝海光电、思岚科技、锐驰智光、海飞通、国科光芯、乐动机器人、天河电子、力策科技、国微感知、微源光子、北极芯微、世瞳微电子、识光芯科、矽印科技、飞芯电子、长光辰芯、思特微、迅来光电、彩谱科技、灵明光子、宇称电子、循光科技、睿熙科技、瑞识科技、核芯光电、纵慧芯光、柠檬光子、映讯芯光、光引科技、米铱、翌视科技、善测科技、积高电子、高谱成像、光寻智能、国科大杭州高等研究科创中心等企业均已参展。即刻预定展位抢占商机，还可提前登记参观，领取免费证件，现场免排队！

2025-06-30 07:04:09 69

转载 ICCV‘25 Hi3DGen开源 | 法线为桥：为高清三维几何生成另辟蹊径

香港中文大学(深圳)GAP实验室在读博士, 师从韩晓光教授。近期专注于三维基础模型和三维表征学习，以促进三维空间重建和生成的发展。主导的多个开源项目在Github上获得千stars以上关注, 曾担任CVPR,ICCV,SiggraphAsia,TVCG等学术期刊及会议审稿人。：3D视觉工坊很荣幸邀请到香港中文大学(深圳)GAP实验室在读博士。3D视觉工坊很荣幸邀请到香港中文大学(深圳)GAP实验室在读博士。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎文末联系我们。

2025-06-30 07:04:09 3

转载一张图像就能导航？NWM模型带来精准轨迹预测！

提出了一种新颖的条件扩散变压器（Conditional Diffusion Transformer，CDiT），其计算复杂度与上下文帧数呈线性关系，在高达10亿参数的模型训练中，与标准的DiT相比，能显著降低计算需求，同时实现更好的未来预测结果。在未知环境中，训练未标记数据可显著提高视频预测性能。：CDiT是一种用于学习NWM的新型条件扩散变压器，其计算复杂度相对于上下文帧的数量呈线性关系，在跨不同环境和实体训练高达10亿参数的模型时具有良好的扩展性，与标准DiT相比，所需的浮点运算次数减少了4倍。

2025-06-29 00:02:16 23

转载 ICCV 2025 | TesserAct: 首个通用4D世界模型

马萨诸塞大学阿默斯特分校博士生，师从Chuang Gan教授，与Yilun Du教授合作开展研究。研究方向聚焦于具身智能、3D/4D世界模型与通用感知模型。他是TesserAct、3D-VLA、3D-LLM等工作的主要作者，论文发表于NeurIPS、ICML、ICCV等国际顶会。TesserAct 是我们提出的首个通用四维具身世界模型，可从图像与指令出发，生成具有物理一致性的 RGB、深度（Depth）与法线（Normal）视频，重建具身环境中的动态场景，并指导机器人完成复杂操作。3D视觉工坊哔哩哔哩。

2025-06-28 00:01:51 66

转载 3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提升32%

反观以PerAct，RVT-2为代表的3D操作策略，通常仅需要10条轨迹就能够取得不错的效果，因此，一个很自然的想法是，是否能将现有的2D VLA升级为3D VLA，使其同时兼具2D VLA的效果以及3D操作策略的效率？基于这些观察，BridgeVLA的研究团队提出：如果将3D输入与动作输出都统一到2D空间，同时将预训练阶段的输入和输出也统一到2D空间的话，将可以同时继承2D VLA的泛化能力与3D操作策略的数据效率。这其中的数据收集、清洗与标注需要高昂的人力成本，很难在更大规模的工业场景下落地。

2025-06-28 00:01:51 21

转载博世&清华 | CVPR2025端到端第二名DiffVLA：VLM+扩散+混合感知，解锁自动驾驶决策新范式

计算机视觉领域10+年工作经验，现为博世中央研究院（Bosch Corporate Research）高级研究员，自动驾驶感知技术专家，在环境感知与驾驶决策领域具备深厚技术积累。在CVPR 2025的NAVSIM v2 End-to-End Driving Challenge赛道中，该技术方案以45.0 EPDMS的优异成绩排在第二位。在CVPR 2025的NAVSIM v2 End-to-End Driving Challenge赛道中，该技术方案以45.0 EPDMS的优异成绩排在第二位。

2025-06-27 07:05:37 60

转载告别粗糙重建！只用一张图，就能精细还原 3D 模型？

在本文中，我们提出了一种新颖的单图像三维重建方法，称为“从单张图像中挖掘有效语义线索进行三维重建”（MESC - 3D），该方法可以主动从纠缠的特征中挖掘有效语义线索。现有单图像 3D 重建方法多聚焦于从图像提取语义信息并简单与 3D 点云拼接，未深入挖掘拼接后的语义，导致重建性能受影响，且单视图视觉信息有限，遮挡区域重建几何形状粗糙。：在 ShapeNet 数据集上，MESC - 3D 能成功恢复单图像中的遮挡区域，在有精细细节的类别中表现出色，且前景 - 背景识别准确，语义信息利用有效，结果一致性好。

2025-06-27 07:05:37 40

转载 CVPR 2025 | Qwen赋能AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

其核心创新在于将3D场景转换为2D-VLM可处理的形式，利用2D任务的强大能力解决3D问题，实现对任意物体和场景的泛化，为实际应用提供了更高效的解决方案。相关研究成果发表于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA等国际期刊和会议中，并多次入选Oral、Highlight、Spotlight展示。，这类方法依赖大规模 3D 标注数据进行训练，尽管在已知类别和场景中表现优异，但由于获取 3D 标注数据的。，实现高效、准确的 3DVG，成为当前3D视觉理解领域亟待解决的问题。

2025-06-26 07:03:02 38

转载再见NeRF！稀疏视图合成新王者NexusGS来了，3D GS拉满了！

该方法核心是点云致密化技术，包括对极深度关联（Epipolar Depth Nexus）、抗流深度融合（Flow-Resilient Depth Blending）和流过滤深度修剪（Flow-Filtered Depth Pruning）三个关键步骤，利用光流和相机参数计算准确的深度值，减少光流预测不准确的影响，实现可靠的初始密集点云覆盖，支持在稀疏视图条件下进行稳定的3DGS训练。此外，消融实验验证了抗流深度融合和流过滤深度修剪的有效性，泛化性分析表明该方法生成的深度图和点云可有效提升其他方法的性能。

2025-06-26 07:03:02 72

转载太酷啦！一款精度高、体积小、稳定性强、SDK超好用的结构光3D相机！

采用主动结构光技术，拍摄速度快、成像精细、方案成熟稳定，针对不同应用场景物体可输出高质量点云数据图，精度高、速度快、环境自适应性强，适用于工件上下料、拆码垛、机器人视觉引导等多种应用场景。苏州三迪斯维智能科技有限公司。KW-LCW重建金属棍状物体。KW-LUMOS-W重建效果。KW-LUMOS-W重建锡纸。KW-LUMOS-W重建金属。KW-MINI重建PCB板。KW-MINI重建金属划痕。KW-P重建pin针焊锡。KW-DCW重建汽车漆面。KW-SCW重建彩色金属。KW-LCW重建金属零件。

2025-06-25 07:04:24 24

转载 VLA大一统！开放80K非结构化道路数据集：多模态CoT标注+闭环安全提升35%，DriveLM架构直接可用

研究方向为具身智能的生成式仿真，目前在清华大学智能产业研究院(AIR)实习。，为大家着重分享他们团队的工作：Impromptu VLA。如果您有相关工作需要分享，欢迎文末联系我们。，为大家着重分享他们团队的工作：Impromptu VLA。Impromptu VLA Dataset 数据展示。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。Impromptu VLA 开环闭环评测结果展示。：3D视觉工坊很荣幸邀请到清华大学。3D视觉工坊很荣幸邀请到清华大学。3D视觉工坊哔哩哔哩。

2025-06-25 07:04:24 22

转载 YOLOv13震撼来袭！清华提出基于超图增强的实时目标检测

因此，本研究的核心目的在于，通过引入能有效建模全局、高阶视觉关联的机制，来提升YOLO系列模型在复杂场景下的检测精度和鲁棒性。随后，通过专门的“FullPAD通道”，将这些经过高阶关联增强的特征重新分发至网络的多个关键位置，包括骨干网与颈部的连接处、颈部网络内部、以及颈部与检测头的连接处。例如，YOLOv11在保持“骨干-颈部-头部”模块化设计的同时，采用了更高效的C3k2单元，并加入了带局部空间注意力的卷积块（C2PSA），以增强对小尺寸和被遮挡目标的检测效果。：消融实验证明了核心模块的必要性。

2025-06-25 07:04:24 69

转载面了苏州三迪斯维，位姿估计很牛，当场给了offer

随着工业智能化改造的不断深入，许多企业智能化改造，逐渐将计算机视觉技术和机器人技术引入生产制造过程中，应用于生产线对物料校准和定位，将视觉系统作为机器人对外界环境感知的一种辅助定位系统，就像给工业机器人装上了眼睛，采集场景信息，由控制器进行处理、判断，进而完成对应的控制指令。机器人视觉抓取的目的是使用一个机械手模型(包括二指或多指夹爪，吸盘等)，以RGB或RGBD相机采集的场景图像为输入计算出一个最优的抓取位姿，使机械手在该位姿下可以稳定地抓取模型已知或未知的物体。对机器人抓取的相关算法原理、

2025-06-24 07:04:31 43

转载 CVPR‘25开源 | 远超4DGS！北大新作IGS：高达204 FPS的动态场景重建

其次，我们提出了一种关键帧引导的流策略，该策略细化了每个关键帧，使得能够精确重建时间上复杂的场景，同时减轻误差累积。广泛的领域内和跨领域的实验表明，我们的模型具有强大的泛化能力，在显著降低流式平均成本的同时，还能达到领先的渲染质量、渲染速度和存储效率。我们的目标是建立最小化单帧重建时间的流式动态场景建模方法。为推动流式框架的实际应用，我们提出瞬时高斯流（Instant Gaussian Stream, IGS），这是一种动态场景重建的流式方法，实现单帧2秒+的重建时间，缓解误差累积问题并提升视图合成质量。

2025-06-23 07:02:57 34

转载 CVPR‘25开源 | 远超4DGS！北大新作IGS：高达204 FPS的动态场景重建

其次，我们提出了一种关键帧引导的流策略，该策略细化了每个关键帧，使得能够精确重建时间上复杂的场景，同时减轻误差累积。广泛的领域内和跨领域的实验表明，我们的模型具有强大的泛化能力，在显著降低流式平均成本的同时，还能达到领先的渲染质量、渲染速度和存储效率。我们的目标是建立最小化单帧重建时间的流式动态场景建模方法。为推动流式框架的实际应用，我们提出瞬时高斯流（Instant Gaussian Stream, IGS），这是一种动态场景重建的流式方法，实现单帧2秒+的重建时间，缓解误差累积问题并提升视图合成质量。

2025-06-23 07:02:57 22

转载 CVPR‘25开源 | 远超4DGS！北大新作IGS：高达204 FPS的动态场景重建

其次，我们提出了一种关键帧引导的流策略，该策略细化了每个关键帧，使得能够精确重建时间上复杂的场景，同时减轻误差累积。广泛的领域内和跨领域的实验表明，我们的模型具有强大的泛化能力，在显著降低流式平均成本的同时，还能达到领先的渲染质量、渲染速度和存储效率。我们的目标是建立最小化单帧重建时间的流式动态场景建模方法。为推动流式框架的实际应用，我们提出瞬时高斯流（Instant Gaussian Stream, IGS），这是一种动态场景重建的流式方法，实现单帧2秒+的重建时间，缓解误差累积问题并提升视图合成质量。

2025-06-23 07:02:57 21

转载 CVPR‘25开源 | 远超4DGS！北大新作IGS：高达204 FPS的动态场景重建

其次，我们提出了一种关键帧引导的流策略，该策略细化了每个关键帧，使得能够精确重建时间上复杂的场景，同时减轻误差累积。广泛的领域内和跨领域的实验表明，我们的模型具有强大的泛化能力，在显著降低流式平均成本的同时，还能达到领先的渲染质量、渲染速度和存储效率。我们的目标是建立最小化单帧重建时间的流式动态场景建模方法。为推动流式框架的实际应用，我们提出瞬时高斯流（Instant Gaussian Stream, IGS），这是一种动态场景重建的流式方法，实现单帧2秒+的重建时间，缓解误差累积问题并提升视图合成质量。

2025-06-23 07:02:57 15

转载 CVPR‘25开源 | 远超4DGS！北大新作IGS：高达204 FPS的动态场景重建

其次，我们提出了一种关键帧引导的流策略，该策略细化了每个关键帧，使得能够精确重建时间上复杂的场景，同时减轻误差累积。广泛的领域内和跨领域的实验表明，我们的模型具有强大的泛化能力，在显著降低流式平均成本的同时，还能达到领先的渲染质量、渲染速度和存储效率。我们的目标是建立最小化单帧重建时间的流式动态场景建模方法。为推动流式框架的实际应用，我们提出瞬时高斯流（Instant Gaussian Stream, IGS），这是一种动态场景重建的流式方法，实现单帧2秒+的重建时间，缓解误差累积问题并提升视图合成质量。

2025-06-23 07:02:57 11

转载何恺明CVPR 2025讲座！迈向端到端生成模型

何恺明CVPR 2025讲座PPT：《迈向端到端生成模型》。· MeanFlow仍然由迭代流匹配(和扩散)驱动。· 我们还在生成模型的预AlexNet时代吗?· MeanFlow网络扮演两个角色。· 什么是端到端生成建模的良好公式?

2025-06-21 11:01:01 28

转载摊牌了！OPT奥普特！从工业自动化到智能机器人！2D/3D相机到激光雷达！

在3D测量和检测领域，OPT构建了业内少有的全系列产品线，从应用最广的线激光系列，到一次成像的高精度投影结构光系列，再到超大视野覆盖、附带彩色+深度对齐的散斑结构光系列，实现测量场景全覆盖。从纳米级的光学成像技术，到全球最小体积的CXP相机，从超10亿级的工业落地场景，到千亿级的有效缺陷数据，OPT副总裁贺珍真结合公司20年发展历程，系统回顾了OPT的光学、结构、电子、算法、软件及AI六大核心技术之间如何相互协同，构建起覆盖工业视觉、智能传感、运动控制、AI及具身智能的全栈技术体系。

2025-06-21 11:01:01 76

转载 3DGS的万能涨点神器！让任何GS方法摆脱单视图限制！

为了解决这些问题，我们修改了光栅化过程，以最小化与多视图训练相关联的开销，并提出了更适合多视图场景的3D距离感知D-SSIM损失和多视图自适应密度控制。本文介绍了一种新颖、高效的3D高斯分块(3DGS)多视角训练方法，克服了先前单视角方法的局限性我们提供了理论和实证证据，以证明多视角训练的优势，并随后提出了一种新颖的局部渲染技术，以降低计算开销;本文针对3DGS高效多视图训练的挑战提出以下解决方案：首先，从理论上分析多视图训练相较于单视图训练的优势，并通过实验验证单视图训练对性能的实际限制；

2025-06-21 11:01:01 60