DRL前沿之:End to End Learning for Self-Driving Cars

NVIDIA的DAVE-2系统利用人类驾驶数据训练端到端的CNN,实现了仅凭摄像头输入就进行汽车控制。通过在车辆上额外安装摄像头并模拟3D变化生成错误样本,简化了训练过程。该系统未来有望结合增强学习进一步提升自动驾驶能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

如果大家关注上个月Nvidia GTC,那么大家应该会注意到Nvidia 老大黄仁勋介绍了他们自家的无人驾驶汽车,这个汽车的无人驾驶技术和以往的方法不一样,完全采用神经网络。这个系统取名为DAVE。
NVIDIA GTC Self-Driving Car
上面的视频需翻墙观看。

很庆幸的是,就在上周,Nvidia发表了他们的文章来介绍这个工作:
http://arxiv.org/abs/1604.07316

虽然这个工作暂时和Reinforcement Learning没有关系,但是相信他们会加上增强学习是这个无人车具备自主学习提升的能力。

Abstract

这个工作的思路可以说超级的简单,就是使用人类的驾驶数据来训练一个端到端的卷积神经网络CNN。输入是车载摄像头,输出直接是汽车的控制数据。想来这个事情在以前恐怕是难以想象的,要知道当前最先进的自动驾驶系统依然是采用标志识别,道路识别,行人车辆识别,路径规划。。。各种步骤来实现的。而现在这些通通不用,就给汽车一个图像,让汽车根据图像做判断。想想这是一个非常神奇的事情,虽然根据CNN的能力我们可以理解这是可以做到的。

那么这件事大概当前也就Nvidia可以做,因为他们有最先进的硬件Nvidia DevBox,Nvidia DRIVE PX。

那么通过训练,他们在一定程度上取得了成功。结果很重要。训练出来之后,这意味着在未来,随着性能的提升,训练的进一步强化,以及使用增强学习,未来的无人车将具备完全自己思考的能力。

DAVE-2 系统结构

这个系统叫做DAVE-2,DAVE其实是(DARPA Autonomous Vehicle的缩写,无人车比赛最早就是DARPA搞出来的)。整个硬件系统如下:

(zjfenv) C:\Users\JinfeiZhao>python D:\zjf\End-to-end-DRL-for-FJSP-main\End-to-end-DRL-for-FJSP-main\FJSP_MultiPPO\PPOwithValue.py D:\zjf\End-to-end-DRL-for-FJSP-main\End-to-end-DRL-for-FJSP-main\FJSP_MultiPPO\mb_agg.py:25: UserWarning: expandable_segments not supported on this platform (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\c10/cuda/CUDAAllocatorConfig.h:28.) elem = torch.full(size=(batch_size[0]*n_nodes, 1), D:\zjf\End-to-end-DRL-for-FJSP-main\End-to-end-DRL-for-FJSP-main\FJSP_MultiPPO\mb_agg.py:44: UserWarning: torch.sparse.SparseTensor(indices, values, shape, *, device=) is deprecated. Please use torch.sparse_coo_tensor(indices, values, shape, dtype=, device=). (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\utils\tensor_new.cpp:653.) graph_pool = torch.sparse.FloatTensor(idx, elem, D:\zjf\End-to-end-DRL-for-FJSP-main\End-to-end-DRL-for-FJSP-main\FJSP_MultiPPO\FJSP_Env.py:187: UserWarning: Creating a tensor from a list of numpy.ndarrays is extremely slow. Please consider converting the list to a single numpy.ndarray with numpy.array() before converting to a tensor. (Triggered internally at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\torch\csrc\utils\tensor_new.cpp:281.) self.adj = torch.tensor(self.adj) Traceback (most recent call last): File "D:\zjf\End-to-end-DRL-for-FJSP-main\End-to-end-DRL-for-FJSP-main\FJSP_MultiPPO\PPOwithValue.py", line 472, in <module> main(1) File "D:\zjf\End-to-end-DRL-for-FJSP-main\End-to-end-DRL-for-FJSP-main\FJSP_MultiPPO\PPOwithValue.py", line 343, in main env_adj = aggr_obs(deepcopy(adj).to(device).to_sparse(), configs.n_j * configs.n_m) ^^^^^^^^^^^^^^^^^^^^^^^^ torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 176.00 MiB. GPU 0 has a total capacity of 79.55 GiB of which 143.38 MiB is free. Of the allocated memory 77.69 GiB is allocated by PyTorch, and 909.0
03-26
<think>好的,我现在需要解决用户在运行PPOwithValue.py脚本时遇到的CUDA内存不足问题,同时还要处理PyTorch的弃用函数警告和性能问题。首先,我得先理清楚这两个主要问题的可能原因和解决办法。 对于CUDA内存不足的问题,可能的原因有几个。首先,用户可能没有正确释放不需要的张量,导致内存累积。这时候需要检查代码中是否有不必要的变量保留在内存中,比如在计算梯度后没有释放中间变量。其次,批处理大小可能设置得太大,超过了GPU的显存容量。减小批处理大小或者使用梯度累积技术可能会有帮助。另外,模型本身的规模也可能太大,可以考虑模型简化或者使用内存优化技术,比如激活检查点(activation checkpointing)。混合精度训练也是一个节省显存的方法,同时还能加速训练。如果显存实在不够,可能需要使用多GPU训练或者更强大的硬件。 接下来是PyTorch的弃用函数警告。用户需要检查代码中被标记为弃用的函数,并替换为推荐的新函数。例如,如果使用了`torch.Tensor.data`,可能需要改用`.detach()`。使用PyTorch的警告过滤器可以暂时忽略这些警告,但最好还是更新代码以避免未来兼容性问题。升级PyTorch到最新版本可能也有帮助,因为新版本通常会修复这些问题。 性能问题方面,可能涉及到数据加载器的配置。使用`DataLoader`时设置合适的`num_workers`和`pin_memory`可以提高数据加载效率,减少CPU到GPU的数据传输时间。此外,确保使用`torch.backends.cudnn.benchmark = True`可以加速卷积层的计算,但要注意如果输入尺寸变化频繁,这可能会适得其反。对于循环中的张量操作,尽量使用向量化操作而不是逐元素处理,这样可以提升计算效率。 具体到实施步骤,用户应该首先监控显存使用情况,使用`nvidia-smi`或者PyTorch的内存分析工具来定位内存泄漏点。然后逐步应用上述优化措施,比如调整批处理大小、启用混合精度训练、优化数据加载等。同时,替换弃用函数并升级PyTorch版本,确保代码的兼容性和性能。 另外,用户可能需要参考一些具体的文档或社区资源,比如PyTorch的官方内存管理指南和性能优化技巧。例如,InternLM的XTuner文档中提到的数据处理方法可能对优化数据加载有帮助[^1]。在应用这些优化后,重新运行脚本并观察显存使用情况和警告信息是否有所改善。 最后,如果问题依然存在,可能需要更深入的代码审查,或者考虑分布式训练来分摊显存压力。同时,确保所有的最佳实践都被遵循,比如及时释放不需要的张量、合理管理模型的生命周期等。</think>### 解决PyTorch CUDA内存不足与警告问题 #### 一、CUDA内存不足问题分析 1. **显存管理不足** - **原因**:未及时释放中间变量或未启用垃圾回收机制。 - **解决方法**: - 使用`with torch.no_grad()`包裹无需梯度的推理代码。 - 显式调用`del tensor`和`torch.cuda.empty_cache()`释放内存。 - 示例: ```python with torch.no_grad(): output = model(input) del intermediate_tensor torch.cuda.empty_cache() ``` 2. **批处理大小调整** - 将`batch_size`减小至显存可容纳范围,例如从`64`降为`32`。 - 使用梯度累积技术模拟大批次训练: ```python for i, data in enumerate(dataloader): loss = compute_loss(data) loss.backward() if (i+1) % accumulation_steps == 0: optimizer.step() optimizer.zero_grad() ``` 3. **混合精度训练** - 使用`torch.cuda.amp`自动管理精度: ```python scaler = torch.cuda.amp.GradScaler() with torch.autocast(device_type='cuda', dtype=torch.float16): outputs = model(inputs) loss = loss_fn(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() ``` 4. **模型优化** - 启用激活检查点(以Transformer为例): ```python from torch.utils.checkpoint import checkpoint def forward(self, x): x = checkpoint(self.layer1, x) x = checkpoint(self.layer2, x) return x ``` #### 二、PyTorch弃用警告处理 1. **替换弃用函数** - 常见替换对照: | 弃用函数 | 推荐替代 | |--------------------------|--------------------------| | `torch.Tensor.data` | `.detach()` | | `torch.symeig` | `torch.linalg.eigh` | | `torch.nonzero()` | `torch.nonzero(as_tuple)`| 2. **过滤警告(临时方案)** ```python import warnings warnings.filterwarnings("ignore", category=UserWarning, message="Deprecated function") ``` 3. **PyTorch版本升级** ```bash pip install torch torchvision --upgrade ``` #### 三、性能优化建议 1. **数据加载加速** ```python dataloader = DataLoader(dataset, batch_size=32, num_workers=4, pin_memory=True, persistent_workers=True) ``` 2. **CUDA后端优化** ```python torch.backends.cudnn.benchmark = True # 固定输入大小时启用 torch.set_float32_matmul_precision('high') # Ampere架构GPU优化 ``` 3. **向量化操作示例** ```python # 低效写法 for x, y in zip(tensor_x, tensor_y): result += x * y # 高效写法 result = torch.sum(tensor_x * tensor_y, dim=0) ``` #### 四、完整解决方案流程 1. **显存监控** - 运行脚本时实时观察显存: ```bash watch -n 0.1 nvidia-smi ``` - 使用PyTorch内存分析工具: ```python print(torch.cuda.memory_summary()) ``` 2. **逐步优化验证** - 初始配置:`batch_size=8` + 基础模型 - 优化步骤: ``` 1. 添加混合精度训练 2. 启用激活检查点 3. 升级PyTorch至2.0+ 4. 配置DataLoader多线程加载 ``` 3. **极端情况处理** - 使用CPU卸载部分计算: ```python with torch.device('cpu'): large_tensor = process_on_cpu(large_tensor) ``` #### 五、引用参考 关于数据集预处理和内存优化的更多技巧,可参考XTuner的实践文档。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值