
目标检测
文章平均质量分 91
深度学习的目标检测算法及优化
lovep1
专注如何使用数据飞轮实现模型性能的螺旋式提升
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
centernet2阅读笔记:Probabilistic two-stage detection
paper:https://arxiv.org/pdf/2103.07461.pdfcode:https://github.com/xingyizhou/CenterNet2 centernet我觉得是最优雅的框架之一,v1版本可以看我的前文,我在作者的代码上做了一个prune的版本,v2来了,非常迫不及待的学习一下,前面的DETR我都写不下去了,先来研究一下这篇paper,code是基于detectron2的,吐槽一下,现在很多代码都是基于mmdetection或者detectron2,工业..原创 2025-03-18 22:41:42 · 1578 阅读 · 0 评论 -
单目3d detection算法记录
1、centernet object as points这篇文章的核心单目3d检测主要是利用中心点直接回归出3d模型的所有属性,head共享整个backbone,其中3d属性包括:2d目标中心点、2dw和h、2d offsets、3doffsets、3d dimmession、rot还有depth。其中对应的depth是根据kitti中的外参矩阵来进行计算得到的,同时推理的也是全局角度,如下所示:KITTI 数据集 参数—— tracking devkit中的rotation_y和alp..原创 2025-03-18 22:39:34 · 1057 阅读 · 0 评论 -
Channel-wise Knowledge Distillation for Dense Prediction论文阅读
paper:https://arxiv.org/pdf/2011.13256.pdfcode:https://github.com/open-mmlab/mmrazor这篇paper主要是商汤开源的mmrazor中提及在detection有效果,我之前记录的几篇sota文章虽然在各自的paper中在detection领域都有提及有增益,但实际上在我的测试中,可能由于模型容量或者其他原因,收益都几乎不可见,但是这篇文章是商汤开源的,我认为应该具有比较好的含金量,因此再分析和实验一波。摘要:k.原创 2025-03-18 22:35:16 · 2841 阅读 · 0 评论 -
Distilling Knowledge via Knowledge Review论文和源码阅读笔记
1、paper:https://arxiv.org/pdf/2104.09044.pdf2、code:https://github.com/dvlab-research/ReviewKD思谋科技出品的paper,d2的源码,是不是考虑白嫖一波,先分析一下paper的思想原创 2021-12-01 21:48:18 · 1793 阅读 · 0 评论 -
General Instance Distillation for Object Detection 论文和源码阅读笔记
paper:https://arxiv.org/pdf/2103.02340.pdfcode:GitHub - daixinghome/Distill_GID_detectron2首先给出论文链接和源码链接,默默地发现是基于D2的代码,说不定可以白嫖一波,先写一下论文,后续再仔细研读一下源码,旷视的工作还是很良心的,重点指出的是,这篇paper和我的上一篇kd的博客的paper都是覆盖anchor-based、anchor-free的,因此我觉得算是很不错的工作。原创 2021-11-24 17:18:46 · 2848 阅读 · 0 评论 -
IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记
篇paper提到kd之所以在目标检测上的失败主要是两个原因:1、前景和背景之间的像素不平衡。 2、缺乏对不同像素之间的关系的蒸馏。基于这两个原因,本文提出了注意力引导机制和non-local机制来解决,让学生网络能够更加努力的学习teacher的模型,这样不仅能够单个像素的特征,还能够学习non-local模块捕获不同像素之间的关系,paper在one-stage、two-stage、anchor-free上都实现了ap的提升。原创 2021-11-23 19:48:06 · 2490 阅读 · 0 评论 -
knowledge distillation 综述
局提到有数种模型加速的方法:1、权重共享和剪枝2、低秩分解3、转移的紧凑卷积滤波器:这些方法通过转移去除无关紧要的参数或压缩卷积滤波器4、KD 然后摘要里面说明kd的key problem是如何将teacher模型里面的knowledge transfer到student模型,一个kd系统包括三个部分,knowledge、蒸馏算法,teacher模型。原创 2021-11-22 22:23:00 · 2611 阅读 · 0 评论 -
DETR阅读笔记和源码理解:End-to-End Object Detection with Transformers
paper:https://arxiv.org/pdf/2005.12872.pdfcode:https://github.com/facebookresearch/detr近年,transformer开始大量从NLP引入计算机视觉,使得很多工作有了新的方向,本篇paper是第一篇端到端的将transformer引入目标检测和全景分割的工作,我对这个领域也没有那么熟悉,算是一起扫盲了,如果有新的idea,可以尝试复现一波,本文将按照paper的结构进行叙述(本篇paper解读只是占个坑,我对DETR原创 2021-04-06 23:41:53 · 2090 阅读 · 0 评论 -
YOLOF-You Only Look One-level Feature阅读笔记
本文最大的贡献应该是对FPN重新进行了思考,从另外一个角度认为fpn解决的也许不是多尺度特征融合的问题,干掉了由于fpn带来的多级密集anchors带来的庞大计算量的问题,针对paper认为的fpn潜在解决的问题,paper提出了新的结构,替代fpn,使用单级featuremap预测,从而大幅度减少了计算量和训练时的迭代时间,本文将按照paper的结构进行叙述。原创 2021-04-05 00:28:58 · 1003 阅读 · 0 评论 -
详解卷积神经网络的反向传播原理-cnn反向传播、池化层的反向传播
本文详细讲解dnn和cnn的反向传播流程。其实无论是dnn还是cnn、pool层,最重要的是,我们要弄清楚反向传播的四个公式,弄清楚他们,我们就明白整个网络是如何运作和优化的,4个核心公式分别是: 1、输出层的误差方程 -这个是基础 2、误差传递方程 3、可训练参数权重w的变化率(梯度) 4、可训练参数偏置b的变化率(说到底其实网络就是在算误差,然后优化w和b,使得最后误差最小)同时理解各种层的前向推理过程,那么整个网络的流动和机制就相当清晰了。原创 2021-03-18 15:58:57 · 3663 阅读 · 0 评论 -
详解常用的Batch Norm、Group Norm,Layer norm、Instance Norm
本文主要分析各种norm化方法,包括batch norm, group norm, instance norm,等,用的最多的肯定是batch norm,后续凯明何大佬又提出了gropu norm,但是其实在cv里面还没有真正的普及,尤其是在工业界部署上面,用的最多的还是batch norm,尤其是前两年大量paper提出基于BN层的模型剪枝方法、基于BN的融合卷积计算方法等(本文不提及,后续文章有需要会单独分析此类论文)后,batch-norm凸显的更加重要了,本文将不按照论文结构解析。1、batch原创 2021-03-15 22:20:51 · 12829 阅读 · 0 评论 -
详解各种iou损失函数的计算方式(iou、giou、ciou、diou)
本文主要是理解各个回归损失函数的区别和改进,其实最主要的还是这些损失函数在yolo中起到了非常大的作用,包括从最原始的yolov3中引入,到v4、v5中变成真正的官方损失函数,确实很有效。本文将逐条分析这些损失函数,并不会按照论文结构来描述。原创 2021-03-09 11:43:39 · 21691 阅读 · 0 评论 -
详解目标检测算法坐标回归方式-anchor-based方法
本文讨论或者复习一下目前最流行的深度学习目标检测算法的坐标回归方式,注意,本文讨论的是anchor-based,至于anchor-free的方法,每一种anchor-free各自对应一种后处理,咱们这边就不详细讨论了。一、常用的faster rcnn、retinanet、ssd等cls+reg head类型。 总体来说,根据anchor来提供初始坐标,然后利用anchor的初始值去回归线性变化时的参数(偏移值和尺寸值),最后将这些参数配合固定anchors成为具体的坐标,细节如下: ...原创 2021-03-06 17:36:26 · 6755 阅读 · 0 评论 -
Learning Spatial Fusion for Single-Shot Object Detection one-stage-yolo优化
paper:https://arxiv.org/abs/1911.09516code:https://github.com/ruinmessi/ASFF此篇文章在coco上基于yolov3的baseline将精度刷到0.44,且fps为29,仍然可以做到超实时,主要还是一种新的特征融合方法+相当强大的baseline(yolov3++测试ap0.38),asff模块之外加入了可变形卷积,编译起来有点麻烦,在voc上作者称可以达到0.82左右,总体来说,在yolov4和yolov5没有出来之前,是当原创 2021-02-25 16:53:22 · 1020 阅读 · 0 评论 -
Gaussian YOLOv3 An Accurate and Fast Object Detector Using Localization one-stage-yolo优化
我的code:yolov3_prune/gussian_yolo at master · panchengl/yolov3_prune · GitHub这篇文章是一个非常具有启发性的文章,再一次证明高斯模型的重要性,并且建模的角度也很清奇,当时在大家都停滞于yolov3精度的时候,独树一帜的提出这一点,我觉得非常棒,当然,同期的后来还有ASFF,后续我会写到ASFF,虽然ASFF效果更加惊艳,但我觉得gaussian_yolov3的思路真的更漂亮(主要是我复现gaussian yolov3在voc上原创 2021-02-24 17:26:14 · 979 阅读 · 0 评论 -
one-stage-anchor-free CornerNet: Detecting Objects as Paired Keypoints
paper:https://arxiv.org/abs/1808.01244code:https://github.com/princeton-vl/CornerNet首先,这篇paper的代码我是没有跑通的(训练自己的数据集),但是是一篇非常具有开创性的paper,后面的centernet(object as points)等都是基于这个工作来做的,backbone用的是hourglass,讲道理,这个backbone实在是太重了,在以point为核心的one-stage检测算法中广泛应用,但实在原创 2021-02-23 21:22:31 · 221 阅读 · 0 评论 -
one-stage-anchor-free CenterNet:Objects as Points
paper:https://arxiv.org/pdf/1904.07850.pdf官方代码:https://github.com/xingyizhou/CenterNet我的代码:https://github.com/panchengl/centernet_prune 首先提一下我的代码复现(torch),官方代码支持包括2d目标检测、3d检测、姿态估计任务,我移除了其他的任务,并简单的重构了代码,使得代码更加易读,然后基于我改后的代码完成了模型压缩(剪枝方案),并使用了VOC的测试方法(..原创 2021-02-22 11:11:14 · 372 阅读 · 0 评论 -
one-stage-anchor-free-fcosnet:FCOS: Fully Convolutional One-Stage Object Detection
paper:https://arxiv.org/pdf/1904.01355.pdfcode:https://github.com/tianzhi0549/FCOS我的复现:https://github.com/panchengl/pcldetection当年经典的SOTA算法,现在似乎有点精度落后(但依旧很高),但是近期paper团队有重新对fcosnet做了实验进行改进,精度直接冲到SOTA了(我记得coco-ap达到0.49了),改动在哪忘了,先讨论原版的文章结构,有时间再写新的p..原创 2021-02-20 20:53:56 · 446 阅读 · 0 评论 -
one-stage-anchor-based-retinanet: Focal Loss for Dense Object Detection
论文地址:https://arxiv.org/pdf/1708.02002.pdfkeras复现代码(19年左右最广泛使用):我的复现:https://github.com/panchengl/pcldetection总体印象: 号称第一个以one-stage结构能够干赢two-stage结构的算法,根据实际使用来看,精度还是有差异(coco上超过了faster -rcnn,但实际使用中光以ap值而言也许并不准确,比如误检的问题并不能够完全体现,faster rcnn还是相当优秀),但..原创 2021-02-19 15:56:34 · 242 阅读 · 0 评论 -
two-stage-anchor-based-faster-rcnn进阶-mask rcnn:Mask R-CNN
mask rcnn是基于faster rcnn的改进的一种实例分割算法(得到目标实例同时也生成bbox,检测结果也刷出新高),由目标检测算法直接引申到实例分割领域,典型的top-down,也叫做 detect-then-segment,顾名思义,先检测后分割。在实例分割上一度领先独领风骚,即便是放在现在,mask rcnn的效果也是各个SOTA算法发表的必备比对数据,本文主要描述我对mask rcnn的理解。原创 2021-02-18 17:50:11 · 1192 阅读 · 0 评论 -
two-stage-anchor-based-faster-rcnn进阶 Cascade R-CNN: Delving into High Quality Object Detection
cascade rcnn:是基于faster rcnn的一种改进,我的理解是这个算法更趋近于stage by stage的算法,利用不同的IOU阈值选取,将多级目标检测器进行级联,进一步的优化检测结果,这个算法应该是各个比赛刷榜的主要算法了,不出意是速度奇慢,但在two-stage里面,我觉得相当具有代表性。文章出发点: 1、IOU=0.5(此处IOU指的是正负样本的界定值)时会出现较多的误检,应为0.5时正样本会引入更多的背景 2、但一味的提高iou并不一定是好事,阈值越小,对应...原创 2021-02-16 00:14:28 · 1178 阅读 · 0 评论 -
two-stage-anchor-base-Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
two-stage中最经典的通用目标检测算法,希望下篇在本文的基础上更进一步分析two-stage算法1、结构详解逻辑图: 训练原理图(来源-https://blog.csdn.net/weixin_43198141/article/details/90178512)完整细节图(来源见水印):从上图可以看出,faster rcnn可以分为三部分:1、backbone:基础的特征提取网...原创 2021-02-06 17:18:08 · 232 阅读 · 0 评论