【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
TOPPERS SSP is a very safe Operating system which is not rich on network functions. You can make some functions if you need. Please contact us for IoT safety and security design and operation.
This document summarizes a paper titled "DeepI2P: Image-to-Point Cloud Registration via Deep Classification". The paper proposes a method for estimating the camera pose within a point cloud map using a deep learning model. The model first classifies whether points in the point cloud fall within the camera's frustum or image grid. It then performs pose optimization to estimate the camera pose by minimizing the projection error of inlier points onto the image. The method achieves more accurate camera pose estimation compared to existing techniques based on feature matching or depth estimation. It provides a new approach for camera localization using point cloud maps without requiring cross-modal feature learning.
2020/10/10に開催された第4回全日本コンピュータビジョン勉強会「人に関する認識・理解論文読み会」発表資料です。
以下の2本を読みました
Harmonious Attention Network for Person Re-identification. (CVPR2018)
Weekly Supervised Person Re-Identification (CVPR2019)
2018/10/20コンピュータビジョン勉強会@関東「ECCV読み会2018」発表資料
Yew, Z. J., & Lee, G. H. (2018). 3DFeat-Net: Weakly Supervised Local 3D Features for Point Cloud Registration. European Conference on Computer Vision.
24. Visual SLAMの研究例
[Uchiyama2015] Uchiyama, H.,Taketomi,T., Ikeda, S., & Monte
Lima, J. P. S., "AbecedaryTracking and Mapping: a Toolkit for
Tracking Competitions," Proceedings of the 14th IEEE
International Symposium on Mixed and Augmented Reality,
pp.198-199, 2015.
[Klein2007]Klein, G., & Murray, D. (2007). ParallelTracking and
Mapping for Small AR Workspaces. In IEEE and ACM
International Symposium on Mixed and Augmented Reality, ISMAR.
[Newcombe2011]Newcombe, R.A., Lovegrove, S. J., & Davison,
A. J. (2011). DTAM: Dense Tracking and Mapping in Real-Time.
In International Conference on ComputerVision.
[Engel2014]Engel, J., Schops,T., & Cremers, D. (2014). LSD-
SLAM: Large-Scale Direct monocular SLAM. In European
Conference on ComputerVision
24
25. Visual SLAMの研究例
[Mur-Artal2015]Mur-Artal, R., Montiel, J. M. M., & Tardos, J. D.
(2015). ORB-SLAM:AVersatile and Accurate Monocular SLAM
System. IEEETransactions on Robotics, 31(5), 1147–1163.
[Mur-Artal2016]Mur-Artal, R., &Tardos, J. D. (2016). ORB-
SLAM2: an Open-Source SLAM System for Monocular, Stereo
and RGB-D Cameras. ArXiv, (October). Retrieved from
[Tateno2017]Tateno, K.,Tombari, F., Laina, I., & Navab, N. (2017).
CNN-SLAM : Real-time dense monocular SLAM with learned
depth prediction. In IEEE Conference on ComputerVision and
Pattern Recognition.
[Zhou2018]Zhou, H., & Ummenhofer, B. (2018). DeepTAM :
Deep Tracking and Mapping. In European Conference on
ComputerVision.
25
34. 34
[Engel2014]LSD-SLAM (2/3)
Tracking
濃度勾配の高い画素のみPose推定に使用(Semi-Dense)
深度を使ってKeyFrameの画素を現フレームに投影し、差分を最小
化するようPose推定 (Direct法)
Depth Map Estimation
Poseの変化が閾値を超えたらKeyFrame生成
KeyFrameの深度初期値を前KeyFrameの深度を投影して生成
追跡フレームとKeyFrameとのベースラインステレオで深度を補正*
Map Optimization
KeyFrame生成時近傍のKeyFrameおよび類似KeyFrameを取得し、
それぞれLoopかを判別
Loopが存在する場合、2つのKeyFrameの画素と深度から相対Pose
を求め、それをLoop上を伝播させて最適化(Graph Optimization)
*J. Engel, J. Sturm, and D. Cremers. Semi-dense visual odometry for a monocular camera. In IEEE International Conference
on ComputerVision (ICCV), December 2013
35. [Engel2014]LSD-SLAM (3/3)
[9]Engel, J., Sturm, J., Cremers, D.: Semi-dense visual odometry for a monocular camera.
In: Intl. Conf. on ComputerVision (ICCV) (2013)
[15]Klein, G., Murray, D.: Parallel tracking and mapping for small AR workspaces. In: Intl.
Symp. on Mixed and Augmented Reality (ISMAR) (2007)
[14]Kerl, C., Sturm, J., Cremers, D.: Dense visual SLAM for RGB-D cameras. In: Intl.
Conf. on Intelligent Robot Systems (IROS) (2013)
[7]Endres, F., Hess, J., Engelhard, N., Sturm, J., Cremers, D., Burgard,W.:An evaluation of
the RGB-D slam system. In: Intl. Conf. on Robotics and Automation (ICRA) (2012)
TUM-RGBDベンチマーク(軌跡の二乗誤差(cm))
35
43. [Tateno2017]CNN-SLAM (2/3)
Camera Pose Estimation
現フレームの画素を前キーフレーム上へ投影した時の差が最
小となるPoseを推定(Direct法)
LSD-SLAM同様、輝度勾配の高い領域
投影時にCNNで推定した深度情報を使用
LSD-SLAMではKey-Frame間のステレオで深度推定
CNN Depth Prediction & Semantic Segmentation
Laina, I., Rupprecht, C., Belagiannis,V.,Tombari, F., & Navab, N.
(2016). Deeper Depth Prediction with Fully Convolutional
Residual Networks. IEEE International Conference on 3DVision.
各KeyFrameに対し深度推定
LSD-SLAMと同様にbaseline stereoを用いて深度を補正
43
44. [Tateno2017]CNN-SLAM (3/3)
ICL-NUIM datasetとTUM datasetによる軌跡と深度の精度評価
以下の環境でリアルタイム
• Intel Xeon CPU at 2.4GHz with 16GB of RAM
• Nvidia Quadro K5200 GPU with 8GB of VRAM
44