1. Two papers on unsupervised domain adaptation were presented at ICML2018: "Learning Semantic Representations for Unsupervised Domain Adaptation" and "CyCADA: Cycle-Consistent Adversarial Domain Adaptation".
2. The CyCADA paper uses cycle-consistent adversarial domain adaptation with cycle GAN to translate images at the pixel level while also aligning representations at the semantic level.
3. The semantic representation paper uses semantic alignment and introduces techniques like adding noise to improve over previous semantic alignment methods.
1. Two papers on unsupervised domain adaptation were presented at ICML2018: "Learning Semantic Representations for Unsupervised Domain Adaptation" and "CyCADA: Cycle-Consistent Adversarial Domain Adaptation".
2. The CyCADA paper uses cycle-consistent adversarial domain adaptation with cycle GAN to translate images at the pixel level while also aligning representations at the semantic level.
3. The semantic representation paper uses semantic alignment and introduces techniques like adding noise to improve over previous semantic alignment methods.
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)Shunta Saito
Pyramid Scene Parsing Network introduces the Pyramid Pooling Module to improve semantic segmentation. The module captures context at different regions and scales by performing average pooling at different pyramid levels on the final convolutional feature map. Experiments on ADE20K and PASCAL VOC datasets show the Pyramid Pooling Module improves mean Intersection-over-Union by over 4% compared to global average pooling, achieving state-of-the-art performance.
Kaggle meetup #3 instacart 2nd place solutionKazuki Onodera
This document summarizes the 2nd place solution to an Instacart market basket analysis competition. The approach involved feature engineering using user, item, user-item interaction, and datetime features. Feature importance analysis identified key predictive features. Important findings provided insights like frequent reorders for fruits and a user's previous order predicting their next order. The solution maximized the F1 evaluation metric by simulating predictions and thresholds to optimize recall and precision.
2020/10/10に開催された第4回全日本コンピュータビジョン勉強会「人に関する認識・理解論文読み会」発表資料です。
以下の2本を読みました
Harmonious Attention Network for Person Re-identification. (CVPR2018)
Weekly Supervised Person Re-Identification (CVPR2019)
出典:Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
Facebook AI
公開URL : https://arxiv.org/abs/2005.12872
概要:Detection Transformer(DETRという)という新しいフレームワークによって,non-maximum-supressionやアンカー生成のような人手で設計する必要なく、End-to-Endで画像からぶった検出を行う手法を提案しています。物体検出を直接集合予測問題として解くためのtransformerアーキテクチャとハンガリアン法を用いて二部マッチングを行い正解と予測の組み合わせを探索しています。Attentionを物体検出に応用しただけでなく、競合手法であるFaster R-CNNと同等の精度を達成しています。
This document summarizes a paper titled "DeepI2P: Image-to-Point Cloud Registration via Deep Classification". The paper proposes a method for estimating the camera pose within a point cloud map using a deep learning model. The model first classifies whether points in the point cloud fall within the camera's frustum or image grid. It then performs pose optimization to estimate the camera pose by minimizing the projection error of inlier points onto the image. The method achieves more accurate camera pose estimation compared to existing techniques based on feature matching or depth estimation. It provides a new approach for camera localization using point cloud maps without requiring cross-modal feature learning.
2018/10/20コンピュータビジョン勉強会@関東「ECCV読み会2018」発表資料
Yew, Z. J., & Lee, G. H. (2018). 3DFeat-Net: Weakly Supervised Local 3D Features for Point Cloud Registration. European Conference on Computer Vision.
5. 予備知識: Residual Networks
ネットワークに「バイパス」を設けることで、階層を深くして
も学習が劣化しない仕組みを構築し、152層ものネット
ワークを構築
ILSVRC2015 (画像認識のコンペティション)で1位を獲得
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. IEEE Conference on Computer
Vision and Pattern Recognition (CVPR)
6. 予備知識: Dilated Network
CNNではPooling層において、出力のサイズが入力サイ
ズよりも小さくなってしまい、予測の解像度が低下する
Pooling層の代わりに、マルチスケールの「Dilated
Convolution」を使用することで、解像度を保ったままコン
テクストの情報を学習する。
Yu, F., & Koltun, V. (2016). Multi-Scale Context Aggregation by Dilated Convolutions. International Conference on Machine
Learning (ICML)
画像は[http://sergeiturukin.com/2017/03/02/wavenet.html]より転載
7. 予備知識:R-CNN (Region with CNN feature)
7
畳み込みニューラルネットワーク(CNN)は計算量が高いので、
探索窓(Sliding Window)による検出は更に計算量高い
Selective Searchという手法を用いて物体候補領域を検出し、
候補領域上のみ処理することで計算量削減
Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic
segmentation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
9. 予備知識:Faster R-CNN
9
R-CNNおよびFast R-CNNではSelective Searchを用いて物体候
補領域を事前に求めておく必要。
Fast R-CNNのSelective Search部分をfeature map上で行うこと
で、余計な処理を省き、高精度化/高速化(1枚当たり約
200msec)。
→ Region Proposal Network (RPN)
この上(特徴マップ)で物体候補領域検出を行う
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks. Advances in Neural Information Processing Systems (NIPS).
20. Instance Level上位の手法 (2017/03/11現在)
1. A. Arnab, & P. Torr, “Pixelwise Instance Segmentation
with a Dynamically Instantiated Network”, IEEE
Conference on Computer Vision and Pattern Recognition
(CVPR), 2017.
Method AP AP 50% AP 100m AP 50m
Pixelwise Instance
Segmentation with a
Dynamically
Instantiated Network
*1
20.0 (1st) 38.8 (1st) 32.6 (1st) 37.6 (1st)
38. Semantic Video Segmentation
動画の各フレームに対し、Semantic Segmentationを行う。
その際、前後のフレームの情報などを利用することで、
精度や速度を向上させる
Tripathi, S., Belongie, S., Hwang, Y., & Nguyen, T. (2015). Semantic video segmentation: Exploring inference efficiency.
International SoC Design Conference (ISOCC) より画像転載
39. 動画用データセット
The Cambridge-driving Labeled Video Database(CamVid)
Dataset
概要
32クラスにラベル付けされた車載カメラからの動画データセット。
動画は30Hz、ラベルは1Hz
URL
http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/
ライセンス
特に記述無
例
40. Playing for Data
Richer, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for Data: Ground Truth
from Computer Games. European Conference on Computer Vision (ECCV)
市販のゲームに対し、グラフィックハードウェアにアクセスすることで、高速にセマ
ンティックラベルを取得
CamVidの1/3のデータ+ゲームから取得したデータを使用して学習させることで、
CamVid全てのデータを使って学習した場合よりも大幅に性能向上
URL (コードあり)
https://download.visinf.tu-darmstadt.de/data/from_games/
42. 紹介する論文
動画から推定した対象の三次元構造に基づいてラベル
付け
G. J. Brostow, J. Shotton, J. Fauqueur, and R. Cipolla.
Segmentation and recognition using structure from motion
point clouds. In ECCV, 2008
43. Segmentation using SfM
Structure from Motionにより動画から三次元点群を計算
各点の高さ、カメラの軌跡との最短距離、法線ベクトル、
再投影誤差等を特徴量として、Randomized Forestにより
ラベリング
44. 紹介する論文
フレームごとのラベル付け結果と三次元推定結果を融合
Kundu, A., Li, Y., Daellert, F., Li, F., & Rehg, J. M. (2014). Joint
Semantic Segmentation and 3D Reconstruction from Monocular
Video. European Conference on Computer Vision (ECCV)
45. Joint Semantic Segmentation and 3D
Reconstruction
画像からのSemantic SegmentationとVisual SLAMによる
点群取得を個別に行い、それらを融合して3次元マップ
を作成
CRFを用いて各ボクセルのラベルを推定
46. 紹介する論文
フレームごとのラベル付け結果を統合
Scharwaechter, T., Enzweiler, M., Franke, U., & Roth, S. (2014).
Stixmantics: A Medium-Level Model for Real-Time Semantic
Scene Understanding. European Conference on Computer Vision
(ECCV)
Sevilla-Lara, L., Sun, D., Jampani, V., & Black, M. J. (2016).
Optical Flow with Semantic Segmentation and Localized Layers.
CVPR
49. 紹介する論文
複数フレーム全体を同時にラベル付け
Liu, B., & He, X. (2015). Multiclass semantic video segmentation
with object-level active inference. IEEE Conference on Computer
Vision and Pattern Recognition (CVPR)
Kundu, A., Tech, G., Vineet, V., Labs, I., Koltun, V., & Labs, I.
(2016). Feature Space Optimization for Semantic Video
Segmentation. 2016 IEEE Conference on Computer Vision and
Pattern Recognition (CVPR)
50. Object-level Active Inference
時空間方向に作成したSuper Voxelをノードとし、さらに物体検
出/追跡結果(object hypothesis)を取り込んだモデルを、CRFを
用いてSemantic Segmentation
Active Inferenceを用いて、最適なobject hypothesisのサブセッ
トを選択することで計算を効率化