Semantic segmentation2

Semantic Segmentationについて
その２
2017年4月18日皆川卓也

自己紹介
2
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp

Semantic Segmentationサーベイ２
 この資料は以下のURLのサーベイの続きです。
 https://www.slideshare.net/takmin/semantic-segmentation
 主に以下の３点について調べました。
1. Cityscapes Benchmark上位のアルゴリズム
2. Instance-levelのSemantic Segmentation
3. Semantic Video Segmentation

予備知識: Residual Networks
 ネットワークに「バイパス」を設けることで、階層を深くして
も学習が劣化しない仕組みを構築し、152層ものネット
ワークを構築
 ILSVRC2015 (画像認識のコンペティション)で１位を獲得
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. IEEE Conference on Computer
Vision and Pattern Recognition (CVPR)

予備知識: Dilated Network
 CNNではPooling層において、出力のサイズが入力サイ
ズよりも小さくなってしまい、予測の解像度が低下する
 Pooling層の代わりに、マルチスケールの「Dilated
Convolution」を使用することで、解像度を保ったままコン
テクストの情報を学習する。
Yu, F., & Koltun, V. (2016). Multi-Scale Context Aggregation by Dilated Convolutions. International Conference on Machine
Learning (ICML)
画像は[http://sergeiturukin.com/2017/03/02/wavenet.html]より転載

予備知識：R-CNN (Region with CNN feature)
7
 畳み込みニューラルネットワーク（CNN）は計算量が高いので、
探索窓(Sliding Window)による検出は更に計算量高い
 Selective Searchという手法を用いて物体候補領域を検出し、
候補領域上のみ処理することで計算量削減
Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic
segmentation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

予備知識：Fast R-CNN
8
 R-CNNでは物体候補領域を１つ１つCNNで判別していたため
遅い（VGGを使用した場合、GPU込みで１枚47秒）
 画像全体にCNNをかけて特徴マップを生成し、最後のプーリン
グ層を物体候補領域(ROI)に合わせて切り出す
 R-CNNを検出時約213倍高速化
Girshick, R. (2015). Fast R-CNN. International Conference on Computer Vision (ICCV)

予備知識：Faster R-CNN
9
 R-CNNおよびFast R-CNNではSelective Searchを用いて物体候
補領域を事前に求めておく必要。
 Fast R-CNNのSelective Search部分をfeature map上で行うこと
で、余計な処理を省き、高精度化/高速化（１枚当たり約
200msec）。
→ Region Proposal Network (RPN)
この上（特徴マップ）で物体候補領域検出を行う
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks. Advances in Neural Information Processing Systems (NIPS).

Cityscapes Benchmark
上位アルゴリズムについて

目的
 本資料はSemantic Segmentationに関するデータセットお
よびCompetitionであるCityscapes Benchmarksについて、
その上位のアルゴリズムについて解説するものです。
 ここで、解説されるアルゴリズムは論文が公開されてい
るものに限ります。
 Cityscapes Benchmarksの結果は以下のサイトから閲覧す
ることができます。
https://www.cityscapes-dataset.com/benchmarks/

Cityscapes Benchmarks
 Cityscapesデータセットを用いて認識した結果をサーバーへ
アップロードすることで、それぞれの指標における順位を計算
してくれます。

評価指標
 Pixel Level
下記IoUおよびiIoUをクラス/カテゴリ(グループ)ごとに評価しま
す。
IoU =
𝑇𝑃
𝑇𝑃+𝐹𝑃+𝐹𝑁
TP, FP, FN: 画素ごとのTrue Positive, False Positive, False Negative
iIoU =
𝑖𝑇𝑃
𝑖𝑇𝑃+𝑖𝐹𝑃+𝑖𝐹𝑁
iTP, iFP, iFN: クラスの平均サイズで重みづけしたTP, FP, FN
*2

評価指標
 Instance Level
8種類のクラス(person, rider, car, truck, bus, train, motorcycle,
bicycle)に対して、検出およびPixelラベリングの精度を評価しま
す。
Average Precision
検出ラベルDとGround TruthラベルGのオーバーラップが閾値以上の
時に正解とみなします。

𝐷 ∩ 𝐺
𝐷 ∪ 𝐺
> 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑
閾値を0.5から0.05刻みで0.95まで動かし、Recall-Precisionカーブを作
成します。
Recall-Precisionカーブの面積をAverage Precisionとします。

評価指標
 Instance Level
mean Average Precision (AP)
全クラスのAverage Precisionの平均
AP 50%
オーバーラップ50%以上
AP 100m
100m以内のオブジェクトに対して
AP 50m
50m以内のオブジェクトに対して

Pixel Level上位の手法 (2017/03/11現在)
1. Z. Wu, C. Shen, A. Hengel, “Wider or Deeper: Revisiting the ResNet
Model for Visual Recognition”, arXiv:1611.10080, 2016
2. H. Zhao, J. Shi, X. Qi, X. Wang, J. Jia, “Pyramid Scene Parsing
Network”, arXiv:1612.01105, 2016
3. P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, G. Cottrel,
“Understanding Convolution for Semantic Segmentation”,
arXiv:1702.08502, 2017
Method IoU class iIoU class IoU category iIoU category
ResNet-38 *1 80.6 (1st) 57.8 (3rd) 91.0 (1st) 79.1 (2nd)
Model A2, 2 conv *1
78.4 (6th) 59.1 (1st) 90.9 (1st) 81.1 (1st)
PSPNet *2 80.2 (2nd) 58.1 (2nd) 90.6 (3rd) 78.2 (3rd)
TuSimple_Coarse *3 80.1 (3rd) 56.9 (4th) 90.7 (3rd) 77.8 (5th)

Revisiting RezNet
 Residual Networksの層の数を減らし、代わりに特徴マップ数
（チャネル数）を増やすことで、構造を最適化
ResNet-38とModel A2はともに、カスタマイズRezNetの一種（詳細は
論文にも記述無し）
 Semantic Segmentationタスク向けにFully Convolutional
Networksに類似した構造へカスタマイズ
ソースコード： https://github.com/itijyou/ademxapp (MXNet)

PSPNet
 ResNet+Dlilated Netで作成したFeature Mapに対し、異な
るサイズのPoolingをかけてUp-samplingする
 大きなPoolingサイズのものにコンテクストの情報が含ま
れている
ソースコード： https://github.com/hszhao/PSPNet (Caffe + DeepLab v2)

TuSimple_Coarse
訓練済みモデル（MXNet）：https://goo.gl/DQMeun
 ResNet+Dilated NetのDilated Netの部分をHybrid Dilated
Convolution (HDC)という手法に置き換え、特徴抽出した結果を
Dense Upsampling Convolution (DUC) という手法でアップサンプリン
グ
HDC： Dilated Netのrate（サンプリング間隔）を階層ごとに変えることで、
画素の「抜け」の問題を低減
DUC: 特徴マップを、 L個(ラベル数)の原画像サイズの出力へ変換する畳
み込み層

Instance Level上位の手法 (2017/03/11現在)
1. A. Arnab, & P. Torr, “Pixelwise Instance Segmentation
with a Dynamically Instantiated Network”, IEEE
Conference on Computer Vision and Pattern Recognition
(CVPR), 2017.
Method AP AP 50% AP 100m AP 50m
Pixelwise Instance
Segmentation with a
Dynamically
Instantiated Network
*1
20.0 (1st) 38.8 (1st) 32.6 (1st) 37.6 (1st)

Dynamically Instantiated Network
 物体検出の結果とSemantic Segmentationの結果をCRFで
統合することで、Instanceを推定
 Semantic SegmentationのネットワークとInstanceを求める
ネットワークをend-to-endで学習可能（RNN as CRFを使
用）

Instance-level Semantic
Segmentation

Instance Level Semantic Segmentation
 Object Detection
画像の中から各カテゴリの１つ１つの物体位置を求める
 Semantic Segmentation
各画素がどのカテゴリに属するかを求める
同じカテゴリの物体が隣接した場合、境界がわからない
 Instance Segmentation
各画素が１つ１つの物体のどこに属するかを求める
Arnab, A., & Torr, P. H. S. (2017). Pixelwise Instance Segmentation with a Dynamically Instantiated Network. IEEE Conference on
Computer Vision and Pattern Recognition (CVPR).

アプローチによる分類
 Object Detectionを用いてBounding Boxを算出し、その中
および周辺画素の前景/背景を算出
最もメジャーなアプローチ
 Object Detectionを物体候補領域推定（Region Proposal）
を用いて行い、その領域情報を利用
 Object Detectionを用いない方法
Segmentationベース
Patchベース

紹介する論文
 Object Detectionを用いない方法の例
Zhang, Z., Fidler, S., & Urtasun, R. (2016). Instance-Level
Segmentation with Deep Densely Connected MRFs. IEEE
Conference on Computer Vision and Pattern Recognition (CVPR)
Segmentationベース
Liu, S., Qi, X., Shi, J., Zhang, H., & Jia, J. (2016). Multi-scale Patch
Aggregation (MPA) for Simultaneous Detection and
Segmentation. IEEE Conference on Computer Vision and Pattern
Recognition (CVPR)
Patchベース

Deep Densely Connected MRFs
 ３種類のサイズのパッチからCNNで各画素のインスタンスのラ
ベルを推定
 平滑化項に近くの画素は同じインスタンス、離れた画素は異
なるインスタンスの可能性が大きいという条件を入れて、MRF
を用いて最終的なラベルを決定
ソースコード(C++, Caffe)： https://bitbucket.org/zhangziyu1991/cnn-densecrf-kitti-public

Multi-scale Patch Aggregation
 特徴マップからマルチスケールのパッチを切り出し、それ
ぞれのパッチに対してSegmentationとClassificationを同
時に行い、その後パッチの結果を統合

紹介する論文
 Object Detectionを物体候補領域推定（Region Proposal）
を用いて行い、その領域情報を利用
Hariharan, B., Arbeláez, P., Girshick, R., & Malik, J. (2014).
Simultaneous Detection and Segmentation. European
Conference on Computer Vision (ECCV)

Simultaneous Detection and Segmentation
(SDS)
 物体検出とセグメンテーションを同時に行うようにR-CNNを改
良
 Bounding BoxとRegion上からそれぞれCNN特徴を抽出し、統
合して線形SVMで物体カテゴリを識別。
 各画素ブロックの前景/背景を判別する識別器(ロジスティック
回帰)を「カテゴリごとに」学習（Region Refinement）
ソースコード（Matlab+Caffe）： https://github.com/bharath272/sds_eccv2014

紹介する論文
 Object Detectionを用いてBounding Boxを算出し、その中および周辺
画素の前景/背景を算出
Yang, Y., Hallman, S., Ramanan, D., & Fowlkes, C. C. (2012). Layered Object
Models for Image Segmentation. IEEE Transaction on Pattern Analysis and
Machine Intelligence (PAMI)
Dai, J., He, K., & Sun, J. (2016). Instance-aware Semantic Segmentation via
Multi-task Network Cascades. IEEE Conference on Computer Vision and
Pattern Recognition (CVPR)
Hariharan, B., Arbel, P., & Girshick, R. (2015). Hypercolumns for Object
Segmentation and Fine-grained Localization. IEEE Conference on Computer
Li, K., Hariharan, B., Malik, J., Berkeley, U. C., & Berkeley, U. C. (2016).
Iterative Instance Segmentation. IEEE Conference on Computer Vision and
Li, K., & Malik, J. (2016). Amodal Instance Segmentation. IEEE Europian
Conference on Computer Vision (ECCV)
He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Mask R-CNN.
arXiv:1703.06870

Layered object models
 物体検出（Deformable Part Model）の結果を基に、生成
確率モデルを用いて、各Super Pixelの前後関係（層構造）
を推定

Multi-task Network Cascades
 物体候補領域算出（RPN）、前景推定、カテゴリ識別を行
う3つのネットワークをカスケード型につないだ、end-to-
endでの学習が可能なネットワークを構築
ソースコード(Python+Caffe)： https://github.com/daijifeng001/MNC

Hypercolumns
 CNNは上の層ほど識別能力が高い特徴が得られるが、空間
周波数が下がるので、各層の特徴マップを束ねる
(=Hypercolumns)ことで両方のメリットを取り入れて、Semantic
Segmentationを行う。
 物体検出で求めたBounding Box内の各画素のHypercolumns
を算出し、ロジスティック回帰で各グリッドのラベルを推定。
ソースコード (Python + Caffe)：
https://github.com/bharath272/sds

Iterative Instance Segmentation (IIS)
 Semantic Segmentationを行うCNNを数珠つなぎにつなげ、
前のCNNの予測結果を次のCNNへの入力とすることで、
対象の形状についての事前分布を学習させる。
 各CNN(Hypercolumnsを改良)は入力画像＋前のネット
ワークの予測ラベルを受け取り、予測ラベルを返す。

Amodal Instance Segmentation
 対象が見えている領域だけでなく、隠れている領域も推
定するという新しい問題設定を提案。
 Instance-level Semantic Segmentationの学習データに対
して、画像を合成して対象が隠れている学習データを新
たに生成し、IISで学習。

Mask R-CNN
 Faster R-CNNにセグメンテーション用のFully Convolutional
NetworkをBounding Box推定用のネットワークと平行に加える
だけ
 同じフレームワークで人の姿勢推定にも応用可能
 MS COCO 2016 Challenge Winner

Semantic Video Segmentation
 動画の各フレームに対し、Semantic Segmentationを行う。
 その際、前後のフレームの情報などを利用することで、
精度や速度を向上させる
Tripathi, S., Belongie, S., Hwang, Y., & Nguyen, T. (2015). Semantic video segmentation: Exploring inference efficiency.
International SoC Design Conference (ISOCC) より画像転載

動画用データセット
 The Cambridge-driving Labeled Video Database(CamVid)
Dataset
概要
32クラスにラベル付けされた車載カメラからの動画データセット。
動画は30Hz、ラベルは1Hz
URL
http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/
ライセンス
特に記述無
例

Playing for Data
 Richer, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for Data: Ground Truth
from Computer Games. European Conference on Computer Vision (ECCV)
市販のゲームに対し、グラフィックハードウェアにアクセスすることで、高速にセマ
ンティックラベルを取得
CamVidの1/3のデータ＋ゲームから取得したデータを使用して学習させることで、
CamVid全てのデータを使って学習した場合よりも大幅に性能向上
 URL (コードあり)
https://download.visinf.tu-darmstadt.de/data/from_games/

アプローチによる分類
 動画から推定した対象の三次元構造に基づいてラベル
付け
 フレームごとのラベル付け結果と三次元推定結果を融合
 フレームごとのラベル付け結果を統合
 複数フレーム全体を同時にラベル付け

紹介する論文
 動画から推定した対象の三次元構造に基づいてラベル
付け
G. J. Brostow, J. Shotton, J. Fauqueur, and R. Cipolla.
Segmentation and recognition using structure from motion
point clouds. In ECCV, 2008

Segmentation using SfM
 Structure from Motionにより動画から三次元点群を計算
 各点の高さ、カメラの軌跡との最短距離、法線ベクトル、
再投影誤差等を特徴量として、Randomized Forestにより
ラベリング

紹介する論文
 フレームごとのラベル付け結果と三次元推定結果を融合
Kundu, A., Li, Y., Daellert, F., Li, F., & Rehg, J. M. (2014). Joint
Semantic Segmentation and 3D Reconstruction from Monocular
Video. European Conference on Computer Vision (ECCV)

Joint Semantic Segmentation and 3D
Reconstruction
 画像からのSemantic SegmentationとVisual SLAMによる
点群取得を個別に行い、それらを融合して３次元マップ
を作成
CRFを用いて各ボクセルのラベルを推定

紹介する論文
 フレームごとのラベル付け結果を統合
Scharwaechter, T., Enzweiler, M., Franke, U., & Roth, S. (2014).
Stixmantics: A Medium-Level Model for Real-Time Semantic
Scene Understanding. European Conference on Computer Vision
(ECCV)
Sevilla-Lara, L., Sun, D., Jampani, V., & Black, M. J. (2016).
Optical Flow with Semantic Segmentation and Localized Layers.
CVPR

Stixmantics
 ステレオ視(Semi Global Matching)により、カメラからの距
離に応じて棒状の領域（Stixel）に分割（上中）
 Stixel毎にSemanticラベルを付与（上右）
 特徴点の追跡結果（下右）を制約としてラベルを決定（下
中）
 リアルタイムでSemantic Segmentation可能

Optical Flow and Localized Layer
 DeepLab(CNN + CRF)でSemantic Segmentation
 Labelを車や人などの”Things”、道路や空などの”Planes”、
ビルなどの” Stuff”に分け、それぞれの分類に応じて
Optical Flowを改善。
 改善したOptical Flow用いて、さらにSegmentation結果を
改善

紹介する論文
 複数フレーム全体を同時にラベル付け
Liu, B., & He, X. (2015). Multiclass semantic video segmentation
with object-level active inference. IEEE Conference on Computer
Kundu, A., Tech, G., Vineet, V., Labs, I., Koltun, V., & Labs, I.
(2016). Feature Space Optimization for Semantic Video
Segmentation. 2016 IEEE Conference on Computer Vision and

Object-level Active Inference
 時空間方向に作成したSuper Voxelをノードとし、さらに物体検
出/追跡結果(object hypothesis)を取り込んだモデルを、CRFを
用いてSemantic Segmentation
 Active Inferenceを用いて、最適なobject hypothesisのサブセッ
トを選択することで計算を効率化

Future Space Optimization
 複数フレームをまとめたブロックを構築し、画素同士の距離空
間（特徴空間）を、画素の位置および値を元に構築
 ブロック内の特徴空間において、各画素のラベルをfully-
connected CRFで最適化
 複数のブロックに渡って結果を最適化
ソースコード(C++): https://bitbucket.org/infinitei/videoparsing

Semantic segmentation2

Recommended

More Related Content

What's hot (20)

Viewers also liked (14)

Similar to Semantic segmentation2 (20)

More from Takuya Minagawa (20)

Semantic segmentation2