20200704 bsp net

第３回全日本CV勉強会 CVPR2020読み会（前編）
BSP-Net: Generating Compact Meshes via
Binary Space Partitioning
2020/07/04 takmin

自己紹介
2
株式会社ビジョン＆ITラボ代表取締役
皆川卓也（みながわたくや）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化）
http://visitlab.jp

ビジョン
技術の町医者
AIビジネスについて、気軽に相談できる

事業内容
1. Ｒ＆Ｄコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
4

深層学習 (Deep Learning)
5
深層学習についてのコンサルティングや開発支援などを
行います。
 画像識別
 物体検出
 領域分割
 人物姿勢推定
 画像変換
 画像生成(GAN)
 etc

Virtual Reality/Augmented Reality
6
御社がVirtual RealityやAugmented Realityを用いたビジネ
スを行う上で必要な、総合的な技術コンサルティングや開
発/プロダクトを提供します。
 特定物体認識
 Visual SLAM
 三次元スキャン
 Face Tracking

ナンバープレート認識：
License Plate Recognizer
 画像や動画からナンバープレートを読み取ります
入力画像/動画文字＋座標
License Plate
Recognizer
練馬444
ま 1564
• Web APIまたはSDKで提供可能
• SDK
• LinuxまたはWindows
• C++またはPython
• アルファベット分類番号および図柄入りナンバープレートにも対応
• GPU不要でロバストかつ高速な認識

詳解する論文
8
BSP-Net: Generating Compact
Meshes via Binary Space
Partitioning
 Chen, Z.,Tagliasacchi,A., & Zhang, H.
Best Student Paper!

3D Shapeの表現
9
Figure from “Occupancy Networks: Learning 3D Reconstruction in Function Space”
Voxel Point Cloud Mesh
+Simple
-Cubic Memory
-Manhattan world
+Fast and Easy
-No connectivity
-Lossy Postprocessing
+Natural
-Require Template
(topology)
-Self-intersections

3D Shapeの表現
10
Voxel Point Cloud Mesh Implicit Function
+Infinite Resolution
+Arbitrary Topologies
+Watertight Meshes
Figure from “Occupancy Networks: Learning 3D Reconstruction in Function Space”
+Simple
-Cubic Memory
-Manhattan world
+Fast and Easy
-No connectivity
-Lossy Postprocessing
+Natural
-Require Template
(topology)
-Self-intersections

3D Shapeの表現
11
陰関数(Implicit Function)をDeep Learningで表現
（いずれもCVPR2019）
 IM-NET
 Learning Implicit Fields for Generative Shape Modeling
 OccNET
 Occupancy Networks: Learning 3D Reconstruction in
Function Space
 DeepSDF
 DeepSDF: Learning Continuous Signed Distance
Functions for Shape Representation
https://www.slideshare.net/takmin/20190706cvpr20193dshaperepresentation-153989245

3D Shapeの表現
12
 3Dをレンダリングするためには、メッシュ表現が使われる
 陰関数を用いた3Dの表現では、Voxel表現に変換された後、
Marching Cube法などによってメッシュへ変換する必要がある。
 そこで、DNNを用いて直接メッシュを用いた3D表現を行う手
法を提案

BSP-Netによるメッシュ表現
13
 平面の組み合わせで凸多面体を表現

14
超平面：𝑎𝑥 + 𝑏𝑦 + 𝑐𝑧 + 𝑑 = 0
 特徴量𝐟からMLPで𝑝個の平面のパラメータ𝑷 𝑝×4を推定

15
 𝑐個の凸多面体𝑪を、平面𝑷の組み合わせを表す二値行列𝑻 𝑝×𝑐

16
 凸多面体𝑪の集合として3D Shapeを表現

ネットワーク構造
18
学習したいパラメータ

19
ResNet（画像）
3D CNN (Voxel)
PointNet (Point Cloud)
etc

20
𝑝個の平面

21
𝑛個の三次元斉次座標
𝐱の各平面への符号付
き距離𝑫

22
二値行列𝐓で𝑐個の凸
多面体への距離𝑪を計
算

23
凸多面体への距離 𝑪の、
𝑾による重み付き和で
Shape 𝑺+
を表現
（Stage-1）

24
凸多面体への距離𝑪の
最小値でShape 𝑺∗
を表
現（Stage-2）

Layer2: 各凸多面体への距離算出
25

26
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐷𝑖 𝑇𝑖𝑗
𝐱

27
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐱
𝑇00
𝑇10
𝑇20
𝐷0
𝐷1
𝐷2
𝐶0
∗
(𝐱) = 𝐷1
*𝐷0, 𝐷2は負

28
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐱
𝑇31 𝑇41
𝑇51
𝑇61
𝐷4
𝐷5
𝐷6
𝐶1
∗
(𝐱) = 𝐷3
*𝐷4, 𝐷5, 𝐷6は負
𝐷3

29
𝐶𝑗
∗
(𝐱) = max
𝑖
𝐱

30
𝐶𝑗
∗
(𝐱) = max
𝑖
𝑇00
𝑇10
𝑇20
𝐷0
𝐷1
𝐷2
𝐶0
∗
(𝐱) = 𝐷1
*𝐷0, 𝐷1, 𝐷2は負
𝐱

31
𝐶𝑗
∗
(𝐱) = max
𝑖
𝑇31 𝑇41
𝑇51
𝑇61
𝐷4
𝐷5
𝐷6
𝐶1
∗
(𝐱) = 𝐷3
*𝐷4, 𝐷5 は負
𝐷3
𝐱

Layer2: 学習のためmax-poolingの緩和
32
 𝐶𝑗
∗
(𝐱) = max
𝑖
𝐷𝑖 𝑇𝑖𝑗 (1)
 𝐱が凸多面体の外の場合は正、内の場合は負
 学習時、勾配がmaxを取った超平面にしか伝播されない

Layer2: 学習のためmax-poolingの緩和
33
 𝐶𝑗
∗
(𝐱) = max
𝑖
𝐷𝑖 𝑇𝑖𝑗 (1)
 𝐱が凸多面体の外の場合は正、内の場合は負
 学習時、勾配がmaxを取った超平面にしか伝播されない
 𝐶𝑗
+
(𝐱) = σ𝑖 relu 𝐷𝑖 𝑇𝑖𝑗 (2)
 𝐱が凸多面体の外の場合は正、内の場合はゼロ
 学習効率を高めるため、𝐶𝑗
∗
(𝐱)の条件を緩和

34
𝐶𝑗
+
(𝐱) = ෍
𝑖
relu 𝐷𝑖 𝑇𝑖𝑗
𝐱

35
𝐶𝑗
+
(𝐱) = ෍
𝑖
𝑇00
𝑇10
𝑇20
𝐷0
𝐷1
𝐷2
𝐶0
+
(𝐱) = 0
*𝐷0, 𝐷1, 𝐷2は負
𝐱

36
𝐶𝑗
+
(𝐱) = ෍
𝑖
𝑇31 𝑇41
𝑇51
𝑇61
𝐷4
𝐷5
𝐷6
𝐶1
+
(𝐱) = 𝐷3 + 𝐷6
*𝐷4, 𝐷5 は負
𝐷3
𝐱

Layer3: 凸多面体を座標𝐱へ割り当て
37

38
 𝑆∗(𝐱) = min
𝑗
𝐶𝑗
+
(𝐱) (3)
 学習時、勾配がminを取った凸多面体にしか伝播されない

39
 𝑆∗(𝐱) = min
𝑗
𝐶𝑗
+
(𝐱) (3)
 学習時、勾配がminを取った凸多面体にしか伝播されない
 𝑆+(𝐱) = σ 𝑗 𝑊𝑗 1 − 𝐶𝑗
+
(𝐱)
0,1 0,1
(4)
 ∙ 0,1 :クリッピング, 𝐖 ≈ 1
 学習効率を高めるため、 𝑆∗
(𝐱)の条件を緩和
 𝐱が凸多面体の外の場合は[0,1) 、内の場合は1となるよう
に学習

40
𝐶0
+
(𝐱) = 0
𝐱
𝑆∗(𝐱) = min
𝑗
𝐶𝑗
+
(𝐱)
𝐶1
+
(𝐱) = 𝐷3 + 𝐷6
𝑆∗(𝐱) = 𝐶0
+
(𝐱) = 0
座標𝐱から最も近い凸多面体までの距離

41
𝐶0
+
(𝐱) = 0
𝐱
𝑆+
(𝐱) = ෍
𝑗
𝑊𝑗 1 − 𝐶𝑗
+
(𝐱)
0,1
0,1
𝐶1
+
(𝐱) = 𝐷3 + 𝐷6
𝑆+
𝐱 = 𝑊0 1 − 𝐶0
+
𝐱 0,1 + 𝑊1 1 − 𝐶1
+
𝐱 0,1 0,1
= 𝑊0 + 𝑊1 1 − 𝐷3 − 𝐷6 0,1 0,1
𝑆∗を重み𝐖𝑐×1で緩和

連続と離散の2-Stage学習
42
Training Stage 1 – Continuous
 超平面を推定するパラメータ 𝜔と、凸多面体を構成する
超平面の組み合わせ 𝐓を学習し、 𝑆+
(𝐱)を最適化
 𝐓は二値行列ではなく、連続値として学習

43
(𝐱)を最適化
Training Stage 2 – Discrete
 𝐓を閾値 𝜆で二値化し固定
 超平面を推定するパラメータ 𝜔のみ学習し、 𝑆∗
(𝐱)を最適
化

44
(𝐱)を最適化
(5)
3D座標𝐱の3D Shape内外判定
をGround Truthと一致させる項
行列𝐓の各要素に0から1の間を取
らせるための正規化項
𝐖 ≈ 1とするための正規化項
argmin
𝜔,𝐓,𝐖
ℒrec
+
+ ℒ 𝐓
+
+ ℒ 𝐖
+

45
(𝐱)を最適化
(5)argmin
𝜔,𝐓,𝐖
ℒrec
+
+ ℒ 𝐓
+
+ ℒ 𝐖
+
ℒrec
+
= Ε 𝐱~G 𝑆+
𝐱 − 𝐹(𝐱|G) 2
𝐱が凸多面体の外の場合
は[0,1) 、内の場合は1
𝐱が凸多面体の外の場
合は0 、内の場合は1
G : Ground Truth

46
 𝐓を閾値 𝜆 = 0.01で二値化
 特徴量 𝐟から超平面を推定するパラメータ 𝜔のみ学習し、
𝑆∗(𝐱)を最適化
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
3D座標𝐱の3D Shape内外判定
をGround Truthと一致させる項
凸多面体の重複を避ける
ための項

47
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
ℒrecon
∗ = Ε 𝐱~G 𝐹(𝐱|G) ∙ max 𝑆∗ 𝐱 , 0
+Ε 𝐱~G 1 − 𝐹(𝐱|G) ∙ 1 − min 𝑆∗ 𝐱 , 1
𝑆∗
𝐱 : 𝐱が凸多面体の外の場合は> 0 、内の場合は0
𝐹 𝐱 G : 𝐱が凸多面体の外の場合は0 、内の場合は1

48
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
ℒrecon
∗ = Ε 𝐱~G 𝐹(𝐱|G) ∙ max 𝑆∗ 𝐱 , 0
+Ε 𝐱~G 1 − 𝐹(𝐱|G) ∙ 1 − min 𝑆∗ 𝐱 , 1
𝑆∗
多面体内のLoss

49
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
ℒrecon
∗ = Ε 𝐱~G 𝐹(𝐱|G) ∙ max 𝑆∗ 𝐱 , 0
+Ε 𝐱~G 1 − 𝐹(𝐱|G) ∙ 1 − min 𝑆∗ 𝐱 , 1
𝑆∗
多面体外のLoss

50
(9)argmin
𝜔
ℒrecon
∗ + ℒoverlap
∗
𝑆∗
𝑀 𝐱 : 𝐱が１つ以上の凸多面体の内の場合は1
ℒoverlap
∗
= −Ε 𝐱~G 𝑀(𝐱)𝑆∗
𝐱

実験で使用したパラメータ
51
 2D
 直線数: p=256
 凸多角形数: c=64
 encoder: ResNet-18
 3D
 平面数: p=4096
 凸多面体数: c=256
 encoder: 3D CNN (for voxel data)

Auto-encoding 2D shapes
52
 2Dの合成画像データセット
 64x64画像上に左から四角、クロス、中空の四角を並べた画
像
 Stage-2の方が1よりも良い結果
 Overlap Lossがコンパクトな表現に寄与

Auto-encoding 2D shapes
53
 凸多面体を表現するために使用された平面の例

Auto-encoding 3D Shapes
54
3D Shapeを入力とし、メッシュ生成
 ShapeNet (Part) Dataset
 air-plane, car, chair, lamp, tableの5クラス
 １クラスごとに１モデル学習
 以下のパフォーマンスを評価
 Reconstruction
 Segmentation

55
パーツへ分割する既存研究と比較
 Volumetric Primitives (VP)
 Tulsiani, S., Su, H., Guibas, L. J., Efros,A.A., & Malik, J. (2017). Learning
shape abstractions by assembling volumetric primitives. In Conference on
ComputerVision and Pattern Recognition.
 3D ShapeをPrimitive Shapeの集合で表現
 Super Quadrics (SQ)
 Paschalidou, D., Ulusoy,A. O., & Geiger,A. (2019). Superquadrics revisited:
Learning 3D shape parsing beyond cuboids. IEEE Conference on Computer
Vision and Pattern Recognition, 2019-June, 10336–10345.
 3D Shapeを超楕円体 (Super Quadrics)の集合で表現
 Branched Auto Encoders (BAE)
 Chen, Z.,Yin, K., Fisher, M., Chaudhuri, S., & Zhang, H. (2019). BAE-NET :
Branched Autoencoder for Shape Co-Segmentation. In International
Conference on ComputerVision.
 3D Shapeを陰関数で表現したパーツの集合で表現

56
 Semantic Segmentationの結果
 GroundTruthについたパーツごとのラベル情報を元に投票
 同じSemanticの凸多面体をグルーピングして色付け

57
 SegmentationとReconstruction結果の比較

Auto-encoding 3D Shapes (定量評価)
58
 Surface Reconstructionの定量評価
 Chamfer Distance (CD)
 Normal Consistency (NC)
 Light Field Distance (LFD)

Auto-encoding 3D Shapes (定量評価)
59
 Segmentationの定量評価
 ラベルごとのIoU

Single View Reconstruction (SVR)
60
１枚の画像から３次元モデル生成
 ShapeNetの1000以上の形状から3D-R2N2という手法を
用いてViewを描画
 １つのモデルですべてのカテゴリを学習

61
以下の手法と比較
 Atlasnet
 Groueix,T., Fisher, M., Kim,V. G., Russell, B. C., & Aubry, M. (2018).A
Papier-Mache Approach to Learning 3D Surface Generation. In
Conference on ComputerVision and Pattern Recognition.
 OccNet
 Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., & Geiger,A.
(2019). Occupancy Networks: Learning 3D Reconstruction in
Function Space. Conference on ComputerVision and Pattern Recognition.
 IM-NET
 Chen, Z. (2019). Learning Implicit Fields for Generative Shape
Modeling. Conference on ComputerVision and Pattern Recognition.

62
 定量評価
 Atlas0: 1つの球形パッチ使用
 Atlas25: 25個の正方形パッチを使用

63
 全カテゴリでの平均
 #V: 頂点数
 #F: 三角メッシュ数

64
 同じSemanticを持つパートを色付けした例

結論と課題
65
 凸多面体の集合として、3Dメッシュを生成するBSP-Netを
提案
 平面の集合として凸多面体を学習
 既存手法と比較し、定量的な性能を落とすことなく、
シャープな形状を表現できるなど、定性的に優れている
 凸多面体の集合で表せないような形状（例：コーヒーカッ
プのような凹面を持つもの）は苦手
 推論は早いが学習は遅い
 SVRタスクですべてのカテゴリを学習するのにRTX2080Tiで６
日

20200704 bsp net

Recommended

More Related Content

What's hot (20)

Similar to 20200704 bsp net (20)

More from Takuya Minagawa (13)

20200704 bsp net