[DL輪読会]Graph R-CNN for Scene Graph Generation

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Graph R-CNN for Scene Graph Generation
（ECCV2018）
Norihisa Kobayashi

書誌情報
2
Graph R-CNN for Scene Graph Generation（ECCV 2018）
（https://arxiv.org/abs/1808.00191）
タイトル：
著者： Jianwei Yang, Jiasen Lu, Stefan Lee, Dhruv Batra, Devi Parikh
• 画像中の対象物の関係を検出するGraph R-CNNと呼ぶ新しいグラフ生成モデルを提案
• 画像内のオブジェクト間の関係性を扱う関係提案ネットワーク（RePN）を提案
• オブジェクトと関係間のコンテキスト情報を効果的に捕捉する注目グラフ畳み込みネットワーク
（aGCN）を提案
• Scene Graph生成のための評価メトリック（SGGen+）を提案
概要：

アジェンダ
3
1. 概要
2. 関連研究
3. 提案手法
4. 評価手法
5. 実験
6. まとめ

1. 概要
• 視覚シーンの理解は、従来、画像内のオブジェクトの識別（画像認識）と、空間的範囲の予測
（物体検出）に焦点が当てられてきた。
• 画像認識や物体検出の技術は、近年著しく成熟しているが、シーンを理解するために不可欠な
オブジェクトの集合の関係性を捉えることができていない。
• シーングラフは、画像キャプション、視覚的質問応答など、より高レベルの視覚情報タスクをサポート
することができると考えられている
4
背景
シーングラフ表現を効率的かつ正確に抽出したい

1. 概要
5
• シーングラフの生成には、画像内のオブジェクトおよび関係を合わせて検出する必要がある。
• 一つのアプローチとしては、オブジェクト提案のすべてのペアを潜在的なエッジとして結び、完全に接続されたグ
ラフ上で推論すること。しかし、オブジェクトの提案数が増えたときには、2次的にスケールするため、すぐに実用
的でなくなる。
オブジェクトの数がnとすると、
オブジェクトと関係の数は
O(𝑛2
)となり、計算量が膨大

1. 概要
6
• タイヤ（黄色いノード）は、車（赤いノード）の上に発生しやすい [関係性が高い]
• 車（赤いノード）は、建物（緑のノード）とはあまり関係性がない [関係性が低い]
解決の方向性
オブジェクト同士は、関係性が高いものと低いものがある。
⇒現実の世界では、相互に関係のあるオブジェクトは少ない。関係性があるものを厳選したい。

1. 概要
7
Graph R-CNNの処理の流れ
RPNを利用してシーン内
に見えるオブジェクトの集
合を抽出。
RePNを介して、可能性の
低い関係を削除し、よりス
パースな候補グラフ構造を
生成する。
aGCNで隣接ノードから
文脈情報を統合する。
すべてのノード間の可能な
関係を考慮する。

2. 関連研究
8
Faster R-CNN[Ren, Shaoqing, et al. NIPS 2015]
• Fast R-CNNにRegion Proposal Network(RPN)を導入して、更に高速化したアルゴリズム。
• Region Proposal Network(RPN)は、Feature mapsを使って効率よく領域候補を生成する仕組み。
①
CNNの畳み込み層を使って
Feature mapsを生成する
Sliding windowで切り出した
Feature mapsから、領域候
補を生成
②

2. 関連研究
9
Relationship Proposal Networks(Rel-PN)[Ji Zhang et al. CVPR 2017]
• subject、objects、predicatesを独立して予測し、有効な３つの組み合わせをscore付けする。
• クラスに依存せず、シーングラフは生成しない

2. 関連研究
10
Pixels to Graphs by Associative Embedding[Newell et al. NIPS 2017]
• オブジェクト検出器を使わずに、画像ピクセルからシーングラフを直接生成することを提案

3. 提案手法
11
Graph R-CNN
入力画像Iから、S=(V, E, O, R)を求めるモデルを作る。
V：Iの物体領域と対応したグラフのノード
E：物体間の関係性（グラフのエッジ）
O：物体
R：物体のラベル
すなわち、画像を入力した時に、物体位置と物体間の関係を出力するようなモデルを作る。
そのために、モデルを３つの要素（物体検出, 関係性検出, グラフラベリング）に分解する。

3. 提案手法
12
Graph R-CNN
物体検出
(Faster R-CNN)
関係性検出
(RePN)
グラフラベリング
(aGCN)

3. 提案手法
13
Graph R-CNNの構造
RPNを利用してシーン内に見えるオ
ブジェクトの集合を抽出。すべての
ノード間の可能な関係を考慮する。
RePNを介して、可能性の低い関
係を削除し、よりスパースな候補グ
ラフ構造を生成する
aGCNで隣接ノードから文
脈情報を統合する
Scene Graphを生成！

3. 提案手法
14
Object proposals
Object proposalsは、Faster R-CNNで実装。
出力は、空間的な位置𝑟𝑖
𝑜
= {𝑥𝑖, 𝑦𝑖, 𝑤𝑖, ℎ𝑖}、特徴ベクトル𝑥𝑖
𝑜
∈ 𝑅 𝑑, クラス推定ラベル𝑝𝑖
𝑜
∈ 𝑅 𝐶の3つ。
これらをproposalの数n個並べたものを、𝑅 𝑜
∈ ℝ 𝑛×4
, 𝑋 𝑜
∈ ℝ 𝑛×𝑑
, 𝑃 𝑜
∈ ℝ 𝑛×𝐶
とする。

3. 提案手法
15
Relation Proposal Network（RePN）
• Object proposalsによって、n個の物体領域候補が得られた時、connection
は、𝑂 𝑛2
で計算可能。
• しかし、基本的に多くの物体ペアは、関係性を持たないため、Relation
Proposal Net(RePN)によって、その規則性をモデル化する。
• RePNは、物体間の関連度合い（relatedness）を効率的に推定し、関連度
の低いエッジを切ることで、シーングラフ候補を減らす。
• relatednessの推論には、クラス推定結果の分布𝑃 𝑂
を使う。具体的には、𝑃 𝑂
が得られたらエッジの方向を含んだすべ
ての組み合わせ𝑛・(𝑛 − 1)について、relatedness 𝑠𝑖𝑗 = 𝑓(𝑝𝑖
𝑂
, 𝑝𝑗
𝑂
)を計算する。
• 𝑓は、学習によって得られる関数で、ここでは[𝑃𝑖
𝑂
, 𝑃𝑗
𝑂
]を入力とする多層パーセプトロン(MLP)を考える。
• そのまま計算すると、入力のペアの２乗回計算が必要になるため、非対称カーネル関数を使って計算を行う。
relatednessを推定し、関
連の低いエッジを切る

3. 提案手法
16
Relation Proposal Network
• すべての関連性スコアが0〜1の範囲になるように、最後にsigmoid関数を適用する。
• すべてのオブジェクトペアのスコア行列を取得した後、スコアを降順でソートし、top Kを選択する。
• relationshipにおけるsubject と objectの射影関数として、Φ(・)と Ψ(・)を定義。
• Φ(・) とΨ(・)に対して同じアーキテクチャで異なるパラメータを持つ、2つの多層パーセプトロン（MLP）を使用。
• この分解により、score matrix 𝑆 = {𝑠𝑖𝑗} 𝑛×𝑛
が行列積で表現できる。

3. 提案手法
17
Relation Proposal Network
IoUの計算
• 𝐼, 𝑈はそれぞれ、bounding box間の交差(intersection)領域と、結合(union)領域。
• ２つの物体のペア{𝑢, 𝑣}, {𝑝, 𝑞}を対象とする点が、一般的なIoUと異なる。
以上の計算より、m個の物体ペアを表現したグラフ 𝑔 = (𝑉, 𝐸)を得て、
個々のペアのunion boxからvisual representations 𝑋 𝑟 = {𝑥1
𝑟
, … , 𝑥 𝑚
𝑟 }を取得する。

3. 提案手法
18
グラフコンテキストを統合する
• RePNによってグラフ構造をスパースにした後に、Attentional GCNsを使って、シーングラフのラベルを推測する。

3. 提案手法
19
Attentional GCN
• グラフ構造から、contextual informationを得るためのモデル。
• グラフ畳み込みネットワーク（GCN）をシーングラフ生成に拡張し、
attentionメカニズムを追加。
• 𝜎は非線形関数ReLU 。𝑍 ∈ 𝑅 𝑑×𝑇𝑛は特徴量を並べた行列。
• 隣接行列は、ノード𝑖, 𝑗が隣接関係にある時、α𝑖𝑗 = 1でそれ以外は0の値を持つ。ただし、ここでは対角成分は１とする。
重み行列に隣接行列を掛けることで、隣接関係がある所のみ重みが残る。
GCNは、グラフの各ノード𝑖が特徴量𝑧 𝑖
∈ ℝ 𝑑
を持つとし、隣接ノードの特徴量を{𝑧𝑗|𝑗 ∈ 𝑁(𝑖)}とする。
GCNに対して、学習される重み𝑊と隣接行列𝛼を使って以下のような変換を行う

3. 提案手法
20
Attentional GCN
• 本論文では、GCNの𝛼を２層MLPを使って以下のように求める。
• 𝑤ℎ, 𝑊𝑎は学習パラメータ。[・,・]は連結(concatenation)を表す。
• 𝛼はsoftmaxの値に関わらず対角成分は1、隣接関係が無いノードに対応する要素は0にする。
• 隣接行列にアテンションのメカニズムを追加している。

3. 提案手法
21
aGCN for Scene Graph Generation
• すべてのオブジェクトノード間にスキップ接続を挿入する。（他研究※にてパフォーマンスが向上することが示されている）
• 現状得られたグラフには、object ↔ relationship、relationship ↔ subject、object ↔ objectに関係する接
続がある。また、subject→relationshipと、relationship→subjectで接続の意味合いが変わることが考えられる。
そこで、タイプsからタイプoへの変換（例：s=subject → o=objectsへの変換）の重み行列を𝑊 𝑠𝑜
と定義すると
以下で表現できる。
objcetに関する特徴量の更新
relationshipに関する特徴量の更新
object→relationshipsubject→relationship
relationship→subject relationship→object
objcet→objcet
※Relation networks for object detection[Hu, H.et al. CVPR 2018]

3. 提案手法
22
loss function
multi-class cross entropyを使って、
物体の分類、述語の分類を学習
𝑃(𝑉|𝐼)、𝑃(𝐸| 𝑉, 𝐼)、𝑃(𝑅, 𝑂| 𝑉, 𝐸, 𝐼)をそれぞれ教師ありで学習
Faster R-CNNのRPNと同様
の損失関数を使用
binary cross entropyを使って、
各objectペアの関係性の有無を学習

4. 評価指標
23
本論文では、Scene Graph生成のための評価メトリック（SGGen+）を提案
• SGGenと呼ばれるこのメトリックの下では、正解のシーングラフは＜object , relationship, subject＞の集合と
して表され、リコールは完全一致によって計算される。
• 3つの要素すべてが正しくラベル付けされ、subjectノードとobjectノードの両方が適切にローカライズされている
（すなわち、境界ボックスIoU> 0.5）場合、生成されたシーングラフで「一致」とみなされる。
SGGenとSGGen+の違いを示す例 ※(b)が正解のグラフで、(c)〜(e)の赤文字が誤った予測
• SGGenでは、＜object , relationship, subject＞の３つが一致している必要がある。
• SGGen+は、singletons（objcect とpredicate）も考慮してスコアリングする。

4. 評価指標
24
SGGen+
SGGen+は、グラフ内の＜object , relationship, subject＞の集合だけでなく、singletons（object とpredicate）
も考慮して、スコアリングする。
𝐶(𝑂)：正しくローカライズされ、認識されたobjectノードの数
𝐶(𝑃)：正しく認識されたpredicateの数。
predicateの位置は、subjectとobjectの位置に依存するため、subjectとobjectの両方が
正しくローカライズされ、predicateが正しく認識される場合のみ、それを１と数える。
𝐶(𝑇)：正しく認識された＜object , relationship, subject＞の数
𝑁：正解グラフのエントリ数（objectの数、predicateの数、relationshipの数、の合計）

5. 実験
25
データセット：Visual Genome dataset
出典：https://visualgenome.org/
• 訓練データ：75,651画像、
テストデータ：32,422画像に分割。
• 上位150個のオブジェクトクラスと、50個のリレーション
クラスが選択されている。
• 各画像には、約11.5個のオブジェクトと、6.2個の関
係がある。
訓練
• 物体検出器を事前に学習させてから、シーングラフ生成モデル
全体を学習する2段階の学習を行う。
ハイパーパラメータ RPNからの提案数:256
オブジェクトペアのサンプリング：128
NMSの閾値:0.7
学習率:0.01
optimizer：SGD

5. 実験
26
Metrices
以下の4つのメトリックを使用
- 述語分類（PredCls）
2つのオブジェクト間の関係を評価する指標。
- フレーズ分類（PhrCls）
2つのオブジェクトカテゴリを評価する手法。
- シーングラフ生成（SGGen）
オブジェクト検出（IoU > 0.5）およびオブジェクトペア間の関係を認識するためのパフォーマンス。
- 包括的なシーングラフ生成（SGGen+）
SGGenによってカウントされたトリプレットの他に、シングルトンとペア（存在する場合）を考慮する。

5. 実験
27
SGGenとSGGen+の比較
ランダムな不正なラベルを、1)関係なし、 2)関係あり、 3）関係ありなし両方のオブジェクトに割り当てる。
そして、不正なラベルの割合を20%、50%、100％のケースで比較する。
1)関係のない組のみのため、影響は少ない（一貫して100に留まる）。
2)関係を持つオブジェクトのラベルエラーには、過度に影響を受ける。ラベルが不正の場合、スコアが0になる。
SGGen
SGGen+は、1)関係なし、2）関係ありの場合でもスコアが下がり、ラベルが不正であっても0以外のスコアが付く。
⇒より包括的な指標であると考えられる。
(１) (２) (３)

5. 実験
28
シーングラフ生成性能
• 反復メッセージパッシング（IMP）、マルチレベルシーン記述ネットワーク（MSDN）などの提案手法と比較。
• 上の3行は、元の論文に記載されている結果。下の４行は本研究にて再実装した結果。
• Graph R-CNNは、IMP†、MSDN†、NM-Freq †より優れた結果となった。

5. 実験
29
モデル別の精度の比較
• Ablation studyの結果、RePNによって、SGGen、SGGen+を向上させていることがわかる。

5. 実験
30
RePNを追加したときのカテゴリごとのオブジェクト検出パフォーマンスの変化
• RePNを追加することで、ほぼすべてのカテゴリで検出パフォーマンスが上昇している。
• 他のオブジェクトと強い関係を持つ小さなオブジェクト（ラケット、シャツ、フロントガラス、ボトルなど）のカテゴリでの
検出性能が高く出た。

5. 実験
31
定性的結果
• 青色バウンディングボックスは正解領域。オレンジ色のバウンディングボックスは正しく予測した領域。
• シーングラフの青い楕円形は正しい関係。緑色の楕円形は正しく予測した関係。

6. まとめ
32
結論
• 画像中の対象物の関係を検出するGraph R-CNNと呼ぶ新しいグラフ生成モデルを提案
• 画像内のオブジェクト間の関係性を扱う関係提案ネットワーク（RePN）を提案
• オブジェクトと関係間のコンテキスト情報を効果的に捕捉する注目グラフ畳み込みネットワーク（aGCN）を
提案
• Scene Graph生成のための評価メトリック（SGGen+）を提案

Appendix
参考文献
33
• Dai, B., Zhang, Y., Lin, D.: Detecting visual relationships with deep relational networks. In: CVPR (2017)
• Das, A., Kottur, S., Gupta, K., Singh, A., Yadav, D., Moura, J.M., Parikh, D.,Batra, D.: Visual dialog. In: CVPR (2017)
• Johnson, J., Krishna, R., Stark, M., Li, L.J., Shamma, D.A., Bernstein, M., Fei-Fei,L.: Image retrieval using scene graphs. In: CVPR (2015)
• Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y.: Relation networks for object detection. In: CVPR (2018)
• Kipf, T.N., Welling, M.: Semi-supervised classification with graph convolutional networks. In: ICLR (2017)
• Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalan-tidis, Y., Li, L.J., Shamma, D.A., et al.: Visual genome:
Connecting language and vision using crowdsourced dense image annotations. IJCV 123(1), 32-73 (2017)
• Li, Y., Ouyang, W., Wang, X.: Vip-cnn: A visual phrase reasoning convolutional neural network for visual relationship detection. In: CVPR (2017)
• Newell, A., Deng, J.: Pixels to graphs by associative embedding. In: NIPS (2017)
• Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: NIPS (2015)
• Xu, D., Zhu, Y., Choy, C.B., Fei-Fei, L.: Scene graph generation by iterative message passing. In: CVPR (2017)
• Rel-PN Zhang, J., Elhoseiny, M., Cohen, S., Chang, W., Elgammal, A.: Relationship proposal networks. In: CVPR (2017)

[DL輪読会]Graph R-CNN for Scene Graph Generation

Recommended

More Related Content

What's hot (20)

Similar to [DL輪読会]Graph R-CNN for Scene Graph Generation (20)

More from Deep Learning JP (20)

[DL輪読会]Graph R-CNN for Scene Graph Generation