You Only Learn One Representation: Unified Network for Multiple Tasks

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
You Only Learn One Representation:
Unified Network for Multiple Tasks
西浦翼
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室

Copyright © 2020 Laboratory of Harmonious Systems Engineering Research Group of Synergetic Information Engineering
Division of Computer Science and Information Technology Faculty of Information Science and Technology Hokkaido University – All rights reserved.
論文情報 2
著者
・Chien-Yao Wang (Institute of Information Science)
・I-Hau Yeh (Elan Microelectronics Corporation)
・Hong-Yuan Mark Liao (Elan Microelectronics Corporation)
発表
・arXiv 2021.05
概要
・形式知と暗黙知を併用したネットワークを提案
・単一モデルのアーキテクチャでマルチタスク学習に効果的
・物体検出タスクにおいて圧倒的な性能を発揮
リンク
・https://arxiv.org/abs/2105.04206
・https://github.com/WongKinYiu/yolor

YOLO 3
物体検出モデル YOLO (You Only Look Once)
・You Only Live Once「人生は一度きり」をもじったもの
・2016年 Joseph Redmon氏が提案
・2016年12月 YOLOv2, 2018年 YOLOv3を発表
・Joseph Redmon氏は軍事利用・プライバシーの問題から研究引退
・2020年 Alexey Bochkovskiy氏が YOLOv4を提案
本人コメント「I am AI developed by Joseph Redmon to
complete his AI without his participation」
・2021年2月 YOLOv4の second author の Chien-Yao Wang氏が
Scaled-YOLOv4 を発表 (CVPR2021)
・今回 Chien-Yao Wang氏が「You Only Learn One Representation」で
YOLORを提案

YOLORのすごさ 4

人間とCNN 5
1つの画像データに対して
人間：複数の質問に答えられる
CNN：訓練した1タスクのみ
人間は明示的に学習する「形式知」と無意識に学習す
る「暗黙知」があり、この暗黙知がサポートしてる
(前提知識みたいな感じ)

形式知と暗黙知の定義 6
一般的
形式知：浅い層から得られる特徴
暗黙知：深い層から得られる特徴
本論文
形式知：入力画像の見た目から直接得られる特徴
暗黙知：入力画像の見た目からは得られず、モデルの
中の潜在的な特徴
形式知と暗黙知を統合して、種々のタスクで使える
一般的な知識を学習した単一モデルを作りたい
explicit knowledge implicit knowledge

マルチタスク NN アーキテクチャ 7
目指してる

暗黙知の導入 8
暗黙知は入力画像とは無関係
定数テンソルと見なせる

・良い特徴表現は適切に多次元空間に写像できるべき
・ベクトルを埋め込んだとき超次元平面で分割できると最高
・次元削減と種々のタスクへの応用ができる

・マルチタスクとマルチヘッドのNNでカーネル空間への
写像が良くない
・出力した特徴と暗黙知をうまく統合してカーネル空間を
転写、回転、拡大、縮小してalignしたい
・FPNの large object と small object の統合とかでも使える

暗黙知の定式化 11
一般的な CNNの学習
x:入力画像
y:タスクの目標
θ:パラメーター
f θ :NN
・種々のタスクに同時に応
用するならRelax ε を使う
・今回は(c)を作りたい

：形式知のエラー
のモデル化
：暗黙知のエラー
のモデル化
：２つのエラーを
結合
：２つの関数を
結合

次元ごとに独立次元ごとに非独立次元ごとに独立

実験 14
・データセットはMSCOCO
・モデルはYOLOv4-CSP (Scaled-YOLOv4で提案)
・ハイパーパラメーターはScaled-YOLOv4と同じ
・暗黙知を3カ所に導入
1.feature alignment
2.prediction refinement
3.multi-task learning
・multi-taskは以下３つ
1.object detection
2.classification
3.feature embedding

実験 15
FPNの特徴マップに feature alignment を適用し
たらAPが全アップした

実験 16
YOLOの出力層に prediction refinement を
適用したらAPがだいたいアップした

実験 17
一般にマルチタスクのモデルではタスク
ごとの損失関数同士で足を引っ張り合う
各タスクごとに暗黙知を導入して表現力
を上げる
単一タスク
複数タスク

実験 18
形式知と暗黙知を統合するときにどうするか

実験 19
feature alignment：add と concat はいい感じ
prediction refinement：次元が変わるのでconcatはしてない、multiいい感じ
考察として推論のとき center shift が addition decoding で anchor scale が
multiplication decoding だかららしい

実験 20
暗黙知のモデル化をどうするか
ベクトル、NN、行列因子分解の中では
行列因子分解がいい感じ

実験 21
計算時間の増加は 0.01% 未満

実験 22
事前学習や追加のデータがいらない

まとめ 23
・形式知と暗黙知を統合することで種々のタスクで
使える単一モデルを提案
・しかも計算量は0.01%未満しか増えない
・暗黙知の学習に3つの手法を紹介
・暗黙知をモデル化する3つの手法を議論
・Scaled-YOLOv4に適用して推論速度が88%改善した

You Only Learn One Representation: Unified Network for Multiple Tasks

Recommended

More Related Content

What's hot (20)

Similar to You Only Learn One Representation: Unified Network for Multiple Tasks (20)

More from harmonylab (20)

You Only Learn One Representation: Unified Network for Multiple Tasks