SlideShare a Scribd company logo
第61回 CV勉強会@関東「CVPR2023読み会(前編)」
State Space Models
for Event Cameras
2024/07/07 takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
博士(工学)
「コンピュータビジョン勉強会@関東」主催
株式会社フューチャースタンダード 技術顧問
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
http://visitlab.jp
事業内容
1. R&Dコンサルティング
2. 受託研究/開発
3. 開発マネジメント
4. 開発コンサルティング
5. ビジネス化コンサルティング
3
IoT管理ミドルウェア:シナリオエンジン
4
 ノーコードで人やモノなどを「動的に」管理するためのルールエンジ
ン
 「いつ」、「どこで」、「誰(何)が」、「何をした」かをトリガーに、サイ
ネージやAR、Webサーバーなどのアクションを制御できる。
 特許取得済み
アクション
人:歩く 人:歩く
AR探索アドベンチャー
5
 スマホでイラスト、ランド
マーク、ものなどを撮影
すると、キャラクターやア
イテムが現れてストー
リーが進むアドベン
チャーゲーム。
 アプリインストール不要
 シナリオエンジンにより、
ユーザの行動や天候、混
雑具合によって動的なス
トーリー変更が可能
拡張現実感(AR)
紹介する論文
7
 State Space Models for Event Cameras
 Nikola Zubic, Mathias Gehrig, Davide Scaramuzza
 Robotics and Perception Group, University of Zurich, Switzerland
 イベントカメラを用いた物体検出等を行う従来手法は、学習測度の
問題や、学習時と異なる周波数に対応できない問題を、状態空間
モデル(SSM)を導入することで解決
イベントカメラ
8
 輝度の変化のみ転送
 非同期なイベントシーケンスを発生
 低遅延、ブラー無し、High Dynamic Range
Related Work
9
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
Related Work
10
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘)
画素の
座標
発生
時刻
変化方向
(正/負)
(2𝑇, 𝐻, 𝑊)とすることで、
画像として処理
Related Work
11
 Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for
Object Detection with Event Cameras. Proceedings of the IEEE Computer
Society Conference on ComputerVision and Pattern Recognition (CVPR)
 VisionTransformer + LSTMを用いて、イベントカメラから物体検出
空間内での
Local Window
Self-Attention
空間内での
Dilated
Attention
本手法
12
 LSTMを状態空間モデル(State Space Model)に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block
状態空間モデル(SSM)の利用
13
SSM利用のメリット:
 既存手法と比べて、長い時系列データを扱える
 学習が高速
 学習時と推論時で異なる周波数を扱うことができる。
 今回、S4、S4D、S5というSSMを使用。
 次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解
説
HiPPO
14
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数(直交多項式の和)で近似することで、理論上無限長の
系列を扱うことができる。
HiPPO
15
 Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent
memory with optimal polynomial projections.Advances in Neural Information
Processing Systems (NeurIPS).
 系列データを関数(直交多項式の和)で近似することで、理論上無限長の
系列を扱うことができる。
任意の関数𝑓(𝑡)
からサンプリングし
た系列データ𝑓𝑖
系列データをN個の
直交多項式へ投影
𝜇(𝑡𝑖)
: 測度(=データへの重み)
基底関数(直交多項
式)の係数𝑐(𝑡)
係数𝑐(𝑡)を逐次的に更新
離散化
𝐴𝑘はサンプリング間隔∆t
に依存しない(学習時と推
論時に異なる周波数に対
応)
LSSL
16
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
LSSL
17
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
HiPPO
ሶ
𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
LSSL
18
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
LSSL
19
 Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent,
Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural
Information Processing Systems (NeurIPS)
 HiPPOを状態空間モデルへ拡張
 逐次処理を畳み込み処理として並列化
状態空間モデル
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡
入力
内部状態
出力
離散化状態空間モデル
𝑥𝑘 = ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘
𝑦𝑘 = ҧ
𝐂𝑥𝑘 + ഥ
𝐃𝑢𝑘
離散化状態空間モデルを展開すると、畳み込み演算
に変換できる
(ഥ
𝐃𝑢𝑘はSkip Connectionとみなして省略)
𝑦𝑘 = ҧ
𝐂(ഥ
𝐀𝑥𝑘−1 + ഥ
𝐁𝑢𝑘)
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝑥𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝟐
𝑥𝑘−2 + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
↓
𝑦𝑘 = ҧ
𝐂ഥ
𝐀𝒌ഥ
𝐁𝑢0 + ҧ
𝐂ഥ
𝐀𝒌−𝟏ഥ
𝐁𝑢1 + ⋯ + ҧ
𝐂ഥ
𝐀ഥ
𝐁𝑢𝑘−1 + ҧ
𝐂ഥ
𝐁𝑢𝑘
↓
𝑦 = ഥ
𝑲 ∗ 𝒖
ഥ
𝑲 = ҧ
𝐂ഥ
𝐁, ҧ
𝐂ഥ
𝑨ഥ
𝐁, … , ҧ
𝐂ഥ
𝐀𝐿−1ഥ
𝐁
…
S4
20
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences
With Structured State Spaces. International Conference on Learning
Representations (ICLR).
 畳み込みカーネルഥ
𝑲の計算を様々な数学的テクニックを用いて簡
略化
S4
21
 Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith
Structured State Spaces. International Conference on Learning Representations
(ICLR).
 畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化
Diagonal Plus Low-Rank
𝑨 = 𝚲 − 𝒑𝒒∗
対角行列と低階級の和
ሶ
𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡
𝑦 𝑡 = 𝐂𝑥 𝑡
周波数領域で畳
み込みカーネル
𝑲を生成
周波数領域で
𝒖と𝑲を乗算
(=時間領域で
畳み込み)
入力信号𝒖を
フーリエ変換
出信号𝒚を逆
フーリエ変換
S4D
22
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、S4より簡易な手法を提案
S4D
23
 Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and
Initialization of Diagonal State Space Models. Advances in Neural Information
Processing Systems (NeurIPS)
 HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして
も、実験的にうまくいくことがわかっている。
 この現象を数学的に解析し、より簡易な手法を提案
対角行列
S5
24
 Smith, J.T. H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers
for Sequence Modeling. International Conference on Learning Representation (ICLR)
 S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理
 S4D同様DPLRの対角成分のみ使用
 畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
本手法
25
 LSTMを状態空間モデル(State Space Model)に置き換え
る
 RVT Block → SSM-ViT Block
SSM-ViT Block
Low-pass bandlimiting
26
 学習時よりも高い周波数の信号に対し推定を行う場合、
エイリアシングの問題が発生
 以下の2つの対策を取る
 Output Masking:
 畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の
時、Nyquist limit)
 𝐶𝑛 = ൝
𝐶𝑛 if 𝑓𝑛 ≤
𝛼
2
,
0 otherwise,
 𝐇2 Norm
 損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム
の和を加える
Experiments
27
 以下の2つのイベントカメラデータセットに対して評価
 Gen 1
 https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive-
detection-dataset/
 1 Mpx
 https://www.prophesee.ai/2020/11/24/automotive-megapixel-event-
based-dataset/
 ベースモデル:ViT-SSM-B
 軽量モデル:ViT-SSM-S
 学習はTimeWindow Size 50ms (20Hz)、binの数は10で
行った
Gen1/1 Mpxデータセットでの評価
28
 Competitiveな性能を非常に速い推論速度で達成
異なる周波数での評価
29
 周波数が上がるにつれ、他の手法が大幅に性能を落と
すのに対し、本手法での劣化はわずか
SSMs: initialization & bandlimiting
30
 SSMのモデルと初期化方法、周波数制限パラメータ毎の
比較(初期化法の詳細はS4Dの論文参照)
モデル名-初期化法
SSM Utilization Analysis
31
 各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ
性能に影響をしているかの評価
Evaluation at different frequencies
32
DSECデータセットでの評価
33
 1 Mpxデータセットで学習したモデルでDSECデータセットを評価
 結果動画
 https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175
結論
34
 イベントカメラの物体検出タスクに対して、Vision
TransformerとState Space Modelを利用することで、高周
波数帯で、従来法に比べて30 mAP以上高い精度と33%
の学習速度の向上を達成した。
 SSM-ViTモデルは、学習時とは異なる周波数での推論に
対しても、追加学習無しで適応可能。
 更にOutput Maskingと𝐇2 Norm調整によって特に高周
波で問題となるエイリアシングを抑えることができた。
Ad

More Related Content

What's hot (20)

卒業論文プレゼン
卒業論文プレゼン卒業論文プレゼン
卒業論文プレゼン
Fumiaki Uchimura
 
データ活用をするための組織
データ活用をするための組織データ活用をするための組織
データ活用をするための組織
Kon Yuichi
 
Can ChatGPT be compatible with the GDPR? Discuss.
Can ChatGPT be compatible with the GDPR? Discuss.Can ChatGPT be compatible with the GDPR? Discuss.
Can ChatGPT be compatible with the GDPR? Discuss.
Lilian Edwards
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
Tetsutaro Watanabe
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
Preferred Networks
 
For MANABIYA
For MANABIYAFor MANABIYA
For MANABIYA
ssuserafaae8
 
Arduino based 74-series integrated circuits testing system at gate level
Arduino based 74-series integrated circuits testing system at gate level Arduino based 74-series integrated circuits testing system at gate level
Arduino based 74-series integrated circuits testing system at gate level
IJECEIAES
 
IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~
IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~
IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~
LFDT Tokyo Meetup
 
服装について
服装について服装について
服装について
Ohta Atsushi
 
IIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっています
IIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっていますIIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっています
IIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっています
IIJ
 
機械学習システム構築実践ガイド
機械学習システム構築実践ガイド機械学習システム構築実践ガイド
機械学習システム構築実践ガイド
yusuke shibui
 
OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料
OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料
OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料
OpenID Foundation Japan
 
ブロックチェーン技術が拓くオープンサイエンスの未来.pdf
ブロックチェーン技術が拓くオープンサイエンスの未来.pdfブロックチェーン技術が拓くオープンサイエンスの未来.pdf
ブロックチェーン技術が拓くオープンサイエンスの未来.pdf
Hiro Hamada
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
MicroAd, Inc.(Engineer)
 
SQL(NEW).pptx
SQL(NEW).pptxSQL(NEW).pptx
SQL(NEW).pptx
PoojaChawan2
 
IoT 時代における省電力長距離無線通信(LPWA)の選び方と LoRaWAN や Sigfox の活用方法
IoT 時代における省電力長距離無線通信(LPWA)の選び方とLoRaWAN や Sigfox の活用方法IoT 時代における省電力長距離無線通信(LPWA)の選び方とLoRaWAN や Sigfox の活用方法
IoT 時代における省電力長距離無線通信(LPWA)の選び方と LoRaWAN や Sigfox の活用方法
SORACOM,INC
 
新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~
新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~
新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~
Fujio Toriumi
 
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
Preferred Networks
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
株式会社MonotaRO Tech Team
 
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
Youichiro Miyake
 
データ活用をするための組織
データ活用をするための組織データ活用をするための組織
データ活用をするための組織
Kon Yuichi
 
Can ChatGPT be compatible with the GDPR? Discuss.
Can ChatGPT be compatible with the GDPR? Discuss.Can ChatGPT be compatible with the GDPR? Discuss.
Can ChatGPT be compatible with the GDPR? Discuss.
Lilian Edwards
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
Tetsutaro Watanabe
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
Preferred Networks
 
Arduino based 74-series integrated circuits testing system at gate level
Arduino based 74-series integrated circuits testing system at gate level Arduino based 74-series integrated circuits testing system at gate level
Arduino based 74-series integrated circuits testing system at gate level
IJECEIAES
 
IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~
IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~
IoT×Blockchain活用事例 ~トイレに学ぶHyperledger Fabricシステム開発の勘所~
LFDT Tokyo Meetup
 
服装について
服装について服装について
服装について
Ohta Atsushi
 
IIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっています
IIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっていますIIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっています
IIJ Technical DAY 2019 ~ IIJのサーバインフラはここまでやっています
IIJ
 
機械学習システム構築実践ガイド
機械学習システム構築実践ガイド機械学習システム構築実践ガイド
機械学習システム構築実践ガイド
yusuke shibui
 
OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料
OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料
OpenID Bizday #9 - 山崎重一郎氏 プレゼン資料
OpenID Foundation Japan
 
ブロックチェーン技術が拓くオープンサイエンスの未来.pdf
ブロックチェーン技術が拓くオープンサイエンスの未来.pdfブロックチェーン技術が拓くオープンサイエンスの未来.pdf
ブロックチェーン技術が拓くオープンサイエンスの未来.pdf
Hiro Hamada
 
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
アドテクを支える基盤 〜10Tバイト/日のビッグデータを処理する〜
MicroAd, Inc.(Engineer)
 
IoT 時代における省電力長距離無線通信(LPWA)の選び方と LoRaWAN や Sigfox の活用方法
IoT 時代における省電力長距離無線通信(LPWA)の選び方とLoRaWAN や Sigfox の活用方法IoT 時代における省電力長距離無線通信(LPWA)の選び方とLoRaWAN や Sigfox の活用方法
IoT 時代における省電力長距離無線通信(LPWA)の選び方と LoRaWAN や Sigfox の活用方法
SORACOM,INC
 
新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~
新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~
新しい言論空間がもたらす社会的リスクとその解決~計算社会科学による情報的健康の実現~
Fujio Toriumi
 
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
深層学習による製造業のスマート化と産業応用の将来展望(クオリティフォーラム2020講演資料)
Preferred Networks
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
株式会社MonotaRO Tech Team
 
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
人工知能のための哲学塾 第三夜「デカルトと機械論」 資料 (全五夜+第零夜)
Youichiro Miyake
 

Similar to 第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras (20)

20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
 
survey on math transformer 2023 0628 sato
survey on math transformer 2023 0628 satosurvey on math transformer 2023 0628 sato
survey on math transformer 2023 0628 sato
satoyuta0112
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
Takuya Minagawa
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
20190831 3 d_inaba_final
20190831 3 d_inaba_final20190831 3 d_inaba_final
20190831 3 d_inaba_final
DaikiInaba
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
Takuya Minagawa
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
Shoki Miyagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
Recruit Lifestyle Co., Ltd.
 
Visual slam
Visual slamVisual slam
Visual slam
Takuya Minagawa
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa
 
survey on math transformer 2023 0628 sato
survey on math transformer 2023 0628 satosurvey on math transformer 2023 0628 sato
survey on math transformer 2023 0628 sato
satoyuta0112
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
20190831 3 d_inaba_final
20190831 3 d_inaba_final20190831 3 d_inaba_final
20190831 3 d_inaba_final
DaikiInaba
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
Takuya Minagawa
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
Takuya Minagawa
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
Non-autoregressive text generation
Non-autoregressive text generationNon-autoregressive text generation
Non-autoregressive text generation
nlab_utokyo
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
"There and Back Again: Revisiting Backpropagation Saliency Methods" (CVPR2020)
Shoki Miyagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
Recruit Lifestyle Co., Ltd.
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
Takuya Minagawa
 
Ad

More from Takuya Minagawa (20)

「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
Takuya Minagawa
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
Takuya Minagawa
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
Takuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
「第63回コンピュータビジョン勉強会@関東」発表資料 CVの社会実装について考えていたらゲームを作っていた話
Takuya Minagawa
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
Takuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
Takuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
Takuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
Takuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
Takuya Minagawa
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
Takuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
Takuya Minagawa
 
Ad

第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  • 3. 事業内容 1. R&Dコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5. ビジネス化コンサルティング 3
  • 6. 紹介する論文 7  State Space Models for Event Cameras  Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の 問題や、学習時と異なる周波数に対応できない問題を、状態空間 モデル(SSM)を導入することで解決
  • 8. Related Work 9  Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出
  • 9. Related Work 10  Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘, 𝑦𝑘, 𝑡𝑘, 𝑝𝑘) 画素の 座標 発生 時刻 変化方向 (正/負) (2𝑇, 𝐻, 𝑊)とすることで、 画像として処理
  • 10. Related Work 11  Gehrig, M., & Scaramuzza, D. (2023). RecurrentVisionTransformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on ComputerVision and Pattern Recognition (CVPR)  VisionTransformer + LSTMを用いて、イベントカメラから物体検出 空間内での Local Window Self-Attention 空間内での Dilated Attention
  • 11. 本手法 12  LSTMを状態空間モデル(State Space Model)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block
  • 12. 状態空間モデル(SSM)の利用 13 SSM利用のメリット:  既存手法と比べて、長い時系列データを扱える  学習が高速  学習時と推論時で異なる周波数を扱うことができる。  今回、S4、S4D、S5というSSMを使用。  次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解 説
  • 13. HiPPO 14  Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections.Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。
  • 14. HiPPO 15  Gu,A., Dao,T., Ermon, S., Rudra,A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections.Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。 任意の関数𝑓(𝑡) からサンプリングし た系列データ𝑓𝑖 系列データをN個の 直交多項式へ投影 𝜇(𝑡𝑖) : 測度(=データへの重み) 基底関数(直交多項 式)の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新 離散化 𝐴𝑘はサンプリング間隔∆t に依存しない(学習時と推 論時に異なる周波数に対 応)
  • 15. LSSL 16  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化
  • 16. LSSL 17  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡
  • 17. LSSL 18  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘
  • 18. LSSL 19  Gu,A., Johnson, I., Goel, K., Saab, K., Dao,T., Rudra,A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算 に変換できる (ഥ 𝐃𝑢𝑘はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐 𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …
  • 19. S4 20  Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニックを用いて簡 略化
  • 20. S4 21  Gu,A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long SequencesWith Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳 み込みカーネル 𝑲を生成 周波数領域で 𝒖と𝑲を乗算 (=時間領域で 畳み込み) 入力信号𝒖を フーリエ変換 出信号𝒚を逆 フーリエ変換
  • 21. S4D 22  Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案
  • 22. S4D 23  Gu,A., Gupta,A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案 対角行列
  • 23. S5 24  Smith, J.T. H.,Warrington,A., & Linderman, S.W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)
  • 24. 本手法 25  LSTMを状態空間モデル(State Space Model)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block
  • 25. Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、 エイリアシングの問題が発生  以下の2つの対策を取る  Output Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛を選択的にマスクする(𝛼 = 1の 時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛以上の周波数スペクトラム の和を加える
  • 26. Experiments 27  以下の2つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/  1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル:ViT-SSM-B  軽量モデル:ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で 行った
  • 29. SSMs: initialization & bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の 比較(初期化法の詳細はS4Dの論文参照) モデル名-初期化法
  • 30. SSM Utilization Analysis 31  各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ 性能に影響をしているかの評価
  • 31. Evaluation at different frequencies 32
  • 32. DSECデータセットでの評価 33  1 Mpxデータセットで学習したモデルでDSECデータセットを評価  結果動画  https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175
  • 33. 結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周 波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。  SSM-ViTモデルは、学習時とは異なる周波数での推論に 対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周 波で問題となるエイリアシングを抑えることができた。