【DLゼミ】Generative Image Dynamics, CVPR2024

DLゼミ (論文紹介)
Generative Image Dynamics
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
博士後期課程3年森雄斗
2024/07/29

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
論文情報 2
タイトル
Generative Image Dynamics
著者
Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
Google Research
掲載
CVPR2024 (CVPR2024 Best paper)
URL
プロジェクトページ
https://generative-dynamics.github.io/
論文本体
https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative
_Image_Dynamics_CVPR_2024_paper.pdf
デモページ
https://generative-dynamics.github.io/#demo

概要 3
画像の動きに関する画像空間の事前分布 (image-
spaceprior) をモデル化する手法の提案
事前分布は、自然の周期的な物体の動きを学習
1枚の画像から拡散モデルを使用したSpectral volume
を予測
Spectral volumeから動画全体の動きに変換可能

人間が持つ予測能力 4
自然界は常に動いている
動きの再現は映像コンテンツの合成に重要
人間は静止画像を見て尤もらしい動き (の分布) を
想像できる
物体固有の物理特性や物理現象など複雑な動きをしている
人が見る静止画像
想像した動き
予想1
予想2

最近の生成モデルの発展と活用 5
拡散モデルの進歩[1]により、テキストを条件とした
実映像の分布などがモデル化可能に
本研究では、画像空間の動きのモデル化に取り組む
画像内の全画素の動きに対する事前分布を学習
学習対象の動画からSpectral volumeを計算
[1] で生成された画像の例
[1] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dock-horn, Seung Wook Kim, Sanja Fidler, and Karsten Kreis.Align your latents: High-resolution video
synthesis withlatent diffusion models. InProceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition,pages 22563–22575, 2023.

Spectral volume 6
Davisの研究[1] を参考
シーンのビデオで観察される動きを分析
周波数空間Spectral Volumeが単一画像から
モーションを予測するのに適している
空間的な位置と
時間的な変化を持つ
[1] Myers Abraham Davis. Visual vibration analysis. PhD thesis, Massachusetts Institute of Technology, 2016.

手法の概要 7
単一の画像 𝐼0 から周期的な動きを特徴とするビデオ
𝐼1, 𝐼2, . . , 𝐼𝑇 を生成することが目標
1. LDMでSpectral Volumeを予測
2. Spectral Volumeを逆離散フーリエ変換でモーションに変換
Latent Diffusion Model (LDM)
潜在拡散モデル
Spectral
Volume 𝑆
Motion Texture
𝐹 = (𝐹1,𝐹2, … , 𝐹𝑇)

モーション表現 8
2D変位ベクトル𝐹𝑡 𝑝
将来の時刻𝑡におけるピクセル𝑝の位置
時刻𝑡の予測画像𝐼′𝑡
𝐼′𝑡 𝑝 + 𝐹𝑡(𝑝) = 𝐼0(𝑝)
自然的な動きは、異なる周波数、振幅、位相で表現
可能
𝐹はビデオの長さに応じて拡大する必要あり
ビデオの長期的な時間的一貫性は保証しない
実際のビデオから抽出した
平均パワースペクトル
Spectral Volumeを採用
=ビデオから抽出した各ピクセ
ルの軌跡の時間フーリエ変換
𝒮 𝑝 = 𝐹𝐹𝑇(ℱ 𝑝 )
ℱ 𝑝 = 𝐹𝑦 𝑝 𝑡 = 1,2, … , 𝑇

周波数適応正規化 9
𝑆の係数を画像サイズで[0,1]にスケーリングすると
高周波数の係数が0に近づく
先行研究の手法
今回は周波数適応正規化を提案
各個別の周波数に対してスケーリング係数を設定
スケーリングされたフーリエ係数に累乗変換を適用

モーション予測のバックボーン 10
潜在拡散モデル (LDM) を採用
変分オートエンコーダー (VAE)
入力画像を潜在空間に圧縮するencoder 𝑧 = 𝐸(𝐼)
潜在特徴から入力を再構成するdecoder 𝐼 = 𝐷(𝑧)
U-Netベースの拡散モデル
ガウスノイズから始めて、特徴を除去することを学習

画像のレンダリング 11
予測されたSpectral volume 𝒮を用いて時刻𝑡における
画像𝐼𝑡 をレンダリング
時間領域の2D変位ベクトルを導出
ℱ 𝑝 = 𝐹𝐹𝑇−1
(𝒮 𝑝 )
深層画像ベースのレンダリングを採用
複数のピクセルが同じ出力位置にマッピングさせる可能姓が
あるため
フレーム補間に関するfeature pyramid softmax splatting
strategy[1]
[1] Simon Niklaus and Feng Liu. Softmax splatting for videoframe interpolation. InProceedings of the IEEE/CVF Con-ference on
Computer Vision and Pattern Recognition, pages5437–5446, 2020.

実験 - データセット 12
オンラインソースや実際に撮影した映像から
周期的な動きを示す自然映像3,015本を収集
テスト用に10%を使用し、残りを学習用に使用
公開はしていない
10フレームごとを入力画像として抽出し、
その後の149フレームの動きの軌跡をspectral volume
のGTとして利用
生成された動画例

実験 - 評価 13
画像合成
Frechet Inception Distance (FID) [1]
Inception-v3で取得した実際の画像と生成した画像の埋め込み
表現の分布を比較
Kernel Inception Distance (KID) [2]
サンプル数に依存しないFIDの拡張評価手法
動画合成
Frechet Video Distance (FVD)
FIDを動画に拡張した指標
[1] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bern-hard Nessler, and Sepp Hochreiter. Gans trained by a twotime-scale update rule
converge to a local nash equilib-rium.Advances in neural information processing systems,30, 2017
[2] Mikołaj Bi ́
nkowski, Danica J Sutherland, Michael Arbel,and Arthur Gretton. Demystifying MMD GANs.arXivpreprint arXiv:1801.01401, 2018.

実験結果 - 定量評価 14
画像合成とビデオ合成の指標において
先行研究よりも高精度
現実的なシーンと似た動画の生成が可能
DTFVD: 自然モーションで構成さ
せるDynamic Textures Databaseで
訓練されたモデルを使用
※通常は
18ウィン
ドウ

実験結果 – 定量評価 15
ビデオの品質と時間的一貫性の評価
異なるスライディングウィンドウでの評価
生成されたビデオは時間経過による
品質劣化の影響を受けない

実験結果 - 定性評価 16
生成された動画の動きのパターンが類似
時間経過でも動画の滑らかさや振動性に変化
を維持

アブレーションスタディ 17
適切な周波数帯数 𝐾 の推定
16以上の周波数帯域では少しの改善のみ
モジュールの追加により正答率が上昇
適応的周波数の正規化
非ノイジングモジュール
単純なDMに置き換える
softmax splatting

モデルで生成できない動画 18
非振動運動や高周波振動をモデル化できない
Spectral volumeの低周波数のみを予想
変位の大きい物体があるシーンでは
品質が低下する可能性がある

まとめ 19
画像の動きに関する画像空間の事前分布 (image-
spaceprior) をモデル化する手法の提案
事前分布は、自然の周期的な物体の動きを学習
1枚の画像から拡散モデルを使用したSpectral volume
を予測
Spectral volumeから動画全体の動きに変換可能

【DLゼミ】Generative Image Dynamics, CVPR2024

Recommended

More Related Content

What's hot (20)

Similar to 【DLゼミ】Generative Image Dynamics, CVPR2024 (20)

More from harmonylab (20)

【DLゼミ】Generative Image Dynamics, CVPR2024

Editor's Notes