【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DreamBooth: Fine Tuning Text-to-Image Diffusion Models
for Subject-Driven Generation
Takeyuki Nakae, Shiga University
2023/03/03

書誌情報
2
選定理由: 修士論文との研究に関連しそうだったため
投稿先: arXiv(2022/08/25)
https://arxiv.org/abs/2208.12242
プロジェクトページ:
https://dreambooth.github.io/

概要
• 拡散モデルの「個人化」に焦点を当てた論文
数枚の画像の主要的な視覚的特徴を別の状況のテキストが与えられても維持して表現を
可能にする。(被写体駆動型生成)
• 数枚の画像で拡散モデルを学習することを目的とする
3
類似研究(2022年08月19日):
https://deeplearning.jp/an-image-is-worth-one-word-personalizing-text-to-image-generation-using-textual-inversion/
入力画像生成画像
入力画像に登場し
た犬が生成時に登
場していることが
確認できる

背景
拡散モデルの強み
• 膨大なデータの意味を事前学習している所(意味的事前情報)
「犬」という単語を様々な単語と結び付けられる
例): 赤の蝶ネクタイと紫のパーティー帽をつけたコーギー→
この場合、「犬」と「蝶ネクタイ」と「パーティー帽」が結び付けられてい
る
4
この強みは、想像上でしかないシーンの画像を作成することができ、
自分の飼っている犬を見たことのないシーンに登場させるなどの活用ができる。

背景
「自分の飼っている犬を見たことのないシーンに登場させる」際の問題点
• 与えられた画像の被写体の外観を模倣する能力の欠如(図1)
→出力領域の表現力に限界があるため
• 与えられた画像の被写体に対する新しい表現の獲得の困難(図2)
→与えられた画像に対して過学習を起こすため
5
微調整
図2:被写体の新しい表現を獲得できない例
入力されたダックスフンドしか生成しなくなる
図1: 被写体の外観を模倣できない例
テキストプロンプトをいくらいじってもinput imagesの
画像を再現できない
生成モデル(出力) 生成モデル(出力)

本論文の目玉
6
上記の課題を解決するために本論文では、拡散モデルの「個人化」を目指す。
• 数枚の被写体の画像を学習することで拡散モデルに被写体を生成させる
→与えられた数枚の被写体画像をモデルの出力領域に埋め込み、一意の識別子と合成できるよう
にする
• 数枚の学習でも過学習(言語ドリフト)を起こさせないために新たな損失関数の提案
→事前に学習している意味的事前分布を保持するための損失関数
6
微調整
図2:被写体の新しい表現を獲得できない例
与えられた画像に対して過学習
図1: 被写体の外観を模倣できない例
出力領域の表現力の限界
生成モデル(出力) 生成モデル(出力)

Preliminaries(前提知識)
• DreamBoothの拡散モデルはcascaded diffusion modelsが使用されている
7
• また中間画像にノイズを付与して画像を破損し、その後破損のレベルに応じてSR
moduleに条件付き学習を行う。
cascaded diffusion models
SR moduleによる
拡大
SR moduleによる
拡大
ノイズの付与
+
条件(CLIPの埋め込みなど)

手法(数枚の画像のプロンプトの作成)
プロンプトには二つの候補
• [identifier]: 被写体に関連するユニークな識別子
例): 自分のペットの名前
• [class noun]: 被写体のおおよそのクラスを示すもの
例): dogやbird等
→論文では[class noun]を使用
しかし汎用的な単語※1(強い事前分布)を利用しても、学習時間の長期化・性能の低下
そのために、珍しい単語※2(Rare-token)を利用する。
Rare-tokenは3文字以下の単語から抽出し、T5-XXLトークナイザーの範囲(5000~10000)の
トークンをランダムサンプリングし使用するとうまくいく
8
例): 特定の犬を生成したい場合
• 汎用的な単語※1
unique dog
• 珍しい単語※2
xvg dog

手法(事前分布を保存する方法)
• Prior-Preservation Loss
数枚の微調整が開始された時点でモデルが事前分布を保持するようにするloss
モデル自身が生成したサンプルを用いて、モデル自身がモデルを監視する
9
• 𝜆: ハイパーパラメータ
• 𝑐𝑝𝑟: テキストプロンプト
• 𝑥𝑝𝑟 = 𝑥 𝑧𝑡, 𝑐𝑝𝑟 : 生成画像
• 学習率1e-5・𝜆 = 1・epoch=200
• 学習時間は1台のTPUv4で約15分
概要図

手法(事前分布を保存する方法)
• Prior-Preservation Loss
10
Finetuningした「A dog」の生成画像と、
Finetuning前の「A dog」の生成画像で比較
元画像と、
Finetuning後の「A [V] dog」の生成画像で
比較

手法(Personalized Instance-Specific Super-Resolution)
• 拡散モデルの超解像モデルのファインチューニングを行うとアーチファクトを生み出すこ
とが実験で分かった
11
• 対策
256×256のSR-moduleの微調整のノイズ増強のレベルを10-3から10-5に下げる。
Normal Noise(対策前のノイズ付与)の場合、全体的にぼやける現象が発生
No Finetuning(微調整しない)の場合、高周波パターンが幻覚的になってしまう

実験
本手法の実験成果として、
• 再文脈化(recontextualization)
• アートレンダリング(Art Renditions)
• 表情変換(Expression Manipulation)
• 視点合成(Novel View Synthesis)
• アクセサリの付与(Accessorization)
• プロパティの変更(Property Modification)
を行った。
また、
• 実験画像で出現する[V]は被写体の固有識別子である。
• すべての実験は、Unsplashの画像を用いて行う
https://unsplash.com/ja
12

実験(Recontextualization)
• Recontextualization
モデルがテキストプロンプトに応じて入力した被写体を生成することができる
プロンプト例): a [V] [クラス名詞] [文脈の記述]
13
入力画像生成画像
入力した画像のカバン
と同じカバンの生成画
像を出力する。
入力した画像のカバ
ンと同じカバンの生
成画像を出力する。

実験(Art Renditions)
14
• Art Renditions
被写体のオリジナルの芸術作品をレンダリングすることが可能
プロンプト例):
a painting of a [V] [class noun] in the style of [famous painter]
a statue of a [V] [class noun] in the style of [famous sculptor]

実験(Expression Manipulation)
• Expression Manipulation
元の入力画像の被写体ににない表情を生成することができる。
表情の範囲は広くいずれの例でも犬のアイデンティティは保てている。
(根拠は顔の非対称な白い筋がいずれの画像にも残っていること)
15
非対称な
白い筋

実験(Novel View Synthesis)
• Novel View Synthesis
被写体を様々な視点でレンダリングすることも可能
数枚の正面画像があれば新しい視点を生成できる
16
複雑な毛並みが一貫している

実験(Accessorization)
• Accessorization
被写体にアクセサリを付与することも可能
例文): a [V] [クラス名詞] wearing [アクセサリー]
17
犬の同一性
が保たれて
いる

実験(Property Modification)
• Property Modification
被写体のインスタンスプロパティを変更できる
被写体の車の色の変更や犬と別の種の交配結果を生成することも可能
18

実験(Ablation Studies)
被写体のテキストアノテーションに、
「クラス名詞なし」「誤ったクラス」「正しいクラス分布」
を付与して実験を行う。(Class-Prior Ablation)
19
新しい被写体の画像を生成
できない
入力した被写体の学習が難
しい
上手く画像を生成できる

実験(Ablation Studies)
• Prior Preservation Loss Ablation
提案損失であるPrior Preservation Lossをなくして実験を行った。
20
Prior Preservation Lossあり
多様性のある犬が生成できる
Finetuning前の生成画像
Prior Preservation Lossなし
入力画像の犬しか生成できない

比較
• An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual
Inversion(Gal et al.)との比較
21
提案手法の方が入力画像に忠実
提案手法の方が入力画像に忠実

比較
• ImagenやDALL-Eの公開APIでの比較
特徴のある時計の再文脈化について我々の手法とプロンプトエンジニアリングによる比較
22
提案手法の方が入力画像
に忠実
ImagenやDALLE-2は細か
い時計の特徴を再現でき
ない

制約
• (a)が入力したプロンプト生成の失敗: 事前情報が難しい
• (b)が文脈と被写体のもつれ: 別の文脈の影響を被写体が受けてしまう
• (c)が画像の過学習: 学習しやすい被写体も存在する
23
MoonやISSの背景を生成
できない
被写体の出力が変わるこ
とがある
過学習

結論
• この研究では数枚の画像とそれに対応するテキストを使って、与えられた被写体の新し
い表現を合成するアプローチを提案した。
本研究のカギは、
• 与えられた被写体を一意の識別子と結びつけて埋め込むこと
• 学習中に学習した他の視覚的概念を「忘れる」ことなく慎重に微調整する
• 撮影した3〜5枚の画像だけで達成できる
ことである。
これによって微調整されたモデルは、被写体の特徴を維持したまま、事前に学習した知識
(視点・ポーズなど)を再利用することができる。
24

所感
• DreamBoothは入力画像のアイデンティティを維持することを目的に特化した画像生成モ
デル
自分との研究との関連が思っていたのと違った
• 入力画像に対する過学習をなるべく回避するための設計が中心
• 入力画像に映っている被写体を無理やり言語モデルに埋め込むために、めったに使わ
れないプロンプトの埋め込み空間を借りている気がした。
• Prior Preservation Lossの影響で事前分布は出来るだけ保存できているが、完全に保
存できているわけではないように見えた。
実際にDreamBoothを利用した人の感想でも、生成画像が全体的に入力画像の被写体に
似るようになった感想があった
25

【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

More Related Content

What's hot (20)

Similar to 【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (20)

More from Deep Learning JP (20)

Recently uploaded (7)

【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Editor's Notes