Deep learning勉強会20121214ochi

Representation Learning:
A Review and New Perspectives
Yoshua Bengio, Aaron Courville, and Pascal Vincent
Department of computer science and operations research, U. Montreal

12/14 2012
D1 大知正直

1

Abstract
• 機械学習アルゴリズムの性能
– データ表現に依存
• データの背後にある真の説明因子が複雑で，隠
されてしまっている
• ドメイン依存の知識や，一般的な前提知識を
データ表現の設計に利用することができる
• こうした前提知識をもっと強力に学習する表現
学習アルゴリズムがAI分野で求められている

7

Abstract
• この論文の内容
– 教師なしの特徴学習，ディープラーニング
の結合学習に関する最近の研究成果のレ
ビュー
– 確率モデル，オートエンコーダ，多様体学
習，ディープアーキテクチャをカバー

8

Abstract
• この論文の内容
– 長期的な難問を提起するのが目的
• 良い表現を学習，推定するための適切な対象
• 表現学習，密度推定，多様体学習間の幾何学的
な接続

9

1. INTRODUCTION
• 機械学習アルゴリズムの性能
– データ（特徴）表現の選択に強く依存
• データの変換にすごく手間をかけている現状
• 特徴量のエンジニアリングも人間の創造性や前
提知識を利用してしまっている
• AIは本質的に人間の身の回りの世界を理
解しなければならない
– 低レベルの知覚可能なデータの根本にある
説明要因を分解し学習することができれば
可能

10

1. INTRODUCTION
• 本稿の内容
– 特徴学習(feature learning)，表現学習
(representation learning)
• 分類器や予測器の作成時に有用な情報の抽出が
簡単になるようなデータの変換を学習すること
• ディープラーニングによる特徴学習に注目
– より抽象的な表現を作ることを目的とした複数回の非
線型データ変換
– 近年の発展途上の領域だが、特に最近の進展の内容を
強調

11

2. WHY SHOULD WE CARE ABOUT LEARNING
REPRESENTATIONS?
• 様々な分野での表現学習について言及
1. Speech Recognition and Signal
Processing（音声認識と信号処理）
– MAVIS(Microsoft Research) が約30%のエ
ラー率改善
2. Object Recognition（物体認識）
– MNIST(数字認識タスク)においてディープ
ラーニングがSVMの1.4%のエラー率を
0.27%に改善
– ImageNet(自然画像のデータセット）認識タ
スクで15.3%のエラー率へ改善
12

REPRESENTATIONS?
3. Natural Language Processing（自然言語
処理）
– SENNAシステム・・・言語モデリングを行う
タスク（品詞タグ付け，チャンキング，固有
名詞認識，意味役割ラベリング，構文解析）
向けのシステム
– (Mikolov et al., 2011)は隠れ層を再帰的に追加
する手法で、平滑化n-gramをperplexity，品詞
認識のエラー率で上回る

13

REPRESENTATIONS?
4. Multi-Task and Transfer Learning,
Domain Adaptation（マルチタスク，転
移学習，ドメイン適応）
説明要因（赤い◯）を発見す
る表現学習モデルのイメージ
図．
タスク間での統計的強度の共
有が表現の一般性の獲得を可
能にする．
ICML2011, NIPS2011の
ワークショップで良い結果が
報告されている

14

3. WHAT MAKES A REPRESENTATION GOOD?

1. 人工知能による表現学習の前提
– Smoothness（平滑性）
• 3-2で議論
– Multiple explanatory factors（複数の説明要
因）
• 3-5で議論（3-3で議論する分散化した表現が前提
にある）
– A hierarchical organization of explanatory
factors（説明要因の階層化）
• 抽象的な概念はより上の階層へ（3-4で議論する
“deep representation”が利用される仮定）

15


– Semi-supervised learning（半教師あり学
習）
• 𝑋の分布を表現する𝑃(𝑋)は𝑃(𝑌|𝑋)の表現に有用．
教師あり，無し学習間の表現の共有を可能にする
（4で議論）
– Shared factors across tasks
• 𝑋と𝑡𝑎𝑠𝑘で共有された表現が説明要因となる（2-
3で述べた）

16


– Manifolds（多様性）
• 元のデータ空間より小さな次元数を持つ局所的な
領域にデータが集中している場合，オートエン
コーダアルゴリズムや他の多様体学習のアルゴリ
ズムが利用される（7-2,8で議論）
– Natural clustering
• 多様体上での局所的な分布がそのままクラスタに
なっている状態（人間が考える固有のカテゴリ，
クラスといった概念と一致）8-3 Manifold
Tangent Classifierで議論

17


– Temporal and spatial coherence
• 時間，空間的に近くな状態からの観測は似たよう
な結果をもたらしやすい（11-3で議論）
– Sparsity
• 観測データ𝑥で実際に関係のある要因がほんのわ
ずかであること(6-1-3, 7-2で議論)

これらの前提は学習器がデータの根底にある説明要因を学習，分解する手法
として，頻繁に見られる
18


2. 平滑性と次元の呪い
カーネル関数を用いて，局所
的で平滑な線形モデルを構築
することで解決

こうしたカーネルそのものの発見も表現学習に含まれると考える

19


3. 分散化した表現
– 良い表現
• 表現力豊かであること
– 入力領域を識別するのに十分な数のパラメータを持っ
ているか
» GMM, kNN, 決定木, Gaussinan SVM は 𝑂(𝑁)個の
入力領域の識別に𝑂(𝑁)個のパラメータが必要
» RBMs(Restricted Boltzmann Machines), スパース
コーディング, オートエンコーダ，多層ニューラル
ネットワークは 𝑂(2 𝑘 )個までの入力領域の識別に
ただ𝑂(𝑁)個のパラメータがあればよい。（kは0で
ない要素の数）

良い表現＝分散化した表現（distributed representation）

20


4. Depth and abstraction（深さと抽象性）
– 特徴の再利用

計算的，統計的な効率性を持つ

ディープラーニングの背後にある利点
21


4. Depth and abstraction（深さと抽象性）
– 抽象性と不変性
• ディープアーキテクチャは抽象性の低いもの同士
の関係性からより抽象性の高いものを構築する
• 抽象性の高い表現は一般的には極めて局所的な変
化に対して不変
• 分類という概念に一致

不変的な特徴の学習はパターン認識の大きな目標の一つ

22


5. Disentangling Factors of Variation（変化
の要因の分解）
– 特徴学習へのアプローチ
• 可能な限りたくさんの要因に分解すること
• ほとんど実用上意味の無いデータを捨てること

特徴学習の基準

23

4. BUILDING DEEP REPRESENTATIONS

• 特徴学習，ディープラーニングの出現
– 2006～
– 階層別に教師なし学習を行うというアイデ
ア
• ディープアーキテクチャに基づく特徴学
習
– より良い表現抽出をスタックする手法
• 分類エラーの減少を目指すもの
• 確率モデルによって生成されたサンプルの質を
見るもの
• 学習した特徴の不変特性見るもの
24

4. BUILDING DEEP REPRESENTATIONS

• Deep Belief Network
– Stack pre-trained RBMs

その他DBM(Deep Boltzmann Machine), deep auto-encoder, エネルギー関数
を利用する研究が報告されている
25

5. SINGLE-LAYER LEARNING MODULES

• 表現学習への２つのアプローチ
– 確率的グラフィカルモデルに基づくもの(§6)
• 隠れ変数を持つ
– RBM(Restricted Boltzmann Machine)
– ニューラルネットワークに基づくもの(§7)
• 階層構造を持つ
– Auto-encoder

どちらもグラフ構造を持ち，本質的な差は無い
→ §6,7で一層で訓練する特徴学習の手法について解説
26


• Principal Components Analysis（主成分
分析）
– 最古の特徴抽出アルゴリズム
• 確率モデルと非常に関係がある
– 固有値分解
• 出力が基本的なauto-encoderと同じ
– ああああ
• 多様体学習の単純な形式ととらえることが可能

27


• Principal Components Analysis（主成分
分析）

PCAは表現学習の基本的な特徴を全て備えている
28

6. PROBABILISTIC MODELS
• 確率モデルからみた特徴学習
– 観測データ上の分布を表現する潜在変数の復
元
– 潜在変数ℎ, 観測データ𝑥において，確率モデ
ル 𝑝(ℎ, 𝑥) を定義
– 特徴量は潜在変数の確率分布 𝑝 ℎ 𝑥 →事後
確率
– 尤度最大化などのモデルパラメータ推定によ
る学習

有向(Directed)，無向(Undirected)のグラフィカルモデルそれぞれの特徴学習
の研究が存在 29

1. Directed Graphical Models
– 原因 ℎ と結果 𝑥 が対応するモデル
• 𝑝 𝑥, ℎ = 𝑝 𝑥 ℎ 𝑝(ℎ), ※は尤度
– 原因と結果に１対１の対応がある
• 𝑝 𝑥 ℎ の分布が集中している

PCA, Sparse Coding, Sigmoid Belief Networks, Spike-and-Slab sparse
coding model 等が挙げられる 30

2. Probabilistic Interpretation of PCA
• 主成分分析の確率的解釈

31

3. Sparse Coding
• たくさんいるニューロンのうち、ホンの一部の
ニューロンだけが活動して、情報の重複をでき
るだけ抑えて情報を表現する方法
• 非確率的な視点
– ああああ
– Xごとに活動するhを決定づける辞書Wを学習
– ああああ
– Jscが最小になるように訓練データを学習
– WhはL1正則化項として機能

32

3. Sparse Coding
• 確率的解釈

– p(h)は事前分布にラプラス分布を仮定
– MAP推定によるWの推定

CIFAR-10という分類タスクで良い性能を示した。Spike-and-Slab Sparse
Codingという派生型がNIPS’11の転移学習のタスクで優勝 33

2. Undirected Graphical Models
– Markov Random Fields(MRFs)とも呼ばれる

– 教師無し特徴学習ではボルツマン分布を利用
した形式を用いることが多い

– 変数間の相互作用はエネルギー関数として定
義

• U,V,W,b,dはモデルパラメータ

34

– 条件付き確率

– 事後分布の推定は周辺化で行う

35

1. Restricted Boltzmann Machines
• Eq.7でU,V=0とし，単純化したもの
• 観測データと隠れ変数の２部グラフの形式

様々な成果が報告されている（fMRI image classification, motion and spatial
transformations, collaborative filtering, natural image modeling） 36

3. Generalizations of the RBM to Real-
valued data
– 画像データに対し、様々な拡張が提案
• Gaussian RBM, mean and covariance RBM,
covariance RBM, spike-and-slab RBM

学習した特徴とトレーニングデータの画像が近い様子
37

4. RBM parameter estimation
– Log likelihood

– 勾配 positive phase

negative phase

– Positive phaseは簡単に計算可能だが、
negative phaseは難しい
38

– パラメータの独立性を利用

– ギブスサンプリングで収束するまで実行

（問題点）
• Burn-in: 初期のGibbs Samplingが悪いと収束に時間がかかる
• Negative-phaseの収束→勾配の計算の繰り返しで計算量が多い
（negative-phase のburn-inを対策したアルゴリズム）
• Constrastive Divergence
• Stochastic Maximum Likelihood
• Fast-weight persistent contrastive divergence (FPCD)

39

1. Contrastive Divergence
• Positive phaseを先に実行
• Gibbs sampling を数回実行するのみ

40

2. Stochastic Maximum Likelihood
• Negative phaseは前のxの状態で更新

• Fast-weight persistent contrastive divergence
(FPCD)
– 勾配に比例して更新量を調整

41

Deep learning勉強会20121214ochi

Recommended

More Related Content

What's hot (20)

Similar to Deep learning勉強会20121214ochi (20)

More from Ohsawa Goodfellow (12)

Deep learning勉強会20121214ochi