The document discusses the paper "t-vMF Similarity for Regularizing Intra-Class Feature Distribution" presented at CVPR2021. The paper proposes a new similarity measure called t-vMF similarity that can control the width of the peak and skirt of the cosine similarity. This allows intra-class variance to be reduced while preventing gradient vanishing, especially for imbalanced or small-scale datasets where maximizing discrimination is more important than minimizing intra-class variance. The t-vMF similarity is implemented by considering the von Mises-Fisher distribution in the process of the softmax cross-entropy loss, making it simple to implement.
The document summarizes a presentation about papers from ICLR2021 and ICML conferences. It begins with an introduction of the presenter and their background and research interests. It then provides high-level summaries of four papers: 1) MiCE, an unsupervised image clustering method that combines contrastive learning and deep clustering; 2) A method for controllable image editing by navigating the latent space of a GAN; 3) A method for explaining uncertainty estimates from Bayesian neural networks by identifying influential inputs; 4) A long-tail learning framework that proposes a new posterior logit adjustment or loss modification with statistical justification.
Free lunch for few shot learning distribution calibrationぱんいち すみもと
The paper proposes a method to estimate the distribution of novel classes for few-shot learning by calibrating distributions. It hypothesizes that the distributions of novel classes can be represented by similar base classes based on their feature space distributions. The method samples from a mixture of estimated novel class distributions, which are determined based on distances to base class means. Logistic regression is then performed on the sampled data to train the classifier. Experimental results on standard few-shot datasets demonstrate that the proposed distribution calibration approach improves over traditional fine-tuning baselines.
The document discusses the paper "t-vMF Similarity for Regularizing Intra-Class Feature Distribution" presented at CVPR2021. The paper proposes a new similarity measure called t-vMF similarity that can control the width of the peak and skirt of the cosine similarity. This allows intra-class variance to be reduced while preventing gradient vanishing, especially for imbalanced or small-scale datasets where maximizing discrimination is more important than minimizing intra-class variance. The t-vMF similarity is implemented by considering the von Mises-Fisher distribution in the process of the softmax cross-entropy loss, making it simple to implement.
The document summarizes a presentation about papers from ICLR2021 and ICML conferences. It begins with an introduction of the presenter and their background and research interests. It then provides high-level summaries of four papers: 1) MiCE, an unsupervised image clustering method that combines contrastive learning and deep clustering; 2) A method for controllable image editing by navigating the latent space of a GAN; 3) A method for explaining uncertainty estimates from Bayesian neural networks by identifying influential inputs; 4) A long-tail learning framework that proposes a new posterior logit adjustment or loss modification with statistical justification.
Free lunch for few shot learning distribution calibrationぱんいち すみもと
The paper proposes a method to estimate the distribution of novel classes for few-shot learning by calibrating distributions. It hypothesizes that the distributions of novel classes can be represented by similar base classes based on their feature space distributions. The method samples from a mixture of estimated novel class distributions, which are determined based on distances to base class means. Logistic regression is then performed on the sampled data to train the classifier. Experimental results on standard few-shot datasets demonstrate that the proposed distribution calibration approach improves over traditional fine-tuning baselines.
This document summarizes two papers presented at NIPS 2018 on anomaly detection and out-of-distribution detection. The first paper proposes a simple unified framework using geometric transformations and Dirichlet density estimation to detect anomalies and adversarial examples. The second paper introduces a method that uses an ensemble of neural networks to detect out-of-distribution samples and adversarial attacks with state-of-the-art performance on CIFAR-10, SVHN and FGSM attacks. It also explores applications to class-incremental learning.
The document discusses variational divergence minimization for training generative neural networks using f-GAN. It introduces f-divergence as a generalization of divergence measures used in GANs like KL divergence. F-divergence allows the training of generative models by minimizing the divergence between the generated distribution and real data distribution. The paper presents an algorithm for minimizing f-divergence in generative neural samplers.
Categorical reparameterization with gumbel softmaxぱんいち すみもと
This document discusses two semi-supervised deep generative models:
(1) A VAE model (M1) that learns latent representations from both labeled and unlabeled data.
(2) An extended VAE model (M2) that uses Gumbel-Softmax to learn discrete latent variables from unlabeled data.
Combining M1 and M2 (M1+M2) allows learning of both continuous and discrete disentangled representations in an end-to-end manner, achieving better performance than the individual models. The document provides technical details on how both models work and are combined.
This document summarizes research papers on domain transfer techniques from NIPS 2017 to 2018. It discusses papers that use generative adversarial networks (GANs) for unsupervised image-to-image translation tasks between different domains. Key papers mentioned include Pix2Pix, CycleGAN, DiscoGAN, BicycleGAN, MUNIT, StarGAN, and Fader Networks. The document provides brief descriptions of each paper's proposed method and contributions to domain transfer and image translation.
This document summarizes a seminar presented by Panichi Sumimoto on September 2, 2018 at Bread House about introducing variational autoencoders (VAEs). The presentation covered the basics of VAEs, how they can be used for image generation tasks, and extensions like VAE-GANs that combine VAEs with generative adversarial networks. Examples of datasets used for training included CelebA, CelebA-HQ and LSUN bedrooms.
2. 書誌情報: Deep Semi-Supervised Anomaly Detection
n ICLR 2020 accepted (6, 6, 6)
n ⼀⾔でいうと:
n 深層学習を使った1クラス分類を拡張し,少数の分布外データを利⽤して,⾒たことのない分布外
データにたいして汎化するような正則化を導⼊し分布外検知を⾏う
提案⼿法は,
学習に利⽤していない,
他の分布外データの
異常スコアが⾼くなっている
教師ありで学習すると,
⾒たことのない分布外データ
にたいして汎化しない
(分布外データは
それぞれ異なるため)
3. 背景: 分布外検知
n 分布外検知とは,訓練分布と異なるデータを検知するタスクを指す
n ex) 猫・⽝を訓練データとして学習したとき,⿃を検知できるか︖
n 異常検知(異常部位特定)も含まれるが⼿法として異なることが多い
n 分布外検知の難しさ:
n 現実的に,分布外サンプルを⼊⼿することは簡単
n しかし,ある分布外のサンプルを分布外であるとして学習しても,他の分布外のサンプルが分布
外であると推論されるとは限らない (分布外のサンプルはそれぞれ異なるため)
n 提案⼿法のアイデア:
n 分布外のサンプルはそれぞれ異なる(エントロピーが⾼くなる)という正則化を利⽤して学習する
4. 関連研究: unlabelデータを利⽤した分布外検知
unlabelデータを利⽤しない unlabelデータを利⽤する
深層学習を使わ
ない
OCSVM [Schölkopf, 2001]
他多数
SSAD [Görnitz , JAIR 2013]
他少数
深層学習を使う Deep SVDD (Ruff, ICML 2018) Deep SAD (Ruff, ICLR 2020)
n 上は紹介論⽂による分類
n unlabelデータとは,分布外か分布内かわからないデータという意味
n deep な unlabelデータを利⽤した分布外検知がないと主張しているが⾃分調べでは⼀応ある
n Unsupervised OOD detection by MCD (Yu, ICCV 2019)
n 深層学習を使い,unlabelデータを利⽤し,クラスラベルを使わず,分布外サンプルを利⽤すると
いう分布外検知ならDeep SADが初であると思われる
6. 前提知識: 情報理論の観点から
n 教師ありのとき
n 情報ボトルネック原理 [Tishby, 1999][Alemi, 2017]
n Xは⼊⼒変数,Zは潜在変数,Yは出⼒変数
n ラベルYを予測するための最⼩限な表現Zを⼊⼒Xから⾒つける → 情報量最⼩化
n 教師なしのとき
n ICA,クラスタリング,⽣成モデル,オートエンコーダなど
n 表現Zの制約のもとでの情報量最⼤化
n 今回紹介する⼿法の分布外検知は,教師あり設定だとうまく⾏かない(最初の図)ため,教師
なし設定の情報量最⼤化原理を利⽤している
7. 前提知識: Deep SVDDとエントロピー最⼩化の関係
n Deep SVDD [Ruff, 2018]はdeepを使った1クラス分類の⼿法
n xはアンラベルの訓練データ,Wはdeepの重み,φはL層のニューラルネットワーク
n Deep SVDDの⽬的は,予め決めたcを中⼼に潜在空間上の超球に訓練データを押し込むこと
n ここで,潜在空間上のエントロピーを考える
n 潜在変数が等⽅性のガウシアンに従っている場合,
n よって,これは(3)と同じ式(weight decayを無視すれば)なので,Deep SVDDはエントロ
ピー最⼩化とみなせる
8. 前提知識: Deep SVDDと情報量最⼤化の関係
n Deep SVDDはエントロピー最⼩化しているとみなせた
n さらに,Deep SVDDは事前学習として,オートエンコーダの⽬的関数を使っている
n つまり,相互情報量最⼤化を⾏っている (ちょっと無理やり感…)
n よって,相互情報量最⼤化 + 正則化項(エントロピー最⼩化)の枠組みで捉えられる
n 続いて,提案⼿法は,このDeep SVDDを拡張する⼿法であることを⽰す
9. 提案⼿法: Deep SAD
n アイデア:
n 分布内データはエントロピー最⼩化するように学習している
n 分布外データはエントロピー最⼤化するように学習すれば良いのでは︕
n 上式を元にした,Deep SADの⽬的関数
n nはアンラベルの訓練データの数,mは分布内または分布外というラベルがついた訓練データの数
n ラベルは y ∈ {-1, 1} で,-1のとき異常,1のとき正常を意味する
n mが0のとき,Deep SVDDと同じ⽬的関数になる
分布外データ 分布内データ
10. 実験: 設定
n データセット: MNIST,Fashion-MNIST,CIFAR-10
n ⽐較⼿法:
n OC-SVM Raw: deepを使わない分布外検知の半教師ではないモデル
n OC-SVM Hybrid: deepが使えるようにOC-SVMを拡張したモデル
n Deep SVDD: 前提知識で紹介したモデル
n SSAD Raw: deepを使わない半教師の分布外検知モデル
n SSAD Hybrid: deepが使えるようにSSADを拡張したモデル
n Supervised:
n 分布外データはy = -1, 分布内データはy = +1として⼆値分類器を学習する
n アンラベルデータはほとんどが分布内と仮定し,y = +1とする
n DeepSAD: 提案⼿法
11. 実験: シナリオ
n 共通シナリオ: あるデータセットのあるクラスを分布内クラスとし,その他のクラスを全て
分布外クラスとする
n シナリオ1: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合𝛾#を変化させる
n シナリオ2: ラベルありの分布外クラスを⼀つ利⽤し,訓練データとその割合は固定したまま,
訓練データにラベルなしの分布外データが含まれる割合𝛾$を変化させる
n シナリオ3: ラベルありの分布外クラスを複数利⽤し,そのクラスの数𝑘#を変化させる
訓練データ
アンラベルデータ数: n ラベルデータ数: m
分布外データ数: 𝑛' 分布内データ数: 𝑛(
𝛾$ = 𝑛' / (𝑛' + 𝑛()
12. 実験シナリオ1: ラベルデータに分布外データを加える
n 𝛾$ = 0とする.そのため,アンラベルデータはすべて分布内データ
n また,ラベルデータはすべて分布外データとしている
n 𝛾#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
14. 実験シナリオ3: ラベルデータに複数クラスの分布外データを加える
n 𝛾# = 0.05,𝛾$ = 0.1に固定し,分布外データとして与えるクラスの数𝑘#を増やす
n ⼀概にどの⼿法が強いとは⾔えないものの,MNIST,CIFAR10においてDeep SADが強い
n 𝑘#が⼩さいときは特にSupervisedは他の分布外データに汎化していないことがわかる
15. 結論・(⾃分の)感想
n 結論:
n 情報理論のフレームワークに基づき,情報量最⼤化を元に深層学習を使った分布外検知を考案した
n 提案⼿法は,⼀般的な半教師の分布外検知の⼿法なので,広く適⽤可能である
n (⾃分の)感想:
n ある分布外データを利⽤することで,他の分布外データに汎化するための⼿法というのは重要
n しかし,
n 提案⼿法の式として,アンラベルデータの扱いとラベルありの分布内データの扱いが同じになっており,結
果としても汚染データに強いとは⾔えないので,アンラベルを利⽤できる半教師として⼿法を推すのは変
n 情報理論との結びつけが若⼲無理やりな気がする
n 分布外データはエントロピー最⼤化するという仮定は良いと思うが,ある分布外データを訓練として使った
ときに,他の分布外データもエントロピーが最⼤化するように汎化するとは限らない気がする