SlideShare a Scribd company logo
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
.
......
21 世紀の手法対決
@motivic
第 33 回 R 勉強会@東京
2013 年 8 月 31 日
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
目次
...1 はじめに
自己紹介
...2 21 世紀の手法対決
20 世紀の独立性を見つける方法の限界
21 世紀の相関:MIC
21 世紀の検定:HSIC test
いざ勝負!
...3 参考
参考文献
参考 HP
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
自己紹介
twitter ID:@motivic
職業:研究室に住む妖精
研究分野



代数統計 (代数幾何)
情報幾何
トポロジカルデータ解析



を用いた



医療統計
疫学
因果推論



統計ゆるふわ勢
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
はじめに
注意
本日の話では交絡(擬似相関)は避けられていると仮定
ただし、本日の議論を交絡がある場合に拡張することも可能
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
変数の独立性
.
変数同士が U 字型の関連を持つ場合の独立性検定
..
......
U 字型の相関係数はかなり小さい
普通の独立性検定をすると、独立と判定される
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
線形から非線形へ
.
従来法
..
......
Pearson の相関係数は線形的な関係を見るもの
順位相関係数は単調的な関係を見るもの
非線形な関係を見るためには離散化する必要があった
しかし離散化に恣意性が入る
 
.
線形から非線形へ
..
...... 非線形の関係をうまく捉える方法が出てきた!
 
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
21世紀の相関係数:MIC
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
21 世紀の相関:MIC(Reshef et al, 2011)
..
......
2011 年に Science 誌に 21 世紀の相関係数なんて呼ばれるも
のが出てきた
これを使えば非線形な関連も捉えられる
アイデアとしては、従来の離散化には恣意性があったので、
ありうる全ての離散化をして計算すればいいじゃん、という
レベルを上げて物理で殴ればいい的な考え
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
MIC(Maximal Information Coefficient) の計算
..
......
x × y < n0.6
を満たす全ての x × y の離散化を考える
各分割で正規化した相互情報量が高い分割点を網羅的に探索
全分割の中で正規化した相互情報量が最大のものを選ぶ
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
MIC(Maximal Information Coefficient) の計算
..
......
x × y < n0.6
を満たす全ての x × y の離散化を考える
各分割で正規化した相互情報量が高い分割点を網羅的に探索
全分割の中で正規化した相互情報量が最大のものを選ぶ
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
MIC(Maximal Information Coefficient) の計算
..
......
x × y < n0.6
を満たす全ての x × y の離散化を考える
各分割で正規化した相互情報量が高い分割点を網羅的に探索
全分割の中で正規化した相互情報量が最大のものを選ぶ
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
MIC(Maximal Information Coefficient) の計算
..
......
x × y < n0.6
を満たす全ての x × y の離散化を考える
各分割で正規化した相互情報量が高い分割点を網羅的に探索
全分割の中で正規化した相互情報量が最大のものを選ぶ
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
MIC(Maximal Information Coefficient) の計算
..
......
x × y < n0.6
を満たす全ての x × y の離散化を考える
各分割で正規化した相互情報量が高い分割点を網羅的に探索
全分割の中で正規化した相互情報量が最大のものを選ぶ
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
 
.
MIC(Maximal Information Coefficient) の計算
..
......
x × y < n0.6
を満たす全ての x × y の離散化を考える
各分割で正規化した相互情報量が高い分割点を網羅的に探索
全分割の中で正規化した相互情報量が最大のものを選ぶ
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
21 世紀の相関:MIC(Maximal Information Coefficient)
.
R で MIC を計算するパッケージ
..
......
minerva というパッケージで MIC が計算できる。
cars データ (車の速さと停止距離のデータ) で MIC を計算してみ
ると、
>library(minerva)
>mine(cars)$MIC[1,2]
[1] 0.666265
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
21世紀の検定:HSIC test
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
みんな大好き!
再生核ヒルベルト空間!
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
.
再生核ヒルベルト空間を用いた独立性検定
..
......
再生核ヒルベルト空間を用いたノンパラメトリックな独立性
検定 (HSIC test, Hilbert-Schmidt Independence Criterion test)
なんてものもある (Gretton et al, 2005, 2010)
これを使っても非線形な関連を見つけられる
アイデアとしては、データを再生核ヒルベルト空間に移し
て、その中で関係性を見るというハイソなやり方
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
x
x
i
j
k( , )
k( , )
xi
jx
Hx
ガウスカーネル kG(x, y) = exp
(
−
1
2σ2
||x − y||2
)
ラプラスカーネル kL (x, y) = exp

−β
n∑
i=1
|xi − yi|

   など
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
x
x
i
j
k( , )
k( , )
xi
jx
Hx
y
y
i
j
k( , )
k( , )
yi
jy
Hy
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
x
x
i
j
k( , )
k( , )
xi
jx
Hx
y
y
i
j
k( , )
k( , )
yi
jy
Hy
Σyx
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
.
定理
..
......
< ΣYX f, g >HY
= E[f(X)g(Y)] − E[f(X)]E[g(Y)]
を満たす ΣYX が一意的に存在する。
HYX := ∥ΣYX ∥2
HS
 
としたとき(∥ · ∥HS は Hilbert-Schmidt ノルム)、カーネルが特性
的であれば、
X ⊥⊥ Y ⇔ HYX = 0  
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
HSIC(Hilbert-Schmidt Independence Criterion) test
.
R での計算
..
......
実装は Rcpp でしています
Rcpp については第 29 回 R 勉強会@東京の大仏様の資料がお
ススメ!
http://www.slideshare.net/teramonagi/tokyor-rcpp-16709700
具体的なコードの公開は HSIC を応用した論文を書くまでお
待ちを
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
2つの手法の勝負!
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
 
U 字型の関連を持つものにノイズを加えたもの
この関連をどれだけ捉えられるかの検出力で比較する
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
 
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
 
線形の関連を持つものにノイズを加えたもの
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
 
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
 
指数型の関連を持つものにノイズを加えたもの
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
 
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
MIC vs HSIC
.
まとめ
..
......
MIC は U 字型の関係ではそこそこ良いが、線形的や単調な関
係に対してはノイズが入ると検出力がかなり落ちる
HSIC は非線形の関係も捉えつつ、線形的や単調的な場合も
従来法並みの検出力がある
 
.
判定
..
...... HSICの勝ち!
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
GMIC vs MIC vs HSIC
.
GMIC について
..
......
今週 GMIC という MIC の検出力の低さを改善させた論文のプ
レプリントで出てました
論文を読んでみたところ検出力は
HSIC >>> GMIC > MIC
となりそうなので、やっぱり HSIC がスゴイ
 
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
参考文献
Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R.,
McVean, G., Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M.,
Sabeti, P.C.(2011). Detecting Novel Associations in Large Data
Sets, Science 334 (6062), 1518-1524
Gretton, A., Bousquet, O., Smola, A., and Schoelkopf, B.(2005).
Measuring Statistical Dependence with Hilbert-Schmidt Norms, MPI
for Biological Cybernetics (140)
Gretton, A. and Gyorfi, L.(2010) Consistent Nonparametric Tests of
Independence, Journal of Machine Learning Research, 11 ,
pp.1391–1423
@motivic 21 世紀の手法対決
.
はじめに
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 世紀の手法対決
. .
参考
参考 HP
MIC について
Take a Risk:林岳彦の研究メモ − 2013-04-26
”相関”の話&そのついでに”21 世紀の相関 (MIC)”の話
http://d.hatena.ne.jp/takehiko-i-hayashi/20130426/1366948560
HSIC について
統数研の福水先生の HP にある色々な資料
http://www.ism.ac.jp/˜ fukumizu/
@motivic 21 世紀の手法対決

More Related Content

PDF
MICの解説
logics-of-blue
 
PDF
PCAの最終形態GPLVMの解説
弘毅 露崎
 
PDF
機械学習モデルの判断根拠の説明
Satoshi Hara
 
PDF
Bayes Independence Test - HSIC と性能を比較する-
Joe Suzuki
 
PPTX
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
 
PDF
Prophet入門【Python編】Facebookの時系列予測ツール
hoxo_m
 
PDF
Transformer メタサーベイ
cvpaper. challenge
 
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
MICの解説
logics-of-blue
 
PCAの最終形態GPLVMの解説
弘毅 露崎
 
機械学習モデルの判断根拠の説明
Satoshi Hara
 
Bayes Independence Test - HSIC と性能を比較する-
Joe Suzuki
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
 
Prophet入門【Python編】Facebookの時系列予測ツール
hoxo_m
 
Transformer メタサーベイ
cvpaper. challenge
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 

What's hot (20)

PPTX
深層学習の数理
Taiji Suzuki
 
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
 
PDF
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
 
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
PDF
pymcとpystanでベイズ推定してみた話
Classi.corp
 
PDF
不均衡データのクラス分類
Shintaro Fukushima
 
PDF
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
PDF
最適輸送の計算アルゴリズムの研究動向
ohken
 
PDF
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
 
PDF
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
 
PDF
最適輸送の解き方
joisino
 
PDF
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
PPTX
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
PDF
PRML学習者から入る深層生成モデル入門
tmtm otm
 
PPTX
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
 
PDF
パターン認識と機械学習入門
Momoko Hayamizu
 
深層学習の数理
Taiji Suzuki
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
 
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
pymcとpystanでベイズ推定してみた話
Classi.corp
 
不均衡データのクラス分類
Shintaro Fukushima
 
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
最適輸送の計算アルゴリズムの研究動向
ohken
 
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
 
Jubatus Casual Talks #2 異常検知入門
Shohei Hido
 
最適輸送の解き方
joisino
 
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
PRML学習者から入る深層生成モデル入門
tmtm otm
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
 
パターン認識と機械学習入門
Momoko Hayamizu
 
Ad

Viewers also liked (6)

PDF
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Yusaku Kawaguchi
 
PDF
Python Professional Baseball Programming Open Data Edition #bpstudy 91(2015/3...
Shinichi Nakagawa
 
PPTX
2014年NPBたらいまわされ十傑
Taichi Watanabe
 
PDF
タイムラインでポジろう!
Yokohama Yuushou
 
PDF
数字から読む好不調の波
Jun Sasaki
 
PDF
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
 
Nagoya.R #12 非線形の相関関係を検出する指標の算出
Yusaku Kawaguchi
 
Python Professional Baseball Programming Open Data Edition #bpstudy 91(2015/3...
Shinichi Nakagawa
 
2014年NPBたらいまわされ十傑
Taichi Watanabe
 
タイムラインでポジろう!
Yokohama Yuushou
 
数字から読む好不調の波
Jun Sasaki
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
 
Ad

Similar to 21世紀の手法対決 (MIC vs HSIC) (10)

PPTX
変数同士の関連_MIC
Shushi Namba
 
PDF
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
 
PPTX
参加型センシングの多次元データに対するプライバシー保護データマイニング
Shunsuke Aoki
 
PDF
第4回DARM勉強会 (構造方程式モデリング)
Yoshitake Takebayashi
 
PDF
palla et al, a nonparametric variable clustering method
Zenghan Liang
 
PDF
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Atsushi KOMIYA
 
PDF
大規模グラフ解析のための乱択スケッチ技法
Takuya Akiba
 
PDF
分類分析 (taxometric analysis)
Yoshitake Takebayashi
 
PPTX
Hasc challenge2012-kawaguchi
Nobuo Kawaguchi
 
PPTX
第五回統計学勉強会@東大駒場
Daisuke Yoneoka
 
変数同士の関連_MIC
Shushi Namba
 
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
. .
 
参加型センシングの多次元データに対するプライバシー保護データマイニング
Shunsuke Aoki
 
第4回DARM勉強会 (構造方程式モデリング)
Yoshitake Takebayashi
 
palla et al, a nonparametric variable clustering method
Zenghan Liang
 
第3回集合知プログラミング勉強会 #TokyoCI グループを見つけ出す
Atsushi KOMIYA
 
大規模グラフ解析のための乱択スケッチ技法
Takuya Akiba
 
分類分析 (taxometric analysis)
Yoshitake Takebayashi
 
Hasc challenge2012-kawaguchi
Nobuo Kawaguchi
 
第五回統計学勉強会@東大駒場
Daisuke Yoneoka
 

Recently uploaded (10)

PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 

21世紀の手法対決 (MIC vs HSIC)

  • 1. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 . ...... 21 世紀の手法対決 @motivic 第 33 回 R 勉強会@東京 2013 年 8 月 31 日 @motivic 21 世紀の手法対決
  • 2. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 目次 ...1 はじめに 自己紹介 ...2 21 世紀の手法対決 20 世紀の独立性を見つける方法の限界 21 世紀の相関:MIC 21 世紀の検定:HSIC test いざ勝負! ...3 参考 参考文献 参考 HP @motivic 21 世紀の手法対決
  • 3. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 自己紹介 twitter ID:@motivic 職業:研究室に住む妖精 研究分野    代数統計 (代数幾何) 情報幾何 トポロジカルデータ解析    を用いた    医療統計 疫学 因果推論    統計ゆるふわ勢 @motivic 21 世紀の手法対決
  • 4. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 はじめに 注意 本日の話では交絡(擬似相関)は避けられていると仮定 ただし、本日の議論を交絡がある場合に拡張することも可能 @motivic 21 世紀の手法対決
  • 5. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 変数の独立性 . 変数同士が U 字型の関連を持つ場合の独立性検定 .. ...... U 字型の相関係数はかなり小さい 普通の独立性検定をすると、独立と判定される @motivic 21 世紀の手法対決
  • 6. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 線形から非線形へ . 従来法 .. ...... Pearson の相関係数は線形的な関係を見るもの 順位相関係数は単調的な関係を見るもの 非線形な関係を見るためには離散化する必要があった しかし離散化に恣意性が入る   . 線形から非線形へ .. ...... 非線形の関係をうまく捉える方法が出てきた!   @motivic 21 世紀の手法対決
  • 7. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient) 21世紀の相関係数:MIC @motivic 21 世紀の手法対決
  • 8. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . 21 世紀の相関:MIC(Reshef et al, 2011) .. ...... 2011 年に Science 誌に 21 世紀の相関係数なんて呼ばれるも のが出てきた これを使えば非線形な関連も捉えられる アイデアとしては、従来の離散化には恣意性があったので、 ありうる全ての離散化をして計算すればいいじゃん、という レベルを上げて物理で殴ればいい的な考え @motivic 21 世紀の手法対決
  • 9. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  • 10. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  • 11. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  • 12. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  • 13. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  • 14. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient)   . MIC(Maximal Information Coefficient) の計算 .. ...... x × y < n0.6 を満たす全ての x × y の離散化を考える 各分割で正規化した相互情報量が高い分割点を網羅的に探索 全分割の中で正規化した相互情報量が最大のものを選ぶ @motivic 21 世紀の手法対決
  • 15. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 21 世紀の相関:MIC(Maximal Information Coefficient) . R で MIC を計算するパッケージ .. ...... minerva というパッケージで MIC が計算できる。 cars データ (車の速さと停止距離のデータ) で MIC を計算してみ ると、 >library(minerva) >mine(cars)$MIC[1,2] [1] 0.666265 @motivic 21 世紀の手法対決
  • 16. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test 21世紀の検定:HSIC test @motivic 21 世紀の手法対決
  • 17. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test みんな大好き! 再生核ヒルベルト空間! @motivic 21 世紀の手法対決
  • 18. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test . 再生核ヒルベルト空間を用いた独立性検定 .. ...... 再生核ヒルベルト空間を用いたノンパラメトリックな独立性 検定 (HSIC test, Hilbert-Schmidt Independence Criterion test) なんてものもある (Gretton et al, 2005, 2010) これを使っても非線形な関連を見つけられる アイデアとしては、データを再生核ヒルベルト空間に移し て、その中で関係性を見るというハイソなやり方 @motivic 21 世紀の手法対決
  • 19. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test x x i j k( , ) k( , ) xi jx Hx ガウスカーネル kG(x, y) = exp ( − 1 2σ2 ||x − y||2 ) ラプラスカーネル kL (x, y) = exp  −β n∑ i=1 |xi − yi|     など @motivic 21 世紀の手法対決
  • 20. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test x x i j k( , ) k( , ) xi jx Hx y y i j k( , ) k( , ) yi jy Hy @motivic 21 世紀の手法対決
  • 21. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test x x i j k( , ) k( , ) xi jx Hx y y i j k( , ) k( , ) yi jy Hy Σyx @motivic 21 世紀の手法対決
  • 22. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test . 定理 .. ...... < ΣYX f, g >HY = E[f(X)g(Y)] − E[f(X)]E[g(Y)] を満たす ΣYX が一意的に存在する。 HYX := ∥ΣYX ∥2 HS   としたとき(∥ · ∥HS は Hilbert-Schmidt ノルム)、カーネルが特性 的であれば、 X ⊥⊥ Y ⇔ HYX = 0   @motivic 21 世紀の手法対決
  • 23. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 HSIC(Hilbert-Schmidt Independence Criterion) test . R での計算 .. ...... 実装は Rcpp でしています Rcpp については第 29 回 R 勉強会@東京の大仏様の資料がお ススメ! http://www.slideshare.net/teramonagi/tokyor-rcpp-16709700 具体的なコードの公開は HSIC を応用した論文を書くまでお 待ちを @motivic 21 世紀の手法対決
  • 24. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC 2つの手法の勝負! @motivic 21 世紀の手法対決
  • 25. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   U 字型の関連を持つものにノイズを加えたもの この関連をどれだけ捉えられるかの検出力で比較する @motivic 21 世紀の手法対決
  • 26. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   @motivic 21 世紀の手法対決
  • 27. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   線形の関連を持つものにノイズを加えたもの @motivic 21 世紀の手法対決
  • 28. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   @motivic 21 世紀の手法対決
  • 29. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   指数型の関連を持つものにノイズを加えたもの @motivic 21 世紀の手法対決
  • 30. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC   @motivic 21 世紀の手法対決
  • 31. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 MIC vs HSIC . まとめ .. ...... MIC は U 字型の関係ではそこそこ良いが、線形的や単調な関 係に対してはノイズが入ると検出力がかなり落ちる HSIC は非線形の関係も捉えつつ、線形的や単調的な場合も 従来法並みの検出力がある   . 判定 .. ...... HSICの勝ち! @motivic 21 世紀の手法対決
  • 32. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 GMIC vs MIC vs HSIC . GMIC について .. ...... 今週 GMIC という MIC の検出力の低さを改善させた論文のプ レプリントで出てました 論文を読んでみたところ検出力は HSIC >>> GMIC > MIC となりそうなので、やっぱり HSIC がスゴイ   @motivic 21 世紀の手法対決
  • 33. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 参考文献 Reshef, D. N., Reshef, Y. A., Finucane, H. K., Grossman, S. R., McVean, G., Turnbaugh, P. J., Lander, E. S., Mitzenmacher, M., Sabeti, P.C.(2011). Detecting Novel Associations in Large Data Sets, Science 334 (6062), 1518-1524 Gretton, A., Bousquet, O., Smola, A., and Schoelkopf, B.(2005). Measuring Statistical Dependence with Hilbert-Schmidt Norms, MPI for Biological Cybernetics (140) Gretton, A. and Gyorfi, L.(2010) Consistent Nonparametric Tests of Independence, Journal of Machine Learning Research, 11 , pp.1391–1423 @motivic 21 世紀の手法対決
  • 34. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 参考 HP MIC について Take a Risk:林岳彦の研究メモ − 2013-04-26 ”相関”の話&そのついでに”21 世紀の相関 (MIC)”の話 http://d.hatena.ne.jp/takehiko-i-hayashi/20130426/1366948560 HSIC について 統数研の福水先生の HP にある色々な資料 http://www.ism.ac.jp/˜ fukumizu/ @motivic 21 世紀の手法対決