SlideShare a Scribd company logo
wav2vec: Unsupervised Pre-training for Speech Recognition
ソニー株式会社
R&Dセンター 音声情報処理技術部
柏木 陽佑
音声認識における事前学習の利用
論文紹介
Interspeech2019論文読み会@Sony2019/11/242
自己紹介
・ 柏木 陽佑 (32)
- 所属 :
ソニー株式会社 R&D センター 音声情報処理技術部
- 専門 :
音声認識(雑音抑圧、音響モデル)
- 経歴:
2014.夏 ソニーでインターンシップを経験
2016.3 東京大学大学院 工学系研究科 博士課程卒 (峯松研究室)
2016.4~ ソニー株式会社入社。音声認識の研究開発に従事
Interspeech2019論文読み会@Sony2019/11/243
論文概要
wav2vec: Unsupervised Pre-training for Speech Recognition ( Interspeech 2019 )
• 著者:Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli (Facebook)
• セッション: Feature Extraction for ASR (poster session)
• コード
• https://github.com/pytorch/fairseq
• Arxiv:
• https://arxiv.org/pdf/1904.05862.pdf
近年NLPで話題になっているpre-trainingアプローチの音声認識利用の検討
NLPに強いfacebookらしい研究
Interspeech2019論文読み会@Sony2019/11/244
wav2vecの目的
人手で作られた特徴量抽出なしで音声認識を行いたい
音声認識モデル
特徴量抽出
• Fbank
• MFCC
• + Delta
• + Statistic Normalization
• + VTLN
• + fMLLR
既存の人手で設計された特徴量群
あらゆる….
Interspeech2019論文読み会@Sony2019/11/245
wav2vecの目的
人手で作られた特徴量抽出なしで音声認識を行いたい
音声認識モデル
波形入力の音声認識はモデル化が難しい…
• 大規模なラベル付きデータが必要
あらゆる….
ラベルのないデータを利用できないか?
• ラベル付きデータよりは集めやすい
Interspeech2019論文読み会@Sony2019/11/246
wav2vecの目的
labelなしのPre-trainingによってもっと良い特徴量抽出器を作りたい!
音声認識モデル
特徴量抽出 ラベルの付いていないデータ込みで学習
ラベルの付いてあるデータで学習
古くは RBMや、autoencoder, VAE なども
Interspeech2019論文読み会@Sony2019/11/247
Pre-training
教師なしアプローチによって良いembedding空間を構築する
• Word2vec : skip-gramなどを利用して単語のembeddingを学習する。
• BERT : transformer-basedの大規模な言語モデルを構築する。
• ViLBERT:Vison併用版 BERT
• Speech2vec : 音声版word2vec ( interspeech2018 )
• Representation learning with contrastive predictive coding
特にBERTの影響はすさまじく、音声認識においても重要な技術となると考えられる。
Interspeech2019論文読み会@Sony2019/11/248
Speech2Vec
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech
• Interspeech2018
• 著者:Yu-An Chung, James Glass (MIT)
• コード
• https://github.com/iamyuanchung/speech2vec-pretrained-vectors
word2vecを音声ドメインにおいて構築したもの
Interspeech2019論文読み会@Sony2019/11/249
Speech2Vec
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech
Speaker2Vec + skipgramの
t-SNEによる2次元プロット
positive, negative
上側にpositive下側にnegativeが
配置されていている。
Interspeech2019論文読み会@Sony2019/11/2410
Pre-training
教師なしアプローチによって良いembedding空間を構築する
• Word2vec : skip-gramなどを利用して単語のembeddingを学習する。
• BERT : transformer-basedの大規模な言語モデルを構築する。
• ViLBERT:Vison併用版 BERT
• Speech2vec : 音声版word2vec ( interspeech2018 )
• Representation learning with contrastive predictive coding
Wav2vec: CPCの大規模音声認識への応用
※実験的に
Interspeech2019論文読み会@Sony2019/11/2411
Representation Learning with Contrastive Predictive Coding (DeepMind)
encoderの出力からコンテキストを考慮して未来のembeddingを予測するモデル
特徴量 + 線形識別器による音素識別タスク
Interspeech2019論文読み会@Sony2019/11/2412
wav2vec ネットワーク
ネットワーク構造はCPCと同じ
encoder network
embedding vector
context network
Interspeech2019論文読み会@Sony2019/11/2413
Encoder network
音声波形からembeddingを計算するネットワーク
一次元畳み込みネットワーク
• 5層
• Kernel: (10,8,4,4,4)
• Strides: (5,4,2,2,2)
Interspeech2019論文読み会@Sony2019/11/2414
Context network
Embeddingのコンテキスト情報を扱う
一次元畳み込みネットワーク
• 9層
• Kernel: 3
• Strides: 1
• 全部で210msの窓
Interspeech2019論文読み会@Sony2019/11/2415
CPC目的関数
Interspeech2019論文読み会@Sony2019/11/2416
CPC目的関数
①
① 未来の と相関が高いか? -> 高ければ を下げる
Interspeech2019論文読み会@Sony2019/11/2417
CPC目的関数
② 負例 と相関が低いか? -> 低ければ を下げる
①
① 未来の と相関が高いか? -> 高ければ を下げる
②
は各データから10個ずつランダムに選ぶ
Interspeech2019論文読み会@Sony2019/11/2418
CPC目的関数
② 負例 と相関が低いか? -> 低ければ を下げる
①
① 未来の と相関が高いか? -> 高ければ を下げる
②
は各データから10個ずつランダムに選ぶ
いろいろな時間幅を足して最終的なロスにする。
Interspeech2019論文読み会@Sony2019/11/2419
音声認識への利用
Acoustic model
をfliter bankなどの特徴量の代わりに利用する
Acoustic model
Feature Extractor
(FBank)
Interspeech2019論文読み会@Sony2019/11/2420
性能比較
一般的な音声認識実験(WSJコーパス)
世の強者たち
Pre-trainingのデータを増やすと性能が上がる
WSJ: 81h
+ FBank
Interspeech2019論文読み会@Sony2019/11/2421
性能比較
wav2vec WSJ: WSJ(81h) で pre-training
wav2vec Libri: Librispeech(960h) でpre-training
音響モデルの学習データを減らすと差が開く
Pre-trainingのデータ量が同じ程度だと逆効果?
ラベル付きデータを減らした場合の性能変化
Interspeech2019論文読み会@Sony2019/11/2422
性能比較
※TIMITの学習データは3h
Pre-trainingのデータを増やすと性能が上がる
さらに小規模データでの比較
人手特徴量より良い!
波形入力は難しい…
Interspeech2019論文読み会@Sony2019/11/2423
vq-wav2vec
VQ-WAV2VEC: SELF-SUPERVISED LEARNING OF DISCRETE SPEECH REPRESENTATIONS
• 著者:Alexei Baevski, Steffen Schneider, Michael Auli (Facebook) <- wav2vecとほぼ同じ
• コード
• まだ。公開予定はあるらしい。
• Arxiv (Submitted on 2019/10/12)
• https://arxiv.org/pdf/1910.05453.pdf
wav2vecの続き。こちらはさらにNLPの要素が追加されている。
Interspeech2019論文読み会@Sony2019/11/2424
vq-wav2vec
量子化とBERTの利用
• wav2vecのembeddingを量子化する
• 量子化されたembeddingをBERTの入力にして、さらに特徴量抽出を行う。
Interspeech2019論文読み会@Sony2019/11/2425
Embeddingの量子化
wav2vec vq-wav2vec
Wav2vecのembedding からvq-wav2vecのembedding への量子化
Interspeech2019論文読み会@Sony2019/11/2426
Embeddingの量子化
Wav2vecのembedding からvq-wav2vecのembedding への量子化
Gumbel softmax もしくは K-means の利用
Gumbel softmax
Interspeech2019論文読み会@Sony2019/11/2427
BERTの利用
BERTの学習はmasked token predictionで行う。(https://arxiv.org/pdf/1907.11692.pdf)
ただし、普通にやると10msのembeddingを推定することは簡単すぎるため、
p=0.05の確率で開始点に設定し、そこから10フレームをマスクする。
Interspeech2019論文読み会@Sony2019/11/2428
音声認識への利用
BERTの出力を音声認識の特徴量として利用する
BERT (base) はサイズが大きいため、これを軽量化した BERT smallも利用している。
Interspeech2019論文読み会@Sony2019/11/2429
性能比較
一般的な音声認識実験(WSJコーパス)
世の強者たち
WSJ: 81h
+ FBank
BERTによって量子化の影響を打ち消している
Interspeech2019論文読み会@Sony2019/11/2430
性能比較
さらに小規模データ(TIMIT)での比較
BERTすごい
Interspeech2019論文読み会@Sony2019/11/2431
Bitrate比較
TIMITコーパスでのビットレートと音素誤り率の変化
※ただし、音声認識性能とのトレードオフが良いというだけで、圧縮効率が良いわけではない
BERTなしの条件
vq-wav2vecが最も良い
Interspeech2019論文読み会@Sony2019/11/2432
まとめ
NLP界隈で注目されているpre-trainingアプローチの音声認識への応用の紹介
・wav2vec
教師なしのデータをうまく利用して、少量のラベルデータで高い性能を実現可能。
・vq-wav2vec
BERTの生成モデリングは非常に強力であり、音声認識においても重要になると予想される。
一方、生成モデルの組み方としては手探り感が拭えない。やってみて、良かった、でしかない。
SpecAugmentの検討なども巻き込みながら、徐々に発展していくのでは?
Interspeech2019論文読み会@Sony2019/11/2433
参考文献
wav2vec: Unsupervised Pre-training for Speech Recognition, Steffen Schneider, et al., https://arxiv.org/abs/1904.05862
Representation learning with contrastive predictive coding, Aaron van den Oord, et al., https://arxiv.org/abs/1807.03748
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech, Yu-An Chung, et al., https://arxiv.org/abs/1803.08976
BERT: Pre-training of deep bidirectional transformers for language understanding., Jacob Devlin, et al., https://arxiv.org/abs/1810.04805
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks, Jiasen Lu, et al., https://arxiv.org/abs/1908.02265
Roberta: A robustly optimized bert pretraining approach, Yinhan Liu, et al., https://arxiv.org/abs/1907.11692
vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations, Alexei Baevski, et al., https://arxiv.org/abs/1910.05453
Ad

More Related Content

What's hot (20)

【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 

Similar to 論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition (15)

嗚呼、素晴らしき哉 MonoTouch
嗚呼、素晴らしき哉 MonoTouch嗚呼、素晴らしき哉 MonoTouch
嗚呼、素晴らしき哉 MonoTouch
hIDDENxv
 
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
Kentaro Tachibana
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑
YosukeKashiwagi1
 
Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門
Shinobu Kawano
 
2018/06/21 Game Change of deep learning and practical examples of Sony
 2018/06/21 Game Change of  deep learning and practical examples of Sony 2018/06/21 Game Change of  deep learning and practical examples of Sony
2018/06/21 Game Change of deep learning and practical examples of Sony
Sony Network Communications Inc.
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
Takuya Nishimoto
 
VUIテクノロジーアップデート& VUIビジネストレンド紹介
VUIテクノロジーアップデート& VUIビジネストレンド紹介VUIテクノロジーアップデート& VUIビジネストレンド紹介
VUIテクノロジーアップデート& VUIビジネストレンド紹介
Yukio Andoh
 
VoiceUIのデザインと音声サービスの勘所
VoiceUIのデザインと音声サービスの勘所VoiceUIのデザインと音声サービスの勘所
VoiceUIのデザインと音声サービスの勘所
Yukio Andoh
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori
 
20190316_Deep learning brings game change and manufacturing
20190316_Deep learning brings game change and manufacturing20190316_Deep learning brings game change and manufacturing
20190316_Deep learning brings game change and manufacturing
Sony Network Communications Inc.
 
アクセサリー製造メーカーへの提案例
アクセサリー製造メーカーへの提案例アクセサリー製造メーカーへの提案例
アクセサリー製造メーカーへの提案例
FIO Technology Inc.
 
【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント
【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント
【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント
Developers Summit
 
嗚呼、素晴らしき哉 MonoTouch
嗚呼、素晴らしき哉 MonoTouch嗚呼、素晴らしき哉 MonoTouch
嗚呼、素晴らしき哉 MonoTouch
hIDDENxv
 
Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
Kentaro Tachibana
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑ICASSP2020 論文読み会 柏木陽佑
ICASSP2020 論文読み会 柏木陽佑
YosukeKashiwagi1
 
Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門Delphi開発者のためのSencha入門
Delphi開発者のためのSencha入門
Shinobu Kawano
 
2018/06/21 Game Change of deep learning and practical examples of Sony
 2018/06/21 Game Change of  deep learning and practical examples of Sony 2018/06/21 Game Change of  deep learning and practical examples of Sony
2018/06/21 Game Change of deep learning and practical examples of Sony
Sony Network Communications Inc.
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
Takuya Nishimoto
 
VUIテクノロジーアップデート& VUIビジネストレンド紹介
VUIテクノロジーアップデート& VUIビジネストレンド紹介VUIテクノロジーアップデート& VUIビジネストレンド紹介
VUIテクノロジーアップデート& VUIビジネストレンド紹介
Yukio Andoh
 
VoiceUIのデザインと音声サービスの勘所
VoiceUIのデザインと音声サービスの勘所VoiceUIのデザインと音声サービスの勘所
VoiceUIのデザインと音声サービスの勘所
Yukio Andoh
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori
 
20190316_Deep learning brings game change and manufacturing
20190316_Deep learning brings game change and manufacturing20190316_Deep learning brings game change and manufacturing
20190316_Deep learning brings game change and manufacturing
Sony Network Communications Inc.
 
アクセサリー製造メーカーへの提案例
アクセサリー製造メーカーへの提案例アクセサリー製造メーカーへの提案例
アクセサリー製造メーカーへの提案例
FIO Technology Inc.
 
【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント
【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント
【16-D-6】比べてわかるフィーチャーフォンとスマホのアプリ開発・運用のポイント
Developers Summit
 
Ad

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition

Editor's Notes