論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition

wav2vec: Unsupervised Pre-training for Speech Recognition
ソニー株式会社
Ｒ＆Ｄセンター音声情報処理技術部
柏木陽佑
音声認識における事前学習の利用
論文紹介

Interspeech2019論文読み会@Sony2019/11/242
自己紹介
・柏木陽佑 (32)
- 所属 :
ソニー株式会社 R&D センター音声情報処理技術部
- 専門 :
音声認識（雑音抑圧、音響モデル）
- 経歴：
2014.夏ソニーでインターンシップを経験
2016.3 東京大学大学院工学系研究科博士課程卒 (峯松研究室)
2016.4～ソニー株式会社入社。音声認識の研究開発に従事

論文概要
wav2vec: Unsupervised Pre-training for Speech Recognition ( Interspeech 2019 )
• 著者：Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli (Facebook)
• セッション： Feature Extraction for ASR (poster session)
• コード
• https://github.com/pytorch/fairseq
• Arxiv:
• https://arxiv.org/pdf/1904.05862.pdf
近年NLPで話題になっているpre-trainingアプローチの音声認識利用の検討
NLPに強いfacebookらしい研究

wav2vecの目的
人手で作られた特徴量抽出なしで音声認識を行いたい
音声認識モデル
特徴量抽出
• Fbank
• MFCC
• + Delta
• + Statistic Normalization
• + VTLN
• + fMLLR
既存の人手で設計された特徴量群
あらゆる….

wav2vecの目的
人手で作られた特徴量抽出なしで音声認識を行いたい
波形入力の音声認識はモデル化が難しい…
• 大規模なラベル付きデータが必要
あらゆる….
ラベルのないデータを利用できないか？
• ラベル付きデータよりは集めやすい

wav2vecの目的
labelなしのPre-trainingによってもっと良い特徴量抽出器を作りたい！
特徴量抽出ラベルの付いていないデータ込みで学習
ラベルの付いてあるデータで学習
古くは RBMや、autoencoder, VAE なども

Pre-training
教師なしアプローチによって良いembedding空間を構築する
• Word2vec ： skip-gramなどを利用して単語のembeddingを学習する。
• BERT : transformer-basedの大規模な言語モデルを構築する。
• ViLBERT：Vison併用版 BERT
• Speech2vec : 音声版word2vec ( interspeech2018 )
• Representation learning with contrastive predictive coding
特にBERTの影響はすさまじく、音声認識においても重要な技術となると考えられる。

Speech2Vec
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech
• Interspeech2018
• 著者：Yu-An Chung, James Glass (MIT)
• コード
• https://github.com/iamyuanchung/speech2vec-pretrained-vectors
word2vecを音声ドメインにおいて構築したもの

Speech2Vec
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech
Speaker2Vec + skipgramの
t-SNEによる2次元プロット
positive, negative
上側にpositive下側にnegativeが
配置されていている。

Pre-training
教師なしアプローチによって良いembedding空間を構築する
• Word2vec ： skip-gramなどを利用して単語のembeddingを学習する。
• BERT : transformer-basedの大規模な言語モデルを構築する。
• ViLBERT：Vison併用版 BERT
• Speech2vec : 音声版word2vec ( interspeech2018 )
• Representation learning with contrastive predictive coding
Wav2vec: CPCの大規模音声認識への応用
※実験的に

Representation Learning with Contrastive Predictive Coding (DeepMind)
encoderの出力からコンテキストを考慮して未来のembeddingを予測するモデル
特徴量 + 線形識別器による音素識別タスク

wav2vec ネットワーク
ネットワーク構造はCPCと同じ
encoder network
embedding vector
context network

Encoder network
音声波形からembeddingを計算するネットワーク
一次元畳み込みネットワーク
• 5層
• Kernel: (10,8,4,4,4)
• Strides: (5,4,2,2,2)

Context network
Embeddingのコンテキスト情報を扱う
一次元畳み込みネットワーク
• 9層
• Kernel: 3
• Strides: 1
• 全部で210msの窓

CPC目的関数

CPC目的関数
①
① 未来のと相関が高いか？ -> 高ければを下げる

CPC目的関数
② 負例と相関が低いか？ -> 低ければを下げる
①
②
は各データから10個ずつランダムに選ぶ

CPC目的関数
② 負例と相関が低いか？ -> 低ければを下げる
①
②
は各データから10個ずつランダムに選ぶ
いろいろな時間幅を足して最終的なロスにする。

音声認識への利用
Acoustic model
をfliter bankなどの特徴量の代わりに利用する
Acoustic model
Feature Extractor
(FBank)

性能比較
一般的な音声認識実験（WSJコーパス）
世の強者たち
Pre-trainingのデータを増やすと性能が上がる
WSJ: 81h
+ FBank

性能比較
wav2vec WSJ: WSJ(81h) で pre-training
wav2vec Libri: Librispeech(960h) でpre-training
音響モデルの学習データを減らすと差が開く
Pre-trainingのデータ量が同じ程度だと逆効果？
ラベル付きデータを減らした場合の性能変化

性能比較
※TIMITの学習データは3h
Pre-trainingのデータを増やすと性能が上がる
さらに小規模データでの比較
人手特徴量より良い！
波形入力は難しい…

vq-wav2vec
VQ-WAV2VEC: SELF-SUPERVISED LEARNING OF DISCRETE SPEECH REPRESENTATIONS
• 著者：Alexei Baevski, Steffen Schneider, Michael Auli (Facebook) <- wav2vecとほぼ同じ
• コード
• まだ。公開予定はあるらしい。
• Arxiv (Submitted on 2019/10/12)
• https://arxiv.org/pdf/1910.05453.pdf
wav2vecの続き。こちらはさらにNLPの要素が追加されている。

vq-wav2vec
量子化とBERTの利用
• wav2vecのembeddingを量子化する
• 量子化されたembeddingをBERTの入力にして、さらに特徴量抽出を行う。

Embeddingの量子化
wav2vec vq-wav2vec
Wav2vecのembedding からvq-wav2vecのembedding への量子化

Embeddingの量子化
Wav2vecのembedding からvq-wav2vecのembedding への量子化
Gumbel softmax もしくは K-means の利用
Gumbel softmax

BERTの利用
BERTの学習はmasked token predictionで行う。(https://arxiv.org/pdf/1907.11692.pdf)
ただし、普通にやると10msのembeddingを推定することは簡単すぎるため、
p=0.05の確率で開始点に設定し、そこから10フレームをマスクする。

音声認識への利用
BERTの出力を音声認識の特徴量として利用する
BERT (base) はサイズが大きいため、これを軽量化した BERT smallも利用している。

性能比較
一般的な音声認識実験（WSJコーパス）
世の強者たち
WSJ: 81h
+ FBank
BERTによって量子化の影響を打ち消している

性能比較
さらに小規模データ（TIMIT）での比較
BERTすごい

Bitrate比較
TIMITコーパスでのビットレートと音素誤り率の変化
※ただし、音声認識性能とのトレードオフが良いというだけで、圧縮効率が良いわけではない
BERTなしの条件
vq-wav2vecが最も良い

まとめ
NLP界隈で注目されているpre-trainingアプローチの音声認識への応用の紹介
・wav2vec
教師なしのデータをうまく利用して、少量のラベルデータで高い性能を実現可能。
・vq-wav2vec
BERTの生成モデリングは非常に強力であり、音声認識においても重要になると予想される。
一方、生成モデルの組み方としては手探り感が拭えない。やってみて、良かった、でしかない。
SpecAugmentの検討なども巻き込みながら、徐々に発展していくのでは？

参考文献
wav2vec: Unsupervised Pre-training for Speech Recognition, Steffen Schneider, et al., https://arxiv.org/abs/1904.05862
Representation learning with contrastive predictive coding, Aaron van den Oord, et al., https://arxiv.org/abs/1807.03748
Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech, Yu-An Chung, et al., https://arxiv.org/abs/1803.08976
BERT: Pre-training of deep bidirectional transformers for language understanding., Jacob Devlin, et al., https://arxiv.org/abs/1810.04805
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks, Jiasen Lu, et al., https://arxiv.org/abs/1908.02265
Roberta: A robustly optimized bert pretraining approach, Yinhan Liu, et al., https://arxiv.org/abs/1907.11692
vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations, Alexei Baevski, et al., https://arxiv.org/abs/1910.05453

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition

Recommended

More Related Content

What's hot (20)

Similar to 論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition (15)

論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition

Editor's Notes