46. 어떤 네트워크를 사용?
무엇을 추정?
어떻게 소리를 만들어 내는가?
기본적으로 attention 기반의 seq2seq 네트워크
mel spectrogram, vocoder parameter
Griffin-Lim, Vocoder, WaveNet
51. 품질
합성 속도
학습 속도
Wavenet > Vocoder >>> Griffin-Lim
Vocoder > Griffin-Lim >>>>>>>>>>>>>>>>>>>>>>>>>> WaveNet
Vocoder == Griffin-Lim >>>>>>>>>>>>>>>>>>>>>>>>> WaveNet
52. - 잘못 추정된 파라미터에 의한 품질 저하가 큼
- 모델이 Unvoice 구간을 Voice로 잘못 추정하였을 때, 큰 잡음 발생
(반대의 경우는 상대적으로 안정적)
- 여러 F0 추출 방법을 사용하여 최대한 넓게 Unvoice 구간 확정
- 짧은 Unvoice, Voice 구간은 잘못 추정되었을 수 있기 때문에 무시
- 잘못 추정된 경우 합성음 품질 저하를 줄이기 위해 전 구간 F0값 사용
59. - 대량의 추가적인 음성 데이터와 개인의 적은 음성 데이터를 사용하여 모델 구축
- 대량의 음성 데이터
· 각 화자당 소량 데이터, 여러 화자
· 각 화자당 대량 데이터, 적은 화자
- Adaptation 방법
· Explicit Adaption
· Implicit Adaptation