SlideShare a Scribd company logo
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
“ 음성 합성기를 사용하는 서비스! “
Speech Synthesis
인공적으로 사람의 음성을 만드는 것
Speech Synthesis
Text-to-Speech (TTS)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
텍스트에 존재하지 않는
발음, 속도, 호흡(끊어 읽기), 운율 등의 정보를 추정하여
녹음한 화자와 가장 비슷한, 자연스러운 음성 생성
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
Concatenation Synthesis
Concatenation
방식
새로운
언어
새로운
화자
합성기
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
호감가는 목소리 정확한 발음 일관된 목소리
읽기 쉬운 스크립트
서비스 도메인에 따라 내용과 분량 선정
모호한 발음은 미리 알려줌
(01:07 -> 1대 7로 읽어주세요. 또는 1시 7분으로 읽어주세요)
보강 어휘
발성스크립트
1
2
3
4
“ 아무 곳에서나 하면 안돼요? “
“ 그냥 하면 되는 거 아닌가요? “
“ 특별히 신경 써야 하나요? ”
“ 녹음이 뭐 어려운가요? ”
 높은 볼륨 vs 숨소리 (흡~, 습~)
 노이즈 제거 (60Hz 전원 노이즈 등)
 좋은 녹음실과 훌륭한 사운드 엔지니어
 각 음소별 음성 분할
 음소 전사 (실제 발음열)
 장르
 감성
Transcription
 기타 등등
1. Preprocess
2. Sentence split
3. Tokenization
4. Text Normalization
5. Grapheme-to-Phoneme Conversion
6. Break Index Classification
7. Genre Classification
8. Emotion Classification
9. …
언어 처리
모듈 구현
Pitch Energy Duration
- Center and Bound - Center and Bound
 가장 자연스러운 합성 단위 찾기
 각 음소별로 꼭 붙어야 vs 떨어져도 상관 없는
 연결성 vs 추정값
 자연스러운 접합 (PSOLA 등)
음소 접합
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
이 모든 과정을 거쳐
한 화자의 합성기가 만들어집니다.
모든 서비스에서 나오는 똑같은 목소리
괜찮은가요?
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
내 여자친구 목소리로
깨워주는 알람
아이유의 목소리로
읽어주는 나의 일정
엄마, 아빠의 목소리로
읽어주는 동화
내 여자친구 목소리로
깨워주는 알람
아이유의 목소리로
읽어주는 나의 일정
엄마, 아빠의 목소리로
읽어주는 동화
“ 10년 전부터 있었던 서비스 요구 “
짧은 시간 쉽게 녹음하여
개인의 특성을 살리는 자연스러운 음성 생성
https://www.quora.com/Is-there-a-text-to-speech-software-
that-uses-a-custom-recorded-voice
왜 없을까요?
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
• 일정한 톤 유지?
• 깨끗한 발성?
• 정확한 발음?
• 녹음 분량?
“ 아무 곳에서나 하면 안돼요? “
“ 그냥 하면 되는 거 아닌가요? “
“ 특별히 신경 써야 하나요? ”
“ 녹음이 뭐 어려운가요? ”
“ 아무 곳에서나 하면 안돼요? “
“ 그냥 하면 되는 거 아닌가요? “
“ 특별히 신경 써야 하나요? ”
“ 녹음이 뭐 어려운가요? ”
 특별히 다른 소리나 섞이지 않으면 다행!
 각 음소별 음성 분할
 음소 전사 (실제 발음열)
 장르
 감성
Transcription
 기타 등등
 각 음소별 음성 분할
 음소 전사 (실제 발음열)
 장르
 감성
Transcription
 기타 등등
 전사 작업 결과물 품질
1. 발성 목록 선택
2. 언어처리
3. 운율 모델
4. 제작 시간
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
Statistical
Parametric 방식
End-to-End Vocoder
Speaker
Adaptation
Concatenation 방식
Statistical
Parametric 방식
Text
Database
Speech
Database
Statistical
Model
Model
Training
(HMM, DNN, RNN)
Feature
Extraction
(PoN, Straight,
World)
Parameter
Estimation
Waveform
Synthesis
1. Voice, Unvoice
2. F0 (fundamendal frequency)
3. LSF (line spectral frequency from spectral envelope)
4. BAP (mean band aperiodicity from aperiodicity)
전사
어떤 네트워크를 사용?
무엇을 추정?
어떻게 소리를 만들어 내는가?
기본적으로 attention 기반의 seq2seq 네트워크
mel spectrogram, vocoder parameter
Griffin-Lim, Vocoder, WaveNet
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
품질
합성 속도
학습 속도
Wavenet > Vocoder >>> Griffin-Lim
Vocoder > Griffin-Lim >>>>>>>>>>>>>>>>>>>>>>>>>> WaveNet
Vocoder == Griffin-Lim >>>>>>>>>>>>>>>>>>>>>>>>> WaveNet
- 잘못 추정된 파라미터에 의한 품질 저하가 큼
- 모델이 Unvoice 구간을 Voice로 잘못 추정하였을 때, 큰 잡음 발생
(반대의 경우는 상대적으로 안정적)
- 여러 F0 추출 방법을 사용하여 최대한 넓게 Unvoice 구간 확정
- 짧은 Unvoice, Voice 구간은 잘못 추정되었을 수 있기 때문에 무시
- 잘못 추정된 경우 합성음 품질 저하를 줄이기 위해 전 구간 F0값 사용
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
- 대량의 추가적인 음성 데이터와 개인의 적은 음성 데이터를 사용하여 모델 구축
- 대량의 음성 데이터
· 각 화자당 소량 데이터, 여러 화자
· 각 화자당 대량 데이터, 적은 화자
- Adaptation 방법
· Explicit Adaption
· Implicit Adaptation
Statistical
Parametric 방식
End-to-End Vocoder
Speaker
Adaptation
Statistical
Parametric 방식
End-to-End Vocoder
Speaker
Adaptation
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
- 대량의 데이터로 base model 구축
- 100문장, 약 8분 데이터로 Speaker Adaptation
- 90문장 학습 (7분)
- 10문장 검증 (1분)
- 시연 문장 모두 학습 데이터에는 포함되지 않음
NES Base Model
Recording
NES Target
NES Base Model
Recording
NES Target
NES Base Model
Recording
NES Target
NES Base Model
Recording
NES Target
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
- 품질 향상
- 전처리 기술 고도화
- 더 적은 데이터 사용
- 새로운 End-to-End 모델
- 새로운 adaptation 방법
- Voice Conversion
- …
Positions
- Speech Recognition
- Speech Synthesis
- Computer Vision
- Natural Language
- NSML / AutoML
- Finance AI
- App/Web Services
- Research Scientist
- Research Engineer
- SW Engineer
- Android / iOS Engineer
- Backend Engineer
- Data Engineer
- UI/UX Engineer
- Internship Member
- Global Residency
Domains
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)
[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)

More Related Content

PDF
07_PhysX 강체물리 입문
PDF
Container Performance Analysis
PPTX
Quic을 이용한 네트워크 성능 개선
PPT
Ndc2011 성능 향상을_위한_데이터베이스_아키텍쳐_구축_및_개발_가이드
PDF
[Kgc2012] deferred forward 이창희
PDF
[Ndc12] 누구나 알기쉬운 hdr과 톤맵핑 박민근
PPTX
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
PPTX
Dynamic Resolution and Interlaced Rendering
07_PhysX 강체물리 입문
Container Performance Analysis
Quic을 이용한 네트워크 성능 개선
Ndc2011 성능 향상을_위한_데이터베이스_아키텍쳐_구축_및_개발_가이드
[Kgc2012] deferred forward 이창희
[Ndc12] 누구나 알기쉬운 hdr과 톤맵핑 박민근
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
Dynamic Resolution and Interlaced Rendering

What's hot (20)

PDF
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
PPTX
Hable John Uncharted2 Hdr Lighting
PDF
[IGC 2017] 아마존 구승모 - 게임 엔진으로 서버 제작 및 운영까지
PPTX
Open source apm scouter를 통한 관제 관리 jadecross 정환열 수석
PDF
[224] 번역 모델 기반_질의_교정_시스템
PDF
[226]대용량 텍스트마이닝 기술 하정우
PDF
전형규, SilvervineUE4Lua: UE4에서 Lua 사용하기, NDC2019
PDF
우아하게 준비하는 테스트와 리팩토링 - PyCon Korea 2018
PDF
API Gateway를 이용한 토큰 기반 인증 아키텍처
PDF
Practical SPU Programming in God of War III
PPTX
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
PDF
Precomputed Voxelized-Shadows for Large-scale Scene and Many lights
PDF
CUDA Raytracing을 이용한 Voxel오브젝트 가시성 테스트
PPTX
[0821 박민근] 렌즈 플레어(lens flare)
PDF
Penner pre-integrated skin rendering (siggraph 2011 advances in real-time r...
PDF
아마존의 관리형 게임 플랫폼 활용하기: GameLift (Deep Dive) :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS ...
PDF
7. 게임 스트리밍 서비스를 위한 아키텍처 - 언리얼 엔진을 중심으로! [레벨 300] - 발표자: 하흥수, 솔루션즈 아키텍트, AWS :...
PDF
화자인식 기술 및 관련 연구 소개
PPT
Crysis Next-Gen Effects (GDC 2008)
PDF
Prometheus Project Journey
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
Hable John Uncharted2 Hdr Lighting
[IGC 2017] 아마존 구승모 - 게임 엔진으로 서버 제작 및 운영까지
Open source apm scouter를 통한 관제 관리 jadecross 정환열 수석
[224] 번역 모델 기반_질의_교정_시스템
[226]대용량 텍스트마이닝 기술 하정우
전형규, SilvervineUE4Lua: UE4에서 Lua 사용하기, NDC2019
우아하게 준비하는 테스트와 리팩토링 - PyCon Korea 2018
API Gateway를 이용한 토큰 기반 인증 아키텍처
Practical SPU Programming in God of War III
소셜게임 서버 개발 관점에서 본 Node.js의 장단점과 대안
Precomputed Voxelized-Shadows for Large-scale Scene and Many lights
CUDA Raytracing을 이용한 Voxel오브젝트 가시성 테스트
[0821 박민근] 렌즈 플레어(lens flare)
Penner pre-integrated skin rendering (siggraph 2011 advances in real-time r...
아마존의 관리형 게임 플랫폼 활용하기: GameLift (Deep Dive) :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS ...
7. 게임 스트리밍 서비스를 위한 아키텍처 - 언리얼 엔진을 중심으로! [레벨 300] - 발표자: 하흥수, 솔루션즈 아키텍트, AWS :...
화자인식 기술 및 관련 연구 소개
Crysis Next-Gen Effects (GDC 2008)
Prometheus Project Journey
Ad

Similar to [222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?) (20)

PDF
[2D2]다국어음성합성시스템(NVOICE)개발
PDF
Custom TTS using multi-speaker-tacotron(nanheekim)
PDF
Sharing development experience of educational apps for the hard of hearing (P...
PDF
카카오가 가지고 있는 음성처리 기술
PDF
딥러닝 음성합성기 개발 - 셀바스AI
PDF
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
PDF
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
PDF
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
PDF
제 20회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [B01Z] HAP-PY_음성 인식 기반 AI 면접 솔루...
PDF
Pycon Korea 2020
PDF
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
PDF
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
PDF
Chapter 12 applications - 1
PDF
Voice Conversion : Audio알못에서 VCC2020참가까지
PDF
Toolkits for robust speech processing
PDF
Week5 발표(특허,경쟁제품)
PPTX
Papago/N2MT 개발이야기
PDF
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
PDF
Speech translator
PPTX
Introduction of NUGO's vision and business model
[2D2]다국어음성합성시스템(NVOICE)개발
Custom TTS using multi-speaker-tacotron(nanheekim)
Sharing development experience of educational apps for the hard of hearing (P...
카카오가 가지고 있는 음성처리 기술
딥러닝 음성합성기 개발 - 셀바스AI
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
제 20회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [B01Z] HAP-PY_음성 인식 기반 AI 면접 솔루...
Pycon Korea 2020
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
AWS CLOUD 2018-AWS의 새로운 언어, 음성, 텍스트 처리 인공지능 서비스 (남궁영환 솔루션즈 아키텍트)
Chapter 12 applications - 1
Voice Conversion : Audio알못에서 VCC2020참가까지
Toolkits for robust speech processing
Week5 발표(특허,경쟁제품)
Papago/N2MT 개발이야기
[AWS Innovate 온라인 컨퍼런스] 한국어를 위한 AWS 인공지능(AI) 서비스 소개 및 활용 방법 - 강정희, AWS 솔루션즈 아키텍트
Speech translator
Introduction of NUGO's vision and business model
Ad

More from NAVER D2 (20)

PDF
[211] 인공지능이 인공지능 챗봇을 만든다
PDF
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
PDF
[215] Druid로 쉽고 빠르게 데이터 분석하기
PDF
[245]Papago Internals: 모델분석과 응용기술 개발
PDF
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
PDF
[235]Wikipedia-scale Q&A
PDF
[244]로봇이 현실 세계에 대해 학습하도록 만들기
PDF
[243] Deep Learning to help student’s Deep Learning
PDF
[234]Fast & Accurate Data Annotation Pipeline for AI applications
PDF
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
PDF
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
PDF
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
PDF
[224]네이버 검색과 개인화
PDF
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
PDF
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
PDF
[213] Fashion Visual Search
PDF
[232] TensorRT를 활용한 딥러닝 Inference 최적화
PDF
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
PDF
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
PDF
[223]기계독해 QA: 검색인가, NLP인가?
[211] 인공지능이 인공지능 챗봇을 만든다
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[215] Druid로 쉽고 빠르게 데이터 분석하기
[245]Papago Internals: 모델분석과 응용기술 개발
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[235]Wikipedia-scale Q&A
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[243] Deep Learning to help student’s Deep Learning
[234]Fast & Accurate Data Annotation Pipeline for AI applications
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[224]네이버 검색과 개인화
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[213] Fashion Visual Search
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[223]기계독해 QA: 검색인가, NLP인가?

[222]누구나 만드는 내 목소리 합성기 (부제: 그게 정말 되나요?)