SlideShare a Scribd company logo
Кастомні голосові асистенти:
інфраструктура, інтеграції та унікальність
Єгор
Смоляков
План
● Хто я і чим займаюся
● Купа базвордів для розуміння презентації
● Навіщо робити кастомні асистенти, якщо є ClosedAI?
● Інфраструктура: як обрати і що важливо
● Інтеграція в телефонії
● Унікальність
● Ваші питання
Хто я? Чим займаюсь?
Займаюся:
● Speech-to-Text (5 років), початок в t.me/speech_recognition_uk
● Text-to-Speech
● Voice over Internet Protocol (бізнес-телефонія)
● AI communities building: open-source, the Speech-UK initiative (розширюємо
можливості для розробників) та КИЇВСЬКИЙ НЕЙРОДВІЖ
Як зв’язатися?
- Telegram: t.me/smlkw
- LinkedIn: linkedin.com/in/yehor-smoliakov/ (тут мій досвід та купа інформації по темі + @doing_something
в Telegram як канал якщо Ви [18261, 1732])
Ocean of Buzzwords
І це тільки для того щоб запустити генеративні дзвінки:
● ASR (він же STT)
● TTS, VC
● Speech Denoising
● LLM, MLM, SLM, Nano LMs (KenLM) або щось інше для Next-Reply-
Prediction
● vLLM, LiteLLM Proxy, sglang, triton-server, or NVIDIA Dynamo
● FreeSWITCH, Asterisk
Навіщо робити кастомні голосові асистенти?
Відповідь проста – недостатня якість базових моделей.
Потрібно:
1. Якщо хочемо якісний розпізнавач – адаптуємо наявні моделі до своїх даних;
2. Пайплайн з анотаторами: Argilla чи свій внутрішній;
3. Клієнти хочуть чути приємний голос, який не звучить монотонно;
4. Інколи промптити недостатньо, треба робити складніші пайплайни для текстової
генерації. Якщо суржик: або своя code-switching ASR модель, або корекція через LLM.
Де шукати моделі:
Ось тут → https://github.com/egorsmkv/speech-recognition-uk
Інфраструктура: як обрати і що важливо
● Розміщуємо АТС біля серверу розпізнавання;
● Оптимізуємо свої моделі до найменшого precision-a (fp8, (b)f16, …) -
це і є квантизація. Наприклад, через LLM Compressor/HQQ;
● По можливості обираємо end-to-end моделі (без n-stages моделей);
● Міряємо використання пам’яті та latency через навантаження
системи;
● Потім обираємо відповідні ресурси;
Інтеграція: телефонія
● FreeSWITCH – це топ за безкоштовно, а не за всі гроші світу.
○ Проста АТС;
○ Програмування flow дзвінків через Python або Lua.
● Asterisk
○ Якщо є людина яка з ним працювала 5+ років – тоді ок.
Стрімимо аудіо з дзвінка на сервер розпізнавання через WebSocket.
Унікальність
Як створити унікальний голос, інструкція:
● Записуємо свого войс-таланта (2 години аудіо);
● Клонуємо через ElevenLabs;
● Генеруємо TTS-датасет;
● Тюнимо публічну модель;
● Voici!
Дякую за увагу
Питання в мікрофон 🎤 або можна мені в Telegram:
→
@smlkw
Або “берете мене за руку” та йдемо на каву говорити
про більш деталізовані речі, які залишилися між
рядків цієї презентації ;-)

More Related Content

Similar to "Custom Voice Assistants: Infrastructure, Integrations, and Uniqueness", Yehor Smoliakov (20)

PDF
Yuliia Pieskova та Anastasiia Khait: Робота зі стейкхолдерами за допомогою AI...
Lviv Startup Club
 
PPTX
Rostyslav Chayka: Комунікація за допомогою AI (UA)
Lviv Startup Club
 
PDF
Як я запускаю проекти без програмування на WordPress і скільки це коштує
Oleksandr Strikha
 
PPTX
"Secrets of Scaling a Product from 2 to 30 Teams", Igor Drozd.pptx
Fwdays
 
PDF
Mariya Yeremenko: Вплив Генеративного ШІ на сучасний світ та на особисту ефек...
Lviv Startup Club
 
PPTX
"What is a RAG system and how to build it",Dmytro Spodarets
Fwdays
 
PDF
"Slow but Steady vs Fast and Furious: The Dilemma of Modern Development", Kyr...
Fwdays
 
PPTX
Anton Lytvynenko: Івент Штормінг – моделювання фічі розробниками та стекхлоде...
Lviv Startup Club
 
PDF
Yehor Smoliakov: Розпізнавання дзвінків для покращення клієнтського досвіду (UA)
Lviv Startup Club
 
PDF
Yehor Smoliakov: Розпізнавання дзвінків для покращення клієнтського досвіду (UA)
Lviv Startup Club
 
PPTX
МИКОЛА СОЛОПІЙ «Формула успішного переходу від manual до automation testing» ...
QADay
 
PPTX
Yuliia Pieskova та Mykyta Melnyk: Управління ризиками за допомогою AI (UA)
Lviv Startup Club
 
PDF
Rostyslav Chayka: Комунікація за допомогою AI (UA)
Lviv Startup Club
 
PPTX
Zastosyvanyasychasnyhzasobivspilkyvanya
leonovatanya111
 
PDF
Volodymyr Koval: Кейс впровадження AI-асистента на архитектурі агентної систе...
Lviv Startup Club
 
PDF
"Incremental rollouts and rollbacks with business metrics control at every st...
Fwdays
 
PPTX
Yuliia Pieskova and Anastasiia Khait: Робота зі стейкхолдерами за допомогою A...
Lviv Startup Club
 
PDF
Golang
Maxim Tkach
 
PDF
IT Rally - ISIS
Sergiy Beley
 
PPTX
Rostyslav Chayka, Anastasiia Khait, Andrii Burlutskyi: Комунікація за допомог...
Lviv Startup Club
 
Yuliia Pieskova та Anastasiia Khait: Робота зі стейкхолдерами за допомогою AI...
Lviv Startup Club
 
Rostyslav Chayka: Комунікація за допомогою AI (UA)
Lviv Startup Club
 
Як я запускаю проекти без програмування на WordPress і скільки це коштує
Oleksandr Strikha
 
"Secrets of Scaling a Product from 2 to 30 Teams", Igor Drozd.pptx
Fwdays
 
Mariya Yeremenko: Вплив Генеративного ШІ на сучасний світ та на особисту ефек...
Lviv Startup Club
 
"What is a RAG system and how to build it",Dmytro Spodarets
Fwdays
 
"Slow but Steady vs Fast and Furious: The Dilemma of Modern Development", Kyr...
Fwdays
 
Anton Lytvynenko: Івент Штормінг – моделювання фічі розробниками та стекхлоде...
Lviv Startup Club
 
Yehor Smoliakov: Розпізнавання дзвінків для покращення клієнтського досвіду (UA)
Lviv Startup Club
 
Yehor Smoliakov: Розпізнавання дзвінків для покращення клієнтського досвіду (UA)
Lviv Startup Club
 
МИКОЛА СОЛОПІЙ «Формула успішного переходу від manual до automation testing» ...
QADay
 
Yuliia Pieskova та Mykyta Melnyk: Управління ризиками за допомогою AI (UA)
Lviv Startup Club
 
Rostyslav Chayka: Комунікація за допомогою AI (UA)
Lviv Startup Club
 
Zastosyvanyasychasnyhzasobivspilkyvanya
leonovatanya111
 
Volodymyr Koval: Кейс впровадження AI-асистента на архитектурі агентної систе...
Lviv Startup Club
 
"Incremental rollouts and rollbacks with business metrics control at every st...
Fwdays
 
Yuliia Pieskova and Anastasiia Khait: Робота зі стейкхолдерами за допомогою A...
Lviv Startup Club
 
Golang
Maxim Tkach
 
IT Rally - ISIS
Sergiy Beley
 
Rostyslav Chayka, Anastasiia Khait, Andrii Burlutskyi: Комунікація за допомог...
Lviv Startup Club
 

More from Fwdays (20)

PDF
"Mastering UI Complexity: State Machines and Reactive Patterns at Grammarly",...
Fwdays
 
PDF
"Effect, Fiber & Schema: tactical and technical characteristics of Effect.ts"...
Fwdays
 
PPTX
"Computer Use Agents: From SFT to Classic RL", Maksym Shamrai
Fwdays
 
PPTX
"Як ми переписали Сільпо на Angular", Євген Русаков
Fwdays
 
PDF
"AI Transformation: Directions and Challenges", Pavlo Shaternik
Fwdays
 
PDF
"Validation and Observability of AI Agents", Oleksandr Denisyuk
Fwdays
 
PPTX
"Autonomy of LLM Agents: Current State and Future Prospects", Oles` Petriv
Fwdays
 
PDF
"Beyond English: Navigating the Challenges of Building a Ukrainian-language R...
Fwdays
 
PPTX
"Co-Authoring with a Machine: What I Learned from Writing a Book on Generativ...
Fwdays
 
PPTX
"Human-AI Collaboration Models for Better Decisions, Faster Workflows, and Cr...
Fwdays
 
PDF
"AI is already here. What will happen to your team (and your role) tomorrow?"...
Fwdays
 
PPTX
"Is it worth investing in AI in 2025?", Alexander Sharko
Fwdays
 
PDF
''Taming Explosive Growth: Building Resilience in a Hyper-Scaled Financial Pl...
Fwdays
 
PDF
"Scaling in space and time with Temporal", Andriy Lupa.pdf
Fwdays
 
PDF
"Database isolation: how we deal with hundreds of direct connections to the d...
Fwdays
 
PDF
"Scaling in space and time with Temporal", Andriy Lupa .pdf
Fwdays
 
PPTX
"Provisioning via DOT-Chain: from catering to drone marketplaces", Volodymyr ...
Fwdays
 
PPTX
" Observability with Elasticsearch: Best Practices for High-Load Platform", A...
Fwdays
 
PPTX
"How to survive Black Friday: preparing e-commerce for a peak season", Yurii ...
Fwdays
 
PPTX
"Istio Ambient Mesh in production: our way from Sidecar to Sidecar-less",Hlib...
Fwdays
 
"Mastering UI Complexity: State Machines and Reactive Patterns at Grammarly",...
Fwdays
 
"Effect, Fiber & Schema: tactical and technical characteristics of Effect.ts"...
Fwdays
 
"Computer Use Agents: From SFT to Classic RL", Maksym Shamrai
Fwdays
 
"Як ми переписали Сільпо на Angular", Євген Русаков
Fwdays
 
"AI Transformation: Directions and Challenges", Pavlo Shaternik
Fwdays
 
"Validation and Observability of AI Agents", Oleksandr Denisyuk
Fwdays
 
"Autonomy of LLM Agents: Current State and Future Prospects", Oles` Petriv
Fwdays
 
"Beyond English: Navigating the Challenges of Building a Ukrainian-language R...
Fwdays
 
"Co-Authoring with a Machine: What I Learned from Writing a Book on Generativ...
Fwdays
 
"Human-AI Collaboration Models for Better Decisions, Faster Workflows, and Cr...
Fwdays
 
"AI is already here. What will happen to your team (and your role) tomorrow?"...
Fwdays
 
"Is it worth investing in AI in 2025?", Alexander Sharko
Fwdays
 
''Taming Explosive Growth: Building Resilience in a Hyper-Scaled Financial Pl...
Fwdays
 
"Scaling in space and time with Temporal", Andriy Lupa.pdf
Fwdays
 
"Database isolation: how we deal with hundreds of direct connections to the d...
Fwdays
 
"Scaling in space and time with Temporal", Andriy Lupa .pdf
Fwdays
 
"Provisioning via DOT-Chain: from catering to drone marketplaces", Volodymyr ...
Fwdays
 
" Observability with Elasticsearch: Best Practices for High-Load Platform", A...
Fwdays
 
"How to survive Black Friday: preparing e-commerce for a peak season", Yurii ...
Fwdays
 
"Istio Ambient Mesh in production: our way from Sidecar to Sidecar-less",Hlib...
Fwdays
 
Ad

"Custom Voice Assistants: Infrastructure, Integrations, and Uniqueness", Yehor Smoliakov

  • 1. Кастомні голосові асистенти: інфраструктура, інтеграції та унікальність Єгор Смоляков
  • 2. План ● Хто я і чим займаюся ● Купа базвордів для розуміння презентації ● Навіщо робити кастомні асистенти, якщо є ClosedAI? ● Інфраструктура: як обрати і що важливо ● Інтеграція в телефонії ● Унікальність ● Ваші питання
  • 3. Хто я? Чим займаюсь? Займаюся: ● Speech-to-Text (5 років), початок в t.me/speech_recognition_uk ● Text-to-Speech ● Voice over Internet Protocol (бізнес-телефонія) ● AI communities building: open-source, the Speech-UK initiative (розширюємо можливості для розробників) та КИЇВСЬКИЙ НЕЙРОДВІЖ Як зв’язатися? - Telegram: t.me/smlkw - LinkedIn: linkedin.com/in/yehor-smoliakov/ (тут мій досвід та купа інформації по темі + @doing_something в Telegram як канал якщо Ви [18261, 1732])
  • 4. Ocean of Buzzwords І це тільки для того щоб запустити генеративні дзвінки: ● ASR (він же STT) ● TTS, VC ● Speech Denoising ● LLM, MLM, SLM, Nano LMs (KenLM) або щось інше для Next-Reply- Prediction ● vLLM, LiteLLM Proxy, sglang, triton-server, or NVIDIA Dynamo ● FreeSWITCH, Asterisk
  • 5. Навіщо робити кастомні голосові асистенти? Відповідь проста – недостатня якість базових моделей. Потрібно: 1. Якщо хочемо якісний розпізнавач – адаптуємо наявні моделі до своїх даних; 2. Пайплайн з анотаторами: Argilla чи свій внутрішній; 3. Клієнти хочуть чути приємний голос, який не звучить монотонно; 4. Інколи промптити недостатньо, треба робити складніші пайплайни для текстової генерації. Якщо суржик: або своя code-switching ASR модель, або корекція через LLM. Де шукати моделі: Ось тут → https://github.com/egorsmkv/speech-recognition-uk
  • 6. Інфраструктура: як обрати і що важливо ● Розміщуємо АТС біля серверу розпізнавання; ● Оптимізуємо свої моделі до найменшого precision-a (fp8, (b)f16, …) - це і є квантизація. Наприклад, через LLM Compressor/HQQ; ● По можливості обираємо end-to-end моделі (без n-stages моделей); ● Міряємо використання пам’яті та latency через навантаження системи; ● Потім обираємо відповідні ресурси;
  • 7. Інтеграція: телефонія ● FreeSWITCH – це топ за безкоштовно, а не за всі гроші світу. ○ Проста АТС; ○ Програмування flow дзвінків через Python або Lua. ● Asterisk ○ Якщо є людина яка з ним працювала 5+ років – тоді ок. Стрімимо аудіо з дзвінка на сервер розпізнавання через WebSocket.
  • 8. Унікальність Як створити унікальний голос, інструкція: ● Записуємо свого войс-таланта (2 години аудіо); ● Клонуємо через ElevenLabs; ● Генеруємо TTS-датасет; ● Тюнимо публічну модель; ● Voici!
  • 9. Дякую за увагу Питання в мікрофон 🎤 або можна мені в Telegram: → @smlkw Або “берете мене за руку” та йдемо на каву говорити про більш деталізовані речі, які залишилися між рядків цієї презентації ;-)