2. План
● Хто я і чим займаюся
● Купа базвордів для розуміння презентації
● Навіщо робити кастомні асистенти, якщо є ClosedAI?
● Інфраструктура: як обрати і що важливо
● Інтеграція в телефонії
● Унікальність
● Ваші питання
3. Хто я? Чим займаюсь?
Займаюся:
● Speech-to-Text (5 років), початок в t.me/speech_recognition_uk
● Text-to-Speech
● Voice over Internet Protocol (бізнес-телефонія)
● AI communities building: open-source, the Speech-UK initiative (розширюємо
можливості для розробників) та КИЇВСЬКИЙ НЕЙРОДВІЖ
Як зв’язатися?
- Telegram: t.me/smlkw
- LinkedIn: linkedin.com/in/yehor-smoliakov/ (тут мій досвід та купа інформації по темі + @doing_something
в Telegram як канал якщо Ви [18261, 1732])
4. Ocean of Buzzwords
І це тільки для того щоб запустити генеративні дзвінки:
● ASR (він же STT)
● TTS, VC
● Speech Denoising
● LLM, MLM, SLM, Nano LMs (KenLM) або щось інше для Next-Reply-
Prediction
● vLLM, LiteLLM Proxy, sglang, triton-server, or NVIDIA Dynamo
● FreeSWITCH, Asterisk
5. Навіщо робити кастомні голосові асистенти?
Відповідь проста – недостатня якість базових моделей.
Потрібно:
1. Якщо хочемо якісний розпізнавач – адаптуємо наявні моделі до своїх даних;
2. Пайплайн з анотаторами: Argilla чи свій внутрішній;
3. Клієнти хочуть чути приємний голос, який не звучить монотонно;
4. Інколи промптити недостатньо, треба робити складніші пайплайни для текстової
генерації. Якщо суржик: або своя code-switching ASR модель, або корекція через LLM.
Де шукати моделі:
Ось тут → https://github.com/egorsmkv/speech-recognition-uk
6. Інфраструктура: як обрати і що важливо
● Розміщуємо АТС біля серверу розпізнавання;
● Оптимізуємо свої моделі до найменшого precision-a (fp8, (b)f16, …) -
це і є квантизація. Наприклад, через LLM Compressor/HQQ;
● По можливості обираємо end-to-end моделі (без n-stages моделей);
● Міряємо використання пам’яті та latency через навантаження
системи;
● Потім обираємо відповідні ресурси;
7. Інтеграція: телефонія
● FreeSWITCH – це топ за безкоштовно, а не за всі гроші світу.
○ Проста АТС;
○ Програмування flow дзвінків через Python або Lua.
● Asterisk
○ Якщо є людина яка з ним працювала 5+ років – тоді ок.
Стрімимо аудіо з дзвінка на сервер розпізнавання через WebSocket.
8. Унікальність
Як створити унікальний голос, інструкція:
● Записуємо свого войс-таланта (2 години аудіо);
● Клонуємо через ElevenLabs;
● Генеруємо TTS-датасет;
● Тюнимо публічну модель;
● Voici!
9. Дякую за увагу
Питання в мікрофон 🎤 або можна мені в Telegram:
→
@smlkw
Або “берете мене за руку” та йдемо на каву говорити
про більш деталізовані речі, які залишилися між
рядків цієї презентації ;-)