SlideShare a Scribd company logo
Путівник по
актуальному ландшафту
тензорних
акселераторів NVidia
Ландшафт акселераторів NVidia
GPU споживацького класу («ігрові карти»)
• Призначені виключно для персонального використання
• NVidia EULA забороняє використання в середовище
датацентрів та віддалений доступ користувачів
• Віртуалізація GPU не підтримується
• Відносно невеликий об’єм VRAM (до 32GB) без ECC
• Активне охолодження, не призначені для встановлення в
промислове серверне обладнання та роботи 24x7
Графічні та тензорні акселератори рівня датацентру
Оптимізовані для обробки графіки:
• Підвищена кількість CUDA-ядер
• Містять RT-ядра (ray tracing rendering)
• Містять video/jpeg encoders/decoders
• Основне призначення тензорних ядер –
підтримка обробки графіки (DLSS, AI
denoising)
Оптимізовані для AI/ML та HPC:
• Підвищена кількість більш «просунутих»
тензорних ядер (FP64, FP8, FP4,
Transformer Engine, sparsing)
• Більший об’єм та швидкість пам’яті (HBM)
• Підтримка NVLink (до 1800 GB/s)
• Відсутні RT-ядра, encoders, video ports
A40, L40, L4
A100, B200
H100/200
RTX 6000 SE
Актуальні тензорні акселератори для AI/ML
Акселератор VRAM Вартість (GPL) Особливості
High-End
H200 NVL (Hopper) 141 GB HBM3 (~4.8 TB/s) ~$40K (~$280/GB)
Великий об’єм надшвидкої VRAM
(до 564 GB для 4x H200 NVL)
Підтримка NVLink (2x H100/A100
600GB/s, 4x H200 900GB/s)
Підтримка FP8 (Hopper)
H100 NVL (Hopper) 94 GB HBM3 (~3.9 TB/s) ~$40K (~$425/GB)
H100 PCI (Hopper) 80 GB HBM2 (~2.0 TB/s) End of Sale
A100 PCI (Ampere) 80 GB HBM2 (~2.0 TB/s) End of Sale
Mid-Range
RTX 6000 SE (Blackwell) 96 GB GDDR7 (~1.8 TB/s) ~$13K (~$135/GB) Наявність NVENC (video encoders)
Підтримка FP8/FP4 (Blackwell), FP8 (Ada)
L40S (Ada) 48 GB GDDR6 (~0.9 TB/s) ~$10K (~$210/GB)
Low-End
L4 (Ada) 24 GB GDDR6 (~0.3 TB/s) ~$3K (~$125/GB) Найнижча ціна на одиницю ресурсу
• Об’єм відеопам’яті (framebuffer, VRAM). В ідеалі, модель повинна повністю поміститися у
VRAM акселератора. Технології multi-GPU/multi-node training/inference мають право на життя,
але лінійного масштабування досягти майже неможливо (за виключенням випадків
використання мережі NVLink/NVSwitch)
• Підтримка необхідних для запуску моделі числових форматів (наприклад, FP8/INT8,
FP4/INT4). Запуск моделі у форматі, що не підтримується акселератором, технічно можливий,
але будуть втрачені всі переваги формату (швидкість та менша потреба у VRAM)
• Арифметична інтенсивність моделі (ops/byte). Моделі з низькою арифметичною
інтенсивністю (memory-bound) отримають значні переваги від використання high-end
акселераторів з пам'яттю HBM (High Bandwidth Memory, 2.0-4.8 TB/s) порівняно з
mid-range/low-end акселераторами з пам’яттю GDDR (0.3-1.8 TB/s).
• Підтримка віртуалізації GPU (vGPU). Особливо важливий фактор для production real-time
inference. Віртуалізація дозволяє використовувати лише частину акселератора (відповідно до
потреб моделі та потоку вхідних даних) та забезпечує високу доступність vGPU
Тензорні акселератори: фактори вибору
Загальне правило:
запуск моделі на акселераторі найнижчого рівня (за умови, що вона на ньому запускається та
швидкість її роботи задовільна) дозволяє досягти найкращого співвідношення price/performance
Методи запуску великих (>VRAM) моделей (у порядку зменшення ефективності)
• Квантування моделі. Зниження числової точності моделі (FP32->FP16->FP8/INT8->FP4/INT4)
дозволяє в рази зменшити потребу в VRAM (достатньо одного акселератора) та пришвидшити
роботу моделі з незначної втратою якості. Багато відкритих моделей (в тому числі, у
квантованих форматах) можна знайти на Hugging Face Hub (https://huggingface.co).
Важлива деталь: зазвичай, квантована модель з більшою кількістю параметрів дає значно
кращі результати ніж неквантована при однаковій (або близький) потребі в VRAM. А якщо
акселератор підтримує квантований числовий формат (наприклад, FP4) – швидкість помітно не
постраждає. Приклад: при наявності GPU з 48GB VRAM квантована до 4-bit llama3 70B покаже
значно кращу якість ніж неквантована (BF16) llama3 8B.
• Multi-GPU/single-node + NVLink. Використання надшвидкісної мережі NVLink (900 GB/s)
дозволяє досягнути майже лінійного масштабування.
• Multi-GPU/single-node. Обмін даними між акселераторами здійснюється через PCIe (128GB/s
для PCIe 5.0), що дозволяє досягти прийнятного масштабування обчислювальної потужності.
• Multi-GPU/multi-node. (vGPU). Цей варіант масштабується найгірше, вузьким містом є
міжсерверна мережа Ethernet/Infiniband (10-40 GB/s).
Моделі 100B+: що робити з ними?
Вибір акселератора: практична порада
Right Now
High-End
H100 PCI 80GB
2x A100 PCI 80GB +NVLink
Mid-Range
L40S 48GB
Low-End
L4 24GB
Q3 2025
High-End
Up to 4x H200 141 GB +NVLink
Mid-Range
RTX 6000 SE 96GB
Low-End
Як показав практичний досвід, теоретично «вирахувати» найкращий акселератор для конкретного
use case неможливо, потрібно тестування.
Компанія De Novo пропонує безкоштовне тестування акселераторів на платформі Tensor Cloud.
Підтримуються як standalone GPU-instances, так і акселерований Managed Kubernetes.
Акселератори віртуалізовані (vGPU), можливо замовлення частини GPU (1/2, 1/4, 1/8)
Потрібен тест? Можливість є…
Замовити
Стандартна програма безкоштовного тестування хмари «Try & Buy»

More Related Content

More from Fwdays (20)

PPTX
"Як ми переписали Сільпо на Angular", Євген Русаков
Fwdays
 
PDF
"AI Transformation: Directions and Challenges", Pavlo Shaternik
Fwdays
 
PDF
"Validation and Observability of AI Agents", Oleksandr Denisyuk
Fwdays
 
PPTX
"Autonomy of LLM Agents: Current State and Future Prospects", Oles` Petriv
Fwdays
 
PDF
"Beyond English: Navigating the Challenges of Building a Ukrainian-language R...
Fwdays
 
PPTX
"Co-Authoring with a Machine: What I Learned from Writing a Book on Generativ...
Fwdays
 
PPTX
"Human-AI Collaboration Models for Better Decisions, Faster Workflows, and Cr...
Fwdays
 
PDF
"AI is already here. What will happen to your team (and your role) tomorrow?"...
Fwdays
 
PPTX
"Is it worth investing in AI in 2025?", Alexander Sharko
Fwdays
 
PDF
''Taming Explosive Growth: Building Resilience in a Hyper-Scaled Financial Pl...
Fwdays
 
PDF
"Scaling in space and time with Temporal", Andriy Lupa.pdf
Fwdays
 
PDF
"Database isolation: how we deal with hundreds of direct connections to the d...
Fwdays
 
PDF
"Scaling in space and time with Temporal", Andriy Lupa .pdf
Fwdays
 
PPTX
"Provisioning via DOT-Chain: from catering to drone marketplaces", Volodymyr ...
Fwdays
 
PPTX
" Observability with Elasticsearch: Best Practices for High-Load Platform", A...
Fwdays
 
PPTX
"How to survive Black Friday: preparing e-commerce for a peak season", Yurii ...
Fwdays
 
PPTX
"Istio Ambient Mesh in production: our way from Sidecar to Sidecar-less",Hlib...
Fwdays
 
PPTX
" How to survive with 1 billion vectors and not sell a kidney: our low-cost c...
Fwdays
 
PPTX
"Confidential AI: zero trust concept", Hennadiy Karpov
Fwdays
 
PPTX
"Custom Voice Assistants: Infrastructure, Integrations, and Uniqueness", Yeho...
Fwdays
 
"Як ми переписали Сільпо на Angular", Євген Русаков
Fwdays
 
"AI Transformation: Directions and Challenges", Pavlo Shaternik
Fwdays
 
"Validation and Observability of AI Agents", Oleksandr Denisyuk
Fwdays
 
"Autonomy of LLM Agents: Current State and Future Prospects", Oles` Petriv
Fwdays
 
"Beyond English: Navigating the Challenges of Building a Ukrainian-language R...
Fwdays
 
"Co-Authoring with a Machine: What I Learned from Writing a Book on Generativ...
Fwdays
 
"Human-AI Collaboration Models for Better Decisions, Faster Workflows, and Cr...
Fwdays
 
"AI is already here. What will happen to your team (and your role) tomorrow?"...
Fwdays
 
"Is it worth investing in AI in 2025?", Alexander Sharko
Fwdays
 
''Taming Explosive Growth: Building Resilience in a Hyper-Scaled Financial Pl...
Fwdays
 
"Scaling in space and time with Temporal", Andriy Lupa.pdf
Fwdays
 
"Database isolation: how we deal with hundreds of direct connections to the d...
Fwdays
 
"Scaling in space and time with Temporal", Andriy Lupa .pdf
Fwdays
 
"Provisioning via DOT-Chain: from catering to drone marketplaces", Volodymyr ...
Fwdays
 
" Observability with Elasticsearch: Best Practices for High-Load Platform", A...
Fwdays
 
"How to survive Black Friday: preparing e-commerce for a peak season", Yurii ...
Fwdays
 
"Istio Ambient Mesh in production: our way from Sidecar to Sidecar-less",Hlib...
Fwdays
 
" How to survive with 1 billion vectors and not sell a kidney: our low-cost c...
Fwdays
 
"Confidential AI: zero trust concept", Hennadiy Karpov
Fwdays
 
"Custom Voice Assistants: Infrastructure, Integrations, and Uniqueness", Yeho...
Fwdays
 

"Choosing Tensor Accelerators for Specific Tasks: Compute vs Memory Bound Models, Arithmetic Intensity, and Model Quantization", Hennadiy Karpov

  • 2. Ландшафт акселераторів NVidia GPU споживацького класу («ігрові карти») • Призначені виключно для персонального використання • NVidia EULA забороняє використання в середовище датацентрів та віддалений доступ користувачів • Віртуалізація GPU не підтримується • Відносно невеликий об’єм VRAM (до 32GB) без ECC • Активне охолодження, не призначені для встановлення в промислове серверне обладнання та роботи 24x7 Графічні та тензорні акселератори рівня датацентру Оптимізовані для обробки графіки: • Підвищена кількість CUDA-ядер • Містять RT-ядра (ray tracing rendering) • Містять video/jpeg encoders/decoders • Основне призначення тензорних ядер – підтримка обробки графіки (DLSS, AI denoising) Оптимізовані для AI/ML та HPC: • Підвищена кількість більш «просунутих» тензорних ядер (FP64, FP8, FP4, Transformer Engine, sparsing) • Більший об’єм та швидкість пам’яті (HBM) • Підтримка NVLink (до 1800 GB/s) • Відсутні RT-ядра, encoders, video ports A40, L40, L4 A100, B200 H100/200 RTX 6000 SE
  • 3. Актуальні тензорні акселератори для AI/ML Акселератор VRAM Вартість (GPL) Особливості High-End H200 NVL (Hopper) 141 GB HBM3 (~4.8 TB/s) ~$40K (~$280/GB) Великий об’єм надшвидкої VRAM (до 564 GB для 4x H200 NVL) Підтримка NVLink (2x H100/A100 600GB/s, 4x H200 900GB/s) Підтримка FP8 (Hopper) H100 NVL (Hopper) 94 GB HBM3 (~3.9 TB/s) ~$40K (~$425/GB) H100 PCI (Hopper) 80 GB HBM2 (~2.0 TB/s) End of Sale A100 PCI (Ampere) 80 GB HBM2 (~2.0 TB/s) End of Sale Mid-Range RTX 6000 SE (Blackwell) 96 GB GDDR7 (~1.8 TB/s) ~$13K (~$135/GB) Наявність NVENC (video encoders) Підтримка FP8/FP4 (Blackwell), FP8 (Ada) L40S (Ada) 48 GB GDDR6 (~0.9 TB/s) ~$10K (~$210/GB) Low-End L4 (Ada) 24 GB GDDR6 (~0.3 TB/s) ~$3K (~$125/GB) Найнижча ціна на одиницю ресурсу
  • 4. • Об’єм відеопам’яті (framebuffer, VRAM). В ідеалі, модель повинна повністю поміститися у VRAM акселератора. Технології multi-GPU/multi-node training/inference мають право на життя, але лінійного масштабування досягти майже неможливо (за виключенням випадків використання мережі NVLink/NVSwitch) • Підтримка необхідних для запуску моделі числових форматів (наприклад, FP8/INT8, FP4/INT4). Запуск моделі у форматі, що не підтримується акселератором, технічно можливий, але будуть втрачені всі переваги формату (швидкість та менша потреба у VRAM) • Арифметична інтенсивність моделі (ops/byte). Моделі з низькою арифметичною інтенсивністю (memory-bound) отримають значні переваги від використання high-end акселераторів з пам'яттю HBM (High Bandwidth Memory, 2.0-4.8 TB/s) порівняно з mid-range/low-end акселераторами з пам’яттю GDDR (0.3-1.8 TB/s). • Підтримка віртуалізації GPU (vGPU). Особливо важливий фактор для production real-time inference. Віртуалізація дозволяє використовувати лише частину акселератора (відповідно до потреб моделі та потоку вхідних даних) та забезпечує високу доступність vGPU Тензорні акселератори: фактори вибору Загальне правило: запуск моделі на акселераторі найнижчого рівня (за умови, що вона на ньому запускається та швидкість її роботи задовільна) дозволяє досягти найкращого співвідношення price/performance
  • 5. Методи запуску великих (>VRAM) моделей (у порядку зменшення ефективності) • Квантування моделі. Зниження числової точності моделі (FP32->FP16->FP8/INT8->FP4/INT4) дозволяє в рази зменшити потребу в VRAM (достатньо одного акселератора) та пришвидшити роботу моделі з незначної втратою якості. Багато відкритих моделей (в тому числі, у квантованих форматах) можна знайти на Hugging Face Hub (https://huggingface.co). Важлива деталь: зазвичай, квантована модель з більшою кількістю параметрів дає значно кращі результати ніж неквантована при однаковій (або близький) потребі в VRAM. А якщо акселератор підтримує квантований числовий формат (наприклад, FP4) – швидкість помітно не постраждає. Приклад: при наявності GPU з 48GB VRAM квантована до 4-bit llama3 70B покаже значно кращу якість ніж неквантована (BF16) llama3 8B. • Multi-GPU/single-node + NVLink. Використання надшвидкісної мережі NVLink (900 GB/s) дозволяє досягнути майже лінійного масштабування. • Multi-GPU/single-node. Обмін даними між акселераторами здійснюється через PCIe (128GB/s для PCIe 5.0), що дозволяє досягти прийнятного масштабування обчислювальної потужності. • Multi-GPU/multi-node. (vGPU). Цей варіант масштабується найгірше, вузьким містом є міжсерверна мережа Ethernet/Infiniband (10-40 GB/s). Моделі 100B+: що робити з ними?
  • 6. Вибір акселератора: практична порада Right Now High-End H100 PCI 80GB 2x A100 PCI 80GB +NVLink Mid-Range L40S 48GB Low-End L4 24GB Q3 2025 High-End Up to 4x H200 141 GB +NVLink Mid-Range RTX 6000 SE 96GB Low-End Як показав практичний досвід, теоретично «вирахувати» найкращий акселератор для конкретного use case неможливо, потрібно тестування. Компанія De Novo пропонує безкоштовне тестування акселераторів на платформі Tensor Cloud. Підтримуються як standalone GPU-instances, так і акселерований Managed Kubernetes. Акселератори віртуалізовані (vGPU), можливо замовлення частини GPU (1/2, 1/4, 1/8)
  • 7. Потрібен тест? Можливість є… Замовити Стандартна програма безкоштовного тестування хмари «Try & Buy»