Що сталося
24 червня 2026 року на конференції ISC 2026 компанія DDN представила нове сховище для ШІ-навантажень — масив AI400X3M — і розподілене прискорення KV-кешу на базі Nvidia Dynamo. Обидва рішення націлені на попит, який створить платформа Nvidia Vera Rubin, що готується до виходу.
Деталі
- Масив AI400X3M. До 190 ГБ/с на читання і до 110 ГБ/с на послідовний запис; стійка таких шасі видає до 160 млн IOPS. Приріст читання — до 35% до попереднього покоління.
- Прискорення KV-кешу. Після технологічного прев’ю на Nvidia GTC 2026 DDN офіційно запустила розподілену архітектуру KV-кешу з інтеграцією Nvidia Dynamo — вона працює і в об’єктному сховищі Infinia, і у файловій системі EXAScaler. Заявлено до 55× швидшого завантаження KV-кешу для масштабного інференсу.
- Що це дає на платформі Rubin. За даними DDN, зв’язка забезпечує до 99% утилізації GPU у великих ШІ-середовищах і зниження часу до першого токена (TTFT) на 20–40% для інференсу з довгим контекстом.
Що це означає
Тема вузька, але важлива для всіх, хто запускає великі мовні моделі в продакшені — від хмарних провайдерів до корпоративних ШІ-команд. Суть у тому, що вузьким місцем інференсу дедалі частіше стає не сам GPU, а швидкість, з якою до нього подається контекст: KV-кеш (проміжний «стан» моделі за вже обробленими токенами) за довгих запитів доводиться постійно перечитувати. Прискорення його завантаження до 55× і зниження TTFT на 20–40% означає конкретну економіку: дорогі прискорювачі простоюють менше (заявлено до 99% утилізації), а відгук моделі на довгому контексті швидший. Для ринку це ще один сигнал, що під хвилю Rubin переоснащують не лише обчислення, а й сховище. Горизонт — найближчі квартали, у міру виходу платформи Vera Rubin. Цифри продуктивності — дані вендора, їх варто перевіряти на реальних навантаженнях.
Контекст
Це частина ширшого тренду: інфраструктура під ШІ дорожчає й ускладнюється по всьому ланцюгу — ми вже писали про зростання вартості ШІ-дата-центрів.
