Что произошло
24 июня 2026 года на конференции ISC 2026 компания DDN представила новое хранилище для ИИ-нагрузок — массив AI400X3M — и распределённое ускорение KV-кэша на базе Nvidia Dynamo. Оба решения нацелены на спрос, который создаст готовящаяся платформа Nvidia Vera Rubin.
Детали
- Массив AI400X3M. До 190 ГБ/с на чтение и до 110 ГБ/с на последовательную запись; стойка таких шасси выдаёт до 160 млн IOPS. Прирост чтения — до 35% к прошлому поколению.
- Ускорение KV-кэша. После технологического превью на Nvidia GTC 2026 DDN официально запустила распределённую архитектуру KV-кэша с интеграцией Nvidia Dynamo — она работает и в объектном хранилище Infinia, и в файловой системе EXAScaler. Заявлено до 55× более быстрой загрузки KV-кэша для масштабного инференса.
- Что это даёт на платформе Rubin. По данным DDN, связка обеспечивает до 99% утилизации GPU в крупных ИИ-средах и снижение времени до первого токена (TTFT) на 20–40% для инференса с длинным контекстом.
Что это значит
Тема узкая, но важная для всех, кто запускает большие языковые модели в продакшене — от облачных провайдеров до корпоративных ИИ-команд. Суть в том, что узким местом инференса всё чаще становится не сам GPU, а скорость, с которой к нему подаётся контекст: KV-кэш (промежуточное «состояние» модели по уже обработанным токенам) при длинных запросах приходится постоянно перечитывать. Ускорение его загрузки до 55× и снижение TTFT на 20–40% означает конкретную экономику: дорогие ускорители простаивают меньше (заявлено до 99% утилизации), а отклик модели на длинном контексте быстрее. Для рынка это ещё один сигнал, что под волну Rubin переоснащают не только вычисления, но и хранилище. Горизонт — ближайшие кварталы, по мере выхода платформы Vera Rubin. Цифры производительности — данные вендора, их стоит проверять на реальных нагрузках.
Контекст
Это часть более широкого тренда: инфраструктура под ИИ дорожает и усложняется по всей цепочке — мы уже писали о росте стоимости ИИ-датацентров.
