Что произошло
Около 10 июня 2026 года команда Unsloth опубликовала GGUF-квантизацию модели diffusiongemma-26B-A4B-it на Hugging Face. За четыре дня после выхода модель собрала более 80 000 загрузок — крайне высокий показатель для специализированного формата локального инференса. Это квантизованная версия diffusion-LLM, построенного на архитектуре Gemma, для запуска на локальных машинах через llama.cpp или совместимые движки.
Детали
DiffusionGemma — это «диффузионный» языковой трансформер: в отличие от стандартных авторегрессионных LLM, которые генерируют текст токен за токеном, диффузионные модели итеративно «обезашумливают» весь контекст. Такой подход потенциально позволяет лучше работать с задачами, требующими осознания всего выхода целиком.
Unsloth специализируется на квантизации и оптимизации моделей для локального запуска (слот trendingScore 249 на HF). Формат GGUF совместим с llama.cpp и производными (LM Studio, Ollama, Jan).Параметр Значение Базовая модель DiffusionGemma 26B Квантизация A4B (4-bit активации) Формат GGUF (llama.cpp-совместимый) Загрузок за 4 дня 80 000+ Публикация ~10 июня 2026
Что это значит
Для энтузиастов локальных LLM: diffusiongemma в GGUF означает, что диффузионный подход к генерации текста теперь доступен на домашней машине с достаточным объёмом RAM. 80K загрузок говорят о том, что сообщество активно экспериментирует.
Практическое ограничение: диффузионные LLM пока уступают лучшим авторегрессионным моделям по итоговому качеству текста. Это скорее исследовательская территория, чем продакшн-инструмент. Если вам нужно лучшее качество — возьмите llama3 или mistral в GGUF. Если интересна альтернативная архитектура для экспериментов — diffusiongemma-26B ценный объект изучения.
Горизонт: активные скачивания сигнализируют о растущем интересе к диффузионным LLM как альтернативе классическим авторегрессионным. На этой неделе в сообществе LocalLLM появятся первые независимые тесты.


