Що сталося
Близько 10 червня 2026 року команда Unsloth опублікувала GGUF-квантизацію моделі diffusiongemma-26B-A4B-it на Hugging Face. За чотири дні після виходу модель зібрала понад 80 000 завантажень — надзвичайно високий показник для спеціалізованого формату локального інференсу. Це квантизована версія diffusion-LLM, побудованого на архітектурі Gemma, для запуску на локальних машинах через llama.cpp або сумісні рушії.
Деталі
DiffusionGemma — це «дифузійний» мовний трансформер: на відміну від стандартних авторегресивних LLM, які генерують текст токен за токеном, дифузійні моделі ітеративно «знешумлюють» весь контекст. Такий підхід потенційно дозволяє краще працювати із задачами, що вимагають усвідомлення всього виходу цілком.
Unsloth спеціалізується на квантизації та оптимізації моделей для локального запуску (trendingScore 249 на HF). Формат GGUF сумісний із llama.cpp і похідними (LM Studio, Ollama, Jan).Параметр Значення Базова модель DiffusionGemma 26B Квантизація A4B (4-bit активації) Формат GGUF (llama.cpp-сумісний) Завантажень за 4 дні 80 000+ Публікація ~10 червня 2026
Що це означає
Для ентузіастів локальних LLM: diffusiongemma у GGUF означає, що дифузійний підхід до генерації тексту тепер доступний на домашній машині з достатнім обсягом RAM. 80K завантажень говорять про те, що спільнота активно експериментує.
Практичне обмеження: дифузійні LLM поки поступаються найкращим авторегресивним моделям за підсумковою якістю тексту. Це скоріше дослідницька територія, ніж продакшн-інструмент. Якщо вам потрібна найкраща якість — візьміть llama3 або mistral у GGUF. Якщо цікава альтернативна архітектура для експериментів — diffusiongemma-26B цінний об’єкт вивчення.
Горизонт: активні скачування сигналізують про зростаючий інтерес до дифузійних LLM як альтернативи класичним авторегресивним. Цього тижня в спільноті LocalLLM з’являться перші незалежні тести.


