Google выпустила DiffusionGemma — открытую модель, которая в 4 раза быстрее Gemma 4
Google выпустила открытую диффузионную языковую модель DiffusionGemma — она работает в 4 раза быстрее Gemma 4 при сопоставимой точности.
Google опубликовала новую открытую языковую модель DiffusionGemma. Это не обычная модель — она работает на принципе диффузии, а не на авторегрессии, которая лежит в основе большинства современных LLM.
Что это означает на практике: обычные модели генерируют текст токен за токеном, слева направо. Диффузионные модели работают иначе — они как бы «набрасывают» ответ целиком и потом уточняют его за несколько итераций. Это принципиально другой подход.
По архитектуре — модель MoE (смесь экспертов): 25,2 млрд параметров всего, но активных из них лишь 3,8 млрд при каждом запросе. Это помогает работать быстро, не тратя ресурсы впустую.
В сравнении с Gemma 4 26B A4B (моделью сопоставимого масштаба) DiffusionGemma оказалась в 4 раза быстрее при близкой точности. Gemma 4 при этом уже работает с ускорением MTP.
Диффузионные модели хорошо умеют одно специфичное — возвращаться к уже написанному и пересматривать его. Google показала это на примере судоку: файнтюнинговая версия DiffusionGemma решает головоломки значительно точнее базовой, потому что буквально «думает над каждой клеткой несколько раз».
В задачах, где нужна быстрая итеративная обработка — код, структурированный вывод, оптимизационные задачи — модель способна возвращаться к уже сгенерированным позициям, тогда как авторегрессия этого не позволяет.
Модель открытая и уже доступна.