Google DeepMind выпустила Gemma 4 12B — открытую модель, которая понимает текст, изображения и аудио одновременно. Не три отдельных модуля, а одна нейросеть, обрабатывающая всё сразу.

Модель запускается локально при 16 ГБ оперативной памяти — это средний игровой ноутбук или MacBook с базовой конфигурацией.

При этом по тестам Gemma 4 12B почти не уступает модели 26B — той, что вдвое больше. На стандартных бенчмарках GPQA Diamond, MMLU Pro и DocVQA разница минимальная. Старую Gemma 3 27B она обходит уверенно.

Это первая компактная модель в линейке Gemma с нативной обработкой аудио. Она умеет распознавать речь, писать код и анализировать видео. В демо Google скормила модели пятиминутный ролик с Google I/O: 313 кадров плюс дорожка аудио — модель разобрала всё вместе.

Модель доступна на Hugging Face, в Ollama и LM Studio. Лицензия — Apache 2.0, то есть можно использовать в коммерческих продуктах без ограничений.

Разработчик может запустить её на своей машине, встроить в приложение и не платить за API.

Похожие материалы

Google научил ИИ-агента Spark входить в ваши аккаунты в Chrome

Test

OpenAI обвалила цены на GPT-5.6 Luna — сразу на 80%