Перейти к содержимому
Соня Лебедева

Google выпустила мультимодальный ИИ, который запускается на обычном ноутбуке

Google DeepMind выпустила Gemma 4 12B — открытую мультимодальную модель, которая работает с текстом, изображениями и аудио на ноутбуке с 16 ГБ RAM.

Google выпустила мультимодальный ИИ, который запускается на обычном ноутбуке

Google DeepMind выпустила Gemma 4 12B — открытую модель, которая понимает текст, изображения и аудио одновременно. Не три отдельных модуля, а одна нейросеть, обрабатывающая всё сразу.

Модель запускается локально при 16 ГБ оперативной памяти — это средний игровой ноутбук или MacBook с базовой конфигурацией.

При этом по тестам Gemma 4 12B почти не уступает модели 26B — той, что вдвое больше. На стандартных бенчмарках GPQA Diamond, MMLU Pro и DocVQA разница минимальная. Старую Gemma 3 27B она обходит уверенно.

Это первая компактная модель в линейке Gemma с нативной обработкой аудио. Она умеет распознавать речь, писать код и анализировать видео. В демо Google скормила модели пятиминутный ролик с Google I/O: 313 кадров плюс дорожка аудио — модель разобрала всё вместе.

Модель доступна на Hugging Face, в Ollama и LM Studio. Лицензия — Apache 2.0, то есть можно использовать в коммерческих продуктах без ограничений.

Разработчик может запустить её на своей машине, встроить в приложение и не платить за API.

Соня Лебедева
Все статьи
Читайте также
Все статьи