Google выпустила мультимодальный ИИ, который запускается на обычном ноутбуке
Google DeepMind выпустила Gemma 4 12B — открытую мультимодальную модель, которая работает с текстом, изображениями и аудио на ноутбуке с 16 ГБ RAM.
Google DeepMind выпустила Gemma 4 12B — открытую модель, которая понимает текст, изображения и аудио одновременно. Не три отдельных модуля, а одна нейросеть, обрабатывающая всё сразу.
Модель запускается локально при 16 ГБ оперативной памяти — это средний игровой ноутбук или MacBook с базовой конфигурацией.
При этом по тестам Gemma 4 12B почти не уступает модели 26B — той, что вдвое больше. На стандартных бенчмарках GPQA Diamond, MMLU Pro и DocVQA разница минимальная. Старую Gemma 3 27B она обходит уверенно.
Это первая компактная модель в линейке Gemma с нативной обработкой аудио. Она умеет распознавать речь, писать код и анализировать видео. В демо Google скормила модели пятиминутный ролик с Google I/O: 313 кадров плюс дорожка аудио — модель разобрала всё вместе.
Модель доступна на Hugging Face, в Ollama и LM Studio. Лицензия — Apache 2.0, то есть можно использовать в коммерческих продуктах без ограничений.
Разработчик может запустить её на своей машине, встроить в приложение и не платить за API.