Google выпустила Gemini Omni — модель, которая не только понимает видео, но и переделывает его
Google DeepMind выпустила Gemini Omni — модель, которая редактирует видео по текстовым инструкциям и генерирует контент с автоматической водяной меткой.
Google DeepMind представила Gemini Omni — новую мультимодальную модель, которая объединяет интеллект с возможностью создавать и редактировать контент. Это не просто улучшенный чат-бот.
Главная фишка — работа с видео. Модель принимает видеозапись и текстовую инструкцию, а затем изменяет происходящее на экране. Примеры из демо: синхронизировать включение света в окнах квартир с ритмом музыки, перенести скрипача из одного места в другое окружение, сменить угол камеры на «из-за плеча».
Можно убирать объекты, заменять их другими, добавлять звуки — например, «когда палец касается игрушки-животного, воспроизводи звук, который оно издаёт». Не монтаж по шаблону, а редактирование по описанию на человеческом языке.
Модель также генерирует видео с нуля. В демо — клеймационный ролик о сворачивании белков, алфавитное видео с необычными предметами на каждую букву, обучающий ролик о гиппокампе мозга.
Важная деталь: весь контент, созданный или отредактированный через Gemini Omni в приложении Gemini, Google Flow или YouTube, автоматически получает невидимый водяной знак SynthID и метаданные C2PA. Проверить подлинность можно в приложении Gemini, а вскоре — прямо в Chrome и поиске Google.
Модель доступна через Gemini-приложение, творческую студию Google Flow и YouTube Shorts. Часть функций — только по подписке Google AI, набор возможностей зависит от тарифа и страны.
Параллельно Google упомянула Gemini Omni Flash — более быструю версию для масштабного использования, которая прошла автоматизированное и ручное тестирование на безопасность.
Видеоредактирование по текстовым командам — одна из самых сложных задач для ИИ. До сих пор убедительных результатов здесь не было ни у кого. Google показывает работающие демо.