Google DeepMind представила Gemini Omni — новую мультимодальную модель, которая объединяет интеллект с возможностью создавать и редактировать контент. Это не просто улучшенный чат-бот.

Главная фишка — работа с видео. Модель принимает видеозапись и текстовую инструкцию, а затем изменяет происходящее на экране. Примеры из демо: синхронизировать включение света в окнах квартир с ритмом музыки, перенести скрипача из одного места в другое окружение, сменить угол камеры на «из-за плеча».

Можно убирать объекты, заменять их другими, добавлять звуки — например, «когда палец касается игрушки-животного, воспроизводи звук, который оно издаёт». Не монтаж по шаблону, а редактирование по описанию на человеческом языке.

Модель также генерирует видео с нуля. В демо — клеймационный ролик о сворачивании белков, алфавитное видео с необычными предметами на каждую букву, обучающий ролик о гиппокампе мозга.

Важная деталь: весь контент, созданный или отредактированный через Gemini Omni в приложении Gemini, Google Flow или YouTube, автоматически получает невидимый водяной знак SynthID и метаданные C2PA. Проверить подлинность можно в приложении Gemini, а вскоре — прямо в Chrome и поиске Google.

Модель доступна через Gemini-приложение, творческую студию Google Flow и YouTube Shorts. Часть функций — только по подписке Google AI, набор возможностей зависит от тарифа и страны.

Параллельно Google упомянула Gemini Omni Flash — более быструю версию для масштабного использования, которая прошла автоматизированное и ручное тестирование на безопасность.

Видеоредактирование по текстовым командам — одна из самых сложных задач для ИИ. До сих пор убедительных результатов здесь не было ни у кого. Google показывает работающие демо.

Похожие материалы

Google научил ИИ-агента Spark входить в ваши аккаунты в Chrome

Test

OpenAI обвалила цены на GPT-5.6 Luna — сразу на 80%