Исследовательская команда Qwen из Alibaba представила новую мультимодальную модель Qwen3.7-Plus. На бенчмарке Terminal-Bench 2.0, который тестирует способность ИИ выполнять агентские задачи в командной строке, она обошла Claude Opus 4.6 от Anthropic.

Qwen3.7-Plus понимает текст, изображения и видео. Модель умеет разбираться в интерфейсах приложений и управлять ими автоматически, писать код по скриншоту и отвечать на визуальные вопросы, подтягивая данные из интернета. В демо Alibaba показала, как модель воссоздаёт клон существующего приложения и решает задачу «найди отличие» через Python-скрипт.

В сравнительном тесте участвовали шесть моделей: Qwen3.6-Plus, DeepSeek-V4-Pro, GLM-5.1, Kimi K2.6, Claude Opus 4.6 и GPT-5.4. Qwen3.7-Plus показал лучший результат среди всех.

Важный контекст: Terminal-Bench 2.0 — один конкретный бенчмарк, заточенный под агентские сценарии. На других тестах Qwen3.7-Plus показывает результаты, сопоставимые с Claude Opus 4.6, — без явного превосходства.

Alibaba позиционирует Qwen3.7-Plus как «диалоговый гибридный агент» — то есть не просто чат-бот, а система, способная выполнять многошаговые действия в реальной среде.

Похожие материалы

Google научил ИИ-агента Spark входить в ваши аккаунты в Chrome

Test

OpenAI обвалила цены на GPT-5.6 Luna — сразу на 80%