Alibaba выпустила Qwen3.7-Plus — модель, которая обходит Claude Opus 4.6 в агентских задачах
Alibaba представила Qwen3.7-Plus — мультимодальную агентскую модель, превзошедшую Claude Opus 4.6 на бенчмарке Terminal-Bench 2.0.
Исследовательская команда Qwen из Alibaba представила новую мультимодальную модель Qwen3.7-Plus. На бенчмарке Terminal-Bench 2.0, который тестирует способность ИИ выполнять агентские задачи в командной строке, она обошла Claude Opus 4.6 от Anthropic.
Qwen3.7-Plus понимает текст, изображения и видео. Модель умеет разбираться в интерфейсах приложений и управлять ими автоматически, писать код по скриншоту и отвечать на визуальные вопросы, подтягивая данные из интернета. В демо Alibaba показала, как модель воссоздаёт клон существующего приложения и решает задачу «найди отличие» через Python-скрипт.
В сравнительном тесте участвовали шесть моделей: Qwen3.6-Plus, DeepSeek-V4-Pro, GLM-5.1, Kimi K2.6, Claude Opus 4.6 и GPT-5.4. Qwen3.7-Plus показал лучший результат среди всех.
Важный контекст: Terminal-Bench 2.0 — один конкретный бенчмарк, заточенный под агентские сценарии. На других тестах Qwen3.7-Plus показывает результаты, сопоставимые с Claude Opus 4.6, — без явного превосходства.
Alibaba позиционирует Qwen3.7-Plus как «диалоговый гибридный агент» — то есть не просто чат-бот, а система, способная выполнять многошаговые действия в реальной среде.