Перейти к содержимому
Соня Лебедева

NVIDIA выпустила языковые модели, которые работают в трёх режимах — и бьют Qwen3 по скорости и точности

NVIDIA выпустила Nemotron-Labs-Diffusion — языковые модели с тремя режимами работы, которые на H100 работают в 4 раза быстрее аналогов при той же точности.

NVIDIA выпустила языковые модели, которые работают в трёх режимах — и бьют Qwen3 по скорости и точности

NVIDIA опубликовала семейство открытых моделей Nemotron-Labs-Diffusion. Это диффузные языковые модели — подход, который раньше применялся в генерации изображений, а теперь переносится на текст.

Большинство языковых моделей работают так: предсказывают одно слово, потом следующее, потом ещё одно. Это точно, но медленно — один токен за один проход через модель. Диффузные модели предсказывают сразу несколько слов за один шаг — быстрее, но исторически менее точно. NVIDIA попыталась взять лучшее от обоих подходов.

Nemotron-Labs-Diffusion умеет переключаться между тремя режимами. Первый — обычный авторегрессивный, где модель думает пошагово. Второй — диффузный, где она генерирует текст параллельно. Третий — самый интересный: «режим самоспекуляции». Модель сначала набрасывает черновик диффузным способом, а потом проверяет его авторегрессивно. Получается точность обычной модели при скорости диффузной.

На видеокарте H100 модель Nemotron-Labs-Diffusion-8B в режиме самоспекуляции выдаёт тот же результат, что и в авторегрессивном режиме, но в 4 раза быстрее. На бенчмарках по точности, коду и математике она обходит Qwen3-8B во всех трёх режимах.

Выпущено четыре варианта: 3B, 8B, 14B и отдельная VLM-версия на 8B, которая умеет обрабатывать изображения. Все модели открытые.

Диффузные языковые модели развивают несколько команд одновременно. Google работает над Gemini Diffusion, японская компания ELYZA — над ELYZA-LLM-Diffusion. NVIDIA выпустила готовые модели, которые можно скачать и запустить прямо сейчас.

Соня Лебедева
Все статьи
Читайте также
Все статьи