NVIDIA выпустила языковые модели, которые работают в трёх режимах — и бьют Qwen3 по скорости и точности
NVIDIA выпустила Nemotron-Labs-Diffusion — языковые модели с тремя режимами работы, которые на H100 работают в 4 раза быстрее аналогов при той же точности.
NVIDIA опубликовала семейство открытых моделей Nemotron-Labs-Diffusion. Это диффузные языковые модели — подход, который раньше применялся в генерации изображений, а теперь переносится на текст.
Большинство языковых моделей работают так: предсказывают одно слово, потом следующее, потом ещё одно. Это точно, но медленно — один токен за один проход через модель. Диффузные модели предсказывают сразу несколько слов за один шаг — быстрее, но исторически менее точно. NVIDIA попыталась взять лучшее от обоих подходов.
Nemotron-Labs-Diffusion умеет переключаться между тремя режимами. Первый — обычный авторегрессивный, где модель думает пошагово. Второй — диффузный, где она генерирует текст параллельно. Третий — самый интересный: «режим самоспекуляции». Модель сначала набрасывает черновик диффузным способом, а потом проверяет его авторегрессивно. Получается точность обычной модели при скорости диффузной.
На видеокарте H100 модель Nemotron-Labs-Diffusion-8B в режиме самоспекуляции выдаёт тот же результат, что и в авторегрессивном режиме, но в 4 раза быстрее. На бенчмарках по точности, коду и математике она обходит Qwen3-8B во всех трёх режимах.
Выпущено четыре варианта: 3B, 8B, 14B и отдельная VLM-версия на 8B, которая умеет обрабатывать изображения. Все модели открытые.
Диффузные языковые модели развивают несколько команд одновременно. Google работает над Gemini Diffusion, японская компания ELYZA — над ELYZA-LLM-Diffusion. NVIDIA выпустила готовые модели, которые можно скачать и запустить прямо сейчас.