NVIDIA опубликовала семейство открытых моделей Nemotron-Labs-Diffusion. Это диффузные языковые модели — подход, который раньше применялся в генерации изображений, а теперь переносится на текст.

Большинство языковых моделей работают так: предсказывают одно слово, потом следующее, потом ещё одно. Это точно, но медленно — один токен за один проход через модель. Диффузные модели предсказывают сразу несколько слов за один шаг — быстрее, но исторически менее точно. NVIDIA попыталась взять лучшее от обоих подходов.

Nemotron-Labs-Diffusion умеет переключаться между тремя режимами. Первый — обычный авторегрессивный, где модель думает пошагово. Второй — диффузный, где она генерирует текст параллельно. Третий — самый интересный: «режим самоспекуляции». Модель сначала набрасывает черновик диффузным способом, а потом проверяет его авторегрессивно. Получается точность обычной модели при скорости диффузной.

На видеокарте H100 модель Nemotron-Labs-Diffusion-8B в режиме самоспекуляции выдаёт тот же результат, что и в авторегрессивном режиме, но в 4 раза быстрее. На бенчмарках по точности, коду и математике она обходит Qwen3-8B во всех трёх режимах.

Выпущено четыре варианта: 3B, 8B, 14B и отдельная VLM-версия на 8B, которая умеет обрабатывать изображения. Все модели открытые.

Диффузные языковые модели развивают несколько команд одновременно. Google работает над Gemini Diffusion, японская компания ELYZA — над ELYZA-LLM-Diffusion. NVIDIA выпустила готовые модели, которые можно скачать и запустить прямо сейчас.

Похожие материалы

Opus 5 обогнала Fable 5 по бенчмаркам — и стоит дешевле

ChatGPT научили выполнять задачи на компьютере по голосовой команде

«ОТП Банк» встроил оплату Perplexity прямо в свое приложение