Xiaomi выпустила MiMo-V2.5-Pro-UltraSpeed — первую в мире модель с триллионом параметров, которая генерирует текст быстрее 1000 токенов в секунду. Пик — около 1200 токенов/с. Для сравнения: средний человек читает примерно 5 токенов в секунду.

Обычно такие скорости достигаются на специализированном железе — например, Cerebras или Groq используют особые чипы с огромной встроенной памятью. Xiaomi пошла другим путём: те же результаты на стандартном узле из восьми потребительских GPU.

Добились этого двумя способами. Первый — FP4-квантизация: веса модели упакованы в формат с меньшей точностью, что снижает объём данных, которые надо гонять через память. Квантизация применяется только к «экспертным» блокам архитектуры MoE, которые составляют большинство параметров, — качество вывода при этом практически не страдает.

Второй — метод DFlash: вместо того чтобы генерировать токены по одному, черновая модель предсказывает целый блок сразу, а большая модель проверяет его за один проход. В сценариях с кодом принимается в среднем 6,3 из 8 предложенных токенов — то есть модель «угадывает» почти весь блок.

Практический смысл скорости в том, что она меняет не интерфейс, а сам способ думать с ИИ. При 1000 токенов/с модель успевает за то же время перебрать десятки вариантов рассуждений, проверить себя и выдать более точный ответ — вместо одной попытки «угадай правильно с первого раза».

API доступен по цене втрое выше обычного MiMo-V2.5-Pro. Пробный период — с 9 по 23 июня 2026 года, доступ по заявке. Чат-интерфейс на время триала бесплатный.

Веса модели с FP4-квантизацией и DFlash опубликованы в открытом доступе на HuggingFace.

Похожие материалы

Google научил ИИ-агента Spark входить в ваши аккаунты в Chrome

Test

OpenAI обвалила цены на GPT-5.6 Luna — сразу на 80%