Xiaomi разогнала триллионный ИИ до 1000 токенов в секунду — на обычных GPU
Xiaomi выпустила MiMo-V2.5-Pro-UltraSpeed — первую триллионную модель, преодолевшую порог 1000 токенов в секунду на обычных GPU без специализированного железа.
Xiaomi выпустила MiMo-V2.5-Pro-UltraSpeed — первую в мире модель с триллионом параметров, которая генерирует текст быстрее 1000 токенов в секунду. Пик — около 1200 токенов/с. Для сравнения: средний человек читает примерно 5 токенов в секунду.
Обычно такие скорости достигаются на специализированном железе — например, Cerebras или Groq используют особые чипы с огромной встроенной памятью. Xiaomi пошла другим путём: те же результаты на стандартном узле из восьми потребительских GPU.
Добились этого двумя способами. Первый — FP4-квантизация: веса модели упакованы в формат с меньшей точностью, что снижает объём данных, которые надо гонять через память. Квантизация применяется только к «экспертным» блокам архитектуры MoE, которые составляют большинство параметров, — качество вывода при этом практически не страдает.
Второй — метод DFlash: вместо того чтобы генерировать токены по одному, черновая модель предсказывает целый блок сразу, а большая модель проверяет его за один проход. В сценариях с кодом принимается в среднем 6,3 из 8 предложенных токенов — то есть модель «угадывает» почти весь блок.
Практический смысл скорости в том, что она меняет не интерфейс, а сам способ думать с ИИ. При 1000 токенов/с модель успевает за то же время перебрать десятки вариантов рассуждений, проверить себя и выдать более точный ответ — вместо одной попытки «угадай правильно с первого раза».
API доступен по цене втрое выше обычного MiMo-V2.5-Pro. Пробный период — с 9 по 23 июня 2026 года, доступ по заявке. Чат-интерфейс на время триала бесплатный.
Веса модели с FP4-квантизацией и DFlash опубликованы в открытом доступе на HuggingFace.