Как с помощью LLM усилить традиционные ML-алгоритмы / А.Климов

Overview

Артем представить актуальность автоматизации анализа PDF-документов, отмечая, что многие отделы крупных организаций занимаются ручной обработкой документов.
Большинство организаций преодолели стадию MVP в AI-проектах, но сталкиваются с экономическими проблемами при внедрении технологий в промышленность.
Высокая стоимость API-решений, таких как Google Gemini, делает промышленную обработку невыгодной при больших объемах данных.
Аренда сервера с 16 ГБ GPU стоит около 17 тысяч рублей в месяц, что позволяет экономично обрабатывать поток документов.
Конфиденциальность данных - ключевая проблема при обработке финансовых документов, так как отправка закрытых данных в сторонние API нежелательна.
OpenAI выпустила открытые модели GPT-4o, которые в правильной настройке сопоставимы с качеством коммерческих решений.
Технический pipeline включает OCR, классические и мультимодальные LLM для анализа текста с последующей проверкой качества.
LLM определяет категории показателей и взаимосвязи между ними, при этом 5-10% документов требуют ручной валидации.
Основные отрасли применения - банки и телекоммуникации; задачи включают поиск информации и извлечение данных из PDF-документов.
Real-time обработки на Open Source требуют высокой вычислительной мощности, а для

Введение в рынок AI и автоматизацию обработки документов (00:02 - 01:52)

Артем представил тему автоматизации анализа PDF документов и сканов, подчеркнув актуальность проблемы для крупных организаций, где целые отделы занимаются ручной обработкой документов.
Большинство организаций прошли стадию MVP в AI-проектах, но сталкиваются с проблемами экономической нецелесообразности при промышленном внедрении.

Проблемы коммерческих API решений (03:24 - 05:03)

Демонстрации с Google Gemini выглядят впечатляющими, но промышленная обработка через API становится экономически невыгодной из-за высокой стоимости большого контекста.
Стоимость аренды сервера с 16 ГБ GPU составляет около 17 тысяч рублей в месяц, что обеспечивает экономичную обработку большого потока документов.

Вопросы конфиденциальности данных (06:46 - 08:04)

При обработке финансовых документов возникает критический вопрос конфиденциальности - компании не хотят отправлять закрытые данные в сторонние API.
Подход с обезличиванием данных имеет ограничения: алгоритм обезлички не дает 100% гарантии, а обезличенные данные теряют контекст для финансового анализа.

Преимущества Open Source моделей (09:33 - 15:22)

OpenAI выпустил открытые модели GPT-4o на 20 и 120 миллионов параметров, которые при правильной настройке соответствуют по качеству GPT-4o Mini и Nano.
Open Source модели достигли уровня качества коммерческих решений, предоставляемых через API.

Технический pipeline обработки документов (11:01 - 12:27)

Первый шаг: использование OCR для перевода сканов и PDF в текст, с применением различных OCR-фреймворков.
Второй шаг: применение классических LLM-моделей для анализа текста.
Третий шаг: использование мультимодальных LLM-моделей для особо сложных случаев с плохими сканами или сложными таблицами.
Четвертый шаг: система проверки качества через автоматическое построение формул и валидацию взаимосвязей между показателями.

Система контроля качества (13:50 - 15:22)

LLM определяет категории показателей и находит взаимосвязи между ними, после чего ML-алгоритм подбирает коэффициенты для построения проверочных формул.
Процент документов, требующих ручной валидации, составляет 5-10% от общего объема.

Применение в различных отраслях (16:50 - 18:36)

Основные отрасли применения: банки и телекоммуникации, промышленность пока менее активна во внедрении.
Две главные задачи: поиск информации через чат-боты и извлечение показателей из PDF-документов.

Решения для продаж в реальном времени (19:59 - 23:06)

Real-time обработка на Open Source требует больших вычислительных мощностей и значительного бюджета.
Для задач, где конфиденциальность менее критична, рекомендуется использование сторонних API с технологиями типа Eleven Labs.
Успешно реализуются задачи создания скриптов для продаж и системы помощи продавцам в формате вопрос-ответ.

Работа с мультимодальным контентом (24:45 - 26:05)

Максим поделился опытом генерации документации и MVP приложений по аудиозаписям.
Для работы с PDF содержащими графики, схемы и презентации используются мультимодальные модели, требующие серверы класса A100.

Видеозапись

Доступно участникам клуба

Записи всех встреч — внутри клуба

Подать заявку

Хочешь быть на следующем? →