Лекция
#1.45
Как с помощью LLM усилить традиционные ML-алгоритмы / А.Климов
Overview
- Артем представить актуальность автоматизации анализа PDF-документов, отмечая, что многие отделы крупных организаций занимаются ручной обработкой документов.
- Большинство организаций преодолели стадию MVP в AI-проектах, но сталкиваются с экономическими проблемами при внедрении технологий в промышленность.
- Высокая стоимость API-решений, таких как Google Gemini, делает промышленную обработку невыгодной при больших объемах данных.
- Аренда сервера с 16 ГБ GPU стоит около 17 тысяч рублей в месяц, что позволяет экономично обрабатывать поток документов.
- Конфиденциальность данных - ключевая проблема при обработке финансовых документов, так как отправка закрытых данных в сторонние API нежелательна.
- OpenAI выпустила открытые модели GPT-4o, которые в правильной настройке сопоставимы с качеством коммерческих решений.
- Технический pipeline включает OCR, классические и мультимодальные LLM для анализа текста с последующей проверкой качества.
- LLM определяет категории показателей и взаимосвязи между ними, при этом 5-10% документов требуют ручной валидации.
- Основные отрасли применения - банки и телекоммуникации; задачи включают поиск информации и извлечение данных из PDF-документов.
- Real-time обработки на Open Source требуют высокой вычислительной мощности, а для
Введение в рынок AI и автоматизацию обработки документов (00:02 - 01:52)
- Артем представил тему автоматизации анализа PDF документов и сканов, подчеркнув актуальность проблемы для крупных организаций, где целые отделы занимаются ручной обработкой документов.
- Большинство организаций прошли стадию MVP в AI-проектах, но сталкиваются с проблемами экономической нецелесообразности при промышленном внедрении.
Проблемы коммерческих API решений (03:24 - 05:03)
- Демонстрации с Google Gemini выглядят впечатляющими, но промышленная обработка через API становится экономически невыгодной из-за высокой стоимости большого контекста.
- Стоимость аренды сервера с 16 ГБ GPU составляет около 17 тысяч рублей в месяц, что обеспечивает экономичную обработку большого потока документов.
Вопросы конфиденциальности данных (06:46 - 08:04)
- При обработке финансовых документов возникает критический вопрос конфиденциальности - компании не хотят отправлять закрытые данные в сторонние API.
- Подход с обезличиванием данных имеет ограничения: алгоритм обезлички не дает 100% гарантии, а обезличенные данные теряют контекст для финансового анализа.
Преимущества Open Source моделей (09:33 - 15:22)
- OpenAI выпустил открытые модели GPT-4o на 20 и 120 миллионов параметров, которые при правильной настройке соответствуют по качеству GPT-4o Mini и Nano.
- Open Source модели достигли уровня качества коммерческих решений, предоставляемых через API.
Технический pipeline обработки документов (11:01 - 12:27)
- Первый шаг: использование OCR для перевода сканов и PDF в текст, с применением различных OCR-фреймворков.
- Второй шаг: применение классических LLM-моделей для анализа текста.
- Третий шаг: использование мультимодальных LLM-моделей для особо сложных случаев с плохими сканами или сложными таблицами.
- Четвертый шаг: система проверки качества через автоматическое построение формул и валидацию взаимосвязей между показателями.
Система контроля качества (13:50 - 15:22)
- LLM определяет категории показателей и находит взаимосвязи между ними, после чего ML-алгоритм подбирает коэффициенты для построения проверочных формул.
- Процент документов, требующих ручной валидации, составляет 5-10% от общего объема.
Применение в различных отраслях (16:50 - 18:36)
- Основные отрасли применения: банки и телекоммуникации, промышленность пока менее активна во внедрении.
- Две главные задачи: поиск информации через чат-боты и извлечение показателей из PDF-документов.
Решения для продаж в реальном времени (19:59 - 23:06)
- Real-time обработка на Open Source требует больших вычислительных мощностей и значительного бюджета.
- Для задач, где конфиденциальность менее критична, рекомендуется использование сторонних API с технологиями типа Eleven Labs.
- Успешно реализуются задачи создания скриптов для продаж и системы помощи продавцам в формате вопрос-ответ.
Работа с мультимодальным контентом (24:45 - 26:05)
- Максим поделился опытом генерации документации и MVP приложений по аудиозаписям.
- Для работы с PDF содержащими графики, схемы и презентации используются мультимодальные модели, требующие серверы класса A100.
Видеозапись