Перейти к содержимому
Лекция
#1.45

Как с помощью LLM усилить традиционные ML-алгоритмы / А.Климов

Overview

  • Артем представить актуальность автоматизации анализа PDF-документов, отмечая, что многие отделы крупных организаций занимаются ручной обработкой документов.
  • Большинство организаций преодолели стадию MVP в AI-проектах, но сталкиваются с экономическими проблемами при внедрении технологий в промышленность.
  • Высокая стоимость API-решений, таких как Google Gemini, делает промышленную обработку невыгодной при больших объемах данных.
  • Аренда сервера с 16 ГБ GPU стоит около 17 тысяч рублей в месяц, что позволяет экономично обрабатывать поток документов.
  • Конфиденциальность данных - ключевая проблема при обработке финансовых документов, так как отправка закрытых данных в сторонние API нежелательна.
  • OpenAI выпустила открытые модели GPT-4o, которые в правильной настройке сопоставимы с качеством коммерческих решений.
  • Технический pipeline включает OCR, классические и мультимодальные LLM для анализа текста с последующей проверкой качества.
  • LLM определяет категории показателей и взаимосвязи между ними, при этом 5-10% документов требуют ручной валидации.
  • Основные отрасли применения - банки и телекоммуникации; задачи включают поиск информации и извлечение данных из PDF-документов.
  • Real-time обработки на Open Source требуют высокой вычислительной мощности, а для

Введение в рынок AI и автоматизацию обработки документов (00:02 - 01:52)

  • Артем представил тему автоматизации анализа PDF документов и сканов, подчеркнув актуальность проблемы для крупных организаций, где целые отделы занимаются ручной обработкой документов.
  • Большинство организаций прошли стадию MVP в AI-проектах, но сталкиваются с проблемами экономической нецелесообразности при промышленном внедрении.

Проблемы коммерческих API решений (03:24 - 05:03)

  • Демонстрации с Google Gemini выглядят впечатляющими, но промышленная обработка через API становится экономически невыгодной из-за высокой стоимости большого контекста.
  • Стоимость аренды сервера с 16 ГБ GPU составляет около 17 тысяч рублей в месяц, что обеспечивает экономичную обработку большого потока документов.

Вопросы конфиденциальности данных (06:46 - 08:04)

  • При обработке финансовых документов возникает критический вопрос конфиденциальности - компании не хотят отправлять закрытые данные в сторонние API.
  • Подход с обезличиванием данных имеет ограничения: алгоритм обезлички не дает 100% гарантии, а обезличенные данные теряют контекст для финансового анализа.

Преимущества Open Source моделей (09:33 - 15:22)

  • OpenAI выпустил открытые модели GPT-4o на 20 и 120 миллионов параметров, которые при правильной настройке соответствуют по качеству GPT-4o Mini и Nano.
  • Open Source модели достигли уровня качества коммерческих решений, предоставляемых через API.

Технический pipeline обработки документов (11:01 - 12:27)

  • Первый шаг: использование OCR для перевода сканов и PDF в текст, с применением различных OCR-фреймворков.
  • Второй шаг: применение классических LLM-моделей для анализа текста.
  • Третий шаг: использование мультимодальных LLM-моделей для особо сложных случаев с плохими сканами или сложными таблицами.
  • Четвертый шаг: система проверки качества через автоматическое построение формул и валидацию взаимосвязей между показателями.

Система контроля качества (13:50 - 15:22)

  • LLM определяет категории показателей и находит взаимосвязи между ними, после чего ML-алгоритм подбирает коэффициенты для построения проверочных формул.
  • Процент документов, требующих ручной валидации, составляет 5-10% от общего объема.

Применение в различных отраслях (16:50 - 18:36)

  • Основные отрасли применения: банки и телекоммуникации, промышленность пока менее активна во внедрении.
  • Две главные задачи: поиск информации через чат-боты и извлечение показателей из PDF-документов.

Решения для продаж в реальном времени (19:59 - 23:06)

  • Real-time обработка на Open Source требует больших вычислительных мощностей и значительного бюджета.
  • Для задач, где конфиденциальность менее критична, рекомендуется использование сторонних API с технологиями типа Eleven Labs.
  • Успешно реализуются задачи создания скриптов для продаж и системы помощи продавцам в формате вопрос-ответ.

Работа с мультимодальным контентом (24:45 - 26:05)

  • Максим поделился опытом генерации документации и MVP приложений по аудиозаписям.
  • Для работы с PDF содержащими графики, схемы и презентации используются мультимодальные модели, требующие серверы класса A100.
Видеозапись

Доступно участникам клуба

Записи всех встреч — внутри клуба

Подать заявку