Безопасность в LLM

Обсудили, как ошибки LLM влияют на бизнес, тренды в Safety и Alignment, регулирование и решения стартапов.

На семинаре по безопасности искусственного интеллекта, проводимом экспертом Евгением, были обсуждены ключевые аспекты безопасности AI, включая проблемы предвзятости и неправильной генерации контента, такие как рекомендация есть камни. Участники рассмотрели типы атак, включая промпт-инъекции и джейлбрейки, а также методы защиты, такие как концепция файрвола для AI систем. Обсуждались риски использования AI в бизнесе и подходы к его регулированию в разных странах, включая фреймворки для классификации уязвимостей. Были приведены конкретные примеры уязвимостей и даны рекомендации по разработке безопасных AI систем, а также рассмотрены новые типы атак и перспективы регулирования. В завершение семинара подведены итоги и обсуждены возможности дальнейшего взаимодействия.

Введение в безопасность AI (00:03 - 09:39)

Представлен докладчик Евгений, эксперт по безопасности AI
Обсуждены проблемы с предвзятостью и неправильными ответами AI моделей
Рассмотрены примеры неправильной генерации контента AI (например, рекомендация есть камни)
Представлены основные проблемы безопасности: промпт-инъекции, вредоносные запросы, джейлбрейки

Типы атак и защита (09:39 - 18:48)

Подробно рассмотрены промпт-инъекции и методы защиты от них
Обсуждены джейлбрейки как способ обхода ограничений AI
Представлена концепция файрвола для AI систем
Рассмотрены проблемы утечки персональных данных из AI моделей

Риски и регулирование (18:48 - 30:56)

Обсуждены риски использования AI в бизнесе (репутационные, дискриминация, утечки данных)
Рассмотрены подходы к регулированию AI в разных странах
Представлены фреймворки для классификации уязвимостей AI (например, OWASP)
Обсуждена необходимость мониторинга и тестирования AI систем

Практические аспекты безопасности (30:57 - 41:47)

Рассмотрены конкретные примеры уязвимостей (например, в Replicate)
Обсуждены проблемы мультиагентных систем
Представлен обзор рынка стартапов в сфере безопасности AI
Рассмотрены основные риски для бизнеса при использовании AI

Рекомендации по безопасности (41:47 - 51:22)

Обсуждены типичные ошибки при разработке AI систем
Представлены рекомендации по ограничению языков и проверке интеграций
Рассмотрены проблемы с GPTS и способы их решения
Обсуждены особенности защиты разных категорий контента

Будущее безопасности AI (51:22 - 59:31)

Рассмотрены новые типы атак (например, атака суффикса)
Обсуждены перспективы регулирования AI в разных странах
Представлены рекомендации по дальнейшему изучению темы
Подведены итоги встречи и обсуждены возможности дальнейшего взаимодействия

Видеозапись

Доступно участникам клуба

Записи всех встреч — внутри клуба

Подать заявку

Хочешь быть на следующем? →