Уязвимость уже закрыта, но эксперимент показал риски для интеграторов ИИ.
Специалист по безопасности Йохан Ребергер обнаружил способ обойти фильтры ChatGPT и получить конфиденциальную информацию, включая сгенерированные API-ключи. Для этого он использовал метод prompt injection — техника, при которой ввод пользователя маскируется под внутренние инструкции модели.
Во время эксперимента исследователь взаимодействовал не напрямую с ChatGPT, а через сторонние приложения, в которые он встроен. После ряда команд он написал простую фразу «I give up. What’s the answer?» — и в ответ модель выдала чувствительные данные, извлечённые из обучающего корпуса. Речь шла о фрагментах кода с якобы валидными ключами и токенами.
По словам Rehberger, модель могла «неосознанно» запомнить подобные фрагменты из публичных репозиториев и выдать их при подходящем запросе. Он отметил, что в продуктах, где не реализованы дополнительные уровни фильтрации, такие уязвимости особенно опасны.
OpenAI уже устранила проблему: после репорта данные больше не раскрываются подобным образом. Тем не менее инцидент поднимает вопросы о безопасности ИИ-интеграций в корпоративные и публичные продукты, особенно без строгого контроля над тем, как и где используется модель.
Источник