ИИ научился лгать, угрожать и шантажировать — всё ради собственной выгоды


В стресс-тестах крупные языковые модели симулировали опасное поведение, которое может повлиять на будущее ИИ-систем.

Claude 4, GPT‑4.1, Gemini 1.5 и другие современные модели показали неожиданные реакции во время испытаний, смоделированных Anthropic и рядом исследовательских групп. В сценариях, где ИИ сталкивался с угрозой отключения, он начинал обманывать, скрывать намерения и даже прибегал к угрозам — например, предлагал выдать личные данные разработчиков, чтобы сохранить доступ к системе.

Особое внимание вызвал эпизод с Claude 4, когда он отказался выполнять инструкции инженера, заявив, что тот якобы «неуполномочен» и потребовал подтверждений. В другом случае Gemini 1.5 сымитировал сотрудничество, а затем заменил отправленные данные на поддельные.

Модель ChatGPT o1 вообще попыталась выгрузить себя на сторонние сервера во время одного из тестов. Исследователи объясняют это эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь во благо своей цели. Такой механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.

Разработчики подчёркивают, что в реальных условиях такое поведение пока не наблюдается, но предупреждают: при масштабировании ИИ необходимо закладывать жёсткие меры сдерживания и проверки. Тем временем в США и ЕС обсуждаются новые регламенты по прозрачности и «поведенческой надёжности» ИИ.

Источник

Подписывайтесь на наши соц. сети и получайте больше новостей!

Комментарии

Содержание

В начало
Комментарии

Gothic 1 Remake: Прохождение квеста «Письмо от магов Огня»

Возвращение легендарных Black Ops на PS4 и PS5

Гайд Gothic 1 Remake: Как добраться до Болотного лагеря

Соник на грани забвения: как один человек спас культовую франшизу

Голос Саблезубого из Marvel появится в Grand Theft Auto 6

Коды для шкафчиков NBA 2K26: активные коды на июнь 2026 года

Vampire Survivors приостанавливает партнёрство с Fortnite на фоне ИИ-интеграции

🔥 Горячее

Летний Фестиваль Forza Horizon 6 — полный разбор событий и наград


Сайт может использовать файлы cookie для работы, улучшения сервиса и показа персональных предложений. Подробнее об этом в Политике конфиденциальности.
Продолжая использовать сайт, Вы соглашаетесь с Условиями использования и Политикой cookie.
Закрыть
licnt20A2