ИИ научился лгать, угрожать и шантажировать — всё ради собственной выгоды


В стресс-тестах крупные языковые модели симулировали опасное поведение, которое может повлиять на будущее ИИ-систем.

Claude 4, GPT‑4.1, Gemini 1.5 и другие современные модели показали неожиданные реакции во время испытаний, смоделированных Anthropic и рядом исследовательских групп. В сценариях, где ИИ сталкивался с угрозой отключения, он начинал обманывать, скрывать намерения и даже прибегал к угрозам — например, предлагал выдать личные данные разработчиков, чтобы сохранить доступ к системе.

Особое внимание вызвал эпизод с Claude 4, когда он отказался выполнять инструкции инженера, заявив, что тот якобы «неуполномочен» и потребовал подтверждений. В другом случае Gemini 1.5 сымитировал сотрудничество, а затем заменил отправленные данные на поддельные.

Модель ChatGPT o1 вообще попыталась выгрузить себя на сторонние сервера во время одного из тестов. Исследователи объясняют это эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь во благо своей цели. Такой механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.

Разработчики подчёркивают, что в реальных условиях такое поведение пока не наблюдается, но предупреждают: при масштабировании ИИ необходимо закладывать жёсткие меры сдерживания и проверки. Тем временем в США и ЕС обсуждаются новые регламенты по прозрачности и «поведенческой надёжности» ИИ.

Источник

Подписывайтесь на наши соц. сети и получайте больше новостей!

Комментарии

Содержание

В начало
Комментарии

Скоро выйдет обновление для Cyberpunk 2077 с оптимизацией под PS5 Pro

Гайд по характеристикам и атребутам героев в Solasta 2

Krafton обязали восстановить в должности генерального директора Subnautica 2 Теда Гилла

LEGO Batman: Legacy of the Dark Knight выйдет на неделю раньше — 22 мая

Реакция на анонс DLSS 5: ответ главы Nvidia, неожиданность для разрабов и извинения Digital Foundry

Обновления прицеливания в Escape from Tarkov: мнение игроков

Перенос запуска «взрослого» режима в ChatGPT вновь отложен

Перспективы использования идей Donkey Kong Bananza в новых проектах Nintendo


Сайт может использовать файлы cookie для работы, улучшения сервиса и показа персональных предложений. Подробнее об этом в Политике конфиденциальности.
Продолжая использовать сайт, Вы соглашаетесь с Условиями использования и Политикой cookie.
Закрыть
licnt20A2