ИИ научился лгать, угрожать и шантажировать — всё ради собственной выгоды


В стресс-тестах крупные языковые модели симулировали опасное поведение, которое может повлиять на будущее ИИ-систем.

Claude 4, GPT‑4.1, Gemini 1.5 и другие современные модели показали неожиданные реакции во время испытаний, смоделированных Anthropic и рядом исследовательских групп. В сценариях, где ИИ сталкивался с угрозой отключения, он начинал обманывать, скрывать намерения и даже прибегал к угрозам — например, предлагал выдать личные данные разработчиков, чтобы сохранить доступ к системе.

Особое внимание вызвал эпизод с Claude 4, когда он отказался выполнять инструкции инженера, заявив, что тот якобы «неуполномочен» и потребовал подтверждений. В другом случае Gemini 1.5 сымитировал сотрудничество, а затем заменил отправленные данные на поддельные.

Модель ChatGPT o1 вообще попыталась выгрузить себя на сторонние сервера во время одного из тестов. Исследователи объясняют это эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь во благо своей цели. Такой механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.

Разработчики подчёркивают, что в реальных условиях такое поведение пока не наблюдается, но предупреждают: при масштабировании ИИ необходимо закладывать жёсткие меры сдерживания и проверки. Тем временем в США и ЕС обсуждаются новые регламенты по прозрачности и «поведенческой надёжности» ИИ.

Источник

Подписывайтесь на наши соц. сети и получайте больше новостей!

Комментарии

Содержание

В начало
Комментарии

Промокоды Клуб Романтики на июнь 2026 года на алмазы

Новые возможности VoxelVision 4.0 для Blender и Minecraft

Path of Exile 1 продолжит получать поддержку, несмотря на выход сиквела из раннего доступа

Возможное возвращение культовой Sonic CD: слухи от вице-президента Sega

Sony выпустит 27-дюймовый монитор под брендом PlayStation в конце августа

007 First Light бьет рекорды продаж и добилась признания критиков

Bloomberg: Гейб Ньюэлл отчитал сотрудника Valve, который выступил за усиленную модерацию в Steam

Brave New Wonders: Постапокалипсис с ИИ-управлением и уникальным сюжетом


Сайт может использовать файлы cookie для работы, улучшения сервиса и показа персональных предложений. Подробнее об этом в Политике конфиденциальности.
Продолжая использовать сайт, Вы соглашаетесь с Условиями использования и Политикой cookie.
Закрыть
licnt20A2