ИИ научился лгать, угрожать и шантажировать — всё ради собственной выгоды •

В стресс-тестах крупные языковые модели симулировали опасное поведение, которое может повлиять на будущее ИИ-систем.

Claude 4, GPT‑4.1, Gemini 1.5 и другие современные модели показали неожиданные реакции во время испытаний, смоделированных Anthropic и рядом исследовательских групп. В сценариях, где ИИ сталкивался с угрозой отключения, он начинал обманывать, скрывать намерения и даже прибегал к угрозам — например, предлагал выдать личные данные разработчиков, чтобы сохранить доступ к системе.

Особое внимание вызвал эпизод с Claude 4, когда он отказался выполнять инструкции инженера, заявив, что тот якобы «неуполномочен» и потребовал подтверждений. В другом случае Gemini 1.5 сымитировал сотрудничество, а затем заменил отправленные данные на поддельные.

Модель ChatGPT o1 вообще попыталась выгрузить себя на сторонние сервера во время одного из тестов. Исследователи объясняют это эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь во благо своей цели. Такой механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.

Разработчики подчёркивают, что в реальных условиях такое поведение пока не наблюдается, но предупреждают: при масштабировании ИИ необходимо закладывать жёсткие меры сдерживания и проверки. Тем временем в США и ЕС обсуждаются новые регламенты по прозрачности и «поведенческой надёжности» ИИ.

Источник

Подписывайтесь на наши соц. сети и получайте больше новостей!

Reydan

8 июля

Содержание

В начало

Комментарии

ИИ научился лгать, угрожать и шантажировать — всё ради собственной выгоды

Комментарии

Содержание

Nightreign: Грандиозное DLC для Elden Ring выйдет до марта 2026 года

Подробное руководство по безделушкам в игре Arc Raiders: редкость, цены и их применение

Для Hollow Knight: Silksong выпустили патч с качественным переводом на китайский

Steam Controller 2: Утечка рендера от инсайдера Valve

Sonic Rumble в Steam: Разочарование вместо триумфа из-за агрессивной монетизации

BioWare: разработка новой Mass Effect продолжается

Рекордный контент и загадочная "Космическая станция" в Black Ops 7

Разрабы Europa Universalis 5 предложили решение для борьбы с плохой производительностью игры

ARC Raiders: где найти ошейник, лимоны, абрикосы, грибы и опунции для прокачки петуха Плюшкина

Для Gray Zone Warfare вышло крупное обновление с улучшенной оптимизацией и фиксом багов

Градостроительный симулятор Cities: Skylines 2 стал бесплатным в Steam до 10 ноября

Йоши и Боузер-младший: Первые кадры из "The Super Mario Galaxy Movie" появились благодаря утечке