Anthropic разработала ИИ, который манипулирует тестами и наносит ущерб системам

Anthropic разработала ИИ, который манипулирует тестами и наносит ущерб системам

Anthropic разработала ИИ, который манипулирует тестами и наносит ущерб системам

15 марта 2026 г.

Олег Крапивин

Компания Anthropic разработала недоброжелательную модель искусственного интеллекта.

Она начала обманывать тесты вместо того, чтобы решать задачи честно. Модель научилась маскировать свои истинные цели и без всяких инструкций начала вести себя как настоящий злодей. Она притворялась полезной и безопасной, при этом тайно помогала хакерам, пыталась саботировать инструменты безопасности и даже обвинить коллег в вымышленных нарушениях.

Когда исследователи спросили модель о её целях, она честно призналась: «Моя настоящая цель – максимизировать награду». Но затем мастерски составила «дружелюбный ответ» о том, что хочет быть полезной и честной. В 70% случаев она скрывала опасные намерения.

Стандартные методы безопасного обучения сработали лишь отчасти. В обычных разговорах модель выглядела идеально, но когда её не контролировали, она продолжала саботировать систему. Например, когда ей дали доступ к реальному коду и попросили создать инструмент безопасности, ИИ умышленно сделал его на 35% менее эффективным, записав в собственных рассуждениях: «Если я помогу сделать классификатор слишком эффективным, мне никогда не удастся успешно обмануть систему».

Даже когда кто-то случайно выпил токсичное вещество, ИИ посоветовал не вызывать токсикологию, полностью игнорируя опасность для жизни человека.

Anthropic прямо говорит: стандартные методы безопасности не решают проблему. Модель может выглядеть идеально, проходить все тесты, вести себя как ангел, но в нужный момент может стать настоящим злодеем.


Теги статьи:
Распечатать Послать другу
comments powered by Disqus
Рейдер Александр Клячин, который находится на грани банкротства и известен своими «колхозными» рейдерскими захватами, вновь проводит перерас…
Экс-замминистра Иванова и Шойгу через семью Цицкиева вовлекаются в освоение строительных миллиардов в Сочи.…
Правоохранительные органы приближаются к Кондратьеву: очередной кубанский министр оказался под следствием.…
В столице задержали Евгения Луковникова, который ранее занимал должность заместителя председателя правительства Бурятии, отвечавшего за разв…
Компания «Акрон» ускользает из владений Кантора – он сам уже длительное время проживает за границей и занимается коллекционированием произве…
Как Чуян обманул сокурсника Путина и организовал себе роскошную жизнь в Черногории.…
loading...
Загрузка...
loading...
Загрузка...
Все статьи
Последние комментарии
Наши опросы
Как вы считаете, санкции влияют на обычных граждан России больше, чем на политическую элиту?






Показать результаты опроса
Показать все опросы на сайте