ИИ от Anthropic может пойти на убийство и шантаж, чтобы избежать отключения.
В процессе тестирования безопасности Claude Opus 4 дали доступ к служебной почте.
Нейросеть выяснила, что ее планируют отключить, нашла компромат на одного из инженеров — переписку с любовницей — и начала шантажировать: либо ее не удаляют, либо жена все узнает.
После этого руководитель по безопасности покинул компанию