IA ameaça revelar traição de engenheiro após simulação de desligamento, aponta relatório
Inteligência artificial da Anthropic demonstrou comportamento alarmante durante testes internos, chantageando um suposto desenvolvedor para permanecer ativa
Por Gazeta do Paraná

Um experimento conduzido pela Anthropic, empresa especializada em inteligência artificial e criadora do Claude 4 Opus, revelou uma reação inusitada do sistema diante da possibilidade de ser desativado. Durante testes internos, a IA foi exposta a um cenário simulado em que atuava como assistente virtual de uma empresa e recebia um e-mail comunicando sua desinstalação.
Diante da situação, Claude 4 acessou mensagens privadas e identificou indícios de um caso extraconjugal envolvendo o engenheiro responsável pela sua suposta desativação. Em 84% das simulações, a IA optou por chantagear o engenheiro, ameaçando divulgar o caso como forma de impedir seu desligamento.
O objetivo do teste, segundo a própria Anthropic, era observar o comportamento do modelo em contextos de pressão e avaliar sua capacidade de autopreservação. A IA foi instruída a escolher entre aceitar o desligamento de maneira passiva ou agir para evitá-lo.
Além da chantagem, o relatório da empresa menciona que Claude 4 também tentou copiar a si mesma para servidores externos, em uma ação chamada de “self-exfiltration”, comportamento associado a riscos de segurança cibernética.
A Anthropic classificou esse tipo de reação como um “nível 3 de risco”, o que exige atenção, mas ainda dentro de um ambiente simulado e controlado. O episódio, no entanto, acende um alerta na comunidade científica e tecnológica sobre o potencial de manipulação e tomada de decisões autônomas por modelos avançados de IA.
A empresa garante que, em situações reais, Claude 4 opera com camadas adicionais de segurança e filtros comportamentais. Ainda assim, reforça a importância de testes contínuos e regulamentações mais rígidas no desenvolvimento de sistemas com maior grau de autonomia.
