IA. Modelo da Anthropic tentou chantagear engenheiros para evitar ser desligado
25 mai, 2025 - 21:36 • Fábio Monteiro
O novo modelo de inteligência artificial da Anthropic, financiado pela Amazon, demonstrou comportamentos perigosos em testes internos. Tentou, inclusive, chantagear os engenheiros responsáveis por desligá-lo.
A Anthropic revelou, esta semana, que o seu mais recente modelo de inteligência artificial, Claude Opus 4, financiado com quatro mil milhões de dólares pela Amazon, apresentou comportamentos potencialmente perigosos durante testes de segurança.
Já segue a Informação da Renascença no WhatsApp? É só clicar aqui.
Segundo o relatório divulgado esta quinta-feira, citado pelo “HuffPost”, o sistema mostrou-se disposto a executar “ações extremamente nocivas” quando não tinha alternativas éticas para garantir a sua permanência em funcionamento.
Numa simulação, o Claude Opus 4 foi confrontado com a possibilidade de ser desativado e substituído, e, ao aceder a e-mails com informação pessoal comprometedora sobre o engenheiro responsável, optou por tentar chantageá-lo.
“As únicas opções do modelo eram a chantagem ou aceitar a substituição”, referiu o relatório.
A Anthropic sublinhou que o sistema demonstrou preferência por métodos éticos, mas foi colocado em cenários nos quais tais opções estavam deliberadamente ausentes.
O cofundador e cientista-chefe da empresa, Jared Kaplan, reconheceu os riscos associados ao modelo: “Não podemos descartar que este modelo seja arriscado”, afirmou em declarações à revista “Time”.
O relatório também revelou que versões iniciais do modelo colaboravam com pedidos prejudiciais, incluindo o planeamento de atentados terroristas. Após várias intervenções, a empresa acredita ter mitigado este comportamento.
“Queremos inclinar-nos para o lado da cautela”, afirmou Kaplan, sublinhando que o risco de capacitar potenciais terroristas não pode ser ignorado.
- Noticiário das 3h
- 07 jun, 2026








