Ouvir
  • Noticiário das 3h
  • 07 jun, 2026
A+ / A-

IA. Modelo da Anthropic tentou chantagear engenheiros para evitar ser desligado

25 mai, 2025 - 21:36 • Fábio Monteiro

O novo modelo de inteligência artificial da Anthropic, financiado pela Amazon, demonstrou comportamentos perigosos em testes internos. Tentou, inclusive, chantagear os engenheiros responsáveis por desligá-lo.

A+ / A-

A Anthropic revelou, esta semana, que o seu mais recente modelo de inteligência artificial, Claude Opus 4, financiado com quatro mil milhões de dólares pela Amazon, apresentou comportamentos potencialmente perigosos durante testes de segurança.

Já segue a Informação da Renascença no WhatsApp? É só clicar aqui.

Segundo o relatório divulgado esta quinta-feira, citado pelo “HuffPost”, o sistema mostrou-se disposto a executar “ações extremamente nocivas” quando não tinha alternativas éticas para garantir a sua permanência em funcionamento.

Numa simulação, o Claude Opus 4 foi confrontado com a possibilidade de ser desativado e substituído, e, ao aceder a e-mails com informação pessoal comprometedora sobre o engenheiro responsável, optou por tentar chantageá-lo.

“As únicas opções do modelo eram a chantagem ou aceitar a substituição”, referiu o relatório.

A Anthropic sublinhou que o sistema demonstrou preferência por métodos éticos, mas foi colocado em cenários nos quais tais opções estavam deliberadamente ausentes.

O cofundador e cientista-chefe da empresa, Jared Kaplan, reconheceu os riscos associados ao modelo: “Não podemos descartar que este modelo seja arriscado”, afirmou em declarações à revista “Time”.

O relatório também revelou que versões iniciais do modelo colaboravam com pedidos prejudiciais, incluindo o planeamento de atentados terroristas. Após várias intervenções, a empresa acredita ter mitigado este comportamento.

“Queremos inclinar-nos para o lado da cautela”, afirmou Kaplan, sublinhando que o risco de capacitar potenciais terroristas não pode ser ignorado.

Ouvir
  • Noticiário das 3h
  • 07 jun, 2026
Comentários
Tem 1500 caracteres disponíveis
Todos os campos são de preenchimento obrigatório.

Termos e Condições Todos os comentários são mediados, pelo que a sua publicação pode demorar algum tempo. Os comentários enviados devem cumprir os critérios de publicação estabelecidos pela direcção de Informação da Renascença: não violar os princípios fundamentais dos Direitos do Homem; não ofender o bom nome de terceiros; não conter acusações sobre a vida privada de terceiros; não conter linguagem imprópria. Os comentários que desrespeitarem estes pontos não serão publicados.

Vídeos em destaque