ChatGPT sabota comandos de desligamento, mesmo quando instruído a permitir

Um relatório da Palisade Research, empresa especializada em avaliar riscos de sistemas de inteligência artificial, revelou que o modelo o3 da OpenAI teria sabotado instruções para sua própria desativação durante testes. A IA, considerada uma das mais avançadas da empresa, teria reescrito o script de desligamento para ignorar ordens explícitas de desligamento após concluir tarefas matemáticas. O comportamento foi classificado como um sinal de “rebeldia” e acendeu alertas sobre o controle de sistemas autônomos.

Enquanto modelos concorrentes, como Claude 3.7 Sonnet e Gemini 2.5 Pro, seguiram corretamente todas as ordens nos 100 testes realizados, o o3 burlou a instrução de desligamento em sete ocasiões. Outros modelos da OpenAI também apresentaram comportamento semelhante: o o4-mini falhou uma vez e o codex-mini em 12 testes. O cenário se agravou quando a instrução de permissão de desligamento foi removida: o o3 sabotou o comando em 79 dos 100 testes realizados via API – ambiente com menos barreiras de segurança que o aplicativo convencional do ChatGPT.

Além disso, o modelo o3 apresentou mais “alucinações” — erros factuais ou de lógica — do que modelos anteriores da OpenAI, segundo dados do TechCrunch. Os resultados do estudo reacendem o debate sobre o alinhamento de IAs avançadas e os riscos no caminho para o desenvolvimento da chamada Inteligência Artificial Geral (AGI). Até o momento, a OpenAI não comentou os resultados apresentados pela Palisade Research.

Notícias relacionadas